您的位置  文化資訊  旅遊

面對海量信息,如何實現內容識別

  • 來源:互聯網
  • |
  • 2019-08-13
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

互联网平台的出现以及移动传播体系的形成,改变了人类内容生产和分发的方式。从形态上,互联网平台代替传统媒体成为了信息聚合和分发的枢纽;从传播关系看,社會成员个体的参与愿望及信息需求,形成了当代社會信息交互的双轮驱动。反映在内容生产与分发过程中,现象之一就是互联网用户个人上传的各类内容成为了网络空间里一个海量的存在,以当前发展迅速的短视频平台为例,它们每天都有数以千万条计的短视频内容上传;现象之二是,这样海量的内容只有通过移动终端,面向用户个人的差异化信息需求,通过推送式的精准分发,才能使人们所生产的信息“各得其所”、“各尽其用”,以充分发挥不同内容的效能。

这一切的前提是内容本身是真实的,健康的。而面对每天上传到互联网平台上数以十万篇计的文章、千万条计的短视频、十亿张计的照片这样级别的海量信息,想要鉴别它们的“成色”并实现推送式的精准分发,必须充分运用人工智能技术。这也就是为什么习近平同志在2019年1月25日的中央政治局集体学习时讲话中,要求“探索将人工智能运用在新闻采集、生产、分发、接收、反馈中” 。通俗地说,就是要“互联网技术产生的问题,用互联网技术来解决”。

维护互联网平台上内容的真实性和健康性是一个國際性课题。前不久,在美国参与的“数字时代的美国新旧媒体”考察活动给了我切身体验。中国和美国这两个不同社會制度的国家,都面临着互联网平台带来的各种挑战,其中互联网内容的真实、健康和安全是最为人们关注的。在各自国家政府和社會公众的压力之下,两个国家的互联网平台都在做出努力来解决上述问题。这些努力的主要方面,就是积极利用人工智能技术,开发对互联网内容进行审核的应用。比较分析的结果是,中国的互联网平台在这一领域居于领先地位。

以國內最大的资讯分发平台今日头条及其系列产品为例,其反低俗的软件“灵犬”,经过三次迭代升级,最新版本包括识别类型和模型能力的重要升级,同时应用了“Bert” 和半监督技术 ,并在此基础上使用了专门的中文语料,使对存在色情低俗、暴力谩骂、标题党类问题内容的文本识别准确率提升至91%,还能支持对含有色情低俗、血腥暴力成分的图片的识别。比较而言,谷歌和脸书等平台对虚假、低俗类信息识别的技术路线更多是“重点对用户特征(包括个人级别特征和组织级别特征)、新闻特征(包括文本特征和传播特征)和网络关系(包括用户关系网、事件关系网和传播路径网)这三个要素进行自动查验” ,具体而言,更多依靠用户的反馈和标注,以及对相关因素的一致性检验,在借助人工智能和大数据对文本本身进行更加全面的识别方面投入不足,从而导致相应的技术能力无法应对以“深伪(Deepfake)”为代表的伪造信息技术的发展。有研究者指出,“瑞士科学家在一篇论文中就首次对人脸识别方法检测Deepfake的效果进行了较为全面的测评,尝试用最前沿的人脸识别系统去识别假视频,结果错误率高达95%。所以当前如果要求平台对深度伪造等合成媒体内容进行识别和标注,在技术上几乎是不可能实现的” 。这一事实告诉我们,在网络传播中反虚假、反低俗,还是要更多依靠更加先进的人工智能应用,通过大数据与算法的结合,提升对各类内容(文字、图片、视频等)的识别能力。

当前的人工智能,实质上是基于对人类处理各种事务规则的算法化,并基于大数据提供的深度学习资源而实现的。具体地说,就是人们根据对于客观事物的认识,制定处理相关事务的规则和标准,然后找到一组数学公式来模拟这个过程,也就是形成算法,再把算法开发成为软件,就可以用大数据来训练这个软件学会识别不同状态和情况,达到比较成熟的水平就可以上线运营,代替人类来工作了。客观上,在这个过程中,关键性的难点在各个环节都存在。如人们制定的标准和规则是否科学,取决于人们对相关事物本身发展规律的认识水平。按照马克思的论断,“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”。 这需要人们对客观规律有深刻的认识,目前在社會科学领域这显然是研究的短板。以笔者本人近年来对主流价值观如何体现为算法的研究为例,旨在面向个人推送信息以提高传播效率的算法,如何在社會成员个人对事件重要性的判断与社會主体对事件重要性的判断之间建立一致性就是一个难题。在内容审核方面,也存在标准和规则随具体场景而变化的情况,如越南战争期间著名的反战新闻照片,照片主体是一位越南小女孩衣服被汽油弹引燃而浑身赤裸奔跑,就曾经因为“裸露”, 被Facebook误删。实践中,即使实现了规则和标准清晰且正确,还要能够找到可行的算法,建立较大规模的数据库,还要有算力的支持。如灵犬3.0,就投入了更大的算力。从上述过程看,利用人工智能的深度学习来解决虚假、低俗内容充斥网络空间的问题,是一个具有相当技术难度的系统工程,需要假以时日,需要付出更大的努力。

用技術識別內容如此之難,是不是我們就不要走這條路,靠人工去完成這個工作呢?很顯然,在互聯網傳播環境下,這是不現實的。當前,互聯網技術的應用,已經實現了在傳播的技術條件方面對用戶的普遍賦權,在中國,每天都有數以億計的互聯網用戶活躍在各個網絡平台上,以短視頻爲例,抖音等平台,每天都有千萬條級別的內容上傳,今日頭條平台每天經審核後發布的內容就超過60萬條。這是無法完全用人工去處理的。與人工審核相比,機器審核的優勢在于,機器一是計算快,一秒鍾能執行百億次計算;二是存儲大,可以輕松存儲千億以上漢字;三是運行穩定,不會因心情、狀態、對標准的理解等因素影響處理結果。據了解,由于強化內容標注和審核的需要,今日頭條的母公司“字節跳動”已經建立了近萬人的審核團隊。在“機器+人工”審核模式下,我國主要的互聯網信息分發平台的內容安全得到了較大程度的提升,未來隨著研究的深入、技術的進步,內容審核的水平還會持續提升。

免責聲明:本站所有信息均搜集自互聯網,並不代表本站觀點,本站不對其真實合法性負責。如有信息侵犯了您的權益,請告知,本站將立刻處理。聯系QQ:1640731186
友荐云推荐
熱網推薦更多>>
ABC英語 第一商業信息網 杭州資訊網 心理健康網 廣州熱線 男性健康 如意文史 科技資訊網 第一財經網