算法定义的新型信息空间 ——基于网络搜索引擎特性的综合治理研究
Posted 京际环保
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了算法定义的新型信息空间 ——基于网络搜索引擎特性的综合治理研究相关的知识,希望对你有一定的参考价值。
[摘 要] 万维网的发明造就了规模庞大的世界性信息库袁借助网络搜索引擎袁用户可以主动地寻找自己需要的信息袁从而获得空前广阔的视野遥 同时袁搜索引擎的算法在很大程度上定义了用户的信息环境袁并以微妙或明显的方式影响人们的社会认知袁塑造人们的态度和行为袁进而影响社会秩序和社会发展遥 从技术角度看袁网络搜索引擎通过设计特定的算法来收集尧判断尧排列信息袁大大提高了用户的信息获取效 率袁但基于统计的算法尚不能像人工那样对信息价值尧信息质量作出精准的判断曰从商业视角上看袁搜索 引擎公司的盈利模式与其需要承担的社会责任存在一定的矛盾袁基于利润追求的算法设计可能影响搜索 结果的公正性和客观性袁进而造成不同程度的社会危害曰从社会视角看袁搜索引擎正在被一些洞悉其算法 特点的人与机构巧妙地加以利用袁成为信息造假尧信息操纵的工具遥 以上原因导致搜索引擎可能扭曲社会信息环境袁对个人认知与社会进步来说袁它是一个野变量冶袁要使之成为事业发展的野增量冶袁需要形成多主 体多手段的综合治理格局遥 当前袁深入研究搜索引擎媒体特点及其传播规律袁以社会责任为导向不断改进和完善搜索算法袁建立面向公众的网络媒体素养教育体系是三项重要的基础工作遥
[关键词] 万维网曰社会信息曰搜索引擎曰新媒体曰算法曰网络综合治理曰媒体素养
[作者简介] 罗教讲袁武汉大学社会学院教授袁博士生导师曰刘存地袁武汉大学社会学院博士研究生袁湖北 武 汉 430072
[中图分类号] IG206.7 [文献标识码 ] A[文章编号] 1004- 4434(2019)03- 00 -13
互联网带来了传播工具的革命袁网络新兴媒体正成为公众最主要的社会信息来源遥习近平同志指出院野互联网是一个社会信息大平台袁亿万网民在上面获得信息尧交流信息袁这会对他们的求知途径尧思维方式尧价值观念产生重要影响袁特别是会对他们对国家尧对社会尧对工作尧对人生的看法产生重要影响遥冶[1]互联网新媒体所营造的信息环境在很大程度上界定了人们观察社会和他人的视野袁并进而影响着社会秩序与社会发展遥 与传统媒体一样袁它既有正功能也有负功能袁在成为社会发展的重要推动力的同时袁也伴生了诸多始料不及的信息乱象遥 网络空间不会自然而然地风清气正袁净化其信息生态必须建立有效的综合治理体系袁已经成为社会各界的共识遥 而野治网冶必先野懂网冶袁要对任何一种社会信息媒体实施有效治理袁首先必须对其有充分的认识袁然后方能对症下药袁科学地建章立制袁实现法治化尧常态化治理遥 因此袁互联网新媒体研究袁即对各种新媒体的功能尧特点尧传播规律尧社会影响及其形成机制的研究袁成为传媒社会学的新课题遥 对搜索引擎的研究是这项课题的重要内容之一遥在互联网的各种信息平台中袁搜索引擎是最为独特的新生事物遥受众从传统媒体的信息获取方式有很强的被动性袁而搜索引擎可以帮助互联网用户主动地在信息海洋中寻找尧使用自己需要的信息遥 搜索引擎目前已成为互联网的高频应用袁它一方面帮助人们获得空前广阔的视野袁另一方面也产生了污染尧扭曲用户的社会信息环境等负面效应遥例如袁大量低俗尧劣质尧不健康内容常常出现在搜索结果中袁而且排序靠前曰一些假新闻尧谣言借助搜索引擎平台泛滥曰夸大性尧误导性尧欺诈性的搜索引擎广告袁在造成严重后果后仍然屡禁不止遥搜索引擎为用户营造的是怎样的社会信息环境钥为什么会衍生出这些网络乱象钥 其负面效应的形成机制是怎样的钥 对这些问题的正确认识袁是寻找其改进尧完善方法的不可或缺
1
的前提条件遥
一尧搜索引擎的信息来源尧发展历程与媒体特点
要分析搜索引擎所营造的社会信息环境袁必须先了解其信息的来源尧信息的组织与处理方式袁进而发现其信息的选择机制尧呈现方式遥
渊一冤信息来源院万维网技术造就的世界性信
息库
搜索引擎与传统媒体及其他互联网新媒体的最大不同在于袁它自身并不生产信息袁它给用户呈现的信息来自于万维网渊World Wide Web冤遥互联网出现的最初 20 年袁主要是为军事部门和学术科研服务袁真正推动互联网向全社会快速普及的是英国计算机科学家蒂姆窑伯纳斯窑李渊Tim Berners-Lee冤发明的万维网技术遥万维网采用客户端要服务器工作模式袁能够使全球范围的用户极为便捷地连接到互联网袁而不再需要经过一系列复杂的操作袁因而大大方便了用户的信息交流与信息查询遥 1991 年袁第一个万维网公共服务在互联网上登场袁这一事件成为互联网发展史上的分水岭遥此后这项发明被推广袁为互联网提供最重要的信息服务[2]遥
用于展示信息内容的网站渊Website冤是万维网的重要组成单元袁每个网站包含若干数量的网页遥万维网是由大量网页交织连通而成的一张大网袁其中网页是节点袁节点之间的连接称为链接遥 每个节点既有从自身出发指向别的节点的链接袁也有从别的节点指向自身的链接遥 网站的构建者可以利用网站发布自己想要传播的信息袁 或提供相关的服务曰互联网用户则可以通过浏览器访问网站袁获取自己需要的信息或者其他服务遥
不论是组织还是个人袁任何想发布尧传播尧聚合信息的互联网用户袁都可以建立自己的网站袁一些网站还支持用户进行大规模的互动交流渊如社交媒体网站冤遥 从 1991 年第 1 个网站诞生起袁全球网站数量一直在快速增长袁1997 年达到百万数量级袁2000 年达到千万数量级袁2007 年突破 1 亿袁 此后
10 年更是呈爆炸性增长趋势袁2017要2018 年网站数量约为 17 亿淤遥 这些网站每天都在生成尧发布各种信息袁万维网上承载的信息量也一直处在高速增长之中袁由此造就了一个世界性的信息库遥 网站的构建者以及广大互联网用户是这个信息库的信息生产者袁数量众多袁成分极为复杂多样袁价值取向各
有异同袁知识水平与信息素养参差不齐遥 这一方面使万维网的信息内容包罗万象袁涵盖了社会生活的方方面面曰另一方面也决定了其信息价值尧信息质量的良莠不齐遥
用户从万维网获取信息的方式可分为浏览式和搜索式两种遥浏览式获取指用户通过浏览某些网站来获取信息袁这种方式与大众传媒时代的信息获取很相似袁一个个网站就相当于各种报纸尧电视台与电视频道遥 但随着万维网承载的信息量快速增多袁以及各种用户的信息需要的多样性与差异性袁不可能有哪一个网站能够完美契合用户的全部信息需要遥 同时袁用户需要的信息往往分布在不同的地方袁而面对数以十亿计的包含大量网页内容的网站袁用户不可能以逐条浏览的方式去找寻自己所需要的信息袁浏览式获取越来越难以满足用户的需要遥 要充分发挥万维网的信息优势袁就需要一种适应万维网信息特点的检索工具袁帮助用户在迷宫般的信息海洋中快速尧便捷地找到所需要的信息袁搜索引擎正是为解决这一问题应运而生遥
渊二冤发展历程院从目录式搜索引擎到全文搜索引擎
搜索引擎是能够在计算机网络中检索各种文件尧为互联网用户提供信息检索服务的系统[3]袁其服务方式是袁当用户需要查询某种信息袁只要在浏览器的搜索框中输入查询内容的提示渊如关键词冤袁该提示会通过互联网提交给搜索引擎袁搜索引擎为用户进行查找袁并把查找结果以网页信息列表的方式返回给用户遥
在万维网发展早期袁网站数量相对较少袁信息
量还不是太大遥这一阶段出现的信息检索工具是目录式搜索引擎袁即服务商预先对各种网站中的网页信息进行收集袁制作出一个目录检索系统曰当接到用户的信息查询请求时袁服务商依据目录查找相关信息袁然后把结果列表返回给用户遥 比较有代表性的目录式搜索引擎服务商是早期的雅虎和搜狐袁当时目录检索系统的制作与更新主要以人工方式来完成袁由编辑人员对网页信息进行甄别尧分类尧整理遥这种方式的优点是准确率高袁但局限性也是非常明显的袁以人工方式维护目录检索系统不仅成本很高袁而且能编辑的信息量是有限的袁如果网站很多尧网页更新很快袁就难以靠人力及时对目录检索系统进行刷新[4]遥
随着互联网应用的领域越来越广泛袁网站快速增加袁这种依靠人工编辑的目录式搜索引擎很快就
2淤网站数量的有关数据获取自野互联网实时统计冶渊Internet Live Stats冤网遥 https://www.internetlivestats.com/total-number-of-websites/.
无力应对呈指数式增长的网页信息量了遥面对这一问题袁IT 界的技术创新者们首先想到的就是借助计算机强大的计算能力袁通过设计一系列算法袁让计算机取代人工来完成对网页进行全文检索尧随网页更新及时刷新信息列表等工作袁 由此出现了以谷歌尧百度为代表的第二代商业搜索引擎要全文搜索引擎遥
全文搜索引擎采取一定的策略袁运用特定的程序让计算机自行搜集万维网上的信息袁并对信息进行分析尧组织尧处理袁建立起专门的数据库袁为用户提供检索服务遥 全文搜索引擎具有查询信息量大尧查询范围广尧查询时间短尧操作简便等优势[5]袁而且一般是免费服务袁这使其备受用户青睐袁经历短短几年的发展完善后得到了广泛应用遥
除了目录式搜索引擎和全文搜索引擎外袁还有一种元搜索引擎遥 元搜索引擎没有自己的数据库袁当用户查询信息时袁元搜索引擎将用户所输入的查询请求同时发送给多个全文搜索引擎袁然后对返回的结果进行汇总尧处理袁再将其作为自己的搜索结果返回给用户[6]遥 元搜索引擎虽然有集多家之长的特点袁但需要以全文搜索引擎为基础袁而且它的用
图 1 2005要2018 年搜索引擎使用率
如前所述袁搜索引擎并不生产信息袁它以万维网为信息来源袁通过复杂的算法为用户组织尧处理尧呈现信息遥 由于万维网信息超载袁即信息量远远超过了个人信息接收和处理能力的上限袁所以对用户来说袁其中绝大部分信息实际上是不可见的袁至少是不易见的遥用户在具有较为明确的指向性的情况下袁通常都会借助搜索引擎来获取信息袁而他们得
户较少遥 以谷歌尧百度为代表的全文搜索引擎一直牢牢地占据着主流地位袁成为用户主动性获取信息时的首选工具遥
渊三冤媒体特点院庞大的用户规模与算法选择
机制
作为一种新型媒体袁搜索引擎有两个主要特点院一是用户规模庞大袁其社会影响面和影响力不断增大尧增强曰二是运用计算机算法而非人工对信息进行筛选袁具有与传统媒体截然不同的信息选择机制遥
搜索引擎是打开世界性信息库的一把钥匙遥用户只要在搜索框里输入关键词并点击搜索袁计算机屏幕转瞬就会出现大量相关信息的列表遥 如今袁搜索引擎已经是互联网的高频应用之一袁拥有庞大的用户规模袁在网络信息世界里扮演着越来越重要的角色遥 据 2005要2018 年历次叶中国互联网发展状况统计报告曳中相关数据袁搜索引擎的使用率在2005 年 12 月为 65.7%袁至 2018 年 12 月已稳步上
升至 82.2%曰手机搜索使用率也由 2009 年 6 月的
26.2%增长到 2018 年 12 月的 80.0%淤遥 如图 1尧图 2
所示遥
图 2 2009要2018 年手机搜索使用率
到的是搜索引擎对海量信息内容进行筛选尧排序后给出的信息列表袁列表内排名靠前的若干信息成为他们的可见或易见信息遥 换言之袁当用户主动地从万维网获取自己想要的信息时袁他们看到的是搜索引擎从万维网中为他们筛选出来袁并优先推荐给他们的信息遥 正是这些信息为用户呈现世界的图景袁以微妙或显著的方式影响他们的社会认知袁 并进
淤2007 年 1 月发布的叶中国互联网发展状况统计报告曳中袁2006 年 12 月搜索引擎使用率数据缺失袁但这不影响对搜索引擎使用率整体
发展趋势的判断遥3
而塑造他们的态度和行为遥
综合上述分析可见袁搜索引擎作为一种新型媒体袁它的信息生产者是极具差异性的广大互联网用户袁其信息内容包罗万象袁但信息价值与信息质量良莠不齐遥 在这种情况下袁搜索引擎要成为一种有利于社会认知的媒体袁是否具备优良的信息选择机制就极为重要遥 一个能很好地承担社会责任的媒体袁应当从庞杂的信息中袁筛选出真实尧重要尧具有代表性的社会信息袁以及客观尧理性尧公正的观点袁并且兼顾信息的平衡袁以帮助受众全面尧准确地认识社会环境袁引导受众正确地分析和思考各种社会问题遥 而搜索引擎是通过特定的算法来收集尧筛选信息的袁因此袁研究搜索引擎的信息选择机制需要从算法原理尧影响算法设计与使用的因素入手遥
二尧算法驱动院搜索引擎的信息搜集与信息筛选
要了解搜索引擎如何通过特定的算法来收集尧筛选信息袁必须清楚其工作原理袁以下首先从技术角度对之展开分析遥 全文搜索引擎由下载系统尧分析系统尧索引系统和查询系统组成袁其工作原理可表示如图 3遥
图 3 全文搜索引擎的工作原理
渊一冤下载系统院信息的收集与存储
型的网页信息遥网络爬虫是一种能够自动抓取公共可访问网页中的文本尧图片等数据的程序渊需要注意的是袁有些网页是拒绝野网络爬虫冶访问的冤遥
野网络爬虫冶选取万维网的某一个节点作为抓取数据的起点袁沿此节点的链接指向漫游到下一个节点袁再根据下一个节点的链接指向漫游到下下个节点袁如此继续下去遥虽然从理论上说袁用这种方法能够遍历万维网中的每个节点袁从而收集到全部的网页信息袁但实际上袁由于计算机的工作负荷能力尧带宽资源等限制袁下载系统只能优先下载那些重要性较高的网页袁以提高信息收集效率尧控制信息收集成本遥野网络爬虫冶通常会选取目录型网页作为种子站点袁从种子站点开始抓取网页信息遥 这实际上是基于这样一个假定要在一般情况下袁距离种子站点越近的网页袁其重要性越高[7]遥
野网络爬虫冶昼夜不停地在万维网的信息世界里漫游袁大约需要 10~20 天可将万维网中允许被访问的网站遍历一次淤遥 万维网是一个动态的系统袁每天都会增加新的网页袁旧的网页可能被修改或删除遥 野网络爬虫冶能够依据泊松模型理论对新增的网页尧有修改的网页进行重访袁以尽量保持和万维网的更新同步袁为用户提供最新的信息[8]遥 借助野网页快照冶技术渊对网页进行备份袁存储在搜索引擎服务商的服务器缓存里冤袁下载系统还能够把一些被删除的网页数据预先保留下来遥野网络爬虫冶抓取到的网页数据体量巨大袁抓取之后需要及时以合适的方式进行存储袁以便今后能够快速地读取它们遥
渊二冤分析系统院网页信息的预处理
当下载系统完成信息的收集与存储后袁搜索引擎的分析系统对这些数据进行信息抽取尧 网页去重尧分词处理和网页排名渊Page Rank冤计算等处理遥信息抽取院网页的原始数据是半结构化数据袁
分析系统的功能是通过建立标签袁从这些半结构化数据中将那些有价值尧能代表网页特征的属性抽取出来袁并将其组合为一个网页对象袁以实现野网页数据的结构化冶遥在野结构化冶过程中袁会保留网页中的一些重要信息渊如标题尧正文冤袁去掉无用的信息渊如插入的广告冤袁以尽量节省存储空间遥需要特别说明的是袁这种野结构化冶并不是把文本等非结构化数据完整地转化成结构化数据袁而是从中提取若干属性尧特征袁然后将这些属性尧特征以结构化的方式表
达出来遥
下载系统又称为野搜索器冶袁它通过一种名为
野网络爬虫冶的程序袁从万维网上发现和下载各种类
网页去重院在网络爬虫搜集的网页中袁会有很多相同的或高度相似的需要运用网页去重技术来
4淤不同的搜索引擎服务商渊如谷歌尧百度冤的遍历范围与周期有所不同遥
删除袁以节约存储空间袁降低此后查询的成本袁使查询结果更加多样化遥
分词处理院对文本进行分词袁以便建立索引袁为利用关键词进行查询作好准备遥 在英文文本中袁单词之间有空格符号袁根据空格符号就可以将英文文本切分出单词遥而中文文本中字词之间没有空格符号分隔袁字词的不同组合会产生不同的含义遥 有时即便文本中的字完全相同袁不同的分词方式会使其含义发生很大的变化袁因此中文分词更为复杂袁难度更大袁不可避免地存在一定的差错率[9][10]遥
网页排名院不同的网页袁其重要性不同袁因此需要通过网页排名算法来标识网页重要性等级袁使越重要的网页排名值越高袁在排序时越靠前袁以便检索时更容易被找到[11]遥
渊三冤索引系统院网页对象数据的组织
网页信息经过分析系统的预处理后袁接下来就可以建立索引遥 搜索引擎的索引系统又称野索引器冶袁它的功能是将分析处理后的网页对象渊不是网页信息冤索引入库遥 索引系统对网页对象文件进行编码并存入数据库袁然后将数据库中的文件以一定的规则进行排序袁产生全文索引遥 目前建立索引的常用方法和技术有顺排文档检索尧倒排文档索引尧后缀数组索引等遥
索引库是网页对象数据及其存储位置的列表遥能否保证野存得下冶和野查得快冶是索引系统的关键袁既要存储海量的网页数据袁还要能支持多用户同时进行检索袁在低于秒级的时间里检索出结果并返回给用户遥
渊四冤查询系统院信息的检索与排序
查询系统又称野检索器冶袁它的功能是为用户提供一个可输入查询请求的界面袁并在接到用户输入的查询请求后袁经过检索尧排序尧摘要提取等计算袁将结果排成网页信息列表返回给用户遥查询系统并不是实时地在整个万维网上搜索信息袁而是在预先搜集尧整理好的网页索引库中寻找与用户输入内容相关的网页对象袁再根据网页对象给出相应的网页信息遥
在通常情况下袁查询系统检索出来的信息量会很大遥用户查询实际上是野top-n 查询冶袁即一般不会将整个信息列表逐条看完袁只会浏览前 n 项查询结果[12]遥 这就需要对检索出来的信息进行排序袁使高相关性尧高质量的网页尽量在信息列表中位置靠前遥 查询系统较常使用的排序方法有三种院一是词频统计法袁即根据查询关键词在网页文档中的出现次数来判断相关性袁假定出现次数越多袁其相关性
就越高袁排序位置就越靠前曰二是超链接分析法袁即根据网页所具有的链接来判断其重要性和信息质量袁假定与其链接的网页越多尧越具权威性袁则其重要性和信息质量就越高袁排序就越靠前曰三是点击率法袁即根据网页的被关注度来判断其重要性袁假定网页被点击次数越多袁其被关注度越高袁重要性就越高袁排序也就越靠前[13]遥 在各种搜索引擎的查询系统中袁更多的是将以上三种方法混合使用袁赋予不同的权重袁计算出分值袁按分值的高低来排序遥需要指出的是袁以上对网页的重要性尧信息质量的判断方法袁都是基于对网页的某些特征变量的统计袁而非基于对网页信息内容的理解袁因此除了概率上的准确性外袁还有一种不属技术范畴而出于商
业目的的排序方法要付费竞价法袁即以网页付费的价格高低来确定排名顺序袁也为搜索引擎公司普遍采用遥
了解了全文搜索引擎的工作原理袁就很容易发现其优势与局限遥全文搜索引擎运用计算机取代了人工袁实现万维网信息的快速自动查询袁为用户提供了一种便捷的信息获取方式袁避免用户在世界性信息库中大海捞针遥 但任何技术都存在能力边界袁全文搜索引擎并不是完美的袁它的局限性主要表现在以下几个方面遥
第一袁并非收集全部网页信息遥 尽管搜索引擎公司一般都称自己的野网络爬虫冶是面向全网的袁但实际上不可能真的把万维网中的全部网页信息一个不漏地抓取下来遥如前所述袁出于成本尧时间等因素的制约袁野网络爬虫冶通常是优先下载被认为重要性较高的网页袁因此不可避免地会有遗漏渊虽然遗漏的比例可能不大冤遥 此外袁由于野网络爬虫冶有 10-
20 多天的遍历周期袁搜索引擎的数据也不是与万
维网信息严格同步遥 以上情况会导致搜索引擎的
野查不到冶问题遥5
第二袁对网页重要性的判断会存在一定偏差遥计算机对网页信息的重要性并不是在理解其内容的基础上进行直接判断袁而是根据距种子网页的距离尧相关链接的数量和指向等袁通过统计方法作间接判断遥 这种间接判断只具有概率上的准确性袁因而一些重要性信息可能在网页排名与查询排序中靠后袁位于用户浏览的野top-n冶之后袁成为不可见或不易见信息袁基本等同于被过滤掉了曰而一些并不重要的信息可能由于在某些统计指标上占优袁被排在靠前的位置遥
第三袁信息分析处理会存在一定偏差遥 在抓取网页信息之后袁搜索引擎对网页信息进行的一系列分析处理袁包括通过属性提取将其结构化为网页对象尧分词处理尧网页对象排名尧查询结果排序等袁都是依靠计算机算法来实现的袁而这些算法也都是基于统计而不是基于理解的遥由于网页信息内容极具多样性袁基于统计的算法不可能保证完全准确袁因此信息处理必然存在一定的偏差性遥这种偏差性会导致搜索引擎的野查不准冶问题遥
第四袁缺乏对信息质量的判断能力遥 搜索引擎对信息质量的判断能力相当有限袁一般甄别不了信息的真与伪尧对与错尧有利与有害遥 换言之袁以当前自然语言处理技术的水平袁是无力对信息的质量进行有效把关的遥
算法驱动的搜索引擎在信息收集与信息筛选上的这些技术缺陷袁会导致其对在为用户提供相关社会信息时袁常常难以保证信息的重要性尧代表性尧平衡性袁尤其难以保证信息的质量遥 由于搜索算法不是基于理解而是基于统计方法袁所以它尚不真正具备野去粗取精袁去伪存真冶的能力袁难以甄别出假新闻尧谣言等虚假信息袁也难以精准识别那些低俗尧色情等不健康的信息内容袁以致无法将这些劣质信息过滤掉袁甚至有时还会将其列于搜索结果列表中很靠前的位置遥 从媒体社会责任的角度来看袁当前的搜索算法还不是一个合格的野信息把关人冶遥目前搜索引擎公司的计算机工程师们在算法改进方面的努力袁似乎还主要是致力于如何使搜索引擎野查得更准冶野查得更快冶袁而信息价值尧信息质量尚未成为关注的重点遥
三尧利益导向院盈利模式与社会责任之间的冲突
对于企业而言袁获取利润是生存和发展的条件袁搜索引擎服务商自然也不例外袁谷歌尧百度等搜索6
引擎公司需要持续投入大量的资金袁支持庞大的研发投入尧硬件开支和运营费用袁盈利是其立足之本遥
渊一冤广告收入院搜索引擎公司的主要利润来源
搜索引擎最初的盈利方式是给企业尧政府部门等提供技术支持袁通过技术授权获取收益遥 由于搜索引擎核心技术有很高的专业技术要求袁其研发工作需要耗费大量的人力尧物力和财力袁所以很多政府网站尧企业网站尧门户网站更愿意选择付费使用著名搜索引擎公司的搜索技术遥对于专业的搜索引擎公司来说袁一旦将核心技术研发成功袁就能通过技术授权袁使自己的核心技术应用于一些网站袁同时收取技术服务费遥例如袁谷歌在早期就给雅虎尧网 易等门户网站袁思科尧宝洁等跨国企业袁美国能源部等政府机构提供搜索技术袁并按照搜索的次数来收取使用费遥当时袁技术授权占谷歌收益的 30%袁仅雅虎每个季度就给谷歌带来几百万美元的收入遥 再如袁硅谷动力尧新浪等门户网站购买了百度的搜索技术袁给百度公司带来一定的收益[14][15][16]遥 技术授权主要面向较大的网站袁尽管每一笔交易带来的收益比较可观袁但由于受众面并不广袁故而总体收入仍然是有限的袁尚不能满足搜索引擎公司规模发展的需要遥 经过一段时期后袁互联网形成了庞大的用户规模袁网络广告开始蓬勃发展遥 广告商在广播尧电视尧报纸尧杂志等传统媒体上投放广告袁主要是针对特定的人群袁虽然能够接触到大量的目标客户袁但一般费用较高袁而且对于那些不常接触这些媒体尧对这些媒体不感兴趣的消费者来说袁产品信息无法传递给他们遥 因此袁覆盖率越来越大的互联网逐步成为最受青睐的广告发布平台袁已成为互联网高频应用的搜索引擎也具备了进军广告市场的条件遥
以谷歌为代表的搜索引擎公司敏锐地察觉到了巨大的商机袁在广告投放上进行了一系列卓有成效的创新袁使广告收入成为其主要利润来源遥 它们充分发挥了自身的优势袁通过搜集每天数以百万计的搜索引擎用户的搜索信息袁分析用户的需求袁判断消费者需要的是什么袁尽力实现广告的精准投放遥 广告商通过搜索引擎这个平台袁能够将广告传递给用户袁用户能够直接链接产品信息袁从而真正搭建了用户与广告商之间连通的桥梁遥 并且袁搜索广告并不是只在固定的某一时间段出现袁而是全天都在线展示曰广告商还能够随时地调整投放广告的地区尧关键词等袁只要广告商有需要调整变动的地方袁广告平台能够保持同步更新遥此外袁搜索广告开通账户也较简便袁启动资金也不高曰搜索引擎公司还可以按广告的实际点击收费袁单次费用一般很
低曰合作方式也比较灵活袁广告商对广告效果满意袁可以自行续费袁如果不满意袁可以随时终止[17]遥
如今袁搜索引擎已经成为重要的营销媒介袁搜索引擎公司也因此形成了新的盈利模式要使用者免费袁广告商买单遥 以中国的搜索市场为例袁艾瑞咨询公司叶2018 年中国网络广告市场年度监测报告曳提供了自 2013 年起中国搜索引擎公司营收尧
搜索广告市场营收规模的数据袁以及对未来 3 年发展趋势的预测[18]遥 如图 4 所示遥
图 4 中国搜索引擎企业营收尧搜索广告市场营收规模及预测
从图 4 可以看出袁中国搜索引擎企业营收市场
规模从 2013 年的 394.6 亿元袁 一直稳步提升袁至
2017 年已增至 1124.1 亿元遥 其中袁搜索广告市场
营收规模从 345.2 亿元上升至 852.3 亿元遥 虽然占搜索引擎企业营收规模的比例呈现下降的趋势袁但始终保持在 60%以上遥
另据智研咨询所整理的数据显示袁2016 年袁中国搜索引擎企业总收入中袁占比最大的为关键词广告收入袁规模达到了 652 亿元袁占比 72.3%曰联盟展示广告和其他广告收入规模超过 100 亿元袁占比均超过 10%曰导航广告的收入规模达到了 25 亿元袁占比 2.8%曰非广告收入规模还不足 1%[19]遥 如图5 所示遥
以上两份报告的数据虽略有出入袁但仍足以表明广告是中国搜索引擎企业收入的最主要的来源袁而其中又以关键词广告为核心业务袁其对搜索引擎公司的盈亏有着决定性的作用袁而联盟展示广告和其他广告起到了辅助作用遥
图 5 2016 年中国搜索引擎市场收入形式结构及收入规模
注院 据智研咨询整理的 2016 年中国搜索引擎市场收入形式结构及收入规模改绘遥
渊二冤竞价排名院搜索引擎的最主要广告形式
关键词广告的投放袁是在用户以某一关键词进行信息查询时袁搜索引擎在返回查询结果的页面中呈现与关键词相关的广告内容遥关键词广告一般以两种方式出现院一是在检索结果页面的右侧袁有需要的或感兴趣的用户可以点击查看袁不感兴趣的用户可以直接忽略袁这种方式不会影响用户的搜索结果列表曰二是直接排列在检索页面左侧的搜索结果列表中袁用户在浏览搜索结果时袁无法避开这些广告袁这些以与检索结果同时出现的广告主要有两种要竞价排名广告和固定排名广告遥
第一袁竞价排名广告遥 竞价排名就是让广告商们在关键词价格上竞标袁以此决定其广告在搜索引擎检索结果中的排列顺序遥搜索引擎公司对关键词进行拍卖袁广告商则对与自己广告相关的关键词出价遥搜索引擎根据广告商出价的高低来决定其广告在检索结果中的先后顺序袁出价越高排名越靠前遥收费则遵循野按效果付费冶的模式袁按广告链接的有效被点击次数伊单次价格来计算袁如果广告链接没有被用户点击袁则不收费[20]遥 竞价排名广告收入目前是搜索引擎公司最主要的营收来源[21]遥
第二袁固定排名广告遥 固定排名是指搜索引擎公司与广告商预先签订协议袁约定将广告链接排在搜索结果列表的某一固定位置遥 一般情况下袁广告所处的位置由广告商竞价决定袁该位置在协议有效期内保持不变遥与竞价排名的野按效果付费冶模式不同袁 固定排名广告的收费在双方签订协议之时约定遥此外袁关键词也在协议签订时予以确定袁如广告
7
商想增删尧修改关键词袁则需要重新签订协议[22]遥
对广告商尤其是中小企业的广告商来说袁在搜索引擎上投放广告不仅受众面更宽袁而且能够以更加灵活的方式运营遥由于搜索引擎是根据用户检索的关键词显示相应的广告袁因而广告能够较为精准地针对目标消费者群体遥 因此袁与传统的广告营销方式相比袁搜索引擎广告往往能达到更好的效果遥 对搜索引擎公司来说袁按照用户对搜索广告的点击量和广告商的竞价来收费袁形成了一种新的盈利模式袁这种模式使搜索引擎公司获得了相当丰厚的利润袁也给搜索市场带来了更大的发展空间遥 这对搜索引擎企业和广告商来说是一件互利双赢的事情袁但是对互联网用户来说就不一定了遥
搜索引擎公司要获得更多的广告收入袁需要从两个方面着手袁一是继续扩大搜索引擎的用户规模袁二是尽量精准地把潜在客户引向广告商遥 随着搜索引擎公司对市场需求有了越来越清晰的领悟袁它的计算机工程师们的很多技术创新都是围绕这两个目标展开遥 然而袁在把搜索引擎打造成一个强有力的营销工具之时袁他们中大多数人尚未深刻地意识到搜索引擎已经成为负有社会责任的新型传播媒体遥搜索引擎公司在商业宣传中更多的是展示其技术的先进性与优越性袁而对其局限性往往有意或无意地予以回避或淡化遥搜索引擎公司不会向用户强调它们的算法对信息质量没有判断能力曰也不会向用户强调它们会把付费广告商想让你看到的信息优先呈现曰更不会告诉用户袁由于搜索引擎广告的发展是爆发式的袁以科技起家尧以广告收入为支柱的搜索引擎公司还缺乏作为媒体所必须具备的广告业务管理能力遥 当然袁回避不等于问题得到解决袁使用者免费尧广告商买单的盈利模式袁很快就衍生出不容忽视的社会问题遥
渊三冤广告盈利模式衍生的负面效应
尤其是作为其核心业务的竞价排名广告袁这些问题在医疗药品广告方面暴露得最为明显遥 自2003 年起袁谷歌就因为网络药品广告问题而频繁
遭到各国监管部门的调查和质询遥 2009 年叶华尔街日报曳叶连线曳等知名媒体深度报道了谷歌的一起虚假药品广告事件院2008 年袁一个美国假药贩子惠特克在被捕后供述袁谷歌广告销售人员曾在明知不合法的情况下袁主动帮助他避开搜索引擎的过滤机制袁在网上投放假药广告遥 美国司法机构为了取证袁进行了一次著名的钓鱼式调查遥司法机构给惠特克伪
造了一个新身份袁让他重演与谷歌广告销售人员合作卖假药的全过程遥 在数次钓鱼式调查取证过程中袁谷歌客服积极帮助惠特克优化尧分析尧挑选和购买关键词广告袁甚至帮助他将网站改头换面袁伪装成一家医疗信息网站袁通过暂时去掉首页药品广告和购买按键的方法袁蒙混通过谷歌的自动审核机制袁然后再恢复购买选择遥 这起事件让谷歌颜面扫地袁2011 年 8 月袁谷歌与美国司法部就此事达成和解袁为此支付了 5 亿美元的巨额罚金[23]遥
2014 年比利时佛兰德地方政府支持拍摄了一则公益宣传片要叶请勿谷歌你的疾病曳袁向公众警示搜索引擎并不是可靠信源淤遥 但是袁百度并未吸取谷歌的教训袁比利时的这则公益片也未引起中国搜索引擎用户普遍关注袁很多人依然通过百度求医问药遥 直至 2016 年的野魏则西事件冶的发生袁酿成震动全国的悲剧袁搜索引擎发布虚假医疗广告的危害才引起社会各界的重视遥 搜索引擎广告的竞价排名机制开始受到强烈质疑袁很多人都认为这种机制影响了搜索结果的公正性和客观性袁搜索引擎提供的信息不再是用户最需要的信息袁而是那些向搜索引擎公司付费的商家希望用户看到的信息袁信息的排列顺序是基于野价冶而非基于野准冶袁质量高的信息很可能排在检索结果靠后的位置曰更为严重的是袁如果搜索引擎公司没有广告审核能力或出于利益驱动不履行广告审核的义务袁可能产生广泛的社会危害遥
按理说袁在遭受天价处罚尧酿成重大悲剧之后袁谷歌尧百度应当引以为戒袁深刻认识到互联网新媒体的社会责任袁加强企业自律遥然而袁事实却不容乐观遥 据相关报道袁2018 年袁谷歌的医疗广告占比仍然高达 41%袁广告中不乏夸大之词袁而竞价排名依旧是最主要采用的方式[24]遥 谷歌在技术上继续升级袁医疗广告借助人工智能技术实现更为精准的推送袁重点转向移动端袁且投放尺度加大[25]遥 与之类似袁在魏则西去世 3 年后袁百度也再次上线医疗广告的竞价排名业务遥 据新闻报道袁百度市场人员称疾病搜索的相关广告付费即可置顶袁甚至野可仿冒公立医院的链接给民营医院引流冶[26]遥 与之前的情况相比袁百度所作的改进只是将那些临床不能治愈的重大疾病排除在付费广告之外遥 而不论是谷歌还是百度袁都没有向外界有说服力地证明袁它们已经具备了可靠的医疗广告审核能力袁建立了足够完善的把关机制遥
8淤可参见叶请勿谷歌你的疾病曳视频袁腾讯视频https://v.qq.com/x/page/p0197lcgfvn.html.
问题不仅仅在医疗广告袁但凡有利益的地方袁搜索引擎公司常常禁不住诱惑遥例如袁2010 至 2017 年间袁欧盟反垄断部门对谷歌涉嫌操控网上购物比价服务搜索结果进行调查袁并最终给谷歌开出 24.2
亿欧元的反垄断最大罚单[27]遥 2018 年袁印度商家指责谷歌滥用自己的市场地位来最大限度地增加营收袁为此谷歌又被印度反垄断部门罚款 2100 万美元[28]遥 以上现象表明袁由于搜索引擎公司的经济利益与社会责任存在天然的排斥性袁所以单纯依靠企业自律袁恐怕难以根治互联网新媒体市场化所带来的负面效应[29]遥
四尧信息操纵院搜索引擎的不道德使用
由于互联网深度嵌入社会袁因此用户利用搜索引擎获取利益的行为涉及从商业营销到政治宣传诸多领域遥 简言之袁只要提高信息能见度能够带来某种利益袁就可能出现操纵信息的行为遥近几年来袁搜索引擎被不道德使用的事件不断见诸媒体报道院2016 年 5 月叶京华时报曳报道袁一个专门利用职称评定必须发表论文进行诈骗的团伙袁假冒某健康教育杂志的官方网站袁声称可以帮助发表论文遥 为了提高自己的能见度袁诈骗团伙的主谋找搜索引擎公司袁花钱让假网站链接进入搜索排名的前三页袁以蒙骗那些评定职称需要发表论文的人遥 仅半年时间袁该诈骗团伙即获利 30 余万元[30]遥
在这起案件中袁搜索引擎公司其实对诈骗并不知情袁因此不能视为出于商业利益的目的而与诈骗团伙合谋袁但暴露出搜索引擎公司的广告商的内容审查能力存在缺陷袁或存在管理漏洞袁因而被诈骗团伙利用遥 上述案例中袁诈骗团伙所用手段的技术含量并不高袁而 2017 年浙江永嘉警方破获的一起全国特大破坏计算机信息系统案袁则具有明显的技术犯罪的特点遥 2017 年 5 月袁永嘉警方在对一个假烟销售网站进行调查时发现袁在百度搜索野高仿烟冶关键词时袁该网站的百度搜索排名居然是第一袁国家禁止销售高仿烟的相关政策信息居然还排在它后面遥 销售假烟的嫌犯落网后袁供述其向一家网络公司支付高昂的费用袁以实现网页搜索引擎优化渊Search Engine Optimization袁SEO冤袁然后得以在百度搜索野高仿烟冶关键词时排名第一遥搜索引擎优化指通过站内优化和修复尧站外优化袁来提升网站关键词排名袁以增强产品的曝光度遥 但正常的搜索引擎优化无法实现在百度搜索结果中快速提升
排名袁也不能保证长期排名第一遥 警方随即对这家网络公司展开侦查袁发现其自行研发了可进行模拟点击特定关键词及指定网页的软件袁该软件能在较短时间内急速提升特定网站的点击量袁干扰尧破坏百度公司后台数据袁达到非法提升特定网页搜索排名的目的遥深入了解后发现袁该公司招徕的客户中袁 除了销售假烟袁还有从事非法调查尧假酒销售尧同性 恋尧卖淫尧网络赌博等违法犯罪行为的个人和团伙袁两年间袁该公司牟取利润高达 7000 万元[31]遥
在这起案件中袁涉案网络公司以黑客手段干扰了百度公司正常的系统功能袁这也说明搜索引擎技术还有待完善遥 不法商家将搜索引擎作为野直通车冶袁将夸大尧误导尧虚假信息传送给广大互联网用户袁无疑会干扰和破坏网络信息环境遥 这必将是搜索引擎公司必须长期面对的挑战遥 其实袁以技术手段在搜索引擎上造假作弊并不是什么新鲜事袁提供这种非法服务的公司为数不少袁百度公司也一直在和众多的搜索引擎不道德使用者作斗争遥在百度指数的使用说明中袁就有关于百度如何防范各种作弊的行为袁发现作弊嫌疑如何处理的说明袁说明中称百度指数在防作弊渊反作弊冤方面做了大量工作袁对于已经有明确证据证明使用作弊手段来提高排名的关键词袁百度指数会对其数据进行很大幅度的降权处理淤遥
对搜索引擎不道德的使用袁并不仅限于利欲熏心的商家袁这种新兴信息工具也影响了 21 世纪的政治生态遥 近年来的很多重大政治事件中袁频频出现搜索引擎的身影遥许多政治活动渊例如竞选冤都离不开宣传袁如何在信息传播中占据优势尧主导舆论常常是至关重要的袁作为互联网时代的高频应用袁搜索引擎成为了必须争夺的媒体阵地袁尤其是近年来搜索引擎向智能化与个性化发展袁它在政治领域的作用更加不可小觑遥
搜索引擎转向智能化与个性化原本出于良好的愿望遥 由于用户的信息需求具有多样性和异质性袁所以对不同用户即便以同样的关键词搜索信息袁给出相同的搜索结果往往并不能达到最佳效果遥 如何尽量了解用户袁以尽可能准确地为用户提供其感兴趣的内容袁成为搜索引擎技术发展的一个新方向[32]遥 搜索引擎在服务过程中记录大量的用户行为数据袁如偏好搜索什么内容袁经常点开什么类型的网页袁对什么类型的信息完全不感兴趣袁等等遥计算机工程师尝试利用这些数据为用户画像袁设计复杂的算法袁并根据用户所在地区尧搜索时间以及
淤参见百度指数的相关说明袁网址 https://index.baidu.com/Helper/?tpl=help&word=#nrmqa.9
历史行为记录等数据给出有差异的搜索结果信息列表[33]遥 当前袁这种技术已经被广泛采用袁以同一个关键词搜索时袁每个用户得到的结果会不尽相同遥这种个性化信息服务的初衷是更好地满足异质性用户的需要袁提高其信息获取效率袁但也为利用搜索引擎操纵信息提供了更大的空间遥
2011 年袁美国媒体人伊莱窑帕里泽渊EliPariser冤
曾提出野过滤气泡冶概念袁用以描述不同用户在谷歌上搜索一个信息袁搜索结果很可能大相径庭的现象遥 用户即便不登录谷歌账号袁谷歌仍然能够通过57 种信息渊电脑型号尧所用浏览器尧上网位置等冤来观察用户遥搜索推荐算法将依据这些信息决定个性化搜索结果遥这使搜索引擎向用户展示他们想看到的但不一定是他们需要看到的信息袁而把其他一些信息过滤掉遥 这将形成一个包裹住用户的野过滤气泡冶袁使用户生活在他个人的尧独一无二的网络信息世界中[34]袁而这种对信息平衡的破坏袁容易导致和放大偏见遥 2015 年袁爱泼斯坦等就在研究中发现袁存在偏见的搜索引擎能够在某种程度上改变选民的政治意向袁甚至左右政治选举结果[35]遥 2016 年的美国大选为这一观点提供了有力佐证袁以谷歌尧脸
书尧推特为首的新媒体平台袁被卷入了此次选举的政治信息传播风波之中遥传播学家和政治学家们发现袁在用户们搜索与大选相关的政治新闻时袁个性化搜索可以为他们提供量身定制的信息内容袁将他们包裹在野过滤气泡冶中院新媒体平台会根据对用户历史行为记录和搜索词条的统计结果袁对信息内容进行有针对性的筛选袁使用户越来越看不到与他们意见相左的资讯尧观点袁导致其认知进一步窄化甚至单向化遥野过滤气泡冶效应导致了大选中美国两党支持者们的意识形态分化袁甚至在全国诱发了激烈的社会矛盾[36]遥
德国总理默克尔担心美国大选时出现的问题在德国重演袁2016 年 11 月袁她在演讲中称谷歌尧脸书等提供新闻的网站所使用的搜索引擎袁正在创造 野扭曲的棱镜计划冶曰默克尔认为这些公司记录用户个人喜好袁利用严格保密的算法调整输出结果袁从而使公众可能最终收到的是最受他们偏爱的新闻袁制造出野回声室效应冶遥 这是当今野后真相政治民粹主义支持者冶提供的礼物袁即公众理解周围世界时袁他们的视角实际上受到了严格限制[37]遥
2018 年 8 月袁美国总统特朗普在谷歌上搜索了一下自己袁发现关于他的新闻几乎全都是负面的遥特朗普对此十分不满袁连发两条推特抨击谷歌有政 治偏见袁指责其操控尧篡改搜索结果袁并称要对其加10
强监管[38]遥 特朗普在推特上以维权者的姿态呼吁袁称谷歌野正在控制我们什么能看尧什么不能看袁这是 非常严重的问题袁需要被解决浴冶谷歌的发言人全盘否认了特朗普的指控袁表示从未利用搜索结果排名来操纵政治情绪遥 CNN 随后刊发了叶揭穿特朗普对谷歌的最新阴谋论曳一文袁指出特朗普并未对他有关谷歌的言论作任何数据上的证实[39]遥 此举引发的舆论震荡将互联网科技巨头与政治压力之间的博弈袁再一次推向公众的视野遥
近两年来袁脸书尧推特和谷歌都因为自己的服务被利用于影响用户观点而遭到美国各界的广泛批评遥 美国国会邀请这三家公司于 2018 年 9 月 5 日前往参议院情报委员会听证遥 脸书 COO 雪莉窑桑德伯格渊Sheryl Sandberg冤和推特 CEO 杰克窑多西渊Jack Dorsey冤如期前往袁但谷歌缺席了听证会遥 拥有丰富政界经验的桑德伯格在一份预备证词中承认袁野面对从以赚钱为目的的耶喷子水军爷渊troll farms冤到老练的军事情报机构袁脸书发现问题太晚袁反应速度太慢袁这都是脸书的责任袁但脸书正在逐步改进冶[40]遥 杰克窑多西同时承认袁充斥着滥用尧骚扰尧喷子尧虚假信息尧分裂性言论的互联网平台不是一个健康的公共空间曰言论自由正被当作武器袁混淆公众视听袁推特对此的准备尚不充分袁也没有野全副武装冶遥 他向公众承诺袁虽然改变不可能一蹴而就袁但推特会公开解决上述问题[41]遥 对缺席听证会的谷歌袁有参议员特意摆了一把空椅子以示不满袁还有人说谷歌之所以不派人来袁也许是因为他们不 知道如何回答这些问题遥
雪莉窑桑德伯格尧杰克窑多西这两位著名互联网公司高管的证词袁实际上明确承认了互联网信息工具正在被一些人巧妙地加以利用遥谷歌公司全球事务高级副总裁肯特窑沃尔克渊Kent Walker冤也在一篇博文中称袁野没有哪一套系统是完美的袁谷歌也将继 续采取行动来解决这些问题冶遥以上事件足以说明袁搜索引擎还远未达到完美袁它还无法保证自己不被不道德地使用遥一些洞悉搜索引擎技术特点的机构与个人袁正设法把它变成自己手中的利器遥 这可能是搜索引擎技术的发明者们所始料未及的遥
五尧结论与对策
互联网新媒体尽管克服了传统大众传媒的诸多缺陷袁但 20 余年来的发展与现状已经表明袁其信息生产和信息选择机制也存在固有的缺陷渊只不过与传统大众传媒的缺陷不同而已冤袁因此不可能在
无管理的情况下袁自然地成为理想的社会认知工具[42]遥 搜索引擎也不例外袁它在帮助人们获得空前广阔视野的同时袁也可能成为扭曲的棱镜遥 从技术角度看袁当前基于统计的智能算法尚不能像人工那样对信息内容进行准确的分析袁无法对信息价值尧信息质量作出精准的判断遥 因此袁搜索引擎为用户选择出的社会信息难以保证真实性尧重要性尧代表性袁难以有效过滤低俗尧色情等不健康的内容袁也难以保证优先推荐给用户的观点都是客观尧理性尧公正的袁并兼顾信息的平衡遥从商业视角上看袁搜索引擎公司的盈利模式与其需要承担的社会责任存在一定的矛盾袁基于利润追求的算法设计可能影响搜索结果的公正性和客观性袁进而形成不同程度的社
会危害遥 从社会视角看袁搜索引擎正在被一些洞悉其技术特点的人与机构巧妙地加以利用袁成为操纵信息尧扭曲社会信息环境的工具袁这种不道德的使用已经涉及诸多领域袁成为互联网时代一个不容忽视的新问题遥 虽然搜索引擎存在以上问题袁但至少在当前袁全文搜索引擎是万维网信息库不可替代的查询工具袁每时每刻都有数以亿计的用户在使用遥因此袁对于个人认知尧国家发展与社会进步来说袁搜索引擎是一个野变量冶袁如何使这个野变量冶成为事业发展的野增量冶袁是我们需要认真思考和加以解决的问题遥
习近平同志在 2018 年 4 月 20要21 日召开的全国网络安全和信息工作会议上强调院野要提高网络综合治理能力袁形成党委领导尧政府管理尧企业履 责尧社会监督尧网民自律等多主体参与袁经济尧法律尧 技术等多种手段相结合的综合治网格局遥 冶[43]这为包括搜索引擎在内的互联网新媒体的信息治理指明了方向遥 党委的领导是为网络综合治理把关定向袁确保治理体系的建设为推动国家发展尧民族复兴服务袁确保各项工作运行于正确的轨道遥 政府在网络治理中应起主导作用袁因为唯有在政府主导下袁才能将法律尧行政尧经济尧技术等治理手段结合起来袁科学地建章立制袁以实现法制化尧常态化治理遥 互联网企业是重要的治理主体袁必须意识到自己兼具科技公司与社会媒体双重角色袁在社会责任与商业利益之间必须寻找合适的平衡点袁加强企业自律遥 互联网治理离不开社会公众的监督袁他们参与网络信息的生产和传播袁其行为亦影响着网络的信息生态遥
要形成这种多主体尧多手段综合治理格局袁并
使之真正发挥效能袁当前需要高度重视三项基础工作袁一是网络新媒体特点及其传播规律的研究袁二
是以社会责任为导向的网络媒体技术改进袁三是建立面向公众的网络媒体素养教育体系遥具体到搜索引擎的信息治理袁建议考虑以下对策遥
渊一冤深入研究搜索引擎媒体特点及其传播规律
计算机与网络技术的创新层出不穷袁网络生态一直处于快速变化之中袁包括搜索引擎在内的互联网新媒体的未来更是未知大于已知遥对搜索引擎进行有效治理袁需要与时俱进地研究其媒体特点及传播规律遥在这方面袁学界应当先行一步遥但从当前情况看袁此类研究还处于起步阶段袁研究水平亟待提升遥 制约研究水平的一个重要原因是袁搜索引擎的信息来源于广大互联网用户作为信息生产者的万维网袁其信息选择则是在用户提供较为明确的需要的情况下袁通过在某些导向下设计的算法来实现袁因此对搜索引擎的研究有很强的跨学科特点袁涉及计算机科学尧信息管理学尧新闻传播学尧社会学尧经济学尧政治学等多个领域袁对研究者的知识结构有特别的要求遥 计算机尧信息管理等领域的学者往往难以深刻理解信息对个人认知及社会发展的作用机制袁而社会学尧传播学等社科领域的学者通常缺乏搜索引擎的技术原理等基础知识遥 当前关于搜索引擎的社会影响的论文袁有的停留于现象层面的描述和单纯的道德批判曰有的则由于社科学者的知识局限袁不了解搜索引擎算法等技术原理袁提出的治理对策缺乏可行性或存在误区遥 因此袁此类研究需要从传统的以学科为中心的模式转变为以问题为中心的模式袁即研究问题所涉及到的学科均不应缺位袁应全面尧深刻地观照万维网复杂的信息生态及其社会影响的形成机制遥 唯有如此袁才能为综合运用法律尧行政尧经济尧技术等治理手段提供理论依据遥 此外袁还需要与互联网企业开展更为紧密的合作袁共同探索切实可行的治理方案袁减少试错的成本遥
渊二冤以社会责任为导向不断改进和完善搜索
算法
如果说在创立之初袁搜索引擎公司还没有为承担社会责任作好准备袁在如今负面效应日益显现之时袁就必须及时作出反应遥 在算法设计上袁除了野流量导向冶袁还需要有野社会责任导向冶遥 在这方面袁搜索引擎公司是责无旁贷的袁因为搜索引擎算法并不是公开的袁算法的改进只能由搜索引擎公司来完成遥 曾有人渊如德国总理默克尔冤认为袁搜索引擎公司对相关算法的细节一直严格保密袁公众陷入无从知晓其信息选择机制的黑暗之中袁故而搜索引擎公司应该公开其搜索算法遥这种认识其实是存在问题
11
的袁姑且不论这会使搜索引擎公司丧失其付出大量投资所建立起的技术优势袁更重要的是公开算法可
能带来更大范围的信息操纵遥因为一旦搜索算法被
具有计算机专业知识技术的人知晓袁他们将能够更为精准地进行野算法迎合冶袁即依据搜索引擎算法来为信息作特别设计袁以获得更多的搜索可见性曰同时袁搜索算法的漏洞也会更容易地被找到袁更容易被不道德使用遥 搜索引擎公司作为重要的治理主体袁不能以野技术中性冶为托辞袁必须以社会责任为导向不断改进尧完善其算法遥 虽然当前的人工智能技术还不足以彻底解决信息价值与信息质量问题袁但存在很大改进空间遥 2018 年 6 月袁百度与人民日报社宣布达成战略合作袁共同研究野党媒算法冶袁在内容尧产品和技术层面携手探索媒体新生态[44]遥 这无疑将成为一个良好的开端遥
渊三冤建立面向公众的网络媒体素养教育体系
在万维网信息世界里袁广大互联网用户兼具四种角色袁他们不仅是信息的受众袁还可以是信息的生产者尧信息的传播者尧信息治理的监督者袁因此袁网络综合治理应当把公众的媒体素养的提高作为重要内容遥 从信息受众的角度看袁我国绝大多数用户对网络信息的甄别能力有限遥以搜索引擎用户而言袁很多人的一般认知是检索结果页面中排名越靠前尧点击量越多的信息越有价值袁因而他们容易点击含有大量虚假尧谬误性信息的链接袁最终导致社会认知出现偏差袁或使自身的权益受到损害遥 这就需要将互联网新媒体的特点尧信息选择机制尧信息质量问题等袁以科普方式广为传播袁使用户在真伪并存的信息状态中具备更强的识别尧批判能力遥 从信息生产者与信息传播者的角度看袁在野人人都有麦克风冶的时代袁互联网用户整体的自律意识还有待提高袁需要更加重视合理合法地运用自己发声和参与传播的权利袁规范自身的网络行为袁为减少网络信息污染尽一份力遥 从信息治理监督者角度看袁
很多用户尚未意识到维护网络空间这个共同的家
园人人有责袁因而缺乏履行监督职能的能力遥 以上状况需要通过普及网络媒介素养教育来改变袁而我国的媒介素养教育还比较薄弱袁网络媒介素养教育尤甚遥因此袁科学地建立网络媒介素养教育体系袁并积极推动其向全社会普及袁是当前一项需要高度重视的大工程遥
虽然在可预见的未来袁搜索引擎技术固有的缺陷还难以彻底克服袁但我们有理由期待袁随着多主体多手段的综合治理格局的形成袁将有效抑制尧减少搜索引擎负面功能袁使之更好地服务于国家发展和社会进步.
[1] 习近平.在网络安全和信息化工作座谈会上的讲话 [EB/ OL]. http://politics.people.com.cn/n1/2016/0426/c10242 - 8303544.html袁2016-04-26.
[2] 蒂姆窑伯纳斯-李袁马克窑菲谢蒂袁伯纳斯-李袁et al.编织万维网院万维网之父谈万维网的原初设计与最终命运[ M]. 译.上海院上海译文出版社袁1999.
[3] 李晓明袁闫宏飞袁王继民.搜索引擎院原理尧技术与系统[ M].
科学出版社袁2005院13.
[4][13]潘雪峰袁花贵春袁梁斌.走进搜索引擎[ M].北京院电子工业出版社袁2011院2-3袁165.
[5] 袁津生袁李群.搜索引擎基础教程[ M].北京院清华大学出版社袁2010.
[6] 李广建袁黄崑.元搜索引擎及其主要技术[ J ].情报科学袁2002渊2冤.
[7] 印鉴袁陈忆群袁张钢.搜索引擎技术研究与发展[ J ].计算机工程袁2005渊14冤.
[8] 李晓明袁刘建国.搜索引擎技术及趋势[ J ].电脑与电信袁2008渊5冤.
[9] 邹海山袁吴勇袁吴月珠袁等.中文搜索引擎中的中文信息处理技术[ J ].计算机应用研究袁2000渊12冤.
[10] 李志蜀袁李果.中文搜索引擎的原理剖析及开发实现技术 [ J ].计算机应用研究袁2001渊11冤.
[11] 杨思洛.搜索引擎的排序技术研究[ J ].现代图书情报技术袁2005渊1冤.
[12] 吴丹.搜索引擎的智能化研究[ J ].情报理论与实践袁2002
渊4冤.
[14] 王知津袁潘颖.中文搜索引擎商业模式比较:以百度和谷歌为例[ J ].图书馆工作与研究袁2012渊11冤.
[15] 秦兴梅.新媒体语境下搜索引擎的盈利模式[ J ].新闻知识袁2009渊7冤.
[16] 张鹏.搜索引擎企业盈利模式探析[ J ].商场现代化袁2007
渊21冤.
[17] 张志.榨干百度谷歌院搜索引擎广告大赢家[ M ].北京院电子工业出版社袁2011院68.
[18] 艾瑞咨询.2018 年中国网络广告市场年度监测报告-简版[EB/OL]. http://report.iresearch.cn/report_pdf.aspx?id= 3264袁2018-08-31.
[19]2017 年中国搜索引擎市场规模及收入形式结构分析预测[EB/OL]. http://www.chyxx.com/industry/201706/53 - 4921.html袁2017-6-23.
[20] 王知津袁潘颖.中文搜索引擎商业模式比较院以百度和谷歌为例[ J ].图书馆工作与研究袁2012渊11冤.
[21] 敖静海袁支芬和袁田玲.搜索引擎盈利模式研究[ J ].生产力研究袁2009渊5冤.
[22] 焦玉英袁金世发.搜索引擎的发展及盈利模式研究[ J ].情报理论与实践袁2006渊5冤.
[23] 郑峻.5 亿美金罚金买来对人的尊重 看美国如何打击虚
假医药广告[EB/OL].https://www.sohu.com/a/7325431- 6_170104袁2016-05-04.
[24] 谷歌医疗没有广告钥 真相却是占比高达 41% 爱用野best冶夸大[EB/OL].http://www.sohu.com/a/252515-078_100- 078673袁2018-9-7.
[25] 曾响铃.谷歌全球医疗广告调查院AI 推送袁移动端投放和尺度加大[EB/OL].http://www.sohu.com/a/254291610_ 491065袁2018-9-17.
[26] 仿冒又跳转 医疗网站推广玩花样[EB/OL].http://epaper. bjnews.com.cn/html/2018 -05/22/content_7206 -95.htm? div=0袁2018-5-22.
[27] 操控网购搜索 欧盟对谷歌处以 24.2 亿欧元反垄断罚款[EB/OL].https://www.guancha.cn/economy/2017_06_27_ 415327_1.shtml袁2017-6-27.
[28] Google 在印度因野搜索偏见冶而被罚款 2100 万美元[EB/ OL]. http://www.sohu.com/a/221892895_485 -557袁2018 - 02-09.
[29] 于馨淼.搜索引擎与滥用市场支配地位[ J ].中国法学袁2012渊3冤.
[30] 团伙造假杂志官网骗钱 30 万[EB/OL]. http://media.peo鄄ple.com.cn/n1/2016/0503/c40606 -28319228.html袁2016 - 05-03.
[31] 黄伟. 黑客篡改搜索引擎数据收入 7000 万袁永嘉警方破全国特大案件[EB/OL]. http://www.sohu.com/a/216822- 240_160274袁2018-01-15.
[32] 谭琼袁李晓黎袁史忠植.一种实现搜索引擎个性化服务的方法[ J ].计算机科学袁2002渊1冤.
[33] 蒋萍袁崔志明.智能搜索引擎中用户兴趣模型分析与研究 [ J ].微电子学与计算机袁2004渊11冤.
[34] Pariser E. The Filter Bubble: What the Internet is Hiding from You[ M].New York: Penguin Press袁2011院10-11.
[35] Epstein R, Robertson R E. The Search Engine Manipula鄄tion Effect (SEME) and Its Possible Impact on the Out 鄄comes of Elections[ C ]. Proceedings of the National Acade鄄my of Sciences of the United States of America袁2015, 112 (33): 4512-4521.
[36] 许志源袁唐维庸.2016 美国大选所透射的野过滤气泡冶现象与启示[ J ].传媒袁2017渊16冤.
[37] 不满美主导互联网市场 欧洲欲为硅谷巨头立新规[EB/ OL]. http://w.huanqiu.com/r/MV8wXzk2MzI3NDlfND鄄 hfMTQ3ODIxNzQ4MA==袁2016-11-04.
[38] 特朗普炮轰谷歌野搜索偏见冶院谷歌上全是我的负面浴[EB/ OL]. http://news.cctv.com/2018/08/30/VIDEDLKbdY7 - hEa6ZrkHHyF03180830.shtml袁2018-08-30.
[39] 特朗普 Google 了一下自己袁然后花了一整天时间抨击Google[EB/OL]. http://www.geekpark.net/news/232340袁 2018-08-29.
[40] Facebook 和 Twitter 高管将出席国会听证会院谷歌缺席[EB/OL].https://www.cnbeta.com/articles/tech/764465.htm袁 2018-09-05.
[41] 科技公司再赴国会听证袁社交媒体的西部狂野时代要结束了吗钥 [EB/OL].https://www.sohu.com/a/252866632_ 413980袁2018-09-09.
[42] 罗俊.互联网时代传播格局的重构及其新挑战[ J ].学术论坛袁2018渊4冤.
[43] 习近平.敏锐抓住信息化发展历史机遇 自主创新推进网络强国建设[EB/OL].http://politics.people.com.cn/n1/20- 18/0421/c1024-29941345.html袁2018-04-21.
[44] 百度和人民日报共研党媒算法 探索党媒新生态[EB/ OL]. http://finance.youth.cn/fi nance_cyxfgsxw/201806/t - 20180612_11642315.htm袁2018-06-12.
[责任编辑院戴庆瑄]
以上是关于算法定义的新型信息空间 ——基于网络搜索引擎特性的综合治理研究的主要内容,如果未能解决你的问题,请参考以下文章
GPT-3或宣告新型搜索引擎的诞生:通过语言模型提问即可找到答案
BP数据预测基于matlab供需算法优化BP神经网络数据预测(含前后对比)含Matlab源码 2032期
BP数据预测基于matlab供需算法优化BP神经网络数据预测(含前后对比)含Matlab源码 2032期