青椒论坛丨搜索引擎自动完成算法的地域歧视考察
Posted 青年记者
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了青椒论坛丨搜索引擎自动完成算法的地域歧视考察相关的知识,希望对你有一定的参考价值。
导 读
文献综述
通过对既有文献的梳理,关于自动完成算法的社会科学研究主要集中在以下三个维度:
第一,考察自动完成算法的运作机制。研究发现,影响自动完成算法的因素主要包括搜索词的总体热度、搜索引擎索引的网页内容以及用户个体的特征(如搜索历史、所在的地理位置)。[1]
第二,探讨搜索引擎自动完成算法内嵌的偏见和歧视,以及它所带来的文化与社会影响。保罗•贝克和阿曼达•波茨的研究发现,谷歌的自动完成算法强化了种族主义和对特定人群(如黑人、穆斯林)的负面刻板成见。例如,黑人常常和“懒惰”“犯罪”“欺骗”“学习成绩不良”等提示词联系在一起。[2]
第三,聚焦算法背后的平台问责。波阿斯•米勒和艾萨克•勒科尔从社会认识论的视角出发,指出自动提示功能带来了新的技术可能性,因此要承担新的知识责任。搜索服务提供商需要避免三种类型的自动提示词:组织性的攻击、损害性刻板成见以及针对个体的中伤和诽谤。[3]
研究方法
(一)数据采集
本文采用内容分析方法,选择百度自动完成算法的地域歧视作为研究对象。我国目前有34个省级行政区。受贝克和波茨研究的启发,笔者通过手机端百度不断键入“为什么北京人”“为什么天津人”等34个问题,对自动生成的提示词进行截图保存,并输入excel表格。
由于算法系统并不是一成不变的,而是在不断地演进、优化和迭代,因此本文采用多阶段抽样的方法来收集数据。数据采集时间自2018年8月至2019年7月,随机抽取每个月的某一天来键入问题并记录相应的提示词,每次抽取的时间间隔大于30天。不同时间键入同样的问题,得到的提示词会发生变化,完全相同的提示词仅记录一次。本研究的分析单位为提示词,最终得到了一个由937个提示词组成的样本。
(二)类目建构
基于对百度自动完成算法所生成提示词的系统梳理和分析,笔者建构了如下类目:
1.类别,包括6个变量。(1)身体特征,指个人或群体所具有的外貌特征和身体状况;(2)行为偏好,指个人或群体在衣食住行、语言等方面的特征、偏好和习惯;(3)素质品性,指对个人或群体的素质、作风、性格等方面的评价;(4)社会民生,主要是和政治、经济、社会、民生等相关的内容;(5)流行,指某段时间内流行的新闻、段子等;(6)其他,指和搜索内容不相关的提示词。
2.形象倾向,包括正面、中性和负面3个变量。需要指出的是,对大多数提示词形象倾向的划分存在较小争议,例如,“小气”“排外”“傻”在全球语境下都具有负面意涵,而“幽默”“聪明”“爱国”则是正面的。然而,对某些提示词形象倾向的判断要视具体的文化价值和观念而定,笔者主要依据中国的具体语境来进行划分。
研究结果与发现
笔者对34个省级行政区提示词的类别和形象倾向进行了统计,发现百度搜索提示词所建构的地区形象存在显著差异。《东西中部和东北地区划分方法》将中国的经济区域划分为东部、中部、西部和东北四大地区。研究发现,提示词引导用户更多关注中部地区人群的素质品性和西部地区人群的身体特征,所建构的地域形象也更加负面。
经过对提示词的内容分析,“行为偏好”在所有类别中占比最高,达到了30%。“行为偏好”类的提示词占比例较高的行政区及所处位置是:河北、天津、上海、福建、山东、广东、山西、重庆、贵州、陕西、香港和台湾。“行为偏好”类所关注的是不同地区人群在衣食住行以及语言等方面的特征、习惯和偏好,多数情况下并无正负之分,84%的“行为偏好”类提示词是中性的。
“素质品性”的占比为23%,位列第二。以下行政区“素质品性”类的提示词占比最高:安徽、河南、湖北、湖南和辽宁。如前所述,“素质品性”常常带有明显的情感倾向。据统计,74%的该类提示词是负面的,具有明显的地域歧视色彩。
“身体特征”以19%的占比位列第三。以下行政区“身体特征”类的提示词数量最多:广西、四川、云南、甘肃、新疆和海南;与此同时,贵州该类提示词的占比也高达34%。百度提示词呈现出的西部地区居民形象原始、粗野,如 “眼珠黄”“牙齿黑黄”。相比之下,台湾人则“显年轻”“保养得好”。
“其他”占比14%。“社会民生”类提示词的占比略低于“其他”,主要是关于教育、就业创业、医疗卫生、社会保障、公共安全等方面的内容。“流行”则是某段时间内的新闻和流行的段子(如 “广东人不参与甜咸粽之争”)。
结 语
在算法日益辅助甚至代替记者编辑进行信息分发的当下,研究人类歧视和算法系统的交织和勾连,并探寻相应的问责机制,具有重要的学术价值。本研究发现:一方面,百度搜索的自动完成算法继承了人类的地域歧视;另一方面,其通过自动化和反馈回路的方式将人类的歧视和偏见快速、大范围地传播了出去,而中部和西部地区人群是这种技术中介歧视的主要受害者。
搜索框就像世俗的“忏悔箱”,人们会向它输入一些隐秘的、不愿公开的问题或想法。过去,只有上帝知晓人们吐露了什么;而如今,算法和大数据技术赋予了数字平台“全视之眼”。基于对用户数字痕迹的实时监测、聚合和分析,算法自动生成的提示词成为窥探秘密的窗口。当自动完成算法生成的提示词出现了对个人的中伤诽谤,或是对群体的污名化和贬损,数字平台应当积极承担起社会责任,而不是以“算法自动生成”为借口来为自己开脱。
应对算法偏见的第一步是承认算法系统的局限性和不完美。《终极算法》一书的总结语中写道:“人们担心计算机会变得过于智能而统治世界,但真正的问题是,它们仍很愚蠢但已经统治世界”。[4]因此,需要由人来对算法系统进行纠偏。例如,用户应当被给予标记和上报有害提示词的权利。此外,数字平台应建立和强化问责、可解释、可审计、公平等方面的监督机制,这对于规避算法歧视、维护社会公平正义至关重要。
【本文为教育部人文社会科学研究青年项目“智能算法驱动下的新闻分发变革研究”(编号:18YJC860031)和河南省哲学社会科学规划项目“平台型媒体的算法推荐机制与治理研究”(编号:2018CXW017)阶段性成果】
参考文献:
[1]Karapapa, S. & Borghi, M. Search engine liability for autocomplete suggestions: personality, privacy and the power of the algorithm[J]. International Journal of Law and Information Technology, 2015, (23):261-289.
[2]Baker, P. & Potts, A. “Why do white people have thin lips?” Google and the perpetuation of stereotypes via auto-complete search forms[J]. Critical Discourse Studies, 2013, (10): 187-204.
[3]Miller, B. & Record, I. Responsible epistemic technologies: A social-epistemological analysis of autocompleted web search[J]. New Media & Society, 2017, (19):1945-1963.
[4]佩德罗•多明戈斯.终极算法:机器学习和人工智能如何重塑世界[M].北京:中信出版集团,2017:365.
以上是关于青椒论坛丨搜索引擎自动完成算法的地域歧视考察的主要内容,如果未能解决你的问题,请参考以下文章
百度为什么会进入巴西搜索引擎市场?丨出海巴西推广岛群第28期