论文泛读107隐藏在中文词嵌入背后的性别偏见：以中文形容词为例

Posted 2021-06-19 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读107隐藏在中文词嵌入背后的性别偏见：以中文形容词为例相关的知识，希望对你有一定的参考价值。

论文链接：《Gender Bias Hidden Behind Chinese Word Embeddings: The Case of Chinese Adjectives》

一、摘要

近年来，词嵌入中的性别偏见逐渐成为一个活跃的研究领域。该领域的大多数研究旨在以英语为目标语言的测量和去偏差方法。本文从中文形容词的独特视角研究了静态词嵌入中的性别偏见。通过用不同的模型训练词表示，可以评估形容词向量背后的性别偏见。通过比较产生的结果和人工评分的数据集，我们展示了词嵌入中编码的性别偏见如何与人们的态度区分开来。

二、结论

本文从形容词的角度研究了汉语词嵌入中的性别偏见，并将自动计算的性别偏见分数与人类态度进行了比较。我们精心呈现了编码在单词向量中的性别偏见和人们对同一形容词的感觉之间的差异。对于人们认为描述女性的词语，提取的性别偏见分数给出了一个确定的结果；而对于人们心目中应该用于男性的形容词，我们的结果表明，这些词实际上比大众的判断更中性。此外，还研究了覆盖字符级信息的单词嵌入模型在捕捉汉语性别偏见方面的表现。

三、方法

为了揭示形容词所传达的性别刻板印象，我们首先对一个在线中文新闻语料库进行预处理，并用两种不同的模型对其进行词嵌入训练。然后，我们基于生成的两个向量计算性别偏见得分，并将其与人类得分数据集“具有性别偏斜度和情感的形容词列表”(AGSS)进行比较。

数据：
在这里插入图片描述

以上是关于论文泛读107隐藏在中文词嵌入背后的性别偏见：以中文形容词为例的主要内容，如果未能解决你的问题，请参考以下文章

论文泛读118使用上下文嵌入模型获得更好的静态词嵌入

论文泛读164MECT：基于多元数据嵌入的中文命名实体识别交叉变换器

论文泛读147ELMo 上下文嵌入的跨语言对齐

论文泛读82上下文嵌入空间中用于文本分类的流形外正则化

论文泛读104使用上下文词表示进行语义框架归纳的动词意义聚类