为啥这些词被认为是停用词?

Posted

技术标签:

【中文标题】为啥这些词被认为是停用词?【英文标题】:Why are these words considered stopwords?为什么这些词被认为是停用词? 【发布时间】:2011-09-22 20:20:42 【问题描述】:

我没有自然语言处理方面的正式背景,我想知道 NLP 方面是否有人可以对此有所了解。我正在玩 NLTK 库,我专门研究了这个包提供的停用词功能:

在 [80] 中: nltk.corpus.stopwords.words('english')

输出[80]:

['我','我','我的', “我自己”、“我们”、“我们的”、“我们的”、 “我们自己”、“你”、“你的”、 '你的','你自己','你自己', “他”,“他”,“他的”,“他自己”, “她”、“她”、“她的”、“她自己”、 “它”、“它”、“它自己”、“它们”、 “他们”,“他们的”,“他们的”, “他们自己”、“什么”、“哪个”、 “谁”、“谁”、“这个”、“那个”、 “这些”、“那些”、“我”、“是”、 '是','是','是','是', '曾经','存在','有','有', '有','有','做','做', '做了','做','a','an','the', '和','但是','如果','或', '因为','作为','直到','同时', 'of', 'at', 'by', 'for', 'with', '关于','反对','之间', '进入','通过','期间', '之前','之后','以上', '下面','到','从','上', “下”、“进”、“出”、“开”、“关”、 '结束','低于','再次', '进一步','然后','一次','这里', '那里','何时','在哪里','为什么', '如何','所有','任何','两者', '每个','少数','更多','大多数', “其他”、“一些”、“这样”、“不”、 '也不','不','只有','自己的', “相同”、“所以”、“比”、“太”、 '非常'、's'、't'、'can'、'will'、 “只是”、“不要”、“应该”、“现在”]

我不明白的是,为什么会出现“不”这个词?这不是确定句子中的情绪所必需的吗?比如这样的一句话:

我不确定是什么问题。

一旦停用词not 被删除,将句子的含义改变为相反的意思(I am sure what the problem is),就完全不同了。如果是这种情况,我是否缺少一组关于何时不使用这些停用词的规则?

【问题讨论】:

情感分析需要一种不同于文档分类和其他核心 NLP 任务的预处理方法。例如,在文档分类中,您会尽早丢弃标点符号,而在情感分析中,包括 !? 在您的特征集中可能会很好地改善您的结果。 【参考方案1】:

停用词列表的概念没有普遍意义,取决于你想做什么。如果您有一项任务需要了解短语的极性、情感或类似特征,并且您的方法依赖于检测否定(如您的示例中),那么显然您不应该将“not”作为停用词删除(请注意,您可能仍希望删除其他非常常见的不相关词,这些词将构成您的新停用词列表)。

但是,要回答您的问题,大多数情感分析方法都非常肤浅。他们寻找充满情感/情绪的词,而且——大多数时候——他们不会尝试对句子进行深入分析。

作为另一个您希望保留停用词的示例:如果您尝试根据作者(作者归属)对文档进行分类或进行文体测量,您绝对应该保留这些功能词,因为它们代表了一个大风格和话语的一部分。

但是,对于许多其他类型的分析(例如词空间模型、文档相似性、搜索等),删除非常常见的功能词在计算上(您处理更少的词)和在某些情况下(您甚至可能去除停用词后获得更好的结果)。如果我想了解经常使用特定词的上下文,我希望查看 content 词,而不是 功能性 词。

【讨论】:

+1 这是一个很好的答案。谢谢你。我正在做某种情绪分析,你所说的对我来说很有意义。感谢您的宝贵时间。 不客气。我对句子/短语级别的情感分析不是很熟悉,但如果这就是你想要的,这可能是一个起点:mitpressjournals.org/doi/pdf/10.1162/coli.08-012-R1-06-90 刚刚在这里发布了另一个问题:***.com/questions/6482152/… 以防万一您对该主题有一些额外的想法:) 再次感谢您。

以上是关于为啥这些词被认为是停用词?的主要内容,如果未能解决你的问题,请参考以下文章

可以自动找到停用词吗?

Elasticsearch的停用词(stopwords)

英语的“停用词”列表? [关闭]

如何使用 nltk 或 python 删除停用词

如果行只包含停用词中的任何一行,则从文本文件中删除这些行

可以自动找到停止词吗?