是否有任何用于搜索特定单词的 python 库,如 "the"、"is"、"was"、"am" .... 和其他类似单词

Posted

技术标签:

【中文标题】是否有任何用于搜索特定单词的 python 库,如 "the"、"is"、"was"、"am" .... 和其他类似单词? [关闭]【英文标题】:Is there any python library for searching specific words like "the", "is", "was", "am" .... and other similar words? [closed] 【发布时间】:2022-01-05 17:13:31 【问题描述】:

我想从文本文件中排除这些词。目前,我的代码只计算文本文件中所有单词的出现次数,但我想排除前面提到的这些不需要的单词,只计算某些重要单词的出现频率。文件中有很多重要的词,所以我不能全部包含在内。所以如果python中有一个预先存在的库会很有帮助

【问题讨论】:

nltk 有预定义的停用词列表。 为什么不通过排除特定的词来清理文本,然后做一个计数器返回词频? 您好,感谢您的帮助。我会调查的 【参考方案1】:

此类词称为停用词,您可以使用nltk 库轻松删除它们

from nltk.corpus import stopwords
# print(list(stopwords.words('english')))
filtered_words = [word for word in word_list if word not in stopwords.words('english')]

【讨论】:

以上是关于是否有任何用于搜索特定单词的 python 库,如 "the"、"is"、"was"、"am" .... 和其他类似单词的主要内容,如果未能解决你的问题,请参考以下文章

是否有任何库可以在英语中执行语义角色标记?

用于匹配字典中单词的 JavaScript 算法

用于词聚类/NLP 的 PHP 库?

使用python搜索数据框的另一列或另一个数据框中是不是存在任何单词

是否有任何用于使用 Python 绑定进行诅咒的工具包库?

是否可以使用请求库在网站上搜索特定文本?