从python文件中删除文本文件中的停用词
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从python文件中删除文本文件中的停用词相关的知识,希望对你有一定的参考价值。
我有两个文本文件:
- Stopwords.txt->包含停用词,每行一个
- text.txt->大文档文件
我正在尝试从text.txt文件中删除所有出现的停用词(stopwords.txt文件中的任何单词),而无需使用NLTK。
我将如何去做?到目前为止,这是我的代码。
import re
with open('text.txt', 'r') as f, open('stopwords.txt','r') as st:
f_content = f.read()
#splitting text.txt by non alphanumeric characters
processed = re.split('[^a-zA-Z]', f_content)
st_content = st.read()
#splitting stopwords.txt by new line
st_list = re.split('\n', st_content)
#print(st_list) to check it was working
#what I'm trying to do is: traverse through the text. If stopword appears,
#remove it. otherwise keep it.
for word in st_list:
f_content = f_content.replace(word, "")
print(f_content)
但是当我运行代码时,它首先要花费永远的时间来输出某些东西,而当它执行时,它只会输出整个文本文件。 (我是python的新手,所以如果我做的是根本错误的事情,请告诉我!)
答案
我知道Python对于这类事情(以及许多其他事情)确实非常有用,但是如果您有一个很大的text.txt。我会尝试旧的,丑陋且功能强大的命令行“ sed”。
尝试类似的东西:
sed -f stopwords.sed text.txt> output_file.txt
对于stopwords.sed文件,每个停用词必须在不同的行中并使用以下格式:
s|\<xxxxx\>||g
其中'xxxxx'将是停用词本身。
s|\<the\>||g
上面的行将删除所有出现的'the'(不带单引号)
值得一试。
另一答案
这里是我需要删除英语停用词时使用的语言。我通常也使用nltk的语料库而不是我自己的文件作为停用词。
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
ps = PorterStemmer()
## Remove stop words
stops = set(stopwords.words("english"))
text = [ps.stem(w) for w in text if not w in stops and len(w) >= 3]
text = list(set(text)) #remove duplicates
text = " ".join(text)
对于您的特殊情况,我会做类似的事情:
stops = list_of_words_from_file
让我知道我是否回答了您的问题,不知道问题是从文件中读取还是从源中读取。
编辑:要从另一个文件的文本中删除文件中定义的所有停用词,我们可以使用str.replace()
for word in st_list:
f_content=f_content.replace(word)
以上是关于从python文件中删除文本文件中的停用词的主要内容,如果未能解决你的问题,请参考以下文章