从df.columns单词中的文本中删除非英语单词包含字母和数字

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从df.columns单词中的文本中删除非英语单词包含字母和数字相关的知识,希望对你有一定的参考价值。

如何从df.columns单词中包含字母和数字的文本中删除非英语单词

Ex

df ['text']

''interiors nrd studio |母亲节快乐,“没有像母亲那样强大的影响力。” —sara josepha hale ...母亲节快乐,妈妈和全世界所有母亲!很多光娜塔莎0wet3bxtfl'

'但每天仍然想念你,母亲节快乐,弗朗西斯·麦克拉蒂(mccool)9wlhju7cxf'

从上面两行中,我需要删除单词'0wet3bxtfl'和'9wlhju7cxf'

答案

该示例包括保留一些在英语单词列表(“ nrd”,“ mcclafferty”,“ mccool”)中找不到的字符串,同时删除了“ 0wet3bxtfl”和“ 9wlhju7cxf”,因此预期结果可能是最好的通过删除所有包含字母后跟数字或数字后跟字母的非空白序列(以及后面的任何空格),而无需考虑单词是否为“英语”。

以下将执行此操作:

import re

...

filtered = re.sub('[^s]*(d[a-zA-Z]|[a-zA-Z]d)[^s]* *', '', df['text'])

以上是关于从df.columns单词中的文本中删除非英语单词包含字母和数字的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 nltk 从大文本语料库中仅提取英文单词?

从R中的文本中删除单词和符号

如何使用 tm 包从非英语语料库中删除常用词尾?

如何从字符串中删除所有非希伯来字符并将单词放入数组中?

从熊猫列中删除列表中的单词 - python 2.7

如何从文本语料库中删除特定的单字组,但仍保留该单词的双字组?