从df.columns单词中的文本中删除非英语单词包含字母和数字
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从df.columns单词中的文本中删除非英语单词包含字母和数字相关的知识,希望对你有一定的参考价值。
如何从df.columns单词中包含字母和数字的文本中删除非英语单词
Ex
df ['text']
''interiors nrd studio |母亲节快乐,“没有像母亲那样强大的影响力。” —sara josepha hale ...母亲节快乐,妈妈和全世界所有母亲!很多光娜塔莎0wet3bxtfl'
'但每天仍然想念你,母亲节快乐,弗朗西斯·麦克拉蒂(mccool)9wlhju7cxf'
从上面两行中,我需要删除单词'0wet3bxtfl'和'9wlhju7cxf'
答案
该示例包括保留一些在英语单词列表(“ nrd”,“ mcclafferty”,“ mccool”)中找不到的字符串,同时删除了“ 0wet3bxtfl”和“ 9wlhju7cxf”,因此预期结果可能是最好的通过删除所有包含字母后跟数字或数字后跟字母的非空白序列(以及后面的任何空格),而无需考虑单词是否为“英语”。
以下将执行此操作:
import re
...
filtered = re.sub('[^s]*(d[a-zA-Z]|[a-zA-Z]d)[^s]* *', '', df['text'])
以上是关于从df.columns单词中的文本中删除非英语单词包含字母和数字的主要内容,如果未能解决你的问题,请参考以下文章