如何计算熊猫数据框中的非字母数字字符
Posted
技术标签:
【中文标题】如何计算熊猫数据框中的非字母数字字符【英文标题】:How to count non-alphanumeric characters on pandas dataframe 【发布时间】:2018-08-20 06:30:49 【问题描述】:这是我的数据
No Body
1 DaTa, Analytics 2
2 StackOver. 67%
这是我的预期输出
No Body Non Alphanumeric
1 DaTa, Analytics 2 1
2 StackOver. 67% 2
我只计算非字母数字,如@987654323@ 空格和数字不计算
【问题讨论】:
第一个字符串是双空格,,
和 2
所以计数是4
。需要计算什么?
任何非字母数字的! @ # & ( ) % – [ ] : ; ', ? / *
,2
,空格不计
【参考方案1】:
你可以使用:
df['Non Alphanumeric'] = df['Body'].str.findall(r'[^a-zA-Z0-9 ]').str.len()
或者:
df['Non Alphanumeric'] = df['Body'].str.count(r'[^a-zA-Z0-9 ]')
print (df)
No Body Non Alphanumeric
0 1 DaTa, Analytics 2 1
1 2 StackOver. 67% 2
【讨论】:
以上是关于如何计算熊猫数据框中的非字母数字字符的主要内容,如果未能解决你的问题,请参考以下文章