如何计算熊猫数据框中的非字母数字字符

Posted

技术标签:

【中文标题】如何计算熊猫数据框中的非字母数字字符【英文标题】:How to count non-alphanumeric characters on pandas dataframe 【发布时间】:2018-08-20 06:30:49 【问题描述】:

这是我的数据

No  Body
1   DaTa, Analytics 2
2   StackOver. 67%

这是我的预期输出

No  Body                 Non Alphanumeric   
1   DaTa, Analytics 2    1       
2   StackOver. 67%       2  

我只计算非字母数字,如@9​​87654323@ 空格和数字不计算

【问题讨论】:

第一个字符串是双空格,,2 所以计数是4。需要计算什么? 任何非字母数字的! @ # & ( ) % – [ ] : ; ', ? / *2,空格不计 【参考方案1】:

你可以使用:

df['Non Alphanumeric'] = df['Body'].str.findall(r'[^a-zA-Z0-9 ]').str.len()

或者:

df['Non Alphanumeric'] = df['Body'].str.count(r'[^a-zA-Z0-9 ]')

print (df)
   No               Body  Non Alphanumeric
0   1  DaTa, Analytics 2                 1
1   2     StackOver. 67%                 2

【讨论】:

以上是关于如何计算熊猫数据框中的非字母数字字符的主要内容,如果未能解决你的问题,请参考以下文章

如何从熊猫数据框中的字符串项中删除数字

从熊猫数据框中仅提取数字和字符串

删除批处理变量中的非字母数字字符

如何计算熊猫数据框中的元音和辅音(大写和小写)?

如何在熊猫数据框中计算大写和小写

如何从熊猫数据框中的列中删除字符串值