Python中统计一个文档中单词的个数
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python中统计一个文档中单词的个数相关的知识,希望对你有一定的参考价值。
思路是:
1、先打开文件
2、把文件中所有的标点符号换成空格 replace()
3、把所有的大写字母变成小写字母 lower()
4、分词 split()
5、统计词频
6、输出前20名
代码:'''
功能: 统计分析英文文本 Hamlet 的词频。
'''
from string import punctuation
def main():
# 打开旧文件
f = open('G:\python\\hamlet.txt', 'r', encoding='utf-8')
lines=f.readlines()
# 打开新文件
f_new = open('hamlet_back.txt', 'w', encoding='utf-8')
for s in lines:
f_new.write(s.replace('|',' ').replace(',',' ').replace('!',' ').replace('.',' ').replace("'"," ").replace("?"," ").replace(':',' ').replace(';',' ').replace('--',' '))
//replace怎么换成punctuation,我写的时候老是出现replace(punctuation,'空格')要求相同的长度,怎么修改。
不要正则表达式,请各路大神不吝赐教
linux中统计文件中一个字符串出现的次数
要统计一个字符串出现的次数,这里现提供自己常用两种方法:
1. 使用vim统计
用vim打开目标文件,在命令模式下,输入
:%s/objStr//gn
2. 使用grep:
grep -o objStr filename | wc -l
3.如果是多个字符串出现次数,可使用:
grep -o ‘objStr1\|objStr2‘ filename|wc -l #直接用\| 链接起来即可
以上是关于Python中统计一个文档中单词的个数的主要内容,如果未能解决你的问题,请参考以下文章
python中sort命令介绍以及list结构中统计各元素出现的个数的方法