用python对modern family 摩登家庭 1~11季剧本台词的词频分析

Posted 追风呀

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用python对modern family 摩登家庭 1~11季剧本台词的词频分析相关的知识,希望对你有一定的参考价值。

摩登家庭这部美剧学英语应该不模式,某宝上买了1~11季的台词,想对里面得单词出现频率做个统计,高频出现的单词应该就是日常常用的,应该牢牢记住。出现次数太低的也可以不用学了。

分析程序用的是python语言。

其中单词总量:23298个,分析结果以txt文本文件保存。词频结果下载

按流水号,单词,出现频率记录。如下:

1 i 32743
2 you 30923
3 the 23733
4 a 21256
5 to 20402
6 and 13428
7 it 12405
8 that 12020
9 of 9744

....

23291 conspiring 1
23292 subletting 1
23293 coughed 1
23294 overnighted 1
23295 biologist 1
23296 waitressing 1
23297 secret\'s 1
23298 muriel 1

出现次数最高的单词依然是i,you,the这类的。

代码如下:

 import os
 import re
 
 from docx import Document
 
 word_dic = 
 for root, dirs, files in os.walk(r\'H:\\english study\'):
     for file in files:
         file_path = \'\\\\\'.format(root, file)
         print(file_path)
         doc = Document(file_path)
         for para in doc.paragraphs:
             # print(para.text)
             rst = re.findall(r\'\\b[a-zA-Z\\\']+\\b\', para.text)
             if rst:
                 for word in rst:
                     word = word.lower()
                     count = word_dic.get(word)
                     if count:
                         word_dic[word] = count + 1
                     else:
                         word_dic[word] = 1
 sort_list = sorted(word_dic.items(), key=lambda x: x[1], reverse=True)
 i = 1
 
 with open(\'e:\\\\modern famile word sort.txt\',mode=\'w\',encoding=\'utf-8\') as f:
     for word in sort_list:
         line=\'  \\n\'.format(i, word[0], word[1])
         f.write(line)
         i = i + 1
 print(\'done, 单词总量:\'.format(len(sort_list)))

 

以上是关于用python对modern family 摩登家庭 1~11季剧本台词的词频分析的主要内容,如果未能解决你的问题,请参考以下文章

网络现代化 通向云原生应用的高速公路

谐音单词

.NET6: 开发基于WPF的摩登三维工业软件

复古摩登风格!全新 Air Max 98 “AOP”

GOMINO 格莱美「新品」| 皮草季,打造摩登最佳造型

.NET6: 开发基于WPF的摩登三维工业软件