机器学习入门-贝叶斯统计语料库的词频.groupby() collections

Posted my-love-is-python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习入门-贝叶斯统计语料库的词频.groupby() collections相关的知识,希望对你有一定的参考价值。

1..groupby()[].agg(by={})

2. collections.de...(lambda:1)

统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = [‘counts], ascending=False)

这里使用的数据是经过分词后的语料库里所有的数据,该数据已经去除了停用词,

第一步:载入语料库的数据

第二步:进行分词

第三步:载入停用词,对停用词数据进行序列化tolist(),然后去除分词后语料库中的停用词

第四步: 使用grouby()[].agg 进行词频统计,使用reset_index().sort_values根据新增的counts列进行排序操作

# 1.导入数据语料的新闻数据
df_data = pd.read_table(data/val.txt, names=[category, theme, URL, content], encoding=utf-8)

# 2.对语料库进行分词操作
df_contents = df_data.content.values.tolist()

# list of list 结构
Jie_content = []
for df_content in df_contents:
    split_content = jieba.lcut(df_content)
    if len(split_content) > 1 and split_content != 	
:
        Jie_content.append(split_content)

# 3. 导入停止词的语料库, sep=‘	‘表示分隔符, quoting控制引号的常量, names=列名, index_col=False,不用第一列做为行的列名, encoding
stopwords = pd.read_csv(stopwords.txt, sep=	, quoting=3, names=[stopwords], index_col=False, encoding=utf-8)
print(stopwords.head())

# 对文本进行停止词的去除
def drop_stops(Jie_content, stopwords):
    clean_content = []
    all_words = []
    for j_content in Jie_content:
        line_clean = []
        for line in j_content:
            if line in stopwords:
                continue
            line_clean.append(line)
            all_words.append(line)
        clean_content.append(line_clean)

    return clean_content, all_words
# 将DateFrame的stopwords数据转换为list形式
stopwords = stopwords.stopwords.values.tolist()
clean_content, all_words = drop_stops(Jie_content, stopwords)
print(clean_content[0])

# 4 .对所有词统计词频,做一个字典,然后进行排序, 这里也可以使用collections实现

df_dict = pd.DataFrame({content:clean_content})
all_words_pd = pd.DataFrame({all_word:all_words})
all_words_pd = all_words_pd.groupby(by=[all_word])[all_word].agg({count:np.size})
all_words_pd = all_words_pd.reset_index().sort_values(by=[count], ascending=False)
print(all_words_pd.head())

 

以上是关于机器学习入门-贝叶斯统计语料库的词频.groupby() collections的主要内容,如果未能解决你的问题,请参考以下文章

机器学习-贝叶斯拼写纠正器实战

机器学习入门-贝叶斯中文新闻分类任务

贝叶斯_文本分析

三天爆肝快速入门机器学习:KNN算法朴素贝叶斯算法决策树第二天

机器学习的常见算法与Perl语言入门

朴素贝叶斯一步步轻松学3