干货练习题︱基于今日头条开源数据的文本挖掘

Posted 2021-04-16 素质云笔记

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了干货练习题︱基于今日头条开源数据的文本挖掘相关的知识，希望对你有一定的参考价值。

今

日

头

条

文

本

挖

掘

最近笔者在做文本挖掘项目时候，写了一些小算法，不过写的比较重，没有进行效率优化，针对大数据集不是特别好用，不过在小数据集、不在意性能的情况下还是可以用用的。

代码和数据在我的github之中，戳原文阅读~

本次练习题中可以实现的功能大致有三个：

先来看看数据长啥样：

每行为一条数据，以!分割的个字段，从前往后分别是新闻ID，分类code（见下文），分类名称（见下文），新闻字符串（仅含标题），新闻关键词。

亮点：关键词质量还挺高的，可以作为自定义词典

短语发现、新词发现模块

该模块可以允许两种内容输入，探究的是词-词之间连续共现，一种数据格式是没有经过分词的、第二种是经过分词的。

其中，算法会提到全部发现以及部分发现两种模式，这两种模式的区别主要在于考察指标的多少。

在今日头条数据之中就是标题数据了，一般用来新词发现，这边整体运行很慢，就截取前10000个。

得到的结论，如图：
干货练习题︱基于今日头条开源数据的文本挖掘
这边其实可以在Jieba分词的时候，预先载入一些停用词。

这边来看，发现比较好的只有：对下联、王者荣耀

当然了，主要是因为只载入了很少的语料，没有好好学。

比较适合用在已经分完词的语料比较适合：[[‘经过’,’分词’],[‘的’,’原始’],[‘原始’,’语料’],…]
当然，探究的是词-词之间的连续共现的情况。

此时，我用今日头条的关键词其实不是特别合适，因为关键词之间没有前后逻辑关系在其中。

得到的结论：
干货练习题︱基于今日头条开源数据的文本挖掘

其中发现了的规律都没啥用，大家看看就行。

词共现模块

二元组模块跟4.1中，分完词之后的应用有点像，但是这边是离散的，之前的那个考察词-词之间的排列需要有逻辑关系，这边词共现会更加普遍。

该模块较多会应用在基于关键词的SNA社交网络发现之中，给张好看的图：
干货练习题︱基于今日头条开源数据的文本挖掘
其中，在该模块写入了两种：

词共现统计

干货练习题︱基于今日头条开源数据的文本挖掘

词共现比较注重同时提及的频率，这里比较好的对子有：

詹姆斯-猛龙、快乐大本营-谢娜、叙利亚-俄罗斯、快乐家族-快乐大本营...

这里可以发现很多有意思的小点，这块还是很有意思，看客可以自由发挥。

热词统计

干货练习题︱基于今日头条开源数据的文本挖掘

这块很普通了，可以用来画词云。

得到了CoOccurrence_data 的表格，有了词共现，就可以画社交网络图啦，有很多好的博客都有这样的介绍，贴两张图：

以上是关于干货练习题︱基于今日头条开源数据的文本挖掘的主要内容，如果未能解决你的问题，请参考以下文章