干货练习题︱基于今日头条开源数据的文本挖掘

Posted 素质云笔记

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了干货练习题︱基于今日头条开源数据的文本挖掘相关的知识,希望对你有一定的参考价值。


最近笔者在做文本挖掘项目时候,写了一些小算法,不过写的比较重,没有进行效率优化,针对大数据集不是特别好用,不过在小数据集、不在意性能的情况下还是可以用用的。


代码和数据在我的github之中,戳原文阅读~


本次练习题中可以实现的功能大致有三个:

  • 短语发现

  • 新词发现

  • 词共现


先来看看数据长啥样: 

每行为一条数据,以!分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词。


亮点:关键词质量还挺高的,可以作为自定义词典






短语发现、新词发现模块

干货练习题︱基于今日头条开源数据的文本挖掘


该模块可以允许两种内容输入,探究的是词-词之间连续共现,一种数据格式是没有经过分词的、第二种是经过分词的。 


其中,算法会提到全部发现以及部分发现两种模式,这两种模式的区别主要在于考察指标的多少。


  • 全部发现会考察:凝聚度、自由度、IDF、词频

  • 部分发现会考察:IDF、词频


 没有经过分词的原始语料


在今日头条数据之中就是标题数据了,一般用来新词发现,这边整体运行很慢,就截取前10000个。


得到的结论,如图: 
干货练习题︱基于今日头条开源数据的文本挖掘 
这边其实可以在Jieba分词的时候,预先载入一些停用词。

这边来看,发现比较好的只有:对下联、王者荣耀 

当然了,主要是因为只载入了很少的语料,没有好好学。


经过分词的原始语料


比较适合用在已经分完词的语料比较适合:[[‘经过’,’分词’],[‘的’,’原始’],[‘原始’,’语料’],…] 
当然,探究的是词-词之间的连续共现的情况。

此时,我用今日头条的关键词其实不是特别合适,因为关键词之间没有前后逻辑关系在其中。 

得到的结论: 
干货练习题︱基于今日头条开源数据的文本挖掘

其中发现了的规律都没啥用,大家看看就行。

有一些比较有意思的对子,猛龙-詹姆斯、不动产-房地产税,这些都还算工整。




词共现模块

干货练习题︱基于今日头条开源数据的文本挖掘


二元组模块跟4.1中,分完词之后的应用有点像,但是这边是离散的,之前的那个考察词-词之间的排列需要有逻辑关系,这边词共现会更加普遍。 


该模块较多会应用在基于关键词的SNA社交网络发现之中,给张好看的图: 
干货练习题︱基于今日头条开源数据的文本挖掘 
其中,在该模块写入了两种:

  • 热词统计

  • 词共现统计



词共现统计


干货练习题︱基于今日头条开源数据的文本挖掘

词共现比较注重同时提及的频率,这里比较好的对子有:

詹姆斯-猛龙、快乐大本营-谢娜、叙利亚-俄罗斯、快乐家族-快乐大本营...

这里可以发现很多有意思的小点,这块还是很有意思,看客可以自由发挥。



热词统计


干货练习题︱基于今日头条开源数据的文本挖掘


这块很普通了,可以用来画词云。




得到了CoOccurrence_data 的表格,有了词共现,就可以画社交网络图啦,有很多好的博客都有这样的介绍,贴两张图:


以上是关于干货练习题︱基于今日头条开源数据的文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章

基于文本挖掘的我国人工智能产业政策量化研究

干货 | 文本挖掘与词云图速成

文本挖掘 | 高考大纲应该怎么用?

干货丨文本挖掘二三式

干货 | 互联网金融之量化投资深度文本挖掘——附源码文档

基于知识图谱的文本挖掘 - 超越文本挖掘