R语言书籍|Text Mining with R

Posted 菜鸟学数据分析之R语言

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言书籍|Text Mining with R相关的知识,希望对你有一定的参考价值。

     昨天有小粉丝私信我有没有适合学习文本挖掘的书籍推荐,于是想到可以推出【R 书籍】这个专辑,分享和R语言相关的书籍,主要内容包括R实战,R语言与统计分析,R语言与机器学习,R语言与数据科学等。今日分享书籍是《Text Mining with R》

    阅读链接:https://www.tidytextmining.com/index.html

复制链接,使用浏览器打开即可在线阅读。


    这本书是介绍使用tidytext包和r中的其他整理工具进行文本挖掘的。tidytext包提供的功能相对简单;重要的是应用。因此,这本书提供了引人注目的实际文本挖掘问题的例子。

我们首先介绍整齐的文本格式,以及dplyr、tidyr和tidytext允许对该结构进行信息分析的一些方法。


    第1章概述了整洁的文本格式和unnest_tokens()函数。它还介绍了gutenbergr和janeaustenr包,提供在有用的文学文本数据集。


    第2章展示了如何使用来自tidytext和dplyr的inner_join()数据集对整洁的文本数据集进行情绪分析。


    第3章描述tf-idf统计量(术语频率乘以反向文档频率),用于识别对特定文档特别重要的术语。


    第4章介绍了n-grams和如何使用widyr和ggraph包分析word网络中的文本。文本在分析的所有阶段都不是整齐的,能够在整齐和不整齐的格式之间来回转换是很重要的。


   第5章介绍了整理tm和quanteda包中的文档术语矩阵和语料库对象的方法,以及将整洁的文本数据集转换成这些格式的方法。


   第6章探讨了主题建模的概念,并使用tidy()方法来解释和可视化topicmodels包的输出。


    最后,用几个案例研究总结了所学到的多种整洁文本挖掘方法。


    第7章通过分析作者自己的Twitter档案,展示了一个整洁文本分析的应用。戴夫和茱莉亚的推特习惯比较起来怎么样?


   第8章探索了32,000多个NASA数据集(JSON格式)中的元数据,通过查看数据集中的关键词是如何连接到标题和描述字段的。


   第9章分析了来自不同新闻组的Usenet消息数据集(关注的主题包括政治、曲棍球、技术、无神论等),以了解不同组之间的模式。

这本书关于文本挖掘的基础介绍的很详细,可以选择快速阅读的方式,选择自己需要的内容进行学习,这本书的英文章节如下:

·       Text Mining with R

·       Welcome to Text Mining with R

·       Preface

·       1 The tidy text format

·       2 Sentiment analysis with tidy data

·       3 Analyzing word and document frequency: tf-idf

·       4 Relationships between words: n-grams and correlations

·       5 Converting to and from non-tidy formats

·       6 Topic modeling

·       7 Case study: comparing Twitter archives

·       8 Case study: mining NASA metadata

·       9 Case study: analyzing usenet text

·       10 References

·       Published with bookdown

以上是关于R语言书籍|Text Mining with R的主要内容,如果未能解决你的问题,请参考以下文章

Unsupervised Learning and Text Mining of Emotion Terms Using R

Mining Twitter Data with Python

CS224W摘要12.Frequent Subgraph Mining with GNNs

R语言ggplot2可视化在图像中添加竖线并在竖线的两边添加文本标签并对齐实战:添加竖线添加竖线两边的对齐文本标签(Align geom_text with geom_vline )

R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping)Dodge Overlapping X-axis Text with guide_axis()

论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)