R语言书籍|Text Mining with R
Posted 菜鸟学数据分析之R语言
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言书籍|Text Mining with R相关的知识,希望对你有一定的参考价值。
昨天有小粉丝私信我有没有适合学习文本挖掘的书籍推荐,于是想到可以推出【R 书籍】这个专辑,分享和R语言相关的书籍,主要内容包括R实战,R语言与统计分析,R语言与机器学习,R语言与数据科学等。今日分享书籍是《Text Mining with R》
阅读链接:https://www.tidytextmining.com/index.html
复制链接,使用浏览器打开即可在线阅读。
这本书是介绍使用tidytext包和r中的其他整理工具进行文本挖掘的。tidytext包提供的功能相对简单;重要的是应用。因此,这本书提供了引人注目的实际文本挖掘问题的例子。
我们首先介绍整齐的文本格式,以及dplyr、tidyr和tidytext允许对该结构进行信息分析的一些方法。
第1章概述了整洁的文本格式和unnest_tokens()函数。它还介绍了gutenbergr和janeaustenr包,提供在有用的文学文本数据集。
第2章展示了如何使用来自tidytext和dplyr的inner_join()数据集对整洁的文本数据集进行情绪分析。
第3章描述tf-idf统计量(术语频率乘以反向文档频率),用于识别对特定文档特别重要的术语。
第4章介绍了n-grams和如何使用widyr和ggraph包分析word网络中的文本。文本在分析的所有阶段都不是整齐的,能够在整齐和不整齐的格式之间来回转换是很重要的。
第5章介绍了整理tm和quanteda包中的文档术语矩阵和语料库对象的方法,以及将整洁的文本数据集转换成这些格式的方法。
第6章探讨了主题建模的概念,并使用tidy()方法来解释和可视化topicmodels包的输出。
最后,用几个案例研究总结了所学到的多种整洁文本挖掘方法。
第7章通过分析作者自己的Twitter档案,展示了一个整洁文本分析的应用。戴夫和茱莉亚的推特习惯比较起来怎么样?
第8章探索了32,000多个NASA数据集(JSON格式)中的元数据,通过查看数据集中的关键词是如何连接到标题和描述字段的。
第9章分析了来自不同新闻组的Usenet消息数据集(关注的主题包括政治、曲棍球、技术、无神论等),以了解不同组之间的模式。
这本书关于文本挖掘的基础介绍的很详细,可以选择快速阅读的方式,选择自己需要的内容进行学习,这本书的英文章节如下:
· Text Mining with R
· Welcome to Text Mining with R
· Preface
· 1 The tidy text format
· 2 Sentiment analysis with tidy data
· 3 Analyzing word and document frequency: tf-idf
· 4 Relationships between words: n-grams and correlations
· 5 Converting to and from non-tidy formats
· 6 Topic modeling
· 7 Case study: comparing Twitter archives
· 8 Case study: mining NASA metadata
· 9 Case study: analyzing usenet text
· 10 References
· Published with bookdown
以上是关于R语言书籍|Text Mining with R的主要内容,如果未能解决你的问题,请参考以下文章
Unsupervised Learning and Text Mining of Emotion Terms Using R
Mining Twitter Data with Python
CS224W摘要12.Frequent Subgraph Mining with GNNs
R语言ggplot2可视化在图像中添加竖线并在竖线的两边添加文本标签并对齐实战:添加竖线添加竖线两边的对齐文本标签(Align geom_text with geom_vline )
R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping)Dodge Overlapping X-axis Text with guide_axis()
论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)