r 使用包“tm”(文本挖掘)在R中的tfidf

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了r 使用包“tm”(文本挖掘)在R中的tfidf相关的知识,希望对你有一定的参考价值。

#read 1000 txt articles from directory data/txt
corpus  <-Corpus(DirSource("data/txt"), readerControl = list(blank.lines.skip=TRUE));
#some preprocessing
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, stemDocument, language="english")
#creating term matrix with TF-IDF weighting
terms <-DocumentTermMatrix(corpus,control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE)))

#or compute cosine distance among documents
dissimilarity(tdm, method = "cosine")

以上是关于r 使用包“tm”(文本挖掘)在R中的tfidf的主要内容,如果未能解决你的问题,请参考以下文章

R tm 文本挖掘中的自冲突停用词

R语言文本挖掘

R包之tm:文本挖掘包

R语言文本处理中文分词并制作文字云

R语言 数据挖掘-文本分析(1)

R文本文件和文本挖掘...如何加载数据