文本挖掘——如何构建术语-文档矩阵

Posted

技术标签:

【中文标题】文本挖掘——如何构建术语-文档矩阵【英文标题】:Text mining- how to build a term-document matrix 【发布时间】:2013-12-31 14:25:16 【问题描述】:

我想要做的是加载一个 csv 文件,并转换为一个术语文档矩阵。

这是我的部分代码:

myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE)
TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf)))

但是得到一个错误信息说:Error in UseMethod("TermDocumentMatrix", x) : 没有适用于“data.frame”类对象的“TermDocumentMatrix”方法

【问题讨论】:

【参考方案1】:

这里有几件事——您没有加载 tm 库,也没有创建语料库。尝试这样的事情(假设您的文本数据位于 csv 文件中名为“text”的字段中):

library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$text))
TermDocumentMatrix(corpus)

【讨论】:

您能否解释一下“假设您的文本数据位于 csv 文件中名为“文本”的字段中”,谢谢 您在 csv 文件中有一些数据。数据的第一行是列标题的名称,随后的所有行都是数据。某些列包含您要用于构建术语文档矩阵的文本。我假设此列的列标题(也就是此列的 csv 文件第一行中的值)称为“文本”。 使用str(myCorpus) 并查看文本列标题的名称。 josilber 说他认为这是为了解释的文本,但很可能不是。 @josilber 我有一个 csv 文件,其标题是:DATE Alert 和 OriginatingAddress。我应该如何基于两列构建术语文档矩阵:DATE 和 Alert。行将具有警报,列将具有日期。该条目表示一天内发生警报的次数。 您是否尝试确定特定警报每天出现的次数?

以上是关于文本挖掘——如何构建术语-文档矩阵的主要内容,如果未能解决你的问题,请参考以下文章

如何快速入门中文分词及文本挖掘

R包之tm:文本挖掘包

文本挖掘从小白到精通---语料向量空间和模型的概念

使用Python的文本挖掘的特征选择/提取

文本挖掘案例

R文本挖掘之tm包