文本挖掘——如何构建术语-文档矩阵
Posted
技术标签:
【中文标题】文本挖掘——如何构建术语-文档矩阵【英文标题】:Text mining- how to build a term-document matrix 【发布时间】:2013-12-31 14:25:16 【问题描述】:我想要做的是加载一个 csv 文件,并转换为一个术语文档矩阵。
这是我的部分代码:
myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE)
TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf)))
但是得到一个错误信息说:Error in UseMethod("TermDocumentMatrix", x) : 没有适用于“data.frame”类对象的“TermDocumentMatrix”方法
【问题讨论】:
【参考方案1】:这里有几件事——您没有加载 tm 库,也没有创建语料库。尝试这样的事情(假设您的文本数据位于 csv 文件中名为“text”的字段中):
library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$text))
TermDocumentMatrix(corpus)
【讨论】:
您能否解释一下“假设您的文本数据位于 csv 文件中名为“文本”的字段中”,谢谢 您在 csv 文件中有一些数据。数据的第一行是列标题的名称,随后的所有行都是数据。某些列包含您要用于构建术语文档矩阵的文本。我假设此列的列标题(也就是此列的 csv 文件第一行中的值)称为“文本”。 使用str(myCorpus)
并查看文本列标题的名称。 josilber 说他认为这是为了解释的文本,但很可能不是。
@josilber 我有一个 csv 文件,其标题是:DATE Alert 和 OriginatingAddress。我应该如何基于两列构建术语文档矩阵:DATE 和 Alert。行将具有警报,列将具有日期。该条目表示一天内发生警报的次数。
您是否尝试确定特定警报每天出现的次数?以上是关于文本挖掘——如何构建术语-文档矩阵的主要内容,如果未能解决你的问题,请参考以下文章