r 中的 DocumentTermMatrix:maxWordLength 不起作用?

Posted

技术标签:

【中文标题】r 中的 DocumentTermMatrix:maxWordLength 不起作用?【英文标题】:DocumentTermMatrix in r: maxWordLength doesn't work? 【发布时间】:2016-03-23 05:27:48 【问题描述】:

DocumentTermMatrix 中的 maxWordLength 参数似乎没有任何效果(没有警告,没有错误)。我正在使用 tm_0.6-2。 R 版本 3.2.2 mac。有什么想法吗?

df

检查(df.dtf)

产量:

检查(df.dtf) 非/稀疏条目:7/0 稀疏性:0% 最长期限:13 加权:词频(tf)

Terms

Docs 特别长的字符串用 word 测试这个 1 1 1 1 1 1 1 1

【问题讨论】:

【参考方案1】:

这对我有用,如果我理解你是正确的并且你只是想“限制”你的最大字长:

df.dtf <- DocumentTermMatrix(df, control = list( wordLengths=c(1,4)))

【讨论】:

以上是关于r 中的 DocumentTermMatrix:maxWordLength 不起作用?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

使用 DocumentTermMatrix() 的更多停用词

as.data.frame.default(dtm) 中的错误:无法将类 "c("DocumentTermMatrix", "simple_triplet_ma

R:识别并删除列名无效的列

语料库参数上的 DocumentTermMatrix 错误

稀疏度为 0% 的 DocumentTermMatrix