Mahout 0.9 CVB 文档主题映射错误

Posted

技术标签:

【中文标题】Mahout 0.9 CVB 文档主题映射错误【英文标题】:Mahout 0.9 CVB document topic mapping error 【发布时间】:2014-12-11 11:34:36 【问题描述】:

我正在尝试使用最新版本的 Mahout 对一组文档进行主题分析。

主题到术语映射的输出是正确的,每个主题都有具有相应概率的术语列表。

但是当我尝试获取文档到主题的映射时,它只显示一组以某个字母开头的主题。就像在这种情况下所有以字母 a 开头的主题

以下是用于生成文档主题映射的示例代码:

VectorDumper.main(new String[] 
             
            "-i" , inputDocTopicsDir 
            , "-o", oututDocTopicsDir 
            , "-d", inputDictionaryDir 
            , "-dt", "sequencefile" 
            , "-sort", "true" 
            , "-vs", "10" );

示例输出: 2D:0.019996671414880783,3d:0.019994853350969108,4d:0.02000171234917903,5d:0.019994290328033588,a.config:0.01999309367417373,又名:0.02000227944902019,a.system:0.01999771644223781,AAA:0.020003361639812457,AAM:0.019990182999365072,AAPM:0.020012465032122083,AAPV:0.01999879522431889,AAR :0.019995543474585993,AAS:0.019995157547471696,AAV:0.02000267326012652,AB:0.020025978185034182,ABA:0.01999553819903237,放弃:0.020013355238553677,弃:0.01999559962237951,遗弃:0.019994194616256,退让:0.02001433184497984,减污:0.01997728075793184,abberationa:0.020001189392395737

【问题讨论】:

【参考方案1】:

这些是词向量,而不是主题。主题建模与聚类是不同的领域。

K-means 聚类(您可能正在使用)将为您提供平均字数,而不是人们直观地接受的“主题”。没有任何 k-means 会给您以“美式足球”作为主题的结果。这不可以。为此使用监督技术。

你可能以某种方式截断了词向量,它只给你按字母顺序排列的第一个词。

由于每个值都接近 0.02,因此您的结果可能已经退化为近乎随机的混乱。

【讨论】:

您好,感谢您的回复。我正在使用 CVB 主题建模算法。我也对代码中的行为感到非常惊讶,因为我已经按照各种论坛中提供的步骤进行操作。是不是我在打印文档主题映射时不应该使用字典?如果您想查看它以更正它,我可以分享代码。谢谢

以上是关于Mahout 0.9 CVB 文档主题映射错误的主要内容,如果未能解决你的问题,请参考以下文章

Mahout 0.9:使用自己的测试集而不是使用拆分命令

Mahout 0.9 K-Means mapReduce 算法分析

在Linux上结合Hadoop平台安装mahout运行时显示错误JAVA_HOME is not

数据挖掘---推荐算法(Mahout工具)

《OD大数据实战》Mahout入门实例

Mahout Naive Bayes 模型无法找到缓存文件问题