Lucene 项向量多元贝叶斯模型期望最大化
Posted
技术标签:
【中文标题】Lucene 项向量多元贝叶斯模型期望最大化【英文标题】:Lucene Term Vector Multivariate Bayes Model Expectation Maximization 【发布时间】:2011-07-01 12:43:53 【问题描述】:我正在尝试实现文档聚类的期望最大化算法。我打算使用 Lucene 术语向量来查找 2 个文档之间的相似性。使用朴素贝叶斯的 EM 算法有 2 种:多元模型和多项模型。简单来说,多项式模型使用文档中不同单词的频率,而多元模型仅使用文档中是否存在单词的信息(布尔向量)。
我知道 Lucene 中的术语向量存储当前文档中存在的术语及其频率。这正是多项式模型所需要的。
但多变量模型需要以下内容: 存储特定术语是否存在的向量。因此,所有文档中的所有术语都必须由该向量处理。
举个例子:
doc1 : 字段 CONTENT 具有以下术语:这是快乐的世界。
doc2 : 字段 CONTENT 有以下术语:这个神奇的世界充满了讽刺的人。
现在我需要的向量应该是
(它包含所有文件中的所有单词)
对于 doc1,这个向量的值是
对于 doc2,这个向量的 vakue 是
有没有办法在 Lucene 中生成这样的布尔向量?
【问题讨论】:
【参考方案1】:我会首先生成多项向量,然后处理它们(可能是它们的文本表示)以获得多元向量。
如果文档集不是很小,存储完整向量是一种浪费。您应该有一个稀疏表示,因为每个文档都包含可能术语的一小部分。
This blog post 描述了从 Lucene/Solr 文档生成特征向量,尽管我不认为它比你已经做的更远。
【讨论】:
我也邮寄了 Lucene 用户列表,他们建议使用相同的方法来处理术语向量以获得我需要的向量。感谢您的宝贵时间。以上是关于Lucene 项向量多元贝叶斯模型期望最大化的主要内容,如果未能解决你的问题,请参考以下文章