Lucene 项向量多元贝叶斯模型期望最大化

Posted

技术标签:

【中文标题】Lucene 项向量多元贝叶斯模型期望最大化【英文标题】:Lucene Term Vector Multivariate Bayes Model Expectation Maximization 【发布时间】:2011-07-01 12:43:53 【问题描述】:

我正在尝试实现文档聚类的期望最大化算法。我打算使用 Lucene 术语向量来查找 2 个文档之间的相似性。使用朴素贝叶斯的 EM 算法有 2 种:多元模型和多项模型。简单来说,多项式模型使用文档中不同单词的频率,而多元模型仅使用文档中是否存在单词的信息(布尔向量)。

我知道 Lucene 中的术语向量存储当前文档中存在的术语及其频率。这正是多项式模型所需要的。

但多变量模型需要以下内容: 存储特定术语是否存在的向量。因此,所有文档中的所有术语都必须由该向量处理。

举个例子:

doc1 : 字段 CONTENT 具有以下术语:这是快乐的世界。

doc2 : 字段 CONTENT 有以下术语:这个神奇的世界充满了讽刺的人。

现在我需要的向量应该是

(它包含所有文件中的所有单词)

对于 doc1,这个向量的值是

对于 doc2,这个向量的 vakue 是

有没有办法在 Lucene 中生成这样的布尔向量?

【问题讨论】:

【参考方案1】:

我会首先生成多项向量,然后处理它们(可能是它们的文本表示)以获得多元向量。

如果文档集不是很小,存储完整向量是一种浪费。您应该有一个稀疏表示,因为每个文档都包含可能术语的一小部分。

This blog post 描述了从 Lucene/Solr 文档生成特征向量,尽管我不认为它比你已经做的更远。

【讨论】:

我也邮寄了 Lucene 用户列表,他们建议使用相同的方法来处理术语向量以获得我需要的向量。感谢您的宝贵时间。

以上是关于Lucene 项向量多元贝叶斯模型期望最大化的主要内容,如果未能解决你的问题,请参考以下文章

r语言贝叶斯判别先验概率怎么去

朴素贝叶斯算法

贝叶斯线性回归和多元线性回归构建工资预测模型|附代码数据

统计学习四:1.朴素贝叶斯

频率学派 极大似然估计MLE,贝叶斯学派 最大后验估计MAP 2021-05-11

使用 PyMC3 和大型数据集进行贝叶斯线性回归 - 括号嵌套级别超过最大值且性能缓慢