具有先验主题词的潜在狄利克雷分配

Posted

技术标签:

【中文标题】具有先验主题词的潜在狄利克雷分配【英文标题】:Latent Dirichlet Allocation with prior topic words 【发布时间】:2017-12-23 12:24:42 【问题描述】:

上下文

我正在尝试使用来自Scikit-Learn's decomposition module 的Latent Dirichlet allocation 从一组文本中提取主题。 除了找到/选择的主题词的质量之外,这非常有效。

在Li et al (2017) 的一篇文章中,作者描述了使用先前的主题词作为 LDA 的输入。他们手动选择 4 个主题以及与这些主题相关/属于这些主题的主要词。对于这些词,他们将相关主题的默认值设置为大数字,而将其他主题的默认值设置为 0。对于所有主题 (1),所有其他词(不是为主题手动选择的)都被赋予相同的值。此值矩阵用作 LDA 的输入。

我的问题

如何使用 Scikit-Learn 的 LatentDirichletAllocation 模块使用自定义默认值矩阵(先前主题词)作为输入创建类似的分析?

(我知道有一个topic_word_prior 参数,但它只需要一个浮点数而不是具有不同“默认值”的矩阵。)

编辑

解决方案

使用@Anis 的帮助,我创建了原始模块的子类,并编辑了设置起始值矩阵的函数。对于您希望作为输入提供的所有先前主题词,它通过将值与该(先前)词的主题值相乘来转换 components_ 矩阵。

这是代码:

# List with prior topic words as tuples
# (word index, [topic values])
prior_topic_words = []

# Example (word at index 3000 belongs to topic with index 0)
prior_topic_words.append(
    (3000, [(np.finfo(np.float64).max/4),0.,0.,0.,0.])
)

# Custom subclass for PTW-guided LDA
from sklearn.utils import check_random_state
from sklearn.decomposition._online_lda import _dirichlet_expectation_2d
class PTWGuidedLatentDirichletAllocation(LatentDirichletAllocation):

    def __init__(self, n_components=10, doc_topic_prior=None, topic_word_prior=None, learning_method=’batch’, learning_decay=0.7, learning_offset=10.0, max_iter=10, batch_size=128, evaluate_every=-1, total_samples=1000000.0, perp_tol=0.1, mean_change_tol=0.001, max_doc_update_iter=100, n_jobs=None, verbose=0, random_state=None, n_topics=None, ptws=None):
        super(PTWGuidedLatentDirichletAllocation, self).__init__(n_components, doc_topic_prior, topic_word_prior, learning_method, learning_decay, learning_offset, max_iter, batch_size, evaluate_every, total_samples, perp_tol, mean_change_tol, max_doc_update_iter, n_jobs, verbose, random_state, n_topics)
        self.ptws = ptws

    def _init_latent_vars(self, n_features):
        """Initialize latent variables."""

        self.random_state_ = check_random_state(self.random_state)
        self.n_batch_iter_ = 1
        self.n_iter_ = 0

        if self.doc_topic_prior is None:
            self.doc_topic_prior_ = 1. / self.n_topics
        else:
            self.doc_topic_prior_ = self.doc_topic_prior

        if self.topic_word_prior is None:
            self.topic_word_prior_ = 1. / self.n_topics
        else:
            self.topic_word_prior_ = self.topic_word_prior

        init_gamma = 100.
        init_var = 1. / init_gamma
        # In the literature, this is called `lambda`
        self.components_ = self.random_state_.gamma(
            init_gamma, init_var, (self.n_topics, n_features))

        # Transform topic values in matrix for prior topic words
        if self.ptws is not None:
            for ptw in self.ptws:
                word_index = ptw[0]
                word_topic_values = ptw[1]
                self.components_[:, word_index] *= word_topic_values

        # In the literature, this is `exp(E[log(beta)])`
        self.exp_dirichlet_component_ = np.exp(
            _dirichlet_expectation_2d(self.components_))

启动与原始LatentDirichletAllocation 类相同,但现在您可以使用ptws 参数提供先前的主题词。

【问题讨论】:

您是否尝试过手动编辑模型的 components_ 矩阵的系数?在我看来,这就是您想要实现的目标。 感谢您的快速回复,这就是我想要弄清楚的。 (我不确定我必须/可以调整哪个(内部)属性,以及我可以在其中放入什么范围的值? 在我看来,它是您模型的 components_ 矩阵,因为它直接用于训练。您可以使用model.components_[i, j] = aij 为主题 i 和特征 j 设置值 aij。 我假设这应该在拟合模型之前发生?值的范围是否重要? (例如,我可以使用 0、1 和大的正浮点数吗?) 【参考方案1】:

在查看了源代码和文档之后,在我看来,最简单的做法是子类 LatentDirichletAllocation 并且只覆盖 _init_latent_vars 方法。它是fit 中调用的方法来创建components_ 属性,该属性是用于分解的矩阵。通过重新实现此方法,您可以按照您想要的方式设置它,特别是提高相关主题/功能的先验权重。您将在那里重新实现论文的初始化逻辑。

【讨论】:

谢谢!我正在沿着这条线工作,如果找到解决方案,我会发布代码:) 是的,初始化这个矩阵真的不是很明显,我真的不能走得更远,现在由你决定。最后一件事,看看 _init_latent_vars 的原始实现,你会看到还有一个名为 exp_dirichlet_component_ 的矩阵,在你完成 components_ 后需要处理它 是的,我在计算 exp_dirichlet_component_ 之前用 ptw-matrix 转换 components_ 矩阵,所以应该注意这一点。现在测试我的实现,我会及时通知你 我收到以下错误,当我尝试这个解决方案时:RuntimeError: scikit-learn estimators 应该总是在他们的 init 的签名中指定他们的参数(没有可变参数)。带有构造函数 (self, ptws=None, *args, **kwargs) 的 main.PTWGuidedLatentDirichletAllocation'> 不遵循此约定。 @AILearning 我更新了解决方案块中的代码。它现在应该通过你提到的测试。这样做的缺点是代码变得不那么可读,并且如果超类的默认值被更改,它不会自动接管这些。但无论如何,它现在应该符合建议的标准。

以上是关于具有先验主题词的潜在狄利克雷分配的主要内容,如果未能解决你的问题,请参考以下文章

潜在狄利克雷分配(LDA)

如何实现潜在狄利克雷分配以在主题中给出二元组/三元组而不是一元组

Gensim 的潜在狄利克雷分配实现

Latent Dirichlet Allocation(隐狄利克雷分配模型)——论文翻译与分析

使用 PyMC 实现潜在狄利克雷分配 (LDA)

潜在狄利克雷分配(LDA,Latent Dirichlet Allocation)模型