关于LDA的建议

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于LDA的建议相关的知识,希望对你有一定的参考价值。

我正在尝试对一堆(约140个)文本文档进行文本分析。在预处理和删除不必要的单词和停用词之后,每个文档具有大约7000个句子(由nlkt的句子标记器确定),并且每个句子平均具有大约17个单词。我的工作是在这些文件中找到隐藏的主题。

我考虑过做主题建模。但是,我无法确定我所拥有的数据是否足以通过LDA获得有意义的结果,或者我还能做些什么。

另外,如何将文本分成不同的文档?是140个文件(每个大约7000 x 17个单词)足够吗?或者我应该将每个句子都视为文件。但是每个文件平均只有17个字;很像推文。

任何的意见都将会有帮助。提前致谢。

答案

我曾经做过类似的工作。这种方法可以使用300个这样的文件。但是,要将其提升到更高的规模,您需要使用spark来复制该方法。

在这里:1)准备TF-IDF矩阵:用术语向量表示文档。为什么不是LDA,因为你需要先提供一些你不了解的主题。如果想要更复杂(比语义更好),你可以使用其他表示文档的方法来尝试word2Vec,GloVe,Google News Vectors等。

2)从上面的TF-IDF准备潜在语义空间。创建LSA使用SVD方法(可以选择kaiser标准来选择维数)。

我们为什么这样做2)?

a)TF-IDF非常稀疏。步骤3(tSne),计算量很大。 b)该LSA可用于创建语义搜索引擎

您可以绕过2)当您的TF-IDF大小非常小但我不认为根据您的情况就是这种情况而且,您没有其他需求,例如对这些文档进行语义搜索。

3)使用tSne(t-随机最近嵌入)来表示3维的文档。准备欧几里德坐标的球形图。

4)迭代地应用K-means以找到最佳簇数。

一旦决定。为每个类别准备单词云。有你的主题。

以上是关于关于LDA的建议的主要内容,如果未能解决你的问题,请参考以下文章

LDA主题模型学习相关的书籍介绍

关于Latent Diricht Allocation

Gaussian LDA: LDA回想以及变分EM

Gaussian LDA: LDA回顾以及变分EM

Gaussian LDA: LDA回顾以及变分EM

线性判别分析LDA算法——