如何确定给定文档(文本)的主题? [关闭]

Posted

技术标签:

【中文标题】如何确定给定文档(文本)的主题? [关闭]【英文标题】:How to determine topic of given document (text)? [closed] 【发布时间】:2013-10-22 04:44:24 【问题描述】:

我知道如何通过 Weka 对文本进行分类,我可以在 Weka GUI 中插入一个文本文件夹并尝试不同的算法,如果其中一个文本对某个主题是正面/负面的,它可以告诉我。

现在我需要一些不同的东西,我想构建一个应用程序,当用户插入单个文本文件时,它可以告诉文本的主题。

Weka 有没有可能做到这一点?如果有人能给我一个提示,我会很高兴的。

【问题讨论】:

【参考方案1】:

你必须使用 Weka 吗?如果没有,还有其他很好的文本分类系统可以开放/免费访问主题分类。我建议尝试Open Calais,它可以下载或使用网络服务。

【讨论】:

【参考方案2】:

“主题”是什么意思?这是一个非常广泛的概念,但在大多数情况下,它只是可能的文本类别的有限集合,例如“科学”、“运动”等,您可以将其称为 C,并将其视为有监督的分类问题。做“正面/负面”分类。分类为多个类别并没有什么特别之处。然而,您仍然需要为每个类别提供一个训练集。

总而言之 - 您可以以与二进制分类完全相同的方式使用 WEKA,只需使用更多标签执行分类(如果您的类别是互斥的,即,没有一个文本是关于“科学”和“运动”的) 或创建 |C| 二进制分类器,如果您的文本可以是类别的任何子集的一部分(这更合理,因为文档通常“介于”某些主题之间),并简单地回答您的相应分类器的类别集回答“是”(肯定的)。

如果您想以无监督方式(没有训练集)执行此操作,那么需要通过某种文本摘要/主题建模技术对主题进行实际建模,这将是一项更为复杂的任务,据我所知,这些技术尚未实现在威卡。事实上,据我所知,这种方法还不够成熟,无法谈论任何“好的”解决方案——这些是相当多的研究领域,有很多方法和混合的结果。

【讨论】:

以上是关于如何确定给定文档(文本)的主题? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

LDA主题建模

R语言中对文本数据进行主题模型topic modeling分析

用 Python 和 Gensim 库进行文本主题识别

存储文本挖掘数据

如何使用 pyspark(2.1.0) LdA 获取与每个文档相关的主题?

LDA 主题建模 - 训练和测试