如何确定给定文档(文本)的主题? [关闭]
Posted
技术标签:
【中文标题】如何确定给定文档(文本)的主题? [关闭]【英文标题】:How to determine topic of given document (text)? [closed] 【发布时间】:2013-10-22 04:44:24 【问题描述】:我知道如何通过 Weka 对文本进行分类,我可以在 Weka GUI 中插入一个文本文件夹并尝试不同的算法,如果其中一个文本对某个主题是正面/负面的,它可以告诉我。
现在我需要一些不同的东西,我想构建一个应用程序,当用户插入单个文本文件时,它可以告诉文本的主题。
Weka 有没有可能做到这一点?如果有人能给我一个提示,我会很高兴的。
【问题讨论】:
【参考方案1】:你必须使用 Weka 吗?如果没有,还有其他很好的文本分类系统可以开放/免费访问主题分类。我建议尝试Open Calais,它可以下载或使用网络服务。
【讨论】:
【参考方案2】:“主题”是什么意思?这是一个非常广泛的概念,但在大多数情况下,它只是可能的文本类别的有限集合,例如“科学”、“运动”等,您可以将其称为 C
,并将其视为有监督的分类问题。做“正面/负面”分类。分类为多个类别并没有什么特别之处。然而,您仍然需要为每个类别提供一个训练集。
总而言之 - 您可以以与二进制分类完全相同的方式使用 WEKA,只需使用更多标签执行分类(如果您的类别是互斥的,即,没有一个文本是关于“科学”和“运动”的) 或创建 |C|
二进制分类器,如果您的文本可以是类别的任何子集的一部分(这更合理,因为文档通常“介于”某些主题之间),并简单地回答您的相应分类器的类别集回答“是”(肯定的)。
如果您想以无监督方式(没有训练集)执行此操作,那么需要通过某种文本摘要/主题建模技术对主题进行实际建模,这将是一项更为复杂的任务,据我所知,这些技术尚未实现在威卡。事实上,据我所知,这种方法还不够成熟,无法谈论任何“好的”解决方案——这些是相当多的研究领域,有很多方法和混合的结果。
【讨论】:
以上是关于如何确定给定文档(文本)的主题? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
R语言中对文本数据进行主题模型topic modeling分析