用于分类的预分类训练 Twitter 评论
Posted
技术标签:
【中文标题】用于分类的预分类训练 Twitter 评论【英文标题】:preclassified trained twitter comments for categorization 【发布时间】:2014-11-30 10:07:59 【问题描述】:所以我有大约 100 万行 csv 格式的 twitter cmets 数据。我需要将它们分类为某些类别,例如是否有人在谈论:“产品寿命”、“便宜/昂贵”、“打折/折扣”等。
如您所见,我有多个类可以将这些推文数据分类。 问题是我如何为如此庞大的数据生成/创建训练数据。愚蠢的问题,但我想知道是否已经有预分类/标记的 cmets 数据来训练我们的模型?如果不是,那么为文本/cmets 的多类分类创建训练数据的最佳方法是什么?
虽然我已经尝试并测试了 NaiveBayes 对较小数据集的情感分类,但您能否建议我应该为这个问题使用哪个分类器(多个类别将 cmets 分类)。
谢谢!!!
【问题讨论】:
当您两次发布相同的问题时,您不会受到很好的对待 =( ,请参阅***.com/help/how-to-ask 很抱歉,有一次我在一篇文章中发布了 3 个问题。并因此受到抨击。然后我不得不将它们作为三个帖子单独发布,而所有帖子的背景都相同。这就是为什么我将相同数据的另一个方面作为单独的问题发布 【参考方案1】:问题是我什至如何生成/创建训练数据 这么大的数据
我建议找到一个可以帮助您找到感兴趣的类别的训练数据集。假设与价格相关的文章,您可能希望找到一个与价格相关的文章的训练数据集,然后可能会扩展通过使用诸如便宜等关键字的同义词来实现。或许还可以查看句子结构,看看句子结构是否有助于您的分类器算法。
如果不是,那么创建训练数据的最佳方法是什么? text/cmets的多类分类?关键词,拉取所有关于相关类别的文章,然后从那里开始。
最后,我建议您非常熟悉 NLTK 的语料库,这也可能有助于您检索训练数据。
至于您的最后一个问题,我对您所说的“将 cmets 分类为多个类别”的意思有点困惑,您的意思是让特定评论属于多个分类器吗?那么评论可以属于1到更多的分类器吗?
【讨论】:
'将 cmets 归入的多个类别' : 一条评论可以涉及多个类别(即可能属于多个类别)以上是关于用于分类的预分类训练 Twitter 评论的主要内容,如果未能解决你的问题,请参考以下文章