使用 NLTK 从自己的文本数据中进行情感分类
Posted
技术标签:
【中文标题】使用 NLTK 从自己的文本数据中进行情感分类【英文标题】:Sentiment Classification from own Text Data using NLTK 【发布时间】:2012-05-26 22:52:54 【问题描述】:我要问的内容可能听起来与帖子 Sentiment analysis with NLTK python for sentences using sample data or webservice? 非常相似,但我已经完成了对文本句子的解析和标记化。我的问题是
-
到目前为止,我在 NLTK 电影评论示例中看到的任何示例似乎都与我的问题最相似,但是对于 movie_review,训练文本已经是一种形式,因为它有两个文件夹 pos 和 neg,并且文本存储在那里。我怎样才能对我的大文本进行分类,我是否手动读取数据并将它们存储到两个文件夹中。这是否使语料库。之后我可以像示例中的 movie_review 数据一样使用它们吗?
2.如果上述问题的答案是肯定的,是否有任何方法可以通过任何工具加速该任务。例如,我只想使用内容中包含“Monty Python”的文本。然后我手动对它们进行分类,然后将它们存储在 pos 和 neg 文件夹中。那样有用吗?
请帮帮我
【问题讨论】:
【参考方案1】:是的,您需要一个训练语料库来训练分类器。或者您需要其他方法来检测情绪。
要创建一个训练语料库,你可以手动分类,你可以让别人帮你分类(机械土耳其人很受欢迎),或者你可以做corpus bootstrapping。对于情绪,这可能涉及创建 2 个关键字列表,积极词和消极词。使用这些,您可以创建一个初始训练语料库,手动更正它,然后训练一个分类器。这是一个迭代过程,要记住的关键是“垃圾进,垃圾出”。换句话说,如果你的训练语料库是错误的,你就不能期望你的分类器是正确的。
【讨论】:
创建两个关键字列表意味着我必须为正面和负面关键字保存两个列表?但我想将文档标记为正面或负面。这可能吗? 2 个关键字列表的想法是您可以使用它们来自动标记文档,而不是手动进行以上是关于使用 NLTK 从自己的文本数据中进行情感分类的主要内容,如果未能解决你的问题,请参考以下文章