文本分类与句子分类[重复]
Posted
技术标签:
【中文标题】文本分类与句子分类[重复]【英文标题】:Text classification vs. Sentence classification [duplicate] 【发布时间】:2014-06-21 01:51:27 【问题描述】:这两者有什么区别?文章似乎以不同的方式对待它们......也就是说,一篇论文将展示对文本分类或句子分类的研究。
我想知道 - 如果一个人对整个文本应用句子分类,然后根据其大部分句子被分类到的内容对段落进行分类 - 这会算作正确的文本分类吗?还是文本分类有不同的“捕获”?
【问题讨论】:
@adi92,感谢您的参考(也是一个非常好的答案!)我注意到您的答案和 lejlot 的答案完全相反。你对他写的有什么意见吗? @Chesie 我们的两个答案似乎都说没有真正的区别.. 是什么让你说我们的答案相反? @adi92 - lejlot 说句子分类与文本分类相同,只是更小。你说过,虽然相似——但你对待它们的方式不同。在句子分类中,你需要squeeze each training instance for all the information it can give you
- 意思是添加单词的顺序,POS标签,也许跳过特征选择......我相信它与你处理文本分类的方式略有不同,而且它不仅仅是一个较小的问题.
这更像是一个旁注。在任何 ML 任务中,当您的单个训练实例的大小有点小时,您在从该实例中提取特征向量时更有可能需要更聪明。当您对政客的演讲(可能很长)进行分类时,指示某些单词存在/不存在的 0-1 特征向量可能足以进行分类。在对推文进行分类时,由于要处理的文本较少,因此您可能需要通过查看 POS 标签、自上一条推文以来的时间、转发次数等来变得更聪明
谢谢@adi92。你的“旁注”是我迄今为止找到的最接近的答案(赞成):-)
【参考方案1】:
任务,问题是关于做什么而不是如何。因此,如何处理文本分类并不重要,如果您对文本进行分类,它始终是文本分类。就这样。您可以掷硬币对其进行分类,如果它取得了良好的分数,它仍然会“算作正确的文本分类”。
句子分类可以看作是一个“较小规模”的问题,因为文本分类更适合用于较大文本块(如文档)的上下文。但是这里没有严格的区别/界限。我宁愿将文本分类视为一个包,一个通用术语,您可以在其中放置单词级别的任务(例如 POS 标记);句子分类;情感分析(在单词、句子、段落或文档层面)等。
【讨论】:
以上是关于文本分类与句子分类[重复]的主要内容,如果未能解决你的问题,请参考以下文章
用于句子多类分类的 BertForSequenceClassification 与 BertForMultipleChoice