我应该使用哪种分类模型来进行机器学习中的作者归属?

Posted

技术标签:

【中文标题】我应该使用哪种分类模型来进行机器学习中的作者归属?【英文标题】:Which classification model should I use for author attribution in machine learning? 【发布时间】:2020-06-13 02:47:21 【问题描述】:

我的目标是拥有一组由特定作者编写的文本和一个更大的未知文本测试集。我希望能够预测测试集中的每个文本(或类)是否由训练文本集的特定作者编写。我应该使用什么分类模型来实现这一点以及如何实现它?

【问题讨论】:

数据中有多少作者和文本?您有作者提供的任何额外数据吗?一群作家有一种写作风格。根据这个假设,您可以将作者分成几个组,然后尝试将每个文本分类到这些组中。 我有 1 位作者的文本数量未知。我应该使用什么模式? 【参考方案1】:

您可以使用逻辑回归模型。就算名字里有“回归”,也适用于分类。

如果某些词的使用对您的作者来说是典型的,您可以创建一个基于文本中词频率的模型:

在应用模型之前,您需要从文本中创建数值。因此,您可以将标记分配给唯一的单词。 您通过计算单词的频率来创建特征向量

Logistic regession model for text classification 包含执行这些步骤以得出电影评论判断的代码。

例如,如果需要考虑单词的顺序,则需要修改方法。

【讨论】:

以上是关于我应该使用哪种分类模型来进行机器学习中的作者归属?的主要内容,如果未能解决你的问题,请参考以下文章

应该使用哪种机器学习技术进行消息分类

我将如何确定我应该使用哪个评估指标来进行机器学习中的分类问题陈述?

机器学习中的评价指标

weka 中的机器学习分类和预测

一般来说,选择哪种机器学习分类器? [关闭]

我应该使用哪种聊天文本数据表示来进行用户分类? [关闭]