使用机器学习的作者归属 [关闭]

Posted

技术标签:

【中文标题】使用机器学习的作者归属 [关闭]【英文标题】:Authorship Attribution using Machine Learning [closed] 【发布时间】:2015-07-07 13:45:21 【问题描述】:

我正在研究一个实用的机器学习问题作为练习。我只是需要帮助来解决我的问题。

我有一位著名老作家的 20 本书中的文字。如果属于同一作者,历史上还有 5 本书在争论。

我正在考虑表示这个问题的最佳方式。我正在考虑使用词袋方法来查找作者使用的最重要的词。

我应该将其视为朴素贝叶斯(垃圾邮件/火腿)问题,还是应该使用 KNN 分类(作者/非作者)来检测每个文档的类别。还有其他方法吗?

【问题讨论】:

【参考方案1】:

我认为朴素贝叶斯可以为您提供见解。另一种方法是,找出将此类书籍分开的功能 1. 词的复杂性,一些作者容易理解和使用常用词,我在暗示 IDF(逆文档频率) 2. 有些词在他那个时代可能根本不存在,比如“自拍”、“手机”等。

尝试找到很多这样的特征,也可以训练判别分类器。

【讨论】:

以上是关于使用机器学习的作者归属 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

在 F# 中使用机器学习的资源 [关闭]

使用 Hadoop 的机器学习框架 [关闭]

深度学习和传统的人工神经网络机器学习有啥区别? [关闭]

大规模机器学习 [关闭]

什么是学习机器学习的好的第一个实现? [关闭]

什么是机器学习? [关闭]