使用机器学习的作者归属 [关闭]

Posted 2023-03-13

技术标签:

【中文标题】使用机器学习的作者归属 [关闭]【英文标题】：Authorship Attribution using Machine Learning [closed] 【发布时间】：2015-07-07 13:45:21 【问题描述】：

我正在研究一个实用的机器学习问题作为练习。我只是需要帮助来解决我的问题。

我有一位著名老作家的 20 本书中的文字。如果属于同一作者，历史上还有 5 本书在争论。

我正在考虑表示这个问题的最佳方式。我正在考虑使用词袋方法来查找作者使用的最重要的词。

我应该将其视为朴素贝叶斯（垃圾邮件/火腿）问题，还是应该使用 KNN 分类（作者/非作者）来检测每个文档的类别。还有其他方法吗？

【问题讨论】：

【参考方案1】：

我认为朴素贝叶斯可以为您提供见解。另一种方法是，找出将此类书籍分开的功能 1. 词的复杂性，一些作者容易理解和使用常用词，我在暗示 IDF（逆文档频率） 2. 有些词在他那个时代可能根本不存在，比如“自拍”、“手机”等。

尝试找到很多这样的特征，也可以训练判别分类器。

【讨论】：

以上是关于使用机器学习的作者归属 [关闭]的主要内容，如果未能解决你的问题，请参考以下文章