使用机器学习的作者归属 [关闭]
Posted
技术标签:
【中文标题】使用机器学习的作者归属 [关闭]【英文标题】:Authorship Attribution using Machine Learning [closed] 【发布时间】:2015-07-07 13:45:21 【问题描述】:我正在研究一个实用的机器学习问题作为练习。我只是需要帮助来解决我的问题。
我有一位著名老作家的 20 本书中的文字。如果属于同一作者,历史上还有 5 本书在争论。
我正在考虑表示这个问题的最佳方式。我正在考虑使用词袋方法来查找作者使用的最重要的词。
我应该将其视为朴素贝叶斯(垃圾邮件/火腿)问题,还是应该使用 KNN 分类(作者/非作者)来检测每个文档的类别。还有其他方法吗?
【问题讨论】:
【参考方案1】:我认为朴素贝叶斯可以为您提供见解。另一种方法是,找出将此类书籍分开的功能 1. 词的复杂性,一些作者容易理解和使用常用词,我在暗示 IDF(逆文档频率) 2. 有些词在他那个时代可能根本不存在,比如“自拍”、“手机”等。
尝试找到很多这样的特征,也可以训练判别分类器。
【讨论】:
以上是关于使用机器学习的作者归属 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章