用于自动将文档归档到正确文件夹的机器学习方法[关闭]

Posted

技术标签:

【中文标题】用于自动将文档归档到正确文件夹的机器学习方法[关闭]【英文标题】:Machine Learning approach for automating document filing into the correct folder [closed] 【发布时间】:2021-09-19 09:05:33 【问题描述】:

我想知道是否有人对以下场景的正确方法和合适的算法有任何想法:

有数千个不同的文档,每个文档都有自己的分类编码。这些文件进入系统,需要用户手动归档到正确的文件夹中。例如

Document Code Folder
ABC123 Folder 1
DEF456 Folder 2
GHI789 Folder 1

虽然我们可以创建文档代码到文件夹的映射,但对于这么多也可能扩展的代码来说,这可能非常麻烦。此外,每个客户可能希望将相同类型的文档归档到不同的文件夹。


是否有一种构建监督模型的好方法,该模型基本上可以使用历史手动归档的权重来了解特定文档倾向于在哪个文件夹下归档,然后决定将来自动为用户归档?

我了解这种加权对于需要在第一次手动提交并因此在第一次存在很大偏差的新文档类型时可能会很困难。但可能比为忽略代码本身的文档内容构建分类器更容易​​。

如果有人能指出一些算法将不胜感激!

【问题讨论】:

【参考方案1】:

我使用文档名称为已用于超过 100 万份文档的模型做出了贡献。简短的回答是肯定的,但是

    我知道这很无聊,但是:除非真的必须,否则不要使用机器学习。如果没有乐趣,维护生产模型最终会比您预期的要多得多。此外,只要代码数量很小,比如少于 1000,我很想创建映射。即使你想创建一个模型,从长远来看,有一个基于规则的解决方案可以作为基准它对于获得利益相关者的信任非常宝贵。

    如果您确实采用建模方法来学习这种类型的映射,那么一些基本算法应该可以使用,例如决策树或更复杂的表亲、随机森林分类器和梯度提升机器。对于任何算法、数据科学基础知识、了解客户的实际需求、彻底的 EDA 和合理的实验设计,将真正成为您构建的产品最终能否帮助任何人的关键。

    无论您采用哪种方法,我都建议您保持迭代心态,从简单、评估和逐步增加复杂性(例如为每个用户定制模型)开始。就像您对传统软件产品/项目所做的那样。

看看 XGBOOST 分类器,作为开始玩的好地方。 https://xgboost.readthedocs.io/en/latest/python/python_api.html#xgboost.XGBClassifier

要详细了解如何设计依赖机器学习的产品,我强烈推荐 Emmanuel Ameisen 撰写的“构建机器学习驱动的应用程序:从创意到产品”。

【讨论】:

以上是关于用于自动将文档归档到正确文件夹的机器学习方法[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

归档项目后如何访问添加的 pdf 文件以将其复制到用户文档文件夹中?

使用 Ruby 归档文件的正确方法是啥?

将 json 文档归档到 Azure Blob 存储的最佳做法是啥?

使用 7zip 命令将目录中的文件归档到单个 zip [关闭]

如何正确删除Oracle 归档日志文件

Oracle归档日志