当预定义的类别不可用时如何对文本进行分类

Posted

技术标签:

【中文标题】当预定义的类别不可用时如何对文本进行分类【英文标题】:How to classify text when pre defined categories are not available 【发布时间】:2011-11-17 00:36:04 【问题描述】:

我有一个问题,不知道必须应用哪种算法。 我正在考虑在案例二中应用集群,但不知道案例一:

我有 50 万份信用卡活动文件。每个文档定义明确,每行包含 1 个事务。日期、金额、零售商名称和零售商的简短 5-20 字描述。 样本: 2004-11-47,$500,亚马逊,一家提供书籍、硬件、音乐等商品和服务的在线零售商。 问题: 1. 如果没有预先定义的类别,如何对每个条目进行分类。 2. 如果给你预先定义的类别,如“餐厅”、“娱乐”等,你会怎么做?

【问题讨论】:

这个项目的目的是什么? 【参考方案1】:

1) 如果没有预先定义的类别,如何对每个条目进行分类。

你不会的。相反,您可以对数据的二维特征使用一些降维算法,猜测“自然”聚类的数量,然后运行聚类算法。

2) 如果给您预先定义的类别,例如“餐厅”、“娱乐”等,您会怎么做?

您需要手动标记其中的一堆,然后在上面训练一个分类器,看看它与通常的准确度/F1、交叉验证等机制的工作情况如何。或者您可以检查一个聚类算法是否适用这些类别很好,但是您仍然需要一些标记数据。

【讨论】:

以上是关于当预定义的类别不可用时如何对文本进行分类的主要内容,如果未能解决你的问题,请参考以下文章

当目的地不可用时如何停止使用骆驼路线中的消息

如何修复 PWA 审核中的“当 JavaScript 不可用时不提供后备内容”?

使用 weka 进行文本分类

如何在 python 3 中对大量文本进行分类?

Android WifiP2p - 当发现的设备不可用时收到通知

使用适用于 iOS 的 XMPP 框架:当订阅者可用/不可用时接收状态