在 Java 中对记录进行分类

Posted

技术标签:

【中文标题】在 Java 中对记录进行分类【英文标题】:Categorizing records in Java 【发布时间】:2012-06-11 07:15:52 【问题描述】:

我有一个书籍列表,其中每本书都属于一个类别。

驾驶飞机 - 航空 绘画 - 艺术 1001 食谱 - 烹饪

我有足够多的样本数据集。我需要使用一些算法对我的新书进行分类。我知道它永远不会 100% 准确,但一个好的猜测对我有好处。

我应该用什么来实现做这样的事情?我应该使用 Classifier4J 吗?它是 Vector Classifier?

还有其他像 Weka 这样的工具吗?如果有人可以向我指出一些文章/示例以帮助我入门,那就太好了。

谢谢

【问题讨论】:

你可以看看rapid miner。 看看这个:java-text-classification-problem,你们在做几乎完全相同的事情。 【参考方案1】:

https://www.coursera.org/course/ml 上有一门课程叫做机器学习。如果您将问题视为分类,您应该训练N One-vs-All 分类器,其中N 是您的类数(=类别)。为了训练分类器使用自然语言处理类https://www.coursera.org/course/nlp 中描述的算法,通常它与现有类http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html 相似。所有这些都可以在 Apache Mahout 中使用https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian 完成。

【讨论】:

【参考方案2】:

Lingpipe 似乎是一个很好的解决方案,并且似乎运作良好。 Lingpipe 中包含的演示是一个很好的起点:

http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html

【讨论】:

以上是关于在 Java 中对记录进行分类的主要内容,如果未能解决你的问题,请参考以下文章

在python中对数组列表进行分类

在matlab中对单元格数组进行分类

如何在 python 3 中对大量文本进行分类?

如何在 python 的朴素贝叶斯分类器中对用户输入测试集进行分类?

在 seaborn 图表中对分类标签进行排序

如何在 Weka 中对训练和测试数据集进行分类