在 Java 中对记录进行分类
Posted
技术标签:
【中文标题】在 Java 中对记录进行分类【英文标题】:Categorizing records in Java 【发布时间】:2012-06-11 07:15:52 【问题描述】:我有一个书籍列表,其中每本书都属于一个类别。
驾驶飞机 - 航空 绘画 - 艺术 1001 食谱 - 烹饪我有足够多的样本数据集。我需要使用一些算法对我的新书进行分类。我知道它永远不会 100% 准确,但一个好的猜测对我有好处。
我应该用什么来实现做这样的事情?我应该使用 Classifier4J 吗?它是 Vector Classifier?
还有其他像 Weka 这样的工具吗?如果有人可以向我指出一些文章/示例以帮助我入门,那就太好了。
谢谢
【问题讨论】:
你可以看看rapid miner。 看看这个:java-text-classification-problem,你们在做几乎完全相同的事情。 【参考方案1】:https://www.coursera.org/course/ml 上有一门课程叫做机器学习。如果您将问题视为分类,您应该训练N
One-vs-All 分类器,其中N
是您的类数(=类别)。为了训练分类器使用自然语言处理类https://www.coursera.org/course/nlp 中描述的算法,通常它与现有类http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html 相似。所有这些都可以在 Apache Mahout 中使用https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian 完成。
【讨论】:
【参考方案2】:Lingpipe 似乎是一个很好的解决方案,并且似乎运作良好。 Lingpipe 中包含的演示是一个很好的起点:
http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html
【讨论】:
以上是关于在 Java 中对记录进行分类的主要内容,如果未能解决你的问题,请参考以下文章