文档分类的决策树
Posted
技术标签:
【中文标题】文档分类的决策树【英文标题】:Decision Trees For Document Classification 【发布时间】:2011-03-08 01:59:11 【问题描述】:您好,我想知道是否可以使用决策树进行文档分类,如果可以,那么数据表示应该如何? 我知道 R 包 party 用于决策树。
【问题讨论】:
【参考方案1】:一种方法是有一个巨大的矩阵,其中每一行是一个文档,每一列是一个单词。单元格中的值是该单词在该文档中出现的次数。
然后,如果您正在处理“监督学习”案例,您应该为分类器设置另一列,然后您可以使用“rpart”(来自 rpart 包)之类的命令来创建分类树.该命令将以与线性模型 (lm) 类似的方式将公式输入到 rpart。
如果您愿意,您还可以尝试首先将您的单词分组为“单词组”,然后让每一列属于不同的单词组,并用数字表示文档中有多少单词属于该组.为此,我会看看“tm”包。 (如果你最终用它做点什么,请考虑在这里发布它,这样我们可以从中学习)
最好, 塔尔
【讨论】:
嗨,Tal,感谢您的指点,实际上我确实计算了一个单词文档矩阵和一个最常见的共现单词的关联矩阵。仍然必须计算 rpart 树,但我正朝着您指出的方向前进。 tm 包中的功能也有很大帮助。一旦我得到一些结果,我会在这里发布代码。 - 新 决策树有一个问题——它们容易过拟合。我建议您尝试没有这个缺点的随机森林方法(av。在 randomForest 包中)。 嗨 mbq,从我在这里读到的内容:en.wikipedia.org/wiki/Random_forest#Disadvantages 我看到随机森林也可能在过度拟合的情况下落入(我认为这种情况可能是其中之一,因为我希望有是许多只是噪音的变量)。你怎么看?塔尔 此声明基于一个非常具体的破坏 RF 的尝试,它显示了与其他分类器共享的行为。更重要的是,在噪声水平较高的情况下,RF 的属性重要性测量效果很好,可用于清除集合并提高准确性。【参考方案2】:本文对不同的文本分类技术及其准确性进行了调查。简而言之,您可以使用决策树对文本进行分类,但还有其他更好的算法。
塞巴斯蒂亚尼,F. (2002)。自动文本分类中的机器学习。 ACM 计算 调查,cs.IR/0110053v1。来自:http://arxiv.org/abs/cs.IR/0110053v1。
【讨论】:
【参考方案3】:我对此表示怀疑——至少按照通常的定义,决策树使用单一标准来指定子分支。在对文档进行分类时,您几乎不能将任何事情都建立在一个标准上——您需要多个标准,即使这样您也不会得到一个清晰的树状决策,但是“这比另一件事”的结果。
【讨论】:
我认为 OP 更多地指的是分类树而不是决策树。这里的术语有些歧义。 ... 如本***页面第二段所述:en.wikipedia.org/wiki/Decision_tree_learning 是的,我同意马特的观点,我的意思有点含糊,抱歉我的意思是使用决策树对文档进行分类。以上是关于文档分类的决策树的主要内容,如果未能解决你的问题,请参考以下文章