WEKA j48算法中的useLaplace参数有啥作用?
Posted
技术标签:
【中文标题】WEKA j48算法中的useLaplace参数有啥作用?【英文标题】:What does the useLaplace parameter do in the WEKA j48 algorithm?WEKA j48算法中的useLaplace参数有什么作用? 【发布时间】:2016-06-11 12:18:24 【问题描述】:我正在使用 j48 树算法对数据集进行挖掘。
我一直试图了解useLaplace
参数的作用。我唯一需要经过的是:
是否基于 LapLace 对叶子处的计数进行平滑处理
这只是 WEKA 提供的文档。不过我对此有一些疑问:
-
什么是叶子计数?
什么是平滑?
什么是 LapLace?它是用于平滑的算法吗?
我在网上找到的所有内容都没有真正详细说明这个参数实际上在做什么,而只是解释说它“打开了拉普拉斯平滑”。
【问题讨论】:
我现在也在做同样的评估;) 【参考方案1】:Provost 和 Domingos 发现叶概率的频率平滑 估计,例如拉普拉斯校正,显着提高了决策树的性能。 根据我的阅读,叶子的计数(我上一句中的叶子概率)用于确定概率估计,可以通过以下方式定义:
P(成为A类|对于属性x) = TruePositive/(TruePositive + FalsePositive)
平滑在于减少树中结果之间的噪声和误差,以便产生更准确的概率估计。
拉普拉斯是频率平滑校正公式:
PLaplace (成为A类|对于属性x)= (T P + 1)/(T P + F P + C)
其中 C 是数据集中的类数。
【讨论】:
所以你是说如果异常值或错误到达叶子,拉普拉斯会尝试减轻它对实例正确到达叶子的概率的影响?我不明白为什么这会提高性能。你能更详细地解释一下吗?另外,能否请你给我你读这篇文章的来源? 这帮助我理解了:researchcommons.waikato.ac.nz/handle/10289/5701以上是关于WEKA j48算法中的useLaplace参数有啥作用?的主要内容,如果未能解决你的问题,请参考以下文章
weka的explorer运行j48算法后,输出如下类容,各是啥含义?