在线(相对于批量处理)数据挖掘包[关闭]
Posted
技术标签:
【中文标题】在线(相对于批量处理)数据挖掘包[关闭]【英文标题】:Online (as opposed to bulk processed) data mining packages [closed] 【发布时间】:2012-03-27 19:53:00 【问题描述】:“批量处理”是指一次处理所有事实以提取知识的静态数据集(如在 CSV 中)。在“在线”时,它使用实时支持商店:事实在发生时添加(“X 购买 Y”),并在此实时数据上发生查询(“您会向现在在看你吗?”)。
我(误用)了“实时”一词,但我不的意思是结果必须在固定时间内出现。 ('''编辑:上面的实时替换为在线''')
我想到了一个使用实时数据的推荐引擎。然而,我遇到的所有在线资源(例如 SO 问题)在实时和批量处理数据挖掘包之间没有区别。我不得不单独搜索:
从 Lucene/Solr 和其他实时数据集(在线)读取的 Carrot2 对静态文件(批量)执行预定执行的 Knime 在 Hadoop(以及未来基于 Pregel 的 Giraph)上运行的 Mahout(在线?) 与 Cassandra 集成的商业软件包(在线?)什么是在线数据挖掘包?
文献没有区分在线和批量处理包有什么原因吗?还是所有实际的数据挖掘本质上都是批量操作?
【问题讨论】:
我编辑了您的帖子,因为恕我直言,正确的术语是“在线操作”(而不是处理数据副本)。 【参考方案1】:对于某些算法,有可用的在线版本。例如,对于局部异常值因子 LOF,有一个在线变量。相信也有k-means的线上变种(其实MacQueen原来的版本可以看成是“线上的”,虽然大部分人都是通过反复迭代直到收敛,变成了线下的版本),不过问题见下文带有 k 参数。
但是,在线操作通常会带来巨大的性能成本。直到每小时在快照上运行完整算法而不是不断更新结果的速度更快。想想互联网搜索引擎。大多数大型搜索引擎仍然不允许“在线”查询,而是查询上次构建的索引,可能是一天或更早之前。
另外,在线操作需要大量的额外工作。计算距离矩阵很容易,通过添加和删除列来在线更新它并同步所有相关结果要困难得多。通常,大多数数据挖掘结果都太复杂而无法执行此操作。例如,计算数据流的平均值很容易。但是'''通常没有已知的解决方案来更新结果而不重新运行 - 昂贵的 - 过程'''。在其他情况下,您甚至需要更改算法参数。所以在某个时候,可能会形成一个新的集群。然而,k-means 并不意味着出现新的集群。所以本质上,你不能只写一个在线版本的 k-means。这将是一个不同的算法,因为它需要动态修改输入参数“k”。
因此,算法通常已经在线或离线。并且软件包将无法将离线算法变成在线算法。
【讨论】:
【参考方案2】:在线数据挖掘算法意味着它们实时计算结果,并且通常意味着算法是增量的。也就是说,模型每次看到新的训练实例时都会更新,不需要使用批处理算法进行定期重新训练。许多机器学习库,如 Weka,都提供了批处理算法的增量版本。还要检查moa 项目和spark streaming。文献确实对两者进行了区分,尽管大多数“传统”机器学习算法在没有基础设施和计算优化的情况下无法在在线模式下工作。
【讨论】:
对场外资源或工具的推荐请求在 Stack Overflow 上是题外话。如果你回答了这些问题,你就特别强化了 Stack Overflow 是回答这些问题的好地方的信念。它不是。即使您知道一个好的答案,也请不要回答这些问题,因为大多数答案都是非常固执的(“我个人喜欢......”)。您可以打开问题的标志对话框,并在 off-topic 类别下或help center 中查看完整的关闭原因。您甚至不应该在评论中回答,因为效果类似于实际答案。 我回答了“什么是在线数据挖掘包?”的问题。和“文献没有区分在线和批量处理包有什么原因吗?” .这个问题被标记为+2,所以它很重要。如果你对问题有问题,为什么要惩罚答案? 独立于您对 Stack Overflow 应该是什么的个人意见,以及您塑造它的愿望,只有具有正确能力的人应该有权对 Stack Overflow 问题采取行动。似乎您只有声誉,但(根据您的个人资料)没有能力。 +2 表示两个人在 2012 年点击了一个按钮,这不是衡量质量的标准。这个问题确实得到了“惩罚”——它现在已经关闭了。我不代表我的个人意见行事,而是代表community's。这个问题早在 2012 年就被问到了,你的回答把它扔到了一些用户的提要中,然后这些用户认为适合关闭它。如果您有任何疑问,请drop in chat。 我没有看到这个问题已经结束,但 [on hold]。无论如何,这个问题是实际且重要的,遗憾的是不是很清楚地说明了每个人都可以理解它。以上是关于在线(相对于批量处理)数据挖掘包[关闭]的主要内容,如果未能解决你的问题,请参考以下文章