数据挖掘开源工具 [关闭]

Posted

技术标签:

【中文标题】数据挖掘开源工具 [关闭]【英文标题】:Data Mining open source tools [closed] 【发布时间】:2010-10-24 13:25:53 【问题描述】:

我将从事一个数据挖掘项目。在我开始之前,我想探索不同的数据挖掘工具(最好是开源的),这些工具允许基于 Web 的报告。在我的场景中,数据将提供给我,所以我不应该抓取它。

简而言之,我正在寻找一种工具——数据分析、基于 Web 的报告、提供某种仪表板和挖掘功能。

我曾在 Microsoft Analysis Services 和 BOXI 工作过,最近我一直在研究 Pentaho,这似乎是一个不错的选择。

请分享您对任何您知道的此类工具的经验。

干杯

【问题讨论】:

还有一点 - 我想要一个可以很好地与 .NET 代码甚至 Python 交互的工具。 【参考方案1】:

我相信 WEKA 是目前最好的开源 DM 软件。

查看:http://www.cs.waikato.ac.nz/ml/weka/

【讨论】:

但仅用于分类,数据挖掘的一个子主题。【参考方案2】:

Weka 很棒,但您可能想尝试使用 Orange Data Mining 工具包。

http://www.ailab.si/orange/

编辑:截至 2010 年 11 月,我必须说我真的很喜欢 KNIME。

【讨论】:

+1 为 KNIME。几周前我发现了这一点,并且对它的功能印象深刻。支持 Java、Python 和 R 脚本,BIRT 插件让编写报告变得轻而易举。【参考方案3】:

R 有很多与数据挖掘相关的优秀软件包。特别是,请看:

The machine learning view on CRAN. The natural language processing view on CRAN.

它还与 Weka (see the RWeka package) 相关联。它可以与 .Net(通过 COM)或 Python(通过 RPy 或 RPy2)集成。

我同意将 Pentaho 作为报告平台,尽管它是一个非常大的项目,具体取决于您使用它的目的。

【讨论】:

【参考方案4】:

您还应该查看Apache Mahout。它对于一些大规模的机器学习任务(例如用户聚类)非常有用。

【讨论】:

Apache 许可证是最大的优势,因为其他提到的库使用禁止商业用例的 GPL【参考方案5】:

RapidMiner 是我首选的数据挖掘工具。

【讨论】:

【参考方案6】:

我会尝试使用新的谷歌工具。

-首先您需要获取 google-storage 的 api id,这是您要存储和操作要分析的数据的地方。

-然后您需要获取 google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html) 的 api id,据我所知,这是一个出色的外包数据挖掘处理器。预测 API 允许您从数据中获取更多信息,并使其模式更易于访问。除了使用传统的数字和名义数据外,您还可以使用文本数据,借助此 api 可用于例如按语言对电子邮件进行分类。

-最后,您可以使用 bigQuery 来执行临时分析、标准化报告、数据探索应用原型 (http://code.google.com/apis/bigquery/)

【讨论】:

【参考方案7】:

KEEL (http://keel.es) 是用 Java 编写的,非常适合使用进化计算进行数据挖掘。

【讨论】:

【参考方案8】:

查看由 JMLR 维护的用于机器学习的开源软件列表。 你可以在这里找到它:

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

它们代表了最先进的技术!

我对 Weka 的问题是其中的一些算法已经过时了。

【讨论】:

【参考方案9】:

我相信 RapidMiner 是一款出色的工具,应该添加到此列表中。

【讨论】:

【参考方案10】:

WEKA(已经提到), 橙色(http://orange.biolab.si/), Tanagra (http://data-mining-tutorials.blogspot.com) 你可以在那里找到很好的教程。

是非常好的数据挖掘工具。

【讨论】:

【参考方案11】:

您可以查看我的软件 SPMF data mining framework

它是一个开源 Java 软件,提供 70 多种算法:

频繁项集挖掘, 关联规则挖掘, 顺序模式挖掘 顺序规则挖掘。 等等..

【讨论】:

【参考方案12】:

Pentaho 是一个非常专业的解决方案。绝对是一个非常不错的选择。

【讨论】:

【参考方案13】:

您可以查看Data Mining SDK 及其blog。

【讨论】:

【参考方案14】:

这里列出了一些开源数据挖掘工具: http://dataminingtools.net/browse.php

【讨论】:

【参考方案15】:

Eclipse BIRT http://www.eclipse.org/birt/phoenix/project/description.php

【讨论】:

【参考方案16】:

我相信KNIME 也应该加入这个名单。

【讨论】:

【参考方案17】:

Weka 擅长分类和/机器学习/。对许多人来说,这被认为是人工智能的一部分,而不是实际的数据挖掘。 RapidMiner 大致沿用相同的路线,但用户界面要好得多。 Pentaho 是 Weka AFAICT 的专业支持。

您可能想看看 ELKI,http://elki.dbs.ifi.lmu.de/,这是一个可比较的项目,专注于聚类算法和异常值检测,这是数据挖掘的另外两个关键任务。

【讨论】:

【参考方案18】:

你可以看看数据挖掘工具,weka

这里是 WEKA 上一系列教程和视频的链接 教程:http://www.dataminingtools.net/browsetutorials.php?tag=weka

视频: http://www.dataminingtools.net/videos.php?id=6 

【讨论】:

【参考方案19】:

除了工具,我强烈建议学习 Python 和 R。这些语言在分析过程中帮助很大。此外,可以“自定义分析”大型数据集。您还可以使用 javascript 创建自己的自定义仪表板(查看 numerous charting and visualization libraries)

【讨论】:

【参考方案20】:

我自己就是个蟒蛇,我不得不说:

是的!所有这些都可以在 Python 中完成。

我上次玩的是 Beautiful Soup[0]。这是一个非常简单易用的模块,可让您从 html 和 xml 中抓取/挖掘数据(非常适合“屏幕抓取”)。

如果你不懂python,....嗯,它真的很容易学。

[0]http://www.crummy.com/software/BeautifulSoup/

【讨论】:

数据挖掘就是发现数据中的“隐藏”知识,它与屏幕报废无关(至少直接),但感谢您指点我美丽的汤,我会玩它。 =) 所有这些都可以在 ASSEMBLER 中完成!

以上是关于数据挖掘开源工具 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

开源数据挖掘工具,寻找一个不错的选择(GNU 数据挖掘应用程序)[关闭]

WPF(C#)的优秀开源报告工具/框架[关闭]

市场上可用的开源 OCR 工具 [关闭]

推荐或寻找安卓平台杀毒应用的工具、库或开源? [关闭]

基于浏览器的开源图像字幕工具? [关闭]

类似于 avahi 的开源库 [关闭]