构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]

Posted

技术标签:

【中文标题】构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]【英文标题】:What are the open source tools and techniques to build a complete data warehouse platform? [closed]构建完整的数据仓库平台有哪些开源工具和技术? [关闭] 【发布时间】:2010-07-22 11:19:10 【问题描述】:

我正在寻找这些开源工具,可能是免费的或免费试用版来设置完整的数据仓库堆栈。

我知道很少有人像Pentaho 开源蒙德里安服务器,但无法获得任何谷歌结果来设置完整的平台。我不确定这些组件是否相互兼容?有人可以列出他们以及他们在链中的位置吗?

【问题讨论】:

我找到了这本关于 mysql 的书 amazon.com/Open-Source-Data-Warehouse-open-source/dp/3846532045 【参考方案1】:

Open Source Data Warehousing 在识别可用于构建数据仓库堆栈的 OSS 组件方面做得很好:基础设施(服务器、操作系统、数据库)、集成管理(ETL、EAI 等)、信息管理(DW/ Mart/ODS、OLap 服务器等)、信息交付(门户、仪表板、分析/OLAP 客户端等)。总结如下:

开源 BI/DW 项目

商业智能和分析

蜜蜂-http://bee.insightstrategy.cz/en/index.html BIRT - http://www.eclipse.org/birt JasperSoft – http://www.jaspersoft.com MarvelIT - http://www.marvelit.com/dash.html OpenI – http://openi.sourceforge.net OpenReports – http://oreports.com 橙色 - http://www.ailab.si/orange 帕洛 - http://www.palo.net Pentaho - http://www.pentaho.com R - http://www.r-project.org SpagoBI – http://spagobi.eng.it 维卡-http://www.cs.waikato.ac.nz/~ml/index.html 生命体征-http://vitalsigns.sourceforge.net/

数据库

http://greenplum.org (bizgres) http://www.ingres.com http://www.mysql.com http://www.postgresql.org http://www.enterprisedb.com

整合

阿帕塔 - http://www.apatar.com CloverETL - http://cloveretl.berlios.de/ JitterBit - http://www.jitterbit.com/ KETL - http://www.ketl.org 八达通 - http://www.enhydra.org/tech/octopus/index.html OSDQ - http://sourceforge.net/projects/dataquality Pentaho - http://www.pentaho.com 红帽 – http://www.redhat.com Saga.M31 银河 - http://galaxy.sagadc.com Talend - http://www.talend.com SnapLogic – http://www.snaplogic.com

我建议浏览演示文稿。好东西。

【讨论】:

在考虑这些技术时,请记住此列表的老化。 @42n4 RapidMiner 不是开源的。社区版限制为 10,000 条记录...docs.rapidminer.com/latest/studio/installation/…【参考方案2】:

数据仓库堆栈(或套件)通常由三层组成。这些通常被称为ETL(加载)、DatabaseReporting(接口)。此外,还有一些更高级的工具可以满足性能和专家的需求。这些包括CubesStatistical Analysis Tools

就互操作性而言,ETL 工具和报告工具需要支持您使用的任何数据库。但是,由于只有两个大的开源数据库,混合不同的解决方案通常没有问题。

至于细节-

1 - ETL

数据加载可以通过开源工具来实现,例如 Pentaho 的 Data Integration 或 Talend(一个 eclipse 扩展)。我建议在谷歌上搜索“开源 etl”,以根据您的特定需求定制解决方案。

2 - 数据库

您需要一个关系数据库 (RDBMS)。两个最著名的开源参与者是 PostgreSQL(被 Stack Overflow 使用)和 MySQL。虽然 MySQL 拥有更大的用户群,但 Postgres 自从实现了早期版本中缺少的几个关键功能后,越来越受欢迎。

3 - 报告

Pentaho 提供报告平台。 BIRT(另一个 Eclipse 扩展)也是如此。同样,Google 是您进行具体比较的朋友。请注意,如果您为 ETL 和报告工具选择 Pentaho,您可能会享受到更好的集成。 您还提到了 Mondrian,它是一种在 RDBMS 上生成 MDX 查询的工具。 MDX 是查询多维数据集的标准语言。

此时,假设您从头开始,我建议您设置数据仓库的前两层 - ETL 和 DB。您可以稍后在上面添加任意数量的报告工具。

【讨论】:

【参考方案3】:

这是另一个类似的问题20 Billion Rows/Month - Hbase / Hive / Greenplum / What?

最相关的部分:

我怎么强调都不为过:获得与现成报告工具完美搭配的东西。

.

Hive 或 HBase 让您从事构建自定义前端的业务,除非您乐于在接下来的 5 年中用 Python 编写自定义报告格式化程序,否则您真的不想要它。

【讨论】:

【参考方案4】:

扩展帕斯卡所写的内容:

OLAP 服务器:Mondrian

AJAX 数据透视表:Saiku

OLAP 架构设计者:Pentaho Schema Workbench

OLAP 聚合设计者:Pentaho Aggregation Designer

ETL:Pentaho Kettle

报表设计者:Pentaho Report Designer

数据质量:DataCleaner

列式数据仓库:MonetDB

数据挖掘:RapidMiner

【讨论】:

以上是关于构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

大数据平台常见开源工具有哪些?

Git代码仓库托管上海道宁为您提供构建扩展和交付安全软件的完整开发人员平台

常用的etl工具都有哪些

大数据方面核心技术都有哪些?

大数据相关平台/工具

除了Arduino,还都有哪些开源硬件