构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]
Posted
技术标签:
【中文标题】构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]【英文标题】:What are the open source tools and techniques to build a complete data warehouse platform? [closed]构建完整的数据仓库平台有哪些开源工具和技术? [关闭] 【发布时间】:2010-07-22 11:19:10 【问题描述】:我正在寻找这些开源工具,可能是免费的或免费试用版来设置完整的数据仓库堆栈。
我知道很少有人像Pentaho 开源蒙德里安服务器,但无法获得任何谷歌结果来设置完整的平台。我不确定这些组件是否相互兼容?有人可以列出他们以及他们在链中的位置吗?
【问题讨论】:
我找到了这本关于 mysql 的书 amazon.com/Open-Source-Data-Warehouse-open-source/dp/3846532045 【参考方案1】:Open Source Data Warehousing 在识别可用于构建数据仓库堆栈的 OSS 组件方面做得很好:基础设施(服务器、操作系统、数据库)、集成管理(ETL、EAI 等)、信息管理(DW/ Mart/ODS、OLap 服务器等)、信息交付(门户、仪表板、分析/OLAP 客户端等)。总结如下:
开源 BI/DW 项目
商业智能和分析
蜜蜂-http://bee.insightstrategy.cz/en/index.html BIRT - http://www.eclipse.org/birt JasperSoft – http://www.jaspersoft.com MarvelIT - http://www.marvelit.com/dash.html OpenI – http://openi.sourceforge.net OpenReports – http://oreports.com 橙色 - http://www.ailab.si/orange 帕洛 - http://www.palo.net Pentaho - http://www.pentaho.com R - http://www.r-project.org SpagoBI – http://spagobi.eng.it 维卡-http://www.cs.waikato.ac.nz/~ml/index.html 生命体征-http://vitalsigns.sourceforge.net/数据库
http://greenplum.org (bizgres) http://www.ingres.com http://www.mysql.com http://www.postgresql.org http://www.enterprisedb.com整合
阿帕塔 - http://www.apatar.com CloverETL - http://cloveretl.berlios.de/ JitterBit - http://www.jitterbit.com/ KETL - http://www.ketl.org 八达通 - http://www.enhydra.org/tech/octopus/index.html OSDQ - http://sourceforge.net/projects/dataquality Pentaho - http://www.pentaho.com 红帽 – http://www.redhat.com Saga.M31 银河 - http://galaxy.sagadc.com Talend - http://www.talend.com SnapLogic – http://www.snaplogic.com
我建议浏览演示文稿。好东西。
【讨论】:
在考虑这些技术时,请记住此列表的老化。 @42n4 RapidMiner 不是开源的。社区版限制为 10,000 条记录...docs.rapidminer.com/latest/studio/installation/…【参考方案2】:数据仓库堆栈(或套件)通常由三层组成。这些通常被称为ETL
(加载)、Database
和Reporting
(接口)。此外,还有一些更高级的工具可以满足性能和专家的需求。这些包括Cubes
和Statistical Analysis Tools
。
就互操作性而言,ETL 工具和报告工具需要支持您使用的任何数据库。但是,由于只有两个大的开源数据库,混合不同的解决方案通常没有问题。
至于细节-
1 - ETL
数据加载可以通过开源工具来实现,例如 Pentaho 的 Data Integration 或 Talend(一个 eclipse 扩展)。我建议在谷歌上搜索“开源 etl”,以根据您的特定需求定制解决方案。
2 - 数据库
您需要一个关系数据库 (RDBMS)。两个最著名的开源参与者是 PostgreSQL(被 Stack Overflow 使用)和 MySQL。虽然 MySQL 拥有更大的用户群,但 Postgres 自从实现了早期版本中缺少的几个关键功能后,越来越受欢迎。
3 - 报告
Pentaho 提供报告平台。 BIRT(另一个 Eclipse 扩展)也是如此。同样,Google 是您进行具体比较的朋友。请注意,如果您为 ETL 和报告工具选择 Pentaho,您可能会享受到更好的集成。 您还提到了 Mondrian,它是一种在 RDBMS 上生成 MDX 查询的工具。 MDX 是查询多维数据集的标准语言。
此时,假设您从头开始,我建议您设置数据仓库的前两层 - ETL 和 DB。您可以稍后在上面添加任意数量的报告工具。
【讨论】:
【参考方案3】:这是另一个类似的问题20 Billion Rows/Month - Hbase / Hive / Greenplum / What?
最相关的部分:
我怎么强调都不为过:获得与现成报告工具完美搭配的东西。
.
Hive 或 HBase 让您从事构建自定义前端的业务,除非您乐于在接下来的 5 年中用 Python 编写自定义报告格式化程序,否则您真的不想要它。
【讨论】:
【参考方案4】:扩展帕斯卡所写的内容:
OLAP 服务器:Mondrian
AJAX 数据透视表:Saiku
OLAP 架构设计者:Pentaho Schema Workbench
OLAP 聚合设计者:Pentaho Aggregation Designer
ETL:Pentaho Kettle
报表设计者:Pentaho Report Designer
数据质量:DataCleaner
列式数据仓库:MonetDB
数据挖掘:RapidMiner
【讨论】:
以上是关于构建完整的数据仓库平台都有哪些开源工具和技术? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章