单体 ETL 到分布式/可扩展解决方案和 OLAP 多维数据集到 Elasticsearch/Solr

Posted

技术标签:

【中文标题】单体 ETL 到分布式/可扩展解决方案和 OLAP 多维数据集到 Elasticsearch/Solr【英文标题】:Monolithic ETL to distributed/scalable solution and OLAP cube to Elasticsearch/Solr 【发布时间】:2015-06-10 02:28:46 【问题描述】:

我是大数据处理的新手,正在寻求 SO 社区的一些具体指导。

我们目前正在设置一个整体/顺序 ETL,不用说随着我们数据的增长它是不可扩展的。我们有哪些选择(确定分布式和并行化是但需要具体细节)?我玩过 Hadoop,它可能适合在这里使用,但我想知道还有哪些其他选项?对于数据库开发人员来说可能更容易过渡到什么?

与上述问题相关的是,我们还有一个用于聚合数据的 OLAP 多维数据集。 Elasticsearch 或 Solr 是否适合替换 OLAP 多维数据集?有没有人成功做到这一点?有什么陷阱?

【问题讨论】:

【参考方案1】:

目前我们正在处理的用例相同。

我们的方法可能会全部使用。

第 1 步:我们将数据从 dbs sqooping 到 Hdfs

第 2 步:Pig 脚本中的 ETL 逻辑

第 3 步:在聚合表数据上为 solr 建立索引。

第 4 步:通过网页界面搜索 solr。

在我们的用例中,我们正在开发猪作业来执行转换逻辑,将它们逐步存储到最终文件夹中。稍后 MR indexer 工具会将数据索引到 solr。我们使用的是 cloudera-search。有什么事请告诉我。

【讨论】:

以上是关于单体 ETL 到分布式/可扩展解决方案和 OLAP 多维数据集到 Elasticsearch/Solr的主要内容,如果未能解决你的问题,请参考以下文章

ETL - OLAP和OLTP - 在SQL Server 2014中维护报告和跨国数据库

如何设计在 Lambda 函数上运行的可扩展 ETL

分布式可扩展存储系统 BaikalDB

OLAP -- ODS 项目总结 -- ETL中的流程

单体架构到分布式架构浅析

zabbix+tidb:可实现水平扩展