单体 ETL 到分布式/可扩展解决方案和 OLAP 多维数据集到 Elasticsearch/Solr
Posted
技术标签:
【中文标题】单体 ETL 到分布式/可扩展解决方案和 OLAP 多维数据集到 Elasticsearch/Solr【英文标题】:Monolithic ETL to distributed/scalable solution and OLAP cube to Elasticsearch/Solr 【发布时间】:2015-06-10 02:28:46 【问题描述】:我是大数据处理的新手,正在寻求 SO 社区的一些具体指导。
我们目前正在设置一个整体/顺序 ETL,不用说随着我们数据的增长它是不可扩展的。我们有哪些选择(确定分布式和并行化是但需要具体细节)?我玩过 Hadoop,它可能适合在这里使用,但我想知道还有哪些其他选项?对于数据库开发人员来说可能更容易过渡到什么?
与上述问题相关的是,我们还有一个用于聚合数据的 OLAP 多维数据集。 Elasticsearch 或 Solr 是否适合替换 OLAP 多维数据集?有没有人成功做到这一点?有什么陷阱?
【问题讨论】:
【参考方案1】:目前我们正在处理的用例相同。
我们的方法可能会全部使用。
第 1 步:我们将数据从 dbs sqooping 到 Hdfs
第 2 步:Pig 脚本中的 ETL 逻辑
第 3 步:在聚合表数据上为 solr 建立索引。
第 4 步:通过网页界面搜索 solr。
在我们的用例中,我们正在开发猪作业来执行转换逻辑,将它们逐步存储到最终文件夹中。稍后 MR indexer 工具会将数据索引到 solr。我们使用的是 cloudera-search。有什么事请告诉我。
【讨论】:
以上是关于单体 ETL 到分布式/可扩展解决方案和 OLAP 多维数据集到 Elasticsearch/Solr的主要内容,如果未能解决你的问题,请参考以下文章