来自 MySQL 的大数据的推荐 ETL 解决方案?

Posted

技术标签:

【中文标题】来自 MySQL 的大数据的推荐 ETL 解决方案?【英文标题】:Recommended ETL solution for big data coming from MySQL? 【发布时间】:2020-02-05 22:29:31 【问题描述】:

我有一种情况,第三方将数据存储在日常表中,如果记录数超过 200 万,则会创建后续表,依此类推,命名为 [date]_x。

现在,我们有一个报告要求,需要使用这些数据。过去曾执行过手动 UNION SQL 和其他 ETL 操作,我正在尝试将其自动化。

我的第一感觉是将所有内容都放入数据湖并在 AWS 上进行 map-reduce。然而,看着 Tableau,我希望利用它的一些自动化来加快解决方案。现在,我不确定这是不是最好的解决方案。

请给点建议?

【问题讨论】:

手动UNION SQL有性能问题吗?还是很难生成?什么mysql版本?可能有一些方法可以将表迁移到分区中以简化 SQL。在查看其他解决方案之前,您想尝试一下吗?目前,这看起来像是一个更普遍的问题。 您的第一句话似乎是问题所在:“第三方将数据存储在日常表格中” 【参考方案1】:

假设您不会替换生成“每日表”的软件,让我们设计一个替代方案。

我假设这些表类似于数据仓库“事实”表。即大量面向时间的数据集。正确的? (请为其中之一提供SHOW CREATE TABLE。)

您的报告需要以多种不同的方式消化和总结这些数据?

首先,总结每一天的餐桌。然后从汇总表构建报告。这涉及设计和构建一些“汇总表”。最初将每个每日事实表汇总到其中。之后,就是获取每个新的 Fact 表(每晚?)并将其汇总到汇总表中。

http://mysql.rjweb.org/doc.php/summarytables

【讨论】:

以上是关于来自 MySQL 的大数据的推荐 ETL 解决方案?的主要内容,如果未能解决你的问题,请参考以下文章

客快物流大数据项目(四十):ETL实现方案

实习推荐|中国移动-数据仓库/ETL/BI工程师作业帮-大数据ETL工程师

日期 ETL 的大查询正则表达式

成都web前端开发实习生|web后端开发实习生

解决Kettle ETL数据乱码

LibRec: 基于机器学习的大数据推荐系统