来自 MySQL 的大数据的推荐 ETL 解决方案?
Posted
技术标签:
【中文标题】来自 MySQL 的大数据的推荐 ETL 解决方案?【英文标题】:Recommended ETL solution for big data coming from MySQL? 【发布时间】:2020-02-05 22:29:31 【问题描述】:我有一种情况,第三方将数据存储在日常表中,如果记录数超过 200 万,则会创建后续表,依此类推,命名为 [date]_x。
现在,我们有一个报告要求,需要使用这些数据。过去曾执行过手动 UNION SQL 和其他 ETL 操作,我正在尝试将其自动化。
我的第一感觉是将所有内容都放入数据湖并在 AWS 上进行 map-reduce。然而,看着 Tableau,我希望利用它的一些自动化来加快解决方案。现在,我不确定这是不是最好的解决方案。
请给点建议?
【问题讨论】:
手动UNION SQL有性能问题吗?还是很难生成?什么mysql版本?可能有一些方法可以将表迁移到分区中以简化 SQL。在查看其他解决方案之前,您想尝试一下吗?目前,这看起来像是一个更普遍的问题。 您的第一句话似乎是问题所在:“第三方将数据存储在日常表格中” 【参考方案1】:假设您不会替换生成“每日表”的软件,让我们设计一个替代方案。
我假设这些表类似于数据仓库“事实”表。即大量面向时间的数据集。正确的? (请为其中之一提供SHOW CREATE TABLE
。)
您的报告需要以多种不同的方式消化和总结这些数据?
首先,总结每一天的餐桌。然后从汇总表构建报告。这涉及设计和构建一些“汇总表”。最初将每个每日事实表汇总到其中。之后,就是获取每个新的 Fact 表(每晚?)并将其汇总到汇总表中。
http://mysql.rjweb.org/doc.php/summarytables
【讨论】:
以上是关于来自 MySQL 的大数据的推荐 ETL 解决方案?的主要内容,如果未能解决你的问题,请参考以下文章