如何计算/处理大量数据？ [关闭]

Posted 2023-04-18

技术标签:

【中文标题】如何计算/处理大量数据？ [关闭]【英文标题】：How to calculate/deal with big amounts of data? [closed] 【发布时间】：2016-10-31 17:09:47 【问题描述】：

我在 mysql 中有一个表，它有大约 5000 万条记录（持续增长），它与订阅消费有关。

所以，我每天都必须选择这些记录并对其进行计算，以便针对不同类型的消费/客户，例如，如果客户处于活动/不活动状态，活动多长时间，如果它改变了产品，等等。

目前，我有不同的查询来选择不同的业务案例，然后将数据加载到暂存区和数据仓库。虽然，其中一些查询非常低，并且它们正在超载生产环境。

我想知道这种日常任务是否有已知的解决方案或技术。

我愿意继续使用 MySQl 或尝试新的大数据技术。例如，每天将数百万条原始记录选择到暂存区/ODS，然后使用一些技术对其进行处理。

有人知道这类任务的好解决方案吗？

谢谢。

【问题讨论】：

【参考方案1】：

一个选项可能是复制 - http://dev.mysql.com/doc/refman/8.0/en/replication.html

这样您就可以在复制的数据库上运行您想要的任何查询，而不会影响实时数据库。

【讨论】：

谢谢@Bryan，数据库已经是奴隶了。我有一些查询需要 15-20 分钟，而整个 ETL 过程一天大约需要 25-30 分钟（如果我必须加载积压/历史数据，这是一个问题）。我最大的问题是，对于每个客户，我必须计算最后一个和倒数第二个消费，并且按客户分组数据然后计算每个业务案例有点繁重。我正在考虑将原始数据传输到暂存区域/文件，然后寻找一种可以操纵该数据的技术。

以上是关于如何计算/处理大量数据？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章

SQLITE3插入大量数据，效率翻百倍

如何加载大量数据来训练机器学习模型？ [关闭]

如何高效地对大量数据进行分区？ [关闭]

如何使用实体框架将大量数据延迟加载到 GridView [关闭]

一次性集中处理大量数据的定时任务，如何缩短执行时间？