如何计算/处理大量数据? [关闭]

Posted

技术标签:

【中文标题】如何计算/处理大量数据? [关闭]【英文标题】:How to calculate/deal with big amounts of data? [closed] 【发布时间】:2016-10-31 17:09:47 【问题描述】:

我在 mysql 中有一个表,它有大约 5000 万条记录(持续增长),它与订阅消费有关。

所以,我每天都必须选择这些记录并对其进行计算,以便针对不同类型的消费/客户,例如,如果客户处于活动/不活动状态,活动多长时间,如果它改变了产品,等等。

目前,我有不同的查询来选择不同的业务案例,然后将数据加载到暂存区和数据仓库。虽然,其中一些查询非常低,并且它们正在超载生产环境。

我想知道这种日常任务是否有已知的解决方案或技术。

我愿意继续使用 MySQl 或尝试新的大数据技术。例如,每天将数百万条原始记录选择到暂存区/ODS,然后使用一些技术对其进行处理。

有人知道这类任务的好解决方案吗?

谢谢。

【问题讨论】:

【参考方案1】:

一个选项可能是复制 - http://dev.mysql.com/doc/refman/8.0/en/replication.html

这样您就可以在复制的数据库上运行您想要的任何查询,而不会影响实时数据库。

【讨论】:

谢谢@Bryan,数据库已经是奴隶了。我有一些查询需要 15-20 分钟,而整个 ETL 过程一天大约需要 25-30 分钟(如果我必须加载积压/历史数据,这是一个问题)。我最大的问题是,对于每个客户,我必须计算最后一个和倒数第二个消费,并且按客户分组数据然后计算每个业务案例有点繁重。我正在考虑将原始数据传输到暂存区域/文件,然后寻找一种可以操纵该数据的技术。

以上是关于如何计算/处理大量数据? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

SQLITE3插入大量数据,效率翻百倍

如何加载大量数据来训练机器学习模型? [关闭]

如何高效地对大量数据进行分区? [关闭]

如何使用实体框架将大量数据延迟加载到 GridView [关闭]

一次性集中处理大量数据的定时任务,如何缩短执行时间?

一次性集中处理大量数据的定时任务,如何缩短执行时间?