有效地组织大型数据集以进行报告

Posted 2023-04-18

技术标签:

【中文标题】有效地组织大型数据集以进行报告【英文标题】：Organize a large-ish dataset efficiently for reporting 【发布时间】：2013-02-17 09:04:09 【问题描述】：

所以数据层次结构非常简单：

Account >> SubAccount >> Category >> Product

我需要为每个产品提取一个每日统计数据（这只是一个数字，我们称之为每日绩效）。可以有数十个帐户、数十个子帐户、数百个类别和 数百万 种产品。

让我这样做的 API 的形式是

GetCurrentPerformance(Product)

现在，在基于 Web 的仪表板中，我需要能够显示任何产品、类别、子帐户和帐户的时间与性能。如果自上次获取 GetCurrentPerformance(Product) 以来任何产品的性能发生剧烈变化（比如超过 30%），我还需要能够发出警报。

我正在云端构建这个解决方案，最好是在 AWS 上。我正在尝试决定如何最好地存储我每天获取的数据。这是我考虑过的：

关注

关注：

这似乎是一个非常简单的问题 - 但我对如何进行的最佳方式感到困惑。建议表示赞赏。

【问题讨论】：

【参考方案1】：

如果您只关心当前与以前的性能，并且不需要任何历史性能统计信息，那么以下在 RDBMS 中可以正常工作：

create table product_performance (
  product_id integer primary key,
  current_perf number,
  previous_perf number
);

然后你可以通过执行来设置性能：

update product_performance
set    current_perf = :new_perf,
       previous_perf = current_pref
where  product_id = :product;

如果您想保持历史表现（以便您可以跟踪随时间的变化），您需要这样的东西：

create table product_performance (
  product_id integer,
  performance_date date,
  performance number,
  is_current char(1), --optional, may improve the performance of finding current perf easier
  primary key (product_id, performance_date)
);

每个新的性能值只是产品和日期的插入。

无论您使用哪种方法，最好在设置新性能时发出警报，而不是等待仪表板获取查询重新运行。

【讨论】：

感谢克里斯的详细回复！我需要保留历史性能值。我想知道使用基于 RDBMS 的解决方案是否是解决这个问题的最佳方法——因为我每天都会有数百万行。您可以构建一个 RDBMS 解决方案来管理这个问题，只要您的查询被正确索引。如果您发现仪表板在保留历史数据时表现不佳，您可以随时在单独的表中实施这两种解决方案。

以上是关于有效地组织大型数据集以进行报告的主要内容，如果未能解决你的问题，请参考以下文章