如何对分布式数据进行排序和分页？

Posted 2023-02-16

技术标签:

【中文标题】如何对分布式数据进行排序和分页？【英文标题】：How do you implement sorting and paging on distributed data? 【发布时间】：2011-04-25 01:27:27 【问题描述】：

这是我要解决的问题：

我需要能够显示存储在多个数据库分片中的分页排序数据表。

分页和排序是众所周知的问题，当数据来自单一来源时，我们大多数人都可以通过多种方式解决这些问题。但是，如果您要跨分片拆分数据或使用 DHT 或分布式文档数据库或任何您喜欢的 NoSQL 风格，事情就会变得更加复杂。

这是一个非常小的数据集的简单图片：

碎片 |数据 1 |一个 1 | D 1 | G 2 |乙 2 |电子 2 | H 3 | C 3 | F 3 |我

分页（Page Size = 3）：

页面 |数据 1 |一个 1 |乙 1 | C 2 | D 2 |电子 2 | F 3 | G 3 | H 3 |我

如果我们想向用户显示第 2 页，我们会返回：

D 电子 F

如果有问题的表的大小约为 1000 万行或 1 亿行，您不能只是将所有数据拉到 Web/应用程序服务器上对其进行排序并返回正确的页面。而且您显然不能让每个单独的分片对自己的数据片段进行排序和分页，因为分片彼此不知道。

更复杂的是，我需要呈现的数据不能过时太久，因此提前预先计算一组有用的排序并将结果存储以供以后检索是不切实际的。

【问题讨论】：

【参考方案1】：

有几种解决方案，其中一些可能对您不可行，但也许其中一种会坚持下去：

O(log(n))

【讨论】：

1 和 3 对我来说不可行，但 2 很有趣。我今天将尝试这个想法，看看我能想出什么。我有一个 2 工作的原型，它看起来是一个很好的解决方案。对基数低的字段进行排序会增加一些复杂性，并且由于重复的计数查询，它有点慢，但它使用的系统资源非常少。很高兴听到！对我来说，这只是一个理论练习，我很高兴它在实施后奏效了。如何处理用户设置的几个过滤值产生的动态分页？当您事先不知道平均值是多少时，如何应用您在 2 中公开的算法？谢谢！我想过在每个分片的每个表上使用 Unix 时间戳 INT 列，然后给定一个带有 WHERE 子句的任意 SELECT 查询，我可以在每个分片上运行这个查询，得到总和COUNT() 所有分片并计算平均 Unix 时间戳（一种 map/reduce 算法）。然后我可以像使用“M”一样使用这个平均时间戳作为二分搜索的基准，这可行吗？

以上是关于如何对分布式数据进行排序和分页？的主要内容，如果未能解决你的问题，请参考以下文章