Cassandra:最佳分区大小

Posted

技术标签:

【中文标题】Cassandra:最佳分区大小【英文标题】:Cassandra : optimal partition size 【发布时间】:2021-11-15 19:33:46 【问题描述】:

我打算有一个像这样的简单表(简单的键/值用例):

CREATE TABLE my_data (
    id bigint,
    value blob,
    PRIMARY KEY (id)
)

具有以下特点:

如您所见,一个分区 = 一个 blob(值)

每个值总是由相应的键访问

每个值都是一个最大 1MB 的 blob(平均也是 1MB)

1MB blob 提供 6000 万个分区

您如何看待 1MB 的 blob? Cassandra 可以吗?

确实,我可以进一步划分我的数据,以使用 1ko blob,但在这种情况下,它会导致 Cassandra 上更多的分区(超过 6 亿?),以及更多的分区来检索数据相同的客户端查询..

谢谢

【问题讨论】:

【参考方案1】:

一般建议是保持接近 100MB 的分区大小,但这不是硬性限制。在某些极端情况下,分区可以超过 1GB,但对于某些工作负载仍然可以接受,只要您愿意接受权衡。

但是,在您的情况下,1MB blob 是强烈建议,但也不是硬性限制。如果您要进行合理的负载测试,您会注意到较大的 blob 大小会显着降低性能。

6 亿分区根本不是问题。 Cassandra 旨在处理数十亿、数万亿甚至更多的分区。干杯!

【讨论】:

以上是关于Cassandra:最佳分区大小的主要内容,如果未能解决你的问题,请参考以下文章

Cassandra分页和令牌功能;选择分区键

Cassandra 分区问题

如何将 Cassandra 行大小增加到 64KB 以上

cassandra中的分区计数

Cassandra 表有多少个分区键?

Cassandra 数据建模分区键