使用 Cassandra 评估最小存储磁盘大小

Posted

技术标签:

【中文标题】使用 Cassandra 评估最小存储磁盘大小【英文标题】:Evaluate minimal storage disk size with Cassandra 【发布时间】:2016-08-27 12:48:02 【问题描述】:

我正在对不同 Parquet 模式和不同 Cassandra 表布局进行分析/比较。

其中一个输出是磁盘上的存储大小。

我想确保我对 Cassandra 公平,因此我想确保删除快照并且“完全”运行压缩。

我的数据最初在 Parquet 中,我使用 Spark SQL 读取它,有一个大数据框,然后我使用 Spark-Cassandra 连接器将其写入 C*。

我应该运行什么类型的“命令”(我假设使用 nodetool)来删除快照、运行压缩,然后在我的表的磁盘大小上获得一个精确的数字?

【问题讨论】:

【参考方案1】:

你必须执行nodetool clearsnapshot

此命令仅删除nodetool 命令指向的节点中的快照。所以你必须在每个节点上都这样做。

https://docs.datastax.com/en/cassandra/3.x/cassandra/tools/toolsClearSnapShot.html

https://docs.datastax.com/en/cassandra/3.x/cassandra/operations/opsBackupDeleteSnapshot.html?hl=clearsnapshot

【讨论】:

谢谢,确实是第一步。如何确保压实全部完成?就像运行nodetool compactionstats一样简单? 确保压缩完成的唯一方法是执行nodetool compact 命令。

以上是关于使用 Cassandra 评估最小存储磁盘大小的主要内容,如果未能解决你的问题,请参考以下文章

从Cassandra 数据库 IO 暴涨说起

Cassandra 磁盘空间开销

HDFS中的磁盘和数据节点大小

存储数百万张图像[关闭]

如何处理磁盘上 Cassandra 中的空目录?

cassandra高级操作之JMX操作