11. ClustrixDB 管理文件空间和数据库容量

Posted 2020-11-23 yuxiaohao

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了11. ClustrixDB 管理文件空间和数据库容量相关的知识，希望对你有一定的参考价值。

ClustrixDB监视集群中可用的空间量，并主动警告潜在的容量问题。确定集群容量的阈值是可配置的，如下所述。

存储类型

要了解如何管理设备和数据库的利用率，必须首先了解ClustrixDB如何分配磁盘空间。ClustrixDB在两个不同的文件中创建和分配空间:

device1 (主存储器)

device1 存储 all database data, undo logs, temporary tables, binlogs, ClustrixDB system tables,以及用于查询执行的临时存储，device1文件的初始大小由ClustrixDB安装程序自动检测，但也可以手动配置。安装后，可以使用ALTER CLUSTER RESIZE设备扩展device1文件的大小。要减小device1文件的大小，请参阅减小device1大小。

ClustrixDB希望每个节点上的device1文件大小相同。默认情况下，在数据库启动时，ClustrixDB将自动尝试调整每个节点上的device1文件的大小，以匹配集群中最大的device1文件。要禁用此功能，请设置device_auto_resize_to_largest=false。

临时存储用于对大型查询结果进行排序和分组，并存储在device1中。有两个全局变量来控制临时空间的使用:

device_temporary_space_limit_bytes: 限制可用于临时存储的空间量。
device_temporary_space_preallocate_bytes:指定为临时空间预先分配的空间数量(保证临时空间的使用)。

设置device_temporary_space_limit_bytes允许使用额外的临时空间，但不保证可以为临时空间提供额外的空间。

在ClustrixDB 9.2之前，临时空间存储在一个名为device1-temp的单独文件中，但是在v9.2中，临时空间现在在device1文件中管理。

device1-redo (write-ahead log)

redo日志(WAL)存储在device1-redo文件中。这个文件的大小是4GB，不可配置。

检查存储利用率

查看通过使用CLX命令行管理工具使用了多少空间

shell> /opt/clustrix/bin/clx space
nid |   Hostname   | Status  |       Undo      |       Perm      |       WAL        |    Temp    |       Used      | DB Total | FS Free
----+--------------+---------+-----------------+-----------------+------------------+------------+-----------------+----------+--------
 16 |  eukanuba003 |    OK   |  321.8M (0.04%) |  674.7G (79.4%) |  1024.0M (0.12%) |  0 (0.00%) |  760.1G (89.4%) |   850.0G |  113.9G
 17 |  karma183    |    OK   |  313.5M (0.04%) |  664.6G (78.2%) |  1024.0M (0.12%) |  0 (0.00%) |  750.1G (88.2%) |   850.0G |  113.9G
 18 |  eukanuba002 |    OK   |  324.3M (0.04%) |  669.5G (78.8%) |  1024.0M (0.12%) |  0 (0.00%) |  755.0G (88.8%) |   850.0G |  113.9G
 19 |  eukanuba001 |    OK   |  339.7M (0.04%) |  671.0G (78.9%) |  1024.0M (0.12%) |  0 (0.00%) |  756.4G (89.0%) |   850.0G |  113.9G
 20 |  eukanuba005 |    OK   |  277.3M (0.03%) |  668.7G (78.7%) |  1024.0M (0.12%) |  0 (0.00%) |  754.1G (88.7%) |   850.0G |  113.9G
 21 |  eukanuba004 |    OK   |  420.3M (0.05%) |  678.6G (79.8%) |  1024.0M (0.12%) |  0 (0.00%) |  764.1G (89.9%) |   850.0G |  113.9G
 22 |  eukanuba006 |    OK   |  397.0M (0.05%) |  670.4G (78.9%) |  1024.0M (0.12%) |  0 (0.00%) |  755.9G (88.9%) |   850.0G |  113.9G
 23 |  karma184    |    OK   |  479.9M (0.06%) |  674.8G (79.4%) |  1024.0M (0.12%) |  0 (0.00%) |  760.3G (89.5%) |   850.0G |  113.9G
----+--------------+---------+-----------------+-----------------+------------------+------------+-----------------+----------+-------- 
                                  2.8G (0.04%) |    5.2T (79.0%) |     8.0G (0.12%) |  0 (0.00%) |    5.9T (89.1%) |     6.6T |  910.9G

全局变量

对于大多数工作负载，这些全局变量的默认值是最优的。

Variable	Description	Default
device_auto_resize_to_largest	自动调整集群中所有(在线)设备的大小以匹配最大的设备	true
device_temporary_space_limit_bytes	允许用于临时容器的最大字节数。	5368709120
device_temporary_space_preallocate_bytes	预先分配给临时存储器的空间量	5368709120

数据库存储阈值

全局变量为集群建立数据库存储阈值。当超过第一级阈值时，将发送警报。如果存储利用率继续增加，一旦超过下一组阈值，用户查询将开始失败。最后，如果存储利用率继续增长，系统查询(包括关键的内部进程)将被终止。一旦数据库完全满了，数据库就可能无法操作。有关释放空间的建议，请参阅下面的问题解决方案。

以下变量用于设置device1利用率的阈值。

Variable	Description	Default Value	Allowed Values
databasefull_message_interval_s	数据库几乎全部消息间隔(以秒为单位)。	120	Minimum: 10 Maximum: 600
databasefull_system_error_percentage	当空间使用超过这个百分比时，用户查询失败。	97	Minimum: databasefull_system_warn_percentage + 1 Maximum: >99
databasefull_system_warn_percentage	当空间使用超过这个百分比时，警告系统查询。	95	Minimum: databasefull_user_error_percentage + 1 Maximum: databasefull_system_error_percentage - 1
databasefull_user_error_percentage	当空间使用超过这个百分比时，用户查询失败。	90	Minimum: databasefull_user_warn_percentage + 1 Maximum: databasefull_system_warn_percentage - 1
databasefull_user_warn_percentage	当空间使用超过这个百分比时，警告用户查询。	80	Minimum: 50 Maximum: databasefull_user_error_percentage - 1

用户查询是由最终用户发起的事务，而系统查询是内部ClustrixDB进程，如Rebalancer、binlog delete、statd等。

报警信息

当超过相应的全局变量时，将触发以下警报。这是在ClustrixDB每次分配空间和每个databasefull_message_interval_s秒发送任何必要的警报时计算的。如果检测到多个警报，则只显示最关键的警报。要了解有关ClustrixDB的Alerter的更多信息，请参见数据库警报。

Global Variable Evaluated	Alert Triggered	Level	Description	Message Shown
databasefull_user_warn_percentage	DATABASE_SPACE_LOW	warning	Database space low	使用了nn%的数据库空间。很快用户查询将失败。
databasefull_user_error_percentage	DATABASE_SPACE_EXTREME	warning	Database space extreme	使用了nn%的数据库空间。用户查询将失败。
databasefull_system_warn_percentage	DATABASE_SPACE_CRITICAL	critical	Database space critical	使用了nn%的数据库空间。用户查询将失败，不久系统查询将失败。
databasefull_system_error_percentage	DATABASE_SPACE_EXHAUSTED	critical	Database space exhausted	使用了nn%的数据库空间。用户查询和系统查询现在将失败。

解决低空间问题

当您收到上述任何警告时，将需要采取一些行动来阻止device1的容量达到下一个阈值。

一些需要考虑的建议:

通过扩展集群的容量向集群添加节点——Flex - Up。
增加集群上的可用空间:
- 修剪Binlogs
- 删除数据
通过使用ALTER CLUSTER RESIZE设备在所有节点上放大device1文件的大小。
终止并重新安排长时间运行的事务，如更改、备份和长时间运行的事务。这将停止垃圾收集，并导致撤消日志的大小临时增加。

以上是关于11. ClustrixDB 管理文件空间和数据库容量的主要内容，如果未能解决你的问题，请参考以下文章