ceph相关问题解决记录
Posted rongyongfeikai2
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ceph相关问题解决记录相关的知识,希望对你有一定的参考价值。
bluestore一致性检测和修复工具:
ceph-bluestore-tool --path /var/lib/ceph/osd/ceph-0 --deep true --command fsck
ceph-bluestore-tool --path /var/lib/ceph/osd/ceph-0 --deep true --command repair
ceph pg data unfound问题修复:华为开发者论坛
ceph pg 2.2b mark_unfound_lost revert
1.集群内OSD down掉的问题
1.1 active ceph osd的命令(在osd挂掉的宿主机上执行)
ceph-volume lvm activate --all
如果osd的日志里,报bluestore的crc校验值存在问题,那么用如下参数进行启动:
CEPH_ARGS="--bluestore-ignore-data-csum" ceph-volume lvm activate --all
该osd虽然可以启动成功,但应该存在断电时数据没有写入硬盘的情况。等待ceph自动修复。
1.2 如果osd的服务处于运行状态(systemctl status ceph-osd@id是active),但ceph osd tree内显示是挂掉的
systemctl stop ceph-osd@id 先停止该osd服务
再运行ceph-volume lvm activate --all命令
1.3 osd无法启动,日志里显示block checksum mismatch
Object Storage Daemons (OSDs) can fail due to an internal data inconsistency | Support | SUSE
可以先尝试命令:
ceph-osd -i $ID --mkfs
如果还是继续crash,则只能重建
查看osd对应的物理硬盘:
ceph-bluestore-tool show-label --path /var/lib/ceph/osd/ceph-2|grep osd_uuid|awk -F '\\"' 'print $4'
lvs|grep 669f5f56-50ec-40e5-b35e-30103c8dbbb7|awk 'print $2'
pvs|grep ceph-a2f7518e-cb7b-4636-ac48-95138e7b9b06
#删除osd
ceph osd out 1
ceph osd crush remove osd.1
ceph auth del osd.1
systemctl stop ceph-osd@1
ceph osd destroy 1 --yes-i-really-mean-it
umount /var/lib/ceph/osd/ceph-1
ceph osd rm 1
#执行完上述命令后,可以看到ceph -s里的osd已经变成只有1个
#清理新硬盘
ceph-volume lvm zap /dev/sdd --destroy
#使用新硬盘
ceph-volume lvm create --data /dev/sdd
#启动服务
systemctl enable --runtime ceph-osd@1
systemctl start ceph-osd@1
以上是关于ceph相关问题解决记录的主要内容,如果未能解决你的问题,请参考以下文章