ceph相关问题解决记录

Posted rongyongfeikai2

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ceph相关问题解决记录相关的知识,希望对你有一定的参考价值。

bluestore一致性检测和修复工具:

ceph-bluestore-tool --path /var/lib/ceph/osd/ceph-0 --deep true --command fsck

ceph-bluestore-tool --path /var/lib/ceph/osd/ceph-0 --deep true --command repair

ceph pg data unfound问题修复:华为开发者论坛

ceph pg  2.2b  mark_unfound_lost revert

1.集群内OSD down掉的问题

1.1 active ceph osd的命令(在osd挂掉的宿主机上执行)

ceph-volume lvm activate --all

如果osd的日志里,报bluestore的crc校验值存在问题,那么用如下参数进行启动:

CEPH_ARGS="--bluestore-ignore-data-csum" ceph-volume lvm activate --all

该osd虽然可以启动成功,但应该存在断电时数据没有写入硬盘的情况。等待ceph自动修复。

1.2 如果osd的服务处于运行状态(systemctl status ceph-osd@id是active),但ceph osd tree内显示是挂掉的

systemctl stop ceph-osd@id 先停止该osd服务

再运行ceph-volume lvm activate --all命令

1.3 osd无法启动,日志里显示block checksum mismatch

Object Storage Daemons (OSDs) can fail due to an internal data inconsistency | Support | SUSE

可以先尝试命令:

ceph-osd -i $ID --mkfs

如果还是继续crash,则只能重建

查看osd对应的物理硬盘:

ceph-bluestore-tool  show-label --path /var/lib/ceph/osd/ceph-2|grep osd_uuid|awk -F '\\"' 'print $4' 

lvs|grep 669f5f56-50ec-40e5-b35e-30103c8dbbb7|awk 'print $2' 

pvs|grep ceph-a2f7518e-cb7b-4636-ac48-95138e7b9b06

#删除osd 
ceph osd out 1 
ceph osd crush remove osd.1 
ceph auth del osd.1 
systemctl stop ceph-osd@1 
ceph osd destroy 1 --yes-i-really-mean-it 
umount /var/lib/ceph/osd/ceph-1 
ceph osd rm 1 

#执行完上述命令后,可以看到ceph -s里的osd已经变成只有1个 
#清理新硬盘 
ceph-volume lvm zap /dev/sdd --destroy 

#使用新硬盘 
ceph-volume lvm create --data /dev/sdd 

#启动服务 
systemctl enable --runtime ceph-osd@1
systemctl start ceph-osd@1 

以上是关于ceph相关问题解决记录的主要内容,如果未能解决你的问题,请参考以下文章

ceph相关问题解决记录

Openstack 之 正常关闭一个物理宿主机

OpenStack Newton版本Ceph集成部署记录

ceph 重启宿主机

ceph问题解决运维记录

ceph-rbd kvm 删除数据后集群空间不释放