ceph写入时延高导致虚拟机hang死的故障处理
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ceph写入时延高导致虚拟机hang死的故障处理相关的知识,希望对你有一定的参考价值。
参考技术A 通过 ceph daemon osd.64 dump_historic_ops 查看这个osd上所有client的op的时延duration,确实存在处理时间较高的情况通过 smartctl -a /dev/sdi 查看硬盘的寿命,确认ssd盘寿命已不足
执行 ceph osd pool set ssd min_size 1 调整为1
2.调整osd reweight,让pg不再分配读写到这个osd
ceph osd reweight 64 0
3.等待集群最终恢复 health: HEALTH_OK
[1].osd_pool_default_min_size配置( https://blog.csdn.net/a1454927420/article/details/98080139 )
[2].osd时延较高( http://www.strugglesquirrel.com/2020/10/30/ceph%E8%BF%90%E7%BB%B4%E5%A4%A7%E5%AE%9D%E5%89%91%E4%B9%8Bosd%E5%BB%B6%E6%97%B6%E8%B0%83%E6%9F%A5/ )
[3].ssd盘故障判断( https://blog.csdn.net/liudalab/article/details/79485646 )
[4].ceph的weight和reweight的理解( https://blog.csdn.net/qq_40017427/article/details/107401851 )
虚拟机丢包问题排查处理
故障现象
同一台物理机上的多台虚拟机同时出现应用服务超时、无法访问等现象,ping虚拟机和物理机丢包严重。
故障原因
物理机上某台虚拟机建立了大量连接,导致物理机连接追踪表被大量ESTABLISHED连接记录塞满,进而出现丢包现象。
处理方法
调整物理机内核参数,增大最大连接追踪记录数、减小ESTABLISHED、TIME_WAIT、CLOSE_WAIT、FIN_WAIT等连接记录的超时时间。
排查过程
一开始从业务层面排查,分析是否有某台虚拟机占用带宽的情况,但是排查监控和实时流量并没有发现问题,未果。第二次出现问题时,在宿主机上ping故障虚拟机,出现“ping: sendmsg: Operation not permitted”的报错:
# ping 172.16.3.5 PING 172.16.3.5 (172.16.3.5) 56(84) bytes of data. ping: sendmsg: Operation not permitted ping: sendmsg: Operation not permitted ping: sendmsg: Operation not permitted ping: sendmsg: Operation not permitted
查看内核日志,报错如下:
# dmesg | tail [64802472.971773] nf_conntrack: table full, dropping packet [64802472.972242] nf_conntrack: table full, dropping packet [64802472.973668] nf_conntrack: table full, dropping packet [64802472.978622] nf_conntrack: table full, dropping packet [64802472.988458] nf_conntrack: table full, dropping packet [64802472.991945] nf_conntrack: table full, dropping packet [64802472.998772] nf_conntrack: table full, dropping packet [64802472.999542] nf_conntrack: table full, dropping packet [64802473.001464] nf_conntrack: table full, dropping packet [64802473.001768] nf_conntrack: table full, dropping packet
发现是由于连接追踪表满导致丢包。其实这个问题出现过一次,当时是存在大量TIME_WAIT连接记录所致,现在这个问题是存在大量ESTABLISHED连接记录所致:
# cat /proc/net/nf_conntrack | awk ‘/^.*tcp.*$/ count[$6]++ END for(state in count) print state, count[state]‘ LAST_ACK 36 SYN_RECV 52 CLOSE_WAIT 350 CLOSE 844 ESTABLISHED 246265 FIN_WAIT 4 SYN_SENT 993 TIME_WAIT 9996
找到问题所在就好办了,通过调整相关内核参数解决:
# sysctl -a | grep nf_conntrack net.nf_conntrack_max = 2097152 net.netfilter.nf_conntrack_max = 2097152 net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 30 net.netfilter.nf_conntrack_tcp_timeout_time_wait = 30 net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60 net.netfilter.nf_conntrack_tcp_timeout_established = 3600
将以上参数写入/etc/sysctl.conf中,执行sysctl -p生效。
另外还有net.netfilter.nf_conntrack_buckets参数,指定哈希表的大小。在4.8及以上的内核可以通过sysctl修改,在4.8之前的内核中是只读的,只能通过修改/sys/module/nf_conntrack/parameters/hashsize来修改。
参考资料
nf_conntrack: table full, dropping packet. 终结篇
[踩坑总结] nf_conntrack: table full, dropping packet
以上是关于ceph写入时延高导致虚拟机hang死的故障处理的主要内容,如果未能解决你的问题,请参考以下文章
Oracle Scan Listener过大导致的数据库Hang