一次“诡异”的 Ansible 密码问题排查，最后的“真相”竟是这样

Posted 2022-11-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一次“诡异”的 Ansible 密码问题排查，最后的“真相”竟是这样相关的知识，希望对你有一定的参考价值。

背景

在做大批量运维的时候，DBA 需要掌握和使用 ansible。今天有同事使用 ansible 遇到了一个奇怪现象，和我交流了一下，我发现这个现象很奇怪，也很有趣，我认为是个 BUG，于是排查，之后有了这篇文章。

现象

同事使用的是 ansible2.7.8，我使用的是最新版 python3.11+ ansible2.14，我们都复现了这个现象。这个问题简而言之是，使用比较特殊的密码组合作为主机密码，ansible 在使用上会遇到问题，导致正确的密码而无法连接。

以下是我的环境：

角色	hostname	IP	使用的密码
ansible server	192-168-199-121	192.168.199.121	不涉及
有问题的受控机	192-168-199-99	192.168.199.99	1#fander
没问题的受控机	192-168-199-131	192.168.199.131	Root-123

[root@192-168-199-121 ~]# cat /etc/ansible/hosts
[fander_vm]
192.168.199.99 ansible_user=root ansible_ssh_pass="1#fander"


[root@192-168-199-121 ~]# ansible 192.168.199.99 -m ping
192.168.199.99 | UNREACHABLE! => 
    "changed": false,
    "msg": "Invalid/incorrect password: Permission denied, please try again.",
    "unreachable": true

同事疑问1——特殊密码，ansible无法连接会报错

同事设置了一个形如”1#xxxxxx”的密码，使用 ssh root@192.168.199.99 连接是完全没有问题的，但使用 ansible 连接则会报错，”Invalid/incorrect password: Permission denied, please try again.” 无法连接。这个密码经过我的研究，是有规律，1位到任意长度的数字 + ‘#’ + 任意长度字符，ansible 会报错。

也就是，以下密码会报错

1#fander
12#fander

以下密码不会报错

1a#fander
1@fander

同事疑问2——此特殊密码，ansible无法连接会报错，但有时却能连接不报错

排查过程

1. ansible -vvvvv 排查

-v参数可以让 ansible 输出 debug 日志，v 越多越详细。当然了，可能并不需要五个 v，我不知道要打多少个 v 时，我就把 v 打满。( mysqlbinlog 我打 3个 v )

一次“诡异”的

如图红圈和横线，这两处很关键。

红圈告诉我，我在执行 ansible 时，其实底层调用的是 sshpass 和 ssh。

横线这一处，报有个文件不存在，我对比了执行正常连接的机器(192.168.199.131)，是不会报这个的，所以此处属于异常，需要排查。

这些日志输出其实一团糟，可以粘贴到 notepad++，用以下方法美化输出。

一次“诡异”的

粘贴到 notepad++ 只有两行，通过替换 \\r\\n 为换行符即可。

首先，我先把 \\r\\n 替换为 fanderissb

然后，再以扩展模式，替换回来

一次“诡异”的

现在就比较好阅读了，这一处就是不正常的。

一次“诡异”的

经过研究，这些 debug 日志其实来源于我前面红圈的命令行 sshpass xxx 的输出。

一次“诡异”的

查阅资料和整理，原理大概是这样的：

一次“诡异”的

正确连接是长这个样子的，命令结果是输出”/root\\n”，前面的 0 是命令 $? 的返回码，0 代表执行正常。

一次“诡异”的

而我们密码有问题的服务器返回码是 5，输出是空

一次“诡异”的

sshpass -d10 ssh -vvv -C -o Cnotallow=auto -o Cnotallow=60s \\
-o StrictHostKeyChecking=no -o User="root" -o Cnotallow=10 \\
-o Cnotallow="/root/.ansible/cp/e2f9f7759b" 192.168.199.99 \\
/bin/sh -c ""echo ~root && sleep 0""

在这句命令中，Cnotallow=60s 是 ssh 的参数，代表建立一个长链接，保持 60 秒，这个长链接就是建立在 Cnotallow=/root/.ansible/cp/e2f9f7759b 的路径下。

实际上，就是这个 ControlPersist，可以解答同事疑问2——此特殊密码，ansible无法连接会报错，但有时却能连接。

为了方便解释，我把 ansible 服务器的这个 ControlPersist 调大到 600 秒。

[root@192-168-199-121 ~]# cat /etc/ansible/ansible.cfg
[defaults]
host_key_checking = False


[ssh_connection]
ssh_args = -C -o Cnotallow=auto -o Cnotallow=600

首先，我登录远端服务器，先把密码改回常规密码。

[root@192-168-199-99 ~]# echo "Root-123"|passwd --stdin root
Changing password for user root.
passwd: all authentication tokens updated successfully.

接着，我配置好 ansible 服务器的 hosts 文件。

[root@192-168-199-121 ~]# cat /etc/ansible/hosts
[fander_vm]
192.168.199.99 ansible_user=root ansible_ssh_pass="Root-123"

然后，开始测试。完全没有问题，能连通。

[root@192-168-199-121 ~]# ansible 192.168.199.99 -m ping
192.168.199.99 | SUCCESS => 
    "ansible_facts": 
        "discovered_interpreter_python": "/usr/bin/python"
    ,
    "changed": false,
    "ping": "pong"

执行 ps -ef 能观察到，我们第一次连接完后，ssh 并没有断开，有一个背景执行的长链接，他实际上是一个多路复用的 socket 连接，后续我们再连远端服务器时就是复用他，不需要重新验证密码。

[root@192-168-199-121 ~]# ps -ef|grep ssh
root        860      1  0 17:18 ?        00:00:00 /usr/sbin/sshd -D
root        945    860  0 17:18 ?        00:00:04 sshd: root@pts/0,pts/1
root       9220      1  0 22:40 ?        00:00:00 ssh: /root/.ansible/cp/e2f9f7759b [mux]
root       9267   1009  0 22:41 pts/0    00:00:00 grep --color=auto ssh

这个时候，我把远端的服务器密码修改为有问题的密码

[root@192-168-199-99 ~]# echo "1#fander"|passwd --stdin root
Changing password for user root.
passwd: all authentication tokens updated successfully.

此时，我的 ansible 服务器的 hosts 配置里仍然用的旧密码

[root@192-168-199-121 ~]# cat /etc/ansible/hosts
[fander_vm]
192.168.199.99 ansible_user=root ansible_ssh_pass="Root-123"

密码是错误的，那么我还能连吗？答案是——能。这就是连接复用，不需要重新验证密码，直接复用前面的 socket 连接。

所以，这时你通过 ansible，密码乱输或者不输密码都能连。

[root@192-168-199-121 ~]# cat /etc/ansible/hosts
[fander_vm]
192.168.199.99 ansible_user=root   #我这里直接去掉了密码


[root@192-168-199-121 ~]# date;ansible 192.168.199.99 -m shell -a "ls"
Sun Nov 13 22:49:15 CST 2022   #我复用这个链接的时间
192.168.199.99 | CHANGED | rc=0 >>
anaconda-ks.cfg

那么这个长链接是创建后的 600 秒自动销毁吗？(提醒，前面我修改的Cnotallow=600s)

答案——否。因为我在创建连接后，中途复用过这个连接通道，时间是 22:49:15，所以他消失时间不是创建时间 22:40:28 + 10 分钟，而是 22:49:15 + 10分钟，也就是 22:59:15。

[root@192-168-199-121 cp]# pwd
/root/.ansible/cp


[root@192-168-199-121 cp]# stat e2f9f7759b;date 
  File: ‘e2f9f7759b’
  Size: 0                 Blocks: 0          IO Block: 4096   socket
Device: fd00h/64768d        Inode: 68415916    Links: 1
Access: (0600/srw-------)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2022-11-13 22:40:28.680577986 +0800
Modify: 2022-11-13 22:40:28.615577988 +0800
Change: 2022-11-13 22:40:28.615577988 +0800
 Birth: -
Sun Nov 13 22:59:00 CST 2022


[root@192-168-199-121 cp]# stat e2f9f7759b;date 
stat: cannot stat ‘e2f9f7759b’: No such file or directory
Sun Nov 13 22:59:30 CST 2022


# 超过22:59:15，socket消失了。

那同事的疑问2，就可以解释了，有问题的密码依然不能通过 ansible 连接，能连接的假象是因为曾经用正确的密码建立过长链接(这个是 ssh 的参数功能，不是 ansible)，后面连接时复用了此连接，没有使用密码认证，所以也就不会报错了。待 ControlPersist 超时后，socket 销毁，有问题的密码连接就开始报错了。

我们继续排查同事的疑问1。

一次“诡异”的

根据我前面整理的原理，我标记1、2、3、4数字的这几步，我按这个顺序从下往上开始一一排除。

其实，本来应该从最顶上的 4 开始排查的，但 4 需要阅读源码，所以我从简单的 1 开始排查。

2. 排查 ssh

首先，我测试标记为 1 的步骤，手敲这个密码，ssh 是否认正常。结果是连接正常。

一次“诡异”的

3. 排查 sshpass

然后，测试标记为 2 的步骤，测试 sshpass 传输密码是否正常的。结果也是连接正常。

[root@192-168-199-99 ~]# sshpass -p "1#fander" ssh  -C -o Cnotallow=auto -o Cnotallow=60s \\
-o StrictHostKeyChecking=no -o User="root" -o Cnotallow=10 \\
-o Cnotallow="/root/.ansible/cp/e2f9f7759b" 192.168.199.99 \\
/bin/sh -c ""echo ~root && sleep 0""
/root

这里，我调整了原命令，因为原命令用的是 sshpass -d10，这个文件描述符文件我不知道如何制造，所以我改为用 sshpass -p 来测试。我去掉了 -vvv ，因为如果一切正常，我不需要刷屏的 debug 日志。

4. 使用 paramiko 连接方式辅助排查

标记为 3 的步骤，我不知道如何测试，但我知道 ansible 除了 ssh 连接，还有一种叫 paramiko 的连接方式，他是旧版 ansible 的默认连接方式，他比较低效，他不使用 ControlPersist，也就不会建立 Control socket，而之前我们连接报错时，日志的关键信息就是Control socket "/root/.ansible/cp/e2f9f7759b" does not exist

当然了，他也不会使用 sshpass 和不会把密码写入那个数字为 10 的文件描述符。所以，如果我能在 paramiko 的连接方式能复现报错，那么就和标记为 3 的步骤无关。

[root@192-168-199-121 inventory]# cat /etc/ansible/ansible.cfg
[defaults]
host_key_checking = False
callback_whitelist = timer
transport = paramiko

一次“诡异”的

结果是，我使用 paramiko 的连接方式，也能复现连接报错。

他这个 python 抛出异常非常好，终于让我知道为什么密码会错误了，原来传进去的密码不是”1#fander”，而是”1”。也就是问题肯定不在标记为 3 的步骤，而是标记为 4 的步骤。

根据报错，我在 auth_handler.py 文件里打了两个 print。

一次“诡异”的

我们再看看输出。

一次“诡异”的

那么，标记为 1、2、3 的步骤我们都排除了，问题出在标记为 4 的步骤，也就是现在的问题是：

为什么 ansible 传入给 sshpass 和 ssh 的密码不正确，应该传入”1#fander”，但最终传入”1” ？

5. 排查 ansible -k

我们再来做个测试，不使用 ansible hosts 文件传递密码，使用 -k 参数手敲密码。发现一切正常。

6. 水落石出，是 ansible 的 hosts 设置问题

那问题完全能定位出来了，这个疑似 bug，不是 ssh 也不是 sshpass 的问题，而是 ansible 的问题。并且，我们能确定，这个和 ansible 读取解析 /etc/ansible/hosts 文件有关。

经过我查阅资料，ansible 读取解析 /etc/ansible/hosts 相关的代码在这个路径下，ini.py 文件。

cd /usr/local/python3/lib/python3.11/site-packages/
cd ansible_core-2.14.0-py3.11.egg/ansible/plugins/inventory
less ini.py

通过阅读注释，发现这个不是 bug，而是官方知道的问题，所以属于一个坑。

一次“诡异”的

最后

我经常阅读源码都是通过阅读注释就解决的，这很有趣，适合我这种萌新 coder。现在是 2022 年 11 月 13 日的 23:56 分，由于能力和时间的关系，我就写到这里了。大家应该看懂了解决办法，请大家避免这个坑，这个坑不单止针对密码，在 hosts 文件的所有变量设置都应该这么做(上图横线)。有兴趣深入研究的同学可以继续看看源代码。

来源：本文转自公众号芬达的数据库学习笔记，点击查看原文。

以上是关于一次“诡异”的 Ansible 密码问题排查，最后的“真相”竟是这样的主要内容，如果未能解决你的问题，请参考以下文章

一次诡异的内存泄露排查过程，背后原因令人深思

记一次诡异的频繁Full GC

运维实施必读ansible使用playbook批量部署nginx等服务及常见错误排查

一个线上 Maven 诡异问题排查过程

golang 服务诡异499504网络故障排查

一次tomcat启动特别慢的排查