ECS Execution Role 导致容器启动时日志驱动失败?

Posted

技术标签:

【中文标题】ECS Execution Role 导致容器启动时日志驱动失败?【英文标题】:ECS Execution Role causes log driver failure during container startup? 【发布时间】:2020-02-21 06:45:46 【问题描述】:

当使用自定义 IAM 角色作为 ECS 任务定义的自定义执行角色时,由于无法初始化 CloudWatch 日志记录驱动程序,我们生成的服务将无法在我们的 ECS 实例上启动。具体来说,我们在 CloudWatch 中看到来自 ECS 代理的以下错误:

2019-10-24T21:43:10Z [INFO] TaskHandler: Adding event: TaskChange: [arn:aws:ecs:us-west-1:REDACTED -> STOPPED, Known Sent: NONE, PullStartedAt: 2019-10-24 21:43:08.499577397 +0000 UTC m=+187.475751716, PullStoppedAt: 2019-10-24 21:43:09.69279918 +0000 UTC m=+188.668973506, ExecutionStoppedAt: 2019-10-24 21:43:10.153954812 +0000 UTC m=+189.130129126, arn:aws:ecs:us-west-1:REDACTED wordpress -> STOPPED, Reason CannotStartContainerError: Error response from daemon: failed to initialize logging driver: CredentialsEndpointError: failed to load credentials

caused by: Get http://169.254.170.2/v2/credentials/REDACTED: dial tcp 169.254.170.2:80: connect: connection refused, Known Sent: NONE] sent: false

这个“连接被拒绝错误”曾经是一个超时错误,但我在阅读了类似的问题后尝试通过添加来自https://docs.aws.amazon.com/AmazonECS/latest/developerguide/ecs-agent-install.html 的 iptables 条目来调试这个问题,即使这是一个 Amazon ECS 预置的 CoreOS EC2 实例(不是自定义一)。

基本上该链接和other issues similar to mine 推荐了以下内容,至少将错误更改为超时错误:

ubuntu:~$ sudo iptables -t nat -A PREROUTING -p tcp -d 169.254.170.2 --dport 80 -j DNAT --to-destination 127.0.0.1:51679
ubuntu:~$ sudo iptables -t nat -A OUTPUT -d 169.254.170.2 -p tcp -m tcp --dport 80 -j REDIRECT --to-ports 51679

请注意,当我们不在容器定义中使用自定义 IAM 执行角色时,此容器定义在正常情况下运行和工作完全正常;但是因为我试图在任务定义中添加一个 AWS SecretsManager 密钥;这需要我们定义一个可以访问密钥的自定义角色。

编辑:这是 ECS 实例的角色策略 JSON 和 cloud-config.yml:

JSON 策略角色:


  "Version": "2012-10-17",
  "Statement": [
    
      "Effect": "Allow",
      "Action": [
        "ec2:Describe*",
        "elasticloadbalancing:DeregisterInstancesFromLoadBalancer",
        "elasticloadbalancing:DeregisterTargets",
        "elasticloadbalancing:Describe*",
        "elasticloadbalancing:RegisterInstancesWithLoadBalancer",
        "elasticloadbalancing:RegisterTargets"
      ],
      "Resource": "*"
    ,
    
      "Effect": "Allow",
      "Action": [
        "ecr:GetAuthorizationToken",
        "ecr:BatchCheckLayerAvailability",
        "ecr:GetDownloadUrlForLayer",
        "ecr:BatchGetImage",
        "logs:CreateLogStream",
        "logs:PutLogEvents"
      ],
      "Resource": "*"
    ,
    
        "Effect": "Allow",
        "Action": [
        "ssm:GetParameters",
        "secretsmanager:GetSecretValue",
        "kms:Decrypt"
        ],
        "Resource": [
            "$var.aws_mysql_secret_arn"
        ]
    
  ]

cloud-config.yml

coreos:
  units:
   - name: update-engine.service
     command: stop
   - name: amazon-ecs-agent.service
     command: start
     runtime: true
     content: |
       [Unit]
       Description=AWS ECS Agent
       Documentation=https://docs.aws.amazon.com/AmazonECS/latest/developerguide/
       Requires=docker.socket
       After=docker.socket

       [Service]
       Environment=ECS_CLUSTER=$ecs_cluster_name
       Environment=ECS_LOGLEVEL=$ecs_log_level
       Environment=ECS_VERSION=$ecs_agent_version
       Restart=on-failure
       RestartSec=30
       RestartPreventExitStatus=5
       SyslogIdentifier=ecs-agent
       ExecStartPre=-/bin/mkdir -p /var/log/ecs /var/ecs-data /etc/ecs
       ExecStartPre=-/usr/bin/docker kill ecs-agent
       ExecStartPre=-/usr/bin/docker rm ecs-agent
       ExecStartPre=iptables -t nat -A PREROUTING -p tcp -d 169.254.170.2 --dport 80 -j DNAT --to-destination 127.0.0.1:51679
       ExecStartPre=iptables -t nat -A OUTPUT -d 169.254.170.2 -p tcp -m tcp --dport 80 -j REDIRECT --to-ports 51679
       ExecStartPre=/usr/bin/docker pull amazon/amazon-ecs-agent:$$ECS_VERSION
       ExecStart=/usr/bin/docker run --name ecs-agent \
                                     --volume=/var/run/docker.sock:/var/run/docker.sock \
                                     --volume=/var/log/ecs:/log \
                                     --volume=/var/ecs-data:/data \
                                     --volume=/sys/fs/cgroup:/sys/fs/cgroup:ro \
                                     --volume=/run/docker/execdriver/native:/var/lib/docker/execdriver/native:ro \
                                     --publish=127.0.0.1:51678:51678 \
                                     --env=ECS_LOGFILE=/log/ecs-agent.log \
                                     --env=ECS_LOGLEVEL=$$ECS_LOGLEVEL \
                                     --env=ECS_DATADIR=/data \
                                     --env=ECS_CLUSTER=$$ECS_CLUSTER \
                                     --env=ECS_AVAILABLE_LOGGING_DRIVERS='["awslogs"]' \
                                     --env=ECS_ENABLE_AWSLOGS_EXECUTIONROLE_OVERRIDE=true \
                                     --log-driver=awslogs \
                                     --log-opt awslogs-region=$aws_region \
                                     --log-opt awslogs-group=$ecs_log_group_name \
                                     amazon/amazon-ecs-agent:$$ECS_VERSION

【问题讨论】:

您的角色是否扩展了默认角色? @Lamanus 我不确定如何扩展默认角色,因为在没有指定执行角色的情况下运行任务定义或 ECS 服务时看不到它的名称。在未明确指定时,AWS 似乎将其隐藏。 【参考方案1】:

虽然我仅针对使用 Fargate 启动类型的 ECS 任务进行了检查,但这仍可能与使用 EC2 启动类型的任务相关。 这对我有用:

    定义一个 IAM 策略(我们称之为ECSCloudWatchLogs),如下所示:

    "Version": "2012-10-17",
    "Statement": [
        
            "Effect": "Allow",
            "Action": [
                "logs:CreateLogGroup",
                "logs:CreateLogStream",
                "logs:PutLogEvents",
                "logs:DescribeLogStreams"
            ],
            "Resource": [
                "arn:aws:logs:*:*:*"
            ]
        
    ]

    为 ECS 任务(信任关系 ecs-tasks.amazonaws.com)创建一个 IAM 角色(我们称之为 TaskExecutionRole)并附加以下策略:

    AmazonECSTaskExecutionRolePolicy(AWS 托管策略) ECSCloudWatchLogs(在第 1 步创建)

    将第 2 步中创建的角色分配给您的任务执行角色(任务定义):

在那之后,我再也没有收到failed to initialize logging driver 问题。

【讨论】:

【参考方案2】:

我们案例的解决方案是将 ECS 代理的网络模式的主机切换为“主机”模式,而不是桥接模式 (--net=host)。这是因为 ECS 代理不再支持桥接模式。除此之外,我们还添加了 IP 表规则和 localnet.conf 以确保正确设置路由。

这是最终为我们工作的最终模板:

#cloud-config
coreos:
  units:
   - name: iptables-restore.service
     command: start
     runtime: true
   - name: systemd-sysctl.service
     command: start
     runtime: true
   - name: update-engine.service
     command: stop
   - name: amazon-ecs-agent.service
     command: start
     runtime: true
     content: |
       [Unit]
       Description=AWS ECS Agent
       Documentation=https://docs.aws.amazon.com/AmazonECS/latest/developerguide/
       Requires=docker.socket
       After=docker.socket

       [Service]
       Environment=ECS_CLUSTER=$ecs_cluster_name
       Environment=ECS_LOGLEVEL=$ecs_log_level
       Environment=ECS_VERSION=latest
       Restart=on-failure
       RestartSec=30
       RestartPreventExitStatus=5
       SyslogIdentifier=ecs-agent
       ExecStartPre=-/bin/mkdir -p /var/log/ecs /var/ecs-data /etc/ecs
       ExecStartPre=-/usr/bin/touch /etc/ecs/ecs.config
       ExecStartPre=-/usr/bin/docker kill ecs-agent
       ExecStartPre=-/usr/bin/docker rm ecs-agent
       ExecStartPre=/usr/bin/docker pull amazon/amazon-ecs-agent:$ECS_VERSION
       ExecStart=/usr/bin/docker run --name ecs-agent \
                                     --env-file=/etc/ecs/ecs.config \
                                     --volume=/var/run/docker.sock:/var/run/docker.sock \
                                     --volume=/var/log/ecs:/log \
                                     --volume=/var/ecs-data:/data \
                                     --volume=/sys/fs/cgroup:/sys/fs/cgroup:ro \
                                     --volume=/run/docker/execdriver/native:/var/lib/docker/execdriver/native:ro \
                                     --net=host \
                                     --env=ECS_ENABLE_TASK_IAM_ROLE=true \
                                     --env=ECS_ENABLE_TASK_IAM_ROLE_NETWORK_HOST=true \
                                     --env=ECS_LOGFILE=/log/ecs-agent.log \
                                     --env=ECS_LOGLEVEL=$ECS_LOGLEVEL \
                                     --env=ECS_DATADIR=/data \
                                     --env=ECS_CLUSTER=$ECS_CLUSTER \
                                     --env=ECS_AVAILABLE_LOGGING_DRIVERS='["awslogs","json-file"]' \
                                     --env=ECS_ENABLE_AWSLOGS_EXECUTIONROLE_OVERRIDE=true \
                                     --log-driver=awslogs \
                                     --log-opt awslogs-region=$aws_region \
                                     --log-opt awslogs-group=$ecs_log_group_name \
                                     amazon/amazon-ecs-agent:$ECS_VERSION
write_files:
  - path: /var/lib/iptables/rules-save
    permissions: 0644
    owner: 'root:root'
    content: |
      *nat
      -A PREROUTING -d 169.254.170.2/32 -p tcp -m tcp --dport 80 -j DNAT --to-destination 127.0.0.1:51679
      -A OUTPUT -d 169.254.170.2/32 -p tcp -m tcp --dport 80 -j REDIRECT --to-ports 51679
      COMMIT
  - path: /etc/sysctl.d/localnet.conf
    permissions: 0644
    owner: 'root:root'
    content: |
      net.ipv4.conf.all.route_localnet=1

【讨论】:

如果有人想知道所有这些魔法是从哪里来的,官方ecs-agent doc:github.com/aws/amazon-ecs-agent#on-other-linux-amis【参考方案3】:

如果您在这种情况下失败,请检查 2 个选项。

    ECS execution role policy 的许可。它应该包含logs:CreateLogStreamlogs:PutLogEvents。喜欢:

    "Version": "2012-10-17",
    "Statement": [
        
            "Effect": "Allow",
            "Action": [
                "ecr:GetAuthorizationToken",
                "ecr:BatchCheckLayerAvailability",
                "ecr:GetDownloadUrlForLayer",
                "ecr:BatchGetImage",
                "logs:CreateLogStream",
                "logs:PutLogEvents"
            ],
            "Resource": "*"
        
    ]

    您应该为awslogs 驱动程序配置ecs_agent 的配置。

此配置文件路径是主机中的/etc/ecs/ecs.config。这个文件应该是这样的:

awslogs驱动添加到ecs.config

ECS_CLUSTER=test_ecs_cluster
ECS_AVAILABLE_LOGGING_DRIVERS=["awslogs","json-file"]

见:

这里是a document

【讨论】:

不幸的是,这两个条件已经到位,似乎还需要其他一些条件。具体来说: 1. 我的执行角色策略已经包含了这些权限以及我添加的其他一些权限以防万一。我更新了我的问题以包含我正在使用的角色策略 JSON。 2. 我通过 cloud-config.yml 在服务级别配置中进行 ecs_agent 以包含 ECS_CLUSTER 和 ECS_AVAILABLE_LOGGING_DRIVERS 以及一些其他参数,我将更新我的问题以包含这些设置。 @depthfirstdesigner 您找到解决上述问题的方法了吗? @Niranjan 我们确实做到了,我们不得不在“主机”模式下使用 ECS 代理,而不是“桥接”网络模式,因为 ECS 停止支持桥接模式。我们还直接在云配置模板中添加了路由规则,这让事情变得更容易。有关更多详细信息,请参阅我刚刚在上面添加的自我回答。 @depthfirstdesigner 这可以解决我的问题。在 cdk 中,taskexecutionrole 会自动创建并附加到任务定义中。如果我删除它,一切都会按预期工作

以上是关于ECS Execution Role 导致容器启动时日志驱动失败?的主要内容,如果未能解决你的问题,请参考以下文章

AWS ECS 在一个任务定义中启动多个容器

ECS 内 Daemon 容器不能正常启动的小bug

AWS ECS 如何在私有桥接网络中启动容器

如何启动具有公共 DNS 的 ECS Fargate 容器?

如何在 AWS ECS 中重启容器?

指定 aws ECS/Fargate 容器依赖项无法部署