ECS Execution Role 导致容器启动时日志驱动失败?
Posted
技术标签:
【中文标题】ECS Execution Role 导致容器启动时日志驱动失败?【英文标题】:ECS Execution Role causes log driver failure during container startup? 【发布时间】:2020-02-21 06:45:46 【问题描述】:当使用自定义 IAM 角色作为 ECS 任务定义的自定义执行角色时,由于无法初始化 CloudWatch 日志记录驱动程序,我们生成的服务将无法在我们的 ECS 实例上启动。具体来说,我们在 CloudWatch 中看到来自 ECS 代理的以下错误:
2019-10-24T21:43:10Z [INFO] TaskHandler: Adding event: TaskChange: [arn:aws:ecs:us-west-1:REDACTED -> STOPPED, Known Sent: NONE, PullStartedAt: 2019-10-24 21:43:08.499577397 +0000 UTC m=+187.475751716, PullStoppedAt: 2019-10-24 21:43:09.69279918 +0000 UTC m=+188.668973506, ExecutionStoppedAt: 2019-10-24 21:43:10.153954812 +0000 UTC m=+189.130129126, arn:aws:ecs:us-west-1:REDACTED wordpress -> STOPPED, Reason CannotStartContainerError: Error response from daemon: failed to initialize logging driver: CredentialsEndpointError: failed to load credentials
caused by: Get http://169.254.170.2/v2/credentials/REDACTED: dial tcp 169.254.170.2:80: connect: connection refused, Known Sent: NONE] sent: false
这个“连接被拒绝错误”曾经是一个超时错误,但我在阅读了类似的问题后尝试通过添加来自https://docs.aws.amazon.com/AmazonECS/latest/developerguide/ecs-agent-install.html 的 iptables 条目来调试这个问题,即使这是一个 Amazon ECS 预置的 CoreOS EC2 实例(不是自定义一)。
基本上该链接和other issues similar to mine 推荐了以下内容,至少将错误更改为超时错误:
ubuntu:~$ sudo iptables -t nat -A PREROUTING -p tcp -d 169.254.170.2 --dport 80 -j DNAT --to-destination 127.0.0.1:51679
ubuntu:~$ sudo iptables -t nat -A OUTPUT -d 169.254.170.2 -p tcp -m tcp --dport 80 -j REDIRECT --to-ports 51679
请注意,当我们不在容器定义中使用自定义 IAM 执行角色时,此容器定义在正常情况下运行和工作完全正常;但是因为我试图在任务定义中添加一个 AWS SecretsManager 密钥;这需要我们定义一个可以访问密钥的自定义角色。
编辑:这是 ECS 实例的角色策略 JSON 和 cloud-config.yml:
JSON 策略角色:
"Version": "2012-10-17",
"Statement": [
"Effect": "Allow",
"Action": [
"ec2:Describe*",
"elasticloadbalancing:DeregisterInstancesFromLoadBalancer",
"elasticloadbalancing:DeregisterTargets",
"elasticloadbalancing:Describe*",
"elasticloadbalancing:RegisterInstancesWithLoadBalancer",
"elasticloadbalancing:RegisterTargets"
],
"Resource": "*"
,
"Effect": "Allow",
"Action": [
"ecr:GetAuthorizationToken",
"ecr:BatchCheckLayerAvailability",
"ecr:GetDownloadUrlForLayer",
"ecr:BatchGetImage",
"logs:CreateLogStream",
"logs:PutLogEvents"
],
"Resource": "*"
,
"Effect": "Allow",
"Action": [
"ssm:GetParameters",
"secretsmanager:GetSecretValue",
"kms:Decrypt"
],
"Resource": [
"$var.aws_mysql_secret_arn"
]
]
cloud-config.yml
coreos:
units:
- name: update-engine.service
command: stop
- name: amazon-ecs-agent.service
command: start
runtime: true
content: |
[Unit]
Description=AWS ECS Agent
Documentation=https://docs.aws.amazon.com/AmazonECS/latest/developerguide/
Requires=docker.socket
After=docker.socket
[Service]
Environment=ECS_CLUSTER=$ecs_cluster_name
Environment=ECS_LOGLEVEL=$ecs_log_level
Environment=ECS_VERSION=$ecs_agent_version
Restart=on-failure
RestartSec=30
RestartPreventExitStatus=5
SyslogIdentifier=ecs-agent
ExecStartPre=-/bin/mkdir -p /var/log/ecs /var/ecs-data /etc/ecs
ExecStartPre=-/usr/bin/docker kill ecs-agent
ExecStartPre=-/usr/bin/docker rm ecs-agent
ExecStartPre=iptables -t nat -A PREROUTING -p tcp -d 169.254.170.2 --dport 80 -j DNAT --to-destination 127.0.0.1:51679
ExecStartPre=iptables -t nat -A OUTPUT -d 169.254.170.2 -p tcp -m tcp --dport 80 -j REDIRECT --to-ports 51679
ExecStartPre=/usr/bin/docker pull amazon/amazon-ecs-agent:$$ECS_VERSION
ExecStart=/usr/bin/docker run --name ecs-agent \
--volume=/var/run/docker.sock:/var/run/docker.sock \
--volume=/var/log/ecs:/log \
--volume=/var/ecs-data:/data \
--volume=/sys/fs/cgroup:/sys/fs/cgroup:ro \
--volume=/run/docker/execdriver/native:/var/lib/docker/execdriver/native:ro \
--publish=127.0.0.1:51678:51678 \
--env=ECS_LOGFILE=/log/ecs-agent.log \
--env=ECS_LOGLEVEL=$$ECS_LOGLEVEL \
--env=ECS_DATADIR=/data \
--env=ECS_CLUSTER=$$ECS_CLUSTER \
--env=ECS_AVAILABLE_LOGGING_DRIVERS='["awslogs"]' \
--env=ECS_ENABLE_AWSLOGS_EXECUTIONROLE_OVERRIDE=true \
--log-driver=awslogs \
--log-opt awslogs-region=$aws_region \
--log-opt awslogs-group=$ecs_log_group_name \
amazon/amazon-ecs-agent:$$ECS_VERSION
【问题讨论】:
您的角色是否扩展了默认角色? @Lamanus 我不确定如何扩展默认角色,因为在没有指定执行角色的情况下运行任务定义或 ECS 服务时看不到它的名称。在未明确指定时,AWS 似乎将其隐藏。 【参考方案1】:虽然我仅针对使用 Fargate 启动类型的 ECS 任务进行了检查,但这仍可能与使用 EC2 启动类型的任务相关。 这对我有用:
-
定义一个 IAM 策略(我们称之为
ECSCloudWatchLogs
),如下所示:
"Version": "2012-10-17",
"Statement": [
"Effect": "Allow",
"Action": [
"logs:CreateLogGroup",
"logs:CreateLogStream",
"logs:PutLogEvents",
"logs:DescribeLogStreams"
],
"Resource": [
"arn:aws:logs:*:*:*"
]
]
为 ECS 任务(信任关系 ecs-tasks.amazonaws.com
)创建一个 IAM 角色(我们称之为 TaskExecutionRole
)并附加以下策略:
AmazonECSTaskExecutionRolePolicy
(AWS 托管策略)
ECSCloudWatchLogs
(在第 1 步创建)
将第 2 步中创建的角色分配给您的任务执行角色(任务定义):
在那之后,我再也没有收到failed to initialize logging driver
问题。
【讨论】:
【参考方案2】:我们案例的解决方案是将 ECS 代理的网络模式的主机切换为“主机”模式,而不是桥接模式 (--net=host)。这是因为 ECS 代理不再支持桥接模式。除此之外,我们还添加了 IP 表规则和 localnet.conf 以确保正确设置路由。
这是最终为我们工作的最终模板:
#cloud-config
coreos:
units:
- name: iptables-restore.service
command: start
runtime: true
- name: systemd-sysctl.service
command: start
runtime: true
- name: update-engine.service
command: stop
- name: amazon-ecs-agent.service
command: start
runtime: true
content: |
[Unit]
Description=AWS ECS Agent
Documentation=https://docs.aws.amazon.com/AmazonECS/latest/developerguide/
Requires=docker.socket
After=docker.socket
[Service]
Environment=ECS_CLUSTER=$ecs_cluster_name
Environment=ECS_LOGLEVEL=$ecs_log_level
Environment=ECS_VERSION=latest
Restart=on-failure
RestartSec=30
RestartPreventExitStatus=5
SyslogIdentifier=ecs-agent
ExecStartPre=-/bin/mkdir -p /var/log/ecs /var/ecs-data /etc/ecs
ExecStartPre=-/usr/bin/touch /etc/ecs/ecs.config
ExecStartPre=-/usr/bin/docker kill ecs-agent
ExecStartPre=-/usr/bin/docker rm ecs-agent
ExecStartPre=/usr/bin/docker pull amazon/amazon-ecs-agent:$ECS_VERSION
ExecStart=/usr/bin/docker run --name ecs-agent \
--env-file=/etc/ecs/ecs.config \
--volume=/var/run/docker.sock:/var/run/docker.sock \
--volume=/var/log/ecs:/log \
--volume=/var/ecs-data:/data \
--volume=/sys/fs/cgroup:/sys/fs/cgroup:ro \
--volume=/run/docker/execdriver/native:/var/lib/docker/execdriver/native:ro \
--net=host \
--env=ECS_ENABLE_TASK_IAM_ROLE=true \
--env=ECS_ENABLE_TASK_IAM_ROLE_NETWORK_HOST=true \
--env=ECS_LOGFILE=/log/ecs-agent.log \
--env=ECS_LOGLEVEL=$ECS_LOGLEVEL \
--env=ECS_DATADIR=/data \
--env=ECS_CLUSTER=$ECS_CLUSTER \
--env=ECS_AVAILABLE_LOGGING_DRIVERS='["awslogs","json-file"]' \
--env=ECS_ENABLE_AWSLOGS_EXECUTIONROLE_OVERRIDE=true \
--log-driver=awslogs \
--log-opt awslogs-region=$aws_region \
--log-opt awslogs-group=$ecs_log_group_name \
amazon/amazon-ecs-agent:$ECS_VERSION
write_files:
- path: /var/lib/iptables/rules-save
permissions: 0644
owner: 'root:root'
content: |
*nat
-A PREROUTING -d 169.254.170.2/32 -p tcp -m tcp --dport 80 -j DNAT --to-destination 127.0.0.1:51679
-A OUTPUT -d 169.254.170.2/32 -p tcp -m tcp --dport 80 -j REDIRECT --to-ports 51679
COMMIT
- path: /etc/sysctl.d/localnet.conf
permissions: 0644
owner: 'root:root'
content: |
net.ipv4.conf.all.route_localnet=1
【讨论】:
如果有人想知道所有这些魔法是从哪里来的,官方ecs-agent
doc:github.com/aws/amazon-ecs-agent#on-other-linux-amis【参考方案3】:
如果您在这种情况下失败,请检查 2 个选项。
ECS execution role policy
的许可。它应该包含logs:CreateLogStream
和logs:PutLogEvents
。喜欢:
"Version": "2012-10-17",
"Statement": [
"Effect": "Allow",
"Action": [
"ecr:GetAuthorizationToken",
"ecr:BatchCheckLayerAvailability",
"ecr:GetDownloadUrlForLayer",
"ecr:BatchGetImage",
"logs:CreateLogStream",
"logs:PutLogEvents"
],
"Resource": "*"
]
-
您应该为
awslogs
驱动程序配置ecs_agent
的配置。
此配置文件路径是主机中的/etc/ecs/ecs.config
。这个文件应该是这样的:
将awslogs
驱动添加到ecs.config
ECS_CLUSTER=test_ecs_cluster
ECS_AVAILABLE_LOGGING_DRIVERS=["awslogs","json-file"]
见:
这里是a document
【讨论】:
不幸的是,这两个条件已经到位,似乎还需要其他一些条件。具体来说: 1. 我的执行角色策略已经包含了这些权限以及我添加的其他一些权限以防万一。我更新了我的问题以包含我正在使用的角色策略 JSON。 2. 我通过 cloud-config.yml 在服务级别配置中进行 ecs_agent 以包含 ECS_CLUSTER 和 ECS_AVAILABLE_LOGGING_DRIVERS 以及一些其他参数,我将更新我的问题以包含这些设置。 @depthfirstdesigner 您找到解决上述问题的方法了吗? @Niranjan 我们确实做到了,我们不得不在“主机”模式下使用 ECS 代理,而不是“桥接”网络模式,因为 ECS 停止支持桥接模式。我们还直接在云配置模板中添加了路由规则,这让事情变得更容易。有关更多详细信息,请参阅我刚刚在上面添加的自我回答。 @depthfirstdesigner 这可以解决我的问题。在 cdk 中,taskexecutionrole 会自动创建并附加到任务定义中。如果我删除它,一切都会按预期工作以上是关于ECS Execution Role 导致容器启动时日志驱动失败?的主要内容,如果未能解决你的问题,请参考以下文章