换个姿势学习Kubernetes运营，如何5个月在生产环境构建K8S？

Posted 2021-04-16 K8S中文社区

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了换个姿势学习Kubernetes运营，如何5个月在生产环境构建K8S？相关的知识，希望对你有一定的参考价值。

关键时刻，第一时间送达！

正文前说件事，昨天 Kubernetes 1.10正式版发布了，相信很多朋友已经知道，感兴趣的可以去github下载试用了：

https://github.com/kubernetes/kubernetes/tree/release-1.10

---正文---

导读：在分布式系统上管理服务是运维团队面临的最困难的问题之一。在生产中突破新软件并学习如何可靠地运营是非常重要的。本文是一则实例，讲述为什么学习运营Kubernetes很重要，以及为什么很难。本文是关于Kubernetes bug导致的一小时中断故障的事后剖析。

为什么选择在Kubernetes之上构建？如何将Kubernetes集成到现有基础设施中？本文作者给出的方法是建立 (和改进) 对Kubernetes集群的可靠性的信任，以及构建在Kubernetes之上的抽象。

我们最近在Kubernetes之上构建了一个分布式的cron作业调度系统，这是一个令人兴奋的容器编排的新平台。Kubernetes现在非常流行，并且有许多令人兴奋的承诺：最令人兴奋的是，程序员不需要知道或关心他们的应用程序运行的是什么机器。

什么是Kubernetes?

Kubernetes是一个分布式系统，用于调度程序在集群中运行。你可以告诉Kubernetes运行一个程序的5个副本，它将在工作节点上动态调度它们。容器自动调度以增加利用率，节省资金，强大的deployment primitives允许逐步推出新的代码，安全上下文和网络策略允许企业以安全的方式运行多租户的工作负载。

Kubernetes有很多不同类型的调度能力。它可以调度长时间运行的HTTP服务、在集群中每台机器上运行的daemonsets、每小时运行的cron作业等等。

为什么是Kubernetes?

每个基础设施项目都是从业务需求开始的，我们的目标是提高现有分布式cron作业系统的可靠性和安全性。我们的要求是:

建立和运营一支小团队(只有2人在项目中全职工作)。
在20台机器上可靠地安排大约500个不同的cron作业。

我们决定在Kubernetes之上建立的几个原因:

希望构建一个现有的开源项目。
kubernetes包含一个分布式cron作业调度器，不必自己编写。
kubernetes是一个非常活跃的项目，经常接受捐赠。
kubernetes是用Go写的，很容易学。几乎所有Kubernetes的bug都是由团队中没有经验的程序员做的。

如果我们能够成功地运营Kubernetes，可以在未来的Kubernetes上构建，例如，目前正在开发基于kubernet的系统来训练机器学习模型。

我们以前使用Chronos作为cron作业调度系统,但它不再是满足可靠性要求,而且大部分都没有维护(在过去9个月中1次提交, 最后一次合并请求的时间是2016年3月）)Chronos未维护的,我们认为不值得继续投资改善现有的集群。

如果你正考虑Kubernetes，请记住:不要仅仅因为其他公司在使用Kubernetes而使用它。建立一个可靠的集群需要花费大量的时间，使用它的业务案例并不是很突出。把你的时间用在聪明的方法上。

可靠性是什么意思?

说到运营服务，“可靠”这个词本身并没有什么意义。要讨论可靠性，首先需要建立一个SLO(服务级别目标)。

我们有三个主要目标：

99.99%的cron作业应该在预定运行时间的20分钟内开始运行。20分钟是一个很宽的窗口，但是我们采访了内部客户，没有人要求更高的精确度。
Jobs应该运行99.99%的时间(不被终止)。
向Kubernetes的迁移不会导致任何面向客户的事件。

这意味着:

Kubernetes API的短暂停机时间是可以接受的(如果停机10分钟，只要在5分钟内恢复即可)。
调度错误(cron作业运行完全丢失并且根本无法运行)是不可接受的。我们非常重视安排错误报告。
要谨慎对待pod evictions 和安全终止实例，以免作业过于频繁地终止。
需要一个好的迁移计划。

建立一个Kubernetes集群

我们建立第一个Kubernetes集群的基本方法是从零开始构建集群，而不是使用kubeadm或kops之类的工具。使用Puppet（常用的配置管理工具）调配了配置。从头开始构建很好，原因有两个：能够深入地集成Kubernetes在架构中，并且深入理解其内部。

我们希望将Kubernetes整合到现有的基础架构中。与现有系统无缝集成，以便进行日志记录，证书管理，加密，网络安全，监控，AWS实例管理，部署，数据库代理，内部DNS服务器，配置管理以及更多。整合所有这些系统有时需要一点创造力，但总体上比试图让kubeadm / kops成为我们想要的更容易。

在信任并了解如何操作这些现有系统后，我们希望继续在新的Kubernetes群集中使用。例如，安全证书管理是一个非常棘手的问题，已经有办法颁发和管理证书。通过适当的整合，我们避免了为Kubernetes创建新的CA。

准确了解设置的参数是如何影响Kubernetes设置的。例如，在配置用于身份验证的证书/CAs时，使用了超过12个参数。了解这些参数有助于在遇到身份验证问题时更容易调试设置。