每秒超一百万次请求，Netflix如何做负载均衡?

Posted 2021-04-15 51CTO技术栈

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了每秒超一百万次请求，Netflix如何做负载均衡?相关的知识，希望对你有一定的参考价值。

“

Netflix 云网关团队一直致力于帮助系统减少错误、提高可用性，增强 Netflix 应对故障的能力。

这么做是因为在每秒超过一百万次请求的这等规模下，哪怕很低的错误率也会影响会员的体验，所以降低错误率是必要的。

因此，我们开始向 Zuul 和其他团队取经，改进我们的负载均衡机制，进一步减少服务器过载导致的错误。

在 Zuul 中，我们历来使用 Ribbon 负载均衡器（https://github.com/Netflix/ribbon/），另外使用轮询调度（round-robin）算法和用于将连接故障率高的服务器列入黑名单的一些过滤机制。

这些年来，我们做了多次改进和定制，旨在向最近启动的服务器发送较少的流量以免过载。

这些取得了显著的成效，但对于一些特别麻烦的源集群，我们仍会看到与负载有关的错误率远高于预期。

如果集群中所有服务器过载，我们选择某一台服务器而不是另一台几乎没什么改进。

但我们常看到只有一部分服务器过载的情况，比如：

服务器在启动后（在红黑部署和自动扩展事件期间）。
服务器因交错的动态属性/脚本/数据更新或大型垃圾回收（GC）事件而暂时减速/阻塞。
坏的服务器硬件。我们会常看到一些服务器的运行速度永远不如其他服务器，无论原因是嘈杂的相邻系统还是不同的硬件。

指导原则

开始做项目时有必要恪守几个原则，以下是该项目遵循的几个原则。

注重现有负载均衡器框架的约束

我们将之前的负载均衡定制与 Zuul 代码库相结合，因而无法与 Netflix 的其他团队共享这些定制。

于是这回我们决定接受约束和所需的额外投入，一开始就牢记重用性。因而更容易被其他系统所采用，减小了重新发明轮子的机会。

向别人借鉴经验

试着借鉴别人的想法和技术。比如，之前在 Netflix 的其他 IPC 堆栈中考察过的 choice-of-2 和考察（probation）算法。

避免分布式状态

优先考虑本地决策，避免跨集群协调状态带来的弹性问题、复杂性和延滞。

避免客户端配置和手动调整

多年来我们在 Zuul 方面的运营经验表明，将服务配置的一部分放在不属于同一团队的客户端服务中会导致问题。

一个问题是，这些客户端配置往往与不断变化的服务器端配置不同步，或者需要结合属于不同团队的服务之间的变更管理。

比如说，升级用于服务 X 的 EC2 实例类型，导致该集群所需的节点更少。因此，现在应增加服务 Y 中“每个主机的最大连接数”客户端配置，以体现新增的容量。

应该先进行客户端更改？还是进行服务器端更改？还是同时进行？设置很有可能完全被遗忘，导致更多的问题。

如果可能的话，使用根据当前流量、性能和环境来更改的自适应机制，而不是配置静态阈值。

若确实需要静态阈值，让服务在运行时传达这一切，避免跨团队推送变更带来的问题，而不是让服务团队协调每个客户端的阈值配置。

负载均衡方法

一个总体思路是，虽然对服务器端延迟而言最佳的数据源是客户端视图，但服务器利用率方面的最佳数据源来自服务器本身。结合这两个数据源可为我们提供最有效的负载均衡。

我们结合使用了相互补充的机制，大多数机制之前由别人开发和使用：

在服务器之间选择的 choice-of-2 算法。
主要根据负载均衡器了解服务器利用率的情况进行均衡。
其次根据服务器了解利用率的情况进行均衡。
基于考察和服务器年限的机制，避免刚启动的服务器过载。
收集的服务器统计数据慢慢衰减为零。

结合加入最短队列和服务器报告的利用率

我们选择结合常用的加入最短队列（JSQ）算法和基于服务器报告的利用率的 choice-of-2 算法，试图集两者之所长。

JSQ 的问题