生产化集群管理

Aug 27, 2022 · 1 min read

生产化集群的考量

计算节点：

控制平面：

常用操作系统
- 通用操作系统：ubuntu,centos,fedora
- 专为容器优化的操作系统：coreos,redhat atomic,snappy ubuntu core,rancherOS
操作系统的评估与选择的标准：
- 是否有生态系统
- 成熟度
- 内核版本
- 对运行时的支持
- init system
- 包管理和系统升级
- 安全
容器优化操作系统的优势：
- 小
- 原子级升级和回退
- 更高的安全性
经过选型，ebay选择了atomic
云原生的原则：
- 可变基础设施的风险
  - 在灾难发生的时候，难以重新构建服务。持续过多的手工操作，缺乏记录，会导致很难由标准初始化后的服务器来重新构建起等效的服务。
  - 在服务运行过程中，持续的修改服务器，就犹如程序中的可变变量的值发生变化而引入的状态不一致的并发风险。这些对于服务器的修改，同样会引入中间状态，从而导致不可预知的问题。
- 不可变基础设施
  - 不可变的容器镜像
  - 不可变的主机操作系统

kubelet周期性的向api server进行汇报，并更新节点的相关健康和资源使用信息

在早期版本kubelet的状态上报直接更新node对象，而上报的信息中包含状态信息和资源信息，因此需要传输的数据包较大，给apiserver和etcd造成的压力较大。

为了解决这个问题，因为资源信息变动不频繁，而状态信息变动会比较频繁，所以后面引入了lease对象用来保存健康信息，在默认40s的nodeLeaseDurationSeconds周期内，若Lease对象没有被更新，则对应节点可以被判定为不健康。

计算节点除了用户容器外，还存在很多支撑系统运行的基础服务，例如systemd,journald,sshd,dockerd,containerd,kubelet等

为了使这些服务进程能够正常运行，要确保它们能在任何时候都可以获取足够的系统资源，所以我们要为这些系统进程预留资源

kubelet可以通过众多启动参数为系统预留cpu,内存，pid等资源，比如SystemReserved,KubeReserved等

容器资源（capacity）是指kubelet获取的计算节点当前的资源信息。

abay：单集群规模可以达到5000节点，但会控制pod数量和重启的频率，数量在15-20万之间；pod内服务的更新，一般是通过pod内某个容器跑个agent去拉新代码并更新，达到更新容器内服务但不用重启pod的目的。

多地域集群管理：

一个集群统一管理所有地域（北上广）的节点。给节点打上zone等annotation。好处是：单集群可以跑跨地域的高可用应用；坏处是应用的复杂度会提升，例如部署一个service,就需要考虑一个地域的服务尽量访问同地域的服务，就得考虑pod的topology；etcd到不同地域的网络延迟比较高，etcd的leader election和心跳会变慢，会导致控制面压力变大，集群规模会受影响。