1

我的 GKE 集群遇到问题。

我有一个工作负载在集群上运行,节点跨多个区域,但似乎从最近(2 月 15 日上午 7 点左右)开始,大多数(~90%)流量仅被定向到三个区域中的一个(eu-west2 a,公元前)。我尝试禁用正在使用的区域,但流量大多只是定向到另一个区域。c区从来没有流量,因为我一直在监控它。

当只有 2/8 的 Pod 处理所有流量而其他 Pod 处于空闲状态时,我注意到了这一点,这确实导致了服务失败,我假设由于整体 CPU 限制低于自动缩放阈值。

在此处输入图像描述 负载均衡器监控

不确定这是 k8 的 1.18.12-gke.1210 更新的问题还是我的配置问题,尽管我对这个特定服务的配置在大约 3 个月内没有改变。打算尝试下降到 1.18.12-gke.1206,我想我会先在这里问这是否是一个无关的问题。

眼镜:

  • 集群区域:eu-west2
  • 集群主节点/节点版本:常规频道 1.18.12-gke.1210(2 月 14 日更新)
  • 使用 Ingress 和 NEG 进行负载平衡(无会话关联)
  • 云 CDN 缓存
  • Pod 自动缩放(0 - 40,在 CPU 80% 和内存 80% 上自动缩放)
  • 节点自动缩放(每个区域最少 1 个,每个区域最多 10 个)
  • 节点:n1-standard-4
4

0 回答 0