多集群下的故障排除

本页介绍如何将 Istio 部署到多个群集和/或多个网络的问题。 开始之前,请确保您已经完成了多集群安装的要求并且已经阅读了部署模型指南。

跨集群负载均衡

多网络安装最常见同时也是最广泛的问题是无法实现跨集群负载平衡。通常表现为仅看到来自服务的群集本地实例(cluster-local instance)的响应:

$ for i in $(seq 10); do kubectl --context=$CTX_CLUSTER1 -n sample exec sleep-dd98b5f48-djwdw -c sleep -- curl -s helloworld:5000/hello; done
Hello version: v1, instance: helloworld-v1-578dd69f69-j69pf
Hello version: v1, instance: helloworld-v1-578dd69f69-j69pf
Hello version: v1, instance: helloworld-v1-578dd69f69-j69pf
...

按照确认多集群安装指南操作完毕后,我们期待同时看到 v1v2 响应,这表示流量同时到达了两个集群。

造成响应仅来自集群本地实例的原因有很多:

本地负载均衡

本地负载均衡 总是引导客户端访问最近的服务。如果集群分布于不同地理位置(地区/区域),本地负载均衡将优先选用本地实例提供服务,这与预期相符。而如果禁用了本地负载均衡或者是集群处于同一地理位置,那就可能还存在其他问题。

受信配置

与集群内通信一样,跨集群通信依赖于代理之间公共的且可信任的根证书颁发机构(root)。默认情况下 Istio 使用自身单独生成的根证书颁发机构。对于多集群的情况,我们必须手动配置公共的且可信任的根证书颁发机构。阅读下面的 Plug-in Certs 章节或者参考身份和信任模型了解更多细节。

证书插件:

您可以通过比较每个群集中的根证书的方式来确认受信配置是否正确:

$ diff \
   <(kubectl --context="${CTX_CLUSTER1}" -n istio-system get secret cacerts -ojsonpath='{.data.root-cert\.pem}') \
   <(kubectl --context="${CTX_CLUSTER2}" -n istio-system get secret cacerts -ojsonpath='{.data.root-cert\.pem}')

您需要根据根证书插件确保在每个集群上都完成了操作。

逐步分析

如果您已经阅读了上面的章节,但问题仍没有解决,那么可能需要进行更深入的探讨。

下面这些步骤假定您已经完成了HelloWorld 认证指南,并且确保 helloworldsleep 服务已经在每个集群中被正确的部署。

针对每个集群,找到 sleep 服务对应的 helloworldendpoints

$ istioctl --context $CTX_CLUSTER1 proxy-config endpoint sleep-dd98b5f48-djwdw.sample | grep helloworld

故障诊断信息因流量来源的集群不同而不同:

$ istioctl --context $CTX_CLUSTER1 proxy-config endpoint sleep-dd98b5f48-djwdw.sample | grep helloworld
10.0.0.11:5000                   HEALTHY     OK                outbound|5000||helloworld.sample.svc.cluster.local

仅显示一个 endpoints,表示控制平面无法从远程群集读取 endpoints。 验证远程 secrets 是否配置正确。

$ kubectl get secrets --context=$CTX_CLUSTER1 -n istio-system -l "istio/multiCluster=true"
  • secrets 缺失,创建。
  • secrets 存在:
    • 查看配置,确保使用集群名作为远程 kubeconfig 的数据键(data key)。
    • 如果 secrets 看起来没问题,检查 istiod 的日志,以确定是连接还是权限问题导致无法连接远程 Kubernetes API。日志可能包括 Failed to add remote cluster from secret 信息和对应的错误原因。
这些信息有用吗?
Do you have any suggestions for improvement?

Thanks for your feedback!