为企业应用程序启用深度防御

跨服务的度量标准和可追溯性标准化，从而提高了可靠性，而没有增加页面疲劳或未处理数据的繁重负荷。

SRE 建立在服务的可观测性之上。成功的 SRE 需要明确的、可操作的数据:

需要为所有服务（可能是所有 Pod）收集和查看延迟、流量、错误和饱和度等相同的黄金信号。

涉及谁

通过短期补救和长期服务改善，构建实现服务水平最佳实践的目标。

开发人员负责组织中部分服务的构建，部署和操作。

（如果与SRE团队分离）

以及相关的服务水平协议

建立 Istio 代理和服务级别指标，收集 Envoy 统计信息并传递给 Prometheus。Grafana 标准化仪表板可供团队使用。以及实施分布式追踪。

考虑实施Kiali

如果度量指标正在创建过多的数据和流量，请实施联合 Prometheus 服务器以汇总规则。

代理级别、服务级别和追踪指标以标准化方式提供。警报和传输是可行的，不会拖延工程师的前瞻性工作。