为企业应用程序启用深度防御
跨服务的度量标准和可追溯性标准化,从而提高了可靠性,而没有增加页面疲劳或未处理数据的繁重负荷。
SRE 建立在服务的可观测性之上。成功的 SRE 需要明确的、可操作的数据:
- 关键信号作为短期可用性的警报
- 历史分析以设计以实现长期可用性
需要为所有服务(可能是所有 Pod)收集和查看延迟、流量、错误和饱和度等相同的黄金信号。
涉及谁
SRE 团队
通过短期补救和长期服务改善,构建实现服务水平最佳实践的目标。
Devops 团队
开发人员负责组织中部分服务的构建,部署和操作。
其他利益相关者
平台所有者
(如果与SRE团队分离)
Devops TeBusiness 所有者
以及相关的服务水平协议
前提条件
- 微服务架构,例如 Kubernetes 部署或基于 VM 的实现。
- DevOps 实践到位。
工作流程
建立 Istio 代理和服务级别指标,收集 Envoy 统计信息并传递给 Prometheus。Grafana 标准化仪表板可供团队使用。以及实施分布式追踪。
考虑实施Kiali
如果度量指标正在创建过多的数据和流量,请实施联合 Prometheus 服务器以汇总规则。
代理级别
代理级别、服务级别和追踪指标以标准化方式提供。警报和传输是可行的,不会拖延工程师的前瞻性工作。