平台日常巡检 SOP
适用场景
适用于平台日常值守、发布后巡检、异常告警后的第一轮健康确认。
前置条件
- 已具备平台运维或系统管理权限
- 已明确当前检查环境和时间窗口
- 已知本轮巡检是全局平台视角,而不是单租户专项检查
操作入口
/health/live/health/readyGET /api/system/ops_summaryGET /api/system/ops_health_detailPOST /api/system/ops_detail- 系统后台
Operations - 系统后台
Audit
执行步骤
- 先访问
/health/live与/health/ready,快速判断进程和依赖是否处于可服务状态。 - 打开
Operations,查看当前健康状态、提醒、失败 key 聚合、近期失败趋势和协议或租户分布。 - 如果没有明显异常,记录本轮巡检结果;如果出现提醒、失败增长或安全信号,再结合
ops_detail与Audit下钻。 - 如果异常集中在联邦、
SCIM、SAML、租户状态或授权会话,再切换到相关专题页继续处理。 - 巡检结束后记录本轮结果、异常摘要和是否需要后续跟进。
验收结果
- 平台当前健康状态有明确结论
- 异常项已被分类为健康、配置、安全、租户或协议问题之一
- 需要跟进的问题已经有明确的下一步入口
结果记录建议
- 记录巡检时间、环境、健康结果和当前提醒数量
- 记录是否存在失败趋势上升、协议集中失败或租户分布异常
- 记录是否已转入审计、安全、联邦或租户治理专题继续排查
异常分流
readiness降级:优先回到 平台可观测性与健康检查- 管理动作、配置变更或高风险行为可疑:转到 平台审计排查 SOP
- 多租户共同受影响或租户上下文异常:转到 跨租户问题排查 SOP
- 令牌、授权或异常登录风险:转到 平台安全运营 或 平台安全事件处置 SOP
升级 / 回滚条件
- 若
readiness持续失败、近期失败快速增长或核心入口不可用,应升级为平台级排障 - 若异常发生在近期变更后,应同步进入 变更后验收 SOP 和回滚评估
关联文档
- 上游专题:平台可观测性与健康检查
- 邻接 SOP:平台审计排查 SOP、变更后验收 SOP
- 参考文档:运维与健康检查