IDS Tenant Ops Docs main tenant-observability-and-health.md

租户可观测性与健康检查

本文档用于说明当前租户视角下可见的健康检查、运维入口、后台首页运维视图与问题定位方式,帮助租户管理员和实施支持快速完成第一轮定位。

适用场景

  • 发布后确认当前租户是否仍可用
  • 登录、联邦、SCIM、证书或应用接入出现异常
  • 需要先判断问题是租户内故障还是平台级故障

可见入口

健康检查

  • /health/live
  • /health/ready

建议用途:

  • live 用于判断进程是否在线
  • ready 用于判断依赖是否就绪

后台入口

  • 租户后台首页运维视图
  • 当前租户相关的配置、联邦、供给、证书和最近失败提醒

管理接口

  • GET /api/system/ops_summary
  • GET /api/system/ops_health_detail
  • POST /api/system/ops_detail

说明:

  • 当前文档只说明这些能力在租户视角下如何使用
  • 若需要更系统的平台运维视角,请查看平台公开文档:

建议检查顺序

  1. 先看 /health/live,确认进程是否存活
  2. 再看 /health/ready,确认数据库和配置依赖是否已就绪
  3. 进入租户后台首页运维视图,查看提醒、失败摘要和趋势
  4. 若问题集中在联邦、SCIM、证书或回调链路,再进入对应治理页
  5. 若发现多个租户同时异常,立即升级到平台侧排查

常见判断口径

liveness 正常但 readiness 降级

通常表示进程仍在线,但数据库连接、配置校验或某些依赖未达到可服务状态。

健康检查正常但租户失败增长

通常表示平台依赖仍可用,但某条业务链路出现集中失败。应继续查看失败摘要、协议分布和最近失败明细。

提醒出现证书、联邦或供给问题

通常意味着字段缺失、功能启用但配置未闭环,或最近状态变化值得关注,应回到对应治理页核查。

当前边界

  • 当前版本走平台内可视化路线,不依赖外部 OpenTelemetryOTLPPrometheus exporter
  • 当前文档只说明租户视角下可见的入口与判断顺序
  • 统一告警推送器、宿主机、容器编排和外部监控集成不在本文档内展开

相关文档

返回 租户运营配置文档