案例专题 · 非主表目录

排障与应急

单页专题 对应案例中心「可观测与事故」

综合概述:在告警与客诉高压下,让 Agent 按「收集证据 → 假设 → 验证 → 沟通」推进,并草稿状态页与干系人通知。技能须区分可自动执行与必须升级的操作;回滚、删数、扩缩容等须显式确认。时间线、影响面与根因占位应可导出为事故复盘模板。沟通上固定对内频道与对外状态页更新频率,避免根因未明前过度承诺;保留关键日志、配置变更与部署记录的可引用片段以满足审计。

案例中心 主分类的关系:与第 7 类「可观测与事故」中的 故障根因与影响面初判回滚与变更建议稿值班交接摘要 等条目直接呼应。本目录为专题综述,不含同级子页面;细化剧本请打开上述案例页。

落地要点(单页展开)

分级与 SLA

P1/P2 与响应 SLA 在技能中写死,减少临场争议;恢复策略优先止血再根因,顺序与依赖写清。

证据与复盘

输出应可粘贴进事故复盘文档;根因占位在确认前保持「假设」措辞,避免对外误报。

触发与退出条件(示例)

触发:P1 告警或错误率超阈值。输出:时间线草稿与建议下一步。退出:服务恢复或已转交升级。

案例中心 · 可观测与事故 进入 devops 分类索引 应用场景(总览)