系统如何做可观测性和问题定位

OPENING30 秒开口版

我的排障主键是 runId。一次运行会在 trace 里记录 intake、retrieve、assemble-context、semantic-plan、generate-sql、validate、correct、execute、answer 的节点状态和耗时；RAG replay 记录 lexical、dense、graph、RRF、rerank 和 selected context；delivery 记录 answer、evidence、artifact、riskTags、degradeReasons。LangSmith 可以做跨链路可视化，但它失败时只能本地降级，不能影响主业务。

理解与记忆 · 术语、解析、关联知识点

专业术语	Trace：运行节点、状态、耗时和摘要的链路记录。 Replay：RAG 检索、融合、重排和选择上下文的可回放记录。 RiskTags：低置信、降级、冲突、过期等风险标记。 LangSmith Span：外部观测平台中的节点级追踪片段。
为什么这样回答	可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析	就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点	runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

1 MIN一分钟口语版

定位时我会先看 run status：是 rejected、failed、clarification 还是 executionResult。rejected 先看 governance 和 validate，failed 看 LLM、SQL、执行器或后处理，clarification 看歧义策略，executionResult 但答案错则继续拆：artifact 是否正确，semantic-plan 口径是否正确，RAG selected context 是否包含 gold evidence，answer 是否忠于 evidence。报告 Agent 出错时，先找它引用的 source runId，确认 data pack 正确还是报告叙事错误。可观测不是堆日志，而是让每个节点都有可比较、可回放、可报警的结构化证据。

理解与记忆 · 术语、解析、关联知识点

专业术语	Trace：运行节点、状态、耗时和摘要的链路记录。 Replay：RAG 检索、融合、重排和选择上下文的可回放记录。 RiskTags：低置信、降级、冲突、过期等风险标记。 LangSmith Span：外部观测平台中的节点级追踪片段。
为什么这样回答	可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析	就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点	runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

ARCHITECTURE架构设计要点

Trace

节点状态、耗时、输入输出摘要、失败原因。

Replay

RAG lane、RRF、rerank、selected context、缺失阶段。

Delivery

最终 answer、evidence、artifact、riskTags、degradeReasons。

LangSmith

跨链路可视化，按 runId 关联 chat 和 eval。

本地降级

观测系统失败不影响业务，写 fallback log。

报告反查

报告段落引用 source runId，定位数据包或叙事责任。

DIAGRAM架构图

runId 串起三层证据

答案不对时的排查顺序

TABLE关键对象和面试讲法

对象	职责	面试强调
status	运行终态	先判断大类。
trace.steps	节点路径和耗时	看失败或跳过的位置。
replay.ready	RAG 回放是否完整	缺阶段说明记录链路有问题。
retrievalStatus	检索 ready 或 degraded	判断召回可用性。
riskTags	风险标签	解释低置信或降级。
artifact	SQL 和结果	判断结构化数据是否正确。
source runId	报告引用源	反查下游报告错误。

INTERVIEW MAP面试表达地图

先拿 runId没有 runId 就没有系统级排障。
看 statusrejected、failed、clarification、executionResult 分流。
拆三层trace 看路径，replay 看检索，delivery 看交付。
对照 artifactSQL 成功但答案错时先看事实层。
回流评测定位后进入 badcase 分类和回归集。

SUBAGENTS面试官、候选人和红队

本章写作前已实际启动多 subagent：面试官 subagent 负责连续追问生产压力，候选人 subagent 负责把答案压成现场能讲出口的表达，资料审阅 + 红队 subagent 负责指出哪些地方容易写虚，并补充安全、评测、runId、下游报告 Agent 的攻击面。

本章追问重点：所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。

Q&A20 组高强度追问

面试官：拿到 runId 后第一步看什么？

我：先看 run status 和 delivery summary，判断是 rejected、failed、clarification 还是 executionResult。大类确定后再看 trace、replay 或 artifact。

相似题已合并 · 建议跳转

runId、trace、replay 与回放：可信结果章主讲 runId 可回放，架构、流程、时效和可观测章只从各自链路补充。

理解与记忆 · 背后工程点

背后工程点：排障要先分流，不要一上来翻日志。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：trace、replay、delivery 分别回答什么？

我：trace 回答流程走了哪些节点和哪里失败；replay 回答 RAG 找了什么、怎么融合和重排；delivery 回答最终给用户什么证据、结果和风险。

相似题已合并 · 建议跳转

runId、trace、replay 与回放：可信结果章主讲 runId 可回放，架构、流程、时效和可观测章只从各自链路补充。

理解与记忆 · 背后工程点

背后工程点：三层证据各有职责。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：replay.ready=false 通常意味着什么？

我：意味着 required replay stage 缺失，比如 retrieval_fused 或 rerank_finalized 没记录。正常降级也应该有 skipped 记录，所以 ready=false 更像写入链路或观测完整性问题。

理解与记忆 · 背后工程点

背后工程点：回放不完整本身就是问题。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：RAG 三路 lane 哪一路降级会怎么影响结果？

我：lexical 降级会影响精确表名和术语命中，dense 降级影响语义相似召回，graph 降级影响关系路径和多跳问题。delivery 需要写 degradeReasons。

相似题已合并 · 建议跳转

RAG 召回为空、低置信与降级：RAG 章主讲搜不到时如何表现，架构和澄清章补充继续、澄清、fail-closed 的边界。

理解与记忆 · 背后工程点

背后工程点：不同 lane 对不同问题类型影响不同。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：riskTags 和 degradeReasons 区别是什么？

我：degradeReasons 解释哪个能力降级，比如 dense_timeout；riskTags 面向交付风险，比如 evidence_incomplete、rerank_degraded、stale_source。一个偏原因，一个偏风险表达。

理解与记忆 · 背后工程点

背后工程点：原因和风险要区分。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：LangSmith 出问题时业务会失败吗？

我：不会。LangSmith 是观测旁路，写入异常记录本地 fallback log，主链路继续返回。否则观测系统会变成业务单点故障。

理解与记忆 · 背后工程点

背后工程点：观测不能拖垮业务。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：sync 和 stream 结果不一致怎么排查？

我：对比同一 runId 的 stream finish delivery、persisted run 和 sync response。非 finish 事件不应携带完整 delivery，最终 answer、artifact 和 evidence 要一致。

理解与记忆 · 背后工程点

背后工程点：流式协议要以 finish 和持久化结果为准。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：下游报告 Agent 报错如何反查？

我：报告 data pack 或段落必须带 source runId。先查系统 Agent run 的 artifact 和 evidence，如果正确，就是报告侧叙事错误；如果错误，继续查上游 trace 和 replay。

相似题已合并 · 建议跳转

证据链、data pack 与报告可追溯：可信结果章主讲 evidence/data pack 合同，其他章只补充报告 Agent 消费与复用场景。

理解与记忆 · 背后工程点

背后工程点：跨 Agent 排障依赖 source runId。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何区分个例 query 难还是系统性索引退化？

我：看同类样本的 Recall、degrade rate、replay missing、indexBuildSuccessRate 和线上错误分布。如果多个相似 query 同时退化，是索引或策略问题。

理解与记忆 · 背后工程点

背后工程点：个例和系统性问题要靠聚合指标区分。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：SQL 执行成功但答案错，优先查什么？

我：先查 artifact 的 SQL 和结果是否正确，再查 semantic-plan 的指标口径和 selected context，最后查 answer 是否忠于结果。不要先改模型 prompt。

理解与记忆 · 背后工程点

背后工程点：答案错要先定位事实层。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：哪些观测字段不能记录 raw payload？

我：权限过滤前的 forbidden evidence、敏感字段明细、API key、数据库连接信息、未脱敏用户数据都不能进入 LangSmith 或普通日志。可以记录摘要、计数、hash 和 reason code。

相似题已合并 · 建议跳转

Prompt Injection、幻觉与敏感数据外带：安全章主讲指令隔离和幻觉防护，权限和可观测章补充审计、记录和外带场景。

理解与记忆 · 背后工程点

背后工程点：可观测也要脱敏。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何排查权限拒绝是否误杀？

我：看 governance decision、workspace binding、table permissions、policyVersion、SQL 解析结果和 actor scope。再用同样问题在授权测试账号下跑对照。

理解与记忆 · 背后工程点

背后工程点：权限误杀需要看策略对象和对照运行。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何排查空结果？

我：先确认时间窗口、filters、权限过滤和实体消歧，再看 SQL artifact 和数据源是否真的为空。必要时用更宽松条件重跑诊断，但不能直接对用户放大权限。

相似题已合并 · 建议跳转

空结果解释、评测与排查：可信结果章主讲空结果怎么可信解释，评测和可观测章分别处理验证与排查。

理解与记忆 · 背后工程点

背后工程点：空结果要拆过滤、权限和数据缺失。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何监控澄清策略？

我：记录 triggerRate、falsePositive、falseNegative、postClarifySemanticPassRate、平均轮次和超时降级。异常时可以切 rules-only。

相似题已合并 · 建议跳转

澄清策略、smart defaults 与回滚：澄清章主讲默认和必须追问的边界，评测和可观测章只补验证与监控。

理解与记忆 · 背后工程点

背后工程点：澄清也要观测和回滚。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何让 eval 和 chat 链路可比？

我：统一节点名、状态字典和 runId 结构。评测任务额外带 jobId、caseId，但 trace span 的节点命名和 delivery 字段保持一致。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：观测语义统一才能比较。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何处理 artifact 生成失败？

我：answer 可以降级为文本或表格预览，但 delivery 要标 artifact fallback reason。报告 Agent 如果需要 chart spec，则任务失败或要求重试。

理解与记忆 · 背后工程点

背后工程点：交付失败也要结构化表达。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何定位 GraphRAG 实体合并错？

我：看 graph lane replay 的实体候选、路径、source evidence 和 entity resolver 置信度。错误实体进入 SQL 前应有消歧或低置信标记。

相似题已合并 · 建议跳转

Entity resolution、Token 重名与实体消歧：语义映射章主讲实体解析位置，RAG、优化、澄清和排障章分别补充召回、优化、交互和定位。

理解与记忆 · 背后工程点

背后工程点：图谱错误要看实体和路径证据。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：如何做 oncall 告警？

我：按 p95、degrade rate、replay readiness、securityGatePass、indexBuildSuccessRate、graphFallbackActivationRate、error type 分桶告警，而不是只看 500。

理解与记忆 · 背后工程点

背后工程点：告警要覆盖质量和运行状态。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：排障后如何防止复发？

我：把 runId 固化成 badcase，补 gold evidence 或 expected SQL/result，进入回归集。修复后用同一 case 验证，并在发布门禁里覆盖。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：排障闭环要进入评测。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

面试官：一句话总结可观测性。

我：我的可观测设计是让每个答案都能用 runId 还原路径、证据和交付，而不是事后靠猜日志。

理解与记忆 · 背后工程点

背后工程点：总结要突出可回放。
专业术语：Trace：运行节点、状态、耗时和摘要的链路记录。
Replay：RAG 检索、融合、重排和选择上下文的可回放记录。
RiskTags：低置信、降级、冲突、过期等风险标记。
为什么这样回答：可观测题要从排障流程讲，不要泛泛说日志。runId 串三层证据是本项目最强的表达点。
小白解析：就像快递有单号。runId 是这次问答的单号，能查它经过了哪些站、在哪里延误、最后包裹里装了什么。
关联知识点：runId 回放手册把证据分为 trace、replay、delivery 三层。LangSmith 指南强调根 trace 使用业务 runId，同时保留本地 trace，观测失败不影响主链路。

PRINCIPLE本章背诵原则

runId 是排障主键。
trace、replay、delivery 三层证据不能混淆。
观测系统必须旁路降级，不影响主链路。
报告 Agent 也要携带 source runId。
排障结果要回流 badcase 和评测门禁。