期间踩到什么坑，如何从架构设计升级

OPENING30 秒开口版

我会从架构升级讲坑，而不是简单说“模型不准”。早期最容易把 RAG 当 prompt 附件，把 Text2SQL 当模型写 SQL，把 SQL 当事实源，把报告 Agent 当内部可信调用方。上线后会发现：RAG 搜得到但用错，SQL 能跑但口径错，权限只在 execute 前拦已经太晚，回答阶段还会把 rows 之外的内容编出来，报告 Agent 拿到 data pack 后会二次放大，出错时没有 runId 和 replay 很难复盘。所以后来升级成 Query OS：schema catalog、metric definition、policy 是事实源；QuerySlots、SelectedContextPack、SemanticPlan、PhysicalSqlPlan 是状态投影；SQL 是草案；ValidationReport 决定 pass/correct/terminal；Grounded Answer 只忠于结果集；Text2SqlReplay 把错误沉淀成评测资产。

理解与记忆 · 术语、解析、关联知识点

专业术语	Query OS：从能跑的原型演进为可治理、可验证、可回放的问数系统。 Evidence Packet：给人和 Agent 复查的证据包。 Bounded Correction：有预算、有边界的 SQL 修复循环。 Grounded Answer：只基于执行结果和记录假设生成的回答。 Replay：按 runId 回看 selected context、plans、SQL、validation 和 answer。
为什么这样回答	面试官问坑时，好的答案要体现系统边界和演进，而不是把责任推给模型。
小白解析	早期像让模型自由发挥，后期像给它加了资料台、质检台、权限门和流水账。
关联知识点	text2sql 架构文档总结从 v1.3 RAG evidence 到 v2 semantic-plan 的升级路径。

1 MIN一分钟口语版

我会讲六类坑。第一类是事实源坑，早期 prompt 承担 schema、指标、权限和样例，后来拆成 SchemaCatalogVersion、MetricDefinition、Policy 和 SqlExample。第二类是 RAG 坑，检索结果直接拼 prompt，导致噪声、过期来源和无权证据混进去，后来拆成 ACL-filtered SelectedContextPack。第三类是语义坑，业务词写在 prompt 里不可版本化，后来沉到 glossary、semantic registry、metric definition 和 join path。第四类是 SQL 坑，SQL 能跑但字段、join、时间窗口、聚合口径错，后来加 QuerySlots、SemanticPlan、PhysicalSqlPlan、plan validation、SQL validation 和 bounded correction。第五类是治理坑，报告 Agent 被当成内部可信工具，后来加 agent scope、field permission、prompt 前权限裁剪和 delivery contract。第六类是回答和排障坑，早期只返回 answer 和 SQL，后来把 grounded answer、artifact、runId、RAG replay、validationSummary 和 eval case 变成主链路。

理解与记忆 · 术语、解析、关联知识点

专业术语	Selected Context：过滤和收敛后的最终上下文 Semantic-plan：决定如何使用证据和生成查询的计划层 RunId：一次运行的追踪主键 RAG Replay：回放检索和重排过程的诊断能力
为什么这样回答	一分钟版按坑分类，能让面试官感到你是真的从系统迭代里踩过雷。
小白解析	不是一个 bug，而是一串系统问题：资料乱、口径乱、SQL 乱、权限乱、排查乱。
关联知识点	README 提到 RAG lanes 可降级但原因写入 evidence，SQL correction 有预算，每次 run 通过 runId 串联 trace、delivery 和 replay。

EVOLUTION从 demo 到系统 Agent 的升级

从 prompt 附件到 selected context

检索结果不再直接拼 prompt，而是经过权限过滤、融合、rerank、去重和风险标记。

从表名猜测到语义计划

业务口径、实体、指标、关系路径先进入 semantic-plan，再生成 SQL。

从能跑到可信执行

SQL 必须经过只读、安全、权限、方言、dry-run、成本和 bounded correction。

从内部工具到 Agent scope

下游报告 Agent 也有权限边界，不能绕过系统 Agent 查库。

从答案到交付合同

answer、evidence、artifact、data pack、runId 分开，方便复查和复用。

从线上猜测到 replay

问题发生后可以按 runId 回看检索、计划、SQL、执行和交付。

DIAGRAM架构演进路径

从早期方案到当前方案

坑如何被架构能力吸收

TABLE踩坑、根因和升级

坑	根因	架构升级
RAG 噪声大	把检索结果当 prompt 附件，没有 selected context。	权限过滤、RRF、rerank、去重、riskTags。
SQL 能跑但错	缺少业务口径和 join path。	semantic registry、relationships、semantic-plan、validation。
权限后置	只在执行前拦截，没有上下文权限。	检索前、selected context 前、执行前、交付前多阶段过滤。
报告 Agent 放大错误	下游 Agent 直接消费 rows 或自己查库。	data pack、evidence contract、agent scope、runId。
排障困难	没有统一运行主键和工件。	run persistence、artifact、RAG replay、audit log。
接口演进痛	旧报告模板依赖物理字段。	semantic contract 和版本化口径。

面试里讲坑要落到“原来怎么设计、为什么出问题、后来怎么改”，这样才像真实项目经验。

BADCASE事故级复盘口径

具体 badcase	为什么危险	后来怎么修
“融资强”被 SQL 算成融资次数，而不是金额 + lead investor 质量 + 时间窗口。	SQL 能跑，答案也像对的，但排序口径错，老板会拿错项目做判断。	把“融资强”放进 semantic registry，semantic-plan 必须带 metricId、timeRange、sort rule，validate 检查 SQL 是否匹配。
RAG 搜到项目新闻，但 selected context 漏了官方公告和 source priority。	报告 Agent 可能把转载或旧新闻写成确定事实。	gold evidence 标 sourceDocumentId、sourcePriority、publishedAt，delivery 加 conflictHint 和 riskTags。
权限只在 execute 前做，模型已经看过无权 schema 和字段名。	即使最后 SQL 被拦，模型可能在回答里泄露内部字段存在性。	权限左移到 retrieve、assemble-context、semantic-plan、validate、delivery，模型只看到授权后的世界。
报告 Agent 自己拼 SQL 拿 rows 写周报。	绕过 semanticVersion、policyVersion、evidence、artifact 和 runId，错误无法归因。	报告 Agent 只消费系统 Agent 的 data pack，必须携带 source runId、semanticVersion、policyVersion 和 artifactRefs。

INTERVIEW MAP面试表达地图

先表态坑不是模型不准，而是早期架构边界不够。
讲五类坑RAG、语义、SQL、治理、排障。
讲升级动作selected context、semantic-plan、validate、delivery contract、runId。
讲下游 Agent报告 Agent 会放大错误，所以必须受系统 Agent 约束。
讲收获Agent 系统要先治理事实，再生成表达。

SUBAGENTS面试官和候选人模拟

本章继续沿用第一章的两个 subagent 视角：面试官 subagent 负责追问架构边界、失败模式、评测、治理和下游报告 Agent；候选人 subagent 负责把回答压成现场能讲出来的中文，并且把每个观点落到流程节点、数据对象、合同或工程权衡。

本章追问重点：你能不能从过去架构升级讲问题，而不是泛泛说模型幻觉？

Q&A20 组高强度追问

面试官：早期如果让 Agent 直接查业务库，会带来哪些稳定性、权限和维护问题？

直接查库短期快，长期会失控。它绕过 schema catalog 版本、metric definition、字段权限、来源置信度、plan validation 和审计，表结构变更会直接打断报告 Agent，SQL 能跑也无法证明业务口径正确。更关键的是它没有 SelectedContextPack、ValidationReport、GroundedAnswer 和 Text2SqlReplay，错误无法通过统一 runId 复盘，也无法变成回归评测样例。

相似题已合并 · 建议跳转

系统 Agent 与报告 Agent 边界：主讲系统 Agent 为什么统一出 data pack，其他题只补权限、性能或踩坑角度。

理解与记忆 · 背后工程点

背后工程点：踩坑要讲架构演进：从 prompt demo 到有证据、有治理、有回放、有下游 Agent 合同的系统。
专业术语：Prompt Attachment 是把检索结果直接拼进提示词的早期做法；Evidence Packet 是可引用的证据包；Replay 是按 runId 回看检索、生成、校验和执行过程。
为什么这样回答：这样回答能把问题从“模型不准”提升到系统边界、观测和演进能力。
小白解析：早期像手工拼答案，后来要变成可审计的数据生产线。
关联知识点：text2sql 架构文档描述 v1.3 从裸 LLM 走向 RAG 证据，v2.0 进一步把 RAG 输入 semantic-plan。

面试官：从单次问答 Bot 升级到系统 Agent + 下游报告 Agent，最大架构变化是什么？

最大变化是从“回答一次问题”变成“提供可信数据服务”。系统 Agent 要输出 data pack、evidence、artifact、runId 和权限边界，下游报告 Agent 只组织报告，不拥有事实查询权。

理解与记忆 · 背后工程点

面试官：过去把业务规则写在 prompt 里，后来为什么抽成语义层？

prompt 规则不可版本化、不可评测、不可复用，也很难给报告 Agent 稳定调用。抽成 semantic registry 后，指标口径、关系路径、字段映射能被 planner、SQL generator、前端和报告 Agent 共同消费。

理解与记忆 · 背后工程点

面试官：Text2SQL 最隐蔽的错误有哪些？哪个最难排查？

字段选错、join 错、时间窗口错、聚合口径错都很隐蔽。最难排查的是口径错，因为 SQL 能跑、结果也像真的，只有对照 semantic-plan 和业务定义才能发现。

理解与记忆 · 背后工程点

面试官：RAG 初版为什么容易“搜得到但用错”？

因为召回候选没有经过上下文装配和重排，旧新闻、转载、弱相关、无权内容可能一起进 prompt。后来用 selected context、source confidence、riskTags 和 rerank 收敛证据。

理解与记忆 · 背后工程点

面试官：RAG 初版为什么“应该搜到却搜不到”？

常见原因是 chunk 切断证据、metadata 缺失、别名没覆盖、只用 dense、query rewrite 不够或权限过滤误杀。解决要靠 badcase 分类，而不是盲目调 topK。

理解与记忆 · 背后工程点

面试官：下游报告 Agent 依赖系统 Agent 后，会放大哪些失败？

如果系统 Agent 给错指标或低置信证据，报告 Agent 可能把它写成确定结论并传播。解决是 data pack 必须带 evidence、source confidence、riskTags 和 runId，报告 Agent 不能脱离证据写断言。

理解与记忆 · 背后工程点

面试官：为什么 runId、trace、evidence packet 是后期必须补的能力？

因为一旦服务报告 Agent，错误影响会跨系统传播。没有 runId 就无法知道当时检索了什么、用了哪个语义版本、SQL 怎么生成、权限怎么判断、报告引用了哪份数据。

相似题已合并 · 建议跳转

runId、trace、replay 与回放：可信结果章主讲 runId 可回放，架构、流程、时效和可观测章只从各自链路补充。

理解与记忆 · 背后工程点

面试官：架构升级时如何兼容旧接口、旧报告模板和旧数据口径？

用版本化 contract。旧模板可以继续请求旧 semanticVersion，新模板走新版本；delivery contract 增字段保持向后兼容，物理表变化通过 semantic layer 适配。

理解与记忆 · 背后工程点

面试官：如何向面试官解释这些坑不是模型能力问题，而是系统边界问题？

我会说模型只是放大了系统没有定义清楚的边界。事实源、语义口径、权限、计划、执行校验、答案忠实度和回放证据如果没有架构化，换更强模型也会在复杂问题上不稳定。Query OS 的升级不是把 prompt 写长，而是把隐含规则变成可验证对象。

理解与记忆 · 背后工程点

面试官：早期只返回 answer 和 SQL，为什么不够？

普通用户可能够，但投研和报告 Agent 不够。他们需要知道 SQL 为什么这样写、数据来自哪里、有没有降级、能否引用、出了错怎么回放，所以必须有 evidence 和 artifact。

理解与记忆 · 背后工程点

面试官：权限只在 SQL 执行前做有什么坑？

模型在生成阶段可能已经看到了无权 schema 或证据，导致上下文污染。正确做法是检索前粗过滤、selected context 前细过滤、执行前校验、交付前再裁剪。

相似题已合并 · 建议跳转

权限校验位置与 fail-closed：权限章主讲治理边界，流程、安全和踩坑章复用同一原则。

理解与记忆 · 背后工程点

面试官：bounded correction 解决了什么坑？

它避免 SQL 一错就失败，也避免无限 agent retry。对可修复的方言、limit、轻微字段问题有限修复；对危险、越权、语义缺证据的错误直接终止。

相似题已合并 · 建议跳转

SQL 校验、执行安全与 correct loop：架构章主讲 validate/correct/execute 是主链路，安全章主讲攻击面和终止条件。

理解与记忆 · 背后工程点

面试官：架构文档里旧节点和新节点命名不一致，面试时怎么讲？

主动说明这是演进痕迹。早期 clarify/retrieve-knowledge/build-intent-plan 的职责，现在主要收敛到 intake、retrieve、assemble-context、semantic-plan 这条 v2 runtime 主链。

相似题已合并 · 建议跳转

运行时主链路与节点命名：流程章主讲当前 runtime 链路，架构和踩坑章只解释历史命名差异。

理解与记忆 · 背后工程点

面试官：报告 Agent 自己拼 SQL 的坑是什么？

每个报告 Agent 会重复实现实体消歧、权限、指标口径和来源引用，最后同一个“融资强”被算成多个版本。系统 Agent 收口事实，报告 Agent 专注叙事。

相似题已合并 · 建议跳转

系统 Agent 与报告 Agent 边界：主讲系统 Agent 为什么统一出 data pack，其他题只补权限、性能或踩坑角度。

理解与记忆 · 背后工程点

面试官：空结果曾经容易被误解成什么？

容易被误解成“没有符合条件项目”，但也可能是时间窗口错、实体消歧错、权限过滤过严、RAG 缺证据或 SQL join 错。delivery 里要说明空结果原因和下一步建议。

相似题已合并 · 建议跳转

空结果解释、评测与排查：可信结果章主讲空结果怎么可信解释，评测和可观测章分别处理验证与排查。

理解与记忆 · 背后工程点

面试官：架构升级过程中最大的代价是什么？

代价是复杂度上升：要维护 semantic registry、RAG 评测、权限策略、delivery contract、run persistence 和回放工具。但收益是结果可信、可复用、可审计。

理解与记忆 · 背后工程点

面试官：如果老板质疑“为什么做这么重”，你怎么解释？

如果只是 demo，可以轻；但老板问数和报告 Agent 都依赖它，对外内容会传播。我们需要的是数据智能基础设施，不是一次性聊天，所以必须把证据、治理和回放做进架构。

理解与记忆 · 背后工程点

面试官：如何防止架构升级变成过度设计？

每个新增层都要对应真实失败：semantic layer 对应口径错，governance 对应越权，delivery contract 对应报告引用，replay 对应排障。没有失败压力就不加抽象。

理解与记忆 · 背后工程点

面试官：面试里总结踩坑，你最后怎么收束？

我会说最大的经验是：Text2SQL 和 RAG 的问题表面是模型回答不稳，底层是事实源、语义、权限、计划、验证、回答和回放没有工程化。架构升级就是把这些隐含规则变成显式系统能力：事实源可版本化，context 可审计，plan 可校验，SQL 可验证，answer 可追溯，badcase 可回归。

理解与记忆 · 背后工程点

PRINCIPLE本章背诵原则

坑要讲演进：原来是 prompt + SQL，后来升级成 Query OS。
别只怪模型：把问题落到事实源、selected context、plans、validation、grounded answer 和 replay。
报告 Agent 是放大器：下游依赖会放大小错误，所以必须有 data pack、evidence contract 和 source runId。
每层都有原因：SchemaCatalogVersion、MetricDefinition、SelectedContextPack、PhysicalSqlPlan、ValidationReport 都对应真实失败。
升级也有代价：承认复杂度上升，但换来可信、复用、审计和评测飞轮。