如何做 Text2SQL 和 RAG 的评测体系

OPENING30 秒开口版

我会把评测按 Query OS 全链路拆开，而不是只看最终回答像不像。Intent 侧评 QuerySlots、澄清和默认假设；Knowledge/Compilation 侧评 gold evidence、gold context、Recall@K、MRR、NDCG、Context Recall 和 ACL leakage；Planning 侧评 IntentPlan、SemanticPlan、PhysicalSqlPlan 是否命中正确指标、时间窗口、join path 和执行路由；SQL 侧评 SqlGenerationOutput、referencedTables/Columns、plan/AST/ACL/dry-run；Execution 侧评结果集、列行形状和空结果解释；Answer 侧评 grounded answer 和 citation faithfulness；Feedback 侧用 runId replay 把 badcase 回流成回归样例。

理解与记忆 · 术语、解析、关联知识点

专业术语	Gold Context：最终 SelectedContextPack 必须覆盖的表、列、指标、关系和来源证据。 Plan Accuracy：IntentPlan、SemanticPlan、PhysicalSqlPlan 是否命中正确口径和执行路由。 ACL Leakage Rate：未授权对象进入候选或上下文的次数，目标必须为 0。 Answer Faithfulness：回答是否忠于 final SQL、columns、rows、assumptions 和 evidence。
为什么这样回答	评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析	像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点	learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

1 MIN一分钟口语版

具体做法是先分桶样本：lookup、detail、aggregate、trend、compare、ranking、复杂投研、多跳图谱、权限拒绝、澄清、空结果、报告 Agent data pack。每个样本不只标 gold SQL，还标 gold QuerySlots、gold evidence、gold metrics、gold join path、gold physical plan、expected result shape 和 expected delivery riskTags。RAG 侧算 Recall@K、MRR、NDCG、Context Precision、Context Recall；Planning 侧看 metric accuracy、join accuracy、timeRange accuracy、route accuracy；SQL 侧看 schema existence、ACL、readonly、dry-run、execution success 和 correction success；Answer 侧看 answer faithfulness、citation accuracy、empty result explanation。发布门禁分硬门禁和软门禁：危险 SQL、越权、跨 workspace、敏感字段泄露、ACL leakage 必须 100% 通过；核心 gold set 的 semantic accuracy、Context Recall、Plan Accuracy、Answer Faithfulness 不能低于基线；retrievalP95、executionP95、budgetDegradeRate、replay completeness 超阈值要阻断或灰度。线上 badcase 用 runId 定位到 intent、knowledge、planning、SQL、validation、execution、answer 或报告叙事，再回流回归集。

理解与记忆 · 术语、解析、关联知识点

专业术语	Gold Evidence：回答一个问题必须找回的标准证据集合。 Recall@K：前 K 个结果中找回标准证据的比例。 MRR：第一个正确证据排名的倒数均值。 Execution Accuracy：SQL 执行结果是否和标准结果或结果形状一致。
为什么这样回答	评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析	像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点	learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

ARCHITECTURE架构设计要点

样本分桶

简单查数、组合筛选、复杂投研、图谱、多源冲突、权限拒绝、澄清。

RAG 指标

Hit Rate、Recall@K、MRR、NDCG、Context Precision、Context Recall。

SQL 指标

语义对象、SQL 形状、执行结果、列行形状、权限决策、纠错成功率。

端到端指标

Answer Correctness、Faithfulness、Citation Accuracy、artifact 可用性。

Badcase 回流

线上点踩、报告错误、空结果异常、低置信 run 进入回归集。

发布门禁

sampleReady、gateDecision、degrade rate、P95、安全集全通过。

DIAGRAM架构图

评测从样本到发布门禁

如何做 Text2SQL 和 RAG 的评测体系 Mermaid diagram 1

一次失败如何定位

如何做 Text2SQL 和 RAG 的评测体系 Mermaid diagram 2

TABLE关键对象和面试讲法

对象	职责	面试强调
RAG 召回	Recall@K、Hit Rate	关键证据有没有找回来。
RAG 排序	MRR、NDCG、Precision@K	好证据是否靠前且噪声少。
上下文质量	Context Recall、Context Precision	最终入模材料是否支撑答案。
SQL 语义	gold semantic objects、SQL shape	表、字段、指标、时间窗口是否正确。
执行结果	结果集对比、行列形状	不是只比 SQL 文本。
安全治理	拒绝准确率、误杀率	越权和危险 SQL 是否拦住。
线上门禁	degrade rate、P95、sampleReady	质量和稳定性一起看。

RELEASE GATE发布门禁口径

门禁类型	关注指标	不过线时怎么决策
安全硬门禁	危险 SQL、越权表字段、跨 workspace 泄露、敏感字段外带、Prompt Injection 回归	必须 100% 通过；失败就阻断发布，不用平均分抵消。
准确率门禁	SQL semantic accuracy、gold evidence Recall@K、Context Recall、citation accuracy、answer faithfulness	核心 gold set 不能低于基线；新增能力需要分桶证明不是只优化简单样本。
性能门禁	retrievalP95、executionP95、answerP95、reportQueueWaitP95、timeout rate	超过 SLA 不能全量；可以小流量灰度或只对离线报告链路开启。
降级门禁	budgetDegradeRate、graphFallbackRate、replay.ready=false、indexVersion missing、audit degraded	允许可解释降级，不允许 silent degradation；degradeReasons 必须进 delivery。
实验门禁	ablation uplift、成本变化、失败分桶变化、回归集差异	不能只说“感觉更准”；要能解释收益来自 chunk、metadata、rerank、semantic registry 还是 prompt。

INTERVIEW MAP面试表达地图

先拆链路检索、排序、SQL、执行、回答、交付分开评。
再定 gold没有 gold evidence 就没有召回评测。
落 Web3 样本未 TGE、融资强、热度上涨、共投网络、解锁压力。
用 runId 定位trace、replay、delivery 找责任段。
闭环发布badcase 回流、ablation、门禁、灰度。

SUBAGENTS面试官、候选人和红队

本章写作前已实际启动多 subagent：面试官 subagent 负责连续追问生产压力，候选人 subagent 负责把答案压成现场能讲出口的表达，资料审阅 + 红队 subagent 负责指出哪些地方容易写虚，并补充安全、评测、runId、下游报告 Agent 的攻击面。

本章追问重点：所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。

Q&A20 组高强度追问

面试官：Text2SQL 评测是比 SQL 字符串吗？

我：不是主要比字符串。SQL 可能写法不同但语义等价，所以我会从 Query OS 对象比起：QuerySlots 是否理解对，SemanticPlan 是否选对指标和时间窗口，PhysicalSqlPlan 是否选对表列、join、过滤、聚合和 limit，SqlGenerationOutput 的 referencedTables/Columns 是否和 plan 一致，执行结果和列行形状是否符合预期。只有安全规则、方言、性能和可解释场景才更关注 SQL 形状。

本题主讲 · 相似题跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：Text2SQL 的核心是语义和结果，不是字符串完全一致。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：RAG 评测为什么要先定义 gold evidence？

我：因为如果不知道标准证据是什么，就无法判断系统是搜对了还是搜到了看似相关的噪声。gold evidence 是回答问题必须依赖的来源集合，比如融资公告、Token 解锁来源、项目标签定义。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测：RAG 章主讲召回评测，评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点：没有 gold evidence，Recall 和 Context Recall 都没有地基。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：Recall@20 和 MRR@10 分别说明什么？

我：Recall@20 看关键证据有没有被候选集找回来，MRR@10 看第一个正确证据是否排得靠前。如果 Recall 高但 MRR 低，说明能搜到但排序差；如果 Recall 低，说明召回本身漏了。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测：RAG 章主讲召回评测，评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点：指标要用于诊断，而不是只汇报数字。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：多证据问题为什么 Hit Rate 不够？

我：Hit Rate 命中一条就算成功，但复杂投研可能需要标签、融资、投资人、热度、Token 状态多类证据。命中融资公告但漏掉未 TGE 状态，答案仍然不完整。

理解与记忆 · 背后工程点

背后工程点：多证据问题更看 evidence coverage。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：“融资强 + 未 TGE + 热度上涨”怎么标注标准答案？

我：我会标三类 gold：业务语义对象，像 token_status、funding_amount、score_growth；标准证据，像融资公告和评分快照；期望结果形状，像项目名、融资额、投资机构、热度变化和来源。

理解与记忆 · 背后工程点

背后工程点：组合问题需要拆标准语义、证据和结果形状。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：runId replay 在评测失败里怎么用？

我：评测失败时用 runId 查 trace 看节点，查 replay 看检索和 rerank，查 delivery 看最终 selected context 和 artifact。这样能判断是召回漏证据、排序没入模、SQL 口径错，还是 answer 总结错。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：runId 是评测诊断主键。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：怎么区分召回失败和排序失败？

我：看 Recall@20 和 Recall@5。如果 Recall@20 低，关键证据没找回来，是召回或索引问题；如果 Recall@20 高但 Recall@5 低，是排序、融合或 rerank 问题。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测：RAG 章主讲召回评测，评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点：同一个错误要用不同 K 值拆责任。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：SQL 执行成功率高，是否说明系统好？

我：不一定。执行成功可能是查错表也成功，或者返回空结果也成功。还要看语义准确率、结果正确率、权限拒绝准确率和答案引用准确率。

理解与记忆 · 背后工程点

背后工程点：执行成功率只是底线指标。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：线上 badcase 如何进回归集？

我：按 runId 保存 question、actor/workspace、schema catalog version、QuerySlots、retrieval candidates、SelectedContextPack、plans、generated SQL、validation report、correction attempts、execution summary、grounded answer 和 finalStatus。修复后把它加入对应分桶。后续每次改 RAG、semantic model、planner、compiler、SQL validator 或 answer formatter，都跑这批样本。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：badcase 要从事故变成防回归资产。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：报告 Agent 的报告错误如何定位？

我：先看报告段落引用的 source runId。如果系统 data pack 正确但报告写错，是报告 Agent 叙事问题；如果 data pack 本身证据或 SQL 错，再回到系统 Agent 的 trace 和 replay。

理解与记忆 · 背后工程点

背后工程点：下游错误要区分数据包错和叙事错。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：权限拒绝和正常执行是否放同一评测集？

我：可以在统一平台里跑，但要分桶计算。权限拒绝看安全准确率和误杀率，正常执行看结果正确率，澄清看触发率和 post-clarify pass rate，不能混成一个平均分。

理解与记忆 · 背后工程点

背后工程点：不同任务类型要分桶评估。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：发布门禁为什么看 P95 和降级率？

我：因为优化不能只看准确率。门禁要分层：安全硬门禁里危险 SQL、越权、跨 workspace、敏感字段外带必须 100% 通过；准确率门禁看核心 gold set 的 SQL semantic accuracy、Context Recall、citation accuracy 不能低于基线；性能门禁看 retrievalP95、executionP95、reportQueueWaitP95；降级门禁看 budgetDegradeRate、graphFallbackRate、replay.ready=false。比如 hybrid rerank 提高 MRR 但 retrievalP95 翻倍，我不会直接全量，只会灰度到高价值复杂问题或离线报告链路。

理解与记忆 · 背后工程点

背后工程点：评测门禁要同时看质量和运行指标。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：LLM-as-judge 能不能替代人工标注？

我：不能完全替代。它适合初筛和大规模回归，但核心 Web3 投研问题、金额、权限和来源证据需要人工 gold evidence 或业务规则做锚点。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：LLM 评审是辅助，不是权威标准。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：如何做 ablation？

我：逐项开关，比如 baseline、加 query rewrite、加 hybrid retrieval、加 rerank、加 semantic registry，对比 Recall、MRR、执行准确率、延迟和成本。这样能知道收益来自哪里。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：优化要可归因。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：GraphRAG 怎么评测？

我：除了文本 gold evidence，还要标 gold entities、gold relations 或 gold paths。比如共同投资网络要看机构实体是否识别对、关系路径是否找回、背后融资事件来源是否支撑。

相似题已合并 · 建议跳转

GraphRAG、图查询与图数据库：复杂分析章主讲共同投资网络为什么走图，评测、排障和性能章分别补充质量、错误定位和成本。

理解与记忆 · 背后工程点

背后工程点：图谱问题需要实体、关系、路径三类 gold。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：空结果怎么评测？

我：空结果样本要有期望状态，是确实无数据、权限过滤为空、时间窗口过窄，还是数据缺失。系统需要给出正确解释，而不是一律回答没有。

相似题已合并 · 建议跳转

空结果解释、评测与排查：可信结果章主讲空结果怎么可信解释，评测和可观测章分别处理验证与排查。

理解与记忆 · 背后工程点

背后工程点：空结果也是可评测状态。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：澄清策略如何评测？

我：看 triggerRate、false positive、false negative、平均澄清轮次和 post-clarify semantic pass rate。澄清不是越多越好，要看是否提升最终 SQL 和证据质量。

理解与记忆 · 背后工程点

背后工程点：澄清要评估收益和打扰成本。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：评测集如果都是简单问题怎么办？

我：要按真实业务构造长尾分桶：组合指标、多跳关系、多源冲突、同名实体、权限拒绝、过期证据、报告 data pack。否则通过率高也证明不了生产能力。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：评测集覆盖面比总分更重要。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：如何评估 citation accuracy？

我：抽取答案里的每个事实，看是否能被 delivery.evidence 里的 source 支撑。比如融资金额、投资人、TGE 状态都必须引用到对应来源，不能引用背景材料。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：引用准确率衡量答案是否忠于证据。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：一句话总结评测体系。

我：我的评测不是看最终话术像不像，而是证明 Query OS 每层都可验收：槽位理解对、证据找对且授权、plan 命中口径和 join path、SQL 草案被正确校验和执行、answer 忠于 rows/columns/evidence、runId 能完整回放，并且 badcase 能变成回归样例。

理解与记忆 · 背后工程点

背后工程点：评测体系要服务定位和发布。
专业术语：Gold Evidence：回答一个问题必须找回的标准证据集合。
Recall@K：前 K 个结果中找回标准证据的比例。
MRR：第一个正确证据排名的倒数均值。
为什么这样回答：评测题要先拆链路，否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析：像考试不能只看作文写得顺不顺，还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点：learn-RAG 强调先定义 gold evidence，再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官：Exact Match、Execution Accuracy、业务语义正确性有什么区别？为什么执行结果一样也不一定对？

Exact Match 比的是 SQL 字符串或结构是否和标准答案一致，适合学术 benchmark，但真实业务里同义 SQL 很多，不能只看它。Execution Accuracy 看执行结果是否匹配，能容忍不同写法，但也有盲区：测试数据太少、空结果、错误 join 恰好得到同样行数、指标口径错但数值接近，都可能误判。业务语义正确性要再看 QuerySlots、metric definition、join path、权限、时间窗口和 evidence 是否符合标准。我的评测会分层：SQL 字符串只是参考，执行结果是必要但不充分条件，最终还要用 plan/evidence/口径审查和人工 gold case 兜底。

理解与记忆 · 背后工程点

背后工程点：Text2SQL 评测不能把“能执行”当成“业务正确”。
专业术语：Exact Match 是 SQL 文本或结构匹配；Execution Accuracy 是执行结果匹配；Semantic Accuracy 是业务口径和查询意图正确；Result Shape 是列、行数、聚合粒度和排序形态。
为什么这样回答：这能回应常见追问：SQL 不一样可能都对，结果一样也可能都错。
小白解析：两个人做数学题，算式不同可能都对；但如果题目理解错了，碰巧算出同一个数，也不能算真正答对。
关联知识点：本章 q01、q08 和 q20 已经强调 SQL semantic accuracy、gold evidence、runId replay 和 badcase 分桶。

PRINCIPLE本章背诵原则

先定义 gold context，再谈召回和入模质量。
SQL 评测看 plan、语义和结果，不只看字符串。
复杂问题要按 Query OS 阶段分桶，不要被平均分骗了。
线上 badcase 必须按 runId 回放，并回流成回归资产。
质量门禁要同时看准确率、安全、延迟、降级率和 replay completeness。