Text2SQL 指南

如何做 Text2SQL 和 RAG 的评测体系

这一章讲评测闭环:不能靠几个 demo 问题证明系统有效,要把 RAG 召回、SQL 语义、执行结果、安全拒绝、澄清、线上 badcase 和发布门禁放进同一套质量体系。

OPENING30 秒开口版

我会把评测拆成两条线:RAG 评测证明关键证据有没有被召回、是否排得靠前、最终上下文是否干净;Text2SQL 评测证明 SQL 是否语义正确、可执行、结果正确、权限安全。离线用 gold question、gold evidence、gold SQL 或结果形状做回归;线上每个 badcase 用 runId 回放 trace、replay、delivery,定位是召回、排序、schema linking、SQL 生成、validate、execute 还是 answer 出错。

理解与记忆 · 术语、解析、关联知识点
专业术语Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
Execution Accuracy:SQL 执行结果是否和标准结果或结果形状一致。
为什么这样回答评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

1 MIN一分钟口语版

具体做法是先分桶样本:简单查数、组合筛选、复杂投研、多跳图谱、权限拒绝、澄清、空结果、报告 Agent data pack。RAG 侧标 gold evidence,算 Recall@K、MRR、NDCG、Context Precision、Context Recall;Text2SQL 侧不只比 SQL 字符串,而是比 semantic objects、SQL shape、执行结果、列行形状、权限决策和 artifact。发布门禁分硬门禁和软门禁:危险 SQL、越权、跨 workspace、敏感字段泄露必须 100% 通过;核心 gold set 的 semantic accuracy、Context Recall、citation accuracy 不能低于基线;retrievalP95、executionP95、report queue wait、budgetDegradeRate、graphFallbackRate 超阈值要阻断或灰度。线上 badcase 用 runId 定位到 RAG、semantic、SQL、governance、delivery 或报告叙事,再回流回归集。

理解与记忆 · 术语、解析、关联知识点
专业术语Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
Execution Accuracy:SQL 执行结果是否和标准结果或结果形状一致。
为什么这样回答评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

ARCHITECTURE架构设计要点

样本分桶

简单查数、组合筛选、复杂投研、图谱、多源冲突、权限拒绝、澄清。

RAG 指标

Hit Rate、Recall@K、MRR、NDCG、Context Precision、Context Recall。

SQL 指标

语义对象、SQL 形状、执行结果、列行形状、权限决策、纠错成功率。

端到端指标

Answer Correctness、Faithfulness、Citation Accuracy、artifact 可用性。

Badcase 回流

线上点踩、报告错误、空结果异常、低置信 run 进入回归集。

发布门禁

sampleReady、gateDecision、degrade rate、P95、安全集全通过。

DIAGRAM架构图

评测从样本到发布门禁

如何做 Text2SQL 和 RAG 的评测体系 Mermaid diagram 1

一次失败如何定位

如何做 Text2SQL 和 RAG 的评测体系 Mermaid diagram 2

TABLE关键对象和面试讲法

对象职责面试强调
RAG 召回Recall@K、Hit Rate关键证据有没有找回来。
RAG 排序MRR、NDCG、Precision@K好证据是否靠前且噪声少。
上下文质量Context Recall、Context Precision最终入模材料是否支撑答案。
SQL 语义gold semantic objects、SQL shape表、字段、指标、时间窗口是否正确。
执行结果结果集对比、行列形状不是只比 SQL 文本。
安全治理拒绝准确率、误杀率越权和危险 SQL 是否拦住。
线上门禁degrade rate、P95、sampleReady质量和稳定性一起看。

RELEASE GATE发布门禁口径

门禁类型关注指标不过线时怎么决策
安全硬门禁危险 SQL、越权表字段、跨 workspace 泄露、敏感字段外带、Prompt Injection 回归必须 100% 通过;失败就阻断发布,不用平均分抵消。
准确率门禁SQL semantic accuracy、gold evidence Recall@K、Context Recall、citation accuracy、answer faithfulness核心 gold set 不能低于基线;新增能力需要分桶证明不是只优化简单样本。
性能门禁retrievalP95、executionP95、answerP95、reportQueueWaitP95、timeout rate超过 SLA 不能全量;可以小流量灰度或只对离线报告链路开启。
降级门禁budgetDegradeRate、graphFallbackRate、replay.ready=false、indexVersion missing、audit degraded允许可解释降级,不允许 silent degradation;degradeReasons 必须进 delivery。
实验门禁ablation uplift、成本变化、失败分桶变化、回归集差异不能只说“感觉更准”;要能解释收益来自 chunk、metadata、rerank、semantic registry 还是 prompt。

INTERVIEW MAP面试表达地图

  1. 先拆链路检索、排序、SQL、执行、回答、交付分开评。
  2. 再定 gold没有 gold evidence 就没有召回评测。
  3. 落 Web3 样本未 TGE、融资强、热度上涨、共投网络、解锁压力。
  4. 用 runId 定位trace、replay、delivery 找责任段。
  5. 闭环发布badcase 回流、ablation、门禁、灰度。

SUBAGENTS面试官、候选人和红队

本章写作前已实际启动多 subagent:面试官 subagent 负责连续追问生产压力,候选人 subagent 负责把答案压成现场能讲出口的表达,资料审阅 + 红队 subagent 负责指出哪些地方容易写虚,并补充安全、评测、runId、下游报告 Agent 的攻击面。

本章追问重点:所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。

Q&A20 组高强度追问

面试官:Text2SQL 评测是比 SQL 字符串吗?

我:不是主要比字符串。SQL 可能写法不同但语义等价,所以我会比 semantic objects、使用表列、过滤条件、时间窗口、执行结果和结果形状。只有安全规则、方言和性能场景才更关注 SQL 形状。

理解与记忆 · 背后工程点

背后工程点:Text2SQL 的核心是语义和结果,不是字符串完全一致。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:RAG 评测为什么要先定义 gold evidence?

我:因为如果不知道标准证据是什么,就无法判断系统是搜对了还是搜到了看似相关的噪声。gold evidence 是回答问题必须依赖的来源集合,比如融资公告、Token 解锁来源、项目标签定义。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点:没有 gold evidence,Recall 和 Context Recall 都没有地基。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:Recall@20 和 MRR@10 分别说明什么?

我:Recall@20 看关键证据有没有被候选集找回来,MRR@10 看第一个正确证据是否排得靠前。如果 Recall 高但 MRR 低,说明能搜到但排序差;如果 Recall 低,说明召回本身漏了。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点:指标要用于诊断,而不是只汇报数字。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:多证据问题为什么 Hit Rate 不够?

我:Hit Rate 命中一条就算成功,但复杂投研可能需要标签、融资、投资人、热度、Token 状态多类证据。命中融资公告但漏掉未 TGE 状态,答案仍然不完整。

理解与记忆 · 背后工程点

背后工程点:多证据问题更看 evidence coverage。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:“融资强 + 未 TGE + 热度上涨”怎么标注标准答案?

我:我会标三类 gold:业务语义对象,像 token_status、funding_amount、score_growth;标准证据,像融资公告和评分快照;期望结果形状,像项目名、融资额、投资机构、热度变化和来源。

理解与记忆 · 背后工程点

背后工程点:组合问题需要拆标准语义、证据和结果形状。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:runId replay 在评测失败里怎么用?

我:评测失败时用 runId 查 trace 看节点,查 replay 看检索和 rerank,查 delivery 看最终 selected context 和 artifact。这样能判断是召回漏证据、排序没入模、SQL 口径错,还是 answer 总结错。

理解与记忆 · 背后工程点

背后工程点:runId 是评测诊断主键。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:怎么区分召回失败和排序失败?

我:看 Recall@20 和 Recall@5。如果 Recall@20 低,关键证据没找回来,是召回或索引问题;如果 Recall@20 高但 Recall@5 低,是排序、融合或 rerank 问题。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点:同一个错误要用不同 K 值拆责任。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:SQL 执行成功率高,是否说明系统好?

我:不一定。执行成功可能是查错表也成功,或者返回空结果也成功。还要看语义准确率、结果正确率、权限拒绝准确率和答案引用准确率。

理解与记忆 · 背后工程点

背后工程点:执行成功率只是底线指标。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:线上 badcase 如何进回归集?

我:按 runId 保存问题、上下文、错误类型、期望证据和期望结果,修复后加入对应分桶。后续每次改 RAG、语义层、prompt 或 SQL validate 都跑这批样本。

理解与记忆 · 背后工程点

背后工程点:badcase 要从事故变成防回归资产。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:报告 Agent 的报告错误如何定位?

我:先看报告段落引用的 source runId。如果系统 data pack 正确但报告写错,是报告 Agent 叙事问题;如果 data pack 本身证据或 SQL 错,再回到系统 Agent 的 trace 和 replay。

理解与记忆 · 背后工程点

背后工程点:下游错误要区分数据包错和叙事错。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:权限拒绝和正常执行是否放同一评测集?

我:可以在统一平台里跑,但要分桶计算。权限拒绝看安全准确率和误杀率,正常执行看结果正确率,澄清看触发率和 post-clarify pass rate,不能混成一个平均分。

理解与记忆 · 背后工程点

背后工程点:不同任务类型要分桶评估。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:发布门禁为什么看 P95 和降级率?

我:因为优化不能只看准确率。门禁要分层:安全硬门禁里危险 SQL、越权、跨 workspace、敏感字段外带必须 100% 通过;准确率门禁看核心 gold set 的 SQL semantic accuracy、Context Recall、citation accuracy 不能低于基线;性能门禁看 retrievalP95、executionP95、reportQueueWaitP95;降级门禁看 budgetDegradeRate、graphFallbackRate、replay.ready=false。比如 hybrid rerank 提高 MRR 但 retrievalP95 翻倍,我不会直接全量,只会灰度到高价值复杂问题或离线报告链路。

理解与记忆 · 背后工程点

背后工程点:评测门禁要同时看质量和运行指标。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:LLM-as-judge 能不能替代人工标注?

我:不能完全替代。它适合初筛和大规模回归,但核心 Web3 投研问题、金额、权限和来源证据需要人工 gold evidence 或业务规则做锚点。

理解与记忆 · 背后工程点

背后工程点:LLM 评审是辅助,不是权威标准。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:如何做 ablation?

我:逐项开关,比如 baseline、加 query rewrite、加 hybrid retrieval、加 rerank、加 semantic registry,对比 Recall、MRR、执行准确率、延迟和成本。这样能知道收益来自哪里。

理解与记忆 · 背后工程点

背后工程点:优化要可归因。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:GraphRAG 怎么评测?

我:除了文本 gold evidence,还要标 gold entities、gold relations 或 gold paths。比如共同投资网络要看机构实体是否识别对、关系路径是否找回、背后融资事件来源是否支撑。

相似题已合并 · 建议跳转

GraphRAG、图查询与图数据库:复杂分析章主讲共同投资网络为什么走图,评测、排障和性能章分别补充质量、错误定位和成本。

理解与记忆 · 背后工程点

背后工程点:图谱问题需要实体、关系、路径三类 gold。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:空结果怎么评测?

我:空结果样本要有期望状态,是确实无数据、权限过滤为空、时间窗口过窄,还是数据缺失。系统需要给出正确解释,而不是一律回答没有。

相似题已合并 · 建议跳转

空结果解释、评测与排查:可信结果章主讲空结果怎么可信解释,评测和可观测章分别处理验证与排查。

理解与记忆 · 背后工程点

背后工程点:空结果也是可评测状态。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:澄清策略如何评测?

我:看 triggerRate、false positive、false negative、平均澄清轮次和 post-clarify semantic pass rate。澄清不是越多越好,要看是否提升最终 SQL 和证据质量。

理解与记忆 · 背后工程点

背后工程点:澄清要评估收益和打扰成本。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:评测集如果都是简单问题怎么办?

我:要按真实业务构造长尾分桶:组合指标、多跳关系、多源冲突、同名实体、权限拒绝、过期证据、报告 data pack。否则通过率高也证明不了生产能力。

理解与记忆 · 背后工程点

背后工程点:评测集覆盖面比总分更重要。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:如何评估 citation accuracy?

我:抽取答案里的每个事实,看是否能被 delivery.evidence 里的 source 支撑。比如融资金额、投资人、TGE 状态都必须引用到对应来源,不能引用背景材料。

理解与记忆 · 背后工程点

背后工程点:引用准确率衡量答案是否忠于证据。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

面试官:一句话总结评测体系。

我:我的评测不是看最终话术像不像,而是证明证据找对、排序靠前、SQL 语义正确、执行安全、答案有引用,并且 badcase 能回归。

理解与记忆 · 背后工程点

背后工程点:评测体系要服务定位和发布。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。

PRINCIPLE本章背诵原则

  • 先定义 gold evidence,再谈召回质量。
  • SQL 评测看语义和结果,不只看字符串。
  • 复杂问题要分桶,不要被平均分骗了。
  • 线上 badcase 必须回流成回归资产。
  • 质量门禁要同时看准确率、安全、延迟和降级率。