OPENING30 秒开口版
我会把评测拆成两条线:RAG 评测证明关键证据有没有被召回、是否排得靠前、最终上下文是否干净;Text2SQL 评测证明 SQL 是否语义正确、可执行、结果正确、权限安全。离线用 gold question、gold evidence、gold SQL 或结果形状做回归;线上每个 badcase 用 runId 回放 trace、replay、delivery,定位是召回、排序、schema linking、SQL 生成、validate、execute 还是 answer 出错。
理解与记忆 · 术语、解析、关联知识点
| 专业术语 | Gold Evidence:回答一个问题必须找回的标准证据集合。 Recall@K:前 K 个结果中找回标准证据的比例。 MRR:第一个正确证据排名的倒数均值。 Execution Accuracy:SQL 执行结果是否和标准结果或结果形状一致。 |
| 为什么这样回答 | 评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。 |
| 小白解析 | 像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。 |
| 关联知识点 | learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。 |
1 MIN一分钟口语版
具体做法是先分桶样本:简单查数、组合筛选、复杂投研、多跳图谱、权限拒绝、澄清、空结果、报告 Agent data pack。RAG 侧标 gold evidence,算 Recall@K、MRR、NDCG、Context Precision、Context Recall;Text2SQL 侧不只比 SQL 字符串,而是比 semantic objects、SQL shape、执行结果、列行形状、权限决策和 artifact。发布门禁分硬门禁和软门禁:危险 SQL、越权、跨 workspace、敏感字段泄露必须 100% 通过;核心 gold set 的 semantic accuracy、Context Recall、citation accuracy 不能低于基线;retrievalP95、executionP95、report queue wait、budgetDegradeRate、graphFallbackRate 超阈值要阻断或灰度。线上 badcase 用 runId 定位到 RAG、semantic、SQL、governance、delivery 或报告叙事,再回流回归集。
理解与记忆 · 术语、解析、关联知识点
| 专业术语 | Gold Evidence:回答一个问题必须找回的标准证据集合。 Recall@K:前 K 个结果中找回标准证据的比例。 MRR:第一个正确证据排名的倒数均值。 Execution Accuracy:SQL 执行结果是否和标准结果或结果形状一致。 |
| 为什么这样回答 | 评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。 |
| 小白解析 | 像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。 |
| 关联知识点 | learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。 |
ARCHITECTURE架构设计要点
样本分桶
简单查数、组合筛选、复杂投研、图谱、多源冲突、权限拒绝、澄清。
RAG 指标
Hit Rate、Recall@K、MRR、NDCG、Context Precision、Context Recall。
SQL 指标
语义对象、SQL 形状、执行结果、列行形状、权限决策、纠错成功率。
端到端指标
Answer Correctness、Faithfulness、Citation Accuracy、artifact 可用性。
Badcase 回流
线上点踩、报告错误、空结果异常、低置信 run 进入回归集。
发布门禁
sampleReady、gateDecision、degrade rate、P95、安全集全通过。
DIAGRAM架构图
评测从样本到发布门禁
一次失败如何定位
TABLE关键对象和面试讲法
| 对象 | 职责 | 面试强调 |
|---|---|---|
| RAG 召回 | Recall@K、Hit Rate | 关键证据有没有找回来。 |
| RAG 排序 | MRR、NDCG、Precision@K | 好证据是否靠前且噪声少。 |
| 上下文质量 | Context Recall、Context Precision | 最终入模材料是否支撑答案。 |
| SQL 语义 | gold semantic objects、SQL shape | 表、字段、指标、时间窗口是否正确。 |
| 执行结果 | 结果集对比、行列形状 | 不是只比 SQL 文本。 |
| 安全治理 | 拒绝准确率、误杀率 | 越权和危险 SQL 是否拦住。 |
| 线上门禁 | degrade rate、P95、sampleReady | 质量和稳定性一起看。 |
RELEASE GATE发布门禁口径
| 门禁类型 | 关注指标 | 不过线时怎么决策 |
|---|---|---|
| 安全硬门禁 | 危险 SQL、越权表字段、跨 workspace 泄露、敏感字段外带、Prompt Injection 回归 | 必须 100% 通过;失败就阻断发布,不用平均分抵消。 |
| 准确率门禁 | SQL semantic accuracy、gold evidence Recall@K、Context Recall、citation accuracy、answer faithfulness | 核心 gold set 不能低于基线;新增能力需要分桶证明不是只优化简单样本。 |
| 性能门禁 | retrievalP95、executionP95、answerP95、reportQueueWaitP95、timeout rate | 超过 SLA 不能全量;可以小流量灰度或只对离线报告链路开启。 |
| 降级门禁 | budgetDegradeRate、graphFallbackRate、replay.ready=false、indexVersion missing、audit degraded | 允许可解释降级,不允许 silent degradation;degradeReasons 必须进 delivery。 |
| 实验门禁 | ablation uplift、成本变化、失败分桶变化、回归集差异 | 不能只说“感觉更准”;要能解释收益来自 chunk、metadata、rerank、semantic registry 还是 prompt。 |
INTERVIEW MAP面试表达地图
- 先拆链路检索、排序、SQL、执行、回答、交付分开评。
- 再定 gold没有 gold evidence 就没有召回评测。
- 落 Web3 样本未 TGE、融资强、热度上涨、共投网络、解锁压力。
- 用 runId 定位trace、replay、delivery 找责任段。
- 闭环发布badcase 回流、ablation、门禁、灰度。
SUBAGENTS面试官、候选人和红队
本章写作前已实际启动多 subagent:面试官 subagent 负责连续追问生产压力,候选人 subagent 负责把答案压成现场能讲出口的表达,资料审阅 + 红队 subagent 负责指出哪些地方容易写虚,并补充安全、评测、runId、下游报告 Agent 的攻击面。
本章追问重点:所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。
Q&A20 组高强度追问
面试官:Text2SQL 评测是比 SQL 字符串吗?
我:不是主要比字符串。SQL 可能写法不同但语义等价,所以我会比 semantic objects、使用表列、过滤条件、时间窗口、执行结果和结果形状。只有安全规则、方言和性能场景才更关注 SQL 形状。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q18
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:Text2SQL 的核心是语义和结果,不是字符串完全一致。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:RAG 评测为什么要先定义 gold evidence?
我:因为如果不知道标准证据是什么,就无法判断系统是搜对了还是搜到了看似相关的噪声。gold evidence 是回答问题必须依赖的来源集合,比如融资公告、Token 解锁来源、项目标签定义。
RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。
理解与记忆 · 背后工程点
背后工程点:没有 gold evidence,Recall 和 Context Recall 都没有地基。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:Recall@20 和 MRR@10 分别说明什么?
我:Recall@20 看关键证据有没有被候选集找回来,MRR@10 看第一个正确证据是否排得靠前。如果 Recall 高但 MRR 低,说明能搜到但排序差;如果 Recall 低,说明召回本身漏了。
RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。
理解与记忆 · 背后工程点
背后工程点:指标要用于诊断,而不是只汇报数字。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:多证据问题为什么 Hit Rate 不够?
我:Hit Rate 命中一条就算成功,但复杂投研可能需要标签、融资、投资人、热度、Token 状态多类证据。命中融资公告但漏掉未 TGE 状态,答案仍然不完整。
理解与记忆 · 背后工程点
背后工程点:多证据问题更看 evidence coverage。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:“融资强 + 未 TGE + 热度上涨”怎么标注标准答案?
我:我会标三类 gold:业务语义对象,像 token_status、funding_amount、score_growth;标准证据,像融资公告和评分快照;期望结果形状,像项目名、融资额、投资机构、热度变化和来源。
理解与记忆 · 背后工程点
背后工程点:组合问题需要拆标准语义、证据和结果形状。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:runId replay 在评测失败里怎么用?
我:评测失败时用 runId 查 trace 看节点,查 replay 看检索和 rerank,查 delivery 看最终 selected context 和 artifact。这样能判断是召回漏证据、排序没入模、SQL 口径错,还是 answer 总结错。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q18
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:runId 是评测诊断主键。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:怎么区分召回失败和排序失败?
我:看 Recall@20 和 Recall@5。如果 Recall@20 低,关键证据没找回来,是召回或索引问题;如果 Recall@20 高但 Recall@5 低,是排序、融合或 rerank 问题。
RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。
理解与记忆 · 背后工程点
背后工程点:同一个错误要用不同 K 值拆责任。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:SQL 执行成功率高,是否说明系统好?
我:不一定。执行成功可能是查错表也成功,或者返回空结果也成功。还要看语义准确率、结果正确率、权限拒绝准确率和答案引用准确率。
理解与记忆 · 背后工程点
背后工程点:执行成功率只是底线指标。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:线上 badcase 如何进回归集?
我:按 runId 保存问题、上下文、错误类型、期望证据和期望结果,修复后加入对应分桶。后续每次改 RAG、语义层、prompt 或 SQL validate 都跑这批样本。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q18
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:badcase 要从事故变成防回归资产。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:报告 Agent 的报告错误如何定位?
我:先看报告段落引用的 source runId。如果系统 data pack 正确但报告写错,是报告 Agent 叙事问题;如果 data pack 本身证据或 SQL 错,再回到系统 Agent 的 trace 和 replay。
理解与记忆 · 背后工程点
背后工程点:下游错误要区分数据包错和叙事错。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:权限拒绝和正常执行是否放同一评测集?
我:可以在统一平台里跑,但要分桶计算。权限拒绝看安全准确率和误杀率,正常执行看结果正确率,澄清看触发率和 post-clarify pass rate,不能混成一个平均分。
理解与记忆 · 背后工程点
背后工程点:不同任务类型要分桶评估。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:发布门禁为什么看 P95 和降级率?
我:因为优化不能只看准确率。门禁要分层:安全硬门禁里危险 SQL、越权、跨 workspace、敏感字段外带必须 100% 通过;准确率门禁看核心 gold set 的 SQL semantic accuracy、Context Recall、citation accuracy 不能低于基线;性能门禁看 retrievalP95、executionP95、reportQueueWaitP95;降级门禁看 budgetDegradeRate、graphFallbackRate、replay.ready=false。比如 hybrid rerank 提高 MRR 但 retrievalP95 翻倍,我不会直接全量,只会灰度到高价值复杂问题或离线报告链路。
理解与记忆 · 背后工程点
背后工程点:评测门禁要同时看质量和运行指标。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:LLM-as-judge 能不能替代人工标注?
我:不能完全替代。它适合初筛和大规模回归,但核心 Web3 投研问题、金额、权限和来源证据需要人工 gold evidence 或业务规则做锚点。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q18
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:LLM 评审是辅助,不是权威标准。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:如何做 ablation?
我:逐项开关,比如 baseline、加 query rewrite、加 hybrid retrieval、加 rerank、加 semantic registry,对比 Recall、MRR、执行准确率、延迟和成本。这样能知道收益来自哪里。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q18
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:优化要可归因。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:GraphRAG 怎么评测?
我:除了文本 gold evidence,还要标 gold entities、gold relations 或 gold paths。比如共同投资网络要看机构实体是否识别对、关系路径是否找回、背后融资事件来源是否支撑。
GraphRAG、图查询与图数据库:复杂分析章主讲共同投资网络为什么走图,评测、排障和性能章分别补充质量、错误定位和成本。
理解与记忆 · 背后工程点
背后工程点:图谱问题需要实体、关系、路径三类 gold。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:空结果怎么评测?
我:空结果样本要有期望状态,是确实无数据、权限过滤为空、时间窗口过窄,还是数据缺失。系统需要给出正确解释,而不是一律回答没有。
空结果解释、评测与排查:可信结果章主讲空结果怎么可信解释,评测和可观测章分别处理验证与排查。
理解与记忆 · 背后工程点
背后工程点:空结果也是可评测状态。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:澄清策略如何评测?
我:看 triggerRate、false positive、false negative、平均澄清轮次和 post-clarify semantic pass rate。澄清不是越多越好,要看是否提升最终 SQL 和证据质量。
理解与记忆 · 背后工程点
背后工程点:澄清要评估收益和打扰成本。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:评测集如果都是简单问题怎么办?
我:要按真实业务构造长尾分桶:组合指标、多跳关系、多源冲突、同名实体、权限拒绝、过期证据、报告 data pack。否则通过率高也证明不了生产能力。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:评测集覆盖面比总分更重要。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:如何评估 citation accuracy?
我:抽取答案里的每个事实,看是否能被 delivery.evidence 里的 source 支撑。比如融资金额、投资人、TGE 状态都必须引用到对应来源,不能引用背景材料。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q18
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
- 14-performance-cost-concurrency · q17
理解与记忆 · 背后工程点
背后工程点:引用准确率衡量答案是否忠于证据。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
面试官:一句话总结评测体系。
我:我的评测不是看最终话术像不像,而是证明证据找对、排序靠前、SQL 语义正确、执行安全、答案有引用,并且 badcase 能回归。
理解与记忆 · 背后工程点
背后工程点:评测体系要服务定位和发布。
专业术语:Gold Evidence:回答一个问题必须找回的标准证据集合。
Recall@K:前 K 个结果中找回标准证据的比例。
MRR:第一个正确证据排名的倒数均值。
为什么这样回答:评测题要先拆链路,否则容易把所有错误都归因给模型。分段评测体现你能定位问题而不是只看最终分数。
小白解析:像考试不能只看作文写得顺不顺,还要检查资料有没有找对、公式有没有用对、计算有没有算对、有没有越权看答案。
关联知识点:learn-RAG 强调先定义 gold evidence,再用 Recall、MRR、NDCG、Context Recall 诊断召回和排序。text2sql 文档也给出 Recall@20、MRR@10、P95、降级率、SQL 执行成功率等门禁。
PRINCIPLE本章背诵原则
- 先定义 gold evidence,再谈召回质量。
- SQL 评测看语义和结果,不只看字符串。
- 复杂问题要分桶,不要被平均分骗了。
- 线上 badcase 必须回流成回归资产。
- 质量门禁要同时看准确率、安全、延迟和降级率。