Text2SQL 指南

RAG 你做了什么优化,如何确保能搜索到

这一章讲 RAG 在 RootData 类 Agent Bot 里的工程优化:不是单向量库,而是离线知识准备、实体消歧、多表示索引、混合召回、权限过滤、RRF/rerank、selected context 和 gold evidence 评测闭环。

OPENING30 秒开口版

我会先把 RAG 定位成证据和语义召回层,不是给 prompt 塞资料。优化上我做了几类:离线侧把 schema、glossary、source_documents、news、项目别名、机构别名、关系图谱和历史 SQL 做成多种索引入口;在线侧先做 query rewrite、metadata filter、entity resolution 和 query routing,再走 lexical、dense、graph 多路召回,权限过滤后用 RRF 融合和 rerank,最后形成 selected context。怎么确保能搜到,不靠感觉,而是给问题标 gold evidence,看 Hit Rate、Recall@K、MRR、NDCG、Context Recall,并用 badcase 反推是 chunk、metadata、别名、权限、排序还是生成问题。

理解与记忆 · 术语、解析、关联知识点
专业术语多表示索引:同一份知识准备原文、摘要、问题、实体、字段等多个检索入口
RRF:Reciprocal Rank Fusion,多路召回结果的融合排序方法
Gold Evidence:回答一个问题必须命中的标准证据
Context Recall:最终上下文是否覆盖标准答案需要的事实
为什么这样回答面试官问“如何确保搜到”时,最怕只回答 topK 和 embedding。要先讲检索架构,再讲评测闭环。
小白解析要让资料能被找到,就要给它多做几个门牌号;要证明找到了,就要提前标好哪些证据必须出现。
关联知识点learn-RAG 的核心观点是:RAG 不是把所有资料塞进上下文,而是让关键证据完整、靠前、干净地进入上下文。

1 MIN一分钟口语版

在这个项目里,RAG 优化分离线和在线两条链。离线先把 Web3 资产知识整理好:source_documents 保留来源、时间、可靠性;schema 和 semantic assets 按表、字段、指标、关系切成对象化 chunk;项目名、Token symbol、机构简称、生态标签做 alias 和 metadata;长文档用父子块或章节索引,表格和字段用结构化索引。在线先做查询前处理:识别实体、时间窗口、数据类型,必要时 query rewrite、query decomposition、metadata filter 和 routing。召回时不只走 dense vector,还走 lexical/BM25、metadata、graph 和 historical examples;之后做权限过滤、RRF 融合、rerank、去重、上下文压缩,输出 selected context。验证上我会建一批 RootData 场景评测题,比如“AI x Crypto 未 TGE 项目”“某 VC 共同投资网络”“未来 30 天 Token 解锁压力”,每题标注必须命中的表、字段、项目、来源、关系路径,用 Recall@K、MRR、NDCG 和 Context Recall 判断优化有没有真实提升。

理解与记忆 · 术语、解析、关联知识点
专业术语Query Rewrite:把用户口语问题改写成更适合检索的查询
Metadata Filter:在召回前用时间、实体、类型、权限等字段缩小范围
Parent-child Index:小块负责精确召回,父块负责完整上下文
Hybrid Search:关键词、向量、图谱和结构化索引协同召回
为什么这样回答一分钟版要同时讲“怎么做”和“怎么证明”,否则优化听起来像经验调参。
小白解析先把资料整理成容易找的样子,再把问题改成适合搜索的样子,最后用指标证明该找的证据没有漏。
关联知识点learn-RAG 05 讲检索前处理,06 讲索引优化,08 讲召回质量评估;text2sql README 强调 lexical、dense、graph lanes、权限过滤、RRF 和 rerank。

RAG GOALSRAG 优化目标

证据多入口

同一实体有名称、别名、Token 符号、官网域名、合约地址、机构关系等多个召回入口。

问题先处理

自然语言先做实体识别、时间窗口、metadata filter、query rewrite 和路由。

多路召回

lexical 命中专名和符号,dense 覆盖语义,graph 找关系,结构化索引找字段和表。

权限前置

不同用户和报告 Agent 的 scope 影响检索候选、selected context 和最终 data pack。

冲突可见

融资金额、Token 解锁、新闻来源冲突时保留 source confidence 和风险标签。

评测驱动

用 gold evidence、Recall@K、MRR、NDCG、Context Recall 证明优化有效。

DIAGRAMRAG 优化链路

从原始资料到 selected context

RAG 你做了什么优化,如何确保能搜索到 Mermaid diagram 1

召回评测闭环

RAG 你做了什么优化,如何确保能搜索到 Mermaid diagram 2

TABLERAG 优化手段和适用问题

优化手段解决的问题RootData 场景
metadata filter先过滤时间、类型、实体、权限,减少噪声。只查最近 30 天融资公告、只查 Pro 可见字段。
alias/entity index解决项目改名、Token 符号重复、机构简称。OP、AI、TON 这类短词或重名实体。
hybrid search专名、金额、符号靠 lexical,语义靠 dense。“未 TGE AI x Crypto 项目”和具体项目名混合查询。
graph retrieval多跳关系和共同投资网络。某基金与哪些机构共同投资最多。
parent-child/context expansion命中小片段但答案需要上下文。融资金额命中后回填公告来源、日期和投资方。
rerank/RRF多路候选融合后把高价值证据排前。同一项目多条新闻、公告和转载排序。
gold evidence eval证明关键证据是否真的被召回。每个问题标注必须命中的表、字段、来源和关系路径。

RAG 优化要从 badcase 反推,不要凭感觉加技巧:没进候选查索引,进了但排低查 rerank,进上下文仍答错再查 prompt 和生成。

GOLD EVIDENCE标注协议和漂移控制

标注/控制项具体字段面试时怎么解释
gold evidence unitentityId、table、field、sourceDocumentId、relationshipPath、timeWindow、sourcePriority不只标“某篇文档相关”,而是标回答必须依赖的证据单元。
candidate recallRecall@K、HitRate、laneRecall、permissionFilteredCount证明关键证据有没有进入候选;如果没进候选,先修索引、metadata、alias 或权限误杀。
ranking qualityMRR、NDCG、Recall@5、rerankReasonRecall@20 高但 Recall@5 低,说明是融合或 rerank 问题,不要急着换 embedding。
context qualityContext Recall、Context Precision、selectedEvidenceIds、droppedGoldReasons候选搜到不代表入模;要看 selected context 是否真正覆盖 answer 所需事实。
query rewrite driftoriginalQuery、rewrittenQuery、preservedEntities、preservedTimeRange、driftReasonrewrite 只能扩展别名、缩写、同义词,不能改变核心实体、时间窗口和约束。

INTERVIEW MAP面试表达地图

  1. 先定义 RAG它是证据和语义召回层,不是 prompt 附件。
  2. 再讲离线准备清洗、元数据、别名、chunk、结构化索引、多表示。
  3. 讲在线检索query rewrite、metadata filter、routing、多路召回、权限过滤、rerank。
  4. 讲确保搜到gold evidence、Recall@K、MRR、NDCG、Context Recall。
  5. 讲降级搜不到、不完整、冲突、低置信都要进入 evidence,而不是假装完整。

SUBAGENTS面试官和候选人模拟

本章继续沿用第一章的两个 subagent 视角:面试官 subagent 负责追问架构边界、失败模式、评测、治理和下游报告 Agent;候选人 subagent 负责把回答压成现场能讲出来的中文,并且把每个观点落到流程节点、数据对象、合同或工程权衡。

本章追问重点:你是不是只会“向量库 + topK”?你能不能证明该搜到的证据真的搜到了?

Q&A20 组高强度追问

面试官:Web3 项目资料类型很多,官网、新闻、融资公告、白皮书、社媒、交易数据,你怎么分层建索引?

我会按事实类型分层:结构化 schema 和指标单独索引,source_documents 和 news 保留来源与时间,项目/机构/Token 做实体别名索引,关系图谱单独支持多跳召回。这样不同问题能走不同入口,而不是全塞进一个向量库。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:为什么不能只用一个向量库解决 RootData 类项目的检索?

因为 Web3 里很多命中依赖精确符号、短项目名、金额、日期、机构简称和关系路径。dense vector 适合语义相似,但对 OP 这种短符号、融资金额、合约地址、共同投资关系不稳定,所以要 lexical、metadata、graph 和结构化索引配合。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:项目别名、Token 符号、机构简称混在一起时,RAG 怎么避免搜错实体?

先做 entity resolution,把名称、slug、官网域名、社媒 handle、合约地址、机构 portfolio、别名表一起用于候选实体识别。检索时 metadata 带 entity_id 和 entity_type,selected context 里保留消歧证据,低置信时要求澄清。

相似题已合并 · 建议跳转

Entity resolution、Token 重名与实体消歧:语义映射章主讲实体解析位置,RAG、优化、澄清和排障章分别补充召回、优化、交互和定位。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:用户问趋势类问题时,RAG 如何结合时间衰减和事件时间,而不是只看相似度?

query processing 要抽取时间窗口,metadata filter 按 announced_date、published_at、snapshot_date 过滤,排序时再结合 freshness、source reliability 和问题类型。比如融资趋势看融资公告时间,Token 解锁看 unlock_date,不能只按文本相似度。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:如何保证报告 Agent 拿到的是可引用证据,而不是模型自己总结的内容?

系统 Agent 返回的 data pack 必须带 source_id、url、published_at、reliability、SQL artifact、字段口径和 runId。报告 Agent 可以组织叙事,但引用事实必须来自 evidence contract,不能把模型总结当一手来源。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:检索结果冲突,比如融资金额多个版本,RAG 架构怎么处理?

不要在检索层偷偷合并成一个答案,而是保留多个来源、可靠性评分、时间、是否官方公告、是否转载。delivery 可以给主结论和冲突说明,必要时标 riskTags,让报告 Agent 不要把低置信数字写成确定事实。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:怎么设计召回评测,证明应该搜到的项目、机构、事件真的能搜到?

我会建真实问题集,每题标 gold evidence:必须命中的实体、表、字段、来源文档、关系路径和时间窗口。跑不同检索配置,看 Hit Rate、Recall@K、MRR、NDCG、Context Recall,并按 badcase 分类修索引。

本题主讲 · 相似题跳转

RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:权限过滤是在向量召回前、召回后,还是答案生成前做?

多阶段都要做。召回前用 workspace、plan、agent scope 做粗过滤;召回后在融合、rerank、selected context 前做细过滤;生成和执行前再校验。不能先让模型看到无权证据再要求它忘掉。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:RAG 搜不到时系统应该怎么表现?继续编答案、转 SQL、追问用户,还是返回证据不足?

要看问题类型和缺口。结构化数据足够时可以转 SQL;实体或时间不清时澄清;关键证据缺失时返回证据不足并写入 degradeReasons;不能编答案,尤其不能给报告 Agent 输出无证据 data pack。

本题主讲 · 相似题跳转

RAG 召回为空、低置信与降级:RAG 章主讲搜不到时如何表现,架构和澄清章补充继续、澄清、fail-closed 的边界。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:Query rewrite 会不会把问题改偏?你怎么控制?

会,所以 rewrite 要受控。只扩展别名、缩写、同义词和业务词,不改变核心实体、时间窗口和约束;评测上看 rewrite 前后 Recall 是否提升,同时监控语义漂移 badcase。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:HyDE 在这个项目里能不能用?

可以用于开放式投研解释,但不能用于事实锚定。比如“项目风险有哪些”可以用假设答案扩展召回;但融资金额、Token 解锁、机构投资这种事实问题,HyDE 只能辅助召回,最终必须引用原始来源和结构化事实。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:父子块索引在 source_documents 里解决什么?

小块更容易精确命中,比如某个融资金额或投资人;父块能带回公告上下文,比如日期、轮次、来源和完整段落。报告 Agent 引用时需要完整上下文,所以不能只给碎片。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:RRF 和 rerank 分别解决什么?

RRF 解决多路召回结果怎么融合,避免某一路分数尺度支配全局;rerank 解决融合后哪些证据更贴合问题。简单说,RRF 先把候选凑齐,rerank 再把好证据排前。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:如果 Recall@20 高但 Recall@5 低,你怎么优化?

这说明正确证据进了候选但排序不好。优先调融合权重、rerank、标题/来源加权、score normalization,而不是盲目换 embedding 或重做 chunk。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:如果正确证据完全没进 top20,你怎么定位?

先查原始资料有没有入库,再查 chunk 是否切断、metadata 是否缺失、别名是否覆盖、query rewrite 是否漂移、权限过滤是否误杀、索引参数是否损失召回。不同原因对应不同修法。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测:RAG 章主讲召回评测,评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:图谱召回在 RAG 里有什么价值?

RootData 类问题很多是关系问题,比如共同投资、生态关联、人物任职、项目-Token-链关系。图谱召回能提供多跳路径证据,补足文本相似检索找不到的结构化关系。

相似题已合并 · 建议跳转

GraphRAG、图查询与图数据库:复杂分析章主讲共同投资网络为什么走图,评测、排障和性能章分别补充质量、错误定位和成本。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:如何处理旧新闻、草稿、转载导致的噪声?

metadata 里要有 doc_type、published_at、source reliability、is_official、version 和 review_status。召回和 rerank 都要考虑这些信号,delivery 里也要暴露来源等级。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:RAG 的 selected context 里要放什么,不放什么?

放和问题直接相关的 schema、术语、来源、实体、关系、指标口径和必要样例;不放无权、过旧、冲突未说明、弱相关或重复内容。上下文越大不一定越好,关键是证据完整且干净。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:RAG 优化和 Text2SQL 准确率有什么关系?

Text2SQL 的 SQL 质量高度依赖 schema linking 和语义计划。如果 RAG 没找回正确表、字段、指标和 join path,SQL 生成阶段只能猜;所以 RAG 不是外围能力,而是 SQL 前的证据地基。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

面试官:面试里一句话总结“如何确保能搜到”,你怎么说?

我会说:先让知识有多条可检索入口,再让问题经过受控改写和路由,召回用 lexical、dense、graph、metadata 多路互补,最后用 gold evidence 和 Recall@K/MRR/NDCG 证明关键证据完整靠前。

理解与记忆 · 背后工程点

背后工程点:RAG 优化要按召回、排序、上下文和评测分层讲,不能只说调 topK 或换 embedding。
专业术语:Hybrid Search 是关键词、向量和图谱多路召回的组合;Gold Evidence 是人工标注的必须命中证据;Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答:这样回答能证明你有可验证的优化闭环,而不是凭 demo 感觉。
小白解析:搜资料不是搜到几段像的文字就行,要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点:learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall,以及从 badcase 反推索引、重排和 query rewrite。

PRINCIPLE本章背诵原则

  • 不要只讲向量库:要讲离线知识准备、在线查询处理、多路召回和评测闭环。
  • 先确保召回:正确证据没进候选,rerank 和大模型都救不了。
  • 权限前置:无权证据不能进入 selected context。
  • 冲突要可见:来源冲突、旧版数据、低置信证据要写进 evidence。
  • 指标说话:用 gold evidence、Recall@K、MRR、NDCG、Context Recall 证明优化。