RAG 你做了什么优化，如何确保能搜索到

优化手段	解决的问题	RootData 场景
metadata filter	先过滤时间、类型、实体、权限，减少噪声。	只查最近 30 天融资公告、只查 Pro 可见字段。
alias/entity index	解决项目改名、Token 符号重复、机构简称。	OP、AI、TON 这类短词或重名实体。
hybrid search	专名、金额、符号靠 lexical，语义靠 dense。	“未 TGE AI x Crypto 项目”和具体项目名混合查询。
graph retrieval	多跳关系和共同投资网络。	某基金与哪些机构共同投资最多。
parent-child/context expansion	命中小片段但答案需要上下文。	融资金额命中后回填公告来源、日期和投资方。
rerank/RRF	多路候选融合后把高价值证据排前。	同一项目多条新闻、公告和转载排序。
gold evidence eval	证明关键证据是否真的被召回。	每个问题标注必须命中的表、字段、来源和关系路径。

标注/控制项	具体字段	面试时怎么解释
gold evidence unit	entityId、table、field、sourceDocumentId、relationshipPath、timeWindow、sourcePriority	不只标“某篇文档相关”，而是标回答必须依赖的证据单元。
candidate recall	Recall@K、HitRate、laneRecall、permissionFilteredCount	证明关键证据有没有进入候选；如果没进候选，先修索引、metadata、alias 或权限误杀。
ranking quality	MRR、NDCG、Recall@5、rerankReason	Recall@20 高但 Recall@5 低，说明是融合或 rerank 问题，不要急着换 embedding。
context quality	Context Recall、Context Precision、selectedEvidenceIds、droppedGoldReasons	候选搜到不代表入模；要看 selected context 是否真正覆盖 answer 所需事实。
query rewrite drift	originalQuery、rewrittenQuery、preservedEntities、preservedTimeRange、driftReason	rewrite 只能扩展别名、缩写、同义词，不能改变核心实体、时间窗口和约束。

面试官：Web3 项目资料类型很多，官网、新闻、融资公告、白皮书、社媒、交易数据，你怎么分层建索引？

我会按 Query OS 的事实源分层：SchemaCatalogVersion 负责表、列、类型、样例值和关系；MetricDefinition 负责指标公式、默认过滤和版本；source_documents/news 保留来源、时间、可靠性和 checksum；项目、机构、Token 做实体别名索引；关系图谱单独支持多跳召回；historical SQL examples 只保留成功、授权、适配当前 catalog 的样例。这样不同问题能走不同 lane，最后统一编译成 SelectedContextPack，而不是全塞进一个向量库。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：为什么不能只用一个向量库解决 RootData 类项目的检索？

因为 Web3 里很多命中依赖精确符号、短项目名、金额、日期、机构简称和关系路径。dense vector 适合语义相似，但对 OP 这种短符号、融资金额、合约地址、共同投资关系不稳定，所以要 lexical、metadata、graph 和结构化索引配合。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：项目别名、Token 符号、机构简称混在一起时，RAG 怎么避免搜错实体？

先做 entity resolution，把名称、slug、官网域名、社媒 handle、合约地址、机构 portfolio、别名表一起用于候选实体识别。检索时 metadata 带 entity_id 和 entity_type，selected context 里保留消歧证据，低置信时要求澄清。

相似题已合并 · 建议跳转

Entity resolution、Token 重名与实体消歧：语义映射章主讲实体解析位置，RAG、优化、澄清和排障章分别补充召回、优化、交互和定位。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：用户问趋势类问题时，RAG 如何结合时间衰减和事件时间，而不是只看相似度？

query processing 要抽取时间窗口，metadata filter 按 announced_date、published_at、snapshot_date 过滤，排序时再结合 freshness、source reliability 和问题类型。比如融资趋势看融资公告时间，Token 解锁看 unlock_date，不能只按文本相似度。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：如何保证报告 Agent 拿到的是可引用证据，而不是模型自己总结的内容？

系统 Agent 返回的 data pack 必须带 source_id、url、published_at、reliability、SQL artifact、字段口径和 runId。报告 Agent 可以组织叙事，但引用事实必须来自 evidence contract，不能把模型总结当一手来源。

相似题已合并 · 建议跳转

证据链、data pack 与报告可追溯：可信结果章主讲 evidence/data pack 合同，其他章只补充报告 Agent 消费与复用场景。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：检索结果冲突，比如融资金额多个版本，RAG 架构怎么处理？

不要在检索层偷偷合并成一个答案，而是保留多个来源、可靠性评分、时间、是否官方公告、是否转载。delivery 可以给主结论和冲突说明，必要时标 riskTags，让报告 Agent 不要把低置信数字写成确定事实。

相似题已合并 · 建议跳转

数据冲突、来源优先级与时效性：时效一致章主讲多源冲突和 source priority，RAG 与可信结果章只补充证据侧处理。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：怎么设计召回评测，证明应该搜到的项目、机构、事件真的能搜到？

我会建真实问题集，每题标 gold evidence 和 gold context：必须命中的实体、表、字段、指标、来源文档、关系路径和时间窗口。评测不只看候选召回，还看这些证据有没有通过 ACL filtering、rerank 和 context budget 进入 SelectedContextPack。指标看 Hit Rate、Recall@K、MRR、NDCG、Context Recall、Context Precision、droppedGoldReasons 和 ACL leakage rate，并按 runId replay 反查是索引、metadata、权限、排序还是预算问题。

本题主讲 · 相似题跳转

RAG 召回质量与 gold evidence 评测：RAG 章主讲召回评测，评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：权限过滤是在向量召回前、召回后，还是答案生成前做？

多阶段都要做。召回前用 workspace、plan、agent scope 做粗过滤；召回后在融合、rerank、selected context 前做细过滤；生成和执行前再校验。不能先让模型看到无权证据再要求它忘掉。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：RAG 搜不到时系统应该怎么表现？继续编答案、转 SQL、追问用户，还是返回证据不足？

要看问题类型和缺口。结构化 schema 和 metric definition 足够时可以继续 SQL，但要在 evidence 里标 weak retrieval；实体、指标或时间不清时澄清；关键表列、指标口径或来源证据缺失时返回 cannotAnswerReason 或证据不足，并写入 degradeReasons 和 replay。不能让模型补猜，更不能给报告 Agent 输出无证据 data pack。

本题主讲 · 相似题跳转

RAG 召回为空、低置信与降级：RAG 章主讲搜不到时如何表现，架构和澄清章补充继续、澄清、fail-closed 的边界。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：Query rewrite 会不会把问题改偏？你怎么控制？

会，所以 rewrite 要受控。只扩展别名、缩写、同义词和业务词，不改变核心实体、时间窗口和约束；评测上看 rewrite 前后 Recall 是否提升，同时监控语义漂移 badcase。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：HyDE 在这个项目里能不能用？

可以用于开放式投研解释，但不能用于事实锚定。比如“项目风险有哪些”可以用假设答案扩展召回；但融资金额、Token 解锁、机构投资这种事实问题，HyDE 只能辅助召回，最终必须引用原始来源和结构化事实。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：父子块索引在 source_documents 里解决什么？

小块更容易精确命中，比如某个融资金额或投资人；父块能带回公告上下文，比如日期、轮次、来源和完整段落。报告 Agent 引用时需要完整上下文，所以不能只给碎片。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：RRF 和 rerank 分别解决什么？

RRF 解决多路召回结果怎么融合，避免某一路分数尺度支配全局；rerank 解决融合后哪些证据更贴合问题。简单说，RRF 先把候选凑齐，rerank 再把好证据排前。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：如果 Recall@20 高但 Recall@5 低，你怎么优化？

这说明正确证据进了候选但排序不好。优先调融合权重、rerank、标题/来源加权、score normalization，而不是盲目换 embedding 或重做 chunk。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测：RAG 章主讲召回评测，评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：如果正确证据完全没进 top20，你怎么定位？

先查原始资料有没有入库，再查 chunk 是否切断、metadata 是否缺失、别名是否覆盖、query rewrite 是否漂移、权限过滤是否误杀、索引参数是否损失召回。不同原因对应不同修法。

相似题已合并 · 建议跳转

RAG 召回质量与 gold evidence 评测：RAG 章主讲召回评测，评测章和优化章用于证明优化不是感觉更准。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：图谱召回在 RAG 里有什么价值？

RootData 类问题很多是关系问题，比如共同投资、生态关联、人物任职、项目-Token-链关系。图谱召回能提供多跳路径证据，补足文本相似检索找不到的结构化关系。

相似题已合并 · 建议跳转

GraphRAG、图查询与图数据库：复杂分析章主讲共同投资网络为什么走图，评测、排障和性能章分别补充质量、错误定位和成本。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：如何处理旧新闻、草稿、转载导致的噪声？

metadata 里要有 doc_type、published_at、source reliability、is_official、version 和 review_status。召回和 rerank 都要考虑这些信号，delivery 里也要暴露来源等级。

相似题已合并 · 建议跳转

数据冲突、来源优先级与时效性：时效一致章主讲多源冲突和 source priority，RAG 与可信结果章只补充证据侧处理。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：RAG 的 selected context 里要放什么，不放什么？

放和问题直接相关的 schema、术语、来源、实体、关系、指标口径和必要样例；不放无权、过旧、冲突未说明、弱相关或重复内容。上下文越大不一定越好，关键是证据完整且干净。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：RAG 优化和 Text2SQL 准确率有什么关系？

Text2SQL 的 SQL 质量高度依赖 schema linking 和语义计划。如果 RAG 没找回正确表、字段、指标和 join path，SQL 生成阶段只能猜；所以 RAG 不是外围能力，而是 SQL 前的证据地基。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：面试里一句话总结“如何确保能搜到”，你怎么说？

我会说：先把知识做成可治理事实资产，再让问题经过 QuerySlots、受控改写和路由；召回用 lexical、dense、graph、metadata、SQL example 多路互补；中间做 ACL filtering、RRF、rerank 和 context budget；最后用 gold evidence、gold context、Recall@K、MRR、NDCG、Context Recall 和 runId replay 证明关键证据完整、靠前、可审计。

理解与记忆 · 背后工程点

背后工程点：RAG 优化要按召回、排序、上下文和评测分层讲，不能只说调 topK 或换 embedding。
专业术语：Hybrid Search 是关键词、向量和图谱多路召回的组合；Gold Evidence 是人工标注的必须命中证据；Context Recall 是最终上下文能否支撑标准答案事实的指标。
为什么这样回答：这样回答能证明你有可验证的优化闭环，而不是凭 demo 感觉。
小白解析：搜资料不是搜到几段像的文字就行，要确保该出现的证据完整、靠前、干净地进入上下文。
关联知识点：learn-RAG 强调 Recall@K、MRR、NDCG、Context Precision/Recall，以及从 badcase 反推索引、重排和 query rewrite。

面试官：RAG 的完整链路是什么？它和把文档直接塞进 Prompt 有什么区别？

我会把链路说成：数据源接入、解析清洗、chunking、元数据和权限标注、embedding/BM25/graph 建索引、query rewrite、lexical/dense/graph 多路召回、RRF 融合、rerank、selected context 装配、LLM grounded answer、citation、trace/eval。直接把文档塞进 Prompt 只是一次上下文拼接，没有索引版本、权限过滤、召回评测、引用回源、删除治理和成本控制。RAG 的价值不是“多给模型资料”，而是把知识变成可检索、可授权、可评测、可追溯的证据资产。

理解与记忆 · 背后工程点

背后工程点：RAG 是证据选择系统，不是 prompt 填充技巧。
专业术语：Selected Context 是最终进入模型的授权证据包；Citation 是答案事实回到来源文档和 span 的引用；Index Version 是索引构建版本。
为什么这样回答：基础题要把“知识入库、检索、重排、生成、评测、治理”全链路讲出来。
小白解析：直接塞文档像把一摞资料丢给人翻，RAG 像先建图书馆目录、权限卡、引用规则和查阅记录。
关联知识点：本章的 selected context、RRF/rerank、gold evidence 和 runId replay 都是在证明 RAG 可治理。

面试官：为什么很多场景优先用 RAG，而不是直接微调？什么时候需要两者结合？

我会优先用 RAG 处理频繁变化、需要引用、涉及权限和私域知识的场景，因为知识更新只要重建或增量更新索引，不需要让模型重新“记住”。微调更适合改变模型行为、格式、语气、工具选择习惯或领域推理模式，不适合把每天变化的融资、价格、政策、项目状态硬塞进参数。两者可以组合：RAG 提供最新授权证据，SFT/偏好优化让模型更稳定地使用证据、拒绝无证据回答、输出符合业务格式。

理解与记忆 · 背后工程点

背后工程点：RAG 管知识新鲜度和可追溯，微调管行为分布和任务习惯。
专业术语：Fine-tuning 是用训练数据调整模型行为；Knowledge Freshness 是知识时效；Grounding 是答案受证据约束。
为什么这样回答：面试官常用这题判断你是否把微调当万能记忆库。
小白解析：公司通讯录天天变，应该查数据库；员工写邮件格式不统一，可以培训。RAG 像查资料，微调像训练习惯。
关联知识点：Text2SQL 的 schema、指标口径、权限和来源都需要实时版本锁；这些更适合 RAG/语义资产，而不是靠参数记忆。

面试官：PDF、PPT、图片、网页这类非 Markdown 数据怎么进 RAG？Chunk 怎么切？

我会先按文档类型做解析：PDF/PPT 提取标题层级、页码、表格和图片说明，图片走 OCR 或多模态解析，网页做正文抽取、去导航和去广告。然后清洗、去重、保留 source span、页码、标题层级、发布时间、权限和版本。chunk 不会只按固定长度切：FAQ 按问答对，表格按表和关键行列，代码按函数或模块，长文档按标题层级和语义段落，必要时用 parent-child chunk 保留上下文。Chunk 太小会丢语义，太大会引入噪声和 token 成本；overlap 要服务跨段事实，不是越大越好。

理解与记忆 · 背后工程点

背后工程点：解析质量和 chunk 元数据直接决定后续召回质量。
专业术语：OCR 是图片文字识别；Parent-child Chunk 是小块召回、大块回填上下文；Source Span 是原文位置。
为什么这样回答：这题是工程落地题，不能只说“切片后 embedding”。
小白解析：资料入库像整理档案，不能把书撕成随机纸条；要知道每段来自哪一页、哪个标题、能不能给用户看。
关联知识点：本章 q12 的父子块索引、q15 的 chunk 定位和 q18 的 selected context 都依赖解析和分块质量。

面试官：Embedding 模型和向量库怎么选？FAISS、Milvus、Qdrant、PGVector、ES 各自适合什么？

我会先看语料语言、领域术语、更新频率、权限过滤、规模、延迟和运维成本。Embedding 模型要用标注 query-evidence 集评估 Recall@K、MRR、NDCG，而不是只看通用榜单；中文和混合中英场景要单独测。向量库选型上，FAISS 适合本地或离线高性能实验；Milvus/Qdrant 适合较大规模、独立向量服务和 HNSW/过滤能力；PGVector 适合数据量中等、已有 Postgres、需要事务和业务表近距离管理；ES/OpenSearch 适合 BM25、过滤、日志和混合检索。生产里常常不是二选一，而是 ES 做 lexical，向量库做 dense，数据库保存 source of truth。

理解与记忆 · 背后工程点

背后工程点：向量库是索引实现，不是 RAG 架构本身。
专业术语：Dense Retrieval 是向量语义检索；BM25 是关键词相关性算法；HNSW 是常见近似最近邻索引；Metadata Filter 是按权限、时间、类型过滤。
为什么这样回答：面试官想看你是否能把模型、索引、权限和运维约束一起权衡。
小白解析：选搜索系统不是“哪个最火”，而是看资料规模、要不要权限过滤、是否已有数据库、查询快不快、团队会不会运维。
关联知识点：本章反复强调 lexical、dense、graph 多路互补，不能只靠一个向量库解决所有问题。

RAG 你做了什么优化，如何确保能搜索到

OPENING30 秒开口版

1 MIN一分钟口语版

RAG GOALSRAG 优化目标

证据多入口

问题先处理

多路召回

权限前置

冲突可见

评测驱动

DIAGRAMRAG 优化链路

从原始资料到 selected context

召回评测闭环

TABLERAG 优化手段和适用问题

GOLD EVIDENCE标注协议和漂移控制

INTERVIEW MAP面试表达地图

SUBAGENTS面试官和候选人模拟

Q&A20 组高强度追问

PRINCIPLE本章背诵原则

专业术语	SelectedContextPack：本轮允许模型看到的表、列、关系、指标、样例和证据包。 RRF：Reciprocal Rank Fusion，多路召回结果的融合排序方法。 Gold Evidence：回答一个问题必须命中的标准证据。 Context Recall：最终上下文是否覆盖标准答案需要的事实。 Dropped Gold Reason：标准证据被权限、预算、重排或去重丢弃的原因。
为什么这样回答	面试官问“如何确保搜到”时，最怕只回答 topK 和 embedding。要先讲 RAG 在 Query OS 里负责把事实源编译成可审计上下文，再讲评测闭环。
小白解析	要让资料能被找到，就要给它多做几个门牌号；要证明找到了，就要提前标好哪些证据必须出现。
关联知识点	learn-RAG 的核心观点是：RAG 不是把所有资料塞进上下文，而是让关键证据完整、靠前、干净地进入上下文。

专业术语	Query Rewrite：把用户口语问题改写成更适合检索的查询 Metadata Filter：在召回前用时间、实体、类型、权限等字段缩小范围 Parent-child Index：小块负责精确召回，父块负责完整上下文 Hybrid Search：关键词、向量、图谱和结构化索引协同召回
为什么这样回答	一分钟版要同时讲“怎么做”和“怎么证明”，否则优化听起来像经验调参。
小白解析	先把资料整理成容易找的样子，再把问题改成适合搜索的样子，最后用指标证明该找的证据没有漏。
关联知识点	learn-RAG 05 讲检索前处理，06 讲索引优化，08 讲召回质量评估；text2sql README 强调 lexical、dense、graph lanes、权限过滤、RRF 和 rerank。