如何做性能、成本和并发优化

OPENING30 秒开口版

性能优化我不会只说换小模型，而是分层做：intake 和 semantic-plan 决定轻链路还是完整链路；RAG 有 lexical、dense、graph 三路独立 timeout、L1/L2 cache、budget policy 和 rerank 降级；SQL 侧对融资趋势、热榜、Token 解锁等热点做物化视图或预聚合；报告 Agent 的 data pack 可以异步生成、去重和复用；所有降级都进入 delivery.degradeReasons，不能静默变差。

理解与记忆 · 术语、解析、关联知识点

专业术语	Budget Policy：按问题复杂度和资源预算决定启用哪些能力。 L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。 Materialized View：预先计算热点聚合结果，降低实时查询成本。 Degrade Reason：降级原因，说明某个能力因成本、超时或故障被关闭。
为什么这样回答	性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析	不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点	text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

1 MIN一分钟口语版

具体策略是先减少不必要轮次，再做缓存和模型分层。简单元数据问题不走完整 Text2SQL；重复问题命中 planner cache、retrieval cache 或 data pack cache；高频榜单走预计算；复杂图谱查询限制跳数并设置 graph fallback；secondary rerank 只在高价值问题开启，超时回退到 primary rerank；报告 Agent 批量调用进入队列，按 reportType、timeRange、filters、semanticVersion、scope 去重。发布时看 retrievalP95Ms、budgetDegradeRate、cacheHitRate、orchestratorQueueWaitP95Ms、indexBuildSuccessRate 和 securityGatePass。

理解与记忆 · 术语、解析、关联知识点

专业术语	Budget Policy：按问题复杂度和资源预算决定启用哪些能力。 L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。 Materialized View：预先计算热点聚合结果，降低实时查询成本。 Degrade Reason：降级原因，说明某个能力因成本、超时或故障被关闭。
为什么这样回答	性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析	不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点	text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

ARCHITECTURE架构设计要点

轻重路由

metadata、简单查数、复杂投研、报告任务走不同预算。

检索预算

lexical/dense/graph 独立超时，secondary rerank 可降级。

缓存分层

retrieval、semantic plan、SQL result、data pack 按版本缓存。

预计算

融资趋势、热榜、Token 解锁、评分快照做物化视图。

队列并发

报告 Agent 批量任务异步化、去重、限流、优先级。

质量可见

所有降级写入 evidence，不牺牲权限和证据链。

DIAGRAM架构图

性能预算如何决定链路深度

报告 Agent 批量调用保护

TABLE关键对象和面试讲法

对象	职责	面试强调
RAG lane timeout	限制 lexical/dense/graph 等待	避免单路拖垮整体。
Rerank budget	secondary rerank 超时降级	质量和延迟权衡。
Planner cache	复用语义计划	适合重复问题和报告模板。
Materialized view	预计算热点指标	融资趋势、热榜、解锁日历。
Data pack cache	复用报告数据包	按 scope 和版本隔离。
Queue	异步批量任务	保护数据库和模型供应商。
P95 gate	发布门禁	防止优化只在平均值好看。

CACHE & BUDGET缓存 key 和降级边界

对象	关键设计	不能踩的线
dataPackCacheKey	reportType、timeRange、filters、semanticVersion、workspaceId、actorType、agentScope、policyVersion、snapshotTime	不能只按问题文本缓存，否则低权限 Agent 可能复用高权限数据包。
report queue	同一 key 单 worker 构建，其它请求等待或复用；按老板实时请求、内部投研、外部报告 Agent 做优先级。	不能让批量周报打爆数据库、图查询或模型供应商限流。
可降级能力	dense lane、graph lane、secondary rerank、长上下文压缩、部分解释性 evidence	降级必须写入 delivery.degradeReasons，不能 silent degradation。
不可降级能力	policy check、SQL AST validation、readonly guard、audit、field masking、source runId	不能为了省成本关闭权限、安全、审计和证据链。
性能观测	retrievalP95、executionP95、orchestratorQueueWaitP95、cacheHitRate、budgetDegradeRate、graphFallbackRate	不能只看平均延迟；P95 和降级率上升要能解释。

INTERVIEW MAP面试表达地图

先分目标老板实时问数和报告批量生成 SLA 不同。
减少轮次能规则解决就不调模型，能缓存就不重算。
预算降级超时能力降级但要写入 evidence。
热点预计算高频榜单和趋势不每次实时扫表。
守住治理性能优化不能绕过权限、证据和审计。

SUBAGENTS面试官、候选人和红队

本章写作前已实际启动多 subagent：面试官 subagent 负责连续追问生产压力，候选人 subagent 负责把答案压成现场能讲出口的表达，资料审阅 + 红队 subagent 负责指出哪些地方容易写虚，并补充安全、评测、runId、下游报告 Agent 的攻击面。

本章追问重点：所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。

Q&A20 组高强度追问

面试官：lexical、dense、graph 为什么要独立 timeout？

我：三路失败模式不同。lexical 通常快，dense 可能受向量服务影响，graph 可能受路径查询影响。独立 timeout 能让慢 lane 降级，不拖死整个检索。

理解与记忆 · 背后工程点

背后工程点：并行检索要有 lane 级预算。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：哪些结果适合缓存，哪些不能缓存？

我：语义计划、授权后的 retrieval bundle、热点聚合、报告 data pack 适合按版本缓存；含敏感明细、权限不稳定、实时行情和强时效结果要短 TTL 或不缓存。

本题主讲 · 相似题跳转

缓存、物化视图与批量性能：性能章主讲缓存/物化/批量保护，优化章和复杂分析章只补充业务场景。

理解与记忆 · 背后工程点

背后工程点：缓存必须按数据和权限特性区分。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：报告 Agent 批量周报如何避免打爆数据库？

我：任务队列化，按 reportType、timeRange、filters、semanticVersion、scope 去重，热点聚合走物化视图，限制并发和查询成本，结果写 data pack cache。

相似题已合并 · 建议跳转

系统 Agent 与报告 Agent 边界：主讲系统 Agent 为什么统一出 data pack，其他题只补权限、性能或踩坑角度。

理解与记忆 · 背后工程点

背后工程点：批量 Agent 调用需要任务治理。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：热门榜、融资趋势、Token 解锁是否做物化视图？

我：适合。它们查询频率高、口径稳定、时间窗口固定，可以预聚合。临时复杂筛选仍走实时查询，但基于预计算结果加过滤。

相似题已合并 · 建议跳转

缓存、物化视图与批量性能：性能章主讲缓存/物化/批量保护，优化章和复杂分析章只补充业务场景。

理解与记忆 · 背后工程点

背后工程点：热点稳定指标适合预计算。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：模型成本怎么控制？

我：入口分类和规则优先，简单问题走小模型或模板，SQL validate 和权限用程序，secondary rerank 只对高价值问题开，大模型用于复杂 semantic-plan 和 answer synthesis。

理解与记忆 · 背后工程点

背后工程点：先减少模型调用，再做模型分层。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：budget degrade 触发后牺牲什么？

我：可能牺牲 dense lane、graph lane 或 secondary rerank 的质量，但不能牺牲权限校验和 SQL 安全。delivery 必须写 degradeReasons，提示证据可能不完整。

理解与记忆 · 背后工程点

背后工程点：可降级的是增强能力，不是安全边界。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：cache hit 高但 stale read 升高怎么办？

我：缩短 TTL、把 cache key 加入数据版本、source cutoff 和 indexVersion，对高时效数据改为事件驱动失效。宁可命中率低一点，也不能返回过期确定结论。

相似题已合并 · 建议跳转

缓存、物化视图与批量性能：性能章主讲缓存/物化/批量保护，优化章和复杂分析章只补充业务场景。

理解与记忆 · 背后工程点

背后工程点：缓存命中率不能压过新鲜度。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：retrieval P95 超阈值先优化什么？

我：先看分解耗时和 degradeReasons。若 dense 慢，查向量服务和缓存；若 graph 慢，限制跳数或预计算；若 rerank 慢，关 secondary 或降低候选数。

理解与记忆 · 背后工程点

背后工程点：优化要按观测分解。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：graph fallback rate 高说明什么？

我：可能图查询慢、图索引不完整、路径候选太大或预算过紧。要看 graph lane replay、路径数量和超时原因，不是简单加机器。

理解与记忆 · 背后工程点

背后工程点：图降级率是关系查询健康信号。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：并发下如何避免重复构建相同 data pack？

我：用幂等 key 和任务锁。同一 reportType、timeRange、filters、semanticVersion、scope 的任务只允许一个 worker 构建，其他调用等待或复用结果。

理解与记忆 · 背后工程点

背后工程点：批量任务要去重和幂等。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：性能优化会不会破坏证据链？

我：不能。缓存对象必须保留 evidence refs、artifactRefs、semanticVersion 和 policyVersion。复用结果也要能回放来源，否则宁可不缓存。

理解与记忆 · 背后工程点

背后工程点：缓存也要保存可追溯合同。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：如何处理模型供应商限流？

我：模型网关要有健康检查、限流、重试和降级策略。低优先级报告任务排队，实时老板问数优先；必要时切小模型或返回任务处理中。

理解与记忆 · 背后工程点

背后工程点：模型资源也是并发瓶颈。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：SQL 查询超时怎么办？

我：validate 或 dry-run 先估成本，执行时设置 timeout 和 limit。超时后返回 execution degraded 或建议缩小时间窗口，不做无限重试。

相似题已合并 · 建议跳转

缓存、物化视图与批量性能：性能章主讲缓存/物化/批量保护，优化章和复杂分析章只补充业务场景。

理解与记忆 · 背后工程点

背后工程点：执行层必须有成本和超时保护。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：RAG topK 越大越好吗？

我：不一定。topK 大会提高 Recall，但也增加噪声、延迟和 token 成本。要用 Recall、MRR、Context Precision 和延迟一起调。

理解与记忆 · 背后工程点

背后工程点：召回数量和上下文质量要权衡。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：如何给老板问题更高优先级？

我：入口识别 actor 和 priority，实时问数使用较高队列优先级和更紧 SLA；离线报告任务可排队或降级。权限不因优先级改变。

理解与记忆 · 背后工程点

背后工程点：优先级影响资源，不影响授权。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：如何控制流式响应体验？

我：先快速返回 start 和思考状态，关键节点发 step，最终 finish 带完整 delivery。不能在中间事件暴露未完成或未授权证据。

理解与记忆 · 背后工程点

背后工程点：流式体验和交付完整性要分开。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：性能优化怎么评测？

我：看 P50/P95/P99、模型调用次数、token 成本、cache hit、stale read、degrade rate、SQL timeout、质量指标是否回退。

相似题已合并 · 建议跳转

评测、badcase 与回归门禁：评测章主讲体系，优化、安全、观测和性能章只补各自维度的验收。

理解与记忆 · 背后工程点

背后工程点：性能收益要和质量回归一起看。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：什么时候引入图数据库？

我：只有 Postgres 上高频图路径查询成为瓶颈，且基准证明 P95 或成本有明显收益时，才把高频子图同步到只读图数据库。不要为了架构好看提前引入。

相似题已合并 · 建议跳转

GraphRAG、图查询与图数据库：复杂分析章主讲共同投资网络为什么走图，评测、排障和性能章分别补充质量、错误定位和成本。

理解与记忆 · 背后工程点

背后工程点：图数据库是优化选项，不是默认答案。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：如何避免压成本导致幻觉？

我：成本优化不能关闭 evidence、validate 和权限。若预算不足，宁可返回低置信或异步任务，也不让模型无证据补答案。

相似题已合并 · 建议跳转

Prompt Injection、幻觉与敏感数据外带：安全章主讲指令隔离和幻觉防护，权限和可观测章补充审计、记录和外带场景。

理解与记忆 · 背后工程点

背后工程点：低成本不能牺牲可信边界。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官：一句话总结性能优化。

我：我先用路由减少不必要工作，再用缓存和预计算复用确定性产物，最后用预算和降级保护 SLA，同时保留证据和权限边界。

理解与记忆 · 背后工程点

背后工程点：总结要体现多目标权衡。
专业术语：Budget Policy：按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache：本地或分布式缓存，用于检索、计划或数据包复用。
Materialized View：预先计算热点聚合结果，降低实时查询成本。
为什么这样回答：性能题要体现多目标权衡。只讲缓存会显得浅，必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析：不是所有问题都要开最贵的流程。简单问题走快车道，复杂报告排队生成，热门数据提前算好，超时能力要说明降级。
关联知识点：text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

PRINCIPLE本章背诵原则

先减少轮次，再优化单次调用。
缓存 key 必须包含权限、语义和数据版本。
增强能力可降级，安全能力不可降级。
报告批量任务要异步、去重、限流。
性能门禁必须和质量门禁一起看。