Text2SQL 指南

如何做性能、成本和并发优化

这一章讲规模化能力:老板实时问数需要快,下游报告 Agent 会批量生成数据包,系统要通过路由、缓存、预算、降级、物化视图、模型分层和任务队列保持稳定。

OPENING30 秒开口版

性能优化我不会只说换小模型,而是分层做:intake 和 semantic-plan 决定轻链路还是完整链路;RAG 有 lexical、dense、graph 三路独立 timeout、L1/L2 cache、budget policy 和 rerank 降级;SQL 侧对融资趋势、热榜、Token 解锁等热点做物化视图或预聚合;报告 Agent 的 data pack 可以异步生成、去重和复用;所有降级都进入 delivery.degradeReasons,不能静默变差。

理解与记忆 · 术语、解析、关联知识点
专业术语Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
Degrade Reason:降级原因,说明某个能力因成本、超时或故障被关闭。
为什么这样回答性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

1 MIN一分钟口语版

具体策略是先减少不必要轮次,再做缓存和模型分层。简单元数据问题不走完整 Text2SQL;重复问题命中 planner cache、retrieval cache 或 data pack cache;高频榜单走预计算;复杂图谱查询限制跳数并设置 graph fallback;secondary rerank 只在高价值问题开启,超时回退到 primary rerank;报告 Agent 批量调用进入队列,按 reportType、timeRange、filters、semanticVersion、scope 去重。发布时看 retrievalP95Ms、budgetDegradeRate、cacheHitRate、orchestratorQueueWaitP95Ms、indexBuildSuccessRate 和 securityGatePass。

理解与记忆 · 术语、解析、关联知识点
专业术语Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
Degrade Reason:降级原因,说明某个能力因成本、超时或故障被关闭。
为什么这样回答性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

ARCHITECTURE架构设计要点

轻重路由

metadata、简单查数、复杂投研、报告任务走不同预算。

检索预算

lexical/dense/graph 独立超时,secondary rerank 可降级。

缓存分层

retrieval、semantic plan、SQL result、data pack 按版本缓存。

预计算

融资趋势、热榜、Token 解锁、评分快照做物化视图。

队列并发

报告 Agent 批量任务异步化、去重、限流、优先级。

质量可见

所有降级写入 evidence,不牺牲权限和证据链。

DIAGRAM架构图

性能预算如何决定链路深度

如何做性能、成本和并发优化 Mermaid diagram 1

报告 Agent 批量调用保护

如何做性能、成本和并发优化 Mermaid diagram 2

TABLE关键对象和面试讲法

对象职责面试强调
RAG lane timeout限制 lexical/dense/graph 等待避免单路拖垮整体。
Rerank budgetsecondary rerank 超时降级质量和延迟权衡。
Planner cache复用语义计划适合重复问题和报告模板。
Materialized view预计算热点指标融资趋势、热榜、解锁日历。
Data pack cache复用报告数据包按 scope 和版本隔离。
Queue异步批量任务保护数据库和模型供应商。
P95 gate发布门禁防止优化只在平均值好看。

CACHE & BUDGET缓存 key 和降级边界

对象关键设计不能踩的线
dataPackCacheKeyreportType、timeRange、filters、semanticVersion、workspaceId、actorType、agentScope、policyVersion、snapshotTime不能只按问题文本缓存,否则低权限 Agent 可能复用高权限数据包。
report queue同一 key 单 worker 构建,其它请求等待或复用;按老板实时请求、内部投研、外部报告 Agent 做优先级。不能让批量周报打爆数据库、图查询或模型供应商限流。
可降级能力dense lane、graph lane、secondary rerank、长上下文压缩、部分解释性 evidence降级必须写入 delivery.degradeReasons,不能 silent degradation。
不可降级能力policy check、SQL AST validation、readonly guard、audit、field masking、source runId不能为了省成本关闭权限、安全、审计和证据链。
性能观测retrievalP95、executionP95、orchestratorQueueWaitP95、cacheHitRate、budgetDegradeRate、graphFallbackRate不能只看平均延迟;P95 和降级率上升要能解释。

INTERVIEW MAP面试表达地图

  1. 先分目标老板实时问数和报告批量生成 SLA 不同。
  2. 减少轮次能规则解决就不调模型,能缓存就不重算。
  3. 预算降级超时能力降级但要写入 evidence。
  4. 热点预计算高频榜单和趋势不每次实时扫表。
  5. 守住治理性能优化不能绕过权限、证据和审计。

SUBAGENTS面试官、候选人和红队

本章写作前已实际启动多 subagent:面试官 subagent 负责连续追问生产压力,候选人 subagent 负责把答案压成现场能讲出口的表达,资料审阅 + 红队 subagent 负责指出哪些地方容易写虚,并补充安全、评测、runId、下游报告 Agent 的攻击面。

本章追问重点:所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。

Q&A20 组高强度追问

面试官:lexical、dense、graph 为什么要独立 timeout?

我:三路失败模式不同。lexical 通常快,dense 可能受向量服务影响,graph 可能受路径查询影响。独立 timeout 能让慢 lane 降级,不拖死整个检索。

理解与记忆 · 背后工程点

背后工程点:并行检索要有 lane 级预算。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:哪些结果适合缓存,哪些不能缓存?

我:语义计划、授权后的 retrieval bundle、热点聚合、报告 data pack 适合按版本缓存;含敏感明细、权限不稳定、实时行情和强时效结果要短 TTL 或不缓存。

理解与记忆 · 背后工程点

背后工程点:缓存必须按数据和权限特性区分。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:报告 Agent 批量周报如何避免打爆数据库?

我:任务队列化,按 reportType、timeRange、filters、semanticVersion、scope 去重,热点聚合走物化视图,限制并发和查询成本,结果写 data pack cache。

相似题已合并 · 建议跳转

系统 Agent 与报告 Agent 边界:主讲系统 Agent 为什么统一出 data pack,其他题只补权限、性能或踩坑角度。

理解与记忆 · 背后工程点

背后工程点:批量 Agent 调用需要任务治理。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:热门榜、融资趋势、Token 解锁是否做物化视图?

我:适合。它们查询频率高、口径稳定、时间窗口固定,可以预聚合。临时复杂筛选仍走实时查询,但基于预计算结果加过滤。

理解与记忆 · 背后工程点

背后工程点:热点稳定指标适合预计算。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:模型成本怎么控制?

我:入口分类和规则优先,简单问题走小模型或模板,SQL validate 和权限用程序,secondary rerank 只对高价值问题开,大模型用于复杂 semantic-plan 和 answer synthesis。

理解与记忆 · 背后工程点

背后工程点:先减少模型调用,再做模型分层。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:budget degrade 触发后牺牲什么?

我:可能牺牲 dense lane、graph lane 或 secondary rerank 的质量,但不能牺牲权限校验和 SQL 安全。delivery 必须写 degradeReasons,提示证据可能不完整。

理解与记忆 · 背后工程点

背后工程点:可降级的是增强能力,不是安全边界。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:cache hit 高但 stale read 升高怎么办?

我:缩短 TTL、把 cache key 加入数据版本、source cutoff 和 indexVersion,对高时效数据改为事件驱动失效。宁可命中率低一点,也不能返回过期确定结论。

理解与记忆 · 背后工程点

背后工程点:缓存命中率不能压过新鲜度。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:retrieval P95 超阈值先优化什么?

我:先看分解耗时和 degradeReasons。若 dense 慢,查向量服务和缓存;若 graph 慢,限制跳数或预计算;若 rerank 慢,关 secondary 或降低候选数。

理解与记忆 · 背后工程点

背后工程点:优化要按观测分解。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:graph fallback rate 高说明什么?

我:可能图查询慢、图索引不完整、路径候选太大或预算过紧。要看 graph lane replay、路径数量和超时原因,不是简单加机器。

理解与记忆 · 背后工程点

背后工程点:图降级率是关系查询健康信号。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:并发下如何避免重复构建相同 data pack?

我:用幂等 key 和任务锁。同一 reportType、timeRange、filters、semanticVersion、scope 的任务只允许一个 worker 构建,其他调用等待或复用结果。

理解与记忆 · 背后工程点

背后工程点:批量任务要去重和幂等。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:性能优化会不会破坏证据链?

我:不能。缓存对象必须保留 evidence refs、artifactRefs、semanticVersion 和 policyVersion。复用结果也要能回放来源,否则宁可不缓存。

理解与记忆 · 背后工程点

背后工程点:缓存也要保存可追溯合同。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:如何处理模型供应商限流?

我:模型网关要有健康检查、限流、重试和降级策略。低优先级报告任务排队,实时老板问数优先;必要时切小模型或返回任务处理中。

理解与记忆 · 背后工程点

背后工程点:模型资源也是并发瓶颈。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:SQL 查询超时怎么办?

我:validate 或 dry-run 先估成本,执行时设置 timeout 和 limit。超时后返回 execution degraded 或建议缩小时间窗口,不做无限重试。

理解与记忆 · 背后工程点

背后工程点:执行层必须有成本和超时保护。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:RAG topK 越大越好吗?

我:不一定。topK 大会提高 Recall,但也增加噪声、延迟和 token 成本。要用 Recall、MRR、Context Precision 和延迟一起调。

理解与记忆 · 背后工程点

背后工程点:召回数量和上下文质量要权衡。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:如何给老板问题更高优先级?

我:入口识别 actor 和 priority,实时问数使用较高队列优先级和更紧 SLA;离线报告任务可排队或降级。权限不因优先级改变。

理解与记忆 · 背后工程点

背后工程点:优先级影响资源,不影响授权。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:如何控制流式响应体验?

我:先快速返回 start 和思考状态,关键节点发 step,最终 finish 带完整 delivery。不能在中间事件暴露未完成或未授权证据。

理解与记忆 · 背后工程点

背后工程点:流式体验和交付完整性要分开。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:性能优化怎么评测?

我:看 P50/P95/P99、模型调用次数、token 成本、cache hit、stale read、degrade rate、SQL timeout、质量指标是否回退。

理解与记忆 · 背后工程点

背后工程点:性能收益要和质量回归一起看。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:什么时候引入图数据库?

我:只有 Postgres 上高频图路径查询成为瓶颈,且基准证明 P95 或成本有明显收益时,才把高频子图同步到只读图数据库。不要为了架构好看提前引入。

相似题已合并 · 建议跳转

GraphRAG、图查询与图数据库:复杂分析章主讲共同投资网络为什么走图,评测、排障和性能章分别补充质量、错误定位和成本。

理解与记忆 · 背后工程点

背后工程点:图数据库是优化选项,不是默认答案。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:如何避免压成本导致幻觉?

我:成本优化不能关闭 evidence、validate 和权限。若预算不足,宁可返回低置信或异步任务,也不让模型无证据补答案。

理解与记忆 · 背后工程点

背后工程点:低成本不能牺牲可信边界。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

面试官:一句话总结性能优化。

我:我先用路由减少不必要工作,再用缓存和预计算复用确定性产物,最后用预算和降级保护 SLA,同时保留证据和权限边界。

理解与记忆 · 背后工程点

背后工程点:总结要体现多目标权衡。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。

PRINCIPLE本章背诵原则

  • 先减少轮次,再优化单次调用。
  • 缓存 key 必须包含权限、语义和数据版本。
  • 增强能力可降级,安全能力不可降级。
  • 报告批量任务要异步、去重、限流。
  • 性能门禁必须和质量门禁一起看。