OPENING30 秒开口版
性能优化我不会只说换小模型,而是分层做:intake 和 semantic-plan 决定轻链路还是完整链路;RAG 有 lexical、dense、graph 三路独立 timeout、L1/L2 cache、budget policy 和 rerank 降级;SQL 侧对融资趋势、热榜、Token 解锁等热点做物化视图或预聚合;报告 Agent 的 data pack 可以异步生成、去重和复用;所有降级都进入 delivery.degradeReasons,不能静默变差。
理解与记忆 · 术语、解析、关联知识点
| 专业术语 | Budget Policy:按问题复杂度和资源预算决定启用哪些能力。 L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。 Materialized View:预先计算热点聚合结果,降低实时查询成本。 Degrade Reason:降级原因,说明某个能力因成本、超时或故障被关闭。 |
| 为什么这样回答 | 性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。 |
| 小白解析 | 不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。 |
| 关联知识点 | text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。 |
1 MIN一分钟口语版
具体策略是先减少不必要轮次,再做缓存和模型分层。简单元数据问题不走完整 Text2SQL;重复问题命中 planner cache、retrieval cache 或 data pack cache;高频榜单走预计算;复杂图谱查询限制跳数并设置 graph fallback;secondary rerank 只在高价值问题开启,超时回退到 primary rerank;报告 Agent 批量调用进入队列,按 reportType、timeRange、filters、semanticVersion、scope 去重。发布时看 retrievalP95Ms、budgetDegradeRate、cacheHitRate、orchestratorQueueWaitP95Ms、indexBuildSuccessRate 和 securityGatePass。
理解与记忆 · 术语、解析、关联知识点
| 专业术语 | Budget Policy:按问题复杂度和资源预算决定启用哪些能力。 L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。 Materialized View:预先计算热点聚合结果,降低实时查询成本。 Degrade Reason:降级原因,说明某个能力因成本、超时或故障被关闭。 |
| 为什么这样回答 | 性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。 |
| 小白解析 | 不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。 |
| 关联知识点 | text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。 |
ARCHITECTURE架构设计要点
轻重路由
metadata、简单查数、复杂投研、报告任务走不同预算。
检索预算
lexical/dense/graph 独立超时,secondary rerank 可降级。
缓存分层
retrieval、semantic plan、SQL result、data pack 按版本缓存。
预计算
融资趋势、热榜、Token 解锁、评分快照做物化视图。
队列并发
报告 Agent 批量任务异步化、去重、限流、优先级。
质量可见
所有降级写入 evidence,不牺牲权限和证据链。
DIAGRAM架构图
性能预算如何决定链路深度
报告 Agent 批量调用保护
TABLE关键对象和面试讲法
| 对象 | 职责 | 面试强调 |
|---|---|---|
| RAG lane timeout | 限制 lexical/dense/graph 等待 | 避免单路拖垮整体。 |
| Rerank budget | secondary rerank 超时降级 | 质量和延迟权衡。 |
| Planner cache | 复用语义计划 | 适合重复问题和报告模板。 |
| Materialized view | 预计算热点指标 | 融资趋势、热榜、解锁日历。 |
| Data pack cache | 复用报告数据包 | 按 scope 和版本隔离。 |
| Queue | 异步批量任务 | 保护数据库和模型供应商。 |
| P95 gate | 发布门禁 | 防止优化只在平均值好看。 |
CACHE & BUDGET缓存 key 和降级边界
| 对象 | 关键设计 | 不能踩的线 |
|---|---|---|
| dataPackCacheKey | reportType、timeRange、filters、semanticVersion、workspaceId、actorType、agentScope、policyVersion、snapshotTime | 不能只按问题文本缓存,否则低权限 Agent 可能复用高权限数据包。 |
| report queue | 同一 key 单 worker 构建,其它请求等待或复用;按老板实时请求、内部投研、外部报告 Agent 做优先级。 | 不能让批量周报打爆数据库、图查询或模型供应商限流。 |
| 可降级能力 | dense lane、graph lane、secondary rerank、长上下文压缩、部分解释性 evidence | 降级必须写入 delivery.degradeReasons,不能 silent degradation。 |
| 不可降级能力 | policy check、SQL AST validation、readonly guard、audit、field masking、source runId | 不能为了省成本关闭权限、安全、审计和证据链。 |
| 性能观测 | retrievalP95、executionP95、orchestratorQueueWaitP95、cacheHitRate、budgetDegradeRate、graphFallbackRate | 不能只看平均延迟;P95 和降级率上升要能解释。 |
INTERVIEW MAP面试表达地图
- 先分目标老板实时问数和报告批量生成 SLA 不同。
- 减少轮次能规则解决就不调模型,能缓存就不重算。
- 预算降级超时能力降级但要写入 evidence。
- 热点预计算高频榜单和趋势不每次实时扫表。
- 守住治理性能优化不能绕过权限、证据和审计。
SUBAGENTS面试官、候选人和红队
本章写作前已实际启动多 subagent:面试官 subagent 负责连续追问生产压力,候选人 subagent 负责把答案压成现场能讲出口的表达,资料审阅 + 红队 subagent 负责指出哪些地方容易写虚,并补充安全、评测、runId、下游报告 Agent 的攻击面。
本章追问重点:所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。
Q&A20 组高强度追问
面试官:lexical、dense、graph 为什么要独立 timeout?
我:三路失败模式不同。lexical 通常快,dense 可能受向量服务影响,graph 可能受路径查询影响。独立 timeout 能让慢 lane 降级,不拖死整个检索。
理解与记忆 · 背后工程点
背后工程点:并行检索要有 lane 级预算。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:哪些结果适合缓存,哪些不能缓存?
我:语义计划、授权后的 retrieval bundle、热点聚合、报告 data pack 适合按版本缓存;含敏感明细、权限不稳定、实时行情和强时效结果要短 TTL 或不缓存。
缓存、物化视图与批量性能:性能章主讲缓存/物化/批量保护,优化章和复杂分析章只补充业务场景。
- 06-optimizations · q04
- 06-optimizations · q08
- 06-optimizations · q14
- 10-complex-analysis-planning · q09
- 10-complex-analysis-planning · q18
- 12-freshness-source-consistency · q02
- 14-performance-cost-concurrency · q03
- 14-performance-cost-concurrency · q04
- 14-performance-cost-concurrency · q07
- 14-performance-cost-concurrency · q13
理解与记忆 · 背后工程点
背后工程点:缓存必须按数据和权限特性区分。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:报告 Agent 批量周报如何避免打爆数据库?
我:任务队列化,按 reportType、timeRange、filters、semanticVersion、scope 去重,热点聚合走物化视图,限制并发和查询成本,结果写 data pack cache。
系统 Agent 与报告 Agent 边界:主讲系统 Agent 为什么统一出 data pack,其他题只补权限、性能或踩坑角度。
理解与记忆 · 背后工程点
背后工程点:批量 Agent 调用需要任务治理。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:热门榜、融资趋势、Token 解锁是否做物化视图?
我:适合。它们查询频率高、口径稳定、时间窗口固定,可以预聚合。临时复杂筛选仍走实时查询,但基于预计算结果加过滤。
缓存、物化视图与批量性能:性能章主讲缓存/物化/批量保护,优化章和复杂分析章只补充业务场景。
- 14-performance-cost-concurrency · q02
- 06-optimizations · q04
- 06-optimizations · q08
- 06-optimizations · q14
- 10-complex-analysis-planning · q09
- 10-complex-analysis-planning · q18
- 12-freshness-source-consistency · q02
- 14-performance-cost-concurrency · q03
- 14-performance-cost-concurrency · q07
- 14-performance-cost-concurrency · q13
理解与记忆 · 背后工程点
背后工程点:热点稳定指标适合预计算。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:模型成本怎么控制?
我:入口分类和规则优先,简单问题走小模型或模板,SQL validate 和权限用程序,secondary rerank 只对高价值问题开,大模型用于复杂 semantic-plan 和 answer synthesis。
理解与记忆 · 背后工程点
背后工程点:先减少模型调用,再做模型分层。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:budget degrade 触发后牺牲什么?
我:可能牺牲 dense lane、graph lane 或 secondary rerank 的质量,但不能牺牲权限校验和 SQL 安全。delivery 必须写 degradeReasons,提示证据可能不完整。
理解与记忆 · 背后工程点
背后工程点:可降级的是增强能力,不是安全边界。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:cache hit 高但 stale read 升高怎么办?
我:缩短 TTL、把 cache key 加入数据版本、source cutoff 和 indexVersion,对高时效数据改为事件驱动失效。宁可命中率低一点,也不能返回过期确定结论。
缓存、物化视图与批量性能:性能章主讲缓存/物化/批量保护,优化章和复杂分析章只补充业务场景。
- 14-performance-cost-concurrency · q02
- 06-optimizations · q04
- 06-optimizations · q08
- 06-optimizations · q14
- 10-complex-analysis-planning · q09
- 10-complex-analysis-planning · q18
- 12-freshness-source-consistency · q02
- 14-performance-cost-concurrency · q03
- 14-performance-cost-concurrency · q04
- 14-performance-cost-concurrency · q13
理解与记忆 · 背后工程点
背后工程点:缓存命中率不能压过新鲜度。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:retrieval P95 超阈值先优化什么?
我:先看分解耗时和 degradeReasons。若 dense 慢,查向量服务和缓存;若 graph 慢,限制跳数或预计算;若 rerank 慢,关 secondary 或降低候选数。
理解与记忆 · 背后工程点
背后工程点:优化要按观测分解。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:graph fallback rate 高说明什么?
我:可能图查询慢、图索引不完整、路径候选太大或预算过紧。要看 graph lane replay、路径数量和超时原因,不是简单加机器。
理解与记忆 · 背后工程点
背后工程点:图降级率是关系查询健康信号。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:并发下如何避免重复构建相同 data pack?
我:用幂等 key 和任务锁。同一 reportType、timeRange、filters、semanticVersion、scope 的任务只允许一个 worker 构建,其他调用等待或复用结果。
理解与记忆 · 背后工程点
背后工程点:批量任务要去重和幂等。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:性能优化会不会破坏证据链?
我:不能。缓存对象必须保留 evidence refs、artifactRefs、semanticVersion 和 policyVersion。复用结果也要能回放来源,否则宁可不缓存。
理解与记忆 · 背后工程点
背后工程点:缓存也要保存可追溯合同。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:如何处理模型供应商限流?
我:模型网关要有健康检查、限流、重试和降级策略。低优先级报告任务排队,实时老板问数优先;必要时切小模型或返回任务处理中。
理解与记忆 · 背后工程点
背后工程点:模型资源也是并发瓶颈。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:SQL 查询超时怎么办?
我:validate 或 dry-run 先估成本,执行时设置 timeout 和 limit。超时后返回 execution degraded 或建议缩小时间窗口,不做无限重试。
缓存、物化视图与批量性能:性能章主讲缓存/物化/批量保护,优化章和复杂分析章只补充业务场景。
- 14-performance-cost-concurrency · q02
- 06-optimizations · q04
- 06-optimizations · q08
- 06-optimizations · q14
- 10-complex-analysis-planning · q09
- 10-complex-analysis-planning · q18
- 12-freshness-source-consistency · q02
- 14-performance-cost-concurrency · q03
- 14-performance-cost-concurrency · q04
- 14-performance-cost-concurrency · q07
理解与记忆 · 背后工程点
背后工程点:执行层必须有成本和超时保护。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:RAG topK 越大越好吗?
我:不一定。topK 大会提高 Recall,但也增加噪声、延迟和 token 成本。要用 Recall、MRR、Context Precision 和延迟一起调。
理解与记忆 · 背后工程点
背后工程点:召回数量和上下文质量要权衡。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:如何给老板问题更高优先级?
我:入口识别 actor 和 priority,实时问数使用较高队列优先级和更紧 SLA;离线报告任务可排队或降级。权限不因优先级改变。
理解与记忆 · 背后工程点
背后工程点:优先级影响资源,不影响授权。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:如何控制流式响应体验?
我:先快速返回 start 和思考状态,关键节点发 step,最终 finish 带完整 delivery。不能在中间事件暴露未完成或未授权证据。
理解与记忆 · 背后工程点
背后工程点:流式体验和交付完整性要分开。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:性能优化怎么评测?
我:看 P50/P95/P99、模型调用次数、token 成本、cache hit、stale read、degrade rate、SQL timeout、质量指标是否回退。
评测、badcase 与回归门禁:评测章主讲体系,优化、安全、观测和性能章只补各自维度的验收。
- 09-evaluation-badcase-loop · q01
- 06-optimizations · q17
- 08-permission-security-governance · q19
- 09-evaluation-badcase-loop · q06
- 09-evaluation-badcase-loop · q09
- 09-evaluation-badcase-loop · q13
- 09-evaluation-badcase-loop · q14
- 09-evaluation-badcase-loop · q18
- 09-evaluation-badcase-loop · q19
- 12-freshness-source-consistency · q19
- 13-observability-troubleshooting · q15
- 13-observability-troubleshooting · q19
理解与记忆 · 背后工程点
背后工程点:性能收益要和质量回归一起看。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:什么时候引入图数据库?
我:只有 Postgres 上高频图路径查询成为瓶颈,且基准证明 P95 或成本有明显收益时,才把高频子图同步到只读图数据库。不要为了架构好看提前引入。
GraphRAG、图查询与图数据库:复杂分析章主讲共同投资网络为什么走图,评测、排障和性能章分别补充质量、错误定位和成本。
理解与记忆 · 背后工程点
背后工程点:图数据库是优化选项,不是默认答案。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:如何避免压成本导致幻觉?
我:成本优化不能关闭 evidence、validate 和权限。若预算不足,宁可返回低置信或异步任务,也不让模型无证据补答案。
Prompt Injection、幻觉与敏感数据外带:安全章主讲指令隔离和幻觉防护,权限和可观测章补充审计、记录和外带场景。
- 15-anti-hallucination-sql-injection · q01
- 08-permission-security-governance · q17
- 08-permission-security-governance · q18
- 13-observability-troubleshooting · q11
- 15-anti-hallucination-sql-injection · q07
- 15-anti-hallucination-sql-injection · q08
- 15-anti-hallucination-sql-injection · q12
- 15-anti-hallucination-sql-injection · q13
- 15-anti-hallucination-sql-injection · q17
- 15-anti-hallucination-sql-injection · q18
理解与记忆 · 背后工程点
背后工程点:低成本不能牺牲可信边界。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
面试官:一句话总结性能优化。
我:我先用路由减少不必要工作,再用缓存和预计算复用确定性产物,最后用预算和降级保护 SLA,同时保留证据和权限边界。
理解与记忆 · 背后工程点
背后工程点:总结要体现多目标权衡。
专业术语:Budget Policy:按问题复杂度和资源预算决定启用哪些能力。
L1/L2 Cache:本地或分布式缓存,用于检索、计划或数据包复用。
Materialized View:预先计算热点聚合结果,降低实时查询成本。
为什么这样回答:性能题要体现多目标权衡。只讲缓存会显得浅,必须同时覆盖准确率、安全、延迟、成本和并发。
小白解析:不是所有问题都要开最贵的流程。简单问题走快车道,复杂报告排队生成,热门数据提前算好,超时能力要说明降级。
关联知识点:text2sql RAG 设计有 lane timeout、预算控制、L1/L2 cache、降级和 replay。R6 runbook 关注 retrievalP95Ms、budgetDegradeRate、cacheEligibleHitRate、队列等待和图通道 fallback。
PRINCIPLE本章背诵原则
- 先减少轮次,再优化单次调用。
- 缓存 key 必须包含权限、语义和数据版本。
- 增强能力可降级,安全能力不可降级。
- 报告批量任务要异步、去重、限流。
- 性能门禁必须和质量门禁一起看。