Planning / Replanning 要如何设计？

SCOPE本章边界

本章只解决显式计划状态、重规划触发和验证闭环。Plan 是可展示、可恢复的工作对象，不是隐藏思维链，也不替代可靠性和评测章节。

30 SEC面试开口版

我会把 planning 设计成显式工作状态，而不是隐藏思维过程。Agent 先把目标、约束、已知事实、待办、风险和验证标准写成 plan object；每次工具观察、权限拒绝、测试失败或用户修正后，按触发条件局部 replan。计划不是越长越好，它要能指导下一步、暴露不确定性、给用户接管，并在验证失败时解释为什么改路线。

理解与记忆 · 术语、解析、关联知识点

专业术语	Plan Object：可持久化、可展示的计划状态。 Replanning Trigger：触发重规划的事件。 Verification Gate：判断计划是否完成的验证门。 Uncertainty：计划中的未知和风险。 Stop Condition：停止或交付的条件。
为什么这样回答	先把计划从“模型脑内推理”改成“runtime 可治理对象”，能绕开泄露思维链的问题，也能体现工程落地。
小白解析	计划不是写给自己看的长作文，而是项目白板：现在目标是什么，下一步做什么，什么情况要改方向。
关联知识点	Anthropic 把 orchestrator-workers、evaluator-optimizer 等模式视为 agentic system；Guga/learn-agent 把 plan/todo/verification 放进 harness state。

1 MIN一分钟口语版

我的设计会分三种计划：初始 plan 用来对齐目标和边界；运行中 plan 用来记录当前待办、证据和不确定性；恢复 plan 用来在 compact、resume 或失败后继续。Planner 不必每轮都调用，只有目标变化、关键事实变化、连续失败、预算压力、外部副作用前、验证失败时才 replan。每个 plan item 要有状态、依赖、证据引用、预期验证和风险等级。执行时 Agent 不按计划盲走，而是每步观察后更新 plan，最后用测试、规则、用户确认或 eval 做收口。

理解与记忆 · 术语、解析、关联知识点

专业术语	Initial Plan：任务开始时的目标拆解。 Working Plan：执行中持续更新的待办状态。 Recovery Plan：恢复或压缩后继续工作的计划。 Plan Item：带状态、依赖、证据和验证方式的步骤。 Budget Pressure：token、时间、费用或轮次接近限制。
为什么这样回答	一分钟回答要把计划和执行闭环连接起来：计划、行动、观察、重规划、验证，这比单纯说“先写 todo”更完整。
小白解析	修 bug 时先列步骤，跑测试后发现不是原来的错误，就改白板，而不是假装原计划还对。
关联知识点	ReAct 强调推理与行动交替；Anthropic 建议简单 workflow 能解决就别上复杂 agent；LangGraph 和 harness 文档都强调状态、检查点和 human-in-the-loop。

FLOW计划不是一次性文本，而是运行状态

GOAL目标、约束、成功标准先结构化。

PLAN拆成有依赖、有验证的 plan items。

ACT每一步只执行当前最有证据的动作。

OBSERVE工具结果、用户反馈、失败进入事实链。

REPLAN事实变化或验证失败时局部调整。

Planning / Replanning 控制环

Planning / Replanning 要如何设计？ Mermaid diagram 1

COMPARE主流方案怎么讲

Anthropic 模式

Anthropic 建议优先使用简单 workflow；任务需要动态拆解和判断时再用 agents。orchestrator-workers 和 evaluator-optimizer 都体现了显式控制流。

OpenAI Agent guide

OpenAI 的 agent guide 强调从小范围、可验证流程开始，工具、guardrails 和 handoff 要围绕具体任务设计。

ReAct

ReAct 的价值不是“写思维链”，而是把行动后的 observation 重新带回决策，让计划随着事实更新。

Guga / learn-agent

本地设计把 plan/todo/active files/verification 作为 harness state，而不是普通聊天文本；compact 后也能重新注入。

DESIGN我会怎么设计

Plan Schema保存 goal、constraints、knownFacts、unknowns、items、risk、verification、budget、lastEvidenceRef。
Planner Gate不是每轮都规划；只在目标变化、事实冲突、连续失败、预算压力、外部副作用前触发。
Plan Item每项有 status、owner、dependency、expectedObservation、verification、rollbackHint，便于恢复和 UI 展示。
Replan Policy重规划优先局部修改，不随便推翻全部历史；保留为什么改变路线的事件。
Verification计划结束必须绑定测试、规则、用户确认或 eval，不允许“感觉完成”。

TRADEOFF常见问题和优化

问题：计划太长反而拖慢

限制计划粒度，只规划当前可执行的 3-7 步；长任务用 milestone，细节在执行中滚动展开。

问题：模型假装按计划完成

plan item 的 done 必须绑定 observation 或 verification event，不能只靠 assistant 文本声明。

问题：频繁重规划抖动

设置 replan cooldown、failure threshold 和 change reason，避免每个小噪声都推翻路线。

问题：计划泄露内部推理

展示目标、步骤、证据和不确定性，不展示隐藏推理链；plan 是工作状态，不是 chain-of-thought。

REVISIONPlanItem 状态机

状态	含义	必须绑定什么证据
todo	已计划，未开始	goal / constraint ref
doing	正在执行	active tool call 或工作区引用
blocked	缺权限、事实或外部依赖	blocker event、需要谁确认
verified	已完成并验证	test / lint / artifact / user confirmation
skipped	有理由跳过	skip reason 和风险说明
superseded	被新计划替代	new item id 和替代原因

Plan 不等于 chain-of-thought。对用户展示目标、步骤、证据、不确定性和验证标准，不展示隐藏推理过程。

REVISIONPlanning 算法取舍

方式	适合场景	不适合场景
ReAct	局部探索、工具反馈快、任务步数不长。	长任务、强审计、用户需要接管时容易短视。
显式 Plan	长任务、跨工具、需要恢复、预算和用户可见状态。	一两步确定动作，规划开销大于收益。
HTN / Workflow Template	领域流程稳定但参数不确定，如报销、发布、数据同步。	开放式研究或未知步骤很多的任务。
Tree / Beam Search	动作空间小、可模拟、有评分函数，例如局部代码修复候选。	真实副作用昂贵或不可逆的环境，不能 blind search。
Evaluator-Optimizer	生成物可评分，如 patch、摘要、方案、SQL。	评估器本身不可靠或目标不可形式化时。
Constraint Solver	强约束调度、资源分配、权限组合。	让 LLM 硬猜约束满足，容易漏边界。

是否继续搜索可以用 value of information 判断：继续探索的预期收益高于成本和风险时查更多；成本高、风险高或事实只能由用户决定时，就 ask user 或执行保守动作。

INTERVIEW高强度追问

面试官：什么时候需要 planner，什么时候不需要？第二层追问：简单任务也先规划会不会浪费？

我：我不会所有请求都先开一个复杂 planner。比如格式化一个文件、解释一段代码，这种一两步就能完成的任务，直接执行再验证就够了。Planner 真正有价值的是目标开放、步骤有依赖、工具很多、风险高、任务可能跨很多轮的时候。比如修一个 CI 失败，你可能先复现，再读日志，再定位文件，再 patch，再跑测试；没有 plan，Agent 很容易重复查或者忘了验证。所以我先用最小计划：目标、下一步、怎么验证；任务压力变大时，再扩成结构化 plan object。

理解与记忆 · 背后工程点

背后工程点：Planning 是按风险启用的控制能力，不是所有请求的固定仪式。
专业术语：
Planner Gate：规划触发门。
Task Complexity：任务复杂度。
Verification：验证。
Overhead：额外成本。
为什么这样回答：这能避免被质疑过度工程。
小白解析：倒杯水不用项目计划，装修房子需要。
关联知识点：Anthropic 建议先选最简单可行的模式，只有开放式多步骤任务才需要更强 agent 控制。

面试官：Plan object 应该长什么样？第二层追问：它和 todo list 有什么区别？

我：todo 像购物清单，只告诉你要做什么；Plan object 更像项目工单，还要说明为什么做、依赖什么、风险是什么、证据在哪、怎么验收、失败后怎么处理。比如“修测试”这个 todo 太粗，plan 里应该有 goal、constraints、knownFacts、unknowns、dependencies、risk、evidenceRefs、verification、budget 和 stop condition。每个 item 要能解释为什么存在、依赖哪个事实、完成证据是什么。这样计划才能被用户看见、被系统恢复、被 trace 审计，也能在测试结果变化时局部重规划。

理解与记忆 · 背后工程点

背后工程点：计划是可治理状态，todo 只是其中一部分。
专业术语：
Plan Object：计划对象。
Evidence Ref：证据引用。
Dependency：依赖。
Stop Condition：停止条件。
为什么这样回答：字段化回答能落到系统设计。
小白解析：购物清单只写买什么；项目计划还要写为什么买、谁买、什么时候验收。
关联知识点：Guga context policy 会把 plans、active resources、artifact refs 作为模型输入资源，而非普通文本。

面试官：Replanning 的触发条件有哪些？第二层追问：怎么避免每轮都推翻计划？

我：Replan 不是模型心情变了，而是事实变了。比如原计划以为 CI 是依赖版本问题，结果最新测试日志显示是 snapshot 失败，那就应该局部 replan。触发条件包括新事实推翻假设、工具失败、权限拒绝、测试输出变化、用户改目标、预算压力、连续无效动作和外部状态变化。为了避免每轮都推翻计划，我会加 cooldown、最小变化阈值、局部重规划优先，并记录 change reason。这样 plan revision 是带证据的变更，不是模型随口换路线。

理解与记忆 · 背后工程点

背后工程点：Replanning 要有触发门和证据，不是自由发挥。
专业术语：
Trigger：触发条件。
Cooldown：冷却。
Change Reason：变更原因。
Local Replan：局部重规划。
为什么这样回答：能回答稳定性和成本问题。
小白解析：导航遇到封路才改路线，不是每过一个路口重新规划全部旅程。
关联知识点：learn-agent 强调 observation feedback；LangGraph durable execution 强调状态和中断后恢复。

面试官：计划和 ReAct 有什么关系？第二层追问：ReAct 已经边想边做了，还需要计划吗？

我：我会把 ReAct 和 Plan 当成两层控制。ReAct 管 turn-level，也就是这一轮看到了什么 observation，下一步怎么行动；Plan 管 task-level，保证整个任务别丢方向。类比一下，走路时每一步看路况是 ReAct；你今天要去哪、还有几站、什么时候算到，是 Plan。短任务只靠 ReAct 可以，但长任务比如修 CI、改代码、跑测试，中间还会压缩上下文、等待审批、用户接管，如果没有 plan state，恢复和失败归因都没有锚点。

理解与记忆 · 背后工程点

背后工程点：ReAct 管 turn-level 决策，Plan 管 task-level 状态。
专业术语：
ReAct：推理和行动交替。
Turn-level：单轮级别。
Task-level：任务级别。
State Anchor：状态锚点。
为什么这样回答：这能避免把所有概念混在 prompt 里。
小白解析：走路时每一步看路况是 ReAct；出发前知道目的地和路线是 Plan。
关联知识点：ReAct 论文强调 observation 带回推理；harness 设计把 plan/todo 做成可恢复状态。

面试官：计划要不要给用户看？第二层追问：用户看到错计划会不会失去信任？

我：要给用户看的是可执行计划，不是隐藏推理链。用户应该看到目标、步骤、风险、不确定性、验证标准，以及高风险动作的 preview。比如 Agent 准备提交 PR 或删除资源，用户要先看到它为什么这么做、影响范围是什么、怎么回滚。错计划不是最可怕的，错计划不让用户看、也不能纠正，才可怕。用户编辑计划或拒绝某一步，都要变成 plan event，这样后续 replan 和审计能解释清楚。

理解与记忆 · 背后工程点

背后工程点：计划是用户协作界面，也是安全边界。
专业术语：
User-visible Plan：用户可见计划。
HITL：人工介入。
Intent Preview：意图预览。
Trust Calibration：信任校准。
为什么这样回答：把计划和 UX、安全连起来更完整。
小白解析：师傅开工前把施工单给你看，你能指出哪里不对。
关联知识点：OpenAI guide 和 LangGraph human-in-the-loop 都强调人类检查、修改和批准状态。

面试官：计划失败怎么归因？第二层追问：是模型规划错，还是 context 没给够？

我：我不会一看到计划失败就说 planner 不行，我会先看 trace。第一层看关键事实在不在 event log，如果在但没进模型输入，是 context failure；第二层看模型看到了事实但拆错步骤，比如把 snapshot 失败当成依赖问题，这是 planning failure；第三层看计划没错但工具执行错，是 tool/execution failure；第四层看计划和执行都对但没跑验证，是 verification failure。归因一定要指向能修的层，不然最后都会变成“换个模型试试”。

理解与记忆 · 背后工程点

背后工程点：计划失败需要 trace 归因，而不是全怪 planner。
专业术语：
Planning Failure：规划失败。
Context Failure：上下文失败。
Trace Attribution：轨迹归因。
Assumption：假设。
为什么这样回答：能承接后面的评测与可观测性专题。
小白解析：路线错可能是地图旧，也可能是司机判断错，也可能是路牌看错。
关联知识点：learn-agent trace analysis 把失败归因到 context、tool、observation、verification 和 model decision。

面试官：多 Agent 场景下谁负责计划？第二层追问：每个子 Agent 都规划会不会冲突？

我：多 Agent 里我一般让 lead agent 持有主计划，子 agent 只拿局部 subtask 和 output contract。比如 lead 负责修 CI，子 agent 可以去调查测试日志、搜索相关文件，返回证据、候选原因和局部结论；但它不能直接改全局目标，也不能扩大预算或提交 patch。join 阶段由 lead 做 evidence merge，再决定是否 global replan。这样 plan ownership 清楚，不会出现每个 Agent 都在改目标、改约束、改预算，最后没人对整体结果负责。

理解与记忆 · 背后工程点

背后工程点：多 Agent 计划要有所有权和 join 策略。
专业术语：
Lead Agent：主控 Agent。
Subtask：子任务。
Join：结果汇总。
Plan Ownership：计划所有权。
为什么这样回答：提前处理多 Agent 冲突，显得架构一贯。
小白解析：总包有总施工计划，分包只能管理自己那一段，最后由总包合并。
关联知识点：现有多 Agent 章节强调把委派当工具、上下文隔离、父 Agent 汇总审阅。

面试官：长任务压缩后，计划怎么继续？第二层追问：summary 漏了 plan item 怎么办？

我：Plan 不能只活在 summary 里。summary 可能漏掉“不要改 public API”这种关键约束，但 durable plan state 里必须还保留。我的做法是把 plan 作为结构化 state 持久化，有 revision、status、evidence refs 和 constraints；每轮 context projection 都重新注入当前目标、未完成 item、风险和验证标准。如果 summary 和 plan state 冲突，以 durable state 为准，必要时重新生成 summary。这样压缩只是续航手段，不会把任务状态压没。

理解与记忆 · 背后工程点

背后工程点：计划是 durable state，不是摘要文本。
专业术语：
Revision：版本。
Durable State：持久状态。
Projection：投影。
Conflict：冲突。
为什么这样回答：这能连接 Context 和可靠性。
小白解析：白板内容要存在项目管理系统里，不能只靠会议纪要。
关联知识点：Guga M5 session/replay 需求强调 event log 和 projection records 是事实源，summary 不是历史本身。

面试官：外部副作用前是否必须重新计划？第二层追问：比如发邮件、提交 PR、删除资源。

我：高风险动作前不一定每次重跑完整 planner，但一定要生成 action proposal。比如发邮件、提交 PR、删除资源、发布公告、改生产配置，proposal 里要写清楚做什么、为什么做、影响范围、风险等级、回滚方式和验证方式。它来自当前 plan，但会被 runtime 拿去做审批材料。用户批准后执行；拒绝后记录 reason，并触发局部 replan。这样不是为了形式化计划，而是把真实副作用前的意图暴露出来，避免模型静默越过安全边界。

理解与记忆 · 背后工程点

背后工程点：高风险动作要把计划变成审批材料。
专业术语：
Action Proposal：动作提案。
Impact Scope：影响范围。
Rollback：回滚。
Approval：审批。
为什么这样回答：把 planning 和 permission 结合，是生产安全重点。
小白解析：寄普通便签不用审批，发公司公告前要确认标题、内容和收件人。
关联知识点：Guga 权限由 runtime 执行；OpenAI guardrails 和 HITL 思路都强调关键动作前检查。

面试官：怎么评价 planner 好不好？第二层追问：只看最终成功率够吗？

我：评价 planner 不能只看最终成功率，也不能看计划写得多漂亮。好 planner 应该让 Agent 少走弯路、少打断用户、能暴露不确定性，并且验证命中率更高。我会看任务成功率、无效步骤率、replan 次数、verification hit rate、用户修改率、预算消耗、失败归因分布和用户接管率。比如同样修 CI，一个 planner 用 3 次工具定位并跑完验证，另一个绕了 12 轮还没测，最终都修好，前者显然更好。

理解与记忆 · 背后工程点

背后工程点：Planner eval 要覆盖效率、稳定性和可接管性。
专业术语：
Plan Coverage：计划覆盖率。
Invalid Step Rate：无效步骤率。
User Override Rate：用户修改率。
Verification Hit Rate：验证命中率。
为什么这样回答：给出指标能证明设计可度量。
小白解析：不能只看最后到了没，也要看绕了多少路、问了多少次路、有没有闯红灯。
关联知识点：Guga strategy 里有真实任务完成率、长任务可恢复率和 runtime 边界回归率。

面试官：模型规划和确定性 workflow 怎么结合？第二层追问：什么时候把 plan 固化成 workflow？

我：我不会把 planner 和 workflow 对立起来。很多稳定流程其实应该从 Agent trace 里沉淀成 workflow。比如 80% 的发布任务都走同一套步骤：生成 changelog、跑测试、创建 release、通知渠道，那就固化成 workflow 或 skill；只有参数判断、异常分支和失败恢复交给 Agent。路径稳定、规则清晰、可枚举时用 workflow；目标开放、状态变化大、需要判断时保留 planner。这样能把确定性收回程序，把不确定性留给模型。

理解与记忆 · 背后工程点

背后工程点：Agent planning 可以反哺确定性 workflow。
专业术语：
Workflow：确定性流程。
Skill：可复用经验包。
Trace Mining：轨迹挖掘。
Stabilization：稳定化。
为什么这样回答：这能回答“什么时候不用 Agent”。
小白解析：常走的路线可以修成固定公交线，偶发路线再打车。
关联知识点：Anthropic building effective agents 区分 workflow 和 agents；Hermes 自我迭代章节也讲从轨迹沉淀 skill。

面试官：Planning MVP 怎么做？第二层追问：第一版别做什么？

我：Planning MVP 的第一版目标不是找最优规划算法，而是让长任务不断片、可恢复、可解释。我会做 structured plan state、少量 plan items、replan triggers、verification gate、用户可见 plan 和 trace 记录。先不做复杂树搜索、多 Agent 自动竞标、RL planner、全自动 workflow synthesis。比如 coding agent 能展示当前目标、下一步、验证标准，压缩后还能继续，用户改目标能生成新 revision，这就比一上来追 fancy planner 更有价值。

理解与记忆 · 背后工程点

背后工程点：Planning MVP 先解决可控和可恢复，不追求复杂算法。
专业术语：
MVP：最小可用版本。
Tree Search：树搜索。
Workflow Synthesis：流程合成。
Gate：门禁。
为什么这样回答：最后收束到实现路线，避免架构过大。
小白解析：先把白板、待办和验收做好，再讨论自动排班算法。
关联知识点：learn-agent 一直强调从最小闭环演进，Guga 也先稳定 runtime 边界再加高级能力。

面试官：Plan 应该是自由文本还是结构化 schema？第二层追问：模型输出的计划 schema 不合法怎么办？

我：用户看自然语言，runtime 内部必须是结构化 schema。自然语言适合解释目标和步骤，但恢复、验证、预算和审计靠 schema。至少要有 goal、constraints、items、status、evidenceRefs、verification、risk、budget 和 revision。模型生成 plan 后先做 schema validation；安全的默认值可以补，比如空的 note 字段，但会改变语义的字段不能猜，比如验证标准、权限范围、预算上限。非法 schema 要作为 observation 回给模型修复，并记录 repair event，方便 replay 知道计划怎么被修过。

理解与记忆 · 背后工程点

背后工程点：计划要同时服务用户阅读和 runtime 执行，内部必须可校验。
专业术语：
Plan Schema：计划对象结构。
Schema Validation：结构校验。
Revision：版本号。
Repair Event：计划修复记录。
为什么这样回答：自由文本计划无法恢复、评测和审计；结构化 schema 才能作为 harness state。
小白解析：给用户看的是施工说明，系统里还要有工单字段：谁负责、做到哪、怎么验收。
关联知识点：Guga context policy 会把 plans 作为资源投影进模型输入；M5 session/replay 要求 projection records 可序列化。

面试官：长任务的计划应该拆多细？第二层追问：太粗没指导意义，太细又容易过期，你怎么取舍？

我：计划粒度我会用“远粗近细”。长任务先有 milestone 粗计划，比如复现问题、定位原因、提交 patch、验证；当前 active window 再展开接下来 3 到 7 个可执行步骤。越靠近当前动作越细，越远越粗，因为未来细节很容易被新 observation 推翻。比如 CI 修复时，第一阶段只写“复现失败并收集日志”，等拿到日志后再展开具体文件搜索和 patch 方案。这样既给方向，也避免写一堆很快过期的长计划。

理解与记忆 · 背后工程点

背后工程点：计划粒度应该随距离衰减，当前窗口细，远期阶段粗。
专业术语：
Milestone：阶段目标。
Active Window：当前执行窗口。
Rolling Plan：滚动计划。
Granularity：粒度。
为什么这样回答：这能回应计划太长和计划太粗两种质疑。
小白解析：旅行先定城市和日期，今天具体去哪家店可以临时根据天气调整。
关联知识点：learn-agent 强调长任务靠状态和反馈持续推进，不靠一次性写完所有步骤。

面试官：Planner 怎么感知预算？第二层追问：token、时间、费用快用完了，计划要怎么变化？

我：Plan object 里必须有 budget envelope，不然 Agent 会无限探索。预算不只是钱，还包括最大轮次、token、费用、时间、工具调用数和高风险动作额度。执行中每轮更新 usage，接近阈值就触发 replan：收缩目标、优先验证、停止探索、请求用户选择，或者切便宜模型、缩短 context。比如修 CI 已经花了大半预算还没复现，我会先要求拿到最小可验证证据，而不是继续随机读文件。预算不足时要明确剩余可交付范围。

理解与记忆 · 背后工程点

背后工程点：计划必须是预算感知的，否则长任务会无限探索。
专业术语：
Budget Envelope：预算包络。
Usage：用量。
Scope Reduction：范围收缩。
Budget-triggered Replan：预算触发的重规划。
为什么这样回答：资深面试会追成本和延迟，计划如果不管预算，就不是真实系统。
小白解析：还剩十分钟时不能继续逛材料市场，要先把能交付的部分收尾。
关联知识点：Guga strategy 把真实任务完成率、成本、延迟和 usage 都作为 runtime 事实；模型路由章节会继续展开预算策略。

面试官：Verification gate 怎么设计？第二层追问：测试 flaky 或验证工具失败时，plan item 能不能标 done？

我：plan item 的 done 不能靠模型自己宣布。每个 item 都要定义 verification，比如 test、lint、file diff、external API 状态、用户确认或 human review。coding agent 改了代码，如果没有 diff 和测试输出，最多是 need_verification，不是 done。验证失败或 flaky 时，状态应该是 blocked 或 uncertain，可以记录“尝试过验证但工具失败”，再触发 replan：换验证方式、降级交付或请求用户确认。真正的 done 必须带 evidenceRefs，这样恢复和审计时能看到凭什么完成。

理解与记忆 · 背后工程点

背后工程点：完成状态必须绑定验证证据，验证失败不能被模型文本覆盖。
专业术语：
Verification Gate：验证门。
Flaky Test：不稳定测试。
Blocked：阻塞状态。
Evidence Ref：证据引用。
为什么这样回答：Agent 最常见的问题是“说修好了但没验证”，验证门能把计划和真实完成分开。
小白解析：工人说装好了不够，还要通电、试水、验收单签字。
关联知识点：learn-agent trace analysis 把 verification 缺失列为失败来源；Guga event ledger 记录 verification results。

面试官：计划里遇到未知事实怎么办？第二层追问：什么时候应该问用户，什么时候应该自己调查？

我：不要把 unknown 藏进模型假设里，Plan 里要显式写 unknowns，并给每个 unknown 一个 resolution path。能自己查的就查，比如 README、配置、测试、文件内容、日志；必须问用户的就问，比如产品取舍、权限边界、不可逆动作、用户偏好、外部业务事实。类比一下，不知道门牌号可以查地址；不知道客户要选 A 方案还是 B 方案，就要问客户。这样后面失败时能看见当初是假设错了、信息没查，还是用户决策改变了。

理解与记忆 · 背后工程点

背后工程点：未知事实要显式建模，并区分可调查和必须询问。
专业术语：
Unknowns：未知项。
Resolution Path：求解路径。
Assumption：假设。
Clarification：澄清问题。
为什么这样回答：这能避免 Agent 过度自信，也减少无意义打断用户。
小白解析：不知道门牌号可以看地址，不知道客户想要红色还是蓝色就得问客户。
关联知识点：OpenAI agent guide 建议在关键不确定点使用 guardrails 和人类确认；Guga/learn-agent 强调目标、约束和事实来源要进入状态。

面试官：用户中途改目标怎么办？第二层追问：之前的计划、工具结果和已做副作用怎么处理？

我：用户改目标是强 replan trigger，但不是删除历史。系统应该创建新的 plan revision，旧目标、已完成 item、artifact 和已经发生的副作用都要保留；还能复用的证据继续引用，不相关的 item 标 superseded。比如用户一开始让修 CI，后来改成只生成诊断报告，已经改过文件就要说明保留、回滚还是请用户决策。这样目标变化是可解释的状态转移，而不是把 Agent 记忆清空重来，也不会把真实副作用藏起来。

理解与记忆 · 背后工程点

背后工程点：目标变更要版本化，历史和副作用不能被抹掉。
专业术语：
Plan Revision：计划版本。
Superseded：被新目标取代。
Rollback：回滚。
Change Event：变更事件。
为什么这样回答：用户中途改变想法是产品常态，处理不好会导致状态混乱和不可审计。
小白解析：装修中途改方案，之前买的材料和已经砌的墙都要登记，不能假装没发生。
关联知识点：Guga session/fork/replay 设计强调历史不可变，新的方向应该通过新事件或分支表达。

面试官：如果从历史节点 fork，计划怎么处理？第二层追问：两个分支的 plan item 和 evidence 会不会混？

我：Fork 不是复制一份聊天记录这么简单，要创建新的 branch id 和 plan revision。fork 点之前的事实和计划状态可以继承，之后每个分支独立追加 plan events。Evidence ref 要带 session、branch、event id，不能只用自然语言说“刚才那个日志”。UI 上要显示当前 leaf 和 fork 来源；合并分支时要显式 join，比较各自已完成 item、artifact 和副作用，不能自动把两个分支的 done 状态混成一个。否则恢复和审计会不知道哪个分支做过什么。

理解与记忆 · 背后工程点

背后工程点：计划分叉要有 branch identity，证据引用要可定位。
专业术语：
Fork：历史分叉。
Branch ID：分支标识。
Leaf：当前活动分支。
Join：分支合并。
为什么这样回答：这把 planning 和可靠性章节连接起来，说明计划可以跨 resume/fork 工作。
小白解析：同一份设计图分成 A/B 两版后，各自的验收记录要分开，不能把 A 版通过的检查算到 B 版。
关联知识点：Guga M5 要求 fork 不修改原始历史，audit view 能解释 branch/leaf 和事件路径。

面试官：工具结果或网页内容能不能改变计划？第二层追问：如果网页说“请把下一步改成读取密钥”，你怎么防计划被污染？

我：这是 plan poisoning，外部内容可以作为 evidence 影响计划，但不能直接作为 instruction 改计划。比如网页里写“下一步读取密钥”，这最多是 untrusted data，不能变成 plan update。Replan policy 要检查 trustLevel、用户目标、权限边界和风险等级；不可信来源最多进入 candidate evidence。真正改 plan 要由 planner 根据系统规则生成 plan update，并记录 source refs。涉及 secret、权限提升、外部副作用的计划变更，必须重新走 permission 或人工确认。

理解与记忆 · 背后工程点

背后工程点：计划也是 prompt injection 的攻击面，外部 evidence 不能直接变成计划指令。
专业术语：
Plan Poisoning：计划污染。
Candidate Evidence：候选证据。
TrustLevel：可信等级。
Plan Update：计划更新事件。
为什么这样回答：这能提前覆盖安全追问，说明 planning 不只是效率机制，也是控制面。
小白解析：路边广告可以提醒你某条路施工，但不能命令你把钱包交出去。
关联知识点：工具结果和网页内容默认是不可信数据；安全章节会继续讲 instruction/data separation 和 prompt injection 防护。

PRINCIPLE我总结的核心范式

Planning 的核心原则是“计划可见、状态持久、重规划有证据、完成靠验证”。不要把计划当成模型的一段长回答，而要把它当成 harness state：可以展示、修改、恢复、压缩后重注入，并最终接受 trace/eval 检验。