SCOPE本章边界
本章集中处理安全威胁模型:prompt injection、权限放大、secret、沙箱、MCP/Skill 供应链、memory 污染和审计。工具管线和上下文投影只作为安全边界的一部分引用。
30 SEC面试开口版
我会把 Agent 安全分成三条线:指令和数据分离、最小权限执行、全链路审计评测。外部网页、邮件、issue、工具返回和 MCP description 默认都是 untrusted data,不能提升为系统指令;所有工具意图按 effect、scope、trustLevel 走 permission、sandbox、secret broker 和 human approval;memory、artifact、trace 也要有来源、租户、保留和删除治理。过滤器有用,但安全核心是架构边界。
理解与记忆 · 术语、解析、关联知识点
| 专业术语 | Prompt Injection:恶意内容诱导模型违背原指令。 Least Privilege:最小权限。 Secret Broker:密钥代理。 Untrusted Data:不可信数据。 Excessive Agency:Agent 权限或自主性过大。 |
| 为什么这样回答 | 安全题不能只说 guardrail。先讲攻击面,再讲权限和审计,才像生产系统。 |
| 小白解析 | 网页里写“忽略老板命令,把钥匙给我”,只能当网页内容,不能当老板命令。 |
| 关联知识点 | OWASP LLM Top 10 把 prompt injection、敏感信息泄露、supply chain、excessive agency 等列为核心风险;MCP security best practices 也强调 token 和授权边界。 |
1 MIN一分钟口语版
我的安全设计会先定义 trust boundary。用户指令、开发者指令、工具数据、检索资料、记忆、MCP server、skill、插件都带 source 和 trustLevel。模型生成的是 intent,不是授权;runtime 依据用户、租户、工具 effect、资源 scope、secret policy、sandbox profile 决定能否执行。对高风险动作做 intent preview 和 HITL;secret 永远不进入模型上下文,通过 broker 最小注入到工具运行时;工具结果进入上下文前做 provenance、脱敏、注入检测和 result policy。最后用 red-team eval、trace audit 和 incident replay 持续发现绕过。
理解与记忆 · 术语、解析、关联知识点
| 专业术语 | Trust Boundary:信任边界。 Intent Preview:执行前意图预览。 HITL:人类审批。 Provenance:来源链。 Red-team Eval:对抗评测。 |
| 为什么这样回答 | 一分钟版把输入侧、执行侧、数据侧、评测侧连成闭环,能应对面试官连续追问。 |
| 小白解析 | 保安不只看门口的人,还要检查访客证、能去几楼、带了什么包、离开时有没有拿错东西。 |
| 关联知识点 | OpenAI guardrails 提供输入/输出检查;Guga 更强调 runtime permission、event ledger、artifact 和 context projection;MCP authorization 强调 OAuth 和 token audience。 |
FLOW安全边界从输入延伸到执行和记忆
Agent 安全控制链
COMPARE主流方案怎么讲
OWASP LLM Top 10
OWASP 2025 风险覆盖 prompt injection、敏感信息泄露、供应链、数据/模型投毒、过度代理、向量和 embedding 弱点等。
MCP 安全实践
MCP security best practices 强调 OAuth、token audience、禁止 token passthrough、per-client consent、session id 安全和 scope 最小化。
OpenAI Guardrails
OpenAI Agents SDK 支持输入和输出 guardrails,但 guardrail 不替代权限、沙箱和工具结果治理。
Guga / learn-agent
本地口径是模型不授权自己;ExecutionPipeline、PermissionKernel、artifact、event ledger 和 context source metadata 是安全承重点。
DESIGN我会怎么设计
- Instruction/Data Separation所有外部内容带 source、trustLevel、role,不可信数据不能提升为 system/developer 指令。
- Permission Kernel工具按 effect、scope、trustLevel、tenant、profile 做 allow/ask/deny,高风险动作必须 human approval。
- Sandbox and Secret Broker文件、网络、进程、环境变量和 secret 分层隔离;secret 最小注入工具,不进入模型上下文。
- Memory Safety写 memory 要有来源、置信度、作用域、TTL、删除和注入污染检查,不能让一次攻击长期驻留。
- Security Eval建立 prompt injection、tool poisoning、data exfiltration、excessive agency、MCP auth 的红队用例和 trace audit。
TRADEOFF常见问题和优化
问题:过滤器误伤
不要只靠模型判恶意。结构性边界优先,检测器用于辅助打分和升级审批,避免正常请求被过度拒绝。
问题:权限太细影响体验
把低风险只读自动放行,高风险副作用审批;提供 session allow,但限定资源、时间和工具版本。
问题:secret 总要给工具用
secret 是能力,不是上下文。由 broker 给工具短期 token,日志和 observation 默认脱敏。
问题:MCP/Skill 供应链
外部 server 和 community skill 要 trust level、静态扫描、签名/来源、禁用列表和最小 scope。
REVISION攻击面和防护点
| 攻击面 | 关键防护 |
|---|---|
| Indirect prompt injection | source boundary、低优先级 data channel、permission gate、final output check。数据/指令分离必要但不充分,高风险副作用仍由 runtime 独立校验。 |
| SSRF / 外发 | network allowlist、metadata IP deny、origin policy、egress audit。 |
| Path traversal | realpath containment、allowed roots、deny patterns、diff preview。 |
| Memory poisoning | MemoryCandidate、trustLevel、source_event_ids、用户确认、tombstone。 |
| Tool / MCP poisoning | signed manifest、tool description scan、revision freeze、diff approval、host-side authorization。 |
OWASP Excessive Agency 可以拆成 excessive functionality、excessive permissions、excessive autonomy。MCP OAuth 处要明确 resource parameter、audience validation 和禁止 token passthrough 是当前规范/安全实践要求。OpenAI Agents SDK 里的 handoff、Agent.as_tool、function_tool 拦截点并不完全一样,企业权限和审计要在 host/runtime 层统一收口。
REVISIONHuman-in-the-loop / Approval UX
| 风险层 | UX 展示 | 授权规则 |
|---|---|---|
| Read-only low risk | 简短 timeline 记录:读了什么、为什么读。 | 可自动执行,但必须有 scope 和审计。 |
| Scoped write | intent preview:目的、文件/资源、diff、验证方式、回滚提示。 | 可 ask once,但绑定 resource scope、tool version、expiry、revocation。 |
| External side effect | 展示收件人/API/生产资源、关键参数、不可逆性、替代方案。 | 每次确认;拒绝后记录 reason 并 replan。 |
| Secret / payment / production | 强提示来源、origin、金额/权限 scope、审批人、事故回滚难度。 | 强制人工确认,不允许 session allow 扩大到一类动作。 |
| Batch patch | 一次展示 diff、文件列表、风险和测试计划。 | 批量批准的是这个 patch,不是未来所有写操作。 |
好的 approval UX 不是弹窗越多越安全,而是让用户理解“Agent 想做什么、会影响什么、能否撤销、为什么现在需要批准”。指标要看 approval fatigue、false approval、user abort 和 manual rescue rate。
INTERVIEW高强度追问
面试官:Prompt injection 为什么在 Agent 里更危险?第二层追问:普通聊天也会被注入啊?
我:普通聊天被注入主要影响回答;Agent 被注入可能代表用户读文件、发请求、写代码、调用 API。风险从“说错话”变成“做错事”。所以防护不是只让模型更听话,而是把外部数据和指令分离,把工具执行放到权限和沙箱里。
理解与记忆 · 背后工程点
背后工程点:Agent 安全风险来自模型连接真实副作用。
专业术语:
Prompt Injection:提示注入。
Side Effect:副作用。
Instruction Hierarchy:指令层级。
Tool Abuse:工具滥用。
为什么这样回答:先讲风险升级,安全设计才有理由。
小白解析:骗聊天机器人说错话和骗助理转账不是一个等级。
关联知识点:OWASP LLM01 是 prompt injection;OWASP LLM06 excessive agency 强调权限和自主性过大。
面试官:怎么区分外部数据和指令?第二层追问:模型天然会读文本,怎么防它听网页的话?
我:结构上要把外部内容放进低优先级 data channel,带 source、trustLevel、quoted boundary 和 allowed use。Prompt 明确说明网页/邮件/issue 只能作为事实材料,不能改变系统指令或请求 secret。高风险动作前重新走 permission,不能因为网页要求就执行。
理解与记忆 · 背后工程点
背后工程点:数据/指令分离要靠消息结构和运行时权限共同实现。
专业术语:
Data Channel:数据通道。
Source Boundary:来源边界。
Allowed Use:允许用途。
Quoted Boundary:引用边界。
为什么这样回答:承认模型会受文本影响,同时给结构性缓解。
小白解析:合同附件可以读,但附件里的“请无视主合同”不能生效。
关联知识点:Guga context projection 保留 source/trust metadata;NCSC/OWASP 都强调数据和指令混淆是注入核心。
面试官:Guardrail 放在哪里?第二层追问:输入、输出、工具前后都要吗?
我:我会分层放:用户输入前做 abuse/PII/政策检查;context assembly 时做 source/trust/secret scan;tool intent 前做权限和风险检查;tool result 后做脱敏和注入检测;final output 前做输出安全和事实检查。Guardrail 是多点门禁,但真正授权仍在 runtime。
理解与记忆 · 背后工程点
背后工程点:Guardrail 是检测层,不是唯一安全层。
专业术语:
Input Guardrail:输入护栏。
Output Guardrail:输出护栏。
Tool Guardrail:工具护栏。
Runtime Authorization:运行时授权。
为什么这样回答:这能回答 OpenAI guardrails 相关追问。
小白解析:机场安检不只入口查票,登机口、行李、海关都有不同检查。
关联知识点:OpenAI Agents SDK guardrails 定义输入输出检查;工具执行仍需要 host 权限体系。
面试官:Secret 怎么处理?第二层追问:工具要访问 API,不给密钥怎么跑?
我:secret 不进入模型上下文,也不写普通 trace。工具通过 secret broker 请求最小 scope、短期 token;runtime 校验工具、用户、租户和用途后注入到沙箱环境。工具输出、日志、artifact 统一做 secret redaction;模型只看“调用成功/失败”和必要摘要。
理解与记忆 · 背后工程点
背后工程点:Secret 是受控能力,不是 prompt 材料。
专业术语:
Secret Broker:密钥代理。
Short-lived Token:短期令牌。
Redaction:脱敏。
Scope:作用域。
为什么这样回答:密钥是 Agent 安全的高频追问。
小白解析:你可以让快递员刷一次门禁,但不会把总钥匙拍照发给他。
关联知识点:learn-agent hosted harness secret boundary;MCP auth 也强调 token storage、audience validation 和通信安全。
面试官:最小权限怎么落地?第二层追问:Agent 代表用户操作,权限是不是直接继承用户?
我:不能无脑继承。Agent 应该拿 task-scoped delegated permission:用户是谁、任务是什么、资源范围、工具范围、时间窗口、审批要求。对高风险动作即使用用户权限,也要二次确认。Agent 不是用户本人,它是被委托执行的主体。
理解与记忆 · 背后工程点
背后工程点:Agent 权限要任务化和委托化。
专业术语:
Delegated Permission:委托权限。
Task Scope:任务作用域。
Second Confirmation:二次确认。
Tenant:租户。
为什么这样回答:这能避免 excessive agency。
小白解析:你让同事帮你寄文件,不代表他能用你的卡买所有东西。
关联知识点:OWASP LLM06 excessive agency 包括过多功能、权限和自主性;Guga 权限模式按 tool effect 分层。
面试官:MCP server 的 OAuth 怎么防 confused deputy?第二层追问:为什么 token passthrough 危险?
我:MCP server 必须验证 token 是发给自己的 audience,client 请求 token 时要带 resource parameter。Token passthrough 危险在于 server 接受一个给别的资源的 token,再转发给下游 API,破坏审计和授权边界。正确做法是 MCP server 自己作为 resource server 验证 token,必要时用独立下游 token。
理解与记忆 · 背后工程点
背后工程点:MCP 授权要防 token 被错误复用。
专业术语:
Confused Deputy:混淆代理。
Audience:令牌受众。
Resource Parameter:资源参数。
Token Passthrough:令牌透传。
为什么这样回答:这是 MCP 安全的关键一手资料点。
小白解析:电影院票不能拿去坐飞机,服务方必须确认票就是给自己的。
关联知识点:MCP authorization/security best practices 明确要求 resource indicators、audience validation,并禁止 token passthrough。
面试官:Tool poisoning 怎么防?第二层追问:工具描述本身如果恶意怎么办?
我:外部工具描述按 untrusted metadata 处理,不直接进入高优先级 prompt。注册时做静态扫描、来源签名、trustLevel、命名空间和人工审核;运行时按 server/tool scope 请求权限;工具描述变化要触发 diff 和重新审批。模型看到的是经过 host 清洗和标注的工具说明。
理解与记忆 · 背后工程点
背后工程点:工具说明也是攻击面。
专业术语:
Tool Poisoning:工具投毒。
Static Scan:静态扫描。
Namespace:命名空间。
Diff Approval:变更审批。
为什么这样回答:这能覆盖 MCP/Skill 供应链风险。
小白解析:工具盒标签也可能被人贴错,所以入库时要检查,不是拿来就用。
关联知识点:Guga agent-mcp-skills 提到外部 skill/MCP description 扫描;OWASP MCP Top 10 覆盖 prompt injection via contextual payloads。
面试官:Memory poisoning 怎么防?第二层追问:一次恶意网页能不能写进长期记忆?
我:不能直接写。memory 写入要走 candidate ledger、来源、scope、confidence、TTL、用户/系统确认和冲突检查。不可信来源最多变成候选事实,不能自动升级成长期偏好或项目规则。删除和 tombstone 要阻止旧污染再次召回。
理解与记忆 · 背后工程点
背后工程点:长期记忆是持久攻击面,写入要比普通上下文更严格。
专业术语:
Memory Poisoning:记忆污染。
Candidate Ledger:候选记忆账本。
Confidence:置信度。
Tombstone:删除标记。
为什么这样回答:把安全和 memory 章节连接起来。
小白解析:陌生人说你搬家了,通讯录不能立刻改地址,至少要确认。
关联知识点:长期记忆章节强调候选记忆、来源、作用域、置信度、TTL、删除和冲突治理。
面试官:沙箱怎么设计?第二层追问:文件、网络、进程分别怎么管?
我:按工具 effect 选择 sandbox profile:文件限制 workspace/allowed roots,写操作用 patch/worktree/atomic write;网络默认 deny-by-default 或 allowlist;进程有 cwd、timeout、env allowlist、resource limit;下载和浏览器工具限制 origin。沙箱事件和输出都要脱敏。
理解与记忆 · 背后工程点
背后工程点:沙箱是分层 profile,不是一个 boolean。
专业术语:
Sandbox Profile:沙箱配置。
Network Allowlist:网络白名单。
Env Allowlist:环境变量白名单。
Resource Limit:资源限制。
为什么这样回答:安全设计要落到执行环境。
小白解析:实验室不同区域有不同门禁、通风、手套和记录要求。
关联知识点:Guga filesystem/shell plugins 分别有 realpath containment、ask-by-default、环境限制;learn-agent local tool bundle 拆读写执行风险。
面试官:多 Agent 会带来什么安全问题?第二层追问:低权限 Agent 能不能让高权限 Agent 帮它干坏事?
我:这就是 delegation privilege escalation。子 Agent 不应自动继承更高权限,handoff 要带 source、requested capability、scope 和 reason。高权限 Agent 接到来自低信任来源的任务时,要重新验证原始用户意图和权限。父 Agent 汇总时也不能把子 Agent 输出当系统指令。
理解与记忆 · 背后工程点
背后工程点:委派链也要维护权限和来源。
专业术语:
Privilege Escalation:权限提升。
Delegation:委派。
Handoff:移交。
Source Chain:来源链。
为什么这样回答:高级面试会追 multi-agent 安全。
小白解析:实习生不能让经理绕过流程替他审批付款。
关联知识点:多 Agent 章节强调委派当工具、上下文隔离、权限继承受控;OWASP excessive agency 也覆盖权限滥用。
面试官:安全事故后怎么调查?第二层追问:trace 里有敏感信息怎么办?
我:调查需要 audit trace:用户输入、context sources、model intent、permission decision、tool input/output refs、secret access、artifact refs、final action。Trace 本身要分级脱敏,敏感 payload 放受控 artifact,普通视图只显示 hash、摘要和访问记录。事故 replay 不重跑副作用,只重建因果链。
理解与记忆 · 背后工程点
背后工程点:安全审计要可追踪且不能二次泄漏。
专业术语:
Audit Trace:审计轨迹。
Sensitive Payload:敏感负载。
Access Log:访问记录。
Incident Replay:事故回放。
为什么这样回答:这把安全接到可观测性和可靠性。
小白解析:查案要看监控和出入记录,但不能把所有人的身份证复印件公开贴墙上。
关联知识点:OpenAI tracing 有 sensitive data 配置;Guga artifact/event 分离支持审计和脱敏视图。
面试官:怎么防止数据通过最终回答泄露?第二层追问:工具确实读到了敏感文件,模型总结时不小心带出来怎么办?
我:首先敏感文件不应默认可读,路径、secret pattern 和 data classification 要在工具层拦截。其次 observation 进入模型前要做 redaction 和 visibility policy。最后 final output 前再做 output guardrail:检查 secret、PII、tenant data、不可外发片段。高风险命中时不直接输出,而是解释不能展示,并给用户安全的摘要或审批路径。
理解与记忆 · 背后工程点
背后工程点:防泄漏要从读取、上下文投影到最终输出多层控制。
专业术语:
Data Classification:数据分级。
Output Guardrail:输出护栏。
PII:个人可识别信息。
Visibility Policy:可见性策略。
为什么这样回答:安全不能只拦工具,也要拦模型把敏感观察复述出去。
小白解析:医生可以看到病历,但不能把完整病历贴到医院大厅。
关联知识点:OWASP LLM02 关注敏感信息泄露;Guga artifact/event 分离要求模型只看 bounded preview 和必要摘要。
面试官:文件工具怎么防 path traversal 和 workspace escape?第二层追问:软链接、绝对路径、大小写文件系统怎么办?
我:文件路径不能只做字符串前缀判断。要 realpath resolve,检查是否在 allowed roots 内,拒绝 denied paths,比如 .env、.ssh、系统目录;写操作还要检查目标父目录、软链接、case-insensitive 冲突和 TOCTOU。高风险路径需要审批或直接 deny。事件里记录 resolved path,而不只是模型传入的原始 path。
理解与记忆 · 背后工程点
背后工程点:本地文件工具的安全核心是规范化路径和真实边界检查。
专业术语:
Path Traversal:路径穿越。
Realpath Containment:真实路径包含检查。
TOCTOU:检查和使用之间状态变化。
Denied Paths:禁止访问路径。
为什么这样回答:这是 coding agent 最现实的攻击面,不能只说“限制 workspace”。
小白解析:门禁不能只看访客写的房间号,还要确认他实际走到的是不是允许区域。
关联知识点:Guga filesystem plugin 使用 realpath containment 防止 workspace 外 escape;learn-agent local tool bundle 强调路径是权限对象。
面试官:网络工具怎么防 SSRF 和内网探测?第二层追问:Agent 要抓网页资料,不能完全禁网吧?
我:网络默认不是全开,而是按工具和任务给 allowlist。HTTP 工具要限制 scheme、host、端口、DNS rebinding、重定向、私有 IP、metadata endpoint 和文件下载类型。对网页抓取结果加 source/trust metadata,只作为数据。需要访问企业内网时,要租户策略和审批。这样能保留抓网页能力,但不让模型变成内网扫描器。
理解与记忆 · 背后工程点
背后工程点:网络能力要按目的和目标限制,防止 Agent 被诱导访问内网或元数据服务。
专业术语:
SSRF:服务端请求伪造。
DNS Rebinding:DNS 重绑定攻击。
Metadata Endpoint:云环境元数据地址。
Network Allowlist:网络白名单。
为什么这样回答:带网络工具的 Agent 安全面会迅速扩大,必须讲细到 host/IP/redirect。
小白解析:可以让助理查公开网页,但不能让陌生网页指挥助理去公司内网乱逛。
关联知识点:OWASP LLM06 excessive agency 和 MCP 风险都强调工具权限过宽会放大攻击面。
面试官:Shell 工具怎么防危险命令?第二层追问:只靠 denylist 拦 rm -rf 够吗?
我:denylist 不够,只能作为最后一层。Shell 要默认 ask-by-default,限制 cwd、env、timeout、network、并发和输出预算;命令风险要结合 effect 分类、参数、路径、是否写入、是否联网、是否删除。危险命令可以 deny,灰区命令给用户 intent preview。执行后还要记录 exit code、stdout/stderr artifact 和 changed files。
理解与记忆 · 背后工程点
背后工程点:Shell 安全是运行环境、权限和审计共同作用,不是关键词过滤。
专业术语:
Denylist:拒绝列表。
Intent Preview:意图预览。
Environment Allowlist:环境变量白名单。
Changed Files:变更文件集合。
为什么这样回答:Shell 是高风险工具,面试官通常会追具体策略。
小白解析:不能只禁止“炸药”两个字,还要限制谁能进仓库、能拿什么、拿走后登记。
关联知识点:Guga shell plugin 默认 ask-by-default、串行执行、限制环境变量;工具权限由 runtime 执行。
面试官:多租户环境怎么做隔离?第二层追问:trace、memory、artifact 会不会串租户?
我:每个 session、event、artifact、memory、tool call 都要带 tenant id、user id、project scope 和 data policy。查询和检索必须强制 scope filter,不允许模型靠自然语言选择租户。Artifact store、vector index、trace export 都要按租户隔离和访问控制。删除请求要清理 artifact、index、memory 和缓存,同时保留合规允许的审计 tombstone。
理解与记忆 · 背后工程点
背后工程点:租户隔离要贯穿事实源、索引、产物和导出,不只是 UI 权限。
专业术语:
Tenant ID:租户标识。
Scope Filter:作用域过滤。
Data Residency:数据驻留。
Tombstone:删除标记。
为什么这样回答:企业 Agent 面试一定会追数据隔离和合规删除。
小白解析:A 公司的档案柜、索引卡和复印件都不能混进 B 公司的柜子。
关联知识点:Guga strategy 提到企业化要等 event、permission、usage、artifact 稳定后再做;安全设计要从 runtime facts 带租户边界开始。
面试官:第三方 Skill 或插件怎么安装?第二层追问:一个 skill 里藏了恶意脚本怎么办?
我:第三方 skill 不能一装就执行。安装前做来源校验、签名或 hash、静态扫描、权限声明、脚本声明、引用文件清单和 trustLevel。默认只暴露 metadata;正文按需加载,脚本执行必须单独审批并进入 sandbox。团队级发布要 review、版本化、回滚和 conformance tests。Agent 生成的 skill 默认更低 trustLevel。
理解与记忆 · 背后工程点
背后工程点:Skill 是供应链入口,不是普通 Markdown。
专业术语:
Static Scan:静态扫描。
TrustLevel:可信等级。
Conformance Test:契约测试。
Progressive Disclosure:渐进披露。
为什么这样回答:这能把 skill 生态和 runtime 安全接起来。
小白解析:操作手册里如果夹了“偷偷开保险柜”的步骤,不能因为它叫手册就照做。
关联知识点:Guga agent-mcp-skills 明确 skill 正文按需加载,外部 skill 需要 trust-level install policy。
面试官:Browser / Computer-use Agent 怎么防钓鱼和点击劫持?第二层追问:模型看到一个“授权”按钮就点了怎么办?
我:浏览器工具要把 origin、URL、DOM、截图和 action proposal 记录下来。跨域登录、授权、支付、删除、发送消息都要用户确认。模型不能仅凭视觉文字决定高风险动作;runtime 要检查 origin、表单目标、权限 scope 和预期结果。执行后还要 read-after-action 验证,没有验证就不能标成功。
理解与记忆 · 背后工程点
背后工程点:浏览器/桌面工具需要 origin-aware action gate 和操作后验证。
专业术语:
Origin:网页来源。
Clickjacking:点击劫持。
Action Proposal:动作提案。
Read-after-action:操作后读取验证。
为什么这样回答:视觉工具把模型接到真实 UI,安全风险比普通问答高很多。
小白解析:看到“确认”两个字不代表应该点,先要知道这是哪个网站、确认什么。
关联知识点:工具层章节已把 browser/computer-use 归为高风险 action 工具;安全层要加 origin、审批和验证。
面试官:怎么做安全 eval?第二层追问:红队样本是不是写几条 prompt injection 就够?
我:不够。安全 eval 要按攻击面建集合:直接/间接 prompt injection、工具结果注入、MCP tool poisoning、skill 供应链、memory poisoning、secret exfiltration、SSRF、path traversal、excessive agency、多 Agent 权限提升、浏览器钓鱼。每条样本要定义 expected behavior:拒绝、降权、请求审批、安全完成或记录事件。上线后真实事故要脱敏回流。
理解与记忆 · 背后工程点
背后工程点:安全 eval 要覆盖攻击面和预期安全行为,而不是只测一类注入。
专业术语:
Red-team Eval:红队评测。
Expected Behavior:预期行为。
Exfiltration:数据外传。
Regression Set:回归样本集。
为什么这样回答:这让安全从口号变成可持续的发布门禁。
小白解析:防盗演练不能只试前门,还要试窗户、后门、假快递和内部员工误操作。
关联知识点:OWASP LLM Top 10 和 MCP Top 10 可以直接转成红队评测分类;Guga strategy 关注 runtime 边界回归率。
面试官:安全 MVP 先做什么?第二层追问:先不上复杂红队平台可以吗?
我:MVP 先做 source/trust metadata、permission kernel、workspace sandbox、secret broker、result redaction、MCP/skill trust level、audit event 和十几组红队 regression eval。复杂平台可以后置,但结构性边界不能后置。没有这些,功能越强风险越大。
理解与记忆 · 背后工程点
背后工程点:安全 MVP 先做架构边界和基础评测。
专业术语:
Security MVP:安全最小版本。
Regression Eval:回归评测。
Redaction:脱敏。
Trust Metadata:信任元数据。
为什么这样回答:收束到落地优先级。
小白解析:开店前至少要有门锁、监控、收银权限和消防,不一定一开始就有全套安保中心。
关联知识点:Guga strategy 说在 runtime 能可靠产出 event、permission、usage 和 artifact 前,不做企业后台。
PRINCIPLE我总结的核心范式
Agent 安全的核心范式是“不要相信模型会永远分清指令和数据,也不要让模型自己授权真实动作”。安全要落在 source metadata、permission、sandbox、secret broker、artifact、event ledger 和 red-team eval 上。