npm - @shirayner/ace - Versions diffs - 0.1.0-snapshot.1 - Mend

@shirayner/ace 0.1.0-snapshot.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (58) hide show

package/bin/ace.js +39 -0
package/package.json +42 -0
package/src/commands/doctor.js +86 -0
package/src/commands/init.js +98 -0
package/src/commands/list.js +67 -0
package/src/core/constants.js +106 -0
package/src/core/installer.js +206 -0
package/src/core/merger.js +103 -0
package/templates/CLAUDE.md +16 -0
package/templates/commands/report.md +63 -0
package/templates/hookify/hookify.block-dangerous-ops.local.md +16 -0
package/templates/hookify/hookify.protect-secrets.local.md +17 -0
package/templates/hookify/hookify.require-verification.local.md +13 -0
package/templates/hooks/java-compile-check.sh +106 -0
package/templates/memory/MEMORY.md +4 -0
package/templates/memory/roles/backend.md +11 -0
package/templates/memory/roles/client.md +11 -0
package/templates/memory/roles/frontend.md +11 -0
package/templates/memory/roles/fullstack.md +11 -0
package/templates/rules/clean-code.md +33 -0
package/templates/rules/code-quality.md +74 -0
package/templates/rules/context-hygiene.md +29 -0
package/templates/rules/memory-policy.md +30 -0
package/templates/rules/reporting.md +9 -0
package/templates/rules/task-recovery.md +13 -0
package/templates/rules/thinking.md +19 -0
package/templates/settings.json +11 -0
package/templates/skills/auto-goal/SKILL.md +188 -0
package/templates/skills/coding/SKILL.md +251 -0
package/templates/skills/coding/references/code-review-guide.md +137 -0
package/templates/skills/coding/references/code-smells.md +201 -0
package/templates/skills/coding/references/implement-guide.md +123 -0
package/templates/skills/coding/references/unit-test-guide.md +211 -0
package/templates/skills/skill-creator/LICENSE.txt +202 -0
package/templates/skills/skill-creator/SKILL.md +479 -0
package/templates/skills/skill-creator/agents/analyzer.md +274 -0
package/templates/skills/skill-creator/agents/comparator.md +202 -0
package/templates/skills/skill-creator/agents/grader.md +223 -0
package/templates/skills/skill-creator/assets/eval_review.html +146 -0
package/templates/skills/skill-creator/eval-viewer/generate_review.py +471 -0
package/templates/skills/skill-creator/eval-viewer/viewer.html +1325 -0
package/templates/skills/skill-creator/references/schemas.md +430 -0
package/templates/skills/skill-creator/scripts/__init__.py +0 -0
package/templates/skills/skill-creator/scripts/aggregate_benchmark.py +401 -0
package/templates/skills/skill-creator/scripts/generate_report.py +326 -0
package/templates/skills/skill-creator/scripts/improve_description.py +248 -0
package/templates/skills/skill-creator/scripts/package_skill.py +136 -0
package/templates/skills/skill-creator/scripts/quick_validate.py +103 -0
package/templates/skills/skill-creator/scripts/run_eval.py +310 -0
package/templates/skills/skill-creator/scripts/run_loop.py +332 -0
package/templates/skills/skill-creator/scripts/utils.py +47 -0
package/templates/skills/skill-optimize/SKILL.md +287 -0
package/templates/skills/skill-optimize/references/.claude/settings.local.json +7 -0
package/templates/skills/skill-optimize/references/anthropic-design-philosophy.md +250 -0
package/templates/skills/skill-optimize/references/auto-goal-optimization-directions.md +130 -0
package/templates/skills/skill-optimize/references/cross-disciplinary-insights.md +211 -0
package/templates/skills/skill-optimize/references/quality-checklist.md +170 -0
package/templates/skills/skill-optimize/references/theory-foundations.md +201 -0

package/templates/skills/skill-optimize/references/anthropic-design-philosophy.md ADDED Viewed

@@ -0,0 +1,250 @@
+# Anthropic Claude Code 与 AI Agent 设计哲学研究
+> 分析日期: 2026-04-15
+> 分析主题: Claude Code 设计哲学、Agent 最佳实践、上下文工程、工具设计原则
+> 信息来源: Anthropic 官方博客、Claude Code 文档、工程技术文章、开源社区分析
+---
+## 1. Agent 架构哲学：简单性至上
+**来源**: [Building Effective Agents](https://www.anthropic.com/engineering/building-effective-agents) (2024-12)
+### 核心主张
+> "The most successful implementations weren't using complex frameworks or specialized libraries."
+Anthropic 的第一原则是**从最简方案开始**，仅在能证明改善效果时才增加复杂度。默认应优化单次 LLM 调用（配合检索和上下文示例），而非直接跳到 agent 系统。
+### Workflows vs Agents 的关键区分
+| 类型 | 定义 | 适用场景 |
+|------|------|----------|
+| **Workflow** | LLM 和工具通过**预定义代码路径**编排 | 任务结构明确、需要可预测性和一致性 |
+| **Agent** | LLM **动态决定**自己的流程和工具使用 | 需要灵活性和模型驱动的决策 |
+### 五种 Workflow 模式
+1. **Prompt Chaining** -- 任务分解为顺序步骤，中间可设验证门控
+2. **Routing** -- 输入分类后路由到专门的下游路径
+3. **Parallelization** -- 独立子任务并行执行（分区）或同一任务多次执行（投票）
+4. **Orchestrator-Workers** -- 中央 LLM 动态分解任务、分派工人、综合结果
+5. **Evaluator-Optimizer** -- 生成-评估反馈循环，直到满足质量标准
+### 对 auto-goal 的启示
+- **默认简单**：auto-goal 的六阶段流程是否每步都必要？应允许跳过不必要的阶段
+- **模式选择应动态化**：根据任务复杂度自动选择简单执行还是完整规划流程
+- **验证门控**：在关键步骤之间增加验证点，而非仅在最后验证
+---
+## 2. Claude Code 核心架构：单线程主循环
+**来源**: Anthropic 工程博客、Claude Code 官方文档、架构分析
+### Agent Loop 设计
+Claude Code 的核心是一个**单线程主循环**（内部代号 "nO"），而非多 agent 编排。其设计优先级：
+1. **可调试性** > 复杂性 -- 单线程比多 agent 更易追踪问题
+2. **透明度** > 聪明 -- 明确展示 agent 的规划步骤
+3. **可靠性** > 灵活性 -- 受限的并行（子 agent 委派有界任务）
+Agent 循环模型：`接收任务 -> 规划 -> 行动(使用工具) -> 观察结果 -> 评估进度 -> 重复或终止`
+### 六层 Prompt 栈（缓存优化顺序）
+| 层级 | 内容 | 缓存特性 |
+|------|------|----------|
+| 1. System Prompt | Agent 身份与核心行为规则 | 静态，缓存命中率最高 |
+| 2. Tool Definitions | 所有可用工具的 JSON Schema | 半静态 |
+| 3. Runtime Instructions | 环境约束与权限 | 每会话固定 |
+| 4. Project Context | CLAUDE.md、Skills | 每项目固定 |
+| 5. Conversation History | 历史对话、工具调用与输出 | 增长中 |
+| 6. User Input | 当前用户指令 | 每次变化 |
+**关键洞察**：排序不是修饰性的，它直接决定了 Anthropic prompt caching 的效果。静态内容在前，动态内容在后。
+### 工具集设计：精简与高门槛
+Claude Code 仅保持约 **20 个工具**，每新增一个工具都意味着模型多一个决策点。核心工具：`Read`, `Grep/Glob`（搜索）, `Edit`（差异编辑）, `Bash`（万能适配器）, `WebSearch/Fetch`, `Tasks`。
+**Bash 是最关键的工具** -- 它是 "通用适配器"，让 agent 能与任何外部系统交互。
+### 对 auto-goal 的启示
+- **循环即核心**：auto-goal 的 OODA 循环与 Claude Code 的 agent loop 本质相同，应确保每步都从环境获取"ground truth"
+- **工具精简原则**：skill 不应引入过多自定义概念，尽量复用原生工具
+- **缓存友好设计**：skill 的静态指令应集中在前部，动态内容在后
+---
+## 3. 工具设计：Seeing Like an Agent (ACI)
+**来源**: [Building Effective Agents](https://www.anthropic.com/engineering/building-effective-agents), Anthropic 工程团队分享
+### 核心理念
+> "We actually spent more time optimizing our tools than the overall prompt."
+工具设计（Agent-Computer Interface, ACI）应得到与 prompt engineering 同等甚至更多的关注。核心方法是**"站在模型的角度看"** -- 如果工具的描述和参数对人类不直观，对模型同样不直观。
+### 关键原则
+**1. 防错设计 (Poka-yoke)**
+- 从结构上消除错误可能性，而非依赖提示
+- 实例：将相对路径改为绝对路径，路径错误直接消失
+**2. 高质量文档**
+- 工具定义应包含：使用示例、边界情况、输入格式要求、与其他工具的界限
+- 参数名和描述的标准：像给初级开发者写 docstring
+**3. 格式贴近自然**
+- 保持格式接近模型在互联网文本中见过的自然格式
+- 避免过度格式化开销（如精确行号计数、过度字符串转义）
+- Markdown 优于 JSON 作为代码输出格式
+**4. 给模型思考空间**
+- 在输出前给模型足够的 token 来"思考"，避免一开始就把自己逼入死角
+**5. 迭代测试**
+- 大量示例输入测试，观察模型犯的错误，据此改进工具定义
+### 对 auto-goal 的启示
+- **skill 指令即"工具文档"**：skill 的每条指令都应像工具文档一样精确，包含边界和示例
+- **防错优于纠错**：通过结构设计（如模板、格式约束）减少模型出错的可能
+- **迭代改进**：skill 应基于实际执行观察持续优化，而非一次性设计
+---
+## 4. 上下文工程：从 Prompt Engineering 到 Context Engineering
+**来源**: Anthropic 工程博客、Claude Code 官方 Best Practices
+### 范式转变
+2025 年的共识：**Context Engineering > Prompt Engineering**。区别在于：
+- Prompt Engineering: 如何更好地**措辞**问题
+- Context Engineering: Agent 在回答时**知道什么** -- 管理整个信息生态
+> "Effective context engineering involves finding the smallest possible set of high-signal tokens to maximize the desired outcome."
+### 三大上下文管理策略
+**1. Compaction（压缩）**
+- 接近上下文窗口极限时，模型总结并压缩消息历史
+- 保留关键细节（代码模式、文件状态、决策），丢弃冗余
+- Claude Code 用户可自定义压缩行为：`"When compacting, always preserve the full list of modified files"`
+**2. Structured Note-Taking（结构化笔记 / Agentic Memory）**
+- Agent 定期将笔记写入外部存储（如 `NOTES.md`），需要时按需检索
+- 与压缩的区别：信息完全移出上下文窗口，按需加载
+- Claude Code 的三层记忆系统：in-context memory / external file memory (memory.md) / project-level config (CLAUDE.md)
+**3. Just-in-Time Retrieval（即时检索）**
+- 维护轻量级标识符，运行时动态加载数据
+- **Agentic RAG**：agent 自主选择搜索工具构建上下文，而非依赖预设的检索管道
+- Progressive Disclosure：agent 渐进式发现相关信息，节省 47%-85% 的 token
+### 上下文退化的四种模式
+| 模式 | 症状 | 对策 |
+|------|------|------|
+| **Poisoning（中毒）** | 错误信息进入上下文 | 及时纠正，或 /clear 重新开始 |
+| **Distraction（干扰）** | 无关信息稀释注意力 | 任务间 /clear，子 agent 隔离探索 |
+| **Confusion（混淆）** | 矛盾信息导致行为不一致 | 确保指令一致性，简化 CLAUDE.md |
+| **Clash（冲突）** | 不同来源的指令互相矛盾 | 建立明确优先级 |
+### 对 auto-goal 的启示
+- **上下文卫生是第一优先级**：auto-goal 的长任务执行中，上下文管理可能比执行逻辑更重要
+- **外部记忆机制**：长任务应主动维护结构化笔记，而非依赖上下文窗口
+- **渐进披露**：skill 指令不应一次性全量加载，而应按需展开
+- **压缩感知**：skill 应包含"压缩时保留什么"的指导
+---
+## 5. Claude Code 最佳实践精要
+**来源**: [Claude Code Best Practices](https://code.claude.com/docs/en/best-practices)
+### 官方推荐的工作流
+**Explore -> Plan -> Implement -> Commit**（四阶段，非六阶段）
+关键原则：
+- 简单任务（能一句话描述 diff）跳过规划，直接执行
+- 规划在不确定方法、多文件变更、不熟悉代码时最有价值
+### CLAUDE.md 黄金法则
+> "For each line, ask: 'Would removing this cause Claude to make mistakes?' If not, cut it."
+- **精简至上**：过长的 CLAUDE.md 导致重要规则被忽略
+- **只放 Claude 不能从代码中推断的信息**
+- **像代码一样维护**：定期审查和裁剪
+- **渐进披露**：domain knowledge 用 skills 按需加载，不放 CLAUDE.md
+### 五大反模式
+1. **Kitchen Sink Session** -- 不相关任务混在一个会话 -> `/clear` 隔离
+2. **Repeated Correction** -- 同一问题纠正超过2次 -> `/clear` + 更好的初始 prompt
+3. **Over-specified CLAUDE.md** -- 指令太长反而被忽略 -> 无情裁剪
+4. **Trust-then-Verify Gap** -- 看起来合理但未处理边界 -> 始终提供验证手段
+5. **Infinite Exploration** -- 无范围限制的调查 -> 限定范围或用子 agent
+### 最高杠杆操作
+> "Give Claude a way to verify its work. This is the single highest-leverage thing you can do."
+提供测试、截图、预期输出，让 Claude 能自检。没有验证标准，每个错误都需要人介入。
+### 对 auto-goal 的启示
+- **四阶段而非六阶段**：Anthropic 官方推荐的工作流更精简，auto-goal 的六阶段可能需要合并
+- **自验证是最高优先级**：每步执行后应有验证机制，而非仅靠规划避免错误
+- **反模式内建防护**：skill 应主动检测并处理上述反模式
+---
+## 6. 综合优化方向：从 Anthropic 哲学到 auto-goal 改进
+### 6.1 架构层面
+| 当前设计 | Anthropic 启示 | 优化方向 |
+|----------|---------------|----------|
+| 固定六阶段流程 | 简单任务应跳过规划 | 引入任务复杂度路由：简单任务 2 步完成，复杂任务展开完整流程 |
+| OODA 循环 | Agent loop = 任务->规划->行动->观察->评估 | 强化"观察"环节：每步必须从环境获取 ground truth |
+| 全量指令加载 | Progressive disclosure 节省 47-85% token | 分层加载：核心指令常驻，扩展指令按需展开 |
+### 6.2 上下文管理
+| 问题 | 解决方案 |
+|------|----------|
+| 长任务上下文退化 | 引入结构化笔记机制（external file memory） |
+| 压缩时丢失关键信息 | 在 skill 中声明"压缩保留项" |
+| 探索消耗主上下文 | 研究和调查用子 agent 隔离 |
+### 6.3 验证机制
+- **自验证优先**：每个执行步骤应内建验证标准
+- **防错设计**：通过结构约束（模板、格式）从源头减少错误
+- **快速失败**：错误应尽早暴露（Fail Fast），而非在最终验证时才发现
+### 6.4 指令设计
+- **像写工具文档一样写 skill**：包含示例、边界、与其他 skill 的界限
+- **精简而非堆砌**：每条指令都应通过"删除后是否会出错"的测试
+- **缓存友好**：静态指令在前，动态内容在后
+---
+## 7. 核心参考链接
+- [Building Effective Agents](https://www.anthropic.com/engineering/building-effective-agents) - Agent 设计模式与哲学
+- [Claude Code Best Practices](https://code.claude.com/docs/en/best-practices) - 官方最佳实践
+- [How Claude Code Works](https://code.claude.com/docs/en/how-claude-code-works) - 架构细节
+- [Claude Code Skills](https://code.claude.com/docs/en/skills) - Skill 系统文档
+- [Claude Code Memory (CLAUDE.md)](https://code.claude.com/docs/en/memory) - CLAUDE.md 详细指南

package/templates/skills/skill-optimize/references/auto-goal-optimization-directions.md ADDED Viewed

@@ -0,0 +1,130 @@
+# Auto-Goal 优化方向深度分析
+> 分析日期: 2026-04-15
+> 分析主题: 基于 Anthropic/OpenAI Agent 设计哲学、跨学科理论（认知科学/控制论/哲学/心理学/社会学/计算机科学）的 auto-goal skill 优化方向
+> 研究基础: Anthropic 设计哲学报告、OpenAI Agent 最佳实践报告、跨学科理论研究报告
+---
+## 1. 现状评估：已有优势与理论对齐度
+### 1.1 设计优势确认
+Auto-goal 当前设计已经体现了多项前沿思想，在分析优化方向前，必须先确认这些优势——优化不应损害它们。
+| 已有设计 | 对齐的理论/最佳实践 | 评价 |
+|----------|---------------------|------|
+| OODA 循环（Sense-Orient-Decide-Act-Observe-Adapt） | Boyd OODA、Anthropic Agent Loop、OpenAI Think-Act Loop | **强** — 核心循环完整，且加入了 Observe 和 Adapt |
+| 验证内建（"呼吸不是动作"） | Anthropic "最高杠杆操作"、TOTE 模型、元认知 | **强** — 理念正确，是最关键的设计决策 |
+| 信息分级（FACT/INFER/ASSUME） | 知识论确定性层级、HRO"拒绝简化" | **强** — 独特且有价值的机制 |
+| Reflect-then-Retry | 元认知自我监控、成长心态、Dewey 反思性思维 | **强** — 结构化反思 + 持久化经验 |
+| 优雅降级（L0-L3） | OpenAI 多级回退、有限理性 Satisficing | **强** — "永不空手而归"是优秀的设计原则 |
+| 上下文隔离（sub-agent 探索） | 分布式认知、Anthropic 子 agent 策略 | **良** — 方向正确，可细化 |
+| 深度连续调节（1-4） | 双过程理论（快/慢切换） | **良** — 部分覆盖，但切换机制可更明确 |
+| "足够好胜过完美" | Satisficing、探索-利用权衡 | **强** — 抵制了过度优化的诱惑 |
+| "赋能胜过补偿" | Anthropic "工具设计 > Prompt 优化" | **强** — 元层设计原则，保证了 skill 的抽象性 |
+| 策略工具箱（非流水线） | HTN 多方法选择、CAS 边缘混沌 | **良** — 概念正确，但策略粒度可细化 |
+### 1.2 关键差距总览
+对比三份研究报告，识别出以下主要差距：
+| 维度 | 差距 | 影响 | 优先级 |
+|------|------|------|--------|
+| **架构** | 缺少复杂度路由 — 简单任务被迫走完整流程 | 效率浪费，违反"简"原则 | **P0** |
+| **认知模型** | Orient 环节过浅 — 缺少显式心智模型维护 | 决策质量受限，无法从错误中系统性学习 | **P0** |
+| **目标管理** | 缺少目标层级结构 | 复杂任务缺乏结构化分解框架 | **P0** |
+| **上下文** | 压缩保留指导缺失 | 长任务上下文退化风险 | **P1** |
+| **认知模型** | 行动非假设驱动 | 行动目的性不够明确 | **P1** |
+| **认知模型** | 信念与意图未分离 | 新信息可能导致计划频繁震荡 | **P1** |
+| **策略** | 策略库粒度过粗 | 无法匹配任务多样性（必要多样性不足） | **P2** |
+| **策略** | 探索预算仅覆盖 Explore 策略 | 其他策略缺少停止规则 | **P2** |
+| **韧性** | 工具故障仅视为错误，非认知升级信号 | 浪费了从故障中学习的机会 | **P2** |
+| **元层** | 指令自身未通过"删除测试" | Token 效率可优化，部分指令冗余 | **P2** |
+| **架构** | 未针对 prompt cache 优化布局 | 缓存命中率可提升 | **P3** |
+---
+## 2. 架构层优化
+### 2.1 任务复杂度路由器 [P0]
+**问题诊断**：当前 auto-goal 对所有任务使用同一套完整流程。"帮我解释什么是闭包"和"设计并实现一个完整的认证系统"走的是同一条路径。反模式表中虽然提到了"过度流程"，但只是警告，不是结构性解决方案。
+**理论支撑**：
+- **Anthropic**：官方最佳实践明确指出"简单任务应跳过规划，直接执行"。Claude Code 推荐四阶段工作流（Explore → Plan → Implement → Commit），但允许跳过。
+- **OpenAI**："从单 Agent 开始，验证可行后再演化到多 Agent"。模型选择也是"先用最强验证，再逐步替换"。
+- **双过程理论**：System 1（快速直觉）处理常规任务，System 2（慢速分析）处理复杂/陌生任务。切换由"惊讶"或"困难"触发。
+- **必要多样性定律**：响应复杂度应匹配任务复杂度。简单任务用简单策略。
+**优化方向**：
+接收目标后，在"初始理解"阶段增加**复杂度评估**，根据结果路由到不同执行路径：
+```
+接收目标 → 复杂度评估
+  ├─ 轻量（单步可完成、已知模式）  → 直接执行 + 验证
+  ├─ 中等（多步、需要规划）        → 规划 → 执行循环
+  └─ 重量（跨领域、高不确定性）    → 完整 OODA 循环
+```
+**复杂度信号**（非穷举，启发式判断）：
+- 是否涉及多个文件/系统？
+- 是否存在未知技术/领域？
+- 是否有不可逆操作？
+- 用户的描述是否模糊/开放式？
+- 是否需要创造性解决方案？
+**关键约束**：路由判断本身必须轻量（不应消耗大量上下文来决定走哪条路）。错误路由应可自纠——执行中发现复杂度超预期时，升级到更重的路径。
+### 2.2 渐进式指令披露 [P2]
+**问题诊断**：当前 SKILL.md 约 161 行全量加载。每次触发 auto-goal，所有指令都进入上下文窗口，包括当前任务可能完全不需要的部分（如"优雅降级"对简单任务无用，"记忆架构"对单步任务无用）。
+**理论支撑**：
+- **Anthropic**：Progressive Disclosure 可节省 47%-85% 的 token。CLAUDE.md 黄金法则："每一行都问——删掉它会导致犯错吗？不会就删。"
+- **认知负荷理论**：减少外在负荷（不相关信息）释放认知资源给任务本身。
+**优化方向**：
+将指令分为两层：
+**核心层（始终加载，~80 行）**：
+- 设计原则（5 条）
+- 六字原则
+- 执行循环（精简版）
+- 策略工具箱（概要）
+- 上下文工程核心纪律
+**扩展层（按需加载）**：
+- 韧性机制详细规则（Reflect-then-Retry 完整流程、降级层级）→ 仅在验证失败或复杂度 ≥ 3 时加载
+- 记忆架构详细规则 → 仅在长任务（预估 > 10 步）时加载
+- 反模式详细表 → 仅在检测到可能的反模式行为时提醒
+**实现方式**：可通过 skill 内部条件引用，或将扩展内容放在独立文件中通过注释引用路径。
+**风险**：过度分层本身增加复杂度（"简"原则）。需要评估实际 token 节省量是否值得引入分层机制。
+### 2.3 缓存友好布局 [P3]
+**问题诊断**：Claude Code 使用六层 Prompt 栈，静态内容在前、动态内容在后以最大化 prompt cache 命中率。当前 SKILL.md 的内容排列未考虑这一点。
+**理论支撑**：
+- **Anthropic 六层 Prompt 栈**：System Prompt → Tool Definitions → Runtime Instructions → Project Context（CLAUDE.md/Skills）→ Conversation History → User Input。Skills 处于第 4 层。
+- 在第 4 层内部，稳定不变的内容应排在前面，可能随任务变化的内容排在后面。
+**优化方向**：
+重新排列 SKILL.md 内容，从最稳定到最动态：
+1. **设计原则**（永远不变）
+2. **六字原则**（永远不变）
+3. **策略工具箱**（半稳定，描述可能微调）
+4. **执行循环**（半稳定）
+5. **上下文工程**（半稳定）
+6. **韧性机制**（半稳定）
+7. **介入模式**（可能按任务切换）
+8. **反模式**（参考性，频率低）
+9. **记忆架构**（仅长任务使用）

package/templates/skills/skill-optimize/references/cross-disciplinary-insights.md ADDED Viewed

@@ -0,0 +1,211 @@
+# AI Agent 目标完成系统：跨学科理论研究
+> 分析日期: 2026-04-15
+> 分析主题: 从认知科学、控制论、哲学、心理学、社会学、计算机科学六大领域提取可借鉴洞察，为优化 AI Agent 目标完成系统提供理论基础
+---
+## 1. 认知科学
+### 1.1 元认知（Metacognition）-- 对思考的思考
+**核心思想：** 元认知是"关于认知的认知"，包含两个核心能力：自我监控（monitoring）和自我调节（regulation）。人类专家之所以高效，不是因为从不犯错，而是因为能在犯错时迅速觉察并修正策略。Reflexion、Self-Refine 等框架已证明语言介导的自我监控能带来可测量的性能提升。
+**Agent 应用方向：**
+- **执行中自检**：Agent 每步操作后应评估"这步是否推进了目标"，而非盲目执行下一步。这要求内建一个"元层"，持续监控当前策略的有效性。
+- **策略切换触发器**：当自我监控检测到连续失败或进展停滞时，应触发策略调整（如从深度搜索切换到广度搜索），而非重复失败的方法。
+- **置信度校准**：Agent 应区分"确定知道"、"推断"和"猜测"，对不确定性保持诚实，避免过度自信导致的错误决策。
+### 1.2 认知负荷理论（Cognitive Load Theory）-- 工作记忆的瓶颈
+**核心思想：** John Sweller 提出人类工作记忆一次只能处理 4-9 个信息块（chunk）。认知负荷分三类：内在负荷（任务本身复杂度）、外在负荷（信息呈现方式造成的干扰）、生成性负荷（构建理解所需的努力）。关键洞察是：当熟悉的模式从长期记忆调入工作记忆时，容量限制被有效绕过。
+**Agent 应用方向：**
+- **上下文窗口 = 工作记忆**：LLM Agent 的上下文窗口就是其"工作记忆"。必须积极管理上下文，保留关键信息，压缩或丢弃已完成步骤的细节。
+- **分块（Chunking）策略**：将复杂目标分解为可管理的子目标，每次只在工作记忆中处理一个子目标的相关信息，而非试图同时兼顾所有细节。
+- **减少外在负荷**：系统提示（system prompt）和指令设计应最小化无关信息，让 Agent 的"认知资源"集中在任务本身。
+### 1.3 双过程理论（Dual Process Theory）-- 快与慢的切换
+**核心思想：** Kahneman 的 System 1（快速、直觉、自动）与 System 2（慢速、分析、审慎）描述了两种认知模式。System 1 负责日常高效运转，System 2 在 System 1 遇到困难、意外或潜在错误时被激活。当前 LLM Agent 大多是"System 1 机器"——快速流畅但缺乏显式的搜索、一致性检查和不确定性识别机制。
+**Agent 应用方向：**
+- **双模式架构**：简单、已知模式的任务用快速路径（直接执行已有策略），复杂、陌生或风险高的任务切换到慢速路径（深度分析、多方案评估、显式推理）。
+- **切换触发条件**：定义从"快"到"慢"的门控信号——如遇到未预期的错误、任务复杂度超出阈值、涉及不可逆操作时，自动升级到审慎模式。
+- **Tree of Thoughts 启示**：慢速模式可借鉴 ToT 框架，进行前瞻性搜索和回溯，而非线性推进。
+### 1.4 情境认知（Situated Cognition）-- 行动中的理解
+**核心思想：** Lave、Wenger 等人提出认知不是脱离环境的抽象过程，而是嵌入具体物理、社会和文化情境中的活动。"知"与"行"不可分离——理解产生于与环境的交互，而非先于交互。
+**Agent 应用方向：**
+- **行动即探索**：Agent 不应试图在行动前完全理解任务——通过小步行动获取环境反馈，逐步建立对问题的理解。完美的前期规划是幻觉，尤其在信息不完全时。
+- **环境反馈驱动认知**：每次操作的结果（文件内容、命令输出、错误信息）都是重塑 Agent 理解的关键信息源。Agent 应将这些反馈深度整合到后续决策中，而非忽略。
+---
+## 2. 控制论与系统论
+### 2.1 必要多样性定律（Law of Requisite Variety）-- 控制器必须匹配复杂度
+**核心思想：** Ashby 定律指出：一个有效的控制器，其可能的响应种类必须不少于被控系统可能出现的扰动种类。简言之，"只有多样性才能吸收多样性"。如果控制器的行为库不足以应对所有可能的干扰，系统将失控。
+**Agent 应用方向：**
+- **策略库的丰富度**：Agent 面对多样化的任务和失败模式，必须具备足够多样的应对策略。只有"重试"和"放弃"两种策略的 Agent，在必要多样性上严重不足。应提供：换方案、降级目标、分解问题、求助人类、暂停反思等多种策略。
+- **渐进式复杂度匹配**：简单任务用简单策略，复杂任务自动调动更丰富的策略组合。Agent 的响应复杂度应动态匹配任务复杂度，而非一刀切。
+### 2.2 OODA 循环 -- 心智模型的持续更新
+**核心思想：** Boyd 的 OODA（Observe-Orient-Decide-Act）循环中，Orient（定向）是最关键的阶段——它不是简单的"分析"，而是持续更新心智模型的过程。已有的知识、经验和偏见塑造了我们对观察到的信息的解读。循环的核心不是"快速执行4步"，而是通过每次循环不断修正对现实的理解，实现对手无法预测的行动节奏。
+**Agent 应用方向：**
+- **Orient 优先**：每次行动的结果都应触发"重新定向"——Agent 不应僵化地执行预设计划，而应根据每步反馈持续修正对任务的理解和策略。"计划是无用的，但规划是必要的"。
+- **心智模型显式化**：Agent 应维护一个可更新的"当前理解"（类似 scratchpad），记录对任务状态、已知约束、已尝试方案及其结果的认知。这个模型是决策的基础，也是每次循环中最需要更新的部分。
+- **节奏而非速度**：OODA 的优势不在于"更快"，而在于"更准确地理解现实"。Agent 宁可慢一步理解清楚，也不要快一步执行错误。
+### 2.3 复杂适应系统（CAS）-- 涌现与边缘混沌
+**核心思想：** 复杂适应系统由大量相互作用的组件构成，系统行为无法从单个组件预测。三个核心特征：涌现（整体行为不可还原为部分之和）、自组织（无需中央控制即可形成结构）、边缘混沌（系统在秩序与混乱的临界点达到最优适应性）。
+**Agent 应用方向：**
+- **容忍涌现**：复杂任务的解决方案往往不是预先设计出来的，而是在 Agent 与环境交互过程中"涌现"的。系统设计应容纳这种涌现，而非强制所有行为走预定路线。
+- **边缘混沌启示**：Agent 的行为应在"完全遵循计划"（秩序）与"完全随机探索"（混乱）之间找到平衡点。过于僵化的执行和过于随意的探索都不是最优策略。
+---
+## 3. 哲学
+### 3.1 实用主义 -- Dewey 的反思性思维
+**核心思想：** Dewey 将反思性思维定义为"对信念或知识形式进行主动、持续、审慎的考查"。其探究过程为：感知困惑 -> 定义问题 -> 分析问题 -> 提出假设 -> 验证假设。关键洞察：这不是线性流程——问题解决者在各阶段间反复穿梭，对问题的理解本身在探究过程中不断深化。Peirce 的溯因推理（abduction）补充了一点：面对意外观察，应生成"最佳解释假设"，然后验证。
+**Agent 应用方向：**
+- **问题定义是第一步**：Agent 遇到任务时，最重要的不是立即规划方案，而是准确定义"要解决的真正问题是什么"。许多失败源于解决了错误的问题。
+- **假设-验证循环**：Agent 的每个行动都应视为对某个假设的验证。"我认为这个文件包含配置信息"是假设，读取文件是验证。明确假设比盲目行动更高效。
+- **非线性探究**：允许 Agent 在"理解问题-规划方案-执行-验证"之间灵活跳转，而非强制线性执行。
+### 3.2 现象学 -- Heidegger 的"上手"与"在手"
+**核心思想：** Heidegger 区分了两种与工具的关系：上手（ready-to-hand）——工具透明地融入活动，使用者的注意力在任务而非工具上（如熟练使用锤子时，意识中只有钉子）；在手（present-at-hand）——当工具故障或不适用时，它"显现"为需要审视的对象。从上手到在手的转变由"breakdown"（故障/断裂）触发。
+**Agent 应用方向：**
+- **透明工具使用 vs 显式工具审查**：正常流程中，Agent 应像"上手"一样流畅地使用工具（文件读写、命令执行），不需要过度反思工具本身。但当工具失败或产生意外结果时（breakdown），应切换到"在手"模式——停下来审视工具的使用方式、参数是否正确、是否应该换一个工具。
+- **Breakdown 是认知升级的契机**：故障不是单纯的错误，而是暴露了 Agent 心智模型与现实之间差距的宝贵信号。每次 breakdown 都应触发对"为什么我的预期与现实不符"的反思。
+### 3.3 知识论 -- 确定性的层级
+**核心思想：** 传统知识论（JTB：Justified True Belief）要求知识是"被证成的真信念"。但在实践中，我们的认知确定性存在层级：事实（直接观察到的）> 推断（从事实合理推导的）> 假设（有理由的猜测）> 猜测（无依据的推测）。区分这些层级对决策质量至关重要。
+**Agent 应用方向：**
+- **信息标记分级**：Agent 应对自己获取的信息标记确定性级别。"文件存在"是事实（ls 输出证实），"文件可能包含目标函数"是推断，"修改这个文件可能修复 bug"是假设。基于不同确定性级别的信息应采取不同的行动策略。
+- **高风险决策需要高确定性**：不可逆的操作（删除文件、重大重构）应基于事实而非推断；低风险探索性操作可以基于假设。确定性级别与行动代价应匹配。
+---
+## 4. 心理学与行为科学
+### 4.1 目标设定理论（Goal Setting Theory）-- 目标的结构与承诺
+**核心思想：** Locke & Latham 发现：明确且具有适度挑战性的目标比模糊的"尽力而为"目标能带来显著更高的绩效。目标通过四个机制影响行为：引导注意力、调动努力、增加坚持性、激发策略开发。子目标分解是处理复杂目标的关键——近端目标（proximal goals）提供即时反馈和成就感，远端目标（distal goals）提供方向。
+**Agent 应用方向：**
+- **目标层级结构**：Agent 应维护清晰的目标层级——顶层目标（用户最终需求）-> 阶段目标（大的里程碑）-> 执行目标（当前具体要做的事）。每个层级的目标应该是具体的、可验证的。
+- **子目标的即时反馈**：每完成一个子目标，应生成明确的"完成信号"，为后续决策提供锚点。模糊的"进展中"状态会降低 Agent 的决策质量。
+- **目标承诺与灵活性的平衡**：承诺当前目标（不轻易放弃），但保留基于新信息修正目标的灵活性。目标本身可能是错误的——当证据充分时，修正目标比坚持错误目标更明智。
+### 4.2 TOTE 模型（Test-Operate-Test-Exit）-- 自我调节的基本单元
+**核心思想：** Miller、Galanter、Pribram 在 1960 年提出的 TOTE 模型是目标导向行为的基本控制单元：测试当前状态是否匹配目标 -> 不匹配则执行操作 -> 再次测试 -> 匹配则退出。这个看似简单的循环是所有自我调节行为的原子单位，可以递归嵌套（一个 Operate 内部可以包含子 TOTE 循环）。
+**Agent 应用方向：**
+- **每步操作的验证闭环**：Agent 的每个操作都应嵌入 TOTE 结构——操作前明确"成功标准是什么"（Test），操作后立即验证是否达到标准（Test），达到则前进（Exit），未达到则调整（Operate again）。验证不是可选项，而是操作的内建组成部分。
+- **递归分解**：大的 TOTE 循环内嵌套小的 TOTE 循环，自然形成层次化执行结构。"实现功能"是大循环，"修改文件"是子循环，"找到正确插入点"是更小的子循环。
+### 4.3 成长心态与习得性无助 -- 面对失败的策略
+**核心思想：** Dweck 的研究表明，面对失败时存在两种截然不同的反应模式：固定心态（认为能力固定，失败意味着不够好）导致回避挑战和放弃；成长心态（认为能力可发展，失败是学习机会）导致坚持和策略调整。Seligman 的习得性无助研究补充：当个体反复经历不可控的失败后，会停止尝试——即使环境已经改变。
+**Agent 应用方向：**
+- **失败是信息而非终点**：Agent 遇到错误时，应将其视为"关于环境的新信息"，而非"任务不可完成的信号"。每次失败都缩小了未知空间。
+- **防止"习得性放弃"**：当 Agent 连续失败多次后，不应退化为过度保守或直接放弃。应内建"重置机制"——重新审视假设、切换策略、甚至重新定义问题。
+- **递进式策略升级**：失败 -> 调整参数 -> 换方法 -> 换思路 -> 降级目标 -> 求助人类。有序的升级链比"失败即放弃"或"失败即重试"都更有效。
+---
+## 5. 社会学与组织理论
+### 5.1 有限理性（Bounded Rationality）-- Satisficing 策略
+**核心思想：** Herbert Simon 指出人类决策受三重限制：有限的信息、有限的认知能力、有限的时间。在这些约束下，追求"最优解"往往不可行甚至有害（搜索成本可能超过优化收益）。Satisficing（满意即止）策略是：设定一个可接受的标准，选择第一个达标的方案，而非穷尽所有可能。这不是"偷懒"，而是在约束条件下的理性策略。
+**Agent 应用方向：**
+- **"足够好"原则**：Agent 不应在每个子问题上都追求最优解。当一个方案能满足需求时，就应该执行，而非继续搜索"可能更好"的方案。过度优化单个步骤会拖慢整体进度。
+- **搜索预算机制**：为每个决策分配有限的搜索时间/步骤。超出预算后，必须基于已有信息做出决策。防止 Agent 在低优先级问题上无限搜索。
+- **启发式优先**：在大多数情况下，好的启发式（经验法则）比完美的分析更高效。Agent 应积累和应用常见任务的启发式策略，只在启发式失效时才启动深度分析。
+### 5.2 高可靠性组织（HRO）-- 在复杂环境中防止灾难
+**核心思想：** Weick & Sutcliffe 研究了核电站、航空母舰等组织如何在极端复杂和高风险的环境中持续保持低故障率。五条核心原则：对失败的执念（小异常可能是大问题的前兆）、拒绝简化（不用简单解释掩盖复杂原因）、对运营的敏感性（实时了解一线状态）、对韧性的承诺（预设故障恢复能力）、对专业的尊重（决策权下放给最了解情况的人）。
+**Agent 应用方向：**
+- **对失败的执念**：Agent 应将任何意外结果（即使看似无害）视为潜在问题的信号。一个"奇怪但似乎可以忽略"的警告，可能恰恰指向了核心问题。
+- **拒绝简化解释**：当遇到错误时，不应满足于第一个看似合理的解释。"可能是网络问题"这种简化归因会掩盖真正的原因。应深入到根因层面。
+- **韧性内建**：系统设计应预设各种失败场景的恢复路径，而非假设一切顺利。最好的 Agent 不是从不失败的，而是失败后能优雅恢复的。
+### 5.3 分布式认知（Distributed Cognition）-- 认知不止在大脑中
+**核心思想：** Hutchins 通过研究海军舰艇导航和航空驾驶舱，发现认知不仅发生在个体大脑中，还分布在人、工具、环境和文化实践之间。导航图、计算器、清单都是"认知制品"（cognitive artifacts），它们承载了一部分认知功能。系统的认知能力是所有组件——人、工具、外部表征——协同作用的结果。
+**Agent 应用方向：**
+- **外化认知到工具和文件**：Agent 应将中间状态、决策记录、已验证的事实写入外部存储（文件、scratchpad），而非全部保持在上下文窗口中。这相当于为自己创建"认知制品"，扩展有效工作记忆。
+- **环境即记忆**：代码库、配置文件、错误日志本身就是分布式认知系统的一部分。Agent 应善于从环境中"读取"已有的认知（如代码注释中的设计意图、git log 中的变更历史），而非从零推断。
+- **工具选择是认知决策**：选择使用哪个工具（grep vs 文件阅读 vs 代码执行）本身就是一个认知决策，不同工具放大不同的认知能力。Agent 应根据任务性质选择最能放大其认知能力的工具。
+---
+## 6. 计算机科学
+### 6.1 BDI 架构（Belief-Desire-Intention）-- Agent 的经典心智模型
+**核心思想：** Bratman 的 BDI 架构将 Agent 的内部状态分为三层：信念（Belief，对世界的认知，可能不完整或不正确）、欲望（Desire，想要达成的目标集合，可以相互冲突）、意图（Intention，已承诺要追求的具体目标和计划）。Agent 的运行循环是：感知环境 -> 更新信念 -> 基于信念审议欲望 -> 将选中的欲望转化为意图 -> 执行行动。意图一旦形成，应保持稳定（不轻易放弃），除非被证明不可行或被更重要的意图取代。
+**Agent 应用方向：**
+- **信念-意图分离**：Agent 应显式区分"我对环境的理解"（信念）和"我决定做的事"（意图）。信念应持续更新，而意图应保持相对稳定——这防止了 Agent 在每次新信息时都彻底推翻计划。
+- **审议过程显式化**：从"想做的事"到"决定做的事"之间应有明确的审议过程——评估可行性、优先级、资源约束，而非将每个冒出的想法都立即执行。
+- **意图的承诺与修正机制**：承诺当前意图（避免频繁切换导致的无效消耗），但设置"重新审议触发条件"（如前提假设被推翻、更高优先级目标出现、资源耗尽）。
+### 6.2 层次任务网络（HTN）-- 递归分解的力量
+**核心思想：** HTN 规划通过递归分解将高层复合任务分解为可直接执行的原始任务。分解过程使用"方法库"——每个方法描述一种将抽象任务分解为子任务序列的方式。同一个抽象任务可能有多种分解方法，系统需要选择最适合当前情境的方法。HTN 的优势在于它反映了人类解决问题的自然方式：先想大步骤，再逐层细化。
+**Agent 应用方向：**
+- **渐进式分解**：不在开始时就把所有任务分解到原子级别，而是先分解一层，执行后根据实际情况再分解下一层。这避免了基于不完整信息的过度规划。
+- **多方法选择**：同一个子目标可能有多种实现方式。Agent 应维护可选方法列表，首选最可能成功的方法，备选方法作为后备。
+- **方法库的积累**：随着经验积累，Agent 应建立并复用成功的分解模式——类似于认知负荷理论中从长期记忆调用 schema 来绕过工作记忆限制。
+### 6.3 探索-利用权衡（Exploration-Exploitation Tradeoff）-- 已知与未知的平衡
+**核心思想：** 强化学习的核心难题：利用（exploitation，选择已知最优的行动获取稳定收益）vs 探索（exploration，尝试新行动以发现潜在更优方案）。经典策略包括 Epsilon-Greedy（以固定概率随机探索）、UCB（优先探索不确定性高的选项）、Thompson Sampling（根据最优概率采样）。核心洞察：探索比例应随时间递减——早期多探索，后期多利用。
+**Agent 应用方向：**
+- **动态探索比例**：任务早期（环境未知、方案不确定时）偏向探索（广泛搜索信息、尝试不同策略），任务后期（方案确定后）偏向利用（深化执行已验证的策略）。类似模拟退火从高温到低温的冷却过程。
+- **不确定性引导探索**：优先探索不确定性最高的方面（UCB 思想），而非随机探索。"我最不确定的是什么？"应该指导下一步的探索方向。
+- **退火思想应用**：目标完成过程可类比优化：初期广泛搜索解空间（高温/高探索），找到有前景的方向后逐渐聚焦（降温/增加利用），最终精细化执行（低温/纯利用）。
+---
+## 7. 跨领域综合：核心设计原则提炼
+综合以上六大领域的洞察，为 AI Agent 目标完成系统提炼出以下核心设计原则：
+| 原则 | 理论来源 | Agent 中的体现 |
+|------|----------|---------------|
+| **验证内建** | TOTE 模型 + HRO + 元认知 | 每步操作自带验证闭环，不是可选步骤 |
+| **认知经济** | 认知负荷 + 有限理性 + Satisficing | 主动管理上下文，足够好就前进 |
+| **双速切换** | 双过程理论 + 上手/在手 | 正常流畅执行，异常时切慢速深度分析 |
+| **信念持续更新** | OODA Orient + BDI 信念 + 情境认知 | 每步反馈都更新对任务的理解 |
+| **渐进式分解** | HTN + 目标层级 + Dewey 反思 | 先粗后细，按需展开，非一次到底 |
+| **策略多样性** | 必要多样性 + 探索-利用 + 成长心态 | 丰富的策略库 + 有序升级链 |
+| **外化记忆** | 分布式认知 + 认知负荷 | 将状态外化到文件，扩展工作记忆 |
+这些原则不是孤立的功能点，而是相互支撑的系统：验证产生反馈，反馈更新信念，信念指导分解，分解需要策略选择，策略选择受认知经济约束，约束通过外化记忆来缓解。理解这个循环，是优化目标完成系统的关键。