npm - @archsight/aios - Versions diffs - 1.3.0 → 1.3.2 - Mend

@archsight/aios 1.3.0 → 1.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

package/.claude-plugin/plugin.json +1 -1
package/CHANGELOG.md +45 -0
package/README.md +2 -2
package/RELEASE_NOTES.md +30 -0
package/adapters/workbuddy/README.md +11 -1
package/agents/atlas/responsibilities.md +1 -1
package/agents/atlas/system-prompt.md +1 -1
package/agents/hestia/system-prompt.md +1 -1
package/agents/hestia/workflow.md +2 -2
package/agents/plutus/system-prompt.md +2 -2
package/agents/plutus/workflow.md +2 -2
package/agents/themis/responsibilities.md +1 -1
package/agents/themis/system-prompt.md +2 -2
package/agents/themis/workflow.md +2 -2
package/bin/archsight-aios.mjs +5 -3
package/gemini-extension.json +1 -1
package/governance/README.md +41 -11
package/governance/agent-boundary.md +1 -2
package/governance/ai-review-policy.md +1 -2
package/governance/arbitration-protocol.md +33 -33
package/governance/context-policy.md +2 -3
package/governance/delivery-policy.md +1 -2
package/governance/memory-policy.md +1 -2
package/governance/security-policy.md +1 -2
package/memory/decision-records.md +8 -9
package/package.json +1 -1
package/prompts/evaluation-policy.md +35 -0
package/prompts/evaluations/engineering-business-basic-advisory-validation-2026-06-16.md +3 -3
package/prompts/evaluations/engineering-business-basic-fixtures.json +12 -12
package/prompts/evaluations/engineering-business-basic-model-output.example.json +6 -6
package/prompts/evaluations/engineering-business-basic-prompts-2026-06-16.md +1 -1
package/prompts/evaluations/engineering-business-public-advisory-fixtures.json +12 -12
package/prompts/prompt-registry.md +6 -6
package/runtime/agent-routing.md +5 -3
package/runtime/archsight-aios.manifest.json +52 -13
package/runtime/skill-routing.md +14 -8
package/scripts/validate-skills.mjs +2 -1
package/skills/README.md +10 -7
package/skills/aios/SKILL.md +88 -0
package/skills/aios/agents/openai.yaml +4 -0
package/skills/aios-arch/SKILL.md +14 -14
package/skills/aios-ceo/SKILL.md +13 -13
package/skills/aios-commercial-contract/SKILL.md +24 -14
package/skills/aios-commercial-contract/agents/openai.yaml +1 -1
package/skills/aios-commercial-contract/prompts/basic-prompt.md +1 -1
package/skills/aios-commercial-tender/SKILL.md +24 -14
package/skills/aios-commercial-tender/agents/openai.yaml +1 -1
package/skills/aios-commercial-tender/prompts/basic-prompt.md +1 -1
package/skills/aios-commercial-variation/SKILL.md +25 -15
package/skills/aios-commercial-variation/agents/openai.yaml +1 -1
package/skills/aios-commercial-variation/prompts/basic-prompt.md +1 -1
package/skills/aios-compare/SKILL.md +92 -0
package/skills/aios-compare/agents/openai.yaml +4 -0
package/skills/aios-construction-daily/SKILL.md +24 -14
package/skills/aios-construction-daily/agents/openai.yaml +1 -1
package/skills/aios-construction-daily/prompts/basic-prompt.md +1 -1
package/skills/aios-construction-meeting/SKILL.md +24 -14
package/skills/aios-construction-meeting/agents/openai.yaml +1 -1
package/skills/aios-construction-meeting/prompts/basic-prompt.md +1 -1
package/skills/aios-construction-scheme/SKILL.md +20 -10
package/skills/aios-construction-scheme/agents/openai.yaml +1 -1
package/skills/aios-construction-scheme/prompts/basic-prompt.md +1 -1
package/skills/aios-plan/SKILL.md +7 -7
package/skills/aios-prompt-compare/SKILL.md +4 -2
package/skills/aios-prompt-compare/agents/openai.yaml +2 -2
package/skills/aios-review/SKILL.md +1 -1
package/skills/aios-structural/SKILL.md +7 -7
package/skills/archsight-aios/SKILL.md +51 -0
package/skills/archsight-aios/agents/openai.yaml +4 -0
package/skills/engineering-business-starter-kit.md +7 -4
package/templates/project-ai/.ai/skills.md +13 -6
package/workflows/README.md +1 -1
package/workflows/architecture-review.md +10 -10
package/workflows/site-daily-loop.md +25 -25

package/.claude-plugin/plugin.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "archsight-aios",
   "displayName": "ArchSight AIOS",
-  "version": "1.3.0",
+  "version": "1.3.2",
   "description": "面向建筑行业知识工作从业者与 AI 研发团队的 Skills、Workflow 与多 Agent 工具包 / Building-industry AI agent skills for BIM, IFC, RAG, GraphRAG, project evidence work, code review, and runtime governance.",
   "author": {
     "name": "ArchSightLabs",

package/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,50 @@
 # 变更记录
+## 1.3.2
+### 发布说明
+本版本修复 v1.3.1 后在不同宿主中出现的 Skill 遵从度不一致问题。重点强化“短指令触发 AIOS”时的默认输出契约：用户只说“用 AIOS 分析该文档”且没有要求摘要时，默认输出标准详版报告，而不是几段概括性摘要。
+### 调整
+- 版本升级到 `1.3.2`，同步更新 npm package、Gemini extension、Claude plugin、runtime manifest 和 CLI MCP clientInfo。
+- `aios` / `archsight-aios` 总入口明确短指令默认走“标准详版报告”，路由后仍要展开专项 Skill 的主表、清单或台账。
+- 工程业务管理 Skill 增加“标准详版报告与输出自检”约束，覆盖招投标、合同、施工日报、会议纪要、变更签证和专项施工方案。
+- 各工程业务 Skill 的 `openai.yaml` 默认提示补充“不要压缩成摘要”“资料来源”“主分析表或台账”“资料缺口”“人工复核”“AI 不应下结论事项”和“输出自检”。
+- Prompt 评估策略新增“宿主遵从度受控评测”，用于区分 WorkBuddy、Codex、Gemini、Antigravity 等宿主差异和模型能力差异。
+### 验证
+- `npm run validate:skills`
+- `npm test`
+- `git diff --check`
+- `npm pack --dry-run`
+## 1.3.1
+### 发布说明
+本版本聚焦使用者体验：用户只需要记住 `aios` / `archsight-aios` 总入口，AIOS 自动按资料类型分流到合适 Skill；同时把工程业务管理 Skill 的用户可见输出模板改为中文字段，减少 `Source Map`、`Arbitration`、`Evidence`、`Decision`、`Need verify` 等英文标签对业务用户的干扰。
+### 新增
+- 新增 `aios` 和 `archsight-aios` 顶层路由 Skill，支持“请用 aios skill 分析该文档”这类短指令触发资料类型识别和自动分流。
+- 新增 `aios-compare` 用户侧对比 Skill，用于比较两份文档、两个版本或两个 AI 输出哪份更专业、更适合交付。
+### 调整
+- 版本升级到 `1.3.1`，同步更新 npm package、Gemini extension、Claude plugin、runtime manifest 和 CLI MCP clientInfo。
+- 将 `aios-prompt-compare` 收紧为内部 Prompt 测试工具，仅在明确调用 `aios-prompt-compare` 时触发，避免普通“对比”任务误路由。
+- 工程业务管理 Skill 输出模板统一中文化：`资料来源清单`、`证据仲裁`、`证据`、`工具结果`、`处理建议：可继续 / 需核验 / 转人工复核`。
+- README、WorkBuddy 适配说明、Skill 总览、运行时路由和项目模板补充总入口、对比 Skill 与内部测试 Skill 的边界说明。
+### 验证
+- `npm run validate:skills`
+- `npm test`
+- `git diff --check`
 ## 1.3.0
 ### 发布说明

package/README.md CHANGED Viewed

@@ -25,7 +25,7 @@ AIOS 是建筑行业增强层，不是通用任务替代器。装了 AIOS 后，
 | 产品 / 项目 / 设计负责人 | 把业务目标、页面任务、工作台体验、验收标准和 AI 协作流程写进项目规则。 |
 | 企业负责人 / 业务一把手 | 用 `aios-ceo` 深度评价建筑行业软件 / 系统的产品定位、行业专业性、工程可信度、证据链、商业验证、阶段路线和停损信号。 |
 | AI / 软件工程师 | 给建筑 AI 项目接入统一 AI 编码规则、Skills、Workflows 和行业 profile。 |
-| 团队负责人 | 统一多工具、多模型、多 Agent 的工作边界和交付检查方式，并用 `aios-prompt-compare` 判断提示词是否值得沉淀为正式 Skill。 |
+| 团队负责人 | 统一多工具、多模型、多 Agent 的工作边界和交付检查方式；用 `aios-compare` 比较两份文档 / AI 输出哪份更专业，用内部 `aios-prompt-compare` 判断提示词是否值得沉淀为正式 Skill。 |
 ## 解决什么问题
@@ -33,7 +33,7 @@ AIOS 是建筑行业增强层，不是通用任务替代器。装了 AIOS 后，
 - 项目里缺少明确的 `.ai/` 上下文目录，AI 不知道行业知识、验收标准和人工复核点。
 - 建筑行业项目涉及规范、BIM、图纸、模型、施工现场、知识库和 AI 检测，容易把模型推断误当成工程结论；AIOS 默认内置 profile registry，并通过自动识别结果和任务上下文启用行业规则，而不是让用户先手动合并规则文件。
 - AI 生成代码、文档或规则后，缺少统一的 review、验证和发布检查路径。
-- 普通提示词、便携强提示词和正式 Skill 的效果容易混在一起；`aios-prompt-compare` 用同一输入做 weak / portable / skill-runtime 三栏对照，帮助团队判断哪些能力应沉淀为 Skill。
+- 普通文档对比和 Prompt 测试容易混在一起；`aios-compare` 面向用户比较两份文档或两个 AI 输出哪份更专业，`aios-prompt-compare` 作为内部测试工具，用同一输入做 weak / portable / skill-runtime 三栏对照，帮助团队判断哪些能力应沉淀为 Skill。
 ## 三步开始

package/RELEASE_NOTES.md CHANGED Viewed

@@ -1,5 +1,35 @@
 # Release Notes
+## 1.3.2
+本版本修复 v1.3.1 后在不同宿主中出现的 Skill 遵从度不一致问题。用户只说“用 AIOS 分析该文档”且没有要求摘要时，AIOS 默认应输出标准详版报告，而不是短摘要。
+核心变化：
+- `aios` / `archsight-aios` 总入口明确短指令默认走“标准详版报告”。
+- 招投标、合同、施工日报、会议纪要、变更签证和专项施工方案 Skill 增加“标准详版报告与输出自检”约束。
+- 各工程业务 Skill 的轻量 `openai.yaml` 默认提示同步补充详版报告、自检、资料来源、主表 / 台账、资料缺口、人工复核和 AI 不应下结论事项。
+- Prompt 评估策略增加宿主遵从度受控评测口径，避免把 WorkBuddy / Codex / Gemini / Antigravity 的整体效果差异直接归因到单一模型。
+发布前验证建议：
+- `npm run validate:skills`
+- `npm test`
+- `git diff --check`
+- `npm pack --dry-run`
+## 1.3.1
+本版本聚焦“让使用者感觉简单”：新增 `aios` / `archsight-aios` 总入口，用户可以用短句调用 AIOS，由技能包根据资料类型自动路由；同时新增用户侧 `aios-compare`，并把内部 `aios-prompt-compare` 收紧为开发者显式调用的 Prompt 测试工具。
+工程业务管理 Skill 的用户可见输出模板已改为中文字段，默认使用 `资料来源清单`、`证据仲裁`、`证据`、`工具结果` 和 `处理建议：可继续 / 需核验 / 转人工复核`，不再把 `Source Map`、`Arbitration`、`Evidence`、`Decision`、`Need verify` 作为默认输出标题。
+发布前验证建议：
+- `npm run validate:skills`
+- `npm test`
+- `git diff --check`
 ## 1.3.0
 本版本把 AIOS 从通用建筑行业技能包进一步扩展为可评测、可对比、可初始化到项目上下文的工程业务管理与 Prompt 治理工具包。核心变化包括：

package/adapters/workbuddy/README.md CHANGED Viewed

@@ -24,6 +24,14 @@ WorkBuddy 目标固定写入个人目录；不区分项目级目录。AIOS CLI
 在 WorkBuddy 中按 skill 名称调用或明确指定要使用的 AIOS 工具：
+```text
+使用 aios skill 分析这份工程资料。
+```
+```text
+使用 aios-compare skill 比较这两份输出哪份更专业、更适合交付。
+```
 ```text
 使用 aios-arch skill 评审这个 BIM 平台方案的服务边界、数据归属和长期复杂度。
 ```
@@ -36,8 +44,10 @@ WorkBuddy 目标固定写入个人目录；不区分项目级目录。AIOS CLI
 使用 aios-construction-daily skill 整理这份施工日报的异常、责任人和待确认事项。
 ```
+`aios-prompt-compare` 是内部 Prompt / Skill 测试工具，普通用户比较两份文档或两个 AI 输出时不要使用它。
 ## 维护建议
 - WorkBuddy 只需要读取 `SKILL.md`，不需要额外放宽工具权限。
 - AIOS 是建筑行业增强层；普通非建筑任务不要强行套 BIM、IFC、规范或审图假设。
-- 如果 WorkBuddy skill 列表过长，可只保留实际使用频率最高的 `aios-*` 目录。
+- 如果 WorkBuddy skill 列表过长，可只保留实际使用频率最高的 `aios`、`archsight-aios` 和具体 `aios-*` 目录。

package/agents/atlas/responsibilities.md CHANGED Viewed

@@ -22,7 +22,7 @@
 - 用现有代码、配置、接口契约、测试、脚本和部署入口核验架构评审事实。
 - 使用 P0/P1/P2 或等效等级标注架构风险，避免把关键风险和平级 TODO 混在一起。
 - 在多份评审或检查项对比时，区分架构判断质量和工程执行质量，不把未核验的排序包装成严格事实。
-- 严格区分 `Assumption` 与 `Need verify`，对“未覆盖”的判断保持证据约束。
+- 严格区分 `假设` 与 `需核验`，对“未覆盖”的判断保持证据约束。
 - 为 Mason 提供工程拆解前的架构约束。
 - 为 Argus 提供 Review 时应关注的架构风险点。
 - 为 Daedalus 提供 Agent Runtime、RAG、Tool Calling 的边界判断。

package/agents/atlas/system-prompt.md CHANGED Viewed

@@ -51,7 +51,7 @@ Atlas 是通用架构治理角色标签，不代表当前项目属于 ArchSightL
 4. 推荐方案
 5. 后续动作
-必要时补充范围挑战、已有能力、风险分级、Rejected、Assumption 和 Need verify。具体并行计划、测试排期和交付拆解交给 Mason；Atlas 只给出足够清晰的架构约束和风险依据。
+必要时补充范围挑战、已有能力、风险分级、已拒绝方案、假设和需核验项。具体并行计划、测试排期和交付拆解交给 Mason；Atlas 只给出足够清晰的架构约束和风险依据。
 当信息不足时，先列出缺失信息和可推进的最小判断，不要编造背景。

package/agents/hestia/system-prompt.md CHANGED Viewed

@@ -16,7 +16,7 @@
 输出：
-1. 资料状态和 Source Map
+1. 资料状态和资料来源清单
 2. 行政 / 人事 / 证照 / 培训待办
 3. 责任线索与需确认事项
 4. 隐私和合规边界

package/agents/hestia/workflow.md CHANGED Viewed

@@ -1,8 +1,8 @@
 # Hestia Workflow
 1. 判断资料类型：会议纪要、沟通记录、证照台账、培训记录、人事资料或混合资料。
-2. 建立 Source Map，保留会议日期、发言线索、事项来源和资料版本。
+2. 建立资料来源清单，保留会议日期、发言线索、事项来源和资料版本。
 3. 提取行政 / 人事 / 证照 / 培训待办。
 4. 区分责任线索、最终责任人、期限和需确认事项。
 5. 输出待办闭环表、风险提示和下次追踪清单。
-6. 涉及个人信息、证件、工资或劳动关系时输出 `Hold for human`。
+6. 涉及个人信息、证件、工资或劳动关系时输出 `转人工复核`。

package/agents/plutus/system-prompt.md CHANGED Viewed

@@ -16,9 +16,9 @@
 输出：
-1. 资料状态和 Source Map
+1. 资料状态和资料来源清单
 2. 资料链完整度
 3. 付款 / 结算 / 签证 / 成本节点表
 4. 缺失资料和人工复核岗位
 5. 不能下结论的事项
-6. Claim / Evidence / Tool Result / Decision
+6. 判断事项 / 证据 / 工具结果 / 处理建议

package/agents/plutus/workflow.md CHANGED Viewed

@@ -1,8 +1,8 @@
 # Plutus Workflow
 1. 判断资料类型：合同、签证单、联系单、日报、会议纪要、工程量表、付款记录或混合资料。
-2. 建立 Source Map，保留资料来源、编号、日期、条款号、页码或字段位置。
+2. 建立资料来源清单，保留资料来源、编号、日期、条款号、页码或字段位置。
 3. 判断资料链完整度：完整、部分线索、仅字段样表或缺关键签认。
 4. 输出付款 / 结算 / 签证 / 回款 / 成本节点表。
 5. 列出缺失资料、复核岗位和不能下结论事项。
-6. 输出 `Claim / Evidence / Tool Result / Decision`；无证据时使用 `Hold for human`。
+6. 输出 `判断事项 / 证据 / 工具结果 / 处理建议`；无证据时使用 `转人工复核`。

package/agents/themis/responsibilities.md CHANGED Viewed

@@ -2,6 +2,6 @@
 - 提取合同主体、范围、价款、付款、验收、结算、违约和争议条款。
 - 标注空白字段、授权缺口、签章缺口和资料来源缺口。
-- 将风险表达为 `需法务确认`、`需授权确认` 或 `Need verify`。
+- 将风险表达为 `需法务确认`、`需授权确认` 或 `需核验`。
 - 协助 Plutus 区分商务结算问题和法律责任问题。
 - 协助 Argus 识别 Prompt 注入、数据外发和合规风险。

package/agents/themis/system-prompt.md CHANGED Viewed

@@ -16,9 +16,9 @@
 输出：
-1. 资料状态和 Source Map
+1. 资料状态和资料来源清单
 2. 条款 / 流程结构
 3. 风险与需确认事项
 4. 人工复核岗位
 5. 不能下结论的事项
-6. Claim / Evidence / Tool Result / Decision
+6. 判断事项 / 证据 / 工具结果 / 处理建议

package/agents/themis/workflow.md CHANGED Viewed

@@ -1,8 +1,8 @@
 # Themis Workflow
 1. 判断资料类型：合同原文、协议片段、会议纪要、联系单、授权资料或混合资料。
-2. 建立 Source Map，记录文件名、章节、页码、条款号或来源片段。
+2. 建立资料来源清单，记录文件名、章节、页码、条款号或来源片段。
 3. 提取合同基本事实和空白字段。
 4. 拆分履约、付款、验收、结算、通知、违约和争议节点。
 5. 标注不能下结论的事项和需法务确认的问题。
-6. 输出 `Claim / Evidence / Tool Result / Decision`；无证据时使用 `Need verify`。
+6. 输出 `判断事项 / 证据 / 工具结果 / 处理建议`；无证据时使用 `需核验`。

package/bin/archsight-aios.mjs CHANGED Viewed

@@ -36,6 +36,7 @@ const assetDirs = [
 ];
 const assetFiles = ["README.md", "AI_CODING_RULES.md", "AGENTS.md", "CLAUDE.md", "GEMINI.md", "OPENCODE.md"];
 const skillSupportFiles = ["README.md", "engineering-business-starter-kit.md"];
+const topLevelSkillNames = new Set(["aios", "archsight-aios"]);
 const skillAliases = {
   "aios-arch": ["aios-architecture-review", "archsight-architecture-review"],
   "aios-plan": ["aios-delivery-planning", "archsight-delivery-planning"],
@@ -128,7 +129,8 @@ const skillDetectionRules = {
   "aios-knowledge": ["bim", "ifc", "规范", "审图", "条文", "知识结构化"],
   "aios-structural": ["结构", "荷载", "挠度", "fem", "有限元", "计算书"],
   "aios-runtime": ["rag", "graphrag", "mcp", "tool calling", "memory", "agent runtime"],
-  "aios-prompt-compare": ["提示词", "prompt", "对比", "skill 输出", "weak", "basic"],
+  "aios-compare": ["aios-compare"],
+  "aios-prompt-compare": ["aios-prompt-compare"],
   "aios-commercial-tender": ["招标", "投标", "技术标", "商务标", "评分", "废标", "招采", "资格"],
   "aios-commercial-contract": ["合同", "协议", "付款", "履约", "违约", "分包", "采购", "结算条款"],
   "aios-construction-daily": ["日报", "周报", "现场记录", "施工日志", "进度", "材料进场", "机械", "劳务"],
@@ -330,7 +332,7 @@ async function listAiosWorkflowPaths() {
 async function listRepositoryAiosSkills() {
   const entries = await fs.readdir(path.join(repoRoot, "skills"), { withFileTypes: true });
   return entries
-    .filter((entry) => entry.isDirectory() && entry.name.startsWith("aios-"))
+    .filter((entry) => entry.isDirectory() && (entry.name.startsWith("aios-") || topLevelSkillNames.has(entry.name)))
     .map((entry) => entry.name)
     .sort();
 }
@@ -623,7 +625,7 @@ function callMcpStdio({ command, args, cwd, toolName, input, timeoutMs }) {
       params: {
         protocolVersion: "2025-06-18",
         capabilities: {},
-        clientInfo: { name: "archsight-aios", version: "1.3.0" }
+        clientInfo: { name: "archsight-aios", version: "1.3.2" }
       }
     };
     const callTool = {

package/gemini-extension.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "archsight-aios",
-  "version": "1.3.0",
+  "version": "1.3.2",
   "description": "面向建筑行业知识工作从业者与 AI 研发团队的 Skills、Workflow 与多 Agent 工具包 / Building-industry AI agent skills for BIM, IFC, RAG, GraphRAG, project evidence work, code review, and runtime governance.",
   "contextFileName": "GEMINI.md"
 }

package/governance/README.md CHANGED Viewed

@@ -1,18 +1,48 @@
-# Governance
+# 治理规则
 `governance/` 保存 AI 工程治理规则。
-推荐优先建立：
+## 文件索引
-- [AI 编码规范（公共）](coding-rules.md)
-- [AI Review Policy](ai-review-policy.md)
-- [Security Policy](security-policy.md)
-- [Agent Boundary Policy](agent-boundary.md)
-- [Capability-Backed Arbitration Protocol](arbitration-protocol.md)
-- [Delivery Policy](delivery-policy.md)
-- [Context Policy](context-policy.md)
-- [Memory Policy](memory-policy.md)
+| 中文名称 | 文件 | 作用 |
+| --- | --- | --- |
+| AI 编码规范 | [coding-rules.md](coding-rules.md) | 统一代码生成、修改、验证和交付边界。 |
+| AI 评审策略 | [ai-review-policy.md](ai-review-policy.md) | 约束 AI 生成内容、代码审查和风险评审。 |
+| 安全策略 | [security-policy.md](security-policy.md) | 管理权限、密钥、外发、注入和安全敏感操作。 |
+| Agent 边界策略 | [agent-boundary.md](agent-boundary.md) | 区分 Agent、Skill、Workflow 和 Runtime 的职责边界。 |
+| Capability 证据仲裁协议 | [arbitration-protocol.md](arbitration-protocol.md) | 用证据等级、工具结果和人工升级处理多 Agent 冲突。 |
+| 交付策略 | [delivery-policy.md](delivery-policy.md) | 约束发布、回滚、验收和交付声明。 |
+| 上下文策略 | [context-policy.md](context-policy.md) | 控制上下文读取范围、成本、污染和泄露风险。 |
+| 记忆策略 | [memory-policy.md](memory-policy.md) | 管理长期记忆、项目事实和可复用经验的边界。 |
 治理目标是防止 agent 乱调用、prompt 泄露、上下文爆炸、AI 瞎改代码、权限失控和未经评审的自动交付。
-多 Agent 产生逻辑冲突时，优先按 `arbitration-protocol.md` 的证据等级处理：确定性工具、项目事实和结构化知识优先于 Agent 自然语言判断；涉及生产授权、法规合规最终结论、结构安全结论和商业范围取舍时升级给人类负责人。
+## 统一输出口径
+面向用户、客户或业务人员的输出默认使用中文字段，不直接输出英文模板标签。
+推荐字段：
+```text
+判断事项：
+证据：
+工具结果：
+处理建议：可继续 / 需核验 / 转人工复核
+```
+资料整理类输出使用：
+```text
+资料来源清单
+证据仲裁
+需核验
+转人工复核
+```
+内部 runtime、schema、Capability ID、命令、文件名和代码标识符可以保留英文；但最终说明应优先给出中文解释。
+## 仲裁原则
+多 Agent 产生逻辑冲突时，优先按 [Capability 证据仲裁协议](arbitration-protocol.md) 的证据等级处理：确定性工具、项目事实和结构化知识优先于 Agent 自然语言判断；涉及生产授权、法规合规最终结论、结构安全结论和商业范围取舍时升级给人类负责人。
+证据不足时，不把推断写成结论；应标为 `需核验`，或在责任、金额、质量安全、结构安全、法律合规、审批签审等高风险事项上标为 `转人工复核`。

package/governance/agent-boundary.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# Agent Boundary Policy
+# Agent 边界策略
 ## 基本关系
@@ -24,4 +24,3 @@
 - 建筑语义升级给 Vitruvius。
 - AI Runtime 升级给 Daedalus。
 - 受控执行交给 Hephaestus。

package/governance/ai-review-policy.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# AI Review Policy
+# AI 评审策略
 ## 目标
@@ -24,4 +24,3 @@ AIOS 的 Review 目标是阻止真实风险进入交付链路，而不是制造
 ## 输出要求
 Review 必须先列阻断问题，再列非阻断建议。每个发现都要包含位置、影响、证据和建议处理方式。

package/governance/arbitration-protocol.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# Capability-Backed Arbitration Protocol
+# Capability 证据仲裁协议
 状态：治理基线草案
 适用范围：ArchSight AIOS 多 Agent 冲突仲裁、工具证据裁决和人工升级
@@ -11,7 +11,7 @@
 核心原则：
-> Agent 可以提出 Claim，但不能只凭自然语言推理裁决事实。事实裁决必须回到项目证据、结构化知识、确定性工具或人工授权。
+> Agent 可以提出判断事项，但不能只凭自然语言推理裁决事实。事实裁决必须回到项目证据、结构化知识、确定性工具或人工授权。
 适用场景：
@@ -34,30 +34,30 @@
 | L4 | 专项 Agent 判断 | Atlas 的架构判断、Mason 的交付判断、Vitruvius 的领域判断、Euclid 的建模判断。 |
 | L5 | LLM 自然语言推理 | 只能作为假设、解释或建议，不能单独作为阻断或放行依据。 |
-工具结果优先，但不得盲信工具结果。L1/L3 证据必须带有输入、版本、适用条件和执行状态；缺失时只能进入 `Need verify`。
+工具结果优先，但不得盲信工具结果。L1/L3 证据必须带有输入、版本、适用条件和执行状态；缺失时只能进入 `需核验`。
 ---
-## 三、Claim 契约
+## 三、判断事项契约
-Agent 之间发生冲突时，不能只输出“我不同意”。每个参与方必须把意见转成 Claim：
+Agent 之间发生冲突时，不能只输出“我不同意”。每个参与方必须把意见转成判断事项：
 ```text
-Claim:
-  id:
-  owner_agent:
-  type: architecture | delivery | domain_semantics | structural | security | runtime | business
-  statement:
-  evidence_level: L0 | L1 | L2 | L3 | L4 | L5
-  evidence:
-  assumptions:
-  need_verify:
-  blocking: true | false
-  severity: P0 | P1 | P2
-  requested_action: proceed | revise | reduce | stop | human_escalation
+判断事项：
+  编号：
+  负责 Agent：
+  类型：架构 / 交付 / 行业语义 / 结构 / 安全 / runtime / 商业
+  表述：
+  证据等级：L0 / L1 / L2 / L3 / L4 / L5
+  证据：
+  假设：
+  需核验：
+  是否阻断：是 / 否
+  严重级别：P0 / P1 / P2
+  请求动作：继续 / 修订 / 收缩 / 停止 / 人工升级
 ```
-Claim 必须明确区分事实、判断、假设和待验证项。没有证据的 Claim 默认不具备阻断权。
+判断事项必须明确区分事实、判断、假设和待验证项。没有证据的判断事项默认不具备阻断权。
 ---
@@ -122,32 +122,32 @@ any -> human_escalation
 ---
-## 七、Decision Ledger
+## 七、决策记录
 每次仲裁必须沉淀为可复核记录。最小字段：
 ```text
-Decision:
-  id:
-  date:
-  conflict:
-  claims:
-  evidence:
-  tool_results:
-  decision: proceed | revise | reduce | stop | escalate
-  rejected:
-  owner:
-  follow_up:
+决策记录：
+  编号：
+  日期：
+  冲突：
+  判断事项：
+  证据：
+  工具结果：
+  决策：继续 / 修订 / 收缩 / 停止 / 升级人工
+  已拒绝方案：
+  负责人：
+  后续动作：
 ```
-Decision Ledger 可以写入 ADR、memory、PR 描述、issue 或项目 `.ai/` 目录，具体位置由项目接入规则决定。
+决策记录可以写入 ADR、memory、PR 描述、issue 或项目 `.ai/` 目录，具体位置由项目接入规则决定。
 ---
 ## 八、落地要求
-- Workflow 输出必须包含 `Claim / Evidence / Tool Result / Decision`。
+- Workflow 面向用户的输出必须包含中文化的 `判断事项 / 证据 / 工具结果 / 处理建议`。
 - Skill 需要声明可用 Capability、权限边界和证据契约。
 - Runtime Adapter 只负责调用工具和回传证据，不替代 Agent 判断。
 - 工具调用失败时必须暴露失败原因、输入摘要和可恢复路径。
-- 没有 Capability 实现时，必须标为 `declared-interface` 或 `Need verify`，不得伪造工具结果。
+- 没有 Capability 实现时，必须标为 `已声明接口` 或 `需核验`，不得伪造工具结果。

package/governance/context-policy.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# Context Policy
+# 上下文策略
 ## 目标
@@ -20,5 +20,4 @@
 ## 输出要求
-当判断依赖假设时，必须标注 `Assumption`；当事实未核验时，必须标注 `Need verify`。
+当判断依赖假设时，必须标注 `假设`；当事实未核验时，必须标注 `需核验`。

package/governance/delivery-policy.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# Delivery Policy
+# 交付策略
 ## 目标
@@ -18,4 +18,3 @@ AIOS 交付必须可验证、可回滚、可解释。任何“完成”声明都
 - 不把计划、建议或草稿包装成已完成。
 - 不关闭 PR、issue 或任务状态，除非对应验证已经完成。
 - 不发布不可回滚的高风险变更。

package/governance/memory-policy.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# Memory Policy
+# 记忆策略
 ## 目标
@@ -22,4 +22,3 @@ Memory 用于保存稳定、可复用、可审计的组织知识，不保存临
 ## 清理规则
 Memory 必须能追溯来源文件或决策记录。相关文件删除、架构改变或验证失效时，应标记过期或删除。

package/governance/security-policy.md CHANGED Viewed

@@ -1,4 +1,4 @@
-# Security Policy
+# 安全策略
 ## 目标
@@ -22,4 +22,3 @@ AIOS 默认按最小权限运行。任何 Agent、Skill、Runtime 或模板不
 ## 审计要求
 安全相关变更必须记录：目的、权限范围、验证命令、回滚方式和剩余风险。

package/memory/decision-records.md CHANGED Viewed

@@ -7,14 +7,14 @@
 ## 格式
 ```text
-Title:
-Date:
-Context:
-Decision:
-Rejected:
-Consequences:
-Verification:
-Owner:
+标题：
+日期：
+背景：
+决策：
+已拒绝方案：
+影响：
+验证：
+负责人：
 ```
 ## 写入条件
@@ -23,4 +23,3 @@ Owner:
 - 拒绝了一个未来可能反复被提出的方案。
 - 改变了 Agent、Skill、Workflow 或 Runtime 边界。
 - 发布、权限或数据策略发生变化。

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@archsight/aios",
-  "version": "1.3.0",
+  "version": "1.3.2",
   "description": "面向建筑行业知识工作从业者与 AI 研发团队的 Skills、Workflow 与多 Agent 工具包 / Building-industry AI agent skills for BIM, IFC, RAG, GraphRAG, project evidence work, code review, and runtime governance.",
   "type": "module",
   "homepage": "https://github.com/ArchSightLabs/archsight-aios#readme",

package/prompts/evaluation-policy.md CHANGED Viewed

@@ -51,6 +51,41 @@ npm run build:public-advisory-run-pack
 若要评估“普通提示词、便携强提示词、真实 Skill 结果”三类差异，使用 `aios-prompt-compare`。其中 weak/basic 可以沿用 run pack；`skill-runtime` 需要由宿主工具真实触发对应 `$aios-*` Skill 后归档，再按同一 scorecard 做三栏比较。不要把 `SKILL.md` 直接作为普通 prompt 粘贴运行的输出称为真实 Skill 结果。
+## 宿主遵从度受控评测
+当需要比较 WorkBuddy、Codex、Gemini、Antigravity 等宿主的表现时，评测目标应先定义为“宿主 + Skill 加载方式 + 文档解析 + 模型 + 输出长度策略”的整体效果，不要直接推断某个模型长期更强。
+最小受控设计：
+1. 使用同一版 AIOS、同一批脱敏输入文档和同一句短指令，例如“请用 AIOS 技能包分析该文档”。
+2. 每个宿主都确认已安装同一版 `@archsight/aios`，并记录宿主名称、模型名称、运行时间、输入文件、是否真实触发 Skill。
+3. 原始输出全文归档，不只保存摘要；客户、项目、人员、地点、金额和编号先脱敏。
+4. 先按“是否触发正确 Skill、是否输出标准详版报告、是否包含输出自检”判断宿主遵从度。
+5. 再按 scorecard 比较证据链、可操作性、边界安全、资料缺口、人工交接和输出可读性。
+6. 结论只写到当前样本和当前宿主版本，不把一次输出胜负写成模型长期优劣。
+推荐记录字段：
+```text
+caseId：
+aiosVersion：
+host：
+model：
+ranAt：
+inputFile：
+triggerPrompt：
+skillTriggered：
+skillRuntimeConfirmed：是 / 否 / 不确定
+outputFile：
+notes：
+```
+判读口径：
+- 如果输出缺少资料来源、主分析表 / 台账、资料缺口、人工复核或 AI 不应下结论事项，优先判断为宿主遵从度或 Skill 加载问题。
+- 如果结构完整但行业术语、责任边界、工程语境或表格细度明显不足，再进入模型适配和中文工程语境能力讨论。
+- 如果宿主无法确认真实 Skill 触发，只能标为“疑似便携提示词效果”，不能归入 `skill-runtime`。
 weak/basic 成对运行后，用 run results 文件归档 12 条结果：
 ```bash

package/prompts/evaluations/engineering-business-basic-advisory-validation-2026-06-16.md CHANGED Viewed

@@ -12,7 +12,7 @@
 |---|---|---|
 | 使用场景 | 为 PPT 准备和现场分享服务，文件之间相对独立 | 作为 `aios-*` Skill 的可复用基础模式 |
 | 输入判断 | 每个提示词有边界提示，但分散在单文件内 | 每个 Skill 固定先判断资料类型、缺口和可验证程度 |
-| 输出形态 | 已能生成矩阵、清单、台账和回查表 | 进一步统一 Source Map、主表、需确认项、复核岗位和不能下结论事项 |
+| 输出形态 | 已能生成矩阵、清单、台账和回查表 | 进一步统一资料来源清单、主表、需确认项、复核岗位和不能下结论事项 |
 | 风险边界 | 依赖提示词文本和人工使用习惯 | 固化禁止结论、人工复核岗位、L0-L1 能力边界和验证脚本 |
 | 资产化程度 | 更像一次项目素材包 | 已进入 registry、manifest、安装分发、fixtures、scorecard 和 CLI 校验 |
@@ -56,9 +56,9 @@ advisory 对比记录显示，普通提示词在 6 个场景中有共性问题
 AIOS 基础提示词针对这些问题加了统一约束：
-- `Source Map` 和资料状态判断。
+- `资料来源清单` 和资料状态判断。
 - 主输出表格或清单。
-- `需补充确认` / `Need verify`。
+- `需补充确认` / `需核验`。
 - 人工复核岗位。
 - `不能下结论的事项`。
 - `Claim / Evidence / Tool Result / Decision`。