npm - superlab - Versions diffs - 0.1.23 → 0.1.25 - Mend

superlab 0.1.23 → 0.1.25

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

package/README.md +3 -2
package/README.zh-CN.md +3 -2
package/lib/auto_contracts.cjs +4 -2
package/lib/auto_runner.cjs +30 -0
package/lib/auto_state.cjs +30 -0
package/lib/context.cjs +437 -14
package/lib/eval_protocol.cjs +75 -0
package/lib/i18n.cjs +140 -24
package/lib/install.cjs +2 -0
package/package-assets/claude/commands/lab.md +2 -2
package/package-assets/codex/prompts/lab.md +2 -2
package/package-assets/shared/lab/.managed/scripts/validate_collaborator_report.py +53 -0
package/package-assets/shared/lab/.managed/templates/artifact-status.md +28 -0
package/package-assets/shared/lab/.managed/templates/final-report.md +24 -19
package/package-assets/shared/lab/.managed/templates/review-checklist.md +4 -0
package/package-assets/shared/lab/context/auto-mode.md +3 -3
package/package-assets/shared/lab/context/auto-outcome.md +15 -0
package/package-assets/shared/lab/context/eval-protocol.md +21 -0
package/package-assets/shared/lab/context/session-brief.md +1 -1
package/package-assets/shared/lab/context/state.md +19 -13
package/package-assets/shared/lab/context/workflow-state.md +19 -0
package/package-assets/shared/lab/system/core.md +4 -2
package/package-assets/shared/skills/lab/SKILL.md +10 -10
package/package-assets/shared/skills/lab/stages/auto.md +5 -1
package/package-assets/shared/skills/lab/stages/iterate.md +4 -0
package/package-assets/shared/skills/lab/stages/report.md +11 -1
package/package-assets/shared/skills/lab/stages/review.md +4 -0
package/package-assets/shared/skills/lab/stages/run.md +4 -0
package/package.json +1 -1

package/lib/eval_protocol.cjs CHANGED Viewed

@@ -79,6 +79,81 @@ const EVAL_PROTOCOL_FIELDS = [
     key: "deviationFromOriginalImplementation",
     labels: ["Deviation from original implementation", "与原始实现的偏差"],
   },
+  {
+    name: "Evaluation setting semantics",
+    key: "evaluationSettingSemantics",
+    labels: ["Evaluation setting semantics", "评测设定语义"],
+  },
+  {
+    name: "Visibility and leakage risks",
+    key: "visibilityAndLeakageRisks",
+    labels: ["Visibility and leakage risks", "可见性与泄漏风险"],
+  },
+  {
+    name: "Anchor and label policy",
+    key: "anchorAndLabelPolicy",
+    labels: ["Anchor and label policy", "锚点与标签策略"],
+  },
+  {
+    name: "Scale and comparability policy",
+    key: "scaleAndComparabilityPolicy",
+    labels: ["Scale and comparability policy", "尺度与可比性策略"],
+  },
+  {
+    name: "Metric validity checks",
+    key: "metricValidityChecks",
+    labels: ["Metric validity checks", "指标有效性检查"],
+  },
+  {
+    name: "Comparison validity checks",
+    key: "comparisonValidityChecks",
+    labels: ["Comparison validity checks", "对比方法有效性检查"],
+  },
+  {
+    name: "Statistical validity checks",
+    key: "statisticalValidityChecks",
+    labels: ["Statistical validity checks", "统计有效性检查"],
+  },
+  {
+    name: "Claim boundary",
+    key: "claimBoundary",
+    labels: ["Claim boundary", "结论边界"],
+  },
+  {
+    name: "Integrity self-check",
+    key: "integritySelfCheck",
+    labels: ["Integrity self-check", "完整性自检"],
+  },
+  {
+    name: "Anomaly signals",
+    key: "anomalySignals",
+    labels: ["Anomaly signals", "异常信号"],
+  },
+  {
+    name: "Implementation reality checks",
+    key: "implementationRealityChecks",
+    labels: ["Implementation reality checks", "实现层现实检查"],
+  },
+  {
+    name: "Alternative explanations considered",
+    key: "alternativeExplanationsConsidered",
+    labels: ["Alternative explanations considered", "已考虑的替代解释"],
+  },
+  {
+    name: "Cross-check method",
+    key: "crossCheckMethod",
+    labels: ["Cross-check method", "交叉验证方法"],
+  },
+  {
+    name: "Best-supported interpretation",
+    key: "bestSupportedInterpretation",
+    labels: ["Best-supported interpretation", "当前最站得住的解释"],
+  },
+  {
+    name: "Escalation threshold",
+    key: "escalationThreshold",
+    labels: ["Escalation threshold", "升级阈值"],
+  },
   {
     name: "Benchmark ladder",
     key: "benchmarkLadder",

package/lib/i18n.cjs CHANGED Viewed

@@ -55,7 +55,7 @@ const ZH_CONTENT = {
   [path.join(".codex", "prompts", "lab-report.md")]: codexPrompt(
     "基于验证后的迭代工件生成最终报告",
     "report context",
-    "使用已安装的 `lab` 技能：`.codex/skills/lab/SKILL.md`。\n\n立刻针对用户当前给出的参数执行 `/lab:report`，不要只推荐别的 `/lab` 阶段。只有在缺少阻塞性前提时，才明确指出缺什么，并且一次最多追问一个问题。\n\n本命令运行 `/lab:report` 阶段。它必须生成给用户直接阅读的最终实验报告和受管的 `main-tables.md`，明确写出主指标、次级指标和必要终局证据，并用白话解释这些指标分别衡量什么、哪些只是健康度或支持性指标、以及每张主表到底证明了什么和没证明什么。"
+    "使用已安装的 `lab` 技能：`.codex/skills/lab/SKILL.md`。\n\n立刻针对用户当前给出的参数执行 `/lab:report`，不要只推荐别的 `/lab` 阶段。只有在缺少阻塞性前提时，才明确指出缺什么，并且一次最多追问一个问题。\n\n本命令运行 `/lab:report` 阶段。它必须生成给用户直接阅读的最终实验报告、受管的 `main-tables.md`，以及单独的内部 `artifact-status.md`。主报告要明确写出主指标、次级指标和必要终局证据，并用白话解释这些指标分别衡量什么、哪些只是健康度或支持性指标、以及每张主表到底证明了什么和没证明什么。"
   ),
   [path.join(".codex", "prompts", "lab-write.md")]: codexPrompt(
     "把验证过的研究工件转成论文 section，并按小步方式修订",
@@ -102,7 +102,7 @@ const ZH_CONTENT = {
     "lab-report",
     "基于验证后的迭代工件生成最终报告",
     "report context",
-    "使用已安装的 `lab` 技能：`.claude/skills/lab/SKILL.md`。\n\n立刻针对用户当前给出的参数执行 `report` 阶段，不要只推荐别的 lab 阶段。只有在缺少阻塞性前提时，才明确指出缺什么，并且一次最多追问一个问题。\n\n本命令运行 lab workflow 的 `report` 阶段。它必须生成给用户直接阅读的最终实验报告和受管的 `main-tables.md`，明确写出主指标、次级指标和必要终局证据，并用白话解释这些指标分别衡量什么、哪些只是健康度或支持性指标、以及每张主表到底证明了什么和没证明什么。"
+    "使用已安装的 `lab` 技能：`.claude/skills/lab/SKILL.md`。\n\n立刻针对用户当前给出的参数执行 `report` 阶段，不要只推荐别的 lab 阶段。只有在缺少阻塞性前提时，才明确指出缺什么，并且一次最多追问一个问题。\n\n本命令运行 lab workflow 的 `report` 阶段。它必须生成给用户直接阅读的最终实验报告、受管的 `main-tables.md`，以及单独的内部 `artifact-status.md`。主报告要明确写出主指标、次级指标和必要终局证据，并用白话解释这些指标分别衡量什么、哪些只是健康度或支持性指标、以及每张主表到底证明了什么和没证明什么。"
   ),
   [path.join(".claude", "commands", "lab-write.md")]: claudeCommand(
     "lab-write",
@@ -300,6 +300,7 @@ const ZH_SKILL_FILES = {
 - 实验设置
 - 已验证主结果
 - 位于 \`<deliverables_root>/main-tables.md\` 的受管主表工件
+- 位于 \`<deliverables_root>/artifact-status.md\` 的内部工件状态
 - 怎么看主表的阅读指引
 - 消融
 - 失败尝试
@@ -311,6 +312,7 @@ const ZH_SKILL_FILES = {
 - \`.lab/context/mission.md\`
 - \`.lab/context/state.md\`
+- \`.lab/context/workflow-state.md\`
 - \`.lab/context/decisions.md\`
 - \`.lab/context/evidence-index.md\`
 - \`.lab/context/eval-protocol.md\`
@@ -320,6 +322,7 @@ const ZH_SKILL_FILES = {
 - \`.lab/context/mission.md\`
 - \`.lab/context/eval-protocol.md\`
 - \`.lab/context/state.md\`
+- \`.lab/context/workflow-state.md\`
 - \`.lab/context/evidence-index.md\`
 ## 证据规则
@@ -332,16 +335,19 @@ const ZH_SKILL_FILES = {
 - 必须用白话解释选定的主指标和次级指标：每个指标在衡量什么、越高还是越低更好、它是主结果指标还是健康度/支持性指标。
 - 如果出现 coverage、completeness、confidence 或类似健康度指标，必须明确说明这类指标回答的是“实验是否跑稳、证据是否完整”，而不是主要科学效应本身。
 - 要把最关键的背景来源、方法/基线来源和指标来源直接写进报告，不要把它们藏在 \`.lab/context/*\` 里。
+- 把 \`report.md\` 当作给外部评审或合作者看的研究 memo；来源章节必须给出人类可读的 anchor references，不能拿本地路径或内部 provenance 充数。
 - 如果 \`.lab/context/terminology-lock.md\` 里已经冻结了方法名和 contribution bullets，就必须把它们带进报告。
 - 方法概述必须用协作者能读懂的话说明：我们的方法大致怎么做、相对 closest prior work 或 strongest baseline 改了什么、这些 prior 方法各自做了什么，以及它们为什么在当前 claim 下仍然不够。
 - 只保留少量最关键的 prior work/baseline 锚点；每个锚点都要用一句话交代它做了什么和它的局限。
+- 在“背景来源”“方法与基线来源”“指标来源”里，每个锚点都必须包含：引用、它做了什么或衡量什么、以及至少一个局限或 caveat。
+- 内部 provenance 只能放到 \`<deliverables_root>/artifact-status.md\` 或 \`.lab/context/evidence-index.md\`，不能塞进来源章节。
 - 在起草报告前，先检查 \`.lab/context/mission.md\` 和 \`.lab/context/eval-protocol.md\` 是否仍是模板空壳。
 - 如果 canonical context 还是空壳，要先根据 frozen result artifacts、data-decisions、evidence-index 和已批准上下文回填“最小可信版本”，再写报告。
 - 如果回填后仍缺少协作者可读所需的关键字段，就必须把输出降级成 \`artifact-anchored interim report\`，不能冒充最终协作者报告。
 - 如果现有的 \`report.md\` 或 \`main-tables.md\` 缺少受管模板要求的协作者可读章节，也必须视为报告缺陷；rerun 需要补齐这些缺失块，不能直接宣称“正文无变化”或把这次 rerun 当成 no-op。
 - 报告起草或 rerun 完成后，必须运行 \`.lab/.managed/scripts/validate_collaborator_report.py --report <deliverables_root>/report.md --main-tables <deliverables_root>/main-tables.md\`。如果校验失败，就继续补正文，不能停在“只新增审计痕迹”的状态。
 - 如果报告依赖了对原始指标或原始实现的偏差，必须明确写出这个偏差。
-- workflow 工件状态、rerun id 或 LaTeX 骨架状态不能混进“已验证主结果”；这些内容必须单列到工件状态部分。
+- workflow 工件状态、rerun id 或 LaTeX 骨架状态不能混进“已验证主结果”；这些内容必须单列到 \`<deliverables_root>/artifact-status.md\`。
 - 如果 workflow language 是中文，\`report.md\` 和 \`<deliverables_root>/main-tables.md\` 也应使用中文，除非文件路径、代码标识符或字面指标名必须保持原样。
 - 解释优先保守，不要写成营销文案。
 - 要给 \`/lab:write\` 留下清晰 handoff，尤其是 section draft 可以直接引用的证据链接。
@@ -699,6 +705,10 @@ const ZH_SKILL_FILES = {
 ## Checklist
+- 学术有效性检查是否已经填写，并且和实际实验设置保持一致？
+- 完整性自检是否排除了不可见输入、不合理指标使用和把工作流状态当成科学证据的做法？
+- 异常信号是否先被当成 diagnostic trigger，而不是被直接合理化成结果？
+- 在升格当前解释前，是否已经记录更简单的替代解释和至少一种交叉验证？
 - 是否把 claims 和 evidence 分开写清楚？
 - baseline 是否公平且足够强？
 - 数据集、切分和指标是否合理？
@@ -763,20 +773,36 @@ const ZH_SKILL_FILES = {
 ## 背景来源
-- 最关键的背景论文或 benchmark 参考：
-- 为什么这些来源足以锚定当前问题：
+- 参考 1：
+  - 引用：
+  - 做了什么：
+  - 为什么和当前问题相关：
+  - 对当前项目的局限：
 ## 方法与基线来源
-- 我们的方法来源或实现基础：
-- baseline 与 comparison 的来源论文：
-- baseline 与 comparison 的实现来源：
+- 参考 1：
+  - 引用：
+  - 做了什么：
+  - 为什么是这里的关键对照：
+  - 相对我们目标的局限：
 ## 指标来源
-- 指标来源论文：
-- 指标实现来源：
-- 与原始实现的偏差：
+- 参考 1：
+  - 引用：
+  - 衡量什么：
+  - 为什么适合这里：
+  - 局限或注意事项：
+## 异常与替代解释
+- 观察到的异常信号：
+- 做过的实现层检查：
+- 已排除的更简单解释：
+- 支撑当前解释的交叉验证：
+- 当前最站得住的解释：
+- 未来异常出现时的升级阈值：
 ## 怎么看主表
@@ -791,11 +817,6 @@ const ZH_SKILL_FILES = {
 - 最终表现摘要：
 - 主表覆盖情况：
-## 工件状态
-- 已就绪的交付物或工作流工件：
-- 这些工件状态为什么不是科学结论：
 ## 主要结果
 - 主要发现 1：
@@ -810,6 +831,36 @@ const ZH_SKILL_FILES = {
 - Claim：
 - 缺失支持：
+`,
+  [path.join(".lab", ".managed", "templates", "artifact-status.md")]:
+`# 工件状态
+## 交付物状态
+- 协作者报告路径：
+- 受管主表路径：
+- 当前报告模式：
+- 为什么当前状态是合理的：
+## 工作流审计
+- 最近完成动作：
+- 最新工件路径：
+- 最新 run 或 report id：
+- rerun 或校验备注：
+## 内部溯源
+- 使用的冻结结果工件：
+- 已刷新 canonical context：
+- Evidence index 锚点：
+## 论文交接
+- 已可进入 \`/lab:write\` 的 sections：
+- 可引用的证据包：
+- 仍需要更强支持的 claims：
+- 仍未完成的 paper-finishing 项：
 `,
   [path.join(".lab", ".managed", "templates", "main-tables.md")]:
 `# 主表工件
@@ -1033,6 +1084,33 @@ const ZH_SKILL_FILES = {
 - 协作者可读状态：
 `,
   [path.join(".lab", "context", "state.md")]:
+`# 研究状态
+## 已批准方向
+- One-sentence problem:
+- Approved direction:
+- Strongest supported claim:
+## 证据边界
+- What the current evidence really supports:
+- What is still outside the boundary:
+- Biggest research risk:
+## 当前研究主线
+- Current research focus:
+- Primary metric:
+- Dataset or benchmark scope:
+## 当前研究约束
+- Hard constraints:
+- Claim boundary:
+- Conditions that require reopening the direction:
+`,
+  [path.join(".lab", "context", "workflow-state.md")]:
 `# 工作流状态
 ## 当前阶段
@@ -1121,7 +1199,7 @@ const ZH_SKILL_FILES = {
 - Terminal goal target:
 - Required terminal artifact:
 - 如果 workflow language 是中文，摘要、清单条目、任务标签和进度更新都应使用中文。
-- 示例 Objective: 推进 paper layer 3 的 organizer enforcement，完成一轮 bounded protocol、测试、最小实现和一轮小规模结果。
+- 示例 Objective: 推进 paper layer 3，完成一轮 bounded protocol、测试、最小实现和一轮小规模结果。
 ## 循环预算
@@ -1149,8 +1227,8 @@ const ZH_SKILL_FILES = {
 - Run stage contract: write persistent outputs under \`results_root\`.
 - Iterate stage contract: update persistent outputs under \`results_root\`.
-- Review stage contract: update canonical review context such as \`.lab/context/decisions.md\`、\`state.md\`、\`open-questions.md\` or \`evidence-index.md\`.
-- Report stage contract: write the final report to \`<deliverables_root>/report.md\`.
+- Review stage contract: update canonical review context such as \`.lab/context/decisions.md\`、\`state.md\`、\`workflow-state.md\`、\`open-questions.md\` or \`evidence-index.md\`.
+- Report stage contract: write \`<deliverables_root>/report.md\`、\`<deliverables_root>/main-tables.md\` and \`<deliverables_root>/artifact-status.md\`.
 - Write stage contract: write LaTeX output under \`<deliverables_root>/paper/\`.
 ## 升格策略
@@ -1184,6 +1262,21 @@ const ZH_SKILL_FILES = {
 - 对比方法来源论文:
 - 对比方法实现来源:
 - 与原始实现的偏差:
+- 评测设定语义:
+- 可见性与泄漏风险:
+- 锚点与标签策略:
+- 尺度与可比性策略:
+- 指标有效性检查:
+- 对比有效性检查:
+- 统计有效性检查:
+- 结论边界:
+- 完整性自检:
+- 异常信号:
+- 实现层现实检查:
+- 已考虑的替代解释:
+- 交叉验证方法:
+- 当前最站得住的解释:
+- 升级阈值:
 - 终止目标类型:
 - 终止目标目标值:
 - 必要终止工件:
@@ -1246,7 +1339,7 @@ ZH_CONTENT[path.join(".lab", "system", "core.md")] = `# Lab 系统核心
 1. \`.lab/context/session-brief.md\`
 2. \`.lab/context/mission.md\`
-3. \`.lab/context/state.md\`
+3. \`.lab/context/workflow-state.md\`
 4. \`.lab/context/evidence-index.md\`
 5. \`.lab/context/data-decisions.md\`（当问题涉及数据集、benchmark 或对比方法时）
 6. \`.lab/context/auto-mode.md\` 和 \`.lab/context/auto-status.md\`（当任务涉及自动模式时）
@@ -1255,13 +1348,15 @@ ZH_CONTENT[path.join(".lab", "system", "core.md")] = `# Lab 系统核心
 ## 工作流边界
-- \`.lab/context/\` 保存持久研究状态。
+- \`.lab/context/\` 同时保存持久研究状态和轻量工作流状态。
 - \`.lab/changes/\`、\`.lab/iterations/\`、\`.lab/writing/\` 保存工作流控制工件、轻量 manifest 和 change-local harness。
 - \`.lab/.managed/\` 保存工具托管模板和脚本。
 - 持久 run 输出应写到 \`results_root\`，不要写进 \`.lab/changes/\`。
 - 图表和可视化应写到 \`figures_root\`，不要写进 \`.lab/changes/\`。
 - 最终交付物应写到 \`deliverables_root\`，不要写进 \`.lab/context/\`。
 - change-local 的 \`data/\` 目录只应用来放轻量 manifest 或 batch spec，不要当正式数据集入口。
+- \`.lab/context/state.md\` 保存持久研究状态；\`.lab/context/workflow-state.md\` 保存当前工作流状态。
+- \`.lab/context/summary.md\` 是长期项目摘要；\`.lab/context/session-brief.md\` 是下一次会话启动简报。
 - \`.lab/context/auto-mode.md\` 定义自动模式边界，\`.lab/context/auto-status.md\` 记录自动运行状态，二者都属于项目状态。
 - 如果用户提供了 LaTeX 模板目录，先校验并通过 \`paper_template_root\` 接入，再开始写作。
 - 已接入的模板目录视为用户资产，默认不要改模板文件，除非用户明确要求。
@@ -1353,7 +1448,7 @@ ZH_CONTENT[path.join(".lab", "context", "session-brief.md")] = `# 会话简报
 ## 先读这些文件
 1. \`.lab/context/mission.md\`
-2. \`.lab/context/state.md\`
+2. \`.lab/context/workflow-state.md\`
 3. \`.lab/context/evidence-index.md\`
 ## 不要静默修改
@@ -1578,7 +1673,7 @@ ZH_CONTENT[path.join(".lab", ".managed", "templates", "framing.md")] = `# 论文
 ZH_CONTENT[path.join(".codex", "prompts", "lab.md")] = codexPrompt(
   "查看 /lab 研究工作流总览并选择合适阶段",
   "workflow question 或 stage choice",
-  "# `/lab` for Codex\n\n`/lab` 是严格的研究工作流命令族。每次都使用同一套仓库工件和阶段边界。\n\n## 子命令\n\n- `/lab:idea`\n  调研 idea，定义问题与 failure case，归类 contribution 与 breakthrough level，对比现有方法，收束三个一眼就有意义的点，并在实现前保留 approval gate。\n\n- `/lab:data`\n  把已批准的 idea 转成数据集与 benchmark 方案，记录数据集年份、使用过该数据集的论文、下载来源、许可或访问限制，以及 classic-public、recent-strong-public、claim-specific 三类 benchmark 的纳入理由，和 canonical baselines、strong historical baselines、recent strong public methods、closest prior work 四类对比方法的纳入理由。\n\n- `/lab:auto`\n  在不改变 mission、framing 和核心 claims 的前提下，读取 eval-protocol 与 auto-mode 契约并自动编排 `run`、`iterate`、`review`、`report`，必要时扩展数据集、benchmark 和 comparison methods，并在满足升格策略时自动升级 primary package。启动前必须选定 autonomy level、声明 terminal goal，并显式批准契约。\n\n- `/lab:framing`\n  通过审计当前领域与相邻领域的术语，锁定 paper-facing 的方法名、模块名、论文题目和 contribution bullets，并在 section 起草前保留 approval gate。\n\n- `/lab:spec`\n  把已批准的 idea 转成 `.lab/changes/<change-id>/` 下的一个 lab change 目录，并在其中写出 `proposal`、`design`、`spec`、`tasks`。\n\n- `/lab:run`\n  执行最小有意义验证运行，登记 run，并生成第一版标准化评估摘要。\n\n- `/lab:iterate`\n  在冻结 mission、阈值、verification commands 与 `completion_promise` 的前提下执行有边界的实验迭代。\n\n- `/lab:review`\n  以 reviewer mode 审查文档或结果，先给短摘要，再输出 findings、fatal flaws、fix priority 和 residual risks。\n\n- `/lab:report`\n  从 runs 和 iterations 工件生成最终研究报告。\n\n- `/lab:write`\n  使用已安装 `lab` skill 下 vendored 的 paper-writing references，把稳定 report 工件转成论文 section。\n\n## 调度规则\n\n- 始终使用 `skills/lab/SKILL.md` 作为工作流合同。\n- 用户显式调用 `/lab:<stage>` 时，要立刻执行该 stage，而不是只推荐别的 `/lab` stage。\n- 先给简洁摘要，再决定是否写工件，最后回报输出路径和下一步。\n- 如果歧义会影响结论，一次只问一个问题；如果有多条可行路径，先给 2-3 个方案再收敛。\n- `/lab:spec` 前应已有经批准的数据集与 benchmark 方案。\n- `/lab:run`、`/lab:iterate`、`/lab:auto`、`/lab:report` 都应遵循 `.lab/context/eval-protocol.md`。\n- `.lab/context/eval-protocol.md` 不只定义主指标和主表，也应定义指标释义、实验阶梯，以及指标和对比实现的来源。\n- `/lab:auto` 只编排已批准边界内的执行阶段，不替代手动的 idea/data/framing/spec 决策。\n- `/lab:write` 前必须已有经批准的 `/lab:framing` 工件。\n\n## 如何输入 `/lab:auto`\n\n## `/lab:auto` 层级指南\n\n- `L1`：适合安全验证、一轮 bounded 真实运行，或简单 report 刷新。\n- `L2`：默认推荐级别，适合冻结核心边界内的常规实验迭代。\n- `L3`：激进 campaign 级别，只在你明确想做更大范围探索和可选写作时使用。\n- 如果不确定，默认推荐 `L2`。\n- 如果用户输入没写级别，或者把级别和 `paper layer`、`phase`、`table` 混用了，就应先停下来，要求用户明确选 `L1/L2/L3`。\n\n- 把 `Autonomy level L1/L2/L3` 视为执行权限级别，不要和论文里的 layer、phase、table 编号混用。\n- 把 `paper layer`、`phase`、`table` 视为实验目标。例如 `paper layer 3` 或 `Phase 1 reviewer fidelity` 不是 `Autonomy level L3`。\n- 一条好的 `/lab:auto` 输入应至少说清：objective、自治级别、terminal goal、scope、allowed modifications。\n- 如果 workflow language 是中文，摘要、清单条目、任务标签和进度更新都应使用中文，除非文件路径、代码标识符或字面指标名必须保持原样。\n- 示例：`/lab:auto 自治级别 L2。目标：推进 paper layer 3 的 organizer enforcement。终止条件：完成 bounded protocol、测试、最小实现和一轮小规模结果。允许修改：evaluator prompt registry、ingestion、parser。`\n"
+  "# `/lab` for Codex\n\n`/lab` 是严格的研究工作流命令族。每次都使用同一套仓库工件和阶段边界。\n\n## 子命令\n\n- `/lab:idea`\n  调研 idea，定义问题与 failure case，归类 contribution 与 breakthrough level，对比现有方法，收束三个一眼就有意义的点，并在实现前保留 approval gate。\n\n- `/lab:data`\n  把已批准的 idea 转成数据集与 benchmark 方案，记录数据集年份、使用过该数据集的论文、下载来源、许可或访问限制，以及 classic-public、recent-strong-public、claim-specific 三类 benchmark 的纳入理由，和 canonical baselines、strong historical baselines、recent strong public methods、closest prior work 四类对比方法的纳入理由。\n\n- `/lab:auto`\n  在不改变 mission、framing 和核心 claims 的前提下，读取 eval-protocol 与 auto-mode 契约并自动编排 `run`、`iterate`、`review`、`report`，必要时扩展数据集、benchmark 和 comparison methods，并在满足升格策略时自动升级 primary package。启动前必须选定 autonomy level、声明 terminal goal，并显式批准契约。\n\n- `/lab:framing`\n  通过审计当前领域与相邻领域的术语，锁定 paper-facing 的方法名、模块名、论文题目和 contribution bullets，并在 section 起草前保留 approval gate。\n\n- `/lab:spec`\n  把已批准的 idea 转成 `.lab/changes/<change-id>/` 下的一个 lab change 目录，并在其中写出 `proposal`、`design`、`spec`、`tasks`。\n\n- `/lab:run`\n  执行最小有意义验证运行，登记 run，并生成第一版标准化评估摘要。\n\n- `/lab:iterate`\n  在冻结 mission、阈值、verification commands 与 `completion_promise` 的前提下执行有边界的实验迭代。\n\n- `/lab:review`\n  以 reviewer mode 审查文档或结果，先给短摘要，再输出 findings、fatal flaws、fix priority 和 residual risks。\n\n- `/lab:report`\n  从 runs 和 iterations 工件生成最终研究报告。\n\n- `/lab:write`\n  使用已安装 `lab` skill 下 vendored 的 paper-writing references，把稳定 report 工件转成论文 section。\n\n## 调度规则\n\n- 始终使用 `skills/lab/SKILL.md` 作为工作流合同。\n- 用户显式调用 `/lab:<stage>` 时，要立刻执行该 stage，而不是只推荐别的 `/lab` stage。\n- 先给简洁摘要，再决定是否写工件，最后回报输出路径和下一步。\n- 如果歧义会影响结论，一次只问一个问题；如果有多条可行路径，先给 2-3 个方案再收敛。\n- `/lab:spec` 前应已有经批准的数据集与 benchmark 方案。\n- `/lab:run`、`/lab:iterate`、`/lab:auto`、`/lab:report` 都应遵循 `.lab/context/eval-protocol.md`。\n- `.lab/context/eval-protocol.md` 不只定义主指标和主表，也应定义指标释义、实验阶梯，以及指标和对比实现的来源。\n- `/lab:auto` 只编排已批准边界内的执行阶段，不替代手动的 idea/data/framing/spec 决策。\n- `/lab:write` 前必须已有经批准的 `/lab:framing` 工件。\n\n## 如何输入 `/lab:auto`\n\n## `/lab:auto` 层级指南\n\n- `L1`：适合安全验证、一轮 bounded 真实运行，或简单 report 刷新。\n- `L2`：默认推荐级别，适合冻结核心边界内的常规实验迭代。\n- `L3`：激进 campaign 级别，只在你明确想做更大范围探索和可选写作时使用。\n- 如果不确定，默认推荐 `L2`。\n- 如果用户输入没写级别，或者把级别和 `paper layer`、`phase`、`table` 混用了，就应先停下来，要求用户明确选 `L1/L2/L3`。\n\n- 把 `Autonomy level L1/L2/L3` 视为执行权限级别，不要和论文里的 layer、phase、table 编号混用。\n- 把 `paper layer`、`phase`、`table` 视为实验目标。例如 `paper layer 3` 或 `Phase 1` 不是 `Autonomy level L3`。\n- 一条好的 `/lab:auto` 输入应至少说清：objective、自治级别、terminal goal、scope、allowed modifications。\n- 如果 workflow language 是中文，摘要、清单条目、任务标签和进度更新都应使用中文，除非文件路径、代码标识符或字面指标名必须保持原样。\n- 示例：`/lab:auto 自治级别 L2。目标：推进 paper layer 3。终止条件：完成 bounded protocol、测试、最小实现和一轮小规模结果。允许修改：配置、数据接入、评估脚本。`\n"
 );
 ZH_CONTENT[path.join(".codex", "prompts", "lab-data.md")] = codexPrompt(
@@ -1597,7 +1692,7 @@ ZH_CONTENT[path.join(".claude", "commands", "lab.md")] = claudeCommand(
   "lab",
   "查看 /lab 研究工作流总览并选择合适阶段",
   "[stage] [target]",
-  "# `/lab` for Claude\n\n`/lab` 是 Claude Code 里的 lab 工作流分发入口。调用方式有两种：\n\n- `/lab <stage> ...`\n- `/lab-idea`、`/lab-data`、`/lab-auto`、`/lab-framing`、`/lab-spec`、`/lab-run`、`/lab-iterate`、`/lab-review`、`/lab-report`、`/lab-write`\n\n## 阶段别名\n\n- `/lab idea ...` 或 `/lab-idea`\n- `/lab data ...` 或 `/lab-data`\n- `/lab auto ...` 或 `/lab-auto`\n- `/lab framing ...` 或 `/lab-framing`\n- `/lab spec ...` 或 `/lab-spec`\n- `/lab run ...` 或 `/lab-run`\n- `/lab iterate ...` 或 `/lab-iterate`\n- `/lab review ...` 或 `/lab-review`\n- `/lab report ...` 或 `/lab-report`\n- `/lab write ...` 或 `/lab-write`\n\n## 调度规则\n\n- 始终使用 `skills/lab/SKILL.md` 作为工作流合同。\n- 用户显式调用 `/lab <stage> ...` 或 `/lab-<stage>` 时，要立刻执行该 stage，而不是只推荐别的阶段。\n- 先给简洁摘要，再决定是否写工件，最后回报输出路径和下一步。\n- 如果歧义会影响结论，一次只问一个问题；如果有多条可行路径，先给 2-3 个方案再收敛。\n- `spec` 前应已有经批准的数据集与 benchmark 方案。\n- `run`、`iterate`、`auto`、`report` 都应遵循 `.lab/context/eval-protocol.md`。\n- `auto` 只编排已批准边界内的执行阶段，不替代手动的 idea/data/framing/spec 决策。\n- `write` 前必须已有经批准的 `framing` 工件。\n\n## 如何输入 `/lab auto`\n\n## `/lab auto` 层级指南\n\n- `L1`：适合安全验证、一轮 bounded 真实运行，或简单 report 刷新。\n- `L2`：默认推荐级别，适合冻结核心边界内的常规实验迭代。\n- `L3`：激进 campaign 级别，只在你明确想做更大范围探索和可选写作时使用。\n- 如果不确定，默认推荐 `L2`。\n- 如果用户输入没写级别，或者把级别和 `paper layer`、`phase`、`table` 混用了，就应先停下来，要求用户明确选 `L1/L2/L3`。\n\n- 把 `Autonomy level L1/L2/L3` 视为执行权限级别，不要和论文里的 layer、phase、table 编号混用。\n- 把 `paper layer`、`phase`、`table` 视为实验目标。例如 `paper layer 3` 或 `Phase 1 reviewer fidelity` 不是 `Autonomy level L3`。\n- 一条好的 `/lab auto` 输入应至少说清：objective、自治级别、terminal goal、scope、allowed modifications。\n- 如果 workflow language 是中文，摘要、清单条目、任务标签和进度更新都应使用中文，除非文件路径、代码标识符或字面指标名必须保持原样。\n- 示例：`/lab auto 自治级别 L2。目标：推进 paper layer 3 的 organizer enforcement。终止条件：完成 bounded protocol、测试、最小实现和一轮小规模结果。允许修改：evaluator prompt registry、ingestion、parser。`\n"
+  "# `/lab` for Claude\n\n`/lab` 是 Claude Code 里的 lab 工作流分发入口。调用方式有两种：\n\n- `/lab <stage> ...`\n- `/lab-idea`、`/lab-data`、`/lab-auto`、`/lab-framing`、`/lab-spec`、`/lab-run`、`/lab-iterate`、`/lab-review`、`/lab-report`、`/lab-write`\n\n## 阶段别名\n\n- `/lab idea ...` 或 `/lab-idea`\n- `/lab data ...` 或 `/lab-data`\n- `/lab auto ...` 或 `/lab-auto`\n- `/lab framing ...` 或 `/lab-framing`\n- `/lab spec ...` 或 `/lab-spec`\n- `/lab run ...` 或 `/lab-run`\n- `/lab iterate ...` 或 `/lab-iterate`\n- `/lab review ...` 或 `/lab-review`\n- `/lab report ...` 或 `/lab-report`\n- `/lab write ...` 或 `/lab-write`\n\n## 调度规则\n\n- 始终使用 `skills/lab/SKILL.md` 作为工作流合同。\n- 用户显式调用 `/lab <stage> ...` 或 `/lab-<stage>` 时，要立刻执行该 stage，而不是只推荐别的阶段。\n- 先给简洁摘要，再决定是否写工件，最后回报输出路径和下一步。\n- 如果歧义会影响结论，一次只问一个问题；如果有多条可行路径，先给 2-3 个方案再收敛。\n- `spec` 前应已有经批准的数据集与 benchmark 方案。\n- `run`、`iterate`、`auto`、`report` 都应遵循 `.lab/context/eval-protocol.md`。\n- `auto` 只编排已批准边界内的执行阶段，不替代手动的 idea/data/framing/spec 决策。\n- `write` 前必须已有经批准的 `framing` 工件。\n\n## 如何输入 `/lab auto`\n\n## `/lab auto` 层级指南\n\n- `L1`：适合安全验证、一轮 bounded 真实运行，或简单 report 刷新。\n- `L2`：默认推荐级别，适合冻结核心边界内的常规实验迭代。\n- `L3`：激进 campaign 级别，只在你明确想做更大范围探索和可选写作时使用。\n- 如果不确定，默认推荐 `L2`。\n- 如果用户输入没写级别，或者把级别和 `paper layer`、`phase`、`table` 混用了，就应先停下来，要求用户明确选 `L1/L2/L3`。\n\n- 把 `Autonomy level L1/L2/L3` 视为执行权限级别，不要和论文里的 layer、phase、table 编号混用。\n- 把 `paper layer`、`phase`、`table` 视为实验目标。例如 `paper layer 3` 或 `Phase 1` 不是 `Autonomy level L3`。\n- 一条好的 `/lab auto` 输入应至少说清：objective、自治级别、terminal goal、scope、allowed modifications。\n- 如果 workflow language 是中文，摘要、清单条目、任务标签和进度更新都应使用中文，除非文件路径、代码标识符或字面指标名必须保持原样。\n- 示例：`/lab auto 自治级别 L2。目标：推进 paper layer 3。终止条件：完成 bounded protocol、测试、最小实现和一轮小规模结果。允许修改：配置、数据接入、评估脚本。`\n"
 );
 ZH_CONTENT[path.join(".claude", "commands", "lab-data.md")] = claudeCommand(
@@ -2040,6 +2135,27 @@ ZH_CONTENT[path.join(".lab", "context", "eval-protocol.md")] = `# 评估协议
 - 对比方法实现来源：
 - 与原始实现的偏差：
+## 学术有效性检查
+- 评测设定语义：
+- 可见性与泄漏风险：
+- 锚点与标签策略：
+- 尺度与可比性策略：
+- 指标有效性检查：
+- 对比有效性检查：
+- 统计有效性检查：
+- 结论边界：
+- 完整性自检：
+## 异常与替代解释检查
+- 异常信号：
+- 实现层现实检查：
+- 已考虑的替代解释：
+- 交叉验证方法：
+- 当前最站得住的解释：
+- 升级阈值：
 ## Gate Ladder
 - 实验阶梯：

package/lib/install.cjs CHANGED Viewed

@@ -36,6 +36,7 @@ const PROJECT_OWNED_LOCALIZED_PATHS = [
   path.join(".lab", "config", "workflow.json"),
   path.join(".lab", "context", "mission.md"),
   path.join(".lab", "context", "state.md"),
+  path.join(".lab", "context", "workflow-state.md"),
   path.join(".lab", "context", "decisions.md"),
   path.join(".lab", "context", "evidence-index.md"),
   path.join(".lab", "context", "open-questions.md"),
@@ -542,6 +543,7 @@ function localizeInstalledAssets(targetDir, lang, { newlyCreatedProjectOwnedPath
     path.join(".lab", ".managed", "templates", "review-checklist.md"),
     path.join(".lab", ".managed", "templates", "final-report.md"),
     path.join(".lab", ".managed", "templates", "main-tables.md"),
+    path.join(".lab", ".managed", "templates", "artifact-status.md"),
     path.join(".lab", ".managed", "templates", "paper-plan.md"),
     path.join(".lab", ".managed", "templates", "paper-section.md"),
     path.join(".lab", ".managed", "templates", "write-iteration.md"),

package/package-assets/claude/commands/lab.md CHANGED Viewed

@@ -71,7 +71,7 @@ Use the same repository artifacts and stage boundaries every time.
 - If the request omits the level or mixes it with a paper layer, phase, or table target, `/lab auto` should stop and ask for an explicit autonomy level before arming the loop.
 - Treat `Autonomy level L1/L2/L3` as the execution privilege level, not as a paper layer, phase, or table number.
-- Treat `paper layer`, `phase`, and `table` as experiment targets. For example, `paper layer 3` or `Phase 1 reviewer fidelity` should not be interpreted as `Autonomy level L3`.
+- Treat `paper layer`, `phase`, and `table` as experiment targets. For example, `paper layer 3` or `Phase 1` should not be interpreted as `Autonomy level L3`.
 - A good `/lab auto` request should name:
   - the objective
   - the autonomy level
@@ -80,4 +80,4 @@ Use the same repository artifacts and stage boundaries every time.
   - the allowed modifications
 - If the repository workflow language is Chinese, summaries, checklist items, task labels, and progress updates should be written in Chinese unless a code identifier or file path must stay literal.
 - Good example:
-  - `/lab auto Autonomy level L2. Objective: advance paper layer 3 organizer enforcement. Terminal goal: task-completion. Scope: bounded protocol, tests, minimal implementation, and one small run. Allowed modifications: evaluator prompt registry, ingestion, and parser only.`
+  - `/lab auto Autonomy level L2. Objective: advance paper layer 3 through one bounded protocol improvement. Terminal goal: task-completion. Scope: bounded protocol, tests, one minimal implementation, and one small run. Allowed modifications: configuration, evaluation script, and data-loading logic only.`

package/package-assets/codex/prompts/lab.md CHANGED Viewed

@@ -65,7 +65,7 @@ argument-hint: workflow question or stage choice
 - If the request omits the level or mixes it with a paper layer, phase, or table target, `/lab:auto` should stop and ask for an explicit autonomy level before arming the loop.
 - Treat `Autonomy level L1/L2/L3` as the execution privilege level, not as a paper layer, phase, or table number.
-- Treat `paper layer`, `phase`, and `table` as experiment targets. For example, `paper layer 3` or `Phase 1 reviewer fidelity` should not be interpreted as `Autonomy level L3`.
+- Treat `paper layer`, `phase`, and `table` as experiment targets. For example, `paper layer 3` or `Phase 1` should not be interpreted as `Autonomy level L3`.
 - A good `/lab:auto` request should name:
   - the objective
   - the autonomy level
@@ -74,4 +74,4 @@ argument-hint: workflow question or stage choice
   - the allowed modifications
 - If the repository workflow language is Chinese, summaries, checklist items, task labels, and progress updates should be written in Chinese unless a code identifier or file path must stay literal.
 - Good example:
-  - `/lab:auto Autonomy level L2. Objective: advance paper layer 3 organizer enforcement. Terminal goal: task-completion. Scope: bounded protocol, tests, minimal implementation, and one small run. Allowed modifications: evaluator prompt registry, ingestion, and parser only.`
+  - `/lab:auto Autonomy level L2. Objective: advance paper layer 3 through one bounded protocol improvement. Terminal goal: task-completion. Scope: bounded protocol, tests, one minimal implementation, and one small run. Allowed modifications: configuration, evaluation script, and data-loading logic only.`

package/package-assets/shared/lab/.managed/scripts/validate_collaborator_report.py CHANGED Viewed

@@ -20,6 +20,10 @@ REPORT_REQUIRED_SECTIONS = {
         r"^##\s+方法与基线来源\s*$",
     ],
     "Metric Sources": [r"^##\s+Metric Sources\s*$", r"^##\s+指标来源\s*$"],
+    "Sanity and Alternative Explanations": [
+        r"^##\s+Sanity and Alternative Explanations\s*$",
+        r"^##\s+异常与替代解释\s*$",
+    ],
 }
 MAIN_TABLES_REQUIRED_SECTIONS = {
@@ -30,6 +34,24 @@ MAIN_TABLES_REQUIRED_SECTIONS = {
     "How to Read These Tables": [r"^##\s+How to Read These Tables\s*$", r"^##\s+怎么读这些表\s*$"],
 }
+SOURCE_SECTION_NAMES = (
+    "Background Sources",
+    "Method and Baseline Sources",
+    "Metric Sources",
+)
+SOURCE_SECTION_PATH_MARKERS = (
+    "/Users/",
+    "/home/",
+    "/tmp/",
+    "/private/tmp/",
+    ".lab/",
+    "outputs/",
+    "docs/research/",
+)
+SOURCE_SECTION_CITATION_MARKERS = ("Citation:", "引用：")
+SOURCE_SECTION_ROLE_MARKERS = ("What it established:", "What it does:", "What it measures:", "做了什么：", "衡量什么：")
+SOURCE_SECTION_LIMITATION_MARKERS = ("Limitation", "局限")
 def parse_args():
     parser = argparse.ArgumentParser(
@@ -48,6 +70,35 @@ def missing_sections(text: str, required_sections: dict[str, list[str]]) -> list
     return missing
+def extract_section_body(text: str, patterns: list[str]) -> str:
+    for pattern in patterns:
+        match = re.search(pattern, text, flags=re.MULTILINE)
+        if not match:
+            continue
+        start = match.end()
+        next_heading = re.search(r"^##\s+", text[start:], flags=re.MULTILINE)
+        end = start + next_heading.start() if next_heading else len(text)
+        return text[start:end].strip()
+    return ""
+def validate_source_sections(text: str, label: str) -> list[str]:
+    issues = []
+    for section_name in SOURCE_SECTION_NAMES:
+        body = extract_section_body(text, REPORT_REQUIRED_SECTIONS[section_name])
+        if not body:
+            continue
+        if any(marker in body for marker in SOURCE_SECTION_PATH_MARKERS):
+            issues.append(f"{label} section '{section_name}' must not rely on local file paths or internal provenance")
+        if not any(marker in body for marker in SOURCE_SECTION_CITATION_MARKERS):
+            issues.append(f"{label} section '{section_name}' must include at least one citation anchor")
+        has_role = any(marker in body for marker in SOURCE_SECTION_ROLE_MARKERS)
+        has_limitation = any(marker in body for marker in SOURCE_SECTION_LIMITATION_MARKERS)
+        if not has_role or not has_limitation:
+            issues.append(f"{label} section '{section_name}' must explain what the anchor does and one limitation")
+    return issues
 def validate(path_str: str, required_sections: dict[str, list[str]], label: str) -> list[str]:
     path = Path(path_str)
     if not path.exists():
@@ -56,6 +107,8 @@ def validate(path_str: str, required_sections: dict[str, list[str]], label: str)
     missing = missing_sections(text, required_sections)
     if missing:
         return [f"{label} is missing required sections: {', '.join(missing)}"]
+    if label == "report.md":
+        return validate_source_sections(text, label)
     return []

package/package-assets/shared/lab/.managed/templates/artifact-status.md ADDED Viewed

@@ -0,0 +1,28 @@
+# Artifact Status
+## Deliverable Status
+- Collaborator-facing report path:
+- Managed main tables path:
+- Current report mode:
+- Why this status is appropriate:
+## Workflow Audit
+- Latest completed action:
+- Latest artifact path:
+- Latest run or report id:
+- Rerun or validation notes:
+## Internal Provenance
+- Frozen result artifacts used:
+- Canonical context files refreshed:
+- Evidence index anchors:
+## Paper Handoff
+- Sections ready for `/lab:write`:
+- Evidence bundles to cite:
+- Claims that still need stronger support:
+- Paper-finishing items still open:

package/package-assets/shared/lab/.managed/templates/final-report.md CHANGED Viewed

@@ -54,20 +54,36 @@
 ## Background Sources
-- Most important background papers or benchmark references:
-- Why these are the right background anchors:
+- Anchor reference 1:
+  - Citation:
+  - What it established:
+  - Why it matters here:
+  - Limitation for the current project:
 ## Method and Baseline Sources
-- Our method source or implementation basis:
-- Baseline and comparison source papers:
-- Baseline and comparison implementation sources:
+- Anchor reference 1:
+  - Citation:
+  - What it does:
+  - Why it is the right anchor here:
+  - Limitation relative to our goal:
 ## Metric Sources
-- Metric source papers:
-- Metric implementation source:
-- Deviation from original implementation:
+- Anchor reference 1:
+  - Citation:
+  - What it measures:
+  - Why it is appropriate here:
+  - Limitation or caveat:
+## Sanity and Alternative Explanations
+- Anomaly signals observed:
+- Implementation checks performed:
+- Alternative explanations ruled out:
+- Cross-checks that strengthen the current interpretation:
+- Best-supported interpretation:
+- Escalation threshold if future anomalies appear:
 ## Experiment Setup
@@ -89,11 +105,6 @@
 - Final performance summary:
 - Table coverage:
-## Artifact Status
-- Deliverables or workflow artifacts that are ready:
-- Artifact status notes that are not scientific findings:
 ## Main Results
 Summarize validated iteration outcomes.
@@ -113,9 +124,3 @@ Describe unresolved risks and external validity limits.
 ## Next Steps
 List concrete follow-up actions.
-## Paper Handoff
-- Sections ready for `/lab:write`:
-- Evidence bundles to cite:
-- Claims that still need stronger support: