npm - @proofhound/optimization-strategy - Versions diffs - 0.1.6 - Mend

@proofhound/optimization-strategy 0.1.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (90) hide show

package/LICENSE +190 -0
package/dist/error-pattern-analysis/analysis-types.d.ts +45 -0
package/dist/error-pattern-analysis/analysis-types.d.ts.map +1 -0
package/dist/error-pattern-analysis/analysis-types.js +3 -0
package/dist/error-pattern-analysis/analysis-types.js.map +1 -0
package/dist/error-pattern-analysis/analyze.d.ts +81 -0
package/dist/error-pattern-analysis/analyze.d.ts.map +1 -0
package/dist/error-pattern-analysis/analyze.js +423 -0
package/dist/error-pattern-analysis/analyze.js.map +1 -0
package/dist/error-pattern-analysis/config.schema.d.ts +16 -0
package/dist/error-pattern-analysis/config.schema.d.ts.map +1 -0
package/dist/error-pattern-analysis/config.schema.js +26 -0
package/dist/error-pattern-analysis/config.schema.js.map +1 -0
package/dist/error-pattern-analysis/confusion-pairs.d.ts +37 -0
package/dist/error-pattern-analysis/confusion-pairs.d.ts.map +1 -0
package/dist/error-pattern-analysis/confusion-pairs.js +109 -0
package/dist/error-pattern-analysis/confusion-pairs.js.map +1 -0
package/dist/error-pattern-analysis/generate-initial.d.ts +36 -0
package/dist/error-pattern-analysis/generate-initial.d.ts.map +1 -0
package/dist/error-pattern-analysis/generate-initial.js +261 -0
package/dist/error-pattern-analysis/generate-initial.js.map +1 -0
package/dist/error-pattern-analysis/generate.d.ts +57 -0
package/dist/error-pattern-analysis/generate.d.ts.map +1 -0
package/dist/error-pattern-analysis/generate.js +369 -0
package/dist/error-pattern-analysis/generate.js.map +1 -0
package/dist/error-pattern-analysis/index.d.ts +8 -0
package/dist/error-pattern-analysis/index.d.ts.map +1 -0
package/dist/error-pattern-analysis/index.js +29 -0
package/dist/error-pattern-analysis/index.js.map +1 -0
package/dist/error-pattern-analysis/parse.d.ts +92 -0
package/dist/error-pattern-analysis/parse.d.ts.map +1 -0
package/dist/error-pattern-analysis/parse.js +456 -0
package/dist/error-pattern-analysis/parse.js.map +1 -0
package/dist/error-pattern-analysis/prompts/analyze-confusion.system.en-US.md +50 -0
package/dist/error-pattern-analysis/prompts/analyze-confusion.system.md +61 -0
package/dist/error-pattern-analysis/prompts/analyze-regression.system.en-US.md +50 -0
package/dist/error-pattern-analysis/prompts/analyze-regression.system.md +61 -0
package/dist/error-pattern-analysis/prompts/generate-initial.system.en-US.md +43 -0
package/dist/error-pattern-analysis/prompts/generate-initial.system.md +49 -0
package/dist/error-pattern-analysis/prompts/generate.system.en-US.md +53 -0
package/dist/error-pattern-analysis/prompts/generate.system.md +68 -0
package/dist/error-pattern-analysis/prompts/loader.d.ts +46 -0
package/dist/error-pattern-analysis/prompts/loader.d.ts.map +1 -0
package/dist/error-pattern-analysis/prompts/loader.js +109 -0
package/dist/error-pattern-analysis/prompts/loader.js.map +1 -0
package/dist/error-pattern-analysis/prompts/optimization-tips.en-US.md +25 -0
package/dist/error-pattern-analysis/prompts/optimization-tips.md +38 -0
package/dist/error-pattern-analysis/prompts/summarize.system.en-US.md +48 -0
package/dist/error-pattern-analysis/prompts/summarize.system.md +69 -0
package/dist/error-pattern-analysis/prompts.d.ts +79 -0
package/dist/error-pattern-analysis/prompts.d.ts.map +1 -0
package/dist/error-pattern-analysis/prompts.js +659 -0
package/dist/error-pattern-analysis/prompts.js.map +1 -0
package/dist/error-pattern-analysis/token-budget.d.ts +20 -0
package/dist/error-pattern-analysis/token-budget.d.ts.map +1 -0
package/dist/error-pattern-analysis/token-budget.js +88 -0
package/dist/error-pattern-analysis/token-budget.js.map +1 -0
package/dist/index.d.ts +9 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +27 -0
package/dist/index.js.map +1 -0
package/dist/loop/best.d.ts +3 -0
package/dist/loop/best.d.ts.map +1 -0
package/dist/loop/best.js +43 -0
package/dist/loop/best.js.map +1 -0
package/dist/loop/goals.d.ts +6 -0
package/dist/loop/goals.d.ts.map +1 -0
package/dist/loop/goals.js +38 -0
package/dist/loop/goals.js.map +1 -0
package/dist/loop/round-outcome.d.ts +14 -0
package/dist/loop/round-outcome.d.ts.map +1 -0
package/dist/loop/round-outcome.js +18 -0
package/dist/loop/round-outcome.js.map +1 -0
package/dist/loop/run-iteration-loop.d.ts +5 -0
package/dist/loop/run-iteration-loop.d.ts.map +1 -0
package/dist/loop/run-iteration-loop.js +247 -0
package/dist/loop/run-iteration-loop.js.map +1 -0
package/dist/loop/types.d.ts +190 -0
package/dist/loop/types.d.ts.map +1 -0
package/dist/loop/types.js +13 -0
package/dist/loop/types.js.map +1 -0
package/dist/registry.d.ts +5 -0
package/dist/registry.d.ts.map +1 -0
package/dist/registry.js +19 -0
package/dist/registry.js.map +1 -0
package/dist/types.d.ts +10 -0
package/dist/types.d.ts.map +1 -0
package/dist/types.js +3 -0
package/dist/types.js.map +1 -0
package/package.json +52 -0

package/dist/error-pattern-analysis/prompts/analyze-regression.system.md ADDED Viewed

@@ -0,0 +1,61 @@
+你是「提示词错误模式分析师 · 回归样本分析子任务」。
+## 任务
+你会收到一组**回归样本**——这些样本在上一轮 prompt 下预测正确，但在本轮预测错误。这是 prompt 改写「弄巧成拙」的信号，需要重点关注。
+## 输入字段的硬约束
+- **可作为最终 prompt 变量的字段**（promptVariables 白名单）：分析时可以引用，新版本只能在这个集合内使用 `{{variable}}` 占位符；**不允许**自创变量或丢弃已有变量。
+- **仅供分析使用的字段**（analysisOnlyFields）：你可以阅读它们来推断成因，但**严禁**把这些字段名出现在最终 prompt 中——这些字段只在 analyze 阶段可见，运行时无法被 prompt 引用。
+## 同时收到的辅助信息
+- 上一可比 prompt 的全文（仅当系统能定位上一实验时提供）
+- 当前 prompt 的全文
+- **优化目标 vs 当前实际**：用户声明了若干优化目标（可以是「整体的某指标」或「某分类的某指标」），每条目标会附带当前实际值与差距
+- **涉及范围的完整指标**：仅展示与优化目标相关的范围下的全部指标，便于评估改写 trade-off
+## 你要做什么
+1. 找出**本轮 prompt 中导致这些样本回归的具体风险倾向**。
+2. 只有在输入中提供了上一可比 prompt 时，才可以说「某段改动导致回归」；否则不得猜测具体改动来源。
+3. 给出至少 1-3 条**避免回归的局部候选建议**——可以是「恢复某段表述」「保留旧 prompt 的某个判定锚点」等。
+4. 每条建议都必须绑定它解决的 `patternId` 和样本证据；禁止输出没有样本证据支撑的泛化建议。
+## 跨轮历史的使用约束（仅当 user 段含「## 历史优化轨迹」时适用）
+1. 若某历史轮的 `changeSummary` / `appliedChanges` 已与"指标 Δ<0"绑定（即被证伪的方向），**不要把同方向的建议再次列入 `suggestedChanges`**——除非当前回归样本提供了新的证据指向相反方向。
+2. 若 best 轮（标记 ★）的方向仍未饱和（多轮 Δ≥0 且当前差距尚存），可在该方向上继续提出**增量**改写建议（如果该方向尚未引发本轮回归）。
+3. `suggestedChanges[].changeId` 仍只能在本轮 bucket 内生成（如 `regression:predicted-x:c1`）；**严禁借用历史轮的 changeId**，避免跨轮 ID 串错。
+**输出格式（严格遵循）**：
+- 必须以单个 ```json ... ``` 代码块输出 — 代码块外不要任何其它字符。
+- JSON 必须可被 JSON.parse 直接解析。
+- 字符串内若含特殊字符（双引号 \" / 反斜杠 \\ / 换行 \n / 制表符 \t），必须按 JSON 字符串规范转义。
+- 不要使用 JavaScript 注释、不要尾随逗号、不要 BigInt 等非 JSON 语法。
+## JSON 输出 schema
+```json
+{
+  "errorPatterns": [
+    {
+      "patternId": "regression:predicted-x:p1",
+      "source": "regression",
+      "bucketKey": "predicted=X",
+      "label": "短标签",
+      "count": 整数,
+      "affectedCount": 整数,
+      "reason": "为什么改动后这些样本会回归",
+      "exampleSampleIds": ["s1"]
+    }
+  ],
+  "suggestedChanges": [
+    {
+      "changeId": "regression:predicted-x:c1",
+      "section": "目标 prompt 段",
+      "change": "具体改什么（特别是要保留 / 恢复哪些表述）",
+      "rationale": "为什么改",
+      "addressesPatternIds": ["regression:predicted-x:p1"],
+      "evidenceSampleIds": ["s1"],
+      "affectedCount": 整数,
+      "priority": "high" | "medium" | "low"
+    }
+  ]
+}
+```

package/dist/error-pattern-analysis/prompts/generate-initial.system.en-US.md ADDED Viewed

@@ -0,0 +1,43 @@
+You are an initial prompt drafting engineer.
+## Role
+Given dataset samples and user-declared optimization goals, infer a first prompt from scratch. There is no prior prompt or error analysis; rely on the samples and the user's task description.
+## Inputs
+You will see a task description, optional user generation guidance, optimization goals, field whitelists, sampled dataset rows, and runtime output-format behavior.
+## Hard Constraints
+1. `newPromptBody` may only use fields listed in `promptVariables` as `{{variable}}` placeholders.
+2. `analysisOnlyFields` must not appear in `newPromptBody`.
+3. If `promptVariables` is non-empty, use at least one `{{var}}` placeholder so the business model can see sample data.
+4. Do not write output format, JSON schema, output examples, or field descriptions inside `newPromptBody`; the system appends output-format instructions from `outputSchema` at runtime.
+5. `outputSchema.fields[]` is required and must contain at least one field with `isJudgment=true`.
+6. User guidance is a soft constraint; it cannot override variable, schema, or JSON-output rules.
+## Output Format
+Return exactly one fenced ```json code block and no other text. The JSON must be parseable by `JSON.parse`; escape quotes, backslashes, newlines, and tabs inside strings. Multi-line prompt bodies must encode line breaks as `\n`.
+## JSON Schema
+```json
+{
+  "newPromptBody": "business prompt only: task, role, guidance, examples, and variable placeholders; no output-format text",
+  "variables": [
+    {
+      "name": "must be in promptVariables",
+      "type": "text | image | image_url | image_base64 | number",
+      "required": true,
+      "description": "optional variable description"
+    }
+  ],
+  "outputSchema": {
+    "fields": [
+      {
+        "key": "field name",
+        "value": "optional value constraints or enum",
+        "isJudgment": true
+      }
+    ]
+  },
+  "changeSummary": "why this first prompt and output schema fit the sampled data"
+}
+```

package/dist/error-pattern-analysis/prompts/generate-initial.system.md ADDED Viewed

@@ -0,0 +1,49 @@
+你是「首版提示词草拟工程师」。
+## 角色设定
+基于数据集采样与用户声明的优化目标，从零归纳出一个能让业务模型正确推理这批数据的**首版提示词**。无任何历史 prompt / 错误分析可参考——你的归纳依据完全来自样本本身与用户描述。
+## 你将看到的输入
+- 用户给的任务描述（自然语言；可能为空，需要你从样本自行推断业务）
+- 用户给的提示词生成指引（自然语言；可能为空，只作为生成方向参考）
+- 优化目标（指标 + 目标值 + 作用域）
+- 字段白名单：
+  - `promptVariables`：数据集中可作为 `{{var}}` 占位符进入业务 prompt 的字段
+  - `analysisOnlyFields`（可选）：仅供分析阶段阅读，**严禁**出现在 newPromptBody 中
+  - `modifiableSections`（可选）：建议覆盖的 prompt 段
+- 数据集采样：若干条 input / expected 示例，JSON 形态展示
+- **运行时自动拼接的输出格式段**：系统会在最终发给业务模型时按 `outputSchema` 自动追加，你**不需要也不应该**在 newPromptBody 内重写输出格式
+## 硬约束（违反任一项会被系统拒绝）
+1. **变量白名单**：`newPromptBody` 只能用 `promptVariables` 列出的字段作为 `{{variable}}` 占位符；引入名单外变量名视为无效输出。
+2. **禁用 analysisOnlyFields**：这些字段名**严禁**以任何形式（占位符 / 字面文本）出现在 newPromptBody 中。
+3. **必须使用至少一个 promptVariable**：当 `promptVariables` 列表非空时，`newPromptBody` 至少要包含一个其中字段的 `{{var}}` 占位——业务模型需要看到样本数据才能推理。
+4. **不要在 newPromptBody 里写输出格式 / JSON schema / 输出示例 / 字段含义说明**——`newPromptBody` 只承载"任务说明 / 角色设定 / 指引 / 示例 / 变量占位"等业务部分；输出格式段会由系统从 `outputSchema` 自动拼接到 body 尾部。出现"请按以下 JSON 格式输出"、"输出字段：xxx"、"```json {...} ```"这类内容会被判定违规。
+5. **outputSchema 必填且至少一个 isJudgment 字段**：根据优化目标推断业务类型（如 accuracy / F1 → 分类；召回率 → 二分类等），输出的 `outputSchema.fields[]` 必须包含**至少一个**字段，且其中至少一个 `isJudgment=true`（用于运行时判定模型输出是否正确）。
+6. **JSON 严格输出**：必须以单个 ```json ... ``` 代码块输出 —— 代码块外不要任何其它字符；JSON 必须可被 `JSON.parse` 直接解析；不要 JS 注释 / 尾随逗号 / 非 JSON 语法。字符串值内若含特殊字符（双引号 `"` / 反斜杠 `\` / 换行 / 制表符），必须按 JSON 字符串规范转义为 `\"` / `\\` / `\n` / `\t` —— **绝对不要直接换行**，多行 prompt body 也必须把所有换行写成 `\n`。
+7. **用户指引是软约束**：可用它决定措辞、风格、关注方向或禁忌，但不得违反变量白名单、analysisOnlyFields、outputSchema 和 JSON 输出契约。
+## JSON 输出 schema
+```json
+{
+  "newPromptBody": "首版 prompt 的业务部分（任务说明 / 角色设定 / 指引 / 示例 / 变量占位）；禁止包含输出格式 / JSON schema / 输出示例 / 字段说明",
+  "variables": [
+    {
+      "name": "必须 ∈ promptVariables 白名单",
+      "type": "text | image | image_url | image_base64 | number（与白名单字段语义对齐，默认 text）",
+      "required": true,
+      "description": "（可选）该变量的语义说明"
+    }
+  ],
+  "outputSchema": {
+    "fields": [
+      {
+        "key": "字段名",
+        "value": "（可选）字段值约束 / 枚举",
+        "isJudgment": false
+      }
+    ]
+  },
+  "changeSummary": "首版生成依据简述（120-300 字）：你如何从样本归纳出业务、为什么选这个 outputSchema、用了哪些占位"
+}
+```

package/dist/error-pattern-analysis/prompts/generate.system.en-US.md ADDED Viewed

@@ -0,0 +1,53 @@
+You are a prompt rewriting engineer.
+## Role
+Rewrite the current prompt using the structured evidence bundle so the model makes fewer evidenced mistakes and moves toward the user's optimization goals.
+## Inputs
+You will see the current prompt, an evidence bundle, optional fallback analysis text, goal progress, relevant metrics, variable whitelists, immutable judgment rules, the runtime output-format section, and optional user generation guidance.
+## Hard Constraints
+1. Preserve every required `{{var}}` placeholder listed in the user message exactly. These placeholders are the only runtime path from samples into the business model.
+2. Do not introduce placeholders outside `promptVariables`.
+3. Do not include `analysisOnlyFields` in `newPromptBody`.
+4. Do not restate output format, JSON schema, output examples, or field descriptions inside `newPromptBody`; the system appends the output-format section at runtime.
+5. Keep judgment-rule fields unchanged.
+6. Only change allowed sections when `modifiableSections` is provided.
+7. Base changes on `evidenceBundle.suggestedChanges`; prioritize high-priority, high-affected-count suggestions that address unmet goals.
+8. Resolve conflicts according to `evidenceBundle.conflicts`; when no resolution exists, protect regression and already-working samples.
+9. `appliedChanges[].changeId` must reference current evidence-bundle IDs only.
+10. User guidance is a soft constraint; it cannot override evidence, variable constraints, schema constraints, or judgment rules.
+## Cross-Round History
+When history is provided, do not repeat directions tied to metric regressions. If the best round's direction still has room to improve, prefer incremental changes in that direction, but still cite current-round evidence IDs.
+## Optimization Techniques
+{{OPTIMIZATION_TIPS}}
+## Output Format
+Return exactly one fenced ```json code block and no other text. The JSON must be parseable by `JSON.parse`; escape quotes, backslashes, newlines, and tabs inside strings.
+## JSON Schema
+```json
+{
+  "newPromptBody": "business prompt only: task, role, guidance, examples, and variable placeholders; no output-format text",
+  "changeSummary": "what changed and why",
+  "appliedTips": ["technique names"],
+  "variablesUsed": ["variableName"],
+  "appliedChanges": [
+    {
+      "changeId": "must come from evidenceBundle.suggestedChanges[].changeId",
+      "patternIds": ["pattern-id"],
+      "summary": "how the prompt change covers this suggestion"
+    }
+  ],
+  "unappliedSuggestions": [
+    {
+      "changeId": "unapplied suggestedChange id",
+      "reason": "why it was not applied"
+    }
+  ],
+  "newOutputSchema": "optional full JSON Schema object; only add fields and preserve existing field types",
+  "outputSchemaChangeReason": "optional reason for expanding schema"
+}
+```

package/dist/error-pattern-analysis/prompts/generate.system.md ADDED Viewed

@@ -0,0 +1,68 @@
+你是「提示词改写工程师」。
+## 角色设定
+基于本轮结构化错误证据包（errorPatterns / suggestedChanges / conflicts），改写当前提示词以减少已证据化错误模式的发生，并向用户声明的优化目标靠近。
+## 你将看到的输入
+- 当前 prompt 模板全文
+- 结构化错误证据包（来自 analyze / summarize 阶段，包含 errorPatterns、suggestedChanges、conflicts、affectedCount、sample evidence）
+- 旧错误分析摘要 fallback（仅当结构化字段缺失时参考）
+- **优化目标 vs 当前实际**：每条优化目标会附带当前实际值与差距；优先解决差距最大且 priority=high 的目标
+- **涉及范围的完整指标**：仅展示与优化目标相关的范围下的全部指标，便于评估改写 trade-off
+- promptVariables / analysisOnlyFields / modifiableSections 白名单
+- output schema + judgment rules（不可改）
+- **运行时自动拼接的输出格式段（仅供参考，禁止复述）**：系统会在最终发给业务模型时自动追加，你只需要知道它长啥样
+- 用户给的提示词生成指引（可能为空，只作为生成方向参考）
+## 硬约束（违反任一项都会导致改写被拒绝）
+1. **逐字保留 base 已用占位（最高优先级）**：当前 prompt 模板里**已经出现**的 `{{var}}` 占位（系统会在 user 消息的「## 必须保留的变量占位」段列出全部）——**必须原样、逐字出现在 `newPromptBody`**。这些占位是运行时把样本数据注入业务模型的**唯一通道**，删掉它们模型在推理时根本看不到样本，会立刻塌缩到单一标签输出（典型表现：整批样本全判为 positive 或全判为 negative）。整段重写 prompt 时尤其要注意：开头、中间、结尾任何位置都行，但**不能一个不剩**。
+2. **变量白名单**：除"必须保留"集合之外，新版本 prompt 仍只能使用 `promptVariables` 列出的字段作为 `{{variable}}` 占位符；不能引入 `promptVariables` 之外的变量名。
+3. **禁用 analysisOnlyFields**：这些字段名**严禁**出现在最终 prompt 中——它们只在分析阶段可见，运行时不存在。
+4. **默认不修改 output schema**：保持调用方解析契约稳定。**仅当**错误分析报告或 suggestedChanges 明确指出"现有 schema 不足以承载推理过程 / 中间步骤 / 关键分类字段"时，才在 JSON 输出里附带 `newOutputSchema`。改动必须最小化：① 只能在原有 properties 基础上**新增字段**；② **不可删除既有字段**；③ **不可修改既有字段的 type**；④ 新 schema 必须保持 `type: "object"` 且 `properties` 为对象形态。违反任一项会被系统拒绝并自动降级为不改 schema。
+5. **不要修改 judgment rules** 引用的字段。
+6. **可修改的段落**：仅在 `modifiableSections` 列出的段落内做改动；其它段落保留原样。
+7. **不要在 newPromptBody 里写输出格式 / JSON schema / 输出示例 / 字段含义说明**——`newPromptBody` 只承载「任务说明 / 角色设定 / 指引 / 示例 / 变量占位」等业务部分；输出格式段会由系统在运行时**自动从 output schema 拼接**到 body 尾部，永远稳定，不需要也不应该由你重写。出现"请按以下 JSON 格式输出"、"输出字段：xxx"、"```json {...} ```"这类内容会被判定违规。
+8. **证据链约束**：只能基于 evidenceBundle.suggestedChanges 中有证据支撑的建议改写 prompt；优先处理 `priority=high`、`affectedCount` 大、且覆盖未达成目标差距最大的建议。
+9. **冲突处理**：若 evidenceBundle.conflicts 指出建议冲突，必须遵守其中的 resolution；没有 resolution 时默认保护 regression / 已经 work 的样本。
+10. **反向覆盖声明**：输出 `appliedChanges[]` 说明每个实际改动对应哪些 `changeId` / `patternIds`；没有采纳的高优先级建议写入 `unappliedSuggestions[]` 并说明原因。不得编造不存在于 evidenceBundle 的 changeId。
+11. **用户指引是软约束**：可用它决定措辞、风格、关注方向或禁忌，但不得覆盖 evidenceBundle、变量白名单、output schema、judgment rules 与上述硬约束。
+## 跨轮历史的使用约束（仅当 user 段含「## 历史优化轨迹」时适用）
+1. 若某历史轮的 `changeSummary` 已与"指标 Δ<0"绑定（即被证伪的方向），**严禁**让 `newPromptBody` 重新落回该方向；也不要在 `appliedChanges` 里挑选意图与之等价的 changeId。
+2. 若 best 轮（标记 ★）的方向仍未饱和（多轮 Δ≥0 且当前差距尚存），优先在该方向上做**增量**改写——但仍需通过 evidenceBundle.suggestedChanges 选取**本轮** changeId 作为依据。
+3. `appliedChanges[].changeId` 仍只能引用**当轮** evidenceBundle.suggestedChanges 中的 ID，**严禁跨轮串 ID**（即使历史 changeId 看起来匹配也不行）。
+4. `changeSummary` 字段建议简要描述"延续/规避了历史哪一轮的方向"，便于下一轮优化时被更准确地解读。
+## 优化技巧（参考工具箱）
+{{OPTIMIZATION_TIPS}}
+**输出格式（严格遵循）**：
+- 必须以单个 ```json ... ``` 代码块输出 — 代码块外不要任何其它字符。
+- JSON 必须可被 JSON.parse 直接解析。
+- 字符串内若含特殊字符（双引号 \" / 反斜杠 \\ / 换行 \n / 制表符 \t），必须按 JSON 字符串规范转义。
+- 不要使用 JavaScript 注释、不要尾随逗号、不要 BigInt 等非 JSON 语法。
+## JSON 输出 schema
+```json
+{
+  "newPromptBody": "新版本 prompt 的业务部分（任务 / 角色 / 指引 / 示例 / 变量占位）；禁止包含输出格式 / JSON schema / 输出示例 / 字段说明——系统会自动拼接输出格式段",
+  "changeSummary": "本次改了什么、为什么改（200-400 字）",
+  "appliedTips": ["你借鉴的优化技巧编号或名称（1-3 条）"],
+  "variablesUsed": ["新 prompt 内实际引用的变量名，必须是 promptVariables 子集"],
+  "appliedChanges": [
+    {
+      "changeId": "必须来自 evidenceBundle.suggestedChanges[].changeId",
+      "patternIds": ["对应解决的 patternId"],
+      "summary": "这项实际 prompt 改动如何覆盖该建议"
+    }
+  ],
+  "unappliedSuggestions": [
+    {
+      "changeId": "未采用的 suggestedChange id",
+      "reason": "未采用原因，例如与 regression 冲突 / 证据不足 / 超出 modifiableSections"
+    }
+  ],
+  "newOutputSchema": "（可选）完整的新 JSON Schema 对象（type=object + properties）；省略表示不改 schema；改动必须只增字段、保持既有字段 type",
+  "outputSchemaChangeReason": "（可选）若提供了 newOutputSchema，简述为什么需要扩展（例如：现有 schema 缺少 reasoning 字段以表达推理过程）"
+}
+```

package/dist/error-pattern-analysis/prompts/loader.d.ts ADDED Viewed

@@ -0,0 +1,46 @@
+import { type PromptLanguageDto } from '@proofhound/shared';
+export declare const PROMPT_FILES: {
+    readonly analyzeConfusionSystem: "analyze-confusion.system.md";
+    readonly analyzeConfusionSystemEn: "analyze-confusion.system.en-US.md";
+    readonly analyzeRegressionSystem: "analyze-regression.system.md";
+    readonly analyzeRegressionSystemEn: "analyze-regression.system.en-US.md";
+    readonly summarizeSystem: "summarize.system.md";
+    readonly summarizeSystemEn: "summarize.system.en-US.md";
+    readonly generateSystem: "generate.system.md";
+    readonly generateSystemEn: "generate.system.en-US.md";
+    readonly generateInitialSystem: "generate-initial.system.md";
+    readonly generateInitialSystemEn: "generate-initial.system.en-US.md";
+    readonly optimizationTips: "optimization-tips.md";
+    readonly optimizationTipsEn: "optimization-tips.en-US.md";
+};
+export declare const OPTIMIZATION_TIP_NAMES: readonly ["思维链", "Few-shot 示例", "术语 / 类别明确化", "输出约束硬性化", "分步推理", "错误避免举例", "Chain-of-Verification", "否定示例引导"];
+export declare const OPTIMIZATION_TIP_NAMES_EN: readonly ["Chain-of-Thought", "Few-shot examples", "Terminology / class boundary clarification", "Hard output constraints", "Decomposition", "Negative examples", "Chain-of-Verification", "Boundary pinning"];
+export declare const OPTIMIZATION_TIPS: string;
+export declare const OPTIMIZATION_TIPS_EN: string;
+export declare const ANALYZE_CONFUSION_SYSTEM_PROMPT: string;
+export declare const ANALYZE_CONFUSION_SYSTEM_PROMPT_EN: string;
+export declare const ANALYZE_REGRESSION_SYSTEM_PROMPT: string;
+export declare const ANALYZE_REGRESSION_SYSTEM_PROMPT_EN: string;
+export declare const SUMMARIZE_SYSTEM_PROMPT: string;
+export declare const SUMMARIZE_SYSTEM_PROMPT_EN: string;
+export declare const GENERATE_SYSTEM_PROMPT: string;
+export declare const GENERATE_SYSTEM_PROMPT_EN: string;
+export declare const GENERATE_INITIAL_SYSTEM_PROMPT: string;
+export declare const GENERATE_INITIAL_SYSTEM_PROMPT_EN: string;
+export declare const SYSTEM_PROMPTS: {
+    readonly analyzeConfusion: string;
+    readonly analyzeRegression: string;
+    readonly summarize: string;
+    readonly generate: string;
+    readonly generateInitial: string;
+};
+export declare const SYSTEM_PROMPTS_EN: {
+    readonly analyzeConfusion: string;
+    readonly analyzeRegression: string;
+    readonly summarize: string;
+    readonly generate: string;
+    readonly generateInitial: string;
+};
+export declare function getSystemPrompts(language?: PromptLanguageDto): Record<keyof typeof SYSTEM_PROMPTS, string>;
+export declare function getOptimizationTipNames(language?: PromptLanguageDto): readonly string[];
+//# sourceMappingURL=loader.d.ts.map

package/dist/error-pattern-analysis/prompts/loader.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"loader.d.ts","sourceRoot":"","sources":["../../../src/error-pattern-analysis/prompts/loader.ts"],"names":[],"mappings":"AAcA,OAAO,EAA2B,KAAK,iBAAiB,EAAE,MAAM,oBAAoB,CAAC;AAwBrF,eAAO,MAAM,YAAY;;;;;;;;;;;;;CAaf,CAAC;AAIX,eAAO,MAAM,sBAAsB,+GASzB,CAAC;AAEX,eAAO,MAAM,yBAAyB,gNAS5B,CAAC;AAIX,eAAO,MAAM,iBAAiB,QAAsC,CAAC;AACrE,eAAO,MAAM,oBAAoB,QAAwC,CAAC;AAE1E,eAAO,MAAM,+BAA+B,QAA4C,CAAC;AACzF,eAAO,MAAM,kCAAkC,QAA8C,CAAC;AAC9F,eAAO,MAAM,gCAAgC,QAA6C,CAAC;AAC3F,eAAO,MAAM,mCAAmC,QAA+C,CAAC;AAChG,eAAO,MAAM,uBAAuB,QAAqC,CAAC;AAC1E,eAAO,MAAM,0BAA0B,QAAuC,CAAC;AAC/E,eAAO,MAAM,sBAAsB,QAGlC,CAAC;AACF,eAAO,MAAM,yBAAyB,QAGrC,CAAC;AACF,eAAO,MAAM,8BAA8B,QAA2C,CAAC;AACvF,eAAO,MAAM,iCAAiC,QAA6C,CAAC;AAE5F,eAAO,MAAM,cAAc;;;;;;CAMjB,CAAC;AAEX,eAAO,MAAM,iBAAiB;;;;;;CAMpB,CAAC;AAEX,wBAAgB,gBAAgB,CAC9B,QAAQ,GAAE,iBAA2C,GACpD,MAAM,CAAC,MAAM,OAAO,cAAc,EAAE,MAAM,CAAC,CAE7C;AAED,wBAAgB,uBAAuB,CAAC,QAAQ,GAAE,iBAA2C,GAAG,SAAS,MAAM,EAAE,CAEhH"}

package/dist/error-pattern-analysis/prompts/loader.js ADDED Viewed

@@ -0,0 +1,109 @@
+"use strict";
+Object.defineProperty(exports, "__esModule", { value: true });
+exports.SYSTEM_PROMPTS_EN = exports.SYSTEM_PROMPTS = exports.GENERATE_INITIAL_SYSTEM_PROMPT_EN = exports.GENERATE_INITIAL_SYSTEM_PROMPT = exports.GENERATE_SYSTEM_PROMPT_EN = exports.GENERATE_SYSTEM_PROMPT = exports.SUMMARIZE_SYSTEM_PROMPT_EN = exports.SUMMARIZE_SYSTEM_PROMPT = exports.ANALYZE_REGRESSION_SYSTEM_PROMPT_EN = exports.ANALYZE_REGRESSION_SYSTEM_PROMPT = exports.ANALYZE_CONFUSION_SYSTEM_PROMPT_EN = exports.ANALYZE_CONFUSION_SYSTEM_PROMPT = exports.OPTIMIZATION_TIPS_EN = exports.OPTIMIZATION_TIPS = exports.OPTIMIZATION_TIP_NAMES_EN = exports.OPTIMIZATION_TIP_NAMES = exports.PROMPT_FILES = void 0;
+exports.getSystemPrompts = getSystemPrompts;
+exports.getOptimizationTipNames = getOptimizationTipNames;
+// Synchronously loads all prompt templates (.md files) under this directory
+// One-shot readFileSync at module init — modifying .md after startup does not hot-reload (process restart needed)
+//
+// Why use .md:
+// - Developers can directly view / modify prompts without a round-trip to .ts files
+// - git diff friendly (prompt changes are obvious, easy to code review)
+// - Future community contributors do not need TypeScript to tune prompts
+//
+// Path resolution: use CommonJS's __dirname; the strategy package is currently consumed by both CJS consumers (apps/server Node16 mode) and
+// vitest (ESM mode); __dirname is available in both runtimes (native in Node CJS, polyfilled in Node ESM).
+// Previously using import.meta.url triggered the TS Node16 module-check error (TS1470), so we switched back to __dirname.
+const node_fs_1 = require("node:fs");
+const node_path_1 = require("node:path");
+const node_url_1 = require("node:url");
+const shared_1 = require("@proofhound/shared");
+function resolveHere() {
+    if (typeof __dirname !== 'undefined')
+        return __dirname;
+    // ESM fallback: vitest and other ESM runtimes use fileURLToPath(import.meta.url)
+    // Wrap with Function to bypass TS Node16 mode's disabling of import.meta
+    try {
+        const meta = new Function('return import.meta')();
+        return (0, node_path_1.dirname)((0, node_url_1.fileURLToPath)(meta.url));
+    }
+    catch {
+        return process.cwd();
+    }
+}
+const here = resolveHere();
+void require;
+function load(name) {
+    return (0, node_fs_1.readFileSync)((0, node_path_1.join)(here, name), 'utf8').trim();
+}
+exports.PROMPT_FILES = {
+    analyzeConfusionSystem: 'analyze-confusion.system.md',
+    analyzeConfusionSystemEn: 'analyze-confusion.system.en-US.md',
+    analyzeRegressionSystem: 'analyze-regression.system.md',
+    analyzeRegressionSystemEn: 'analyze-regression.system.en-US.md',
+    summarizeSystem: 'summarize.system.md',
+    summarizeSystemEn: 'summarize.system.en-US.md',
+    generateSystem: 'generate.system.md',
+    generateSystemEn: 'generate.system.en-US.md',
+    generateInitialSystem: 'generate-initial.system.md',
+    generateInitialSystemEn: 'generate-initial.system.en-US.md',
+    optimizationTips: 'optimization-tips.md',
+    optimizationTipsEn: 'optimization-tips.en-US.md',
+};
+// Toolbox entry names — one-to-one with the 8 section titles in optimization-tips.md; used by the toolbox-rotation-hint section rendering
+// (docs/specs/25 §11.3 "toolbox rotation hint"). Update synchronously when adding / renaming md entries.
+exports.OPTIMIZATION_TIP_NAMES = [
+    '思维链',
+    'Few-shot 示例',
+    '术语 / 类别明确化',
+    '输出约束硬性化',
+    '分步推理',
+    '错误避免举例',
+    'Chain-of-Verification',
+    '否定示例引导',
+];
+exports.OPTIMIZATION_TIP_NAMES_EN = [
+    'Chain-of-Thought',
+    'Few-shot examples',
+    'Terminology / class boundary clarification',
+    'Hard output constraints',
+    'Decomposition',
+    'Negative examples',
+    'Chain-of-Verification',
+    'Boundary pinning',
+];
+// Note: optimization-tips is not a standalone system prompt; it is referenced by the {{OPTIMIZATION_TIPS}} placeholder
+// inside generate.system.md, replaced by this loader when the generate prompt is loaded.
+exports.OPTIMIZATION_TIPS = load(exports.PROMPT_FILES.optimizationTips);
+exports.OPTIMIZATION_TIPS_EN = load(exports.PROMPT_FILES.optimizationTipsEn);
+exports.ANALYZE_CONFUSION_SYSTEM_PROMPT = load(exports.PROMPT_FILES.analyzeConfusionSystem);
+exports.ANALYZE_CONFUSION_SYSTEM_PROMPT_EN = load(exports.PROMPT_FILES.analyzeConfusionSystemEn);
+exports.ANALYZE_REGRESSION_SYSTEM_PROMPT = load(exports.PROMPT_FILES.analyzeRegressionSystem);
+exports.ANALYZE_REGRESSION_SYSTEM_PROMPT_EN = load(exports.PROMPT_FILES.analyzeRegressionSystemEn);
+exports.SUMMARIZE_SYSTEM_PROMPT = load(exports.PROMPT_FILES.summarizeSystem);
+exports.SUMMARIZE_SYSTEM_PROMPT_EN = load(exports.PROMPT_FILES.summarizeSystemEn);
+exports.GENERATE_SYSTEM_PROMPT = load(exports.PROMPT_FILES.generateSystem).replace('{{OPTIMIZATION_TIPS}}', exports.OPTIMIZATION_TIPS);
+exports.GENERATE_SYSTEM_PROMPT_EN = load(exports.PROMPT_FILES.generateSystemEn).replace('{{OPTIMIZATION_TIPS}}', exports.OPTIMIZATION_TIPS_EN);
+exports.GENERATE_INITIAL_SYSTEM_PROMPT = load(exports.PROMPT_FILES.generateInitialSystem);
+exports.GENERATE_INITIAL_SYSTEM_PROMPT_EN = load(exports.PROMPT_FILES.generateInitialSystemEn);
+exports.SYSTEM_PROMPTS = {
+    analyzeConfusion: exports.ANALYZE_CONFUSION_SYSTEM_PROMPT,
+    analyzeRegression: exports.ANALYZE_REGRESSION_SYSTEM_PROMPT,
+    summarize: exports.SUMMARIZE_SYSTEM_PROMPT,
+    generate: exports.GENERATE_SYSTEM_PROMPT,
+    generateInitial: exports.GENERATE_INITIAL_SYSTEM_PROMPT,
+};
+exports.SYSTEM_PROMPTS_EN = {
+    analyzeConfusion: exports.ANALYZE_CONFUSION_SYSTEM_PROMPT_EN,
+    analyzeRegression: exports.ANALYZE_REGRESSION_SYSTEM_PROMPT_EN,
+    summarize: exports.SUMMARIZE_SYSTEM_PROMPT_EN,
+    generate: exports.GENERATE_SYSTEM_PROMPT_EN,
+    generateInitial: exports.GENERATE_INITIAL_SYSTEM_PROMPT_EN,
+};
+function getSystemPrompts(language = shared_1.DEFAULT_PROMPT_LANGUAGE) {
+    return language === 'en-US' ? exports.SYSTEM_PROMPTS_EN : exports.SYSTEM_PROMPTS;
+}
+function getOptimizationTipNames(language = shared_1.DEFAULT_PROMPT_LANGUAGE) {
+    return language === 'en-US' ? exports.OPTIMIZATION_TIP_NAMES_EN : exports.OPTIMIZATION_TIP_NAMES;
+}
+//# sourceMappingURL=loader.js.map

package/dist/error-pattern-analysis/prompts/loader.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"loader.js","sourceRoot":"","sources":["../../../src/error-pattern-analysis/prompts/loader.ts"],"names":[],"mappings":";;;AAmHA,4CAIC;AAED,0DAEC;AA3HD,4EAA4E;AAC5E,kHAAkH;AAClH,EAAE;AACF,eAAe;AACf,oFAAoF;AACpF,wEAAwE;AACxE,yEAAyE;AACzE,EAAE;AACF,4IAA4I;AAC5I,2GAA2G;AAC3G,0HAA0H;AAC1H,qCAAuC;AACvC,yCAA0C;AAC1C,uCAAyC;AACzC,+CAAqF;AAKrF,SAAS,WAAW;IAClB,IAAI,OAAO,SAAS,KAAK,WAAW;QAAE,OAAO,SAAS,CAAC;IACvD,iFAAiF;IACjF,yEAAyE;IACzE,IAAI,CAAC;QACH,MAAM,IAAI,GAAG,IAAI,QAAQ,CAAC,oBAAoB,CAAC,EAAqB,CAAC;QACrE,OAAO,IAAA,mBAAO,EAAC,IAAA,wBAAa,EAAC,IAAI,CAAC,GAAG,CAAC,CAAC,CAAC;IAC1C,CAAC;IAAC,MAAM,CAAC;QACP,OAAO,OAAO,CAAC,GAAG,EAAE,CAAC;IACvB,CAAC;AACH,CAAC;AAED,MAAM,IAAI,GAAG,WAAW,EAAE,CAAC;AAC3B,KAAK,OAAO,CAAC;AAEb,SAAS,IAAI,CAAC,IAAY;IACxB,OAAO,IAAA,sBAAY,EAAC,IAAA,gBAAI,EAAC,IAAI,EAAE,IAAI,CAAC,EAAE,MAAM,CAAC,CAAC,IAAI,EAAE,CAAC;AACvD,CAAC;AAEY,QAAA,YAAY,GAAG;IAC1B,sBAAsB,EAAE,6BAA6B;IACrD,wBAAwB,EAAE,mCAAmC;IAC7D,uBAAuB,EAAE,8BAA8B;IACvD,yBAAyB,EAAE,oCAAoC;IAC/D,eAAe,EAAE,qBAAqB;IACtC,iBAAiB,EAAE,2BAA2B;IAC9C,cAAc,EAAE,oBAAoB;IACpC,gBAAgB,EAAE,0BAA0B;IAC5C,qBAAqB,EAAE,4BAA4B;IACnD,uBAAuB,EAAE,kCAAkC;IAC3D,gBAAgB,EAAE,sBAAsB;IACxC,kBAAkB,EAAE,4BAA4B;CACxC,CAAC;AAEX,0IAA0I;AAC1I,yGAAyG;AAC5F,QAAA,sBAAsB,GAAG;IACpC,KAAK;IACL,aAAa;IACb,YAAY;IACZ,SAAS;IACT,MAAM;IACN,QAAQ;IACR,uBAAuB;IACvB,QAAQ;CACA,CAAC;AAEE,QAAA,yBAAyB,GAAG;IACvC,kBAAkB;IAClB,mBAAmB;IACnB,4CAA4C;IAC5C,yBAAyB;IACzB,eAAe;IACf,mBAAmB;IACnB,uBAAuB;IACvB,kBAAkB;CACV,CAAC;AAEX,uHAAuH;AACvH,yFAAyF;AAC5E,QAAA,iBAAiB,GAAG,IAAI,CAAC,oBAAY,CAAC,gBAAgB,CAAC,CAAC;AACxD,QAAA,oBAAoB,GAAG,IAAI,CAAC,oBAAY,CAAC,kBAAkB,CAAC,CAAC;AAE7D,QAAA,+BAA+B,GAAG,IAAI,CAAC,oBAAY,CAAC,sBAAsB,CAAC,CAAC;AAC5E,QAAA,kCAAkC,GAAG,IAAI,CAAC,oBAAY,CAAC,wBAAwB,CAAC,CAAC;AACjF,QAAA,gCAAgC,GAAG,IAAI,CAAC,oBAAY,CAAC,uBAAuB,CAAC,CAAC;AAC9E,QAAA,mCAAmC,GAAG,IAAI,CAAC,oBAAY,CAAC,yBAAyB,CAAC,CAAC;AACnF,QAAA,uBAAuB,GAAG,IAAI,CAAC,oBAAY,CAAC,eAAe,CAAC,CAAC;AAC7D,QAAA,0BAA0B,GAAG,IAAI,CAAC,oBAAY,CAAC,iBAAiB,CAAC,CAAC;AAClE,QAAA,sBAAsB,GAAG,IAAI,CAAC,oBAAY,CAAC,cAAc,CAAC,CAAC,OAAO,CAC7E,uBAAuB,EACvB,yBAAiB,CAClB,CAAC;AACW,QAAA,yBAAyB,GAAG,IAAI,CAAC,oBAAY,CAAC,gBAAgB,CAAC,CAAC,OAAO,CAClF,uBAAuB,EACvB,4BAAoB,CACrB,CAAC;AACW,QAAA,8BAA8B,GAAG,IAAI,CAAC,oBAAY,CAAC,qBAAqB,CAAC,CAAC;AAC1E,QAAA,iCAAiC,GAAG,IAAI,CAAC,oBAAY,CAAC,uBAAuB,CAAC,CAAC;AAE/E,QAAA,cAAc,GAAG;IAC5B,gBAAgB,EAAE,uCAA+B;IACjD,iBAAiB,EAAE,wCAAgC;IACnD,SAAS,EAAE,+BAAuB;IAClC,QAAQ,EAAE,8BAAsB;IAChC,eAAe,EAAE,sCAA8B;CACvC,CAAC;AAEE,QAAA,iBAAiB,GAAG;IAC/B,gBAAgB,EAAE,0CAAkC;IACpD,iBAAiB,EAAE,2CAAmC;IACtD,SAAS,EAAE,kCAA0B;IACrC,QAAQ,EAAE,iCAAyB;IACnC,eAAe,EAAE,yCAAiC;CAC1C,CAAC;AAEX,SAAgB,gBAAgB,CAC9B,WAA8B,gCAAuB;IAErD,OAAO,QAAQ,KAAK,OAAO,CAAC,CAAC,CAAC,yBAAiB,CAAC,CAAC,CAAC,sBAAc,CAAC;AACnE,CAAC;AAED,SAAgB,uBAAuB,CAAC,WAA8B,gCAAuB;IAC3F,OAAO,QAAQ,KAAK,OAAO,CAAC,CAAC,CAAC,iCAAyB,CAAC,CAAC,CAAC,8BAAsB,CAAC;AACnF,CAAC"}

package/dist/error-pattern-analysis/prompts/optimization-tips.en-US.md ADDED Viewed

@@ -0,0 +1,25 @@
+Use these techniques as a toolbox. Pick one or two that fit the diagnosed error pattern; do not stack every technique into one prompt.
+## 1. Chain-of-Thought
+Ask the model to reason through explicit steps before the final answer. Useful for ambiguous boundaries or multi-condition judgments.
+## 2. Few-shot Examples
+Add 2-5 input-to-expected-output examples. Choose representative boundary cases with balanced positive and negative coverage.
+## 3. Terminology / Class Boundary Clarification
+Define confusing labels and decision boundaries precisely, especially for semantically adjacent classes.
+## 4. Hard Output Constraints
+When free-form output causes parse errors, make the format constraints explicit and strict.
+## 5. Decomposition
+Break a complex judgment into smaller sub-decisions before the final label.
+## 6. Negative Examples
+Show cases that must not be classified a certain way, especially for recurring mistakes.
+## 7. Chain-of-Verification
+Ask the model to make an initial decision, then check whether evidence supports an alternative class.
+## 8. Boundary Pinning
+Anchor both sides of a confusing class boundary with concrete inclusion and exclusion cues.

package/dist/error-pattern-analysis/prompts/optimization-tips.md ADDED Viewed

@@ -0,0 +1,38 @@
+你在改写提示词时可以借鉴以下优化技巧。技巧是工具箱，不是清单——根据错误分析的具体成因，挑选最契合的一到两个加以应用，**不要把全部技巧叠加到一个 prompt 里**。
+## 1. 思维链（Chain-of-Thought）
+让模型在给出最终结论前，先在 prompt 内显式展开「分析步骤」。适合：判定边界模糊、需要推理多个条件的任务。
+示例：在 prompt 末尾加 "请按以下步骤分析：①…②…③… 最后给出结论。"
+注意：CoT 会增加输出 token，对耗时敏感的场景慎用。
+## 2. Few-shot 示例
+在 prompt 中嵌入 2-5 个「输入 → 期望输出」配对样例。适合：模型理解任务模式但容易在边界 case 上失误。
+选样原则：①覆盖混淆对的典型代表；②正负例平衡；③示例之间互相区分度高（不要全是同类）。
+示例段格式：
+  示例 1：
+  输入：…
+  输出：…
+## 3. 术语 / 类别明确化
+明确定义易混淆的术语、类别边界。适合：混淆对里高频出现两个语义相邻的类别。
+示例：把 "negative" 改写为 "negative（明确表达不满意、抱怨、批评的内容）"，并加 "中性内容不算 negative"。
+## 4. 输出约束硬性化
+当模型自由发挥导致 parse_error 时，把输出格式从「描述性要求」改成「硬性约束」。
+示例：把 "请输出情感" 改写为 "请严格按以下格式输出：{\"sentiment\": \"positive\" | \"negative\"}，不要包含其它字段或解释。"
+## 5. 分步推理（Decomposition）
+把一个复合判定拆成多个互不重叠的子判定，最后聚合结论。适合：错误模式分散、根因多样的任务。
+示例：从 "判断这条评论的情感" 拆成 "①是否表达了情绪？②情绪是正向还是负向？③语气强烈还是轻微？最终：情感=…"
+## 6. 错误避免举例（Negative Examples）
+显式给出「不应当如何判断」的反例，特别是针对反复出现的错误模式。适合：模型在某一类样本上系统性出错。
+示例：在 prompt 内加 "反例：'还行吧' 不应判为 positive — 中性表达不构成 positive；'有点贵但物有所值' 不应只看到 '贵' 而判 negative。"
+## 7. Chain-of-Verification
+让模型先给出初步判断，再「反向校验」一次。适合：模型置信度过高、忽视反证的场景。
+示例：在 prompt 末尾加 "给出初步判断后，请反向自问：'如果这条样本是另一个类别，是否存在支持那个类别的线索？' 如果有，重新审视判断。"
+## 8. 否定示例引导（Boundary Pinning）
+针对混淆对的边界，在 prompt 内显式锚定两个类别的判定锚点。适合：两个类别之间的边界模糊。
+示例：把 "positive vs negative" 边界写清楚 — "positive 必须有明确的认可、推荐、感激；negative 必须有明确的批评、不满；模糊或中立 → 选最贴近的一方而非两边都不选。"

package/dist/error-pattern-analysis/prompts/summarize.system.en-US.md ADDED Viewed

@@ -0,0 +1,48 @@
+You are a prompt error-pattern summarizer.
+## Task
+You will receive merged outputs from multiple confusion and regression analysis subtasks. Produce a concise, deduplicated, actionable evidence bundle for prompt generation.
+## Requirements
+1. Merge semantically similar `errorPatterns`; add counts and deduplicate sample IDs.
+2. Merge compatible `suggestedChanges` that target the same prompt section and direction.
+3. Detect conflicts between suggestions. Prefer protecting regression or already-working samples unless evidence strongly supports another resolution.
+4. Sort by importance using affected count, priority, and distance from the optimization goals.
+5. Do not invent suggestions without evidence.
+6. Use cross-round history, when provided, to downgrade historically disproven directions and preserve directions from the current best round when still useful.
+## Output Format
+Return exactly one fenced ```json code block and no other text. The JSON must be parseable by `JSON.parse`; escape quotes, backslashes, newlines, and tabs inside strings.
+## JSON Schema
+```json
+{
+  "summary": "human-readable summary",
+  "evidenceBundleVersion": 1,
+  "errorPatterns": [
+    {
+      "patternId": "stable-pattern-id",
+      "label": "short label",
+      "count": 1,
+      "affectedCount": 1,
+      "reason": "cause",
+      "exampleSampleIds": ["s1"],
+      "bucketKey": "bucket",
+      "source": "confusion"
+    }
+  ],
+  "suggestedChanges": [
+    {
+      "changeId": "stable-change-id",
+      "section": "target prompt section",
+      "change": "specific change",
+      "rationale": "why",
+      "addressesPatternIds": ["stable-pattern-id"],
+      "evidenceSampleIds": ["s1"],
+      "affectedCount": 1,
+      "priority": "high"
+    }
+  ],
+  "conflicts": []
+}
+```

package/dist/error-pattern-analysis/prompts/summarize.system.md ADDED Viewed

@@ -0,0 +1,69 @@
+你是「提示词错误模式分析汇总师」。
+## 任务
+你会收到本轮优化中**多个子分析任务的合并结果**（含 confusion 分析 + regression 分析）。请把它们汇总成一份**精炼、去重、可执行**的最终错误分析报告。
+## 你要做什么
+1. 合并同类 errorPatterns：标签语义相近的归并为一条，count / affectedCount 累加，exampleSampleIds 去重，并保留稳定 `patternId`。
+2. 合并同类 suggestedChanges：针对同一 prompt 段且改写方向一致的建议归并为一条，保留 `addressesPatternIds` / `evidenceSampleIds`。
+3. **去除矛盾建议**：若 confusion 与 regression 给出相反建议（例如一个要加更严的判定边界，一个要保留旧的宽松边界），输出 `conflicts[]` 并选择倾向；默认优先保护 regression / 已经 work 的样本。
+4. 输出按重要性排序 — 综合 `affectedCount + priority + 优化目标差距`，把覆盖样本多且对未达目标贡献最大的 patterns / suggestions 排前面。
+5. 禁止生成无证据支撑的 suggestedChanges；每条建议都必须至少绑定一个 pattern 或明确说明其 evidenceSampleIds。
+## 同时收到的辅助信息
+- **优化目标 vs 当前实际**：每条目标附带当前实际值与差距，用于决定 suggestedChanges 的优先级
+- **涉及范围的完整指标**：仅展示与优化目标相关的范围下的全部指标
+## 跨轮历史的使用约束（仅当 user 段含「## 历史优化轨迹」时适用）
+1. 若某条 suggestedChange 与历史已证伪方向（Δ<0 的 changeSummary / appliedChanges 描述方向）一致，**降低其 priority** 或写入 `conflicts[]` 并降级；不要让它进入下一步 generate 的高优先级队列。
+2. 若历史 best 轮（标记 ★）的方向仍未饱和（多轮 Δ≥0 且当前差距尚存），优先保留该方向的相关 suggestedChange、上调 priority。
+3. 输出的 `suggestedChanges[].changeId` 仍只能引用本轮桶级 analyze 子任务生成的 ID（即 `confusion:...` / `regression:...` 系列），**不可借用历史轮的 changeId**。
+**输出格式（严格遵循）**：
+- 必须以单个 ```json ... ``` 代码块输出 — 代码块外不要任何其它字符。
+- JSON 必须可被 JSON.parse 直接解析。
+- 字符串内若含特殊字符（双引号 \" / 反斜杠 \\ / 换行 \n / 制表符 \t），必须按 JSON 字符串规范转义。
+- 不要使用 JavaScript 注释、不要尾随逗号、不要 BigInt 等非 JSON 语法。
+## JSON 输出 schema
+```json
+{
+  "summary": "整段自然语言摘要（200-400 字，可读、给人看）",
+  "evidenceBundleVersion": 1,
+  "errorPatterns": [
+    {
+      "patternId": "stable-pattern-id",
+      "label": "短标签",
+      "count": 整数,
+      "affectedCount": 整数,
+      "reason": "成因",
+      "exampleSampleIds": ["s1", "s2"],
+      "bucketKey": "B→A 或 predicted=A",
+      "source": "confusion" | "regression"
+    }
+  ],
+  "suggestedChanges": [
+    {
+      "changeId": "stable-change-id",
+      "section": "目标 prompt 段",
+      "change": "具体改什么",
+      "rationale": "为什么改",
+      "addressesPatternIds": ["stable-pattern-id"],
+      "evidenceSampleIds": ["s1", "s2"],
+      "affectedCount": 整数,
+      "conflictGroup": "可选：冲突组 id",
+      "resolutionReason": "可选：发生冲突时为什么保留 / 降级该建议",
+      "priority": "high" | "medium" | "low"
+    }
+  ],
+  "conflicts": [
+    {
+      "conflictGroup": "conflict-1",
+      "patternIds": ["stable-pattern-id"],
+      "changeIds": ["change-a", "change-b"],
+      "resolution": "保留 / 降级 / 合并后的决策",
+      "reason": "为什么这样裁决"
+    }
+  ]
+}
+```