@peterwangze/claude-trigger-router 1.5.0 → 1.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/README.md CHANGED
@@ -11,11 +11,11 @@ Claude Trigger Router 是给 Claude Code 用的本地路由代理。
11
11
  - 想在 Claude Code 外层增加配置校验、健康检查、治理观测和 UI 工作台
12
12
  - 想从 `claude-code-router` 迁移到更清晰的 `Models + Router` 配置心智
13
13
 
14
- ## v1.5.0 发布定位
14
+ ## v1.6.0 发布定位
15
15
 
16
- `v1.5.0` 是入口基础功能稳定与易用性巩固版。它把 CTR 的发布重心从继续扩展能力切回用户每天会碰到的主路径:`setup` / `start` / `status` / `code` / `doctor` / `ui`、配置保存/修复/迁移、打包后真实用户流和 UI 基础交互看护。
16
+ `v1.6.0` 是多模型收益运营化版。它把已有 `ctr eval`、LLM judge、真实 trace outcome、quality evidence、task comparison `/ui` benchmark summary 连成一条更可运营的收益判断链路。
17
17
 
18
- 这个版本新增较短 packaged CLI entry smoke、UI DOM smoke、remote client / server deployment setup 代表性 slice,并让 E2E timeout 更容易诊断和清理。它不把 benchmark 历史看板、完整 server/cloud 托管平台或更复杂模型池策略纳入发布承诺。完整发布边界见 [docs/release-notes-v1.5.0.md](docs/release-notes-v1.5.0.md)。
18
+ 这个版本新增 benchmark history CLI/API/UI、人工校准 UI 表单、按核心路由场景重排的固定任务集,以及离线评测与真实 trace 的同屏解释口径。它不把完整 server/cloud 托管平台、主动模型池运营或 agent 平台化纳入发布承诺。完整发布边界见 [docs/release-notes-v1.6.0.md](docs/release-notes-v1.6.0.md)。
19
19
 
20
20
  ## 版本路线
21
21
 
@@ -24,7 +24,7 @@ Claude Trigger Router 是给 Claude Code 用的本地路由代理。
24
24
  - `v1.3.0`:基础路由常用体验,已收口 `Router.default` / `think` / `longContext` / `background` / `webSearch` 五槽位、doctor 诊断、UI 路由解释和 packaged smoke。
25
25
  - `v1.4.0`:SmartRouter 常用体验,已收口规则模板、候选模型配置向导、路由决策解释、切换体感摘要和配置路径级调优建议。
26
26
  - `v1.5.0`:入口基础功能稳定与易用性巩固,已补 packaged entry smoke、remote/server setup slice、UI DOM smoke 和配置保存安全线。
27
- - `v1.6.0`:多模型收益运营化,继续补 benchmark 历史看板、人工校准表单和评测/真实 trace 的统一解释。
27
+ - `v1.6.0`:多模型收益运营化,已补 benchmark history、人工校准 UI、核心路由场景任务集和评测/真实 trace 统一解释。
28
28
  - `v1.7.0`:服务化与模型池安全体验,继续补服务端安全默认值、密钥轮换手册、主动 pool health、成本/速率元数据和更多调度策略。
29
29
 
30
30
  完整版本计划见 [docs/superpowers/plans/2026-05-07-core-routing-version-plan.md](docs/superpowers/plans/2026-05-07-core-routing-version-plan.md)。
@@ -405,6 +405,7 @@ ctr eval --tasks
405
405
  ctr eval --input results.json
406
406
  ctr eval --run --models "sonnet;haiku"
407
407
  ctr eval --run --models "sonnet;haiku" --judge-model sonnet
408
+ ctr eval --history
408
409
  ```
409
410
 
410
411
  输入文件可以是数组,也可以是 `{ "results": [...] }`:
@@ -428,6 +429,16 @@ ctr eval --run --models "sonnet;haiku" --judge-model sonnet
428
429
 
429
430
  如果你已经有人工复核或外部 LLM 裁判结果,可以在输入里补 `humanScore` / `judgeScore`,范围是 `0..1`。报告会生成 calibration summary,并标出 deterministic rubric 与人工/裁判结果差异较大的任务,帮助维护者判断某个模型组合是否真的带来质量提升。
430
431
 
432
+ 如果想把多次评测变成可比较的历史趋势,给离线或自动评测追加 `--save-history`:
433
+
434
+ ```bash
435
+ ctr eval --input results.json --save-history --history-label baseline
436
+ ctr eval --run --models "sonnet;haiku" --save-history --history-label smart-router-candidates
437
+ ctr eval --history
438
+ ```
439
+
440
+ benchmark history 默认保存到 `~/.claude-trigger-router/benchmark-history.json`,只保存摘要、模型均分、best run 和趋势指标,不保存原始模型输出。需要放到别的位置时可以用 `--history-file path/to/history.json`。
441
+
431
442
  也可以让 CTR 自动调用一个裁判模型:
432
443
 
433
444
  ```bash
@@ -535,6 +546,7 @@ GET /api/auth/audit
535
546
  | `ctr eval --input results.json` | 离线固定任务集评测 |
536
547
  | `ctr eval --run --models "sonnet;haiku"` | 自动调用 CTR 后评测固定任务集 |
537
548
  | `ctr eval --run --models "sonnet;haiku" --judge-model sonnet` | 自动执行并追加 LLM 裁判校准 |
549
+ | `ctr eval --history` | 查看已保存 benchmark 历史趋势 |
538
550
  | `ctr ui` | 打开本地 UI 工作台 |
539
551
  | `ctr version` | 查看版本 |
540
552
  | `ctr upgrade` | 升级 |