@peterwangze/claude-trigger-router 1.4.0 → 1.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/README.md CHANGED
@@ -11,19 +11,21 @@ Claude Trigger Router 是给 Claude Code 用的本地路由代理。
11
11
  - 想在 Claude Code 外层增加配置校验、健康检查、治理观测和 UI 工作台
12
12
  - 想从 `claude-code-router` 迁移到更清晰的 `Models + Router` 配置心智
13
13
 
14
- ## v1.4.0 发布定位
14
+ ## v1.6.0 发布定位
15
15
 
16
- `v1.4.0` SmartRouter 常用体验版。它把 CTR 的智能路由从“有能力但需要理解内部机制”推进到“能复制模板、能配置候选、能看懂为什么选模、能发现切换割裂,并能按配置路径调优”。
16
+ `v1.6.0` 是多模型收益运营化版。它把已有 `ctr eval`、LLM judge、真实 trace outcome、quality evidence、task comparison 和 `/ui` benchmark summary 连成一条更可运营的收益判断链路。
17
17
 
18
- 这个版本的目标是让用户能把规则和候选模型稳定用于高频任务:`config/trigger.smart-router.yaml` 提供可复制起步模板,`/ui` 展示 SmartRouter 规则、候选、route decision switch continuity summary,health routing tuning 会把慢路由、错路由、上下文窗口和切换割裂转成 `configSuggestions`。它不把 benchmark 历史看板、完整 server/cloud 托管平台或更复杂模型池策略纳入发布承诺。完整发布边界见 [docs/release-notes-v1.4.0.md](docs/release-notes-v1.4.0.md)。
18
+ 这个版本新增 benchmark history CLI/API/UI、人工校准 UI 表单、按核心路由场景重排的固定任务集,以及离线评测与真实 trace 的同屏解释口径。它不把完整 server/cloud 托管平台、主动模型池运营或 agent 平台化纳入发布承诺。完整发布边界见 [docs/release-notes-v1.6.0.md](docs/release-notes-v1.6.0.md)。
19
19
 
20
20
  ## 版本路线
21
21
 
22
22
  从用户使用频率看,版本演进会优先回到最常用的基础路由和 SmartRouter 体验:
23
23
 
24
24
  - `v1.3.0`:基础路由常用体验,已收口 `Router.default` / `think` / `longContext` / `background` / `webSearch` 五槽位、doctor 诊断、UI 路由解释和 packaged smoke。
25
- - `v1.5.0`:多模型收益运营化,继续补 benchmark 历史看板、人工校准表单和评测/真实 trace 的统一解释。
26
- - `v1.6.0`:服务化与模型池安全体验,继续补服务端安全默认值、密钥轮换手册、主动 pool health、成本/速率元数据和更多调度策略。
25
+ - `v1.4.0`:SmartRouter 常用体验,已收口规则模板、候选模型配置向导、路由决策解释、切换体感摘要和配置路径级调优建议。
26
+ - `v1.5.0`:入口基础功能稳定与易用性巩固,已补 packaged entry smoke、remote/server setup slice、UI DOM smoke 和配置保存安全线。
27
+ - `v1.6.0`:多模型收益运营化,已补 benchmark history、人工校准 UI、核心路由场景任务集和评测/真实 trace 统一解释。
28
+ - `v1.7.0`:服务化与模型池安全体验,继续补服务端安全默认值、密钥轮换手册、主动 pool health、成本/速率元数据和更多调度策略。
27
29
 
28
30
  完整版本计划见 [docs/superpowers/plans/2026-05-07-core-routing-version-plan.md](docs/superpowers/plans/2026-05-07-core-routing-version-plan.md)。
29
31
 
@@ -403,6 +405,7 @@ ctr eval --tasks
403
405
  ctr eval --input results.json
404
406
  ctr eval --run --models "sonnet;haiku"
405
407
  ctr eval --run --models "sonnet;haiku" --judge-model sonnet
408
+ ctr eval --history
406
409
  ```
407
410
 
408
411
  输入文件可以是数组,也可以是 `{ "results": [...] }`:
@@ -426,6 +429,16 @@ ctr eval --run --models "sonnet;haiku" --judge-model sonnet
426
429
 
427
430
  如果你已经有人工复核或外部 LLM 裁判结果,可以在输入里补 `humanScore` / `judgeScore`,范围是 `0..1`。报告会生成 calibration summary,并标出 deterministic rubric 与人工/裁判结果差异较大的任务,帮助维护者判断某个模型组合是否真的带来质量提升。
428
431
 
432
+ 如果想把多次评测变成可比较的历史趋势,给离线或自动评测追加 `--save-history`:
433
+
434
+ ```bash
435
+ ctr eval --input results.json --save-history --history-label baseline
436
+ ctr eval --run --models "sonnet;haiku" --save-history --history-label smart-router-candidates
437
+ ctr eval --history
438
+ ```
439
+
440
+ benchmark history 默认保存到 `~/.claude-trigger-router/benchmark-history.json`,只保存摘要、模型均分、best run 和趋势指标,不保存原始模型输出。需要放到别的位置时可以用 `--history-file path/to/history.json`。
441
+
429
442
  也可以让 CTR 自动调用一个裁判模型:
430
443
 
431
444
  ```bash
@@ -533,6 +546,7 @@ GET /api/auth/audit
533
546
  | `ctr eval --input results.json` | 离线固定任务集评测 |
534
547
  | `ctr eval --run --models "sonnet;haiku"` | 自动调用 CTR 后评测固定任务集 |
535
548
  | `ctr eval --run --models "sonnet;haiku" --judge-model sonnet` | 自动执行并追加 LLM 裁判校准 |
549
+ | `ctr eval --history` | 查看已保存 benchmark 历史趋势 |
536
550
  | `ctr ui` | 打开本地 UI 工作台 |
537
551
  | `ctr version` | 查看版本 |
538
552
  | `ctr upgrade` | 升级 |