npm - @mcptoolshop/research-os - Versions diffs - 0.3.3 → 0.5.0 - Mend

@mcptoolshop/research-os 0.3.3 → 0.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

package/CHANGELOG.md +210 -0
package/README.es.md +26 -1
package/README.fr.md +30 -5
package/README.hi.md +45 -5
package/README.it.md +26 -1
package/README.ja.md +30 -5
package/README.md +39 -1
package/README.pt-BR.md +26 -1
package/README.zh.md +26 -1
package/dist/calibration/aggregate-receipt-schema.d.ts +509 -0
package/dist/calibration/aggregate-receipt-schema.js +143 -0
package/dist/calibration/aggregate-receipt-schema.js.map +1 -0
package/dist/calibration/aggregate.d.ts +35 -0
package/dist/calibration/aggregate.js +454 -0
package/dist/calibration/aggregate.js.map +1 -0
package/dist/calibration/receipt-schema.d.ts +317 -0
package/dist/calibration/receipt-schema.js +68 -0
package/dist/calibration/receipt-schema.js.map +1 -0
package/dist/calibration/receipt.d.ts +31 -0
package/dist/calibration/receipt.js +151 -0
package/dist/calibration/receipt.js.map +1 -0
package/dist/cli.js +1957 -1253
package/dist/cli.js.map +1 -1
package/dist/index.d.ts +140 -4
package/dist/index.js +1499 -1168
package/dist/index.js.map +1 -1
package/package.json +1 -1

package/CHANGELOG.md CHANGED Viewed

@@ -2,6 +2,216 @@
 All notable changes to `research-os` are documented here.
+## [0.5.0] — 2026-05-10 — reviewer calibration as durable trust contract
+### F-50 stabilization (Session 5)
+- **Multi-run calibration:** `--runs <n>` flag on the calibration harness. Per-run
+  receipts persist under `<profile>/runs/run-NNN.json`; aggregate receipts at
+  `<profile>/seeded-v1.{json,md}` use median-based PASS/FAIL rules.
+- **Median aggregation rules:** FP ceiling (median ≤1 AND max ≤2), any-flag
+  recall (median ≥65%), per-category any-flag (median ≥50% per category with
+  total ≥2), strict recall (median ≥20%), decision vocab (architecture-aware
+  median ≥3 for two-pass / ≥4 for single-pass), latency hard (every run ≤20 min,
+  enforced via max), empty/malformed (every run =0, enforced via max).
+- **Recurring-failure demotion:** a profile passes median rules but FAILed the
+  same bar in ≥⌈N/2⌉ individual runs → demoted from `trusted_baseline` to
+  `conditional_pass`. Prevents one lucky median from masking systemic bar weakness.
+- **Single-run mode preserved:** harness without `--runs` (or `--runs 1`) writes
+  the existing single-run receipt directly. `comparison_only` profiles stay single-run.
+- **New source files:** `src/calibration/aggregate-receipt-schema.ts` (aggregate Zod schema
+  with `receipt_kind: 'aggregate'` discriminator) and `src/calibration/aggregate.ts`
+  (pure helpers: `median`, `aggregateMetric`, `aggregatePerCategoryRecall`,
+  `aggregateDecisionVocabulary`, `computeAggregatePassFail`, `computeRecurringBarFailures`,
+  `computeAggregateStatusLabel`, `aggregateReceipts`, `buildAggregateReceiptMarkdown`).
+### Frictions closed (Session 5)
+- **F-50** — Per-category any-flag floor was statistically unreliable at N=2–3
+  seeds per category (one missed claim drops a category from 67% to 33%). Median
+  aggregation across 3 runs absorbs single-run variance without lowering the bar.
+### Canonical receipt statuses (Session 5)
+- `hermes-two-pass` (aggregate, 3 runs): **`failed`** — escalation. Run 1 PASS (FP=0,
+  any-flag=85%, decisions=3/6); runs 2–3 FAIL (any-flag 62%/46%, decisions=2/6).
+  Recurring failures: `any_flag_recall_floor`, `per_category_any_flag_floor`,
+  `decision_vocab_completeness`. Thesis NOT proven at N=3. Advisor decides path.
+- `mistral-nemo-two-pass` (aggregate, 3 runs): **`conditional_pass`** — aggregate PASS
+  (median FP=1, max=2 at ceiling; median any-flag=69%; no recurring failures).
+  Run 1 FAIL (FP=2/5); runs 2–3 PASS.
+- `hermes-single-pass` (single-run): **`comparison_only`** — auto-assigned.
+v0.5.0 makes reviewer calibration durable. A reviewer profile is not trusted because
+it ran once; it earns a status through structured seeded-failure receipts and
+multi-run aggregation.
+**Product guardrail:** research-os can now refuse to trust a reviewer profile when
+repeated seeded failures do not support trust.
+**No trusted baseline admitted.** The three canonical receipts shipped with v0.5.0:
+| Profile | Status | Notes |
+|---|---|---|
+| `hermes-two-pass` | `failed` | Aggregate, 3 runs. Recurring failures: any-flag recall, per-category floor, decision vocab. |
+| `mistral-nemo-two-pass` | `conditional_pass` | Aggregate, 3 runs. FP at ceiling (median=1/max=2); no recurring failures. |
+| `hermes-single-pass` | `comparison_only` | Auto-assigned; architectural comparison only. |
+`trusted_baseline` is earned, not assumed. Single-run receipts remain available for quick
+local checks; aggregate receipts (3+ runs, median-based bars) are the trust artifact.
+### Added
+- **`profile?: string`** optional field on `ClaimReviewSchema`. Per-claim review
+  records can now carry the profile name that produced them. Existing records
+  without `profile` parse cleanly.
+- **Structured calibration receipts** at `calibration/reviewer-profiles/<profile>/seeded-v1.{json,md}`.
+  Zod-validated JSON + operator-readable Markdown sibling. `schema_version: 1`.
+- **`research-os` source `--profile <name>` flag** on `scripts/reviewer-calibration.mjs`.
+  Drives output path and persists profile name on claim-review records.
+- **Architecture-aware decision-vocabulary bar:** single-pass ≥ 4/6 decisions;
+  two-pass ≥ 3/6 decisions. Two-pass acknowledges that `narrow_critic` severity
+  escalation collapses the `needs_human_review` path.
+- **Four status labels:** `trusted_baseline`, `conditional_pass`, `failed`,
+  `comparison_only`. `trusted_baseline` requires the canonical Hermes two-pass
+  profile + all bars pass + zero false positives.
+- **`review-promote` receipt lookup is now pack-relative** — reads from
+  `<pack>/calibration/reviewer-profiles/<profile>/seeded-v1.json`, not
+  `process.cwd()`. Operators running `review-promote --pack <non-cwd-pack>`
+  now correctly resolve the receipt from the specified pack.
+- **`review-promote` fails visibly on invalid receipts.** Previously a malformed
+  receipt was silently skipped; now any schema mismatch or JSON parse failure
+  throws `Invalid calibration receipt at <path>: <reason>`. Missing receipts
+  remain a no-op.
+- **Three canonical receipts shipped:** `hermes-two-pass`, `mistral-nemo-two-pass`,
+  `hermes-single-pass` — all under `calibration/reviewer-profiles/<profile>/seeded-v1.{json,md}`.
+  These are the v0.5.0 proof artifacts. See Session 4 status note below.
+### Frictions closed
+- **F-48** — Structured calibration receipt persistence. The harness previously
+  wrote raw artifacts but no comparable receipt; recall metrics lived in
+  `console.log` only.
+- **F-49** — Decision-vocabulary bar was miscalibrated against two-pass
+  architecture. Bar is now architecture-aware.
+### Compatibility
+- All 4 frozen packs verify byte-identical against v0.3.3 baselines.
+- `ClaimReviewSchema.profile` is optional (Zod `.optional()`, no `.default()`).
+  Existing pack records parse cleanly. Frozen pack receipts unchanged.
+- No gate-law, freeze-law, or synthesis-law changes.
+### Out of scope
+- `seeded-v1` cannot test `needs_contradiction_mapping` (no `unmapped_contradiction`
+  seeded). The receipt's `unreachable_decisions` array discloses this honestly.
+  Fixture expansion deferred to v0.6.
+- `phi3:14b` calibration deferred to a later experiment.
+### Session 4 single-run evidence (context for F-50 investigation)
+The three canonical receipts initially committed in Session 4 reflect honest single-run
+evidence. `hermes-single-pass` produced `comparison_only` (auto-assigned). `hermes-two-pass`
+and `mistral-nemo-two-pass` both produced `failed` across two single-run attempts each,
+with high per-run variance:
+- `hermes-two-pass` run 1: `per_category_any_flag_floor FAIL` (valid_but_low_value 1/3);
+  run 2: `decision_vocab_completeness FAIL` (2/6 decisions produced).
+- `mistral-nemo-two-pass` run 1: `per_category_any_flag_floor FAIL` (unsupported_claim 1/3);
+  run 2: `fp_ceiling FAIL` (2/5 FP) + `per_category_any_flag_floor FAIL`.
+This per-run nondeterminism (1–2 claim variance per category at N=2–3 seeds) was the
+root cause of F-50. Session 5 resolved it via multi-run median aggregation. See
+"Canonical receipt statuses (Session 5)" above for the aggregate outcome. The initial
+Session 4 receipts were overwritten by the Session 5 aggregate re-runs.
+### Test surface
+- 620 → 646 tests in Session 3 (+26).
+- Session 4 adds 5 regression tests (646 → 651): pack-relative lookup,
+  cwd-irrelevance, invalid-receipt fail (×2), missing-receipt no-op.
+- Session 5 adds 20 aggregate-helper tests (651 → 671): median, aggregateMetric,
+  per-category aggregation, decision-vocab aggregation, PASS/FAIL bars,
+  recurring-failure demotion, status-label logic, aggregateReceipts round-trip.
+- **Cumulative (Experiments 4+5):** 570 → 671 tests (+101).
+## [0.4.0] — 2026-05-10 — source-truth discipline
+v0.4.0 makes source identity durable. Deterministic source-type rules
+handle the repeatable majority, override ledgers preserve operator
+corrections across re-gather, and `source-card audit` replaces
+scratch-script drift checks with a first-class CLI surface.
+### Component B — centralized source-type classifier
+- **`classifySourceType(url)`** — deterministic rule-based classifier
+  stored in `source-type-rules.json` (11 canonical vendor entries,
+  precedence-ordered). Returns `{ source_type, rule_hint, precedence_level }`.
+  The `rule_hint` field exposes flagged conditions (`flagged:github-ui-html`,
+  `flagged:*`) and the `no-rule-match` sentinel so callers can distinguish
+  extractor-typed from rule-typed cards.
+- **`CanonicalVendor` registry** — 11 vendors covering GitHub UI HTML,
+  arxiv.org, npm, PyPI, MDN, Apple developer docs, Microsoft docs,
+  Valve/Steam, Godot docs, GDExtension, and ReST-typed documentation sites.
+- **`classify-source` CLI subcommand** — `research-os classify-source <url>`
+  for interactive rule inspection.
+### Component A — source-card override ledger
+- **`source-card-overrides.jsonl`** — append-only ledger for operator
+  corrections to source-card fields (`new_source_type`, `new_publisher`,
+  `reason`). Lives at `evidence/source-card-overrides.jsonl` inside each pack.
+- **`validateSourceCardOverride`** — strict Zod schema validation for
+  override entries. Used by both the ledger writer and the audit apply path.
+- **`readOverrides` / `appendOverride`** — safe I/O helpers. `readOverrides`
+  returns `[]` when no ledger exists (missing-ledger is not an error).
+- **`getEffectiveSourceType` / `getEffectivePublisher`** — latest-wins
+  effective-view helpers; override ledger takes precedence over raw card fields.
+- **`source-card validate` / `source-card list` CLI subcommands** — inspect and
+  manage the ledger.
+### Component D — source-card audit CLI
+- **`research-os source-card audit --pack <dir>`** — read-only drift
+  inspection. Reads all source cards, re-runs the classifier per card,
+  assigns exactly one of 7 advisor-locked finding kinds
+  (`github_ui_html`, `classifier_flagged`, `source_type_mismatch`,
+  `publisher_mismatch`, `publisher_missing`, `override_applied`, `no_action`),
+  and writes `audits/source-card-audit.{json,md}`.
+- **`--json` flag** — prints the full JSON report to stdout.
+- **`--apply --from <file>` flag** — applies an operator-authored JSON array
+  of override entries. All-or-nothing validation (all entries validated via
+  `validateSourceCardOverride` before any write). Refuses frozen packs
+  (`audits/freeze-receipt.json` present) — read-only audit still allowed.
+- **7 finding kinds** — precedence-ordered:
+  `github_ui_html` → `classifier_flagged` → `source_type_mismatch` →
+  `publisher_mismatch` → `publisher_missing` → `override_applied` → `no_action`.
+  `source_type_mismatch` guards `rule_hint !== 'no-rule-match'` to prevent false
+  positives on extractor-typed cards. `publisher_mismatch` is forward-compatible
+  (cannot fire today — no publisher_hint in ClassificationResult).
+- **JSON report shape** — `schema_version: 1`, `pack_path`, `audited_at`,
+  `research_os_version`, `totals`, `findings`.
+- See the [source-card audit handbook page](https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/)
+  for the operator workflow.
+### Cosmetic
+- **F-46: pack manifests now stamp live binary version.** `pack publish`
+  manifest previously copied `research.research_os_version` — the version
+  frozen into `research.yaml` at pack-init time (was `0.1.0` for packs
+  created under older versions). Manifests now derive the version from the
+  live `RESEARCH_OS_VERSION` constant at publish time.
+### Compatibility
+- No gate, freeze, or synthesis-law changes.
+- All four frozen packs (`research-os-self-dogfood`,
+  `comfyui-workflow-durability`, `xrpl-creator-token-durability`,
+  `godot-export-runtime-durability`) verify-pack with byte-identical
+  receipt fingerprints under v0.4.0.
+- 570 → 620 vitest tests (50 new tests across Components A, B, D).
 ## [0.3.3] — 2026-05-10
 Tight release. **Gate-semantics clarity, not behavior change.** Two

package/README.es.md CHANGED Viewed

@@ -7,7 +7,7 @@
 </p>
 <p align="center">
-  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.3.3"><img src="https://img.shields.io/badge/version-0.3.3-blue" alt="version 0.3.3"></a>
+  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.5.0"><img src="https://img.shields.io/badge/version-0.5.0-blue" alt="version 0.5.0"></a>
   <a href="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml"><img src="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml/badge.svg" alt="CI"></a>
   <a href="LICENSE"><img src="https://img.shields.io/badge/license-MIT-green" alt="MIT License"></a>
   <img src="https://img.shields.io/badge/node-%E2%89%A520-brightgreen" alt="Node ≥20">
@@ -149,8 +149,33 @@ Esta es la alternativa estructural a *búsqueda → resumen → informe detallad
 `research-os` es una herramienta de línea de comandos que funciona principalmente de forma local. Lee y escribe archivos dentro del directorio del paquete de investigación al que se le indica, y (cuando se utiliza `gather`) realiza solicitudes HTTP salientes para obtener las URL de origen que se proporcionan. No: ejecuta un servidor, acepta conexiones entrantes, almacena credenciales ni envía datos de telemetría. No se escriben secretos en los artefactos del paquete. Consulte [SECURITY.md](SECURITY.md) para obtener la política de notificación de vulnerabilidades.
+## Calibración de revisores
+La versión v0.5.0 hace que la calibración de revisores sea más robusta. Un perfil de revisor no se considera confiable simplemente porque se ejecutó una vez; obtiene un estado a través de informes estructurados de fallos simulados y agregación de múltiples ejecuciones.
+**Actualmente, ningún perfil se considera como una "línea de base confiable".** Los informes canónicos en el repositorio muestran `hermes-two-pass=failed`, `mistral-nemo-two-pass=conditional_pass`, `hermes-single-pass=comparison_only`. Esto es intencional: la confianza se gana a través de evidencia repetida de fallos simulados, no se asume.
+Los informes de calibración se encuentran en `calibration/reviewer-profiles/<profile>/seeded-v1.{json,md}`. Cada informe registra los resultados de PASADO/FALLIDO en siete categorías, cuatro etiquetas de estado (`trusted_baseline`, `conditional_pass`, `failed`, `comparison_only`), y revela honestamente qué aspectos no puede probar la prueba (`needs_contradiction_mapping` no es accesible desde `seeded-v1`). Consulte [CHANGELOG.md](CHANGELOG.md).
+```bash
+# Single-run calibration (quick local check)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass
+# Multi-run aggregate calibration (canonical evidence — 3 runs, median-based PASS/FAIL)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass --runs 3
+# Promote a section's review — auto-populates calibration_summary from pack-relative receipt
+research-os review-promote 01-section --pack <pack> --profile hermes-two-pass
+```
+Cuando se utiliza `--runs <n>`, los informes de cada ejecución se escriben en `<profile>/runs/run-NNN.json` y se escribe un informe agregado (con barras basadas en la mediana y detección de fallos recurrentes) en `<profile>/seeded-v1.{json,md}`. El informe agregado incluye `receipt_kind: 'aggregate'` para distinguirlo de los informes de ejecución individual. El modo de ejecución individual (`--runs 1` o omitido) conserva el comportamiento de escritura directa existente.
 ## Estado
+**v0.5.0** — publicado en npm como `@mcptoolshop/research-os@0.5.0`, 10 de mayo de 2026. La versión v0.5.0 hace que la calibración de revisores sea más robusta. Un perfil de revisor no se considera confiable simplemente porque se ejecutó una vez; obtiene un estado a través de informes estructurados de fallos simulados y agregación de múltiples ejecuciones. Incluye: esquema de informe de calibración estructurado (`seeded-v1.{json,md}`, validado con Zod, cuatro etiquetas de estado); entorno de ejecución para múltiples ejecuciones (`--runs <n>`, aislamiento por ejecución, barras de PASADO/FALLIDO basadas en la mediana, degradación por fallos recurrentes); barra de vocabulario de decisiones consciente de la arquitectura; búsqueda de informes relativa al paquete en `review-promote`. **No se admite ninguna línea de base confiable:** `hermes-two-pass=failed` (agregado, 3 ejecuciones), `mistral-nemo-two-pass=conditional_pass`, `hermes-single-pass=comparison_only`. research-os ahora puede negarse a confiar en un perfil de revisor cuando los fallos simulados repetidos no respaldan la confianza. **No se realizan cambios en las puertas, la congelación o las leyes de síntesis. Los cuatro paquetes congelados existentes verifican la integridad de los bytes.** 671/671 pruebas de vitest superadas. Consulte [CHANGELOG.md](CHANGELOG.md).
+**v0.4.0** — publicado en npm como `@mcptoolshop/research-os@0.4.0`, 10 de mayo de 2026. La versión v0.4.0 hace que la identidad de la fuente sea más robusta. Las reglas deterministas del tipo de fuente gestionan la mayoría repetible, los registros de anulación preservan las correcciones del operador a través de la recolección, y la "auditoría de la tarjeta de origen" reemplaza las comprobaciones de deriva de scripts con una interfaz de línea de comandos de primera clase. Incluye: clasificador centralizado de tipo de fuente (Componente B — `classifySourceType`, 11 proveedores canónicos, `source-type-rules.json`); registro de anulación de la tarjeta de origen (Componente A — `source-card-overrides.jsonl`, subcomandos `validate` + `list`); y CLI de auditoría de la tarjeta de origen (Componente D — `research-os source-card audit --pack <dir>`, 7 tipos de hallazgos, artefactos JSON + Markdown, opciones `--apply --from` para aplicar la ruta). Corrección cosmética F-46: los manifiestos de los paquetes ahora imprimen la versión binaria en vivo en lugar de la versión congelada en `research.yaml` durante la inicialización del paquete. **No se realizan cambios en las puertas, la congelación o las leyes de síntesis. Los cuatro paquetes congelados existentes verifican la integridad de los bytes.** 620/620 pruebas de vitest superadas. Consulte [CHANGELOG.md](CHANGELOG.md) y la [página del manual de auditoría de la tarjeta de origen](https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/).
 **v0.3.3** — Publicada en npm como `@mcptoolshop/research-os@0.3.3`, 10 de mayo de 2026. Incluye mejoras en la claridad de la semántica de las "gates" obtenidas gracias a Pack-3 (durabilidad de la exportación/ejecución de Godot, Experimento 3, paquete #3 de 3). La salida de la "gate" ahora incluye el publicador y los conteos específicos de la sección, junto con los conteos generales del paquete (F-43); se ha reformulado `no_source_cluster_monopoly` de una advertencia a un diagnóstico informativo (F-41). **El comportamiento de aprobación/rechazo no ha cambiado; los paquetes congelados existentes se verifican byte a byte.** 570/570 pruebas de vitest superadas. Consulte [CHANGELOG.md](CHANGELOG.md) y [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md).
 **v0.3.2** — Publicada en npm como `@mcptoolshop/research-os@0.3.2`, 9 de mayo de 2026. Incluye una normalización de la contabilización de "accepted claims" que tiene en cuenta la admisión de `pack publish`. La estricta comparación de igualdad entre `claim-reviews.jsonl` y `pack-audit.json::accepted_claims` se ha reemplazado por una comparación de conjuntos efectivos: las "accepted claims" son identificadores únicos (`claim_id`) cuya última decisión de revisión canónica es "accepted_for_synthesis" (la última decisión prevalece por `claim_id`). Los paquetes congelados cuya cuenta de auditoría heredada difiere del conjunto efectivo ahora se admiten con una advertencia en lugar de ser rechazados; el archivo de auditoría heredado se conserva tal cual (Ley 15), mientras que el manifiesto del archivo refleja la cuenta normalizada. El rechazo sigue siendo absoluto para los identificadores de reclamación fantasma, las decisiones duplicadas incompatibles y las "gates" que no son elegibles para la síntesis. Obtenido gracias al Experimento 3, paquete XRPL, Sesión K: el "pack publish" fue rechazado debido a una discrepancia real en el registro de cierre (la Sección 07 tenía 24 filas "accepted_for_synthesis" pero solo 19 identificadores únicos (`claim_id`) debido a ventanas de revisión superpuestas). 558/558 pruebas de vitest superadas. Consulte [CHANGELOG.md](CHANGELOG.md) y [`docs/pack-publish.md`](docs/pack-publish.md).

package/README.fr.md CHANGED Viewed

@@ -7,7 +7,7 @@
 </p>
 <p align="center">
-  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.3.3"><img src="https://img.shields.io/badge/version-0.3.3-blue" alt="version 0.3.3"></a>
+  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.5.0"><img src="https://img.shields.io/badge/version-0.5.0-blue" alt="version 0.5.0"></a>
   <a href="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml"><img src="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml/badge.svg" alt="CI"></a>
   <a href="LICENSE"><img src="https://img.shields.io/badge/license-MIT-green" alt="MIT License"></a>
   <img src="https://img.shields.io/badge/node-%E2%89%A520-brightgreen" alt="Node ≥20">
@@ -149,9 +149,34 @@ Ceci est une alternative structurée à *recherche → résumé → rapport dét
 `research-os` est une interface en ligne de commande qui fonctionne localement. Elle lit et écrit des fichiers dans le répertoire de l'ensemble de données que vous lui spécifiez, et (lorsque vous utilisez la commande `gather`), elle effectue des requêtes HTTP sortantes pour récupérer les URL de sources que vous fournissez. Elle ne : ne fait pas fonctionner de serveur, n'accepte pas de connexions entrantes, ne stocke pas de mots de passe, ni n'envoie de données de télémétrie. Aucun mot de passe n'est écrit dans les fichiers de l'ensemble de données. Consultez le fichier [SECURITY.md](SECURITY.md) pour connaître la politique de signalement des vulnérabilités.
+## Calibrage des évaluateurs
+La version 0.5.0 rend le calibrage des évaluateurs plus fiable. Un profil d'évaluateur n'est pas considéré comme fiable simplement parce qu'il a été exécuté une fois ; il acquiert un statut grâce à des rapports structurés de défaillances simulées et à une agrégation de plusieurs exécutions.
+**Aucun profil n'est actuellement admis comme étant une "baseline de confiance".** Les rapports canoniques dans le dépôt indiquent `hermes-two-pass=échec`, `mistral-nemo-two-pass=succès conditionnel`, `hermes-single-pass=comparaison uniquement`. Ceci est intentionnel : la confiance est acquise grâce à des preuves répétées de défaillances simulées, et non supposée.
+Les rapports de calibrage se trouvent dans le répertoire `calibration/reviewer-profiles/<profil>/seeded-v1.{json,md`. Chaque rapport enregistre les résultats PASS/FAIL pour sept critères, quatre étiquettes de statut (`trusted_baseline`, `conditional_pass`, `failed`, `comparison_only`), et indique honnêtement ce que le test ne peut pas vérifier (`needs_contradiction_mapping` est inaccessible depuis `seeded-v1`). Consultez [CHANGELOG.md](CHANGELOG.md).
+```bash
+# Single-run calibration (quick local check)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass
+# Multi-run aggregate calibration (canonical evidence — 3 runs, median-based PASS/FAIL)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass --runs 3
+# Promote a section's review — auto-populates calibration_summary from pack-relative receipt
+research-os review-promote 01-section --pack <pack> --profile hermes-two-pass
+```
+Lorsque l'option `--runs <n>` est utilisée, les rapports pour chaque exécution sont écrits dans `<profil>/runs/run-NNN.json`, et un rapport agrégé (avec des critères basés sur la médiane et la détection des défaillances récurrentes) est écrit dans `<profil>/seeded-v1.{json,md`. Le rapport agrégé contient `receipt_kind: 'aggregate'` pour le distinguer des rapports d'une seule exécution. Le mode d'exécution unique (`--runs 1` ou omis) conserve le comportement d'écriture directe existant.
 ## Statut
-**v0.3.3** — Publié sur npm sous le nom `@mcptoolshop/research-os@0.3.3`, le 10 mai 2026. Cette version apporte une meilleure clarté concernant la gestion des dépendances, comme l'a démontré le Pack-3 (stabilité de l'exportation/exécution Godot, Expérience 3, pack n°3 sur 3). La sortie de la gestion des dépendances affiche désormais les compteurs spécifiques à chaque section, ainsi que les compteurs globaux (F-43) ; le message `no_source_cluster_monopoly` a été modifié de "AVERTISSEMENT" à un diagnostic informatif (F-41). **Le comportement de réussite/échec n'a pas changé ; les packs figés existants sont vérifiés de manière identique au niveau des octets.** 570/570 tests vitest réussis. Consultez le fichier [CHANGELOG.md](CHANGELOG.md) et le fichier [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md).
+**v0.5.0** — publié sur npm en tant que `@mcptoolshop/research-os@0.5.0`, le 10 mai 2026. La version 0.5.0 rend le calibrage des évaluateurs plus fiable. Un profil d'évaluateur n'est pas considéré comme fiable simplement parce qu'il a été exécuté une fois ; il acquiert un statut grâce à des rapports structurés de défaillances simulées et à une agrégation de plusieurs exécutions. Inclut : schéma de rapport de calibrage structuré (`seeded-v1.{json,md}`, validé par Zod, quatre étiquettes de statut) ; environnement d'exécution multi-exécutions (`--runs <n>`, isolation par exécution, critères PASS/FAIL basés sur la médiane, dégradation en cas de défaillances récurrentes) ; critère de vocabulaire de décision conscient de l'architecture ; recherche de rapports relative au paquet dans `review-promote`. **Aucune "baseline de confiance" admise :** `hermes-two-pass=échec` (agrégé, 3 exécutions), `mistral-nemo-two-pass=succès conditionnel`, `hermes-single-pass=comparaison uniquement`. research-os peut désormais refuser de faire confiance à un profil d'évaluateur lorsque les défaillances simulées répétées ne justifient pas la confiance. **Aucun changement concernant les "gates", les "freezes" ou les "lois de synthèse". Les quatre paquets figés vérifient l'identité des octets.** 671/671 tests vitest réussis. Consultez [CHANGELOG.md](CHANGELOG.md).
+**v0.4.0** — publié sur npm sous le nom `@mcptoolshop/research-os@0.4.0`, le 10 mai 2026. La version 0.4.0 assure la pérennité de l'identité de la source. Les règles de type de source déterministes gèrent la majorité reproductible, les registres de remplacement préservent les corrections de l'opérateur lors des nouvelles agrégations, et la commande `source-card audit` remplace les vérifications de dérive des scripts temporaires par une interface CLI de première classe. Comprend : un classificateur de type de source centralisé (Composant B — `classifySourceType`, 11 fournisseurs canoniques, `source-type-rules.json`); un registre de remplacement de carte source (Composant A — `source-card-overrides.jsonl`, commandes `validate` et `list`); et une CLI d'audit de carte source (Composant D — `research-os source-card audit --pack <dir>`, 7 types de résultats, artefacts JSON et Markdown, options `--apply --from` pour spécifier le chemin). Correction cosmétique F-46 : les manifestes de pack indiquent désormais la version binaire en cours d'utilisation plutôt que la version figée dans `research.yaml` lors de l'initialisation du pack. **Aucun changement concernant les mécanismes de contrôle, de blocage ou les lois de synthèse. Les quatre packs figés existants sont vérifiés de manière identique au niveau des octets.** 620/620 tests vitest réussis. Consultez le fichier [CHANGELOG.md](CHANGELOG.md) et la page du manuel d'audit de carte source : [https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/](https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/).
+**v0.3.3** — publié sur npm sous le nom `@mcptoolshop/research-os@0.3.3`, le 10 mai 2026. Comprend une clarification de la sémantique des contrôles, obtenue grâce au Pack-3 (durabilité de l'exportation/de l'exécution Godot, Expérience 3, pack n° 3 sur 3). La sortie du contrôle indique désormais les nombres de publications et de comptes primaires spécifiques à chaque section, en plus des nombres globaux du pack (F-43) ; le message `no_source_cluster_monopoly` a été modifié de "AVERTISSEMENT" à un diagnostic informatif (F-41). **Le comportement de réussite/échec n'a pas changé ; les packs figés existants sont vérifiés de manière identique au niveau des octets.** 570/570 tests vitest réussis. Consultez le fichier [CHANGELOG.md](CHANGELOG.md) et le fichier [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md).
 **v0.3.2** — publiée sur npm en tant que `@mcptoolshop/research-os@0.3.2`, le 2026-05-09. Inclut une normalisation des demandes d'acceptation, prenant en compte l'admission pour la publication de l'ensemble de données. La vérification stricte d'égalité entre `claim-reviews.jsonl` et `pack-audit.json::accepted_claims` est remplacée par une comparaison d'ensembles — les demandes acceptées sont des `claim_id` uniques dont la décision de révision canonique la plus récente est `accepted_for_synthesis` (la dernière décision fait foi pour chaque `claim_id`). Les ensembles de données figés dont le nombre d'audits hérités diffère de l'ensemble normalisé sont désormais acceptés avec un avertissement plutôt qu'un refus ; le fichier d'audit hérité est conservé tel quel (Règle 15), tandis que le manifeste de l'archive reflète le nombre normalisé. Le refus reste strict pour les `claim_id` fantômes, les décisions dupliquées incompatibles et les conditions qui ne permettent pas la synthèse. Ceci a été obtenu grâce à l'Expérience 3, session K, pour l'ensemble de données XRPL — la publication de l'ensemble de données a été refusée en raison d'un désaccord sur le registre de clôture (la section 07 comportait 24 lignes brutes `accepted_for_synthesis`, mais seulement 19 `claim_id` uniques en raison des fenêtres de révision des examinateurs qui se chevauchent). 558/558 tests vitest réussis. Consultez [CHANGELOG.md](CHANGELOG.md) et [`docs/pack-publish.md`](docs/pack-publish.md).
@@ -171,9 +196,9 @@ Ceci est une alternative structurée à *recherche → résumé → rapport dét
 ### Ce que la version 0.1 n'est pas
-- N'a pas été testé par des utilisateurs externes. Trois cycles de tests internes ont été terminés, dont un auto-référentiel et deux portant sur des domaines externes. L'Expérience 3 (stabilité de l'API sous pression externe) est **CLOSÉE le 10 mai 2026** : les trois packs (ComfyUI, XRPL, Godot) ont atteint l'état figé sans modifications majeures de l'interface en ligne de commande (CLI) v0.3.x. Ce cycle a permis l'ajout de la fonctionnalité `--detector` (F-09), des dérogations spécifiques aux sections (F-10/F-11), de la normalisation de la gestion des transactions acceptées (F-36) et de la clarté concernant la gestion des dépendances (F-43/F-41).
-- Ne génère pas de contenu. La commande `synth workspace` génère l'environnement de travail structuré ; les humains (ou Cowork) rédigent le contenu en utilisant les identifiants des transactions acceptées.
-- La stabilité de l'API n'est pas garantie selon les règles de compatibilité sémantique. La version 1.0.0 est un objectif à atteindre, et non une date fixe. Consultez le fichier [`docs/roadmap.md`](docs/roadmap.md) pour connaître les six expériences qui permettront d'atteindre cet objectif.
+- Non testé en conditions réelles par des utilisateurs externes. Trois cycles de test internes ont été terminés : un auto-référentiel et deux portant sur des domaines externes. L'Expérience 3 (stabilité de l'API sous pression externe) est **CLOSÉE le 10 mai 2026** : les trois packs (ComfyUI, XRPL, Godot) ont atteint l'état figé sans modifications perturbatrices de l'interface CLI v0.3.x. Ce cycle a permis l'ajout de la fonctionnalité `--detector` (F-09), des dérogations spécifiques aux sections (F-10/F-11), de la normalisation de la comptabilité des revendications acceptées (F-36) et de la clarification de la sémantique des contrôles (F-43/F-41).
+- Ne génère pas de code de synthèse. La commande `synth workspace` génère l'espace de travail structuré ; les humains (ou Cowork) rédigent le texte en référence aux identifiants des revendications acceptées.
+- La stabilité de l'API n'est pas garantie selon les règles de version sémantique. La version 1.0.0 est un objectif à atteindre, et non une date fixe ; consultez le fichier [`docs/roadmap.md`](docs/roadmap.md) pour connaître les six expériences qui permettent d'atteindre cet objectif.
 ### Limitations connues

package/README.hi.md CHANGED Viewed

@@ -7,7 +7,7 @@
 </p>
 <p align="center">
-  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.3.3"><img src="https://img.shields.io/badge/version-0.3.3-blue" alt="version 0.3.3"></a>
+  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.5.0"><img src="https://img.shields.io/badge/version-0.5.0-blue" alt="version 0.5.0"></a>
   <a href="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml"><img src="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml/badge.svg" alt="CI"></a>
   <a href="LICENSE"><img src="https://img.shields.io/badge/license-MIT-green" alt="MIT License"></a>
   <img src="https://img.shields.io/badge/node-%E2%89%A520-brightgreen" alt="Node ≥20">
@@ -149,9 +149,49 @@ discover
 `research-os` एक स्थानीय-प्रथम कमांड-लाइन इंटरफेस है। यह उन शोध-पैकेज निर्देशिकाओं में फ़ाइलों को पढ़ता और लिखता है जिन्हें आप निर्दिष्ट करते हैं, और (जब `gather` का उपयोग किया जाता है) स्रोत यूआरएल प्राप्त करने के लिए बाहरी HTTP अनुरोध भेजता है जिन्हें आप प्रदान करते हैं। यह निम्नलिखित नहीं करता है: कोई सर्वर नहीं चलाता, इनकमिंग कनेक्शन स्वीकार नहीं करता, क्रेडेंशियल संग्रहीत नहीं करता, या टेलीमेट्री नहीं भेजता। किसी भी गुप्त जानकारी को पैकेज फ़ाइलों में नहीं लिखा जाता है। भेद्यता रिपोर्टिंग नीति के लिए [SECURITY.md](SECURITY.md) देखें।
+## समीक्षक कैलिब्रेशन
+v0.5.0 समीक्षक कैलिब्रेशन को अधिक टिकाऊ बनाता है। किसी समीक्षक प्रोफाइल पर इसलिए भरोसा नहीं किया जाता क्योंकि
+यह केवल एक बार चलाया गया था; यह संरचित, पूर्वनिर्धारित विफलता रिपोर्टों और
+एकाधिक रनों के संयोजन के माध्यम से एक स्थिति प्राप्त करता है।
+**वर्तमान में कोई भी प्रोफाइल `trusted_baseline` के रूप में स्वीकार नहीं किया गया है।** रिपॉजिटरी में मौजूद मानक रिपोर्टें
+`hermes-two-pass=failed`, `mistral-nemo-two-pass=conditional_pass`,
+`hermes-single-pass=comparison_only` दिखाती हैं। यह जानबूझकर किया गया है: विश्वास
+बार-बार होने वाले पूर्वनिर्धारित विफलता के प्रमाणों के माध्यम से अर्जित किया जाता है, न कि केवल अनुमान लगाकर।
+कैलिब्रेशन रिपोर्ट `calibration/reviewer-profiles/<profile>/seeded-v1.{json,md}` पर उपलब्ध हैं।
+प्रत्येक रिपोर्ट में सात मानदंडों के विरुद्ध PASS/FAIL दर्ज किया जाता है, चार स्थिति लेबल
+(`trusted_baseline`, `conditional_pass`, `failed`, `comparison_only`), और
+यह ईमानदारी से बताता है कि कौन सा परीक्षण मामला (फिक्स्चर) परीक्षण करने में सक्षम नहीं है (`needs_contradiction_mapping`
+`seeded-v1` से दुर्गम है)। [CHANGELOG.md](CHANGELOG.md) देखें।
+```bash
+# Single-run calibration (quick local check)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass
+# Multi-run aggregate calibration (canonical evidence — 3 runs, median-based PASS/FAIL)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass --runs 3
+# Promote a section's review — auto-populates calibration_summary from pack-relative receipt
+research-os review-promote 01-section --pack <pack> --profile hermes-two-pass
+```
+जब `--runs <n>` का उपयोग किया जाता है, तो प्रत्येक रन के लिए रिपोर्ट `<profile>/runs/run-NNN.json` में लिखी जाती हैं
+और एक एकत्रित रिपोर्ट (माध्य-आधारित मानदंडों और आवर्ती विफलता का पता लगाने के साथ)
+`<profile>/seeded-v1.{json,md}` में लिखी जाती है। एकत्रित रिपोर्ट में `receipt_kind: 'aggregate'` होता है
+जो इसे एकल-रन रिपोर्टों से अलग करता है। एकल-रन मोड (`--runs 1` या छोड़ा गया)
+मौजूदा सीधे लिखने के व्यवहार को बनाए रखता है।
 ## स्थिति
-**v0.3.3** — npm पर `@mcptoolshop/research-os@0.3.3` के रूप में प्रकाशित, 10 मई, 2026। इसमें "गेट-सिमेंटिक्स" की स्पष्टता शामिल है, जो पैक-3 (गोडॉट एक्सपोर्ट/रनटाइम स्थायित्व, प्रयोग 3, पैक #3 में से 3) द्वारा प्राप्त की गई है। "गेट" आउटपुट अब अनुभाग-विशिष्ट प्रकाशक और प्राथमिक गणनाओं के साथ-साथ पूरे पैक की गणनाएं प्रदर्शित करता है (एफ-43); `no_source_cluster_monopoly` को चेतावनी से बदलकर सूचनात्मक निदान में बदल दिया गया है (एफ-41)। **पास/फेल व्यवहार में कोई बदलाव नहीं; मौजूदा स्थिर पैक "वेरिफाई-पैक" बाइट-समान रूप से सत्यापित होते हैं।** 570/570 विटेस्ट पास। [CHANGELOG.md](CHANGELOG.md) और [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md) देखें।
+**v0.5.0** — npm पर `@mcptoolshop/research-os@0.5.0` के रूप में प्रकाशित, 2026-05-10। v0.5.0 समीक्षक कैलिब्रेशन को अधिक टिकाऊ बनाता है। किसी समीक्षक प्रोफाइल पर इसलिए भरोसा नहीं किया जाता क्योंकि
+यह केवल एक बार चलाया गया था; यह संरचित, पूर्वनिर्धारित विफलता रिपोर्टों और
+एकाधिक रनों के संयोजन के माध्यम से एक स्थिति प्राप्त करता है। इसमें शामिल हैं: संरचित कैलिब्रेशन रिपोर्ट स्कीमा (`seeded-v1.{json,md}`, Zod द्वारा सत्यापित, चार स्थिति लेबल); बहु-रन प्रणाली (`--runs <n>`, प्रति-रन अलगाव, माध्य-आधारित PASS/FAIL मानदंड, आवर्ती विफलता का पता लगाना); आर्किटेक्चर-जागरूक निर्णय शब्दावली मानदंड; `review-promote` में पैकेज-सापेक्ष रिपोर्ट खोज। **कोई भी विश्वसनीय आधारभूत स्वीकार नहीं किया गया:** `hermes-two-pass=failed` (एकत्रित, 3 रन), `mistral-nemo-two-pass=conditional_pass`, `hermes-single-pass=comparison_only`. research-os अब एक समीक्षक प्रोफाइल पर भरोसा करने से इनकार कर सकता है जब बार-बार होने वाली पूर्वनिर्धारित विफलताएं विश्वास का समर्थन नहीं करती हैं। **कोई गेट, फ्रीज या संश्लेषण-कानून परिवर्तन नहीं। सभी चार स्थिर पैकेजों को बाइट-समान रूप से सत्यापित किया गया है।** 671/671 vitest पास हो गया। [CHANGELOG.md](CHANGELOG.md) देखें।
+**v0.4.0** — npm पर `@mcptoolshop/research-os@0.4.0` के रूप में प्रकाशित, 2026-05-10। v0.4.0 स्रोत की पहचान को स्थायी बनाता है। नियतात्मक स्रोत-प्रकार नियम दोहराए जा सकने वाले अधिकांश मामलों को संभालते हैं, ओवरराइड लेजर ऑपरेटर द्वारा किए गए सुधारों को पुनः-संग्रहण के दौरान संरक्षित करते हैं, और `source-card audit` एक समर्पित कमांड-लाइन इंटरफेस के साथ "स्क्रैच-स्क्रिप्ट" विचलन जांचों को बदलता है। इसमें शामिल हैं: केंद्रीकृत स्रोत-प्रकार वर्गीकरण (घटक B — `classifySourceType`, 11 मानक विक्रेता, `source-type-rules.json`); स्रोत-कार्ड ओवरराइड लेजर (घटक A — `source-card-overrides.jsonl`, `validate` + `list` उप-कमांड); और स्रोत-कार्ड ऑडिट कमांड-लाइन इंटरफेस (घटक D — `research-os source-card audit --pack <dir>`, 7 प्रकार की खोज, JSON + Markdown प्रारूप, `--apply --from` पथ लागू करें)। F-46: एक सौंदर्य संबंधी सुधार: अब "पैक" मैनिफेस्ट में `research.yaml` में "पैक" शुरू करने के समय "फ्रीज" किए गए संस्करण के बजाय, लाइव बाइनरी संस्करण अंकित किया जाता है। **कोई "गेट", "फ्रीज" या "सिंथेसिस-लॉ" परिवर्तन नहीं। सभी चार मौजूदा "फ्रीज" किए गए "पैक" "वेरिफाई-पैक" बाइट-समान रूप से पास होते हैं।** 620/620 "विटेस्ट" पास। [CHANGELOG.md](CHANGELOG.md) और [स्रोत-कार्ड ऑडिट हैंडबुक पृष्ठ](https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/) देखें।
+**v0.3.3** — npm पर `@mcptoolshop/research-os@0.3.3` के रूप में प्रकाशित, 2026-05-10। "पैक-3" (Godot निर्यात/रनटाइम स्थिरता, प्रयोग 3 का "पैक" #3) द्वारा अर्जित "गेट" अर्थ स्पष्टता शामिल है। "गेट" आउटपुट अब "पैक" के स्तर के साथ-साथ अनुभाग-स्तरीय प्रकाशक और प्राथमिक गणनाएं भी दिखाता है (F-43); `no_source_cluster_monopoly` को चेतावनी से बदलकर सूचनात्मक निदान में बदल दिया गया है (F-41)। **पास/फेल व्यवहार अपरिवर्तित है; मौजूदा "फ्रीज" किए गए "पैक" "वेरिफाई-पैक" बाइट-समान रूप से पास होते हैं।** 570/570 "विटेस्ट" पास। [CHANGELOG.md](CHANGELOG.md) और [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md) देखें।
 **v0.3.2** — 2026-05-09 को `@mcptoolshop/research-os@0.3.2` के रूप में npm पर प्रकाशित। इसमें `pack publish` स्वीकृति के लिए सामान्यीकृत गणना शामिल है। `claim-reviews.jsonl` और `pack-audit.json::accepted_claims` के बीच सख्त समानता जांच को एक प्रभावी-सेट तुलना से बदल दिया गया है - स्वीकृत दावे अद्वितीय `claim_id` हैं जिनका नवीनतम आधिकारिक समीक्षा निर्णय `accepted_for_synthesis` है (प्रत्येक `claim_id` के लिए नवीनतम निर्णय मान्य है)। जिन फ्रीज किए गए पैकेजों की विरासत ऑडिट गणना प्रभावी सेट से भिन्न है, उन्हें अब चेतावनी के साथ स्वीकार किया जाता है, अस्वीकार नहीं किया जाता; विरासत ऑडिट फ़ाइल को अपरिवर्तित रखा जाता है (नियम 15), जबकि संग्रह मैनिफेस्ट में सामान्यीकृत गणना दिखाई जाती है। काल्पनिक `claim_id`s, असंगत डुप्लिकेट निर्णयों और गैर-संश्लेषण-योग्य शर्तों के लिए अस्वीकृति अभी भी लागू है। यह प्रयोग 3 XRPL पैकेज सत्र K द्वारा प्राप्त किया गया था - एक वास्तविक क्लोजर-लेजर असहमति के कारण पैकेज प्रकाशन को अस्वीकार कर दिया गया था (अनुभाग 07 में 24 `accepted_for_synthesis` पंक्तियाँ थीं, लेकिन ओवरलैपिंग समीक्षक विंडो के कारण केवल 19 अद्वितीय `claim_id` थे)। 558/558 vitest पास हुए। [CHANGELOG.md](CHANGELOG.md) और [`docs/pack-publish.md`](docs/pack-publish.md) देखें।
@@ -171,9 +211,9 @@ discover
 ### v0.1 क्या नहीं है
-- बाहरी उपयोगकर्ताओं द्वारा अभी तक परीक्षण नहीं किया गया है। तीन "डॉगफूड" चक्र समाप्त हो गए हैं - एक आत्म-संदर्भित, दो बाहरी डोमेन - और प्रयोग 3 (बाहरी दबाव के तहत एपीआई स्थिरता) **10 मई, 2026 को समाप्त**: तीनों पैक (कॉम्फीयूआई, एक्सआरपीएल, गोडॉट) बिना v0.3.x सीएलआई इंटरफेस में किसी भी महत्वपूर्ण बदलाव के "फ्रीज" हो गए। इस चक्र में v0.3.0 `--detector` (एफ-09), v0.3.1 अनुभाग-विशिष्ट छूट (एफ-10/एफ-11), v0.3.2 स्वीकृत-दावों की सामान्यीकृत गणना (एफ-36), और v0.3.3 "गेट-सिमेंटिक्स" की स्पष्टता (एफ-43/एफ-41) शामिल हैं।
-- यह कोई संश्लेषण लेखक नहीं है। `synth workspace` कमांड संरचित कार्यक्षेत्र बनाता है; मनुष्य (या कोवर्किंग) स्वीकृत दावों के आईडी के खिलाफ सामग्री लिखते हैं।
-- यह "सेमवर" के तहत एपीआई-स्थिर नहीं है। v1.0.0 एक अर्जित स्थिति है, कोई कैलेंडर तिथि नहीं - इस अंतर को भरने वाले छह प्रयोगों के बारे में जानकारी के लिए [`docs/roadmap.md`](docs/roadmap.md) देखें।
+- बाहरी उपयोगकर्ताओं द्वारा परीक्षण नहीं किया गया। तीन "डॉगफूड" चक्र समाप्त हो गए हैं — एक आत्म-संदर्भित, दो बाहरी-डोमेन — और प्रयोग 3 (बाहरी दबाव के तहत एपीआई स्थिरता) **2026-05-10 को बंद कर दिया गया**: तीनों "पैक" (ComfyUI, XRPL, Godot) v0.3.x कमांड-लाइन इंटरफेस में कोई बड़ा बदलाव किए बिना "फ्रीज" तक पहुंच गए। इस चक्र में v0.3.0 `--detector` (F-09), v0.3.1 अनुभाग-स्तरीय छूट (F-10/F-11), v0.3.2 सामान्यीकृत स्वीकृत-दावा लेखांकन (F-36), और v0.3.3 "गेट" अर्थ स्पष्टता (F-43/F-41) शामिल हैं।
+- यह कोई "सिंथेसिस" लेखक नहीं है। `synth workspace` कमांड संरचित कार्यक्षेत्र उत्पन्न करता है; स्वीकृत दावा आईडी के विरुद्ध मनुष्यों (या Cowork) द्वारा सामग्री लिखी जाती है।
+- यह "सेमवर" के तहत एपीआई-स्थिर नहीं है। v1.0.0 एक अर्जित स्थिति है, कोई कैलेंडर तिथि नहीं — इस अंतर को भरने वाले छह प्रयोगों के बारे में जानकारी के लिए [`docs/roadmap.md`](docs/roadmap.md) देखें।
 ### ज्ञात सीमाएँ

package/README.it.md CHANGED Viewed

@@ -7,7 +7,7 @@
 </p>
 <p align="center">
-  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.3.3"><img src="https://img.shields.io/badge/version-0.3.3-blue" alt="version 0.3.3"></a>
+  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.5.0"><img src="https://img.shields.io/badge/version-0.5.0-blue" alt="version 0.5.0"></a>
   <a href="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml"><img src="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml/badge.svg" alt="CI"></a>
   <a href="LICENSE"><img src="https://img.shields.io/badge/license-MIT-green" alt="MIT License"></a>
   <img src="https://img.shields.io/badge/node-%E2%89%A520-brightgreen" alt="Node ≥20">
@@ -149,8 +149,33 @@ Questa è l'alternativa strutturale a *ricerca → riepilogo → report dettagli
 `research-os` è un'interfaccia a riga di comando (CLI) locale. Legge e scrive file all'interno della directory del pacchetto di ricerca a cui la si indica e, quando si utilizza la funzione "gather", effettua richieste HTTP in uscita per recuperare gli URL delle fonti fornite. Non esegue un server, non accetta connessioni in entrata, non memorizza credenziali né invia dati di telemetria. Nessun segreto viene scritto negli artefatti del pacchetto. Consultare [SECURITY.md](SECURITY.md) per la politica di segnalazione delle vulnerabilità.
+## Calibrazione dei revisori
+La versione 0.5.0 rende la calibrazione dei revisori più affidabile. Un profilo di revisore non è considerato affidabile solo perché è stato eseguito una volta; acquisisce uno stato attraverso ricevute strutturate che segnalano errori simulati e aggregazioni di esecuzioni multiple.
+**Nessun profilo è attualmente considerato come "baseline affidabile".** Le ricevute di riferimento nel repository mostrano `hermes-two-pass=failed`, `mistral-nemo-two-pass=conditional_pass`, `hermes-single-pass=comparison_only`. Questo è intenzionale: l'affidabilità si guadagna attraverso prove ripetute di errori simulati, non viene data per scontata.
+Le ricevute di calibrazione si trovano in `calibration/reviewer-profiles/<profile>/seeded-v1.{json,md}`. Ogni ricevuta registra i risultati PASS/FAIL rispetto a sette criteri, quattro etichette di stato (`trusted_baseline`, `conditional_pass`, `failed`, `comparison_only`), e indica onestamente cosa il test non può verificare (`needs_contradiction_mapping` non è raggiungibile da `seeded-v1`). Consultare [CHANGELOG.md](CHANGELOG.md).
+```bash
+# Single-run calibration (quick local check)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass
+# Multi-run aggregate calibration (canonical evidence — 3 runs, median-based PASS/FAIL)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass --runs 3
+# Promote a section's review — auto-populates calibration_summary from pack-relative receipt
+research-os review-promote 01-section --pack <pack> --profile hermes-two-pass
+```
+Quando si utilizza l'opzione `--runs <n>`, le ricevute per ogni esecuzione vengono scritte in `<profile>/runs/run-NNN.json` e una ricevuta aggregata (con barre basate sulla mediana e rilevamento di errori ricorrenti) viene scritta in `<profile>/seeded-v1.{json,md}`. La ricevuta aggregata contiene `receipt_kind: 'aggregate'` per distinguerla dalle ricevute di singola esecuzione. La modalità di singola esecuzione (`--runs 1` o omessa) mantiene il comportamento esistente di scrittura diretta.
 ## Stato
+**v0.5.0** — pubblicata su npm come `@mcptoolshop/research-os@0.5.0`, 10 maggio 2026. La versione 0.5.0 rende la calibrazione dei revisori più affidabile. Un profilo di revisore non è considerato affidabile solo perché è stato eseguito una volta; acquisisce uno stato attraverso ricevute strutturate che segnalano errori simulati e aggregazioni di esecuzioni multiple. Include: schema di ricevuta di calibrazione strutturato (`seeded-v1.{json,md}`, convalidato da Zod, quattro etichette di stato); meccanismo di esecuzione multi-run (`--runs <n>`, isolamento per esecuzione, barre PASS/FAIL basate sulla mediana, demotivazione per errori ricorrenti); barra di vocabolario decisionale consapevole dell'architettura; ricerca di ricevute relativa al pacchetto in `review-promote`. **Nessuna baseline affidabile accettata:** `hermes-two-pass=failed` (aggregata, 3 esecuzioni), `mistral-nemo-two-pass=conditional_pass`, `hermes-single-pass=comparison_only`. research-os può ora rifiutare di considerare affidabile un profilo di revisore quando ripetuti errori simulati non supportano l'affidabilità. **Nessuna modifica alle gate, al freeze o alle leggi di sintesi. Tutti e quattro i pacchetti esistenti verificano l'integrità dei byte.** 671/671 test vitest superati. Consultare [CHANGELOG.md](CHANGELOG.md).
+**v0.4.0** — pubblicata su npm come `@mcptoolshop/research-os@0.4.0`, 10 maggio 2026. La versione 0.4.0 rende l'identità della sorgente più affidabile. Le regole deterministiche del tipo di sorgente gestiscono la maggioranza ripetibile, i ledger di override preservano le correzioni dell'operatore durante il ri-raccolta, e l'audit della "source-card" sostituisce i controlli di deriva degli script con un'interfaccia CLI dedicata. Include: classificatore centralizzato del tipo di sorgente (Componente B — `classifySourceType`, 11 fornitori canonici, `source-type-rules.json`); ledger di override della source-card (Componente A — `source-card-overrides.jsonl`, comandi `validate` e `list`); e CLI di audit della source-card (Componente D — `research-os source-card audit --pack <dir>`, 7 tipi di rilevamento, artefatti JSON + Markdown, opzioni `--apply --from` per l'applicazione). Correzione cosmetica F-46: i manifest dei pacchetti ora stampano la versione binaria corrente anziché la versione congelata in `research.yaml` durante l'inizializzazione del pacchetto. **Nessuna modifica alle gate, al freeze o alle leggi di sintesi. Tutti e quattro i pacchetti esistenti verificano l'integrità dei byte.** 620/620 test vitest superati. Consultare [CHANGELOG.md](CHANGELOG.md) e la [pagina del manuale dell'audit della source-card](https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/).
 **v0.3.3** — Pubblicata su npm come `@mcptoolshop/research-os@0.3.3` il 10 maggio 2026. Include miglioramenti nella chiarezza delle semantiche delle "gate", ottenuti grazie al Pack-3 (durabilità dell'esportazione/runtime di Godot, Esperimento 3, pacchetto n. 3 su 3). L'output della "gate" ora include il publisher e i conteggi specifici della sezione, oltre ai conteggi globali del pacchetto (F-43); la dicitura di `no_source_cluster_monopoly` è stata modificata da AVVISO a diagnostica informativa (F-41). **Il comportamento di successo/fallimento rimane invariato; i pacchetti esistenti vengono verificati byte per byte.** 570 test vitest su 570 superati. Consultare [CHANGELOG.md](CHANGELOG.md) e [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md).
 **v0.3.2** — Pubblicata su npm come `@mcptoolshop/research-os@0.3.2` il 9 maggio 2026. Include una contabilizzazione normalizzata delle richieste accettate, tenendo conto dell'ammissione per la "pubblicazione del pacchetto". Il controllo di uguaglianza rigoroso tra `claim-reviews.jsonl` e `pack-audit.json::accepted_claims` è stato sostituito con un confronto di insiemi, in cui le richieste accettate sono rappresentate da `claim_id` univoci la cui ultima decisione di revisione canonica è "accettata per la sintesi" (l'ultima decisione prevale per ogni `claim_id`). I pacchetti "congelati" la cui cronologia delle revisioni differisce dall'insieme normalizzato vengono ora ammessi con un avviso anziché essere rifiutati; il file di revisione precedente viene conservato integralmente (Legge 15), mentre il manifest dell'archivio riflette il conteggio normalizzato. Il rifiuto rimane assoluto per gli `claim_id` fantasma, le decisioni duplicate incompatibili e le "gate" non idonee per la sintesi. Ottenuto grazie all'esperimento 3 XRPL, pacchetto Session K: la pubblicazione del pacchetto è stata rifiutata a causa di una reale discrepanza nel registro di chiusura (la sezione 07 conteneva 24 righe "accettate per la sintesi", ma solo 19 `claim_id` univoci a causa delle sovrapposizioni negli intervalli di revisione). 558 test vitest su 558 superati. Consultare [CHANGELOG.md](CHANGELOG.md) e [`docs/pack-publish.md`](docs/pack-publish.md).

package/README.ja.md CHANGED Viewed

@@ -7,7 +7,7 @@
 </p>
 <p align="center">
-  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.3.3"><img src="https://img.shields.io/badge/version-0.3.3-blue" alt="version 0.3.3"></a>
+  <a href="https://github.com/mcp-tool-shop-org/research-os/releases/tag/v0.5.0"><img src="https://img.shields.io/badge/version-0.5.0-blue" alt="version 0.5.0"></a>
   <a href="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml"><img src="https://github.com/mcp-tool-shop-org/research-os/actions/workflows/ci.yml/badge.svg" alt="CI"></a>
   <a href="LICENSE"><img src="https://img.shields.io/badge/license-MIT-green" alt="MIT License"></a>
   <img src="https://img.shields.io/badge/node-%E2%89%A520-brightgreen" alt="Node ≥20">
@@ -149,9 +149,34 @@ discover
 `research-os` は、ローカル環境で動作するCLIです。このツールは、指定された研究パッケージのディレクトリ内のファイルを読み書きし、`gather` コマンドを使用する場合、提供されたソースコードのURLから情報を取得するために、HTTPリクエストを送信します。このツールは、サーバーを起動したり、外部からの接続を受け付けたり、認証情報を保存したり、テレメトリデータを送信したりすることはありません。また、機密情報はパッケージのファイルに書き込まれません。脆弱性に関する報告については、[SECURITY.md](SECURITY.md) を参照してください。
+## レビュー担当者の評価調整機能
+v0.5.0では、レビュー担当者の評価調整機能がより安定しました。レビュー担当者のプロファイルは、単に一度実行されたというだけで信頼されるわけではありません。構造化されたテストケースの失敗結果と、複数回の実行結果の集計によって、信頼度合いが評価されます。
+**現在、どのプロファイルも`trusted_baseline`として認められていません。** リポジトリ内の標準的なテスト結果では、`hermes-two-pass`が`failed`、`mistral-nemo-two-pass`が`conditional_pass`、`hermes-single-pass`が`comparison_only`となっています。これは意図的なものです。信頼は、単なる仮定ではなく、繰り返されるテストケースの失敗結果によって獲得されます。
+評価結果は、`calibration/reviewer-profiles/<プロファイル名>/seeded-v1.{json,md}`に保存されています。各評価結果は、7つの項目に対する合否、4つのステータスラベル（`trusted_baseline`、`conditional_pass`、`failed`、`comparison_only`）、およびテストが実行できない状況を正直に報告します（`needs_contradiction_mapping`は`seeded-v1`からは到達できません）。詳細は[CHANGELOG.md](CHANGELOG.md)を参照してください。
+```bash
+# Single-run calibration (quick local check)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass
+# Multi-run aggregate calibration (canonical evidence — 3 runs, median-based PASS/FAIL)
+node scripts/reviewer-calibration.mjs --model hermes3:8b --two-pass --profile hermes-two-pass --runs 3
+# Promote a section's review — auto-populates calibration_summary from pack-relative receipt
+research-os review-promote 01-section --pack <pack> --profile hermes-two-pass
+```
+`--runs <n>`オプションを使用すると、各実行結果が`<プロファイル名>/runs/run-NNN.json`に保存され、集計結果（中央値に基づいた合否判定と、繰り返し発生するエラーの検出を含む）が`<プロファイル名>/seeded-v1.{json,md}`に保存されます。集計結果には、`receipt_kind: 'aggregate'`という情報が含まれており、これにより単一実行の結果と区別されます。単一実行モード（`--runs 1`または省略）では、既存の直接書き込み動作が維持されます。
 ## ステータス
-**v0.3.3** — npmに `@mcptoolshop/research-os@0.3.3` として公開されました。2026年5月10日。Pack-3（Godotのエクスポート/ランタイムの安定性、実験3のパック#3のうち3つ目）によって獲得された、ゲートセマンティクスの明確化が含まれています。ゲートの出力には、セクションごとの発行者と主要なカウントに加えて、全体的なカウントが表示されるようになりました（F-43）。`no_source_cluster_monopoly` は、警告から情報診断に変更されました（F-41）。**合格/不合格の動作は変更されていません。既存の固定されたパックは、バイト単位で完全に同一であることを検証します。** 570/570 の vitest が合格しました。詳細は [CHANGELOG.md](CHANGELOG.md) および [`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md) を参照してください。
+**v0.5.0** — npmで`@mcptoolshop/research-os@0.5.0`として公開。2026年5月10日。v0.5.0では、レビュー担当者の評価調整機能がより安定しました。レビュー担当者のプロファイルは、単に一度実行されたというだけで信頼されるわけではありません。構造化されたテストケースの失敗結果と、複数回の実行結果の集計によって、信頼度合いが評価されます。変更点：構造化された評価結果スキーマ（`seeded-v1.{json,md}`、Zodによる検証、4つのステータスラベル）、複数実行機能（`--runs <n>`、各実行の分離、中央値に基づいた合否判定、繰り返し発生するエラーの検出）、アーキテクチャを考慮した判定語彙、`review-promote`におけるパッケージ相対パスでの評価結果参照。**信頼できるベースラインは存在しません：** `hermes-two-pass=failed`（集計、3回の実行）、`mistral-nemo-two-pass=conditional_pass`、`hermes-single-pass=comparison_only`。research-osは、繰り返し発生するテストケースの失敗結果が信頼を裏付けない場合、レビュー担当者のプロファイルを信頼しないようにすることができます。**ゲート、フリーズ、または合成ルールに関する変更はありません。すべての4つのフリーズされたパッケージが、バイト単位で完全に同一であることを確認しました。** 671/671のvitestが成功しました。詳細は[CHANGELOG.md](CHANGELOG.md)を参照してください。
+**v0.4.0** — npmに`@mcptoolshop/research-os@0.4.0`として公開。2026年5月10日。v0.4.0では、ソースの同一性を維持できるようになりました。決定論的なソースタイプルールにより、再現可能な多数が処理され、オーバーライドされたレジャーにより、再収集時のオペレーターによる修正が保持され、`source-card audit`コマンドが、従来のスクリプトのずれチェックを置き換え、より使いやすいCLIインターフェースを提供します。同梱内容：集中型のソースタイプ分類器（コンポーネントB — `classifySourceType`、11種類のベンダー、`source-type-rules.json`）、ソースカードのオーバーライドレジャー（コンポーネントA — `source-card-overrides.jsonl`、`validate`および`list`サブコマンド）、およびソースカード監査CLI（コンポーネントD — `research-os source-card audit --pack <dir>`、7種類の検出結果、JSONおよびMarkdown形式のレポート、`--apply --from`による適用パス）。F-46：見た目の修正。パッケージのマニフェストには、`research.yaml`に固定されたバージョンではなく、実行中のバイナリのバージョンが記録されるようになりました。**ゲート、フリーズ、または合成に関する変更はありません。既存のすべてのパッケージは、バイト単位で同一であることを検証済みです。** 620/620のvitestテストが合格しました。詳細は[CHANGELOG.md](CHANGELOG.md)および[ソースカード監査に関するハンドブック](https://mcp-tool-shop-org.github.io/research-os/handbook/source-card-audit/)を参照してください。
+**v0.3.3** — npmに`@mcptoolshop/research-os@0.3.3`として公開。2026年5月10日。Pack-3（Godotのエクスポート/ランタイムの安定性、実験3のパッケージ#3）によって得られた、ゲートのセマンティクスに関する明確化が含まれています。ゲートの出力には、セクションごとのパブリッシャー数と主要なカウントに加えて、パッケージ全体のカウントも表示されます（F-43）。`no_source_cluster_monopoly`は、警告から情報診断に変更されました（F-41）。**合格/不合格の動作は変更されていません。既存のパッケージは、バイト単位で同一であることを検証済みです。** 570/570のvitestテストが合格しました。詳細は[CHANGELOG.md](CHANGELOG.md)および[`docs/section-scoped-waivers.md`](docs/section-scoped-waivers.md)を参照してください。
 **v0.3.2** — 2026年5月9日に、`@mcptoolshop/research-os@0.3.2`としてnpmに公開されました。`pack publish`の許可に関する、正規化された承認処理が実装されました。`claim-reviews.jsonl`と`pack-audit.json::accepted_claims`の厳密な一致チェックは、効果的な集合比較に置き換えられました。承認されたクレームは、最新の正当なレビュー結果が`accepted_for_synthesis`である一意の`claim_id`の集合です（`claim_id`ごとに最新の決定が優先されます）。以前の監査数が効果的な集合と異なる凍結されたパッケージは、拒否する代わりに警告を表示します。古い監査ファイルは変更せずに保持されます（ルール15）、ただし、アーカイブのマニフェストには正規化された数が反映されます。フェイクの`claim_id`、互換性のない重複した決定、および合成対象外の条件に対する拒否は引き続き適用されます。Experiment 3 XRPLパッケージのSession Kで、実際のクロージャー・レジャーの不一致により、パッケージの公開が拒否されました（セクション07には24件の`accepted_for_synthesis`の行がありましたが、重複するレビュー担当者によるため、一意の`claim_id`は19件のみでした）。558/558のvitestが成功しました。詳細については、[CHANGELOG.md](CHANGELOG.md)と[`docs/pack-publish.md`](docs/pack-publish.md)を参照してください。
@@ -171,9 +196,9 @@ discover
 ### v0.1の制限事項
-- 外部ユーザーによる実戦テストは行われていません。3つの内部テストフェーズが終了しました。1つは自己参照型、2つは外部ドメイン型です。実験3（外部からのプレッシャー下でのAPIの安定性）は、**2026年5月10日に完了しました**。3つのパック（ComfyUI、XRPL、Godot）は、v0.3.xのCLIインターフェースに変更を加えることなく、安定版に到達しました。このフェーズでは、v0.3.0の`--detector`（F-09）、v0.3.1のセクションごとの免責事項（F-10/F-11）、v0.3.2の標準化された承認済みトランザクション処理（F-36）、およびv0.3.3のゲートセマンティクスの明確化（F-43/F-41）が実現されました。
-- 合成テキストの生成機能はありません。`synth workspace` コマンドは、構造化されたワークスペースを生成します。人間（または Cowork）が、承認されたトランザクションIDに基づいてテキストを作成します。
-- セマンティックバージョニング（semver）に基づくAPIの安定性はありません。v1.0.0 は、予定日ではなく、達成すべき目標です。詳細については、[`docs/roadmap.md`](docs/roadmap.md) を参照してください。このドキュメントには、その目標を達成するための6つの実験が記載されています。
+- 外部ユーザーによる実戦テストは行われていません。3つの内部テストが完了しました。そのうち1つは自己参照型、2つは外部ドメイン型です。実験3（外部からのプレッシャー下でのAPIの安定性）は、**2026年5月10日に完了しました**: ComfyUI、XRPL、Godotの3つのパッケージすべてが、v0.3.xのCLIインターフェースに変更を加えることなく、フリーズ状態に達しました。このテスト期間中に、v0.3.0の`--detector`（F-09）、v0.3.1のセクションごとの免除（F-10/F-11）、v0.3.2の標準化された承認済みクレーム会計（F-36）、およびv0.3.3のゲートセマンティクスに関する明確化（F-43/F-41）が実現されました。
+- 合成コードを生成するものではありません。`synth workspace`コマンドは、構造化されたワークスペースを生成します。プログラミングコードではなく、承認されたクレームIDに基づいて、人間（またはCowork）がテキストを作成します。
+- セマンティックバージョニング（semver）でAPIの安定性は保証されません。v1.0.0は、カレンダー上の日付ではなく、達成すべき目標です。詳細は[`docs/roadmap.md`](docs/roadmap.md)にある、その目標を達成するための6つの実験を参照してください。
 ### 既知の制限事項