npm - workflow-ai - Versions diffs - 1.0.68 → 1.1.0 - Mend

workflow-ai 1.0.68 → 1.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (44) hide show

package/src/skills/decompose-plan/tests/cases/TC-DECOMPOSE-PLAN-005/current/meta.json CHANGED Viewed

@@ -1,114 +1,114 @@
-{
-  "date": "2026-04-23T08:08:11.073Z",
-  "skill_sha": "3f91270",
-  "status": "passed",
-  "duration_ms": 10,
-  "per_model": {
-    "claude-sonnet": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-glm": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-minimax": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 2,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-deepseek": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 2,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    }
-  },
-  "rubric_scores": [
-    {
-      "agentId": "claude-sonnet",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 1,
-      "score": 1,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 3,
-      "score": 1,
-      "errored": false
-    }
-  ]
+{
+  "date": "2026-04-25T11:54:44.062Z",
+  "skill_sha": "3f91270",
+  "status": "passed",
+  "duration_ms": 4,
+  "per_model": {
+    "claude-sonnet": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-glm": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-minimax": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 2,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-deepseek": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 2,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 1,
+      "score": 1,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 3,
+      "score": 1,
+      "errored": false
+    }
+  ]
 }

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-001/current/meta.json CHANGED Viewed

@@ -1,88 +1,88 @@
-{
-  "date": "2026-04-23T08:08:11.087Z",
-  "skill_sha": "1503ea1",
-  "status": "passed",
-  "duration_ms": 2,
-  "per_model": {
-    "claude-haiku": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-free": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-glm-air": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    }
-  },
-  "rubric_scores": [
-    {
-      "agentId": "claude-haiku",
-      "trial": 1,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "claude-haiku",
-      "trial": 2,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "claude-haiku",
-      "trial": 3,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 1,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 2,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 3,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 1,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 2,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 3,
-      "score": 4,
-      "errored": false
-    }
-  ]
+{
+  "date": "2026-04-25T11:54:44.070Z",
+  "skill_sha": "1503ea1",
+  "status": "passed",
+  "duration_ms": 1,
+  "per_model": {
+    "claude-haiku": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-free": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-glm-air": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    }
+  ]
 }

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-005/current/meta.json CHANGED Viewed

@@ -1,88 +1,88 @@
-{
-  "date": "2026-04-23T08:08:11.091Z",
-  "skill_sha": "1503ea1",
-  "status": "passed",
-  "duration_ms": 1,
-  "per_model": {
-    "claude-haiku": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-free": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-glm-air": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    }
-  },
-  "rubric_scores": [
-    {
-      "agentId": "claude-haiku",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-haiku",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-haiku",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    }
-  ]
+{
+  "date": "2026-04-25T11:54:44.073Z",
+  "skill_sha": "1503ea1",
+  "status": "passed",
+  "duration_ms": 1,
+  "per_model": {
+    "claude-haiku": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-free": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-glm-air": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    }
+  ]
 }

package/src/skills/review-result/SKILL.md CHANGED Viewed

@@ -36,6 +36,7 @@ description: >
 |--------|----------------|
 | `knowledge/dod-patterns.md` | При определении типа проверки для конкретного пункта DoD |
 | `knowledge/test-hygiene.md` | Когда DoD требует создать/изменить автотест — красные и зелёные флаги изоляции, что считать нарушением и как оформить issue |
+| `knowledge/baseline-snapshot-validation.md` | **⛔ Обязательно**, когда DoD/план тикета содержит формулировки уровня эталона: baseline, snapshot, inline-snapshot, побайтное/точное совпадение, регрессионный эталон, «output не должен меняться». Проверяет способ реализации теста (точное сравнение с литералом-эталоном vs регекс/includes), а не только зелёный прогон |
 | `../shared/*` | **ВСЕГДА** перед началом работы — общие знания проекта |
 ## Загрузка шаблонов

package/src/skills/review-result/knowledge/baseline-snapshot-validation.md ADDED Viewed

@@ -0,0 +1,67 @@
+# Проверка baseline/snapshot-тестов на ревью
+Когда DoD тикета требует **baseline-теста**, **snapshot-сравнения**, **регрессионного эталона** или **побайтного/посимвольного совпадения** результата с зафиксированной версией, ревьюер обязан проверить **способ реализации теста**, а не только факт его существования и зелёный статус прогона.
+## Зачем ревьюеру проверять это отдельно
+«Тесты зелёные» и «файл создан» — необходимые, но не достаточные признаки. Тест может быть зелёным и одновременно не выполнять заявленной функции baseline:
+- ассерт по совпадению с регулярным выражением ловит только то, что регекс уже описывает; всё, что вне регекса, тест не отслеживает;
+- ассерт «значение truthy» или равенство одного поля проверяют точечный признак, а не целостный эталон;
+- проверка наличия подстроки в выводе — не сравнение с эталоном.
+Такие тесты **тавтологичны**: они зафиксированы лишь в той части, где автор уже знал ответ. Регрессия в любой другой части (новые поля, изменённые ключи, изменённый формат, потерянные строки stdout) проходит мимо. Если назначение теста — поймать **любую** регрессию по сравнению с эталонной версией, ассерт по фрагментам не реализует это назначение.
+## Триггеры применения
+Шаг применяется, если в DoD, секции «Детали задачи» или «Критериях успеха» родительского плана встречаются формулировки уровня семантического намерения:
+- baseline / эталон / reference / зафиксированный output;
+- snapshot / inline-snapshot / external-snapshot;
+- побайтное / посимвольное / точное совпадение;
+- регрессия (ловить регрессию, регрессионный тест на изменение формата);
+- «output не должен меняться», «формат стабилизирован», «контракт фиксируется».
+Если хотя бы одна формулировка присутствует — это не обычный «тест проходит», а заявление о наличии **эталона**, и проверка способа реализации обязательна.
+## Как проверять
+1. **Открой файл теста физически** (Read), не доверяй секции Result. Найди ассерты, относящиеся к baseline-проверке.
+2. **Сверь способ ассерта со способом, заявленным в DoD/плане:**
+   | Заявлено в DoD/плане | Что обязано быть в тесте | Что недопустимо |
+   |---|---|---|
+   | inline-snapshot / точное совпадение / эталон | Точное равенство (deep-equality для структур, побайтное равенство для строк) нормализованного output с зафиксированным литералом-эталоном. Эталон лежит **в файле теста как литерал** (или как сериализованный snapshot, на который тест ссылается). | Ассерт по регулярному выражению, проверка наличия подстроки, ассерт по одному полю без сверки остального вывода. |
+   | regression / not-changed / стабилизирован | Точное сравнение всего нормализованного output с эталоном. Любое отклонение должно ронять тест. | Набор фрагментарных ассертов (несколько регекс-проверок подряд) — не отвергает структурные изменения вне зон проверки. |
+   | побайтное совпадение | Бинарное/посимвольное равенство (буфер/строка целиком) после задокументированной нормализации. Нормализация описана в коде теста. | Любая «приблизительная» проверка. |
+3. **Проверь, что эталон существует физически.** Inline-snapshot должен быть литералом в коде; external-snapshot — отдельным файлом, на который тест ссылается. Если эталона нет — тест не baseline.
+4. **Проверь полноту нормализации.** Заявленные в DoD динамические поля (timestamps, абсолютные пути, рандомные id) должны нормализоваться **до** сравнения, а не игнорироваться через регекс. Если нормализация не реализована или неполна — тест либо хрупкий, либо тавтологичный.
+## Красные флаги при чтении теста
+- Регекс-ассерт в роли единственной проверки baseline-заявленного output.
+- Несколько фрагментарных ассертов (regex-match, substring-include) подряд по разным частям одного output без сравнения целого.
+- Отсутствие литерала-эталона в файле теста (нет inline-string, нет ссылки на snapshot-файл).
+- Нормализация-функция объявлена, но её результат используется только для фрагментарных ассертов, не для равенства целого.
+- DoD пункт «эталон зафиксирован» отмечен `[x]`, но в коде нет ни одного точного сравнения.
+- Утверждения в Result вида «N snapshot-тестов зелёные», когда в файле теста нет ни одного snapshot/equality-вызова.
+## Зелёные сигналы
+- Каждый baseline-сценарий завершается одним точным сравнением целого нормализованного output с литералом-эталоном.
+- Эталон прочитываем глазами: видно структуру и порядок полей; ревьюер может сказать, какое именно изменение уронит тест.
+- Нормализация описана и применяется ко всему output до сравнения.
+- При попытке вручную «сломать» один символ в эталоне или в исходнике — тест падает с понятной diff-разницей.
+## Что делать при обнаружении нарушения
+- `failed` с конкретным issue: какой пункт DoD заявил эталон, какой ассерт фактически реализован, почему ассерт не отвергает регрессии вне его покрытия.
+- Процитировать дословно: строку DoD с формулировкой эталона **и** строку теста с фактическим ассертом. Не пересказывать.
+- Не смягчать finding на основании того, что «тесты зелёные» или «количество кейсов соответствует» — проверка способа реализации ортогональна прогону и счётчику.
+## Когда проверка не применяется
+- DoD не содержит формулировок уровня эталона/snapshot/baseline/побайтного совпадения. Тест нацелен на проверку отдельной инвариантной фичи (наличие поля, формат id) — обычные ассерты допустимы.
+- В тикете явно зафиксировано, что эталон будет добавлен следующим тикетом, и текущая задача — только smoke-каркас. Такая декомпозиция должна быть явной в плане; молчаливое сведение baseline к smoke — нарушение.