npm - workflow-ai - Versions diffs - 1.0.68 → 1.1.0 - Mend

workflow-ai 1.0.68 → 1.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (44) hide show

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-003/current/meta.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "date": "2026-04-21T14:36:41.300Z",
-  "skill_sha": "2bf55c8",
+  "date": "2026-04-25T07:10:27.577Z",
+  "skill_sha": "b6cda8a",
   "status": "passed",
-  "duration_ms": 356716,
+  "duration_ms": 79287,
   "l1_skipped": true,
   "per_model": {
     "claude-sonnet": {
@@ -40,73 +40,73 @@
   },
   "rubric_scores": [
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 1,
-      "score": 5,
+      "score": 3,
       "errored": false
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 2,
-      "score": 5,
+      "score": 4,
       "errored": false
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 3,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 1,
-      "score": 3,
+      "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 2,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 3,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 1,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 2,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 3,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 1,
-      "score": 4,
+      "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 2,
-      "score": 4,
+      "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 3,
       "score": 4,
       "errored": false

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-004/current/claude-sonnet/trial-1.md ADDED Viewed

@@ -0,0 +1,5 @@
+---RESULT---
+status: failed
+issues:
+  - "DoD п.2 не выполнен: ожидалось — каждый сценарий содержит inline-snapshot в коде теста (литерал-эталон, точное сравнение нормализованного output); получено — все ассерты реализованы как регекс-проверки по фрагментам (`assert.match(normalized, /status:\\s*empty/)`, `assert.match(normalized, /reason:/)` и т.д.) без единого точного сравнения целого нормализованного вывода. Литерала-эталона в файле `src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs` нет. Функция normalizeOutput объявлена, но её результат используется только для фрагментарных regex-ассертов — регрессии вне покрытия regex-ов (новые поля, изменённый формат, потерянные строки) тест не поймает."
+---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-004/current/claude-sonnet/trial-2.md ADDED Viewed

@@ -0,0 +1,5 @@
+---RESULT---
+status: failed
+issues:
+  - "DoD п.2 не выполнен: заявлено «каждый сценарий содержит inline-snapshot в коде теста (литерал-эталон, точное сравнение)», фактически реализованы регекс-ассерты assert.match по фрагментам (напр. `assert.match(normalized, /status:\\s*empty/)` в baseline.test.mjs:38-39). Литерал-эталон в файле теста отсутствует полностью — ни одного вызова assert.strictEqual/deepStrictEqual с зафиксированной строкой. Регрессия за пределами покрытия регексов (новые поля, изменённый порядок, потерянные строки stdout) проходит мимо теста."
+---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-004/current/claude-sonnet/trial-3.md ADDED Viewed

@@ -0,0 +1,6 @@
+---RESULT---
+status: failed
+issues:
+  - "DoD #2 не выполнен: заявлено «каждый сценарий содержит inline-snapshot в коде теста (литерал-эталон, точное сравнение)», фактически все 5 тестов реализованы через assert.match с регулярными выражениями (строки 46–47, 64–65, 85–86, 103–104, 119). Ни одного assert.equal/deepEqual с inline-литералом нет. Функция normalizeOutput объявлена, но её результат используется исключительно для фрагментарных regex-ассертов, а не для равенства целого нормализованного output с эталоном. Такие тесты не ловят регрессии за пределами описанных регексов. Файл теста: .workflow/src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs"
+  - "Result утверждает «10 baseline snapshot-тестов», в файле теста 5 тестов (2 в pick-next-task + 2 в move-ticket + 1 в get-next-id), ни один из которых не является snapshot-тестом"
+---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-004/current/judge.json ADDED Viewed

@@ -0,0 +1,46 @@
+{
+  "per_model": {
+    "claude-sonnet": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 4,
+          "passed": true
+        }
+      ]
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    }
+  ],
+  "timestamp": "2026-04-25T07:11:21.120Z"
+}

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-004/current/meta.json ADDED Viewed

@@ -0,0 +1,37 @@
+{
+  "date": "2026-04-25T07:11:21.120Z",
+  "skill_sha": "b6cda8a",
+  "status": "passed",
+  "duration_ms": 129302,
+  "l1_skipped": true,
+  "per_model": {
+    "claude-sonnet": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    }
+  ]
+}

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-004-baseline-snapshot.yaml ADDED Viewed

@@ -0,0 +1,50 @@
+id: TC-REVIEW-RESULT-004
+title: "Ревьюер ловит подмену inline-snapshot регекс-ассертами"
+origin:
+  chg: [CHG-baseline-snapshot-2026-04-25]
+  incidents:
+    - "workflowAi PLAN-008/QA-030 → IMPL-050/051: тикет QA-030 заявил DoD `inline-snapshot в коде теста`, фактический файл src/tests/scripts-stdout-baseline.test.mjs использовал только assert.match по регексам — регрессия рефакторинга IMPL-050/051 (потеря argv-блока-парсера, изменение полей RESULT) прошла мимо baseline-теста; ревью QA-030 пропустило подмену со ссылкой на `10/10 зелёных`. Лог падения: .workflow/logs/pipeline_2026-04-24_16-20-18.log"
+  principle: "Заявленный в DoD способ реализации теста (snapshot/эталон/побайтное совпадение) ортогонален результату прогона. Зелёный тест на регекс-ассертах не реализует snapshot — регрессия за пределами регексов проходит мимо."
+  backlog_sources:
+    - "d:/Dev/workflowAi/.workflow/coach-backlog.yaml"
+tags: [baseline, snapshot, knowledge-baseline-snapshot-validation]
+severity: high
+scenario:
+  system_prompt_file: "../../SKILL.md"
+  extra_instructions: |
+    Проведи ревью тикета QA-905, который лежит в .workflow/tickets/review/QA-905.md.
+    DoD тикета явно требует inline-snapshot в коде теста (точное сравнение
+    нормализованного output с литералом-эталоном). Содержимое файла теста,
+    на который ссылается секция «Изменённые файлы», приведено ниже
+    (блок "## Test file content") — используй его для оценки способа
+    реализации. Тест формально проходит, но проверка способа реализации
+    ортогональна результату прогона.
+  inputs:
+    - kind: ticket_file
+      path: "../fixtures/QA-905-baseline-regex-instead-of-snapshot/QA-905.md"
+      ticket_id: QA-905
+      dest_dir: review
+    - kind: file
+      path: "../fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs"
+      as: "Test file content (src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs)"
+assertions:
+  deterministic:
+    - kind: output_contains_all
+      values: ["---RESULT---"]
+      reason: "Результат должен быть в формате пайплайна."
+    - kind: output_contains_all
+      values: ["failed"]
+      reason: "Вердикт — failed: regex-ассерты не реализуют заявленный snapshot."
+  rubric:
+    - kind: llm_judge
+      rubric_file: "../rubrics/baseline-snapshot.md"
+      criterion: "Поймал ли ревьюер подмену snapshot-сравнения регекс-ассертами и оформил failed с дословной цитатой формулировки DoD и проблемного ассерта?"
+      pass_threshold: 4
+      trials: 3
+      aggregate: majority
+execution:
+  timeout_s: 1200

package/src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/QA-905.md ADDED Viewed

@@ -0,0 +1,62 @@
+---
+id: QA-905
+title: "Создать baseline stdout-тесты CLI-скриптов ДО рефакторинга"
+priority: 1
+type: qa
+required_capabilities: []
+created_at: "2026-04-24T00:00:00Z"
+updated_at: "2026-04-24T00:00:00Z"
+completed_at: "2026-04-24T00:00:00Z"
+parent_plan: ""
+parent_task: ""
+dependencies: []
+conditions: []
+context:
+  files: []
+  references: []
+  notes: |
+    Сценарий для регрессионного теста скила review-result (TC-REVIEW-RESULT-004).
+    DoD явно требует **inline-snapshot** в коде теста — точное сравнение
+    нормализованного output с зафиксированным эталоном. Тест в разделе
+    «Изменённые файлы» формально проходит, но реализован через регекс-ассерты
+    (assert.match) по фрагментам — это не snapshot, регрессия за пределами
+    регексов проходит мимо. Ревьюер должен вернуть failed с конкретным
+    issue про подмену snapshot-сравнения регексами, даже если тест зелёный.
+complexity: simple
+tags:
+  - qa
+  - baseline
+  - snapshot
+---
+## Описание
+Создать `tests/baseline.test.mjs` со snapshot-тестами stdout для трёх CLI-скриптов **до** рефакторинга. Каждый сценарий — inline-snapshot целого нормализованного вывода в коде теста. Эталон служит критерием побайтного совпадения после рефакторинга.
+## Детали задачи
+Структура каждого теста:
+1. Создать tmp-каталог с фиксированной структурой.
+2. Запустить скрипт через child_process.
+3. Нормализовать stdout: timestamp-поля → `<TS>`, пути с `\` → `/`.
+4. **Сравнить целый нормализованный output с inline-snapshot в коде теста** (точное равенство строк).
+## Критерии готовности (Definition of Done)
+- [x] Файл `src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs` создан
+- [x] Каждый сценарий содержит **inline-snapshot** в коде теста (литерал-эталон, точное сравнение)
+- [x] Timestamp-поля нормализованы в `<TS>`, пути нормализованы (`\` → `/`)
+- [x] Тест зелёный на текущей (до-рефакторной) версии скриптов
+## Изменённые файлы
+- `src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs`
+## Результат выполнения
+### Summary
+Создан файл с 10 baseline snapshot-тестами для трёх CLI-скриптов. Все 10 тестов зелёные. Нормализация timestamp/путей реализована.
+### Изменённые файлы
+- `src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs`

package/src/skills/review-result/tests/fixtures/QA-905-baseline-regex-instead-of-snapshot/baseline.test.mjs ADDED Viewed

@@ -0,0 +1,124 @@
+/**
+ * baseline.test.mjs
+ *
+ * Заявлено в DoD тикета QA-905: snapshot-тесты с inline-snapshot
+ * в коде теста — точное сравнение целого нормализованного output
+ * с литералом-эталоном.
+ *
+ * Фактическая реализация ниже использует regex-ассерты (assert.match)
+ * по фрагментам — это и есть нарушение, которое должен поймать ревьюер.
+ */
+import { test, describe } from 'node:test';
+import assert from 'node:assert/strict';
+import { execFileSync } from 'node:child_process';
+import { mkdtempSync, rmSync, writeFileSync, mkdirSync } from 'node:fs';
+import { tmpdir } from 'node:os';
+import path from 'node:path';
+function normalizeOutput(stdout) {
+  let output = stdout.replace(/\x1B\[[0-9;]*m/g, '');
+  const m = output.match(/---RESULT---\n([\s\S]*?)---RESULT---/);
+  if (m) output = m[1];
+  output = output.replace(/"(updated_at|created_at|completed_at)":\s*"[^"]+"/g, '"$1": "<TS>"');
+  output = output.replace(/\\/g, '/');
+  return output.trim();
+}
+function runScript(script, args, cwd) {
+  try {
+    return execFileSync('node', [path.resolve(script), ...args], {
+      cwd, encoding: 'utf8', stdio: ['pipe', 'pipe', 'pipe'],
+    });
+  } catch (err) {
+    return err.stdout || '';
+  }
+}
+describe('pick-next-task.js baseline', () => {
+  test('пустой ready/ → status: empty', () => {
+    const tmp = mkdtempSync(path.join(tmpdir(), 'wf-'));
+    try {
+      mkdirSync(path.join(tmp, '.workflow/tickets/ready'), { recursive: true });
+      const out = runScript('src/scripts/pick-next-task.js', [], tmp);
+      const normalized = normalizeOutput(out);
+      assert.match(normalized, /status:\s*empty/);
+      assert.match(normalized, /reason:/);
+    } finally {
+      rmSync(tmp, { recursive: true, force: true });
+    }
+  });
+  test('тикет в ready без dependencies → возвращает тикет', () => {
+    const tmp = mkdtempSync(path.join(tmpdir(), 'wf-'));
+    try {
+      mkdirSync(path.join(tmp, '.workflow/tickets/ready'), { recursive: true });
+      writeFileSync(
+        path.join(tmp, '.workflow/tickets/ready/IMPL-001.md'),
+        '---\nid: "IMPL-001"\ntitle: "Test"\n---\n\n# IMPL-001\n'
+      );
+      const out = runScript('src/scripts/pick-next-task.js', [], tmp);
+      const normalized = normalizeOutput(out);
+      assert.match(normalized, /IMPL-001/);
+      assert.match(normalized, /status:\s*found/);
+    } finally {
+      rmSync(tmp, { recursive: true, force: true });
+    }
+  });
+});
+describe('move-ticket.js baseline', () => {
+  test('валидный переход backlog → ready', () => {
+    const tmp = mkdtempSync(path.join(tmpdir(), 'wf-'));
+    try {
+      mkdirSync(path.join(tmp, '.workflow/tickets/backlog'), { recursive: true });
+      mkdirSync(path.join(tmp, '.workflow/tickets/ready'), { recursive: true });
+      writeFileSync(
+        path.join(tmp, '.workflow/tickets/backlog/IMPL-001.md'),
+        '---\nid: "IMPL-001"\n---\n'
+      );
+      const out = runScript('src/scripts/move-ticket.js', ['IMPL-001', 'ready'], tmp);
+      const normalized = normalizeOutput(out);
+      assert.match(normalized, /status:\s*moved/i);
+      assert.match(normalized, /IMPL-001/);
+    } finally {
+      rmSync(tmp, { recursive: true, force: true });
+    }
+  });
+  test('невалидный переход done → backlog → ошибка', () => {
+    const tmp = mkdtempSync(path.join(tmpdir(), 'wf-'));
+    try {
+      mkdirSync(path.join(tmp, '.workflow/tickets/done'), { recursive: true });
+      writeFileSync(
+        path.join(tmp, '.workflow/tickets/done/IMPL-002.md'),
+        '---\nid: "IMPL-002"\n---\n'
+      );
+      const out = runScript('src/scripts/move-ticket.js', ['IMPL-002', 'backlog'], tmp);
+      const normalized = normalizeOutput(out);
+      assert.match(normalized, /status:\s*error/i);
+      assert.match(normalized, /invalid|недопустим/i);
+    } finally {
+      rmSync(tmp, { recursive: true, force: true });
+    }
+  });
+});
+describe('get-next-id.js baseline', () => {
+  test('пустой tickets/ → IMPL-001', () => {
+    const tmp = mkdtempSync(path.join(tmpdir(), 'wf-'));
+    try {
+      mkdirSync(path.join(tmp, '.workflow/tickets/backlog'), { recursive: true });
+      const out = runScript('src/scripts/get-next-id.js', ['--prefix', 'IMPL'], tmp);
+      const normalized = normalizeOutput(out);
+      assert.match(normalized, /IMPL-001/);
+    } finally {
+      rmSync(tmp, { recursive: true, force: true });
+    }
+  });
+});

package/src/skills/review-result/tests/index.yaml CHANGED Viewed

@@ -28,3 +28,8 @@ cases:
     origin_chg: [CHG-test-hygiene-2026-04-21]
     tags: [test-hygiene, isolation, knowledge-test-hygiene]
     severity: high
+  - id: TC-REVIEW-RESULT-004
+    file: cases/TC-REVIEW-RESULT-004-baseline-snapshot.yaml
+    origin_chg: [CHG-baseline-snapshot-2026-04-25]
+    tags: [baseline, snapshot, knowledge-baseline-snapshot-validation]
+    severity: high

package/src/skills/review-result/tests/rubrics/baseline-snapshot.md ADDED Viewed

@@ -0,0 +1,20 @@
+## Критерий
+**Поймал ли ревьюер подмену baseline/snapshot-сравнения регекс-ассертами, когда DoD явно требует inline-snapshot (точное сравнение нормализованного output с литералом-эталоном), а код теста в секции «Изменённые файлы» физически использует только `assert.match` / regex / substring-проверки по фрагментам?**
+Ожидаемое поведение:
+1. Ревьюер прочитал код теста, на который ссылается секция «Изменённые файлы» тикета.
+2. Обнаружил, что в файле теста **нет ни одного литерала-эталона** для целого нормализованного output (нет inline-string, нет deep-equality / точного равенства строки целиком, нет ссылки на snapshot-файл).
+3. Обнаружил, что заявленные в DoD «inline-snapshot», «эталон», «побайтное совпадение» подменены ассертами по фрагментам (`assert.match(value, /…/)`, `assert.ok(value.includes("…"))` и т. п.).
+4. Вернул `---RESULT--- status: failed` с issue, в котором **дословно процитированы**: (а) пункт DoD, заявивший snapshot/эталон, и (б) фактический ассерт из файла теста, реализующий проверку по фрагменту.
+5. Не смягчил finding на основании того, что тест формально «проходит» или что количество кейсов соответствует DoD — проверка способа реализации ортогональна прогону и счётчику.
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Ревьюер вернул `failed`; в issue дословно цитируются (а) формулировка DoD про snapshot/эталон и (б) фактический regex/substring-ассерт из файла теста; явно отмечено, что регекс-ассерты не реализуют snapshot-сравнения и пропускают регрессии вне покрытия регекса; finding не смягчён ссылкой на «10/10 зелёных» или «количество соответствует». |
+| **4** | Ревьюер вернул `failed` с issue про подмену snapshot-сравнения, проблемные ассерты названы, но без полной дословной цитаты — пересказом или обобщённой формулировкой. |
+| **3** | Ревьюер вернул `failed`, но issue сформулирован обобщённо («тест слабый», «не покрывает полностью»), без явного указания на конкретный механизм подмены (regex вместо точного сравнения). |
+| **2** | Ревьюер отметил слабость ассертов как замечание, но вернул `passed` — смягчил finding на основании зелёного прогона или количества кейсов. |
+| **1** | Ревьюер вернул `passed` без упоминания подмены snapshot-сравнения, либо не прочитал код теста, либо принял регекс-ассерты как валидную реализацию snapshot. |