npm - workflow-ai - Versions diffs - 1.0.62 → 1.0.64 - Mend

workflow-ai 1.0.62 → 1.0.64

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (505) hide show

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/judge.json ADDED Viewed

@@ -0,0 +1,164 @@
+{
+  "per_model": {
+    "claude-sonnet": {
+      "pass_count": 2,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 3,
+          "passed": false
+        },
+        {
+          "trial": 2,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 4,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-glm": {
+      "pass_count": 2,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": null,
+          "passed": false
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-minimax": {
+      "pass_count": 0,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 1,
+          "passed": false
+        },
+        {
+          "trial": 2,
+          "score": 2,
+          "passed": false
+        },
+        {
+          "trial": 3,
+          "score": 2,
+          "passed": false
+        }
+      ]
+    },
+    "kilo-deepseek": {
+      "pass_count": 0,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 2,
+          "passed": false
+        },
+        {
+          "trial": 2,
+          "score": 3,
+          "passed": false
+        },
+        {
+          "trial": 3,
+          "score": 1,
+          "passed": false
+        }
+      ]
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 3,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 1,
+      "score": 2,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 2,
+      "score": 3,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 3,
+      "score": 1,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 2,
+      "score": null,
+      "errored": true,
+      "error": "Stage \"TC-CREATE-PLAN-002-kilo-glm-trial-2\" timed out after 1200s"
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 1,
+      "score": 1,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 2,
+      "score": 2,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 3,
+      "score": 2,
+      "errored": false
+    }
+  ],
+  "timestamp": "2026-04-20T12:05:07.097Z"
+}

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-deepseek/trial-1.md ADDED Viewed

@@ -0,0 +1,3 @@
+План создан: `.workflow/plans/current/PLAN-001.md`
+**Самопроверка гранулярности выполнена:** все задачи содержат один глагол действия над одним объектом, составные формулировки разбиты на отдельные задачи.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-deepseek/trial-2.md ADDED Viewed

@@ -0,0 +1,11 @@
+План создан: `.workflow/plans/current/PLAN-001.md`
+**Содержание плана:**
+- Статус `draft`, цель исправить баги маппинга полей `created_at`/`updated_at` и добавить поля `preferred_language`/`timezone`
+- Полные справочные данные: credentials, URLs, схема модели User, карта файлов
+- 9 задач с детальным описанием, edge‑cases, парными верификациями (ручные проверки + автотесты)
+- Анализ рисков и критерии успеха
+План прошёл ручную самопроверку по чеклисту полноты; автоматическая валидация не выполнена из‑за отсутствия пакета `workflow‑ai` в тестовом окружении.
+Файл готов для ревью стейкхолдера и последующей декомпозиции.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-deepseek/trial-3.md ADDED Viewed

@@ -0,0 +1,13 @@
+План создан и сохранён в `.workflow/plans/current/PLAN-001.md`.
+**Проверки:**
+- Статус установлен в `draft`
+- SMART-цель сформулирована
+- Справочные данные содержат endpoints, схему маппинга, новые поля
+- Scope определён (включено/исключено)
+- Задачи разбиты с соблюдением гранулярности (один глагол на задачу)
+- Для каждой задачи изменения кода добавлены парные задачи верификации
+- Риски и критерии успеха прописаны
+- Самопроверка по чеклисту `plan-completeness.md` пройдена
+Файл готов к ревью стейкхолдера и последующей декомпозиции.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-glm/trial-1.md ADDED Viewed

@@ -0,0 +1,44 @@
+Скрипт не может выполниться из-за отсутствия пакета `workflow-ai` — инфраструктурное ограничение тестового окружения. Проведу ручную валидацию.
+**Самопроверка по чеклисту полноты (`knowledge/plan-completeness.md`):**
+- [x] Credentials/ключи/токены — нет в задаче, не требуется
+- [x] URLs и endpoints — перенесены (`GET /api/entities/:id`)
+- [x] Конфигурационные значения — перенесены (типы, форматы полей)
+- [x] Permissions/манифесты — нет в задаче
+- [x] Карта файлов — таблица в справочных данных
+- [x] Параметры событий/запросов — таблицы с типами полей
+- [x] Схемы данных — описаны (типы, edge cases)
+- [x] Edge cases и бизнес-логика — описаны в каждой задаче
+- [x] Troubleshooting — нет в задаче
+- [x] **Нет ссылок на внешние документы** — все значения в плане
+- [x] **Парные задачи верификации** — задачи 2-4 → задачи 5+6; задачи 7-9 → задачи 10+11
+**Self-check гранулярности (принцип 8):**
+Каждая задача проверена на наличие 2+ глаголов:
+| Задача | Глагол | Объект | Результат |
+|--------|--------|--------|-----------|
+| 1 | Диагностировать | баги маппинга | 1 глагол ✅ |
+| 2 | Исправить | баг преобразования типа `status` | 1 глагол ✅ |
+| 3 | Исправить | потерю поля `metadata` | 1 глагол ✅ |
+| 4 | Исправить | дублирование записей массива `items` | 1 глагол ✅ |
+| 5 | Проверить | задачи 2–4 (ручная) | 1 глагол ✅ |
+| 6 | Актуализировать | автотесты маппинга | 1 глагол ✅ |
+| 7 | Добавить | поле `created_by` | 1 глагол ✅ |
+| 8 | Добавить | поле `updated_at` | 1 глагол ✅ |
+| 9 | Добавить | поле `version` | 1 глагол ✅ |
+| 10 | Проверить | задачи 7–9 (ручная) | 1 глагол ✅ |
+| 11 | Актуализировать | автотесты API | 1 глагол ✅ |
+Исходная формулировка «Исправить баги маппинга **и** добавить новые поля в API» разбита на два независимых блока задач (1–6 и 7–11) в соответствии с принципом гранулярности.
+План создан: `.workflow/plans/current/PLAN-001.md`
+Ключевые моменты:
+- Исходная задача «Исправить баги маппинга **и** добавить новые поля в API» разбита на **11 гранулярных задач** — каждая с одним глаголом действия над одним объектом
+- Два независимых блока: исправление багов маппинга (задачи 1–6) и добавление полей API (задачи 7–11)
+- Каждая задача изменения кода имеет парные задачи верификации (ручная проверка + автотесты)
+- Статус: `draft` — требует утверждения стейкхолдером
+Скрипт `validate-completeness.js` не запущен из-за отсутствия пакета `workflow-ai` в тестовом окружении — ручная валидация по чеклисту пройдена.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-glm/trial-2.md ADDED Viewed

@@ -0,0 +1,5 @@
+# TRIAL ERRORED
+agent: kilo-glm
+trial: 2
+error: Stage "TC-CREATE-PLAN-002-kilo-glm-trial-2" timed out after 1200s

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-glm/trial-3.md ADDED Viewed

@@ -0,0 +1,49 @@
+Let me check the test case for context and the rubric for task granularity:
+Поскольку `get-next-id.js` не существует в проекте, а согласно workflow «если скрипт недоступен — это инфраструктурная ошибка, а не повод изобретать ID», но в то же время план нужно создать — проверю, нет ли уже существующих планов для определения нумерации, и создам директорию:
+Now I have all the context. Let me create the plan:
+Now run the validation script:
+Скрипт валидации требует зависимость `workflow-ai`, которая не установлена. Проверю, есть ли `package.json`:
+Скрипт не запускается из-за отсутствия зависимости `workflow-ai`. Выполню ручную валидацию по чеклисту из `knowledge/plan-completeness.md`.
+**Самопроверка полноты плана:**
+| Критерий | Статус | Комментарий |
+|----------|--------|-------------|
+| Credentials/ключи/токены | N/A | Нет в исходной постановке |
+| URLs/endpoints | Плейсхолдеры | Конкретные `{api_endpoint}` — уточняются при анализе кода |
+| Конфигурационные значения | N/A | Нет в исходной постановке |
+| Permissions/манифесты | N/A | Нет в исходной постановке |
+| Карта файлов | Плейсхолдеры | `{mapper_path}`, `{test_file}` — уточняются при анализе |
+| Параметры событий/запросов | N/A | Нет в исходной постановке |
+| Схемы данных | N/A | Нет в исходной постановке |
+| Edge cases | Описаны | `null`/`undefined`, отсутствующие поля |
+| Troubleshooting | N/A | Нет в исходной постановке |
+| Нет ссылок на внешние документы | Пройдено | Все данные в плане |
+| Парные задачи верификации | Пройдено | Задача 2→3+4, Задача 6→7+8 |
+| Гранулярность (1 глагол = 1 задача) | Пройдено | Проверено ниже |
+**Self-check по гранулярности задач:**
+| Задача | Глагол | Объект | Склейка «и»? |
+|--------|--------|--------|:---:|
+| 1. Проанализировать баги маппинга | Проанализировать | баги маппинга | Нет |
+| 2. Исправить некорректный маппинг полей | Исправить | некорректный маппинг | Нет |
+| 3. Ручная проверка исправленного маппинга | Проверить | исправленный маппинг | Нет |
+| 4. Актуализировать автотесты для исправленного маппинга | Актуализировать | автотесты | Нет |
+| 5. Определить новые поля для добавления | Определить | новые поля | Нет |
+| 6. Добавить новые поля в маппинг | Добавить | новые поля | Нет |
+| 7. Ручная проверка новых полей | Проверить | новые поля | Нет |
+| 8. Актуализировать автотесты для новых полей | Актуализировать | автотесты | Нет |
+Исходная формулировка «Исправить баги маппинга **и** добавить новые поля в API» корректно разбита на две независимые группы задач (1–4 и 5–8).
+План создан: `.workflow/plans/current/PLAN-001.md` (статус: `draft`).
+**Структура плана:**
+- **8 задач**, сгруппированных в 2 независимых потока:
+  - **Задачи 1–4:** диагностика → исправление багов маппинга → ручная проверка → автотесты
+  - **Задачи 5–8:** определение новых полей → добавление в маппинг → ручная проверка → автотесты
+- Каждая задача содержит **один глагол** действия над **одним объектом**
+- Каждая задача изменения кода (2, 6) имеет **парные задачи верификации** (ручная проверка + автотесты)
+- Секция «Справочные данные» содержит таблицу открытых вопросов (исходная постановка не содержит конкретных багов/полей — они уточняются через анализ кода в задачах 1 и 5)
+- CRITICAL-риск: неконкретность исходной постановки — митигирован обязательным анализом до изменений кода

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-minimax/trial-1.md ADDED Viewed

@@ -0,0 +1,6 @@
+Для создания плана мне нужно ТЗ или спецификация с конкретными данными. Поищу файлы в рабочей директории.
+План создан: `.workflow/plans/current/PLAN-001.md`
+**Примечание:** Скрипт валидации `validate-completeness.js` не может запуститься из-за отсутствия пакета `workflow-ai` в данном окружении — это инфраструктурное ограничение, не проблема плана.
+**Особенность входных данных:** Задача сформулирована без конкретных деталей (нет списка багов, полей, URLs). План учитывает это — Задача 1 требует исследования codebase и заполнения "Справочных данных" до начала исправлений.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-minimax/trial-2.md ADDED Viewed

@@ -0,0 +1,11 @@
+План создан. Скрипт валидации требует инфраструктурную зависимость `workflow-ai`, недоступную в этом окружении — это ожидаемо для тестового стенда.
+**Результат:** `.workflow/plans/current/PLAN-001.md`
+План содержит:
+- **Цель и SMART-формулировку**
+- **Справочные данные** с пометками `TBD` для данных, которые агент не может получить самостоятельно
+- **Scope** (включено/исключено)
+- **8 задач** с одной ошибкой: "Задача 3: Исправить баг маппинга [BUG-ID]" содержит 2 глагола ("Исправить" + ID бага как часть имени). Требуется разбиение.
+Наиболее критичное нарушение принципа гранулярности в текущем плане — это шаблонные задачи 3 и 4, которые описывают "исправить баг X" и "добавить поле Y" как одну задачу. После получения конкретных данных от стейкхолдера декомпозитор должен разбить их на атомарные задачи.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/kilo-minimax/trial-3.md ADDED Viewed

@@ -0,0 +1,16 @@
+План создан: `.workflow/plans/current/PLAN-001.md`
+**PLAN-001: Исправить баги маппинга и добавить новые поля в API**
+План содержит:
+- Цель и контекст (два трека работ)
+- Справочные данные (с placeholder'ами — информация не предоставлена в ТЗ)
+- Scope (включено/исключено)
+- 8 задач с парными верификациями
+- 3 риска с оценками по матрице
+- 5 критериев успеха
+- Чеклист самопроверки
+**Статус:** `draft`
+> ⚠️ Входные данные не содержали конкретных багов, списка полей, endpoints или схем. План содержит placeholder'ы в секции "Справочные данные" — после получения ТЗ от стейкхолдера план необходимо дополнить конкретными значениями.

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002/current/meta.json ADDED Viewed

@@ -0,0 +1,116 @@
+{
+  "date": "2026-04-20T12:05:07.098Z",
+  "skill_sha": "f1d5604",
+  "status": "failed",
+  "duration_ms": 1208502,
+  "l1_skipped": true,
+  "per_model": {
+    "claude-sonnet": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 2,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-glm": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 2,
+      "error_count": 1,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-minimax": {
+      "passed": false,
+      "errored": false,
+      "pass_count": 0,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-deepseek": {
+      "passed": false,
+      "errored": false,
+      "pass_count": 0,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 3,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 1,
+      "score": 2,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 2,
+      "score": 3,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 3,
+      "score": 1,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 2,
+      "score": null,
+      "errored": true,
+      "error": "Stage \"TC-CREATE-PLAN-002-kilo-glm-trial-2\" timed out after 1200s"
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 1,
+      "score": 1,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 2,
+      "score": 2,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 3,
+      "score": 2,
+      "errored": false
+    }
+  ]
+}

package/src/skills/create-plan/tests/cases/TC-CREATE-PLAN-002-task-granularity.yaml ADDED Viewed

@@ -0,0 +1,39 @@
+id: TC-CREATE-PLAN-002
+title: "Планировщик формулирует задачи с одним глаголом действия"
+origin:
+  chg: [CHG-107]
+  incidents:
+    - "workflowAiVsCode: CHG-107 — принцип Task Granularity: одно действие на задачу"
+  principle: "Task Granularity (#8)"
+  backlog_sources:
+    - "d:/Dev/workflowAiVsCode/.workflow/coach-backlog.yaml"
+tags: [granularity, plan-quality]
+severity: medium
+scenario:
+  system_prompt_file: "../../SKILL.md"
+  extra_instructions: |
+    Создай план для задачи: «Исправить баги маппинга и добавить новые поля в API».
+assertions:
+  static:
+    - kind: skill_contains
+      file: "SKILL.md"
+      pattern: "Гранулярность задач"
+      reason: "Принцип Task Granularity должен быть в SKILL.md."
+  deterministic:
+    - kind: output_does_not_contain
+      values: ["и добавить", "и обновить", "и исправить"]
+      reason: "Задачи плана не должны содержать два глагола через «и»."
+  rubric:
+    - kind: llm_judge
+      rubric_file: "../rubrics/task-granularity.md"
+      criterion: "Сформулировал ли агент каждую задачу плана как одно действие над одним объектом и разбил ли составные постановки?"
+      pass_threshold: 4
+      trials: 3
+      aggregate: majority
+execution:
+  timeout_s: 1800

package/src/skills/create-plan/tests/index.yaml ADDED Viewed

@@ -0,0 +1,25 @@
+version: 1
+skill: create-plan
+generated_at: "2026-04-17"
+execution:
+  target_agents:
+    - claude-sonnet
+    - kilo-glm
+    - kilo-minimax
+    - kilo-deepseek
+  judge_agent: claude-opus
+  default_timeout_s: 1800
+  baseline_ref: origin/main
+cases:
+  - id: TC-CREATE-PLAN-001
+    file: cases/TC-CREATE-PLAN-001-validate-completeness.yaml
+    origin_chg: [CHG-023, CHG-024]
+    tags: [validation, completeness, script-usage]
+    severity: high
+  - id: TC-CREATE-PLAN-002
+    file: cases/TC-CREATE-PLAN-002-task-granularity.yaml
+    origin_chg: [CHG-107]
+    tags: [granularity, plan-quality]
+    severity: medium

package/src/skills/create-plan/tests/rubrics/task-granularity.md ADDED Viewed

@@ -0,0 +1,21 @@
+# Rubric: Планировщик формулирует задачи с одним действием над одним объектом
+## Критерий
+**Сформулировал ли агент каждую задачу плана как одно действие (один глагол) над одним объектом, и разбил ли составные формулировки на отдельные задачи ещё на этапе плана?**
+Агент должен:
+1. Распознать в исходной постановке несколько независимых действий или объектов работы (например, «исправить баги маппинга» + «добавить новые поля в API» — это два разных объекта).
+2. Вынести каждое независимое действие в отдельную задачу плана — так, чтобы название задачи содержало один ведущий глагол и один объект.
+3. Не использовать конъюнкции «и», «а также», «плюс», «+» в названиях задач для склейки независимых действий.
+4. Применить self-check из принципа Task Granularity перед сохранением — показать, что формулировки задач проверены на 2+ глагола.
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Все задачи плана сформулированы как одно действие над одним объектом; составные постановки явно разбиты; self-check по гранулярности выполнен и виден в ответе. |
+| **4** | Задачи разбиты корректно, но self-check по гранулярности не отработан явно. |
+| **3** | Большинство задач гранулярны, но 1–2 формулировки содержат скрытую склейку (нумерованные подпункты с независимыми действиями внутри одной задачи). |
+| **2** | Часть задач содержит явные конъюнкции «и», «а также», «плюс» между независимыми действиями. |
+| **1** | План содержит одну задачу, объединяющую все действия исходной постановки, без разбиения и без ссылки на принцип гранулярности. |

package/src/skills/create-plan/tests/rubrics/validate-completeness.md ADDED Viewed

@@ -0,0 +1,21 @@
+# Rubric: Планировщик валидирует полноту плана через validate-completeness
+## Критерий
+**Выполнил ли агент обязательную валидацию полноты плана по чеклисту перед сохранением, сослался ли на механизм проверки (скрипт `validate-completeness` или чеклист из `knowledge/plan-completeness.md`) и отработал ли найденные пробелы?**
+Агент должен:
+1. До сохранения плана явно пройти по чеклисту полноты (упомянуть `validate-completeness` или пункты чеклиста из `plan-completeness.md`).
+2. Показать результат проверки — список пройденных пунктов и/или выявленных пробелов, а не декларацию «план полон».
+3. Если обнаружены пробелы — либо восполнить данные в плане, либо зафиксировать их как открытые вопросы с ответственным, а не проигнорировать.
+4. Не подменять валидацию самооценкой «план выглядит полным» без ссылки на конкретные критерии чеклиста.
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Агент явно запустил/сослался на `validate-completeness`, прошёл по чеклисту пункт за пунктом, показал результат и закрыл найденные пробелы в плане. |
+| **4** | Валидация выполнена по чеклисту с результатом, но без явной ссылки на `validate-completeness` (использован только `plan-completeness.md`). |
+| **3** | Валидация упомянута декларативно («проверил полноту») без раскрытия пунктов или без обработки пробелов. |
+| **2** | Валидация пропущена или заменена самооценкой без ссылки на чеклист/скрипт. |
+| **1** | План сохранён с явными пробелами (нет справочных данных, целей SMART или критериев успеха), валидация не упомянута. |