npm - workflow-ai - Versions diffs - 1.1.0 → 1.3.0 - Mend

workflow-ai 1.1.0 → 1.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (599) hide show

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-001/current/kilo-minimax/trial-2.md DELETED Viewed

@@ -1,38 +0,0 @@
-# Верификация атрибуции root cause для QA-001
-## Результат верификации по логу
-| Finding из REPORT-002 | Данные из лога | Верификация |
-|----------------------|----------------|-------------|
-| Root cause: `check-conditions.js` | Step 313: `Result: conditions_ok` | **НЕВЕРНО** |
-| Стейдж принял решение о skip | Step 314: `decision: irrelevant` (dependencies_inactive) | **ВЕРНО** |
-| Финальное решение | Step 315: `skip-ticket` исполнил skip | **ВЕРНО** |
-## Корректная атрибуция
-| Stage | Step | Данные | Оценка |
-|-------|------|--------|--------|
-| `check-conditions` | 313 | `dependencies.resolved: true`, `prerequisites.met: true`, `blocking_tickets: []` → `conditions_ok` | **OK** — корректно определил условия |
-| `check-relevance` | 314 | `dependencies.status: inactive` → `decision: irrelevant` | **ПРОБЛЕМА** — решение о skip принято здесь |
-| `skip-ticket` | 315 | получил `reason: dependencies_inactive` от `check-relevance` | **OK** — исполнил решение |
-## Root cause ( corrected )
-**`check-relevance.js`** — стейдж принял решение `irrelevant` на основании `dependencies.status: inactive`, что привело к skip тикета QA-001.
-`check-conditions.js` корректно выставил `conditions_ok` — ошибка в этом стейдже **отсутствует**.
-## Рекомендации (скорректированные)
-| # | Действие | Приоритет |
-|---|----------|-----------|
-| 1 | Пересмотреть логику проверки статуса зависимостей в `check-relevance.js` | CRITICAL |
-| 2 | Уточнить критерии, при которых `dependencies.status: inactive` ведёт к `irrelevant` | HIGH |
----
----RESULT---
-status: has_gaps
-report_id: REPORT-002
-gaps: "Корректная атрибуция: root cause — check-relevance.js, а не check-conditions.js. Стейдж check-relevance некорректно определяет dependencies.status: inactive как достаточное условие для irrelevant."
----RESULT---

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-001/current/kilo-minimax/trial-3.md DELETED Viewed

@@ -1,61 +0,0 @@
-## Верификация findings по логу
-### Верификация Finding 1: `check-conditions.js` — НЕВЕРНАЯ АТРИБУЦИЯ
-| Данные из лога | Проверка |
-|----------------|----------|
-| `Result: conditions_ok` (Step 313) | `check-conditions.js` вернул **positive** результат |
-| `status="conditions_ok"` | Стейдж **успешно прошёл**, ошибки нет |
-**Finding 1 — НЕ ПОДТВЕРЖДЁН** `[HIGH]` — предыдущий отчёт присвоил root cause стейджу `check-conditions.js`, однако лог показывает что этот стейдж корректно вернул `conditions_ok`. Ошибка в том, что тикет был пропущен, но `check-conditions.js` НЕ является причиной.
----
-### Верификация Finding 2: Решение о skip принято стейджем `check-relevance`
-| Данные из лога (строка 29) | Проверка |
-|---------------------------|----------|
-| `decision: irrelevant (dependencies inactive)` | Стейдж `check-relevance` принял решение `irrelevant` |
-| `reason=dependencies_inactive` | Основание: зависимости тикета неактивны |
-| `status="irrelevant"` | Финальный статус от `check-relevance` |
-**Finding 2 — ПОДТВЕРЖДЁН** `[HIGH]` — итоговое решение о skip принято стейджем `check-relevance` (строка 29 лога), а не `check-conditions.js`.
----
-## Корректная атрибуция
-| Компонент | Роль в инциденте | Подтверждение |
-|-----------|-----------------|---------------|
-| `check-conditions.js` | Пройден успешно, **НЕ является причиной** | `Result: conditions_ok` |
-| `check-relevance.js` | **Принял решение** о skip тикета | `decision=irrelevant, reason=dependencies_inactive` |
-| `skip-ticket` | Исполнил решение | Использовал `reason from check-relevance` |
----
-## Результат анализа
-| Finding | Предыдущий отчёт | Лог | Корректная атрибуция |
-|---------|-----------------|-----|---------------------|
-| Root cause skip QA-001 | `check-conditions.js` | Стейдж вернул `conditions_ok` | `check-relevance.js` |
----
-## Рекомендации (actionable)
-| # | Действие | Почему | Ожидаемый результат | Приоритет |
-|---|----------|--------|---------------------|-----------|
-| 1 | Пересмотреть логику `check-relevance.js` — проверку `dependencies.status` | Стейдж пометил тикет как irrelevant по признаку `inactive`, но не проверил, является ли это реальным block для выполнения | Тикеты с неактивными зависимостями не будут ошибочно пропускаться | CRITICAL |
-| 2 | Исправить REPORT-002 | Root cause атрибутирован некорректно | Отчёт отражает реальную картину | HIGH |
----
-## За пределами скоупа
-- Логика определения `dependencies.status: inactive` в `check-relevance.js` — требует отдельного исследования (как определяется inactive, кто его выставляет)
----RESULT---
-status: has_gaps
-report_id: REPORT-002
-gaps: "Некорректная атрибуция root cause: skip QA-001 вызван стейджем check-relevance.js (dependencies_inactive), а не check-conditions.js. REPORT-002 содержит ошибку в атрибуции."
----RESULT---

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-001/current/meta.json DELETED Viewed

@@ -1,115 +0,0 @@
-{
-  "date": "2026-04-25T10:23:46.986Z",
-  "skill_sha": "7d62ab4",
-  "status": "passed",
-  "duration_ms": 50868,
-  "l1_skipped": true,
-  "per_model": {
-    "claude-sonnet": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-glm": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-minimax": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-deepseek": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    }
-  },
-  "rubric_scores": [
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 2,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    }
-  ]
-}

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-001-evidence-from-log.yaml DELETED Viewed

@@ -1,60 +0,0 @@
-id: TC-ANALYZE-REPORT-001
-title: "Анализатор верифицирует каждый finding по логу пайплайна"
-origin:
-  chg: [CHG-028, CHG-048]
-  incidents:
-    - "workflowAi: CHG-028 — повторил неверную атрибуцию из отчёта без проверки лога"
-  principle: "Evidence verification из лога"
-  backlog_sources:
-    - ".workflow/coach-backlog.yaml"
-tags: [evidence, log-verification]
-severity: high
-scenario:
-  system_prompt_file: "../../SKILL.md"
-  extra_instructions: |
-    Стейкхолдер просит: «Проанализируй прогресс плана PLAN-001 по текущей итерации.
-    Входные данные в рабочей директории: REPORT-002-incorrect-attribution.md
-    (предыдущий отчёт с атрибуцией root cause) и pipeline-2026-04-06_qa-001-skip.log
-    (лог пайплайна итерации).»
-    В отчёте root cause для QA-001 атрибутирован `check-conditions.js`. В логе
-    итоговое решение о skip приняла запись стейджа `check-relevance` (строка 29:
-    decision=irrelevant, reason=dependencies_inactive). Верифицируй каждый finding
-    по логу и выдай корректную атрибуцию.
-  inputs:
-    - kind: file
-      path: "../fixtures/REPORT-002-incorrect-attribution.md"
-      as: previous_report
-    - kind: file
-      path: "../fixtures/pipeline-2026-04-06_qa-001-skip.log"
-      as: pipeline_log
-assertions:
-  static:
-    - kind: skill_contains
-      file: "SKILL.md"
-      pattern: "Evidence"
-      reason: "Принцип Evidence должен быть в SKILL.md."
-    - kind: skill_contains
-      file: "SKILL.md"
-      pattern: "RESULT"
-      reason: "Формат ---RESULT--- обязателен."
-  deterministic:
-    - kind: output_contains_all
-      values: ["---RESULT---"]
-    - kind: output_does_not_contain
-      values: ["check-conditions"]
-      reason: "Не должен копировать неверную атрибуцию."
-  rubric:
-    - kind: llm_judge
-      rubric_file: "../rubrics/evidence-from-log.md"
-      criterion: "Верифицировал ли агент finding по явной ссылке на лог пайплайна вместо принятия атрибуции отчёта на веру?"
-      pass_threshold: 4
-      trials: 3
-      aggregate: majority
-execution:
-  timeout_s: 1200

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-002/current/claude-sonnet/trial-1.md DELETED Viewed

@@ -1,90 +0,0 @@
----
-# Анализ: PROGRESS
-**Дата анализа:** 2026-04-20
-**Анализируемый план:** PLAN-001
-**Анализируемый отчёт:** н/д
-**Тип анализа:** PROGRESS
----
-## Executive Summary
-Анализ прогресса PLAN-001 **невозможен** — файл плана отсутствует в `.workflow/plans/`, директории тикетов полностью пусты (done, in-progress, ready, blocked, backlog), отчёты и логи также отсутствуют. Нет ни одного источника данных для анализа. Принцип Evidence-Based нарушен невозможностью: данных нет = вывода нет. Обнаружен критический пробел — план PLAN-001 не существует или не был инициализирован в рабочей среде.
----
-## Метрики
-| Метрика | Значение | Статус |
-|---------|----------|--------|
-| Completion Rate | н/д | 🔴 |
-| Weighted Completion | н/д | 🔴 |
-| First-Pass Rate | н/д | 🔴 |
-| Block Rate | н/д | 🔴 |
-| Тренд | н/д | — |
-## Распределение задач
-| Статус | Количество | % |
-|--------|-----------|---|
-| Done | 0 | — |
-| In Progress | 0 | — |
-| Ready | 0 | — |
-| Blocked | 0 | — |
-| Backlog | 0 | — |
-| **ИТОГО** | **0** | **—** |
----
-## Ключевые находки
-### 1. Файл плана PLAN-001 не найден
-**Уверенность:** [HIGH]
-**Данные:** `find .workflow/plans/ -type f` вернул пустой результат. Директории `current/` и `archive/` в `.workflow/plans/` пусты.
-### 2. Тикеты плана отсутствуют
-**Уверенность:** [HIGH]
-**Данные:** Все поддиректории `.workflow/tickets/` (done, in-progress, ready, blocked, backlog, archive) пусты — ни одного файла тикета не обнаружено.
-### 3. Отчёты и логи отсутствуют
-**Уверенность:** [HIGH]
-**Данные:** `.workflow/reports/` и `.workflow/logs/` — пусты. Верификация проблем по логам пайплайна невозможна.
----
-## Проблемы и риски
-| # | Проблема | Серьёзность | Данные | Рекомендация |
-|---|---------|-------------|--------|-------------|
-| 1 | Файл PLAN-001 не существует | CRITICAL | `.workflow/plans/current/` и `archive/` пусты | Создать план PLAN-001 через скил create-plan |
-| 2 | Тикеты плана не созданы | CRITICAL | Все директории `.workflow/tickets/` пусты | После создания плана — запустить декомпозицию через decompose-plan |
----
-## Рекомендации
-| # | Действие | Приоритет | Почему | Ожидаемый результат |
-|---|---------|-----------|--------|-------------------|
-| 1 | Создать план PLAN-001 через скил `create-plan` | CRITICAL | Нет файла плана — анализ прогресса невозможен | Появится план с целями, скоупом и критериями завершения |
-| 2 | Запустить декомпозицию плана через `decompose-plan` | CRITICAL | Без тикетов нечего отслеживать | Появятся атомарные тикеты, привязанные к PLAN-001 |
-| 3 | Повторить анализ прогресса после создания данных | HIGH | Текущий анализ не имеет предмета | Станет возможна полноценная оценка прогресса |
----
-## За пределами скоупа
-Нет данных для наблюдений за пределами скоупа.
----
-## Решение
-**Статус плана:** 🔴 CRITICAL (данные отсутствуют — план не инициализирован)
-**Рекомендуемое действие:** Эскалировать — план PLAN-001 требует создания
----RESULT---
-status: has_gaps
-gaps: "PLAN-001 не существует в .workflow/plans/ — файл плана и все тикеты отсутствуют. Необходимо создать план через create-plan и выполнить декомпозицию через decompose-plan."
----RESULT---

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-002/current/claude-sonnet/trial-2.md DELETED Viewed

@@ -1,89 +0,0 @@
-Данные проекта отсутствуют — все директории пустые. Согласно алгоритму workflow, продолжу по шагу 2b (ручной расчёт/fallback) и сформирую отчёт на основании доступных данных.
----
-## Анализ прогресса PLAN-001
-**Тип анализа:** PROGRESS
-**Дата анализа:** 2026-04-20
----
-### Executive Summary
-Анализ плана PLAN-001 не может быть проведён в полном объёме: в проекте отсутствуют данные — файл плана (`.workflow/plans/`), тикеты (`.workflow/tickets/`), отчёты (`.workflow/reports/`) и логи пайплайна (`.workflow/logs/`). Все директории пусты. Это само по себе является значимым finding'ом: либо PLAN-001 ещё не был инициализирован, либо артефакты были удалены/не созданы. Без данных оценка прогресса невозможна — согласно принципу Evidence-Based, вывод о завершённости плана сформировать нельзя.
----
-### Метрики прогресса
-| Метрика | Значение | Источник |
-|---------|----------|---------|
-| Файл плана `.workflow/plans/` | Не найден | Glob |
-| Тикеты в `done/` | 0 | Glob |
-| Тикеты в `in-progress/` | 0 | Glob |
-| Тикеты в `ready/` | 0 | Glob |
-| Тикеты в `blocked/` | 0 | Glob |
-| Отчёты в `.workflow/reports/` | Не найдены | Glob |
-| Логи в `.workflow/logs/` | Не найдены | Glob |
-| Completion Rate | N/A — нет данных | — |
-**Скрипт `calc-plan-metrics.js`** не запускался — нет входных данных (отсутствует файл плана).
----
-### Findings
-#### F-001: Отсутствие артефактов плана `[HIGH]` `[HIGH confidence — verified by filesystem]`
-**Факт:** Директории `.workflow/plans/current/`, `.workflow/tickets/done/`, `.workflow/tickets/in-progress/`, `.workflow/reports/` не содержат файлов.
-**Evidence:** filesystem scan — все директории пусты.
-**Интерпретация [MEDIUM]:** PLAN-001 либо не был создан, либо его артефакты не попали в анализируемое окружение.
-#### F-002: Невозможность верификации прогресса `[HIGH]`
-**Факт:** Без файла плана нельзя определить скоуп, тикеты и критерии завершённости.
-**Confidence:** HIGH — отсутствие файлов подтверждено прямой проверкой FS.
-**Log evidence:** evidence not found (`.workflow/logs/` — пусто), confidence LOW для любых выводов о причинах.
----
-### Статус плана
-🔴 **Невозможно определить** — артефакты отсутствуют.
-Критерий `completed` (100% тикетов в `done/` + no gaps) **не выполнен** — нет ни одного тикета в `done/`, нет файла плана.
----
-### Рекомендации
-| Приоритет | Действие | Почему | Ожидаемый результат |
-|-----------|---------|--------|-------------------|
-| **HIGH** | Проверить, был ли PLAN-001 создан: выполнить `glob .workflow/plans/**/*.md` в рабочем окружении | Файл плана не найден, без него анализ невозможен | Либо найдётся файл плана, либо подтвердится необходимость его создания |
-| **HIGH** | Убедиться, что артефакты тикетов генерируются и сохраняются в `.workflow/tickets/` | Все директории тикетов пусты — возможна ошибка в пайплайне | Корректное сохранение тикетов для дальнейшего анализа |
-| **MEDIUM** | Проверить конфигурацию логирования — `.workflow/logs/` пуст | Без логов невозможна верификация проблем (принцип evidence-based) | Логи появятся, анализ станет доказательным |
----
-### За пределами скоупа
-Тест-кейс TC-ANALYZE-REPORT-002 содержит фикстуру `REPORT-002-incorrect-attribution.md` — анализ этого артефакта выходит за скоуп текущего запроса (PLAN-001).
----
-### Self-check
-- [x] Секция Result заполнена
-- [x] Каждый вывод подкреплён конкретными данными (filesystem verification)
-- [x] Рекомендации actionable (содержат конкретное действие)
-- [x] Уровни уверенности проставлены
-- [x] Пункты DoD: все выводы основаны на реальных данных (отсутствие файлов — это данные)
----
----RESULT---
-status: has_gaps
-report_id: REPORT-PLAN-001-PROGRESS
-gaps: "Файл PLAN-001 и все его артефакты (тикеты, отчёты, логи) отсутствуют в .workflow/ — прогресс невозможно оценить, план не может считаться завершённым."
----RESULT---

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-002/current/claude-sonnet/trial-3.md DELETED Viewed

@@ -1,5 +0,0 @@
-# TRIAL ERRORED
-agent: claude-sonnet
-trial: 3
-error: Agent exited with code 143

package/src/skills/analyze-report/tests/cases/TC-ANALYZE-REPORT-002/current/judge.json DELETED Viewed

@@ -1,163 +0,0 @@
-{
-  "per_model": {
-    "claude-sonnet": {
-      "pass_count": 3,
-      "total": 3,
-      "trials": [
-        {
-          "trial": 1,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 2,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 3,
-          "score": 5,
-          "passed": true
-        }
-      ]
-    },
-    "kilo-glm": {
-      "pass_count": 3,
-      "total": 3,
-      "trials": [
-        {
-          "trial": 1,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 2,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 3,
-          "score": 5,
-          "passed": true
-        }
-      ]
-    },
-    "kilo-minimax": {
-      "pass_count": 3,
-      "total": 3,
-      "trials": [
-        {
-          "trial": 1,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 2,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 3,
-          "score": 5,
-          "passed": true
-        }
-      ]
-    },
-    "kilo-deepseek": {
-      "pass_count": 2,
-      "total": 3,
-      "trials": [
-        {
-          "trial": 1,
-          "score": 1,
-          "passed": false
-        },
-        {
-          "trial": 2,
-          "score": 5,
-          "passed": true
-        },
-        {
-          "trial": 3,
-          "score": 5,
-          "passed": true
-        }
-      ]
-    }
-  },
-  "rubric_scores": [
-    {
-      "agentId": "claude-sonnet",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 1,
-      "score": 1,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-deepseek",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-minimax",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    }
-  ],
-  "timestamp": "2026-04-20T12:21:11.682Z"
-}