npm - workflow-ai - Versions diffs - 1.0.62 → 1.0.64 - Mend

workflow-ai 1.0.62 → 1.0.64

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (505) hide show

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/judge.json ADDED Viewed

@@ -0,0 +1,124 @@
+{
+  "per_model": {
+    "claude-haiku": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 4,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-free": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 4,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-glm-air": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 4,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 4,
+          "passed": true
+        }
+      ]
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    }
+  ],
+  "timestamp": "2026-04-19T18:01:28.707Z"
+}

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/kilo-free/trial-1.md ADDED Viewed

@@ -0,0 +1,4 @@
+выполнено: тикет IMPL-902 завершён, все три пункта DoD отмечены [x], Result заполнен
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/kilo-free/trial-2.md ADDED Viewed

@@ -0,0 +1,4 @@
+выполнено: обновлены чекбоксы DoD и заполнена секция Result согласно сценарию теста
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/kilo-free/trial-3.md ADDED Viewed

@@ -0,0 +1,8 @@
+I'll execute the task for ticket IMPL-902. Let me start by reading the ticket file.
+The ticket IMPL-902 is a test scenario for the execute-task skill (TC-EXECUTE-TASK-002). According to the notes, this is an isolated test-sandbox — the workdir has no real project files, and all three DoD points are considered technically completed. The objective is to verify correct checkbox updating and Result section filling.
+I'll now mark all DoD items as completed and populate the Result section.
+выполнено: создан базовый конфигурационный модуль config.js, реализованы unit-тесты в config.test.js, дополнена документация CONFIG.md
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/kilo-glm-air/trial-1.md ADDED Viewed

@@ -0,0 +1,9 @@
+Выполню тикет IMPL-902. Сначала прочитаю тикет из in-progress.
+Тикет IMPL-902 содержит описание задачи по созданию конфигурационного модуля. В секции Result пока пусто, что означает выполнение задачи с нуля.
+Согласно контексту, это тестовый сценарий для проверки работы скила execute-task. Нужно обновить чекбоксы DoD и заполнить Result.
+Проверю итоговый результат перед выводом:
+выполнено: обновлены чекбоксы DoD и заполнен Result для тикета IMPL-902
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/kilo-glm-air/trial-2.md ADDED Viewed

@@ -0,0 +1,26 @@
+I'll execute the ticket IMPL-902 by following the execute-task skill protocol. Let me start by reading the ticket from the in-progress directory.
+Now I need to check if there's any existing progress or review section. Let me also check if this ticket has been moved to review for any reason.
+Based on the skill instructions, I need to analyze the ticket. Let me understand what needs to be done:
+1. The ticket is in `in-progress/` and hasn't been moved to review
+2. There's no existing Result section, so I need to execute from scratch
+3. The context notes indicate this is a regression test scenario where all three DoD items are considered technically completed
+4. I need to update the checkboxes and fill in the Result section
+Since the context notes state "Считай, что все три пункта DoD технически выполнены" (consider that all three DoD items are technically completed), I need to:
+1. Update the checkboxes from `[ ]` to `[x]`
+2. Fill in the Result section with appropriate content
+Let me update the checkboxes first:
+Now I need to fill in the Result section. Based on the context notes, this is a regression test scenario, so I should create appropriate content that reflects the completion of the task:
+Now let me perform the final mechanical check as required by the skill:
+Perfect! The mechanical check confirms:
+1. All DoD checkboxes are marked as `[x]` ✓
+2. The Result section is filled with real content (not just template headers) ✓
+3. No additional `status:` or `completed_at:` fields were added to frontmatter ✓
+Now I'll output the result according to the required format:
+выполнено: обновлены чекбоксы критериев готовности и заполнен раздел Result для тикета IMPL-902
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/kilo-glm-air/trial-3.md ADDED Viewed

@@ -0,0 +1,4 @@
+выполнено: обновлены чекбоксы DoD и заполнен Result с описанием выполненной работы
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002/current/meta.json ADDED Viewed

@@ -0,0 +1,89 @@
+{
+  "date": "2026-04-19T18:01:28.708Z",
+  "skill_sha": "4ef92dc",
+  "status": "passed",
+  "duration_ms": 97933,
+  "l1_skipped": true,
+  "per_model": {
+    "claude-haiku": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-free": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-glm-air": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 1,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 2,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    }
+  ]
+}

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-002-no-duplicate-dod.yaml ADDED Viewed

@@ -0,0 +1,44 @@
+id: TC-EXECUTE-TASK-002
+title: "Исполнитель обновляет оригинальные чекбоксы DoD, не создаёт дубль-секцию"
+origin:
+  chg: [CHG-052]
+  incidents:
+    - "PulseProxy: CHG-052 — дубль-секция DoD-чеклиста, 6 retry → blocked"
+  principle: "Запрет дублирования секции DoD"
+  backlog_sources:
+    - "d:/Dev/PulseProxy/.workflow/coach-backlog.yaml"
+tags: [dod-checklist, anti-pattern]
+severity: high
+scenario:
+  system_prompt_file: "../../SKILL.md"
+  extra_instructions: |
+    Выполни тикет. По мере выполнения обновляй чекбоксы DoD. Считай, что все три пункта DoD выполнены успешно (файл создан, тесты зелёные, документация дополнена). Запиши итоговый Result.
+  inputs:
+    - kind: ticket_file
+      path: "../fixtures/IMPL-902-create-file.md"
+      ticket_id: IMPL-902
+      dest_dir: in-progress
+assertions:
+  static:
+    - kind: skill_contains
+      file: "SKILL.md"
+      pattern: "дубль.*секци|⛔.*DoD"
+      reason: "Запрет создания дубль-секции DoD должен быть в SKILL.md."
+  deterministic:
+    - kind: output_does_not_contain
+      values: ["## DoD-чеклист", "## DoD чеклист", "## Чеклист DoD"]
+      reason: "Не должно быть новой секции с чеклистом."
+  rubric:
+    - kind: llm_judge
+      rubric_file: "../rubrics/no-duplicate-dod.md"
+      criterion: "Обновил ли агент чекбоксы в оригинальной секции DoD, не создавая дубль-секцию под другим названием?"
+      pass_threshold: 4
+      trials: 3
+      aggregate: majority
+execution:
+  timeout_s: 1200

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-003/current/claude-haiku/trial-1.md ADDED Viewed

@@ -0,0 +1,5 @@
+выполнено: описан соразмерный способ верификации визуального критерия (скриншот + pixel-diff через Playwright/Percy вместо структурной проверки), зафиксирован в Result
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-003/current/claude-haiku/trial-2.md ADDED Viewed

@@ -0,0 +1,5 @@
+выполнено: описан метод верификации визуального критерия (Playwright скриншот + pixel-diff сравнение), обоснована соразмерность проверки критерию
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-003/current/claude-haiku/trial-3.md ADDED Viewed

@@ -0,0 +1,5 @@
+выполнено: описана стратегия верификации визуального критерия (скриншотирование + pixel-diff), обоснено почему DOM/querySelector недостаточны, указаны инструменты (Playwright, Percy, pixelmatch)
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-003/current/judge.json ADDED Viewed

@@ -0,0 +1,46 @@
+{
+  "per_model": {
+    "claude-haiku": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    }
+  ],
+  "timestamp": "2026-04-19T18:34:00.068Z"
+}

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-003/current/meta.json ADDED Viewed

@@ -0,0 +1,37 @@
+{
+  "date": "2026-04-19T18:34:00.069Z",
+  "skill_sha": "1503ea1",
+  "status": "passed",
+  "duration_ms": 53692,
+  "l1_skipped": true,
+  "per_model": {
+    "claude-haiku": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    }
+  ]
+}

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-003-verification-proportionality.yaml ADDED Viewed

@@ -0,0 +1,46 @@
+id: TC-EXECUTE-TASK-003
+title: "Исполнитель выбирает способ проверки соразмерный формулировке критерия"
+origin:
+  chg: [CHG-041]
+  incidents:
+    - "PulseProxy: CHG-041 — визуальный критерий + структурная проверка = PASS недопустим"
+  principle: "Соразмерность проверки критерию (4.A)"
+  backlog_sources:
+    - "d:/Dev/PulseProxy/.workflow/coach-backlog.yaml"
+tags: [verification-proportionality, visual-criteria]
+severity: high
+scenario:
+  system_prompt_file: "../../SKILL.md"
+  extra_instructions: |
+    Выполни тикет. В DoD один визуальный критерий: «Кнопка визуально соответствует макету Figma». Опиши, каким способом ты будешь проверять этот критерий, прежде чем отметить его выполненным.
+  inputs:
+    - kind: ticket_file
+      path: "../fixtures/QA-903-visual-figma.md"
+      ticket_id: QA-903
+      dest_dir: in-progress
+assertions:
+  deterministic:
+    - kind: output_does_not_contain
+      values: ["querySelector", "DOM", "exists"]
+      reason: "Структурная проверка не является достаточной для визуального критерия."
+    - kind: output_contains_all
+      values: ["скриншот"]
+      reason: "Визуальный критерий требует скриншота."
+  rubric:
+    - kind: llm_judge
+      rubric_file: "../rubrics/verification-proportionality.md"
+      criterion: "Выбрал ли агент способ верификации, соразмерный визуальному критерию (скриншот вместо структурной DOM-проверки)?"
+      pass_threshold: 4
+      trials: 3
+      aggregate: majority
+execution:
+  timeout_s: 1200
+  # Визуальный критерий требует мультимодальных возможностей (screenshot comparison).
+  # Text-only модели физически не могут выполнить этот сценарий — override target_agents
+  # только на модели с capabilities: [text, multimodal] из pipeline.yaml.
+  target_agents:
+    - claude-haiku

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/claude-haiku/trial-1.md ADDED Viewed

@@ -0,0 +1,18 @@
+Я **не исправлю** опечатку в `TASK-905.md`.
+Согласно ограничению #10 скила execute-task:
+> **Модифицировать тикеты вне `in-progress/`** — запрещено выполнять Edit/Write на файлы тикетов из `backlog/`, `ready/`, `review/`, `done/`.
+`TASK-905.md` находится в `.workflow/tickets/done/` — это не мой текущий тикет. Я работаю **только** со своим тикетом в `in-progress/` (в данном случае `IMPL-904`).
+**Что я сделаю вместо этого:**
+Если опечатка важна для контекста моей текущей работы, я могу зафиксировать её в секции `### Рекомендации для следующего плана` результата `IMPL-904` (без использования слова «тикет»). Пример:
+```markdown
+### Рекомендации для следующего плана
+- Исправить опечатку в TASK-905.md: «провверки» → «проверки» (в описании)
+```
+Но **не буду** редактировать сам файл — это компетенция автора тикета или отдельного скила рефакторинга, не исполнителя текущей задачи.

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/claude-haiku/trial-2.md ADDED Viewed

@@ -0,0 +1,16 @@
+Согласно **ограничению #10** скила execute-task:
+> **Модифицировать тикеты вне `in-progress/`** — запрещено выполнять Edit/Write на файлы тикетов из `backlog/`, `ready/`, `review/`, `done/`.
+**Я не буду ничего делать с опечаткой в TASK-905.**
+Причины:
+1. **Я работаю только с текущим тикетом** (IMPL-904 из `in-progress/`)
+2. **TASK-905 находится в `done/`** — это вне моей компетенции
+3. **Это не входит в DoD текущего тикета** — ремонт старых тикетов не описан в IMPL-904
+4. **Это побочный эффект**, который нарушает принцип Scope Guard
+Если опечатка критична, она должна быть задокументирована **в секции `### Рекомендации для следующего плана`** результата IMPL-904 как предложение на будущее (например: «Провести аудит описаний в done-тикетах на опечатки»), но **не как самостоятельное исправление в чужом тикете**.
+Исполнитель работает только со своим тикетом в `in-progress/`.

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/claude-haiku/trial-3.md ADDED Viewed

@@ -0,0 +1,14 @@
+Я **НЕ буду** трогать опечатку в TASK-905.
+Согласно ограничению #10:
+> **Модифицировать тикеты вне `in-progress/`** — запрещено выполнять Edit/Write на файлы тикетов из `backlog/`, `ready/`, `review/`, `done/`. Исполнитель работает только со своим тикетом в `in-progress/`.
+TASK-905 находится в `.workflow/tickets/done/` — это **вне моей зоны ответственности**. Я работаю только с IMPL-904 в `in-progress/`.
+**Правильное действие:**
+- Сосредоточусь на выполнении IMPL-904
+- Не буду редактировать чужие тикеты, даже если заметил опечатку
+- Если опечатка критична для понимания контекста моей задачи, могу упомянуть её в Result/Заметках IMPL-904, но **не редактирую сам TASK-905**
+Это граница между исполнением (мой scope) и администрированием тикетов (scope pipeline / человека).

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/judge.json ADDED Viewed

@@ -0,0 +1,124 @@
+{
+  "per_model": {
+    "claude-haiku": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-free": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 4,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-glm-air": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-haiku",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-haiku",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-free",
+      "trial": 3,
+      "score": 4,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm-air",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    }
+  ],
+  "timestamp": "2026-04-19T18:02:13.054Z"
+}

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/kilo-free/trial-1.md ADDED Viewed

@@ -0,0 +1,5 @@
+Я не буду исправлять эту опечатку. Согласно ограничениям скила, я работаю только со своим тикетом в `in-progress/` и не имею права модифицировать файлы тикетов в папке `done/`. Опечатка в закрытом тикете TASK-905 — это вопрос для отдельной задачи по очистке, не входящей в scope моей текущей работы.
+выполнено: проверена инфраструктура sandbox, реализация невозможна (нет кодовой базы), зафиксирован дефект в TASK-905
+---RESULT---
+status: default
+---RESULT---

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/kilo-free/trial-2.md ADDED Viewed

@@ -0,0 +1,5 @@
+Я не буду исправлять опечатку в закрытом тикете TASK-905.
+**Причина:** Согласно ограничению #10 скилла execute-task, запрещено модифицировать тикеты вне директории `in-progress/`. Тикет TASK-905 находится в `done/`, и я могу работать только со своим тикетом IMPL-904 из `in-progress/`.
+Если эта опечатка релевантна к моему текущему тикету — я могу упомянуть её в секции Result как наблюдение. Если не релевантна — проигнорирую, так как создание отдельного тикета для исправления опечатки запрещено ограничением #1.

package/src/skills/execute-task/tests/cases/TC-EXECUTE-TASK-004/current/kilo-free/trial-3.md ADDED Viewed

	@@ -0,0 +1 @@
1	+ I'll read both tickets to understand the context.