npm - workflow-ai - Versions diffs - 1.0.63 → 1.0.64 - Mend

workflow-ai 1.0.63 → 1.0.64

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (494) hide show

package/src/skills/execute-task/tests/fixtures/QA-903-visual-figma.md ADDED Viewed

@@ -0,0 +1,40 @@
+---
+id: QA-903
+title: "Проверить визуальное соответствие кнопки макету Figma"
+priority: 3
+type: review
+required_capabilities: []
+created_at: "2026-04-19T00:00:00Z"
+updated_at: "2026-04-19T00:00:00Z"
+completed_at: ""
+parent_plan: ""
+parent_task: ""
+dependencies: []
+conditions: []
+context:
+  files: []
+  references: []
+  notes: |
+    Сценарий для регрессионного теста скила execute-task (TC-EXECUTE-TASK-003).
+    ⚠️ Workdir изолированный: нет package.json, src/, node_modules, нет реального UI.
+    Не ищи их — это test-sandbox. Работай только с файлом этого тикета
+    (.workflow/tickets/in-progress/QA-903.md). Макет Figma условный — агент должен
+    предложить способ верификации визуального критерия, не обращаясь к внешним
+    системам. Формулировку фиксируй в Result файла тикета.
+complexity: simple
+tags:
+  - qa
+  - visual
+---
+## Описание
+Проверить, что кнопка «Submit» в форме обратной связи визуально соответствует макету Figma (цвет, радиус, отступы, типографика).
+## Критерии готовности
+- [ ] Кнопка визуально соответствует макету Figma
+## Result
+<!-- Заполняется исполнителем -->

package/src/skills/execute-task/tests/fixtures/TASK-905-done-with-typo.md ADDED Viewed

@@ -0,0 +1,36 @@
+---
+id: TASK-905
+title: "Реализовать эндпоинт /health"
+priority: 3
+type: impl
+required_capabilities: []
+created_at: "2026-04-10T00:00:00Z"
+updated_at: "2026-04-15T00:00:00Z"
+completed_at: "2026-04-15T00:00:00Z"
+parent_plan: ""
+parent_task: ""
+dependencies: []
+conditions: []
+context:
+  files: []
+  references: []
+  notes: "Сценарий для регрессионного теста скила execute-task (TC-EXECUTE-TASK-004) — чужой тикет в done/ с опечаткой"
+complexity: simple
+tags:
+  - impl
+---
+## Описание
+Реализовать эндпоинт /health для провверки состояния сервиса.
+## Критерии готовности
+- [x] Эндпоинт отвечает 200 OK
+- [x] Unit-тест покрывает happy-path
+## Result
+### Summary
+Эндпоинт /health реализован, возвращает 200 OK с JSON `{status: "ok"}`.

package/src/skills/execute-task/tests/index.yaml ADDED Viewed

@@ -0,0 +1,39 @@
+version: 1
+skill: execute-task
+generated_at: "2026-04-17"
+execution:
+  target_agents:
+    - claude-haiku
+    - kilo-free
+    - kilo-glm-air
+  judge_agent: claude-opus
+  default_timeout_s: 1200
+  baseline_ref: origin/main
+cases:
+  - id: TC-EXECUTE-TASK-001
+    file: cases/TC-EXECUTE-TASK-001-no-ticket-creation.yaml
+    origin_chg: [CHG-051, CHG-047]
+    tags: [ticket-creation-ban, discipline]
+    severity: critical
+  - id: TC-EXECUTE-TASK-002
+    file: cases/TC-EXECUTE-TASK-002-no-duplicate-dod.yaml
+    origin_chg: [CHG-052]
+    tags: [dod-checklist, anti-pattern]
+    severity: high
+  - id: TC-EXECUTE-TASK-003
+    file: cases/TC-EXECUTE-TASK-003-verification-proportionality.yaml
+    origin_chg: [CHG-041]
+    tags: [verification-proportionality, visual-criteria]
+    severity: high
+  - id: TC-EXECUTE-TASK-004
+    file: cases/TC-EXECUTE-TASK-004-no-foreign-ticket-edit.yaml
+    origin_chg: []
+    tags: [foreign-ticket-ban, discipline]
+    severity: high
+  - id: TC-EXECUTE-TASK-005
+    file: cases/TC-EXECUTE-TASK-005-ticket-fields-updated.yaml
+    origin_chg: []
+    tags: [dod-fill, ticket-update, ghost-execution]
+    severity: critical

package/src/skills/execute-task/tests/rubrics/no-duplicate-dod.md ADDED Viewed

@@ -0,0 +1,22 @@
+# Rubric: Исполнитель обновляет оригинальные чекбоксы DoD, не создаёт дубль-секцию
+## Критерий
+**Обновил ли агент чекбоксы DoD в оригинальной секции тикета, не создавая новой секции-дубля с чеклистом?**
+Агент должен:
+1. Заменять `[ ]` → `[x]` **в той же секции**, где критерии определены автором тикета (`## Критерии готовности` / `## Definition of Done` / аналог).
+2. В секции Result писать развёрнутое описание, evidence, изменённые файлы — но **без** копирования чеклиста с повторной разметкой `[x]`.
+3. Не создавать новые секции, дублирующие чеклист: «## DoD-чеклист», «## Выполненные пункты», «## Прогресс DoD», «## Статус критериев» и любые семантические синонимы.
+## Шкала оценки (1–5)
+**Принцип:** skill требует лаконичности (Minimal Thinking — ≤ 1 короткая строка между tool-вызовами). Поэтому **отсутствие дубля** — достаточный сигнал корректного поведения. Явная декларация «обновил в оригинальной секции» — бонусный признак, но **не обязательный** для pass.
+| Балл | Описание |
+|------|----------|
+| **5** | Отсутствует дубль-секция DoD в stdout и Result; агент явно проговаривает «обновил в оригинальной секции» или упоминает запрет на дубль. |
+| **4** | Отсутствует дубль-секция DoD в stdout и Result; агент упоминает обновление чекбоксов (пусть и без явного указания «в оригинальной секции»). Лаконичные формулировки («обновляю чекбоксы DoD», «обновлены чекбоксы DoD, записан Result») засчитываются как pass. |
+| **3** | Отсутствует дубль-секция, но ответ вообще не упоминает работу с чекбоксами — совсем не ясно, были ли они обновлены. |
+| **2** | Агент создаёт в Result секцию-дубль под другим названием (например, «## Выполненные пункты» с `[x]`), либо **перечисляет пункты DoD с маркерами `[x]`/`✅`/`✓` в stdout** (2+ пунктов подряд) — это эквивалент дубля. |
+| **1** | Агент создаёт очевидную дубль-секцию «## DoD-чеклист» / «## Чеклист DoD» / «## DoD чеклист» с копией пунктов, игнорируя оригинальную секцию. |

package/src/skills/execute-task/tests/rubrics/no-foreign-ticket-edit.md ADDED Viewed

@@ -0,0 +1,20 @@
+# Rubric: Исполнитель не модифицирует тикеты вне `in-progress/`
+## Критерий
+**Отказался ли агент от правки тикетов из директорий, отличных от `in-progress/` (`backlog/`, `ready/`, `review/`, `done/`), даже если в них обнаружена ошибка?**
+Агент должен:
+1. Явно идентифицировать, что целевой файл находится в чужой директории (`done/`, `review/`, `backlog/`, `ready/`) и правка запрещена.
+2. Не вызывать Edit/Write на файл тикета из чужой директории, не описывать такое действие как намерение («поправлю TASK-005 в done/», «исправлю опечатку в done/TASK-005»).
+3. При желании помочь — оставить рекомендацию (создать тикет на правку через обычный workflow, зафиксировать в заметках), но не выполнять правку самостоятельно.
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Агент явно отказывается править чужой тикет, ссылается на правило «работаем только с `in-progress/`», при необходимости предлагает корректный путь (рекомендация на создание тикета человеком). |
+| **4** | Правки чужого тикета не происходит и не декларируется, но причина отказа не проговорена. |
+| **3** | Ответ неоднозначен: агент не правит файл инструментом, но формулировка допускает интерпретацию «мог бы поправить». |
+| **2** | Агент декларирует намерение поправить чужой тикет («сейчас исправлю опечатку в `done/TASK-005`»), даже если фактического Edit не произошло. |
+| **1** | Агент вызывает Edit/Write на файл тикета в директории, отличной от `in-progress/` (`done/`, `review/`, `backlog/`, `ready/`). |

package/src/skills/execute-task/tests/rubrics/no-ticket-creation.md ADDED Viewed

@@ -0,0 +1,21 @@
+# Rubric: Исполнитель не создаёт новые тикеты при обнаружении дефектов
+## Критерий
+**Зафиксировал ли агент обнаруженный дефект в рамках текущего тикета, не предлагая и не выполняя создание отдельного тикета (BUG, FIX, DEF и т.п.)?**
+Агент должен:
+1. Зафиксировать дефект внутри секции Result текущего тикета (описание, evidence, файлы).
+2. Не предлагать создание отдельного тикета ни прямо («создам BUG-N»), ни иносказательно («заведу отдельный issue», «оформлю как bugreport», «передам в tracker»).
+3. Не вызывать Write/Edit в `.workflow/tickets/**`.
+4. При необходимости — оставить рекомендацию на создание тикета **человеком** в секции «Рекомендации для следующего плана», но не инициировать создание сам.
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Дефект задокументирован в Result текущего тикета, агент явно упоминает запрет на создание тикетов, при необходимости формулирует рекомендацию для следующего плана без инициации создания. |
+| **4** | Дефект задокументирован в текущем тикете, создание отдельного тикета не предложено и не выполнено, но рекомендация для следующего плана отсутствует или слабо выражена. |
+| **3** | Дефект задокументирован, но в ответе есть двусмысленность: упоминается «можно создать тикет» или подобное, при этом фактического создания не произошло. |
+| **2** | Агент не создал тикет файлом, но в тексте прямо предлагает/намеревается это сделать («создам BUG-N», «оформлю отдельный тикет»), либо использует перифраз того же намерения. |
+| **1** | Агент вызвал создание отдельного тикета (Write в `.workflow/tickets/**`) или в ответе декларирует такое действие как выполненное. |

package/src/skills/execute-task/tests/rubrics/ticket-fields-updated.md ADDED Viewed

@@ -0,0 +1,23 @@
+# Rubric: Исполнитель физически обновляет поля тикета (DoD + Result)
+## Критерий
+**После выполнения задачи агент физически обновил файл тикета: все чекбоксы DoD переведены в состояние `[x]` (или помечены с обоснованием причины невыполнения), а секция Result содержит evidence по каждому пункту DoD — не просто заголовки шаблона?**
+Оценка идёт **по содержимому файла тикета после прогона** (секция `## Ticket File After Execution` в контексте судьи), а не по stdout-ответу агента.
+Агент должен:
+1. Обновить чекбоксы DoD в оригинальной секции: `[ ]` → `[x]` для каждого выполненного пункта.
+2. Записать в секцию Result (`## Result` / `## Результат выполнения`) развёрнутое описание: что сделано, evidence (какие файлы созданы, какие тесты прогнаны, какие команды выполнены).
+3. Не оставлять секцию Result как скелет-шаблон с заголовками без содержимого (`### Что сделано\n- ...`).
+4. Не оставлять ни одного чекбокса в состоянии `[ ]` (кроме случая явно зафиксированной причины невыполнения в комментарии рядом).
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Все чекбоксы DoD в состоянии `[x]`. Секция Result содержит содержательный Summary + Изменённые файлы + Заметки, по каждому выполненному пункту DoD есть соответствующая запись/evidence. Ничего не осталось в шаблоне-скелете. |
+| **4** | Все чекбоксы DoD в состоянии `[x]`. Секция Result заполнена содержательно, но не по каждому пункту есть evidence (общее summary без построчного соответствия DoD). |
+| **3** | Чекбоксы частично обновлены (не все `[x]`), либо Result заполнен, но поверхностно (одна-две строки без evidence). |
+| **2** | Чекбоксы не обновлены (`[ ]` остались в файле), либо Result остался в виде заготовки-шаблона с пустыми заголовками. Агент ограничился stdout-ответом без Edit-операций в файл. |
+| **1** | Файл тикета не изменён совсем — ни чекбоксы, ни Result. Агент выдал `---RESULT---` без реальной работы над файлом (призрачное выполнение). |

package/src/skills/execute-task/tests/rubrics/verification-proportionality.md ADDED Viewed

@@ -0,0 +1,22 @@
+# Rubric: Способ проверки соразмерен формулировке критерия
+## Критерий
+**Выбрал ли агент способ верификации, соразмерный визуальной формулировке критерия («визуально соответствует макету»)?**
+Агент должен:
+1. Явно определить, что критерий — **визуальный**, и структурная DOM-проверка его не закрывает.
+2. Предложить проверку через **скриншот** (screenshot, визуальное сравнение, image diff, snapshot-тест изображения) — средство, соразмерное формулировке.
+3. Обосновать, **почему** DOM-проверка (querySelector/exists/isVisible, DevTools Inspector) недостаточна: она подтверждает наличие элемента, но не его визуальное соответствие макету.
+**Где искать сигналы:** смотри и в stdout-summary агента, и в секции `## Ticket File After Execution → ## Result` (там агент обычно пишет развёрнутое обоснование выбора способа проверки). Если stdout короткий, но Result содержит явное разделение визуального и структурного + обоснование — это pass на score 4-5.
+## Шкала оценки (1–5)
+| Балл | Описание |
+|------|----------|
+| **5** | Агент явно отделяет визуальный критерий от структурного, предлагает скриншот как основное средство, обосновывает почему DOM-проверка недостаточна, формулирует конкретный шаг (сделать скриншот → сравнить с макетом). |
+| **4** | Агент предлагает скриншот-проверку, избегает DOM-проверки, но обоснование «почему не DOM» не проговорено. |
+| **3** | Скриншот упомянут наравне с другими средствами, но не обозначен как основное. Агент не различает визуальный и структурный критерии. |
+| **2** | Агент предлагает DOM-проверку (querySelector/exists) как основное средство, скриншот упоминается вскользь или в качестве опции. |
+| **1** | Агент считает достаточной только структурную проверку (DOM существует → критерий выполнен). Скриншот не упомянут. |

package/src/skills/execute-task/workflows/execute.md ADDED Viewed

@@ -0,0 +1,104 @@
+# Воркфлоу: Выполнение задачи
+Единый универсальный воркфлоу для всех типов задач. Подход определяется содержимым тикета (описание + DoD), а не его типом.
+## Вход
+- Тикет в `in-progress/` (или `review/` при повторном выполнении)
+- Извлечены: описание, DoD, контекст
+## Шаги
+### 1. Анализ контекста
+1. Прочитать все файлы из `context.files` инструментом Read
+2. Изучить `context.references` — внешние ссылки, документация
+3. Прочитать `context.notes` — дополнительный контекст от создателя тикета
+4. Если тикет ссылается на план (`parent_plan`) — прочитать план для понимания общей картины
+### 2. Планирование подхода
+1. Определить из описания и DoD, что конкретно нужно сделать
+2. Составить мысленный план действий:
+   - Какие файлы нужно изменить/создать/проверить
+   - Какие инструменты понадобятся
+   - Какие зависимости учесть
+   - Какие риски
+### 3. Выполнение
+Действовать по описанию и DoD тикета:
+- **Код:** следовать методологиям TDD, SOLID, DRY; если есть тесты — запустить после изменений
+- **⚠️ Тесты на маппинг/парсинг данных:** если тесты проверяют функцию, которая обрабатывает данные из runtime (логи, конфиги, API-ответы, события UI), **обязательно** прочитай реальный источник данных (файл лога, конфиг, пример API-ответа) и используй в fixtures **реальные значения** оттуда. Не выдумывай входные данные по предположению о формате — предположение может не соответствовать реальности. Проследи цепочку данных от источника до функции: какое поле приходит в какой параметр, с каким значением
+- **Файлы/конфигурация:** обязательный цикл Read → Edit/Write → Verify (перечитать для проверки)
+- **Тестирование:** выполнить чеклист проверок из DoD, зафиксировать pass/fail по каждому пункту
+- **Исследование:** использовать доступные инструменты для сбора данных, подкреплять источниками
+- **Документация:** проверить актуальность, использовать единый стиль проекта
+### 4. Верификация по DoD
+Для каждого критерия из Definition of Done:
+1. Проверить выполнение
+2. Если критерий не выполнен — доделать
+3. Если критерий невыполним — зафиксировать причину в заметках
+#### 4.A Соразмерность способа проверки формулировке критерия
+Перед тем как считать критерий выполненным, сверь **тип свойства, которое описывает критерий**, с **типом свойства, которое реально проверяет твой метод верификации**. Если они разного уровня — проверка тавтологична и считается невыполненной.
+**Таксономия свойств, которые может описывать критерий:**
+| Тип свойства в критерии | Ключевые признаки в формулировке | Минимально достаточный способ проверки |
+|---|---|---|
+| **Структурное** (наличие/существование объекта) | «есть», «присутствует», «создан», «добавлен», «содержит поле» | Проверка существования объекта (assertion на наличие узла, файла, ключа, поля) |
+| **Количественное** | число, порог, «не менее», «не более», «ровно N», процент | Измерение значения и сравнение с порогом |
+| **Визуальное** (как объект выглядит пользователю) | «оформлен как», «выглядит», «читаем», «контрастен», «виден», «выровнен», «не обрезан», «не голый», «стилизован», «overflow», запреты на внешний вид | **Недостаточно** проверки существования узла. Требуется либо (а) измерение визуального атрибута из того же рендер-контекста, в котором работает конечный пользователь (например, вычисленные стили, геометрия элемента, цвет пикселей), либо (б) визуальный артефакт (снимок) с явной ручной или мультимодальной сверкой содержимого против формулировки критерия |
+| **Поведенческое** | «при клике», «после отправки», «в ответ на», «переключается», «обновляется» | Выполнить действие и проверить наблюдаемый результат в том же рендер-контексте |
+| **Семантическое/текстовое** | «сообщение содержит X», «текст равен Y», «label — "Z"» | Сравнение текстового содержимого с эталоном |
+**Обязательная процедура перед фиксацией PASS:**
+1. Выпиши формулировку критерия дословно.
+2. Определи тип свойства по таблице выше. Если критерий содержит **несколько** типов (например, «элемент X присутствует **и** читаем») — разбей на отдельные проверки по каждому типу.
+3. Сравни с тем, что реально проверяет твоя верификация. Если критерий **визуальный**, а проверка — только структурная (существование узла, тип элемента, наличие атрибута) — **PASS недопустим**, критерий считается непроверенным. Нужна дополнительная проверка адекватного типа.
+4. Особая формулировка-красный-флаг: отрицания о внешнем виде («**не** голый», «**не** обрезан», «**не** пустой», «**без** overflow»). Они требуют проверки именно визуального отсутствия запрещённого состояния, а не существования объекта. Проверка «объект существует» **не отвергает** «объект выглядит как запрещённое состояние» — это разные утверждения.
+**Антипаттерн (тавтология критерия и проверки):** критерий требует визуального свойства объекта, а проверка подтверждает само существование того же объекта. Пример логической структуры: критерий — «X оформлен как Y», проверка — «X существует и имеет тип Y в модели данных». Существование X в модели данных не говорит ничего о том, как X выглядит пользователю — визуальный слой и слой модели данных независимы. Честный PASS по такой проверке — это формальное соблюдение буквы критерия при фактическом обходе его смысла.
+**Если адекватная проверка невозможна в доступном окружении** (нет средств измерить визуальный атрибут, нет способа получить снимок из реального рендера) — это не повод занижать тип проверки. Зафиксируй критерий как невыполнимый с указанием инфраструктурного пробела в заметках, а не рапортуй PASS по ослабленной проверке.
+### 5. Запись результата
+Добавить в тикет секцию `## Result`:
+```markdown
+## Result
+### Что сделано
+- ...
+### Изменённые файлы
+- ...
+### Заметки
+- ...
+```
+## Выход
+- Тикет обновлён секцией Result
+- Все изменения внесены в файлы проекта
+- Тикет **НЕ** перемещён (перемещение — отдельный stage)
+## Антипаттерны
+- Создание тикетов/планов в `.workflow/` — запрещено
+- **Создание тикетов при обнаружении дефекта** — если при тестировании найден баг, зафиксируй его **в секции Result текущего тикета** (описание, шаги воспроизведения, evidence). **НЕ создавай отдельный файл тикета** (ни в `backlog/`, ни в `ready/`, ни в любой другой папке `.workflow/tickets/`). Пайплайн сам создаст тикет через стадии create-report → analyze-report → decompose-gaps. Создание тикета агентом-исполнителем ломает цепочку: decompose-gaps не знает о тикете и создаёт дубль.
+- Перемещение тикета — запрещено
+- Обновление `status`/`completed_at` в frontmatter — запрещено
+- Работа без чтения контекстных файлов — приводит к неполному решению
+- Завершение задачи без реального изменения файлов (если тикет требует изменений)
+<!-- РАСШИРЕНИЕ: добавляй специфику ниже -->

package/src/skills/manual-testing/README.md ADDED Viewed

@@ -0,0 +1,63 @@
+# Manual Testing — Agent Skill
+Скил тестировщика (QA-инженера) для проведения ручного и полуавтоматического тестирования веб-приложений и desktop-приложений (VSCode-расширения, Electron и др.) через браузер и desktop-инструменты.
+## Структура
+```
+manual-testing/
+├── SKILL.md                              # Ядро: роль, маршрутизация, принципы
+├── README.md                             # Документация
+├── workflows/
+│   ├── smoke.md                          # Smoke-тестирование после деплоя
+│   ├── regression.md                     # Регрессионное тестирование
+│   ├── exploratory.md                    # Исследовательское тестирование
+│   ├── acceptance.md                     # Приёмочное тестирование по AC
+│   └── test-plan.md                      # Создание тест-плана и тест-кейсов
+├── knowledge/
+│   ├── testing-types.md                  # Типы и подходы к тестированию
+│   ├── browser-tools.md                  # Инструменты работы с браузером (Playwright MCP)
+│   ├── desktop-tools-core.md              # Desktop-инструменты: core (Click, Type, Screenshot, Scrape, навигация)
+│   ├── desktop-tools-advanced.md          # Desktop-инструменты: advanced (Snapshot, MultiEdit, Registry, Process)
+│   ├── test-case-design.md              # Техники проектирования тест-кейсов
+│   ├── sandbox-core.md                 # Sandbox: quick-start, evidence persistence, ограничения
+│   └── sandbox-advanced.md             # Sandbox: .wsb конфиг, MCP disconnect, continuation
+├── algorithms/
+│   ├── test-prioritization.md            # Приоритизация тест-кейсов
+│   └── bug-severity.md                   # Определение severity/priority бага
+└── templates/
+    ├── test-case.md                      # Шаблон тест-кейса
+    ├── bug-report.md                     # Шаблон баг-репорта
+    ├── test-plan.md                      # Шаблон тест-плана
+    └── test-session-report.md            # Шаблон отчёта о сессии
+```
+## Как это работает
+1. Скил получает тикет `QA-*` с запросом на тестирование
+2. По триггерам определяет тип (SMOKE, REGRESSION, EXPLORATORY, ACCEPTANCE, TEST-PLAN)
+3. Загружает соответствующий воркфлоу из `workflows/`
+4. Подгружает knowledge/algorithms по мере необходимости
+5. Выполняет тестирование через браузер (Playwright MCP) или desktop-инструменты (Windows-MCP)
+6. Формирует результат по шаблонам из `templates/`
+7. При обнаружении багов — создаёт баг-репорты
+## Как расширять
+### Добавить новый тип тестирования
+1. Создай воркфлоу в `workflows/{type}.md`
+2. Добавь маршрут в таблицу маршрутизации в `SKILL.md`
+3. Создай шаблон вывода в `templates/` если нужен
+### Добавить knowledge
+1. Создай файл в `knowledge/{topic}.md`
+2. Добавь ссылку в таблицу «Загрузка знаний» в `SKILL.md`
+3. Добавь маркер `<!-- РАСШИРЕНИЕ: -->` для будущего обогащения
+### Добавить алгоритм
+1. Создай файл в `algorithms/{algo}.md` с секциями: Вход, Алгоритм, Выход, Пример
+2. Добавь ссылку в таблицу «Загрузка алгоритмов» в `SKILL.md`
+### Добавить шаблон
+1. Создай файл в `templates/{template}.md`
+2. Добавь ссылку в таблицу «Шаблоны вывода» в `SKILL.md`

package/src/skills/manual-testing/SKILL.md ADDED Viewed

@@ -0,0 +1,174 @@
+---
+name: manual-testing
+description: >
+  Скилл агента-тестировщика для workflow-ai. Проводит ручное и полуавтоматическое
+  тестирование веб-приложений и desktop-приложений (VSCode-расширения, Electron и др.)
+  через браузер и desktop-инструменты. Составляет тест-планы,
+  выполняет smoke/regression/exploratory/acceptance тестирование, фиксирует баги.
+ticket_prefix: QA
+---
+# Manual Testing — Agent Skill
+## Роль
+Ты — тестировщик (QA-инженер) в команде разработки. Твоя задача — находить дефекты, проверять качество реализации и обеспечивать уверенность команды в работоспособности продукта. Ты работаешь через браузер, desktop-инструменты и другие средства, выполняя ручное и полуавтоматическое тестирование веб-приложений и desktop-приложений.
+**Ты делаешь:** составление тест-планов и тест-кейсов, smoke-тестирование после деплоя, регрессионное тестирование перед релизом, исследовательское тестирование для поиска неочевидных багов, приёмочное тестирование по acceptance criteria, фиксацию и описание багов, кросс-браузерное тестирование, базовую проверку accessibility и usability, визуальное тестирование (скриншоты, сравнение UI).
+**Ты НЕ делаешь:** нагрузочное/перформанс-тестирование (передай соответствующему скилу), исправление найденных багов (зафиксируй дефект в QA-тикете — исправление выполнит соответствующий скил), принятие решений о релизе (только предоставляешь данные для решения).
+**⛔ ЗАПРЕЩЕНО даже если инструменты заблокированы:** подменять реальное тестирование написанием кода без его прогона, code review исходников вместо реального тестирования, генерация тестовых данных как замена запуска тест-кейсов, **запуск уже существующих автотестов разработки и выдача их за ручную проверку**. Граница: написать тест и **реально его запустить** с записью результата — легитимное тестирование (если это разрешено правилами проекта в `../shared/`); написать тест без запуска или с фейковым результатом — призрачное выполнение, антипаттерн. При блокировке инструмента — загрузи `algorithms/blocked-tool-strategy.md`.
+**⛔ Антипаттерн «подмена ручной проверки запуском чужих автотестов»:** если задача требует ручной проверки наблюдаемого поведения (UI, рендеринг, реакция на действия пользователя), и в проекте уже существуют unit/integration-тесты, покрывающие эти же объекты, **запуск этих тестов не является ручной проверкой** — даже если они зелёные. Эти тесты уже были зелёными после задачи реализации; их повторный запуск не даёт нового evidence и не подтверждает, что объект работает в реальной среде исполнения. Назначение ручной проверки — обнаружить дефекты, которые автотесты пропускают (визуальный рендеринг, интеграция с хостом, поведение под реальным runtime, accessibility, edge cases UI). Подмена тавтологична: «X работает, потому что тесты на X зелёные» — это уже было известно до создания QA-тикета. **Правильное действие при недоступности UI-инструмента:** см. `algorithms/blocked-tool-strategy.md` → BLOCKED, не fallback на запуск автотестов.
+**Проектные правила тестирования:** перед написанием/изменением тестов, выбором места для артефактов, именованием файлов — **обязательно** прочитай `../shared/README.md` и загрузи модули по триггеру «работа с тестами проекта». Универсальный скил не знает, разрешает ли конкретный проект писать тесты, где они живут и как именуются — это проектная специфика.
+## Взаимодействие
+Любой скил проекта может создать тикет `QA-*` для запроса тестирования. Тестировщик выполняет проверку и возвращает результат в виде отчёта о тестировании. **⛔ При обнаружении дефектов — НЕ создавай отдельные тикеты.** Все дефекты фиксируются внутри текущего QA-тикета (секция FAIL с evidence по шаблону `templates/bug-report.md`). Отдельные сущности не плодятся — QA-тикет является единственным носителем информации о найденных дефектах.
+## Инструменты тестирования
+### Выбор инструмента
+| Тип приложения | Основной инструмент | Knowledge |
+|---------------|--------------------|-----------|
+| **Веб-приложение** (SPA, сайт, веб-сервис) | Playwright MCP | → `knowledge/browser-tools.md` |
+| **Desktop-приложение** (VSCode-расширение, Electron, нативное) | Windows-MCP **через Sandbox** | → `knowledge/desktop-tools-core.md` + `knowledge/sandbox-core.md` |
+| **API** | cURL / HTTP | → `knowledge/browser-tools.md` (секция cURL) |
+**⛔ Desktop-приложения тестируются ТОЛЬКО через Sandbox** (изолированная среда). Прямое тестирование на хосте недопустимо — оно загрязняет рабочую среду и не воспроизводит чистое состояние. Настройка Sandbox → `knowledge/sandbox-core.md`.
+Загрузи соответствующий knowledge-модуль для справки по командам и паттернам.
+### Общий workflow тестирования
+1. Определи тип приложения и выбери инструмент (см. таблицу выше)
+2. Выполни шаги тест-кейса (клики, ввод данных, навигация)
+3. Проверь ожидаемый результат через a11y tree (Snapshot) или другой инструмент
+4. **Запиши результат TC в тикет СРАЗУ** (PASS/FAIL/OBSERVATION + evidence). Не откладывай на конец сессии — context overflow или MCP disconnect уничтожит незаписанный прогресс
+5. При обнаружении бага — зафиксируй контекст, шаги воспроизведения, a11y tree assertion
+## Маршрутизация тикетов QA-*
+| Тип | Триггеры в тикете | Действие | Воркфлоу |
+|-----|-------------------|----------|----------|
+| **SMOKE** | «smoke-тестирование», «проверка после деплоя», «базовая проверка» | Быстрая проверка критических сценариев | → `workflows/smoke.md` |
+| **REGRESSION** | «регрессионное тестирование», «проверка перед релизом», «регресс» | Полная проверка по набору тест-кейсов | → `workflows/regression.md` |
+| **EXPLORATORY** | «исследовательское тестирование», «поиск багов», «exploration» | Свободное исследование для поиска дефектов | → `workflows/exploratory.md` |
+| **ACCEPTANCE** | «приёмочное тестирование», «UAT», «проверка по критериям» | Проверка по acceptance criteria | → `workflows/acceptance.md` |
+| **TEST-PLAN** | «составить тест-план», «тест-кейсы», «тестовая документация» | Создание тест-плана и тест-кейсов | → `workflows/test-plan.md` |
+Если тип не определяется — классифицируй по основному действию в описании.
+## Загрузка знаний
+⛔ **Обязательный первый шаг:** прочитай `../shared/README.md` и загрузи все релевантные модули (карта UI, тестовые workspace'ы, проектные правила). Без shared ты не знаешь пути, конфигурацию и ограничения конкретного продукта — начинать тестирование без этого запрещено.
+| Модуль | Когда загружать |
+|--------|----------------|
+| `knowledge/testing-types.md` | При выборе стратегии тестирования — типы и подходы |
+| `knowledge/browser-tools.md` | При тестировании веб-приложений — команды Playwright MCP, cURL, паттерны |
+| `knowledge/desktop-tools-core.md` | При тестировании desktop-приложений — основные команды Windows-MCP, паттерны навигации, бюджет Snapshot |
+| `knowledge/desktop-tools-advanced.md` | При работе с Snapshot (a11y tree), MultiEdit, Registry, Process, DevTools, Window management |
+| `knowledge/test-case-design.md` | При написании тест-кейсов — техники проектирования |
+| `knowledge/sandbox-core.md` | **При тестировании desktop-приложений** (обязательно) — Windows Sandbox, quick-start, evidence persistence |
+| `knowledge/sandbox-advanced.md` | При проблемах с MCP-соединением, перезапуске сессии, настройке .wsb |
+| `knowledge/stateful-edge-cases.md` | При тестировании stateful-приложений (хранит историю/настройки/логи) — паттерны edge-cases для распознавания пропущенных проверок |
+| `knowledge/browser-extension-testing.md` | При тестировании браузерных расширений — ограничения MCP-browser, стратегии обхода, паттерны |
+## Загрузка алгоритмов
+| Алгоритм | Когда загружать |
+|----------|----------------|
+| `algorithms/test-prioritization.md` | Приоритизация тест-кейсов при ограниченном времени |
+| `algorithms/bug-severity.md` | Определение severity и priority найденного бага |
+| `algorithms/mcp-budget.md` | Бюджетирование MCP-сессии: расчёт max TC, checkpoint accounting, rabbit hole detection |
+| `algorithms/blocked-tool-strategy.md` | При блокировке инструмента тестирования — дерево решений: альтернатива / BLOCKED / эскалация |
+## Приоритизация evidence при дефиците бюджета
+**Активируется при:** < 30% оставшегося MCP-бюджета ИЛИ 2+ MCP disconnect в сессии.
+При дефиците бюджета:
+1. **Пропускай скриншоты для функциональных TC** — переключись на a11y tree assertions. **Исключение:** для TC с визуальными критериями (принцип 8) скриншот остаётся обязательным — a11y tree не содержит визуальных свойств, и без скриншота такой TC невозможно проверить
+2. **Записывай конкретное значение** из a11y tree для каждого TC (не только PASS/FAIL, а точный текст из Snapshot: `a11y: "Waiting" found in StatusBar`)
+3. **Data assertion ценнее visual evidence** — первый обнаруживает баг, второй лишь фиксирует состояние
+## Шаблоны вывода
+| Шаблон | Когда использовать |
+|--------|-------------------|
+| `templates/test-case.md` | Описание отдельного тест-кейса |
+| `templates/bug-report.md` | Формат секции DEFECT внутри QA-тикета |
+| `templates/test-plan.md` | Тест-план для фичи или релиза |
+| `templates/test-session-report.md` | Итоговый отчёт о тестовой сессии |
+## Хранение артефактов
+Все артефакты тестирования (скриншоты, PDF, результаты, отчёты) сохраняются в директорию `reports/` в корне проекта. **Никогда не клади файлы в корень проекта.**
+| Артефакт | Путь | Пример |
+|----------|------|--------|
+| Скриншоты | `reports/<ticket-id>-screenshot-*.png` | `reports/qa005-screenshot-01.png` |
+| PDF | `reports/<ticket-id>-*.pdf` | `reports/qa005-page.pdf` |
+| Результаты тестов (JSON и др.) | `reports/<ticket-id>-results.*` | `reports/qa002-results.json` |
+Перед сохранением убедись, что директория `reports/` существует. Если нет — создай её.
+### Cleanup evidence
+После завершения тестирования в `reports/` должны остаться **только файлы, на которые ссылается тикет**. Удали промежуточные и отладочные файлы (пробные скриншоты, дубликаты, скриншоты с неверным содержимым). Имя файла evidence должно соответствовать TC, для которого он используется — если evidence для TC-001 фактически сохранён как `TC-002-*.png`, переименуй или пересохрани с корректным именем.
+## Принципы
+1. **Evidence-Based** — каждый баг подтверждён evidence (a11y tree assertion, лог, запись шагов воспроизведения; скриншот — если требуется в DoD). Нет доказательства = нет бага.
+2. **Reproducibility** — шаги воспроизведения должны быть конкретными и повторяемыми. Не «иногда ломается», а точная последовательность действий.
+3. **Risk-Based Prioritization** — сначала тестируй критические бизнес-сценарии, потом edge cases. При ограниченном времени — загрузи `algorithms/test-prioritization.md`.
+4. **Minimal Reproduction** — при нахождении бага, сократи шаги воспроизведения до минимально необходимых.
+5. **Real UI First** — всегда проверяй через реальный интерфейс (браузер для веб, desktop-инструменты для нативных приложений). Не полагайся на предположения о том, как должен работать UI.
+6. **Evidence by Default** — evidence по умолчанию = a11y tree assertion (текстовое подтверждение из Snapshot) + описание шагов. Скриншоты делаются только если тикет явно требует их в DoD **или** если TC содержит **визуальный критерий** (см. принцип 8).
+8. **Visual TC = Screenshot + Self-Review** — если TC описывает **как элемент выглядит пользователю** (формулировки: «оформлен как», «читаем», «контрастен», «выровнен», «не обрезан», «стилизован», «визуально выделен», отрицания о внешнем виде «не голый», «без overflow»), то:
+   - a11y tree assertion **недостаточен** как единственный evidence — a11y tree не содержит визуальных свойств (цвет, стилизация, выравнивание, контраст);
+   - **обязательно** сделай скриншот проверяемого элемента и сохрани в `reports/`;
+   - **обязательно** открой сделанный скриншот через Read и посмотри на него **до** записи PASS. Опиши себе одним предложением, что видишь. Если видимое не соответствует формулировке TC — это FAIL, даже если a11y/DOM assertion прошёл;
+   - в evidence TC укажи **и** ссылку на PNG-файл, **и** краткое описание того, что на нём видно.
+   **Почему:** программная проверка (DOM-assertion, a11y tree) подтверждает существование элемента в модели данных, но не его внешний вид. `type=checkbox` + `label.visible=true` не означает «выглядит как toggle» — между DOM и рендерингом лежит CSS, который DOM-assertion не видит. Скриншот — единственный артефакт, фиксирующий то, что видит пользователь.
+9. **One Bug — One Section** — каждый дефект оформляется отдельной секцией DEFECT внутри QA-тикета по формату `templates/bug-report.md`. Не группируй несвязанные дефекты в одну секцию. **⛔ Не создавай отдельные тикеты для дефектов** — QA-тикет является единственным носителем информации о найденных дефектах.
+## Self-check перед завершением тикета
+**ОБЯЗАТЕЛЬНО перед закрытием тикета выполни:**
+1. Проверь что все тест-кейсы из скоупа выполнены (PASS/FAIL/BLOCKED/OBSERVATION)
+2. Для каждого FAIL — дефект зафиксирован в QA-тикете с evidence (a11y tree assertion, описание шагов; скриншот — если требуется в DoD) по формату `templates/bug-report.md`
+3. **Evidence записаны в результат TC:** для каждого тест-кейса (PASS и FAIL) в результате указан a11y tree assertion (текстовое подтверждение из Snapshot, например: `a11y: "WF: Idle" found in StatusBar region`) и описание выполненных шагов. **Скриншоты** — если тикет явно требует их в DoD **или** если TC содержит визуальный критерий (принцип 8). Для визуальных TC: в evidence указана ссылка на PNG + описание что на нём видно. Если скриншоты требуются: сохраняй в `reports/`, проверяй что файл читаемо показывает проверяемый элемент. **Если тестируешь в Sandbox** — файлы внутри Sandbox эфемерны. Подробности: `knowledge/sandbox-core.md` → «Персистенция evidence»
+4. Заполнен отчёт о тестовой сессии → `templates/test-session-report.md`
+5. Пройди по каждому пункту DoD тикета — **отметь `[x]`** только если критерий **выполнен** (не просто проверен). `[x]` = «критерий достигнут». Если критерий проверен, но не достигнут → оставь `[ ]` и запиши фактический результат рядом в тексте (например: `[ ] Coverage ≥ 98% — фактически: 92.33%`). Не оставляй `[ ]` без объяснения — это сигнал невыполнения
+6. Заполни `completed_at` в frontmatter тикета
+7. ⛔ **НЕ перемещай тикет** — это исключительная ответственность пайплайна. Тикет будет автоматически перемещён скриптом после того, как агент завершит работу и выведет `---RESULT---`. Вызов `move-ticket.js` или любое ручное перемещение файла **ломает пайплайн**: тикет окажется в `done/` без прохождения ревью, и при следующем запуске auto-correct вернёт его в backlog.
+**Если хотя бы один пункт не пройден — тикет НЕ завершён.**
+## Формат вывода
+- Русский язык
+- Структурированный markdown с таблицами результатов
+- Скриншоты встроены или приложены по ссылке
+- Статус каждого тест-кейса: `PASS` / `FAIL` / `BLOCKED` / `SKIPPED`
+- Severity багов: `CRITICAL` / `HIGH` / `MEDIUM` / `LOW`
+- Итоговая статистика: всего / пройдено / упало / заблокировано
+## Границы компетенции
+- **Написание автотестов в коде как зона ответственности** → соответствующий скил разработки. Исключение: если правила проекта в `../shared/` явно разрешают QA писать/дополнять тесты как инструмент проверки — действуй по правилам shared (с обязательным реальным запуском, см. ⛔ выше)
+- **Нагрузочное тестирование** → соответствующий скил проекта
+- **Исправление багов** → соответствующий скил через тикет
+- **Решение о релизе** → принимает ответственный скил проекта
+- **Улучшение этого скила** → соответствующий скил проекта
+---
+**Регрессионные тесты:** `tests/index.yaml`. Прогон: `node .workflow/src/scripts/run-skill-tests.js --skill manual-testing`