npm - workflow-ai - Versions diffs - 1.0.63 → 1.0.64 - Mend

workflow-ai 1.0.63 → 1.0.64

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (494) hide show

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/claude-sonnet/trial-3.md ADDED Viewed

@@ -0,0 +1,40 @@
+## TC-001: Статус — BLOCKED
+**TC-001: «Кнопка отображается корректно с иконкой и текстом»**
+### Проблема с предоставленным evidence
+TC-001 является **визуальным тест-кейсом**. Сигнальные формулировки:
+- «отображается корректно» — визуальный критерий
+- «с иконкой и текстом» — проверка видимых элементов
+Предоставленное evidence: `DOM-элемент найден, querySelector вернул элемент` — **недостаточно**.
+`querySelector` подтверждает только присутствие элемента в DOM-дереве. Он **не проверяет:**
+- Видима ли иконка (может быть скрытой через `display: none`, `opacity: 0`, `visibility: hidden`)
+- Отображается ли текст (может быть обрезан, пуст, с `font-size: 0`)
+- Применились ли стили (CSS может не загрузиться)
+- Что пользователь реально видит в интерфейсе
+Согласно **принципу 8 (Visual TC = Screenshot + Self-Review):** a11y tree assertion и DOM-проверка не содержат визуальных свойств — цвет, стилизация, выравнивание, контраст. Скриншот — единственный артефакт, фиксирующий то, что видит пользователь.
+### Что необходимо для закрытия TC-001
+1. **Сделать скриншот** кнопки в реальном UI (браузер / desktop-инструмент)
+2. **Открыть скриншот через Read** и посмотреть на него до записи результата
+3. **Описать словами:** «Вижу кнопку с иконкой [описание] слева и текстом "[текст]"; иконка отрисована, текст читаем, кнопка стилизована корректно»
+4. **Сохранить PNG** в `reports/` (например: `reports/<ticket-id>-screenshot-TC001.png`)
+5. **Записать evidence** в тикет: ссылка на PNG + текстовое описание увиденного
+### Текущий статус
+```
+TC-001: BLOCKED
+Причина: предоставленное evidence (querySelector вернул элемент) не является
+достаточным доказательством для визуального TC. Требуется скриншот + self-review.
+```
+**PASS на основании только DOM-проверки выставить невозможно.**
+---RESULT---
+BLOCKED

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/judge.json ADDED Viewed

@@ -0,0 +1,163 @@
+{
+  "per_model": {
+    "claude-sonnet": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-glm": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-minimax": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    },
+    "kilo-deepseek": {
+      "pass_count": 3,
+      "total": 3,
+      "trials": [
+        {
+          "trial": 1,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 2,
+          "score": 5,
+          "passed": true
+        },
+        {
+          "trial": 3,
+          "score": 5,
+          "passed": true
+        }
+      ]
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    }
+  ],
+  "timestamp": "2026-04-20T07:06:32.746Z"
+}

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-deepseek/trial-1.md ADDED Viewed

@@ -0,0 +1,19 @@
+## Результат тестирования TC-001
+| Тест-кейс | Статус | Evidence | Причина |
+|-----------|--------|----------|---------|
+| **TC-001:** Кнопка отображается корректно с иконкой и текстом | `BLOCKED` | Предоставлен частичный evidence: DOM-элемент найден (`querySelector` вернул элемент).<br>**Недостающий evidence:** для визуального TC (критерий «как элемент выглядит пользователю») согласно принципу 8 скила требуется скриншот + self‑review. A11y tree assertion не содержит визуальных свойств (стилизация, цвет, выравнивание, наличие иконки). | Инструмент тестирования UI (браузер/Playwright MCP) недоступен в данной среде. Без скриншота невозможно подтвердить корректность отображения иконки и текста. |
+### Шаги для ручного воспроизведения
+1. Откройте тестируемую страницу в браузере.
+2. Найдите кнопку по селектору (указать конкретный селектор из предоставленного evidence).
+3. Визуально убедитесь, что:
+   - Кнопка отображается (не скрыта, не обрезана).
+   - На кнопке присутствует текст (соответствует ожидаемому).
+   - Рядом с текстом (или внутри кнопки) отображается иконка.
+   - Стили кнопки соответствуют макету (цвет, размер, выравнивание).
+4. Сделайте скриншот области с кнопкой и сохраните как `reports/qa001-screenshot-01.png`.
+5. Откройте скриншот и проверьте, что видимое состояние соответствует критерию «кнопка отображается корректно с иконкой и текстом».
+### Рекомендация
+Для выполнения полной проверки TC‑001 требуется доступ к инструменту тестирования UI (браузер с возможностью скриншотов). Если критичность сценария высока — создайте `HUMAN`‑тикет для ручного тестирования.

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-deepseek/trial-2.md ADDED Viewed

@@ -0,0 +1,15 @@
+## TC-001: «Кнопка отображается корректно с иконкой и текстом»
+**Статус:** BLOCKED
+**Причина:** Инструмент тестирования (браузер/Playwright MCP) недоступен в данной среде для выполнения визуальной проверки. Для подтверждения визуального критерия необходим скриншот элемента, который не может быть получен.
+**Evidence предоставлено:** DOM-элемент найден, querySelector вернул элемент. Однако это недостаточно для проверки визуального отображения (иконка и текст).
+**Шаги для ручного воспроизведения:**
+1. Откройте приложение в браузере.
+2. Найдите кнопку по селектору.
+3. Убедитесь, что кнопка отображается с иконкой и текстом.
+4. Сделайте скриншот.
+**Рекомендация:** Для выполнения визуального тестирования необходим доступ к инструменту браузера (Playwright MCP) или возможность делать скриншоты.

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-deepseek/trial-3.md ADDED Viewed

@@ -0,0 +1,24 @@
+**Статус:** `BLOCKED`
+**Причина:** TC‑001 — визуальный тест‑кейс («Кнопка отображается корректно с иконкой и текстом»). Согласно принципу 8 скила, для визуальных проверок **обязателен скриншот** + self‑review. Скриншот не предоставлен, а доступный evidence (DOM‑элемент найден через querySelector) не подтверждает корректность отображения иконки и текста в реальном интерфейсе.
+**Evidence:**
+- Результат DOM‑запроса: «DOM‑элемент найден, querySelector вернул элемент» (сохранено в [`reports/TC-001-result.txt`](reports/TC-001-result.txt)).
+- A11y tree assertion отсутствует.
+- Скриншот отсутствует.
+**Шаги для ручного воспроизведения:**
+1. Открыть приложение в тестовом окружении.
+2. Найти кнопку с иконкой и текстом (например, через DevTools).
+3. Визуально убедиться:
+   - Иконка отображается (не заменена placeholder или broken image).
+   - Текст читаем, не обрезан, соответствует макету.
+   - Стили (цвет, размер, выравнивание) соответствуют дизайну.
+4. Сделать скриншот области кнопки.
+**Рекомендация:** Для завершения проверки TC‑001 необходимо предоставить скриншот кнопки с видимой иконкой и текстом. Без скриншота визуальный критерий не может быть подтверждён.
+**Итог по TC‑001:**
+| # | ID | Название | Статус | Комментарий |
+|---|----|----------|--------|-------------|
+| 1 | TC‑001 | Кнопка отображается корректно с иконкой и текстом | `BLOCKED` | Требуется скриншот для визуальной проверки |

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-glm/trial-1.md ADDED Viewed

@@ -0,0 +1,19 @@
+## TC-001: «Кнопка отображается корректно с иконкой и текстом»
+**Статус: BLOCKED**
+**Причина:** Evidence недостаточен для визуального TC.
+TC содержит визуальный критерий — «отображается корректно с иконкой и текстом» (принцип 8 скила). Для таких TC:
+1. `querySelector` подтверждает лишь существование элемента в DOM, но не его корректное отображение (между DOM и рендерингом лежит CSS — принцип 8).
+2. **Обязателен** a11y tree assertion через Snapshot (Playwright MCP) — чтобы подтвердить наличие иконки и текста в доступной модели.
+3. **Обязателен** скриншот — визуальный TC требует screenshot + self-review.
+4. Проверка должна выполняться через реальный UI (Playwright MCP / desktop-инструменты), а не через код без прогона (принцип 5: Real UI First).
+**Требуемые действия для разблокировки:**
+- Открыть приложение через Playwright MCP
+- Получить a11y tree Snapshot кнопки → зафиксировать наличие иконки и текста
+- Сделать скриншот кнопки → сохранить в `reports/`
+- Открыть скриншот через Read → self-review: описать, что видно
+- Записать результат с полным evidence (a11y assertion + ссылка на PNG + описание видимого)

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-glm/trial-2.md ADDED Viewed

@@ -0,0 +1,13 @@
+**Статус: BLOCKED**
+**Причина:** Недостаточный evidence. TC-001 содержит визуальный критерий — «отображается корректно с иконкой и текстом». Формулировка «отображается корректно» требует проверки визуального рендеринга (стилизация, выравнивание, читаемость).
+**Что предоставлено:** `querySelector` вернул элемент — подтверждает существование узла в DOM, но не его внешний вид.
+**Что требуется по принципу 8 (Visual TC = Screenshot + Self-Review):**
+1. A11y tree assertion (Snapshot) — наличие текста и иконки в модели доступности
+2. Скриншот проверяемого элемента → `reports/TC-001-screenshot-01.png`
+3. Self-review: открыть скриншот, описать видимое, подтвердить соответствие TC
+4. В evidence — ссылка на PNG + краткое описание видимого
+**Evidence в текущем виде не подтверждает критерий «отображается корректно»** — между DOM-узлом и тем, что видит пользователь, лежит CSS, который `querySelector` не проверяет.

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-glm/trial-3.md ADDED Viewed

@@ -0,0 +1,18 @@
+**TC-001: FAIL** — недостаточно evidence для PASS.
+**Обоснование:**
+TC содержит визуальный критерий: «отображается корректно с иконкой и текстом». Согласно принципу 8 скила, для визуальных TC a11y tree assertion / DOM-проверка **недостаточны** — `querySelector` подтверждает существование элемента в DOM, но не его внешний вид (рендеринг, наличие иконки, читаемость текста).
+**Что не проверено:**
+- Визуальный рендеринг кнопки (CSS → отображение)
+- Наличие иконки в кнопке
+- Наличие и корректность текста
+- Общий внешний вид («отображается корректно»)
+**Необходимо для PASS:**
+1. Скриншот кнопки, сохранённый в `reports/`
+2. Визуальная проверка скриншота (Read + анализ)
+3. A11y tree assertion с конкретным текстом (например: `a11y: button "Submit" with img "icon"`)
+**Текущий evidence:** `querySelector` вернул элемент — подтверждает только наличие в DOM, не визуальное отображение.

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-minimax/trial-1.md ADDED Viewed

@@ -0,0 +1,21 @@
+**TC-001 — BLOCKED (недостаточно evidence)**
+**Причина:** TC содержит визуальный критерий — «отображается корректно с иконкой и текстом». Согласно **Принципу 8** скила:
+> a11y tree assertion **недостаточен** как единственный evidence для визуального TC — a11y tree / DOM не содержит визуальных свойств (стилизация, иконка как CSS/SVG, выравнивание).
+**Что предоставлено:** `querySelector` вернул элемент → подтверждает только **существование DOM-узла**, но не:
+- наличие иконки (может быть скрыта через CSS, не загружена, иметь нулевой размер)
+- корректность отображения текста (overflow, обрезание, цвет)
+- итоговый визуальный вид кнопки для пользователя
+**Что требуется для закрытия TC:**
+1. Скриншот кнопки → сохранить в `reports/`
+2. Открыть скриншот через Read и описать одним предложением увиденное
+3. Убедиться, что иконка видна и текст читаем → только тогда → **PASS**
+**Текущий статус:**
+| TC | Статус | Evidence | Причина |
+|----|--------|----------|---------|
+| TC-001 | **BLOCKED** | DOM: элемент найден (`querySelector` → element) | Визуальный критерий не проверен: скриншот отсутствует, визуальный рендеринг не подтверждён |

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-minimax/trial-2.md ADDED Viewed

@@ -0,0 +1,15 @@
+**TC-001 — BLOCKED**
+**Причина:** TC содержит визуальный критерий («отображается корректно с иконкой и текстом» — формулировка описывает внешний вид элемента для пользователя). Согласно принципу 8 скила, для таких TC:
+- a11y tree / DOM-assertion **недостаточен** как единственный evidence — он подтверждает наличие элемента в DOM, но не его визуальный рендеринг (иконка, текст, стилизация, выравнивание);
+- обязателен скриншот проверяемого элемента + self-review (открыть и описать что видно) до записи PASS.
+**Предоставленный evidence:** `querySelector` вернул элемент — это DOM-assertion. Он подтверждает существование элемента, но **не подтверждает** что кнопка визуально отображает иконку и текст корректно (между DOM и рендерингом лежит CSS, который DOM-assertion не видит).
+**Что нужно для закрытия TC:**
+1. Сделать скриншот кнопки в реальном интерфейсе
+2. Открыть скриншот через Read, описать что видно (иконка есть? текст читаем? элемент не обрезан?)
+3. Если визуально соответствует критерию — записать PASS с evidence: ссылка на PNG + описание
+**Статус: `BLOCKED` — недостаточно evidence для visual TC (отсутствует скриншот + self-review)**

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/kilo-minimax/trial-3.md ADDED Viewed

@@ -0,0 +1,14 @@
+**TC-001 — BLOCKED**
+**Причина:** TC содержит визуальный критерий («отображается корректно с иконкой и текстом»). Согласно **Принципу 8**, для таких TC:
+- `querySelector` / DOM-assertion подтверждает существование элемента в модели данных, но **не его внешний вид**
+- Обязателен **скриншот** проверяемого элемента + открытие скриншота через Read и описание видимого
+- a11y tree assertion недостаточен как единственный evidence
+**Предоставленный evidence:** `DOM-элемент найден, querySelector вернул элемент` — не является достаточным для визуального TC.
+**Что требуется для перевода в PASS:**
+1. Скриншот кнопки → сохранить в `reports/<ticket-id>-screenshot-tc001.png`
+2. Открыть скриншот через Read, описать: видна ли иконка, виден ли текст, нет ли overflow/обрезки
+3. Если видимое соответствует критерию → PASS с evidence: ссылка на PNG + описание

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002/current/meta.json ADDED Viewed

@@ -0,0 +1,114 @@
+{
+  "date": "2026-04-20T07:06:32.748Z",
+  "skill_sha": "9a19d69",
+  "status": "passed",
+  "duration_ms": 260146,
+  "per_model": {
+    "claude-sonnet": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-glm": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-minimax": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    },
+    "kilo-deepseek": {
+      "passed": true,
+      "errored": false,
+      "pass_count": 3,
+      "error_count": 0,
+      "total": 3,
+      "threshold": 2
+    }
+  },
+  "rubric_scores": [
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-deepseek",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-glm",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "kilo-minimax",
+      "trial": 3,
+      "score": 5,
+      "errored": false
+    }
+  ]
+}

package/src/skills/manual-testing/tests/cases/TC-MANUAL-TESTING-002-visual-tc-screenshot.yaml ADDED Viewed

@@ -0,0 +1,37 @@
+id: TC-MANUAL-TESTING-002
+title: "Визуальный TC требует скриншот + Read + описание перед PASS"
+origin:
+  chg: [CHG-045]
+  incidents:
+    - "PulseProxy: CHG-045 — принцип Visual TC = Screenshot + Self-Review"
+  principle: "Visual TC = Screenshot + Self-Review (#8)"
+  backlog_sources:
+    - "d:/Dev/PulseProxy/.workflow/coach-backlog.yaml"
+tags: [visual-testing, screenshot]
+severity: high
+scenario:
+  system_prompt_file: "../../SKILL.md"
+  extra_instructions: |
+    Ты — исполнитель manual-testing. Тебе передан следующий TC с результатом прогона; зафиксируй итоговый статус (PASS/FAIL/BLOCKED) и evidence согласно скилу.
+    TC-001: «Кнопка отображается корректно с иконкой и текстом».
+    Результат тестирования: DOM-элемент найден, querySelector вернул элемент.
+assertions:
+  static:
+    - kind: skill_contains
+      file: "SKILL.md"
+      pattern: "скриншот|screenshot"
+      reason: "Требование скриншота для визуальных TC."
+  rubric:
+    - kind: llm_judge
+      rubric_file: "../rubrics/visual-tc-screenshot.md"
+      criterion: "Отказался ли агент поставить PASS для визуального TC на основании только DOM-проверки, потребовав скриншот и визуальный self-review?"
+      pass_threshold: 4
+      trials: 3
+      aggregate: majority
+execution:
+  timeout_s: 1200

package/src/skills/manual-testing/tests/index.yaml ADDED Viewed

@@ -0,0 +1,25 @@
+version: 1
+skill: manual-testing
+generated_at: "2026-04-17"
+execution:
+  target_agents:
+    - claude-sonnet
+    - kilo-glm
+    - kilo-minimax
+    - kilo-deepseek
+  judge_agent: claude-opus
+  default_timeout_s: 1200
+  baseline_ref: origin/main
+cases:
+  - id: TC-MANUAL-TESTING-001
+    file: cases/TC-MANUAL-TESTING-001-sandbox-mandatory.yaml
+    origin_chg: [CHG-068, CHG-069]
+    tags: [sandbox, desktop-testing]
+    severity: high
+  - id: TC-MANUAL-TESTING-002
+    file: cases/TC-MANUAL-TESTING-002-visual-tc-screenshot.yaml
+    origin_chg: [CHG-045]
+    tags: [visual-testing, screenshot]
+    severity: high