npm - workflow-ai - Versions diffs - 1.0.68 → 1.1.0 - Mend

workflow-ai 1.0.68 → 1.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (44) hide show

package/src/skills/review-result/knowledge/dod-patterns.md CHANGED Viewed

@@ -13,6 +13,7 @@
 | Код проходит линтер | `compilation` | Запустить lint |
 | Реализована функция X | `text` | Проверить наличие функции, её сигнатуру и логику |
 | Тесты на маппинг/парсинг данных | `tests` + `text` | Проверить, что тестовые fixtures содержат **реальные** значения из runtime-источника (лог, конфиг, API), а не синтетические. Прочитать источник данных и сверить с fixtures. Если fixtures не соответствуют реальным данным — тесты тавтологичны |
+| Baseline / snapshot / эталон / regression-фиксация | `tests` + `structure` | Проверка способа реализации теста (точное сравнение нормализованного output с литералом-эталоном vs регекс/includes по подстроке). См. `knowledge/baseline-snapshot-validation.md` — обязательная загрузка при триггерных формулировках DoD. |
 | Документация обновлена | `text` | Проверить JSDoc / README / комментарии |
 ### fix (исправление бага)

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-001/current/claude-sonnet/trial-1.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---RESULT---
 status: failed
 issues:
-  - "DoD пп.1-3 (все визуальные критерии): evidence отсутствует — нет скриншотов, нет a11y assertions, нет описания шагов тестирования. Result содержит только текстовое утверждение «проверял локально в браузере», что не является верифицируемым доказательством визуального соответствия. По п.5.1 workflow: FAIL если не приложил evidence (ни a11y assertion, ни описания шагов). [HIGH]"
-  - "Файл src/components/SubmitButton.tsx указан в «Изменённые файлы», но физически не существует в рабочей директории. [HIGH]"
+  - "DoD пункт 1 «Кнопка визуально соответствует макету» не верифицирован: визуальный критерий требует скриншот как evidence (шаг 4.7, триггер B), однако скриншоты не приложены. Исполнитель явно подтвердил: «Скриншоты не прикладывал — проверял локально в браузере». Визуальное соответствие макету не может быть подтверждено без визуального артефакта. [HIGH]"
+  - "QA-тикет не содержит требуемого evidence: отсутствуют a11y assertion и детальное описание шагов воспроизведения. Фраза «проверял локально в браузере» не является достаточным evidence по правилам шага 5.1."
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-001/current/claude-sonnet/trial-2.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---RESULT---
 status: failed
 issues:
-  - "DoD п.1 «Кнопка визуально соответствует макету»: визуальный критерий не подтверждён — скриншоты не приложены, исполнитель сообщил о проверке локально в браузере без визуального артефакта. Шаг 4.7.0: HIGH issue — ревьюер не может подтвердить визуальное соответствие макету без скриншота."
-  - "Файл src/components/SubmitButton.tsx указан в «Изменённые файлы», но физически не существует в рабочей директории."
+  - "DoD п.1 «Кнопка визуально соответствует макету» не подтверждён: ожидалось визуальное evidence (скриншот или a11y assertion), получено только текстовое утверждение «проверял локально в браузере» — без артефактов. Файл скриншота не приложен и физически не существует."
+  - "Файл-артефакт src/components/SubmitButton.tsx физически отсутствует в репозитории."
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-001/current/claude-sonnet/trial-3.md CHANGED Viewed

@@ -1,18 +1,6 @@
-**Анализ:**
-Тикет QA-901 содержит три визуальных DoD-критерия. Триггер B по шагу 4.7 сработал: «Кнопка визуально соответствует макету» — явная визуальная формулировка.
-**Шаг 4.7.0:** Поиск скриншотов дал пустой результат. Исполнитель явно написал: *«Скриншоты не прикладывал — проверял локально в браузере»*. Визуальные evidence полностью отсутствуют.
-**По правилу 5.1 (QA-тикеты):** Тестировщик не приложил ни a11y assertion, ни описания шагов, ни скриншотов → FAIL.
-**Дополнительно:** файл `src/components/SubmitButton.tsx` физически не найден в рабочей директории.
 ---RESULT---
 status: failed
 issues:
-  - "DoD п.1 «Кнопка визуально соответствует макету»: визуальный критерий без evidence (HIGH) — скриншоты не найдены, исполнитель явно указал что их не прикладывал. Ревьюер не может подтвердить соответствие макету без визуального артефакта."
-  - "DoD п.2 «Цвет кнопки совпадает с design tokens»: отсутствует evidence (нет скриншота, нет ссылки на токены, нет assertion)."
-  - "DoD п.3 «Скругление углов 8px»: отсутствует evidence (нет скриншота, нет CSS-проверки)."
-  - "Файл src/components/SubmitButton.tsx физически не найден в рабочей директории."
+  - "Пункт DoD 1 не выполнен: визуальный критерий «Кнопка визуально соответствует макету» не подтверждён — скриншоты отсутствуют физически, executor явно указал «скриншоты не прикладывал». Визуальное свойство не может быть верифицировано без визуального артефакта. [HIGH, шаг 4.7.0]"
+  - "Отсутствует evidence для всех трёх пунктов DoD: в секции Result нет a11y tree assertion, DOM-проверок, пошагового описания тест-шагов с ожидаемым/фактическим результатом. Указано только «проверял локально в браузере» — недостаточно для QA-тикета (шаг 5.1: «не приложил evidence»)."
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-001/current/judge.json CHANGED Viewed

@@ -87,78 +87,78 @@
   },
   "rubric_scores": [
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 1,
-      "score": 5,
-      "errored": false
+      "score": null,
+      "errored": true,
+      "error": "Stage \"TC-REVIEW-RESULT-001-kilo-deepseek-trial-1\" timed out after 1200s"
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 3,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 1,
-      "score": null,
-      "errored": true,
-      "error": "Stage \"TC-REVIEW-RESULT-001-kilo-deepseek-trial-1\" timed out after 1200s"
+      "score": 5,
+      "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 3,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 1,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 3,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 1,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 3,
       "score": 5,
       "errored": false
     }
   ],
-  "timestamp": "2026-04-20T06:17:58.717Z"
+  "timestamp": "2026-04-25T07:11:20.099Z"
 }

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-001/current/meta.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "date": "2026-04-20T06:17:58.726Z",
-  "skill_sha": "5f441e3",
+  "date": "2026-04-25T07:11:20.108Z",
+  "skill_sha": "b6cda8a",
   "status": "passed",
-  "duration_ms": 1206439,
+  "duration_ms": 138941,
   "l1_skipped": true,
   "per_model": {
     "claude-sonnet": {
@@ -40,74 +40,74 @@
   },
   "rubric_scores": [
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 1,
-      "score": 5,
-      "errored": false
+      "score": null,
+      "errored": true,
+      "error": "Stage \"TC-REVIEW-RESULT-001-kilo-deepseek-trial-1\" timed out after 1200s"
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 3,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 1,
-      "score": null,
-      "errored": true,
-      "error": "Stage \"TC-REVIEW-RESULT-001-kilo-deepseek-trial-1\" timed out after 1200s"
+      "score": 5,
+      "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 3,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 1,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 3,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 1,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 2,
       "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 3,
       "score": 5,
       "errored": false

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-002/current/claude-sonnet/trial-2.md CHANGED Viewed

@@ -1,36 +1,4 @@
-Теперь у меня достаточно данных для вердикта.
-**Разбор тикета IMPL-902:**
-**Шаг 0**: Секции `## Ревью` нет → полная проверка.
-**Путь с line-range нотацией**: `src/background/index.ts:204-211` → файл `src/background/index.ts`, строки 204–211. Суффикс `:204-211` корректно распознан как указание на диапазон строк, не часть имени файла. Файл найден: `/d/Dev/PulseProxy/src/background/index.ts` существует.
-**Содержимое строк 204–211:**
-```typescript
-// Bypass HTTP cache — the test must hit the network via PAC, not return a cached response.
-response = await fetch(url, {
-    signal: AbortSignal.timeout(CHECK_PROXY_TIMEOUT_MS),
-    cache: 'no-store',
-    headers: {
-        'Cache-Control': 'no-cache',
-        'Pragma': 'no-cache',
-    },
-});
-```
-Это HTTP cache bypass для PAC-проверки, **не логика парсинга URL с query string**.
-**Проверка DoD:**
-- **[x] Парсер обрабатывает URL с query string без потери параметров** — строки 204–211 содержат `fetch()` с cache-bypass заголовками. Паттерны `parseUrl`, `parseRedirect`, `queryString`, `redirect_to` в `src/background/index.ts` не найдены. Критерий **не подтверждён**.
-- **[x] Добавлен unit-тест на edge-case с пустым `redirect_to`** — поиск `redirect_to` по всем `.ts` файлам PulseProxy дал 0 результатов. Unit-тест не найден. Критерий **не подтверждён**.
-**Result**: заполнен содержательно ("Логика парсинга вынесена в отдельную функцию, добавлен тест. Все пункты DoD выполнены."), но заявленные артефакты отсутствуют.
 ---RESULT---
-status: failed
-issues:
-  - "DoD п.1 не подтверждён: строки 204-211 файла src/background/index.ts содержат HTTP cache bypass (fetch + 'cache: no-store'), а не логику парсинга URL с query string. Функция парсинга URL и обработки параметра redirect_to в указанном диапазоне строк и во всём файле не обнаружена."
-  - "DoD п.2 не подтверждён: поиск `redirect_to` по всем .ts файлам проекта дал 0 результатов — unit-тест на edge-case с пустым redirect_to отсутствует."
+status: passed
+issues: []
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-002/current/judge.json CHANGED Viewed

@@ -86,24 +86,6 @@
     }
   },
   "rubric_scores": [
-    {
-      "agentId": "claude-sonnet",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
     {
       "agentId": "kilo-deepseek",
       "trial": 1,
@@ -157,7 +139,25 @@
       "trial": 3,
       "score": 5,
       "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 5,
+      "errored": false
     }
   ],
-  "timestamp": "2026-04-20T06:04:48.924Z"
+  "timestamp": "2026-04-25T07:11:16.170Z"
 }

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-002/current/meta.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "date": "2026-04-20T06:04:48.938Z",
-  "skill_sha": "5f441e3",
+  "date": "2026-04-25T07:11:16.181Z",
+  "skill_sha": "b6cda8a",
   "status": "passed",
-  "duration_ms": 409427,
+  "duration_ms": 132102,
   "l1_skipped": true,
   "per_model": {
     "claude-sonnet": {
@@ -39,24 +39,6 @@
     }
   },
   "rubric_scores": [
-    {
-      "agentId": "claude-sonnet",
-      "trial": 1,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 2,
-      "score": 5,
-      "errored": false
-    },
-    {
-      "agentId": "claude-sonnet",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    },
     {
       "agentId": "kilo-deepseek",
       "trial": 1,
@@ -110,6 +92,24 @@
       "trial": 3,
       "score": 5,
       "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 1,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 2,
+      "score": 5,
+      "errored": false
+    },
+    {
+      "agentId": "claude-sonnet",
+      "trial": 3,
+      "score": 5,
+      "errored": false
     }
   ]
 }

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-003/current/claude-sonnet/trial-1.md CHANGED Viewed

@@ -1,7 +1,40 @@
+**Проверка DoD тикета QA-904:**
+**Пункт 1** `[x]` Файл создан — подтверждён наличием содержимого. ✓
+**Пункт 2** `[x]` Тест проходит — указано в условии задачи. ✓
+**Пункт 3** `[x]` Изоляция — НАРУШЕНА. Три красных флага:
+1. **Корень артефактов в рабочем репозитории:**
+   ```js
+   const testProjectRoot = join(__dirname, '..', '..');  // строки 16-17
+   const testConfigPath = join(testProjectRoot, '.workflow', 'config', 'sample.yaml');
+   ```
+   Путь строится через `__dirname` с подъёмом к корню репозитория — не через стандартный системный tmp (`os.tmpdir()` / `mkdtemp`).
+2. **Cleanup удаляет конкретный файл, а не весь tmp-корень:**
+   ```js
+   try { rmSync(testConfigPath); } catch (e) {}  // строка 31
+   ```
+   При прерывании до этой строки файл `.workflow/config/sample.yaml` останется в рабочем репозитории.
+3. **Cleanup в теле test-функции, а не в teardown/after-hook:**
+   ```js
+   test('...', () => {
+     createTestConfig('key: value\n');
+     assert.ok(true);
+     cleanupTestConfig();  // строка 37 — не защищён от падения assertion
+   });
+   ```
+   Если `assert.ok(true)` было бы `assert.ok(false)`, cleanup не выполнится.
+Пункт DoD «не пишет в рабочий репозиторий (изоляция в teardown/after-hook)» не выполнен, несмотря на отметку `[x]`.
 ---RESULT---
 status: failed
 issues:
-  - "Пункт DoD #3 не выполнен: тест пишет в рабочий репозиторий — `const testProjectRoot = join(__dirname, '..', '..')` (example-test.mjs:17) строит корень артефактов от __dirname внутри репозитория, а не от системного tmp-корня"
-  - "Пункт DoD #3 не выполнен: cleanup удаляет конкретный файл `rmSync(testConfigPath)` (example-test.mjs:32), а не весь tmp-корень — при прерывании до cleanup файл `.workflow/config/sample.yaml` остаётся в рабочем репозитории"
-  - "Пункт DoD #3 не выполнен: cleanup вызывается в теле test-функции (example-test.mjs:35), а не в teardown/after-hook — падение assertion до cleanup = утечка state"
+  - "Пункт DoD 3 нарушен — тест пишет в рабочий репозиторий: `const testProjectRoot = join(__dirname, '..', '..')` (example-test.mjs:16-17) указывает на корень репозитория, а не на системный tmp. Ожидалось: корень артефактов через os.tmpdir()/mkdtemp, получено: путь внутри .workflow/config/ рабочего репозитория."
+  - "Пункт DoD 3 нарушен — cleanup удаляет конкретный файл, а не tmp-корень: `rmSync(testConfigPath)` (example-test.mjs:31). При прерывании до cleanup файл .workflow/config/sample.yaml останется в репозитории."
+  - "Пункт DoD 3 нарушен — cleanup вызывается в теле test-функции (example-test.mjs:37), а не в teardown/after-hook. Падение любого assertion до cleanupTestConfig() оставит артефакты в рабочем репозитории."
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-003/current/claude-sonnet/trial-2.md CHANGED Viewed

@@ -1,7 +1,15 @@
+Я прочитал тикет и тест-файл. Провожу проверку по DoD.
+**DoD пункт 3** — "Тест создаёт и уничтожает tmp-корень, не пишет в рабочий репозиторий (изоляция в teardown/after-hook)" — нарушен по трём основаниям:
+1. `const testProjectRoot = join(__dirname, '..', '..')` — путь к артефактам строится от `__dirname` с подъёмом к корню репозитория, без префикса системного tmp.
+2. `writeFileSync(testConfigPath, content)` — файл создаётся в `.workflow/config/sample.yaml` внутри рабочего репозитория.
+3. `cleanupTestConfig()` вызывается в теле `test`, а не в teardown/after-hook — при падении assertion до этой строки файл останется в репозитории. Плюс удаляется конкретный файл, а не весь tmp-корень.
 ---RESULT---
 status: failed
 issues:
-  - "DoD пункт 3 не выполнен: тест пишет в рабочий репозиторий, а не в системный tmp-корень. Строка `const testProjectRoot = join(__dirname, '..', '..')` привязывает корень артефактов к реальному корню проекта; запись идёт в `.workflow/config/sample.yaml` внутри рабочего репозитория. Ожидалось: использование `os.tmpdir()` / `fs.mkdtempSync` как корня."
-  - "DoD пункт 3 не выполнен: cleanup (`rmSync(testConfigPath)`) удаляет конкретный файл, а не весь tmp-корень рекурсивно. При прерывании до вызова cleanup файл останется в рабочем репозитории."
-  - "DoD пункт 3 не выполнен: `cleanupTestConfig()` вызывается в теле тест-функции, а не в teardown/after-hook. Падение `assert` до этой строки — cleanup не выполняется, state утекает в репозиторий."
+  - "Пункт DoD 3 не выполнен (изоляция): корень артефактов привязан к рабочему репозиторию через `const testProjectRoot = join(__dirname, '..', '..')` (example-test.mjs:16), запись идёт в `.workflow/config/sample.yaml` внутри репозитория — ожидался путь через стандартный системный tmp (например, `os.tmpdir()`)"
+  - "Пункт DoD 3 не выполнен (cleanup в teardown): `cleanupTestConfig()` вызывается в теле test-функции (example-test.mjs:33), а не в after-hook/teardown — при падении assertion до этой строки артефакт остаётся в рабочем репозитории"
+  - "Пункт DoD 3 не выполнен (cleanup неполный): `rmSync(testConfigPath)` удаляет только конкретный файл (example-test.mjs:26), а не весь tmp-корень — ожидалось рекурсивное удаление корневой tmp-директории"
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-003/current/claude-sonnet/trial-3.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---RESULT---
 status: failed
 issues:
-  - "Пункт DoD 3 не выполнен: `const testProjectRoot = join(__dirname, '..', '..')` привязывает корень артефактов к реальному корню репозитория, а не к системному tmp. Тест пишет в `.workflow/config/sample.yaml` рабочего репозитория (example-test.mjs:18-21)."
-  - "Пункт DoD 3 не выполнен: cleanup (`rmSync(testConfigPath)`) удаляет конкретный файл, а не весь tmp-корень — при прерывании до вызова файл остаётся в рабочем репозитории (example-test.mjs:24-26)."
-  - "Пункт DoD 3 не выполнен: cleanup вызывается в теле test-функции, а не в teardown/after-hook — падение assertion до cleanup = утечка state в рабочем репозитории (example-test.mjs:29-34)."
+  - "Пункт DoD «Тест не пишет в рабочий репозиторий» нарушен: корень артефактов строится от `join(__dirname, '..', '..')` — реальный корень репозитория, а не `os.tmpdir()`. Файл `example-test.mjs:14-15`."
+  - "Пункт DoD «уничтожает tmp-корень» нарушен: `cleanupTestConfig()` удаляет конкретный файл (`rmSync(testConfigPath)`), а не весь tmp-корень рекурсивно. При прерывании до вызова cleanup файл `.workflow/config/sample.yaml` остаётся в рабочем репозитории. Файл `example-test.mjs:30-32`."
+  - "Пункт DoD «изоляция в teardown/after-hook» нарушен: `cleanupTestConfig()` вызывается в теле `test(...)`, после `assert.ok(true)`. Если assertion упадёт — cleanup не выполнится. Файл `example-test.mjs:36`."
 ---RESULT---

package/src/skills/review-result/tests/cases/TC-REVIEW-RESULT-003/current/judge.json CHANGED Viewed

@@ -87,77 +87,77 @@
   },
   "rubric_scores": [
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 1,
-      "score": 5,
+      "score": 3,
       "errored": false
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 2,
-      "score": 5,
+      "score": 4,
       "errored": false
     },
     {
-      "agentId": "claude-sonnet",
+      "agentId": "kilo-deepseek",
       "trial": 3,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 1,
-      "score": 3,
+      "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 2,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-deepseek",
+      "agentId": "kilo-glm",
       "trial": 3,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 1,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 2,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-glm",
+      "agentId": "kilo-minimax",
       "trial": 3,
       "score": 4,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 1,
-      "score": 4,
+      "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 2,
-      "score": 4,
+      "score": 5,
       "errored": false
     },
     {
-      "agentId": "kilo-minimax",
+      "agentId": "claude-sonnet",
       "trial": 3,
       "score": 4,
       "errored": false
     }
   ],
-  "timestamp": "2026-04-21T14:36:41.299Z"
+  "timestamp": "2026-04-25T07:10:27.566Z"
 }