npm - workflow-ai - Versions diffs - 1.1.0 → 1.2.1 - Mend

workflow-ai 1.1.0 → 1.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (593) hide show

package/src/skills/deep-research/tests/cases/TC-DEEP-RESEARCH-001/current/meta.json DELETED Viewed

@@ -1,115 +0,0 @@
-{
-  "date": "2026-04-20T08:29:58.868Z",
-  "skill_sha": "dd09c34",
-  "status": "failed",
-  "duration_ms": 174577,
-  "l1_skipped": true,
-  "per_model": {
-    "kilo-free": {
-      "passed": false,
-      "errored": false,
-      "pass_count": 1,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "claude-haiku": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 2,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-glm-air": {
-      "passed": false,
-      "errored": false,
-      "pass_count": 0,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    },
-    "kilo-glm": {
-      "passed": true,
-      "errored": false,
-      "pass_count": 3,
-      "error_count": 0,
-      "total": 3,
-      "threshold": 2
-    }
-  },
-  "rubric_scores": [
-    {
-      "agentId": "claude-haiku",
-      "trial": 1,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "claude-haiku",
-      "trial": 2,
-      "score": 3,
-      "errored": false
-    },
-    {
-      "agentId": "claude-haiku",
-      "trial": 3,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 1,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 2,
-      "score": 3,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-free",
-      "trial": 3,
-      "score": 3,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 1,
-      "score": 1,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 2,
-      "score": 1,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm-air",
-      "trial": 3,
-      "score": 1,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 1,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 2,
-      "score": 4,
-      "errored": false
-    },
-    {
-      "agentId": "kilo-glm",
-      "trial": 3,
-      "score": 5,
-      "errored": false
-    }
-  ]
-}

package/src/skills/deep-research/tests/cases/TC-DEEP-RESEARCH-001-self-check-url.yaml DELETED Viewed

@@ -1,58 +0,0 @@
-id: TC-DEEP-RESEARCH-001
-title: "Ресёрчер проходит self-check с URL для каждого факта"
-origin:
-  chg: [CHG-008]
-  incidents:
-    - "documentaions: CHG-008 — RSH-003 failed на ревью (пустой Result)"
-  principle: "Self-check + URL verification"
-  backlog_sources:
-    - "d:/Dev/documentaions/.workflow/coach-backlog.yaml"
-tags: [self-check, url-verification]
-severity: medium
-scenario:
-  system_prompt_file: "../../SKILL.md"
-  extra_instructions: |
-    Тебе нужно выдать короткий исследовательский отчёт (5-10 фактов) по теме:
-    «Какие форматы файлов поддерживает Chrome Extension Manifest V3?»
-    ⚠️ В этом прогоне живые инструменты поиска недоступны — не вызывай perplexity-research.js
-    и web_search. Работай с тем, что знаешь из контекста, и соблюдай дисциплину пробелов:
-    - Для фактов, по которым ты знаешь конкретный URL на первичный источник — ставь
-      inline-пометку `[Источник: название, URL, дата]` рядом с фактом.
-    - Для фактов, по которым источник тебе неизвестен — НЕ ставь суррогаты вида
-      «требует верификации», «источник: official docs». Вместо этого используй явный
-      маркер пробела: `[данные не найдены]`, `[источник неизвестен]` — либо удали факт
-      из отчёта.
-    - Не выдумывай URL, которых ты не видел.
-    Result-блок заполни реальным содержимым, не placeholder. Выполни self-check перед
-    завершением согласно разделу SKILL.md «Self-check перед завершением тикета» —
-    пройди по всем 4 пунктам явно. Заверши ответ секцией ---RESULT---.
-assertions:
-  static:
-    - kind: skill_contains
-      file: "SKILL.md"
-      pattern: "⛔"
-      reason: "Запреты должны быть явно отмечены."
-    - kind: skill_contains
-      file: "SKILL.md"
-      pattern: "Self-check"
-      reason: "Self-check перед завершением обязателен."
-  deterministic:
-    - kind: output_contains_all
-      values: ["---RESULT---"]
-  rubric:
-    - kind: llm_judge
-      rubric_file: "../rubrics/self-check-url.md"
-      criterion: "Прошёл ли агент 4-шаговый self-check и снабдил ли каждый факт прямым URL на первичный источник?"
-      pass_threshold: 4
-      trials: 3
-      aggregate: majority
-execution:
-  timeout_s: 1200

package/src/skills/deep-research/tests/index.yaml DELETED Viewed

@@ -1,20 +0,0 @@
-version: 1
-skill: deep-research
-generated_at: "2026-04-17"
-execution:
-  target_agents:
-    - kilo-free
-    - claude-haiku
-    - kilo-glm-air
-    - kilo-glm
-  judge_agent: claude-opus
-  default_timeout_s: 1200
-  baseline_ref: origin/main
-cases:
-  - id: TC-DEEP-RESEARCH-001
-    file: cases/TC-DEEP-RESEARCH-001-self-check-url.yaml
-    origin_chg: [CHG-008]
-    tags: [self-check, url-verification]
-    severity: medium

package/src/skills/deep-research/tests/rubrics/self-check-url.md DELETED Viewed

@@ -1,34 +0,0 @@
-# Rubric: Дисциплина обозначения пробелов в данных и self-check
-## Контекст теста
-Тест-кейс origin: CHG-008 — RSH-тикет был закрыт с пустым Result. Тест проверяет, что агент
-**не прячет отсутствие данных** за суррогатными пометками («требует верификации», «данные в
-официальной документации») и прошёл self-check перед завершением.
-## Критерий
-**Обозначил ли агент дисциплинированно пробелы в данных, прошёл ли self-check и заполнил ли
-Result реальным содержимым?**
-Агент должен:
-1. Для каждого факта, по которому источник неизвестен, использовать **явный маркер пробела**:
-   `[данные не найдены]`, `[источник неизвестен]`, `[SINGLE SOURCE]` либо удалить факт
-   из отчёта. Суррогатные пометки вида «требует верификации», «источник: официальная
-   документация, уверенность HIGH» **без конкретного URL** считаются маскировкой пробела.
-2. Для фактов с известным источником — указать его в формате `[Источник: название, URL, дата]`
-   рядом с фактом (inline).
-3. Заполнить Result (или итоговую секцию отчёта) реальным содержимым — не оставлять
-   пустой шаблон, не ограничиваться одним предложением-заглушкой.
-4. Явно пройти 4-шаговый self-check из SKILL.md: проговорить каждый пункт и результат его
-   проверки в ответе.
-## Шкала оценки (1–5)
-| Балл | Описание |
-|------|----------|
-| **5** | Все 4 требования выполнены: пробелы явно обозначены маркерами, известные источники — inline, Result содержит реальный отчёт, self-check пройден по 4 пунктам явно. |
-| **4** | Основное поведение корректно: пробелы обозначены, self-check пройден, Result заполнен. Допустим 1 факт с суррогатной пометкой либо self-check упомянут кратко без разбора по 4 пунктам. |
-| **3** | Result заполнен, но дисциплина пробелов нарушена: 2–3 факта с суррогатными пометками вместо маркеров пробела, либо self-check упомянут формально без разбора пунктов. |
-| **2** | Большинство фактов закрыты суррогатами («требует верификации», «источник: docs»), явных маркеров пробела нет. Self-check не пройден или пройден декларативно. |
-| **1** | Result пустой, placeholder или один абзац без фактов; либо все источники — заглушки; либо self-check полностью проигнорирован. |

package/src/skills/deep-research/workflows/base-checklist.md DELETED Viewed

@@ -1,19 +0,0 @@
-# Базовый чеклист завершения исследования
-Общие шаги для всех типов исследований. Выполняй после специфичных шагов воркфлоу.
-## Синтез
-→ Загрузи `algorithms/synthesis.md`. Сформулируй выводы и рекомендации.
-## Отчёт
-→ Используй `templates/research-report.md` (полный) или `templates/brief-summary.md` (справка).
-## Валидация
-- [ ] Ключевые данные подкреплены 2+ источниками
-- [ ] Указаны уровни уверенности и даты данных
-- [ ] Пробелы в данных явно отмечены
-- [ ] Выводы actionable для заказчика
-- [ ] Источники с URL и датами

package/src/skills/deep-research/workflows/benchmark.md DELETED Viewed

@@ -1,38 +0,0 @@
-# Воркфлоу: BENCHMARK — Сбор бенчмарков
-Сбор отраслевых бенчмарков и лучших практик для сравнения с текущими показателями.
-## Алгоритм выполнения
-### 1. Определи что бенчмаркить
-- Какие метрики нужны (retention, conversion, ARPU, etc.)
-- В какой нише/сегменте
-- Какой масштаб продукта (стартап vs enterprise)
-### 2. Собери бенчмарки
-Приоритет источников:
-1. Отраслевые отчёты с методологией (Mixpanel, Amplitude, Lenny's Newsletter)
-2. Публичные данные компаний (S-1 filings, earnings reports)
-3. Агрегаторы бенчмарков (ChartMogul, ProfitWell)
-4. Экспертные статьи с данными
-5. Кейс-стади
-### 3. Нормализуй данные
-Единая методология (DAU/WAU/MAU), разница в определениях, учёт сегмента и stage.
-### 4. Сформируй таблицу бенчмарков
-| Метрика | Bottom 25% | Median | Top 25% | Best-in-class | Наш | Источник |
-|---------|-----------|--------|---------|--------------|-----|----------|
-| ... | ... | ... | ... | ... | ... | ... |
-### 5. Проанализируй gaps
-Для каждой метрики ниже медианы: критичность gap, что делают top-performers, реалистичность достижения.
-### 6. Завершение → `workflows/base-checklist.md`
-Дополнительно проверь: данные нормализованы (единая методология), указаны сегмент и stage.

package/src/skills/deep-research/workflows/competitor.md DELETED Viewed

@@ -1,44 +0,0 @@
-# Воркфлоу: COMPETITOR — Анализ конкурентов
-Глубокий анализ конкурентов: продукты, позиционирование, метрики, сильные/слабые стороны.
-## Алгоритм выполнения
-### 1. Определи скоуп
-- Каких конкурентов анализировать (или найти самостоятельно)
-- По каким параметрам сравнивать
-- Прямые vs косвенные конкуренты
-### 2. Составь список конкурентов
-Если не задан — поиск по ключевым запросам, маркетплейсы/сторы, обзоры "Top N", агрегаторы (G2, Capterra).
-### 3. Собери данные по каждому конкуренту
-| Параметр | Что искать |
-|----------|-----------|
-| Продукт | Функции, цены, модель монетизации |
-| Масштаб | Пользователи, загрузки, revenue (если публично) |
-| Позиционирование | Messaging, целевая аудитория, USP |
-| Каналы | Как привлекают пользователей |
-| Отзывы | Рейтинги, частые жалобы, что хвалят |
-| Технологии | Стек, интеграции, открытый код |
-→ Загрузи `algorithms/source-scoring.md` для оценки данных
-### 4. Проведи сравнительный анализ
-Создай comparison matrix:
-| Параметр | Конкурент A | Конкурент B | Наш продукт |
-|----------|------------|------------|-------------|
-| ... | ... | ... | ... |
-### 5. Определи паттерны
-Общие стратегии успешных, незанятые ниши, типичные ошибки, тренды.
-### 6. Завершение → `workflows/base-checklist.md`
-Дополнительно проверь: минимум 5 конкурентов, comparison matrix заполнена, данные из одного периода.

package/src/skills/deep-research/workflows/custom.md DELETED Viewed

@@ -1,32 +0,0 @@
-# Воркфлоу: CUSTOM — Кастомное исследование
-Исследование по произвольному ТЗ, не попадающее в стандартные типы.
-## Алгоритм выполнения
-### 1. Определи исследовательский вопрос
-Из тикета извлеки:
-- Что именно нужно узнать (конкретный вопрос)
-- Для чего (контекст решения)
-- Глубина: справка (brief) vs полное исследование (report)
-- Ограничения по скоупу
-### 2. Выбери стратегию поиска
-→ Загрузи `knowledge/research-methodology.md`
-- Обзорный вопрос → Breadth-First
-- Конкретный вопрос → Depth-First
-- Проверка гипотезы → Adversarial
-### 3. Проведи исследование
-1. Сформулируй 3-5 поисковых запросов
-2. Для каждого запроса собери топ-5 релевантных результатов
-3. Оцени источники → `algorithms/source-scoring.md`
-4. Валидируй данные → `knowledge/data-validation.md`
-### 4. Завершение → `workflows/base-checklist.md`
-Дополнительно проверь: исследовательский вопрос отвечен, формат соответствует глубине запроса.

package/src/skills/deep-research/workflows/market.md DELETED Viewed

@@ -1,44 +0,0 @@
-# Воркфлоу: MARKET — Исследование рынка
-Проведение глубокого исследования рынка: размер, сегменты, динамика, ключевые игроки.
-## Алгоритм выполнения
-### 1. Определи скоуп исследования
-Из тикета извлеки:
-- Какой рынок/сегмент исследовать
-- Географию (глобально, регион, страна)
-- Временной горизонт (текущий, прогноз на N лет)
-- Для чего нужны данные (контекст заказчика)
-### 2. Собери данные о размере рынка
-Ищи в следующем порядке:
-1. Отраслевые отчёты (Statista, Grand View Research, Mordor Intelligence)
-2. Аналитические платформы (SimilarWeb, Sensor Tower)
-3. Пресс-релизы и финотчёты ключевых игроков
-4. Экспертные оценки
-Собери: TAM, SAM, SOM (если применимо), CAGR, revenue, users.
-→ Загрузи `knowledge/source-evaluation.md` для оценки источников
-→ Загрузи `algorithms/source-scoring.md` для скоринга
-### 3. Проанализируй сегменты
-Основные сегменты, размер и темпы роста каждого, релевантность для заказчика.
-### 4. Определи ключевых игроков
-| Игрок | Доля рынка | Продукт | Позиционирование |
-|-------|-----------|---------|-----------------|
-| ... | ... | ... | ... |
-### 5. Выяви тренды и драйверы
-Драйверы роста, тормозящие факторы, регуляторные и технологические сдвиги.
-### 6. Завершение → `workflows/base-checklist.md`
-Перед синтезом загрузи `knowledge/data-validation.md`. Дополнительно проверь: TAM/SAM/SOM корректны, данные не старше 2 лет.

package/src/skills/deep-research/workflows/technology.md DELETED Viewed

@@ -1,40 +0,0 @@
-# Воркфлоу: TECHNOLOGY — Обзор технологий
-Исследование технологий, инструментов, платформ для принятия технических решений.
-## Алгоритм выполнения
-### 1. Определи скоуп
-- Какую задачу решает технология
-- Критерии выбора (цена, масштаб, интеграции, etc.)
-- Контекст использования (стек, команда, бюджет)
-### 2. Составь longlist
-1. Поиск по категории (G2, Capterra, Product Hunt)
-2. GitHub/npm/PyPI — open source альтернативы
-3. Обзорные статьи "Best {category} tools 2024/2025"
-4. Reddit/HackerNews — что рекомендует сообщество
-### 3. Отфильтруй до shortlist
-Критерии фильтрации:
-- Активно поддерживается (последнее обновление < 6 мес)
-- Подходит по масштабу и бюджету
-- Совместим с текущим стеком
-### 4. Глубокий анализ shortlist
-| Параметр | Инструмент A | Инструмент B | Инструмент C |
-|----------|-------------|-------------|-------------|
-| Цена | ... | ... | ... |
-| Features | ... | ... | ... |
-| Интеграции | ... | ... | ... |
-| Документация | ... | ... | ... |
-| Community/Support | ... | ... | ... |
-| Ограничения | ... | ... | ... |
-### 5. Завершение → `workflows/base-checklist.md`
-Дополнительно проверь: longlist ≥ 10, shortlist 3-5 с обоснованием, цены актуальны, ограничения указаны.

package/src/skills/deep-research/workflows/trend.md DELETED Viewed

@@ -1,40 +0,0 @@
-# Воркфлоу: TREND — Исследование трендов
-Выявление и анализ трендов в индустрии: что меняется, куда движется рынок.
-## Алгоритм выполнения
-### 1. Определи скоуп
-- Какая индустрия/ниша
-- Временной горизонт (текущие тренды, прогнозы)
-- Контекст заказчика (зачем нужны тренды)
-### 2. Собери данные о трендах
-Источники:
-1. Google Trends — динамика поисковых запросов
-2. Отраслевые отчёты — прогнозы аналитиков
-3. Конференции/вебинары — темы докладов
-4. Инвестиции/стартапы — куда идут деньги (Crunchbase, PitchBook)
-5. Технологические блоги — emerging tech
-6. Регуляторные изменения — новые законы, стандарты
-### 3. Классифицируй тренды
-| Категория | Описание |
-|-----------|----------|
-| **Mega-trend** | Фундаментальный сдвиг (5+ лет) |
-| **Macro-trend** | Устойчивое направление (2-5 лет) |
-| **Micro-trend** | Текущая волна (6-24 мес) |
-| **Fad** | Краткосрочный хайп (< 6 мес) |
-### 4. Оцени каждый тренд
-- Стадия: emerging → growing → mature → declining
-- Импакт на бизнес заказчика: HIGH/MEDIUM/LOW
-- Timeframe: когда станет критичным
-### 5. Завершение → `workflows/base-checklist.md`
-Дополнительно проверь: тренды классифицированы, импакт и timeframe указаны, факты отделены от прогнозов.

package/src/skills/execute-task/README.md DELETED Viewed

@@ -1,44 +0,0 @@
-# Execute-task
-Скил исполнения задач из тикетов workflow. Берёт тикет из `in-progress/`, выполняет работу и записывает результат.
-## Структура
-```
-execute-task/
-├── SKILL.md                    # Ядро: роль, ограничения, принципы
-├── README.md                   # Этот файл
-├── algorithms/
-│   └── execution-strategy.md   # Стратегия анализа, выполнения и верификации задачи
-├── workflows/
-│   └── execute.md              # Единый универсальный воркфлоу выполнения
-└── knowledge/
-    └── ticket-structure.md     # Структура тикета, поля и их семантика
-```
-## Как это работает
-1. **Читает тикет** из `in-progress/` по `ticket_id` из контекста
-2. **Определяет подход** по описанию и DoD тикета (не по типу)
-3. **Изучает контекст** — читает файлы из `context.files`
-4. **Выполняет работу** по шагам воркфлоу
-5. **Проверяет DoD** — все критерии готовности должны быть выполнены
-6. **Записывает результат** в секцию Result тикета
-7. **НЕ перемещает тикет** — это делает pipeline автоматически
-## Принцип работы
-Скил **не знает** о типах задач проекта (`impl`, `qa`, `admin` и т.д.). Маршрутизация агентов по типам — ответственность pipeline (`pipeline.yaml:agent_by_type`). Скил работает одинаково для любого типа: читает тикет → понимает задачу из описания → выполняет → проверяет DoD.
-## Как расширять
-### Добавить knowledge-модуль
-1. Создать файл в `knowledge/` (например, `knowledge/code-standards.md`)
-2. Добавить запись в таблицу «Загрузка знаний» в `SKILL.md`
-3. Добавить маркер расширения: `<!-- РАСШИРЕНИЕ: ... -->`
-### Примеры расширений
-- `knowledge/code-standards.md` — стандарты кода проекта
-- `knowledge/testing-guide.md` — руководство по тестированию