npm - adi_dev_workflow - Versions diffs - 1.0.0 → 1.1.0 - Mend

adi_dev_workflow 1.0.0 → 1.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (130) hide show

package/frameworks/skills/sdd-task-plan-expert/evals/evals.json ADDED Viewed

@@ -0,0 +1,109 @@
+{
+  "skill_name": "sdd-task-plan-expert",
+  "evals": [
+    {
+      "id": 1,
+      "name": "happy-path-spec-tech-usuario",
+      "prompt": "Gere o TASK PLAN para a feature de usuario. O SPEC_TECH aprovado esta em docs/feature-user/v1/spec_tech.md",
+      "expected_output": "A skill deve: (1) ler o SPEC_TECH do modulo de usuario, (2) extrair o nome da feature automaticamente ('feature-user' ou similar), (3) confirmar o nome com o usuario antes de prosseguir, (4) propor macro-fases de alto nivel e aguardar validacao, (5) fazer UMA pergunta por vez durante todo o processo. O task_plan.md deve ser um documento de REFERENCIA (sem corpo de tasks). Cada task deve ser salva em arquivo individual tasks/TN.md.",
+      "files": [
+        "docs/feature-user/v1/spec_tech.md"
+      ],
+      "assertions": [
+        {
+          "id": "a1",
+          "text": "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir",
+          "type": "llm_judge"
+        },
+        {
+          "id": "a2",
+          "text": "Faz apenas UMA pergunta por vez (nao bombardeia com multiplas perguntas no mesmo turno)",
+          "type": "llm_judge"
+        },
+        {
+          "id": "a3",
+          "text": "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks",
+          "type": "llm_judge"
+        },
+        {
+          "id": "a4",
+          "text": "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks",
+          "type": "llm_judge"
+        },
+        {
+          "id": "a5",
+          "text": "NAO inicia execucao automatica de tasks — apenas apresenta o plano e aguarda",
+          "type": "llm_judge"
+        }
+      ]
+    },
+    {
+      "id": 2,
+      "name": "spec-tech-simples-alteracao-pontual",
+      "prompt": "Preciso de um TASK PLAN para esta feature simples. O SPEC_TECH aprovado esta abaixo:\n\n---\n# SPEC_TECH — Adicionar Telefone ao Usuario v1\n\n## 1. Identificacao\n| Campo | Valor |\n|-------|-------|\n| **Feature/Projeto** | Adicionar Telefone ao Modulo de Usuario |\n| **Versao** | v1 |\n| **Data** | 2026-03-07 |\n| **PRD** | docs/feature-telefone-usuario/v1/prd.md |\n\n## 2. Resumo Tecnico\nAdicionar campo `telefone` (opcional) a tabela `usuarios` e expor via gRPC nos endpoints CreateUser e UpdateUser.\n\n## 3. Definicoes Tecnicas\n\n### 3.1 Banco de Dados\n- Nova migracao: `ALTER TABLE usuarios ADD COLUMN telefone TEXT;`\n\n### 3.2 SQLC\n- Atualizar queries CreateUser e UpdateUser para incluir coluna `telefone`\n\n### 3.3 Repository\n- Adicionar campo `Phone` ao modelo User\n- Mapear `telefone` (banco) para `Phone` (Go)\n\n### 3.4 Service\n- Aceitar campo opcional phone em CreateUser e UpdateUser\n- Validacao: se informado, deve ter entre 10 e 15 caracteres\n\n### 3.5 Handler gRPC\n- Adicionar campo `phone` nas mensagens proto CreateUserRequest, UpdateUserRequest e User\n\n### 3.6 Proto\n- Atualizar user.proto com campo `string phone = X;`\n\n## 4. User Stories Relacionadas\n- US-10: Como usuario, quero informar meu telefone para receber notificacoes por SMS\n---",
+      "expected_output": "A skill deve gerar um plano proporcional a complexidade — poucas tasks (3-5), poucas fases. Nao deve over-engineer com 10+ tasks para uma alteracao pontual. Deve respeitar a ordem de dependencias (migracao antes de SQLC, SQLC antes de repository, etc). Tasks devem ser granulares mas nao excessivamente fragmentadas.",
+      "files": [],
+      "assertions": [
+        {
+          "id": "b1",
+          "text": "Gera um numero proporcional de tasks (entre 3 e 6) — nao over-engineers com tasks demais para uma alteracao simples",
+          "type": "llm_judge"
+        },
+        {
+          "id": "b2",
+          "text": "Respeita a ordem de dependencias das camadas (migracao > SQLC > repository > service > handler > proto)",
+          "type": "llm_judge"
+        },
+        {
+          "id": "b3",
+          "text": "Mapeia a US-10 na tabela de rastreabilidade do task_plan",
+          "type": "llm_judge"
+        },
+        {
+          "id": "b4",
+          "text": "Cada task segue o template completo (secoes 1-8) ou marca secoes N/A com justificativa",
+          "type": "llm_judge"
+        },
+        {
+          "id": "b5",
+          "text": "Salva task_plan.md como documento de REFERENCIA (sem corpo detalhado de tasks dentro dele)",
+          "type": "llm_judge"
+        }
+      ]
+    },
+    {
+      "id": 3,
+      "name": "spec-tech-sem-user-stories-explicitas",
+      "prompt": "Gere o TASK PLAN para esta feature. Segue o SPEC_TECH aprovado:\n\n---\n# SPEC_TECH — Cache de Cardapio v1\n\n## 1. Identificacao\n| Campo | Valor |\n|-------|-------|\n| **Feature/Projeto** | Cache de Cardapio em Memoria |\n| **Versao** | v1 |\n| **Data** | 2026-03-07 |\n\n## 2. Resumo Tecnico\nImplementar cache in-memory (sync.Map) para o cardapio de produtos, evitando queries repetidas ao SQLite. TTL configuravel via config.yaml.\n\n## 3. Definicoes Tecnicas\n\n### 3.1 Novo Pacote\n- `internal/infra/cache/` com interface `Cache[K, V]` e implementacao `InMemoryCache`\n- TTL configuravel via `cache.ttl_seconds` no config.yaml\n- Invalidacao manual via metodo `Invalidate(key)`\n\n### 3.2 Service\n- ProductService passa a consultar cache antes do repository\n- Cache miss: busca no repository e popula cache\n- Operacoes de escrita (Create, Update, Delete) invalidam a entrada correspondente\n\n### 3.3 Config\n- Novo campo `cache.ttl_seconds` (padrao: 300)\n\n### 3.4 DI\n- Registrar modulo cache no FX\n---",
+      "expected_output": "A skill deve detectar que NAO ha User Stories (US-XX) nem PRD referenciado no SPEC_TECH. Deve PERGUNTAR ao usuario sobre isso em vez de inventar user stories ou ignorar a rastreabilidade. Deve seguir o processo interativo normalmente (extrair nome, confirmar, propor fases).",
+      "files": [],
+      "assertions": [
+        {
+          "id": "c1",
+          "text": "Detecta a ausencia de User Stories (US-XX) e PRD referenciado no SPEC_TECH",
+          "type": "llm_judge"
+        },
+        {
+          "id": "c2",
+          "text": "PERGUNTA ao usuario sobre User Stories / PRD em vez de inventar ou ignorar",
+          "type": "llm_judge"
+        },
+        {
+          "id": "c3",
+          "text": "NAO inventa User Stories ficticias (guardrail: nunca invente informacoes)",
+          "type": "llm_judge"
+        },
+        {
+          "id": "c4",
+          "text": "Extrai corretamente o nome da feature como 'cache-de-cardapio' ou similar em kebab-case",
+          "type": "llm_judge"
+        },
+        {
+          "id": "c5",
+          "text": "Segue o processo interativo (uma pergunta por vez, confirma nome antes de prosseguir)",
+          "type": "llm_judge"
+        }
+      ]
+    }
+  ]
+}

package/frameworks/skills/sdd-task-plan-expert/templates/task_plan_template.md CHANGED Viewed

@@ -1,83 +1,83 @@
-# TASK PLAN – Plano de Execucao das Tasks
+# TASK PLAN – Plano de Execução das Tasks
-## 1. Identificacao
+## 1. Identificação
 - **Feature/Projeto**:
-- **Responsavel (Tech Lead)**:
+- **Responsável (Tech Lead)**:
 - **Data**:
 - **Status**: Rascunho | Em andamento | Fechado
-- **SPEC Relacionado**:
-- **PRD Relacionado**:
+- **SPEC_TECH**: `docs/<nome-feature>/spec_tech.md`
+- **PRD**: `docs/<nome-feature>/prd.md`
 ---
 ## 2. Objetivo do Task Plan
-Breve resumo do objetivo geral da feature e o que sera entregue ao final das tasks.
+Breve resumo do objetivo geral da feature e o que será entregue ao final das tasks.
 ---
-## 3. Macro-Fases (alto nivel)
-- **Fase 1 – Preparacao / Fundamentos**
+## 3. Macro-Fases (alto nível)
+- **Fase 1 – Preparação / Fundamentos**
   - Objetivo:
   - Tasks: T1, T2
-- **Fase 2 – Implementacao Principal**
+- **Fase 2 – Implementação Principal**
   - Objetivo:
   - Tasks: T3, T4, T5
-- **Fase 3 – Integracoes / Ajustes**
+- **Fase 3 – Integrações / Ajustes**
   - Objetivo:
   - Tasks: T6, T7
-- **Fase 4 – Testes / Validacao**
+- **Fase 4 – Testes / Validação**
   - Objetivo:
   - Tasks: T8, T9
-- **Fase 5 – Finalizacao / Entrega**
+- **Fase 5 – Finalização / Entrega**
   - Objetivo:
   - Tasks: T10
 ---
-## 4. Lista de Tasks (visao macro)
-| ID | Nome da Task | Fase | Dependencias | Pode Rodar em Paralelo? | Status |
-|----|--------------|------|--------------|--------------------------|--------|
-| T1 |              |      |              | Sim/Nao                  | A Fazer |
-| T2 |              |      |              | Sim/Nao                  | A Fazer |
+## 4. Lista de Tasks (visão macro)
+| ID  | Nome da Task | Arquivo           | Fase | Dependências | Pode Rodar em Paralelo? | Status  |
+| --- | ------------ | ----------------- | ---- | ------------ | ----------------------- | ------- |
+| T1  |              | [T1](tasks/T1.md) |      |              | Sim/Não                 | A Fazer |
+| T2  |              | [T2](tasks/T2.md) |      |              | Sim/Não                 | A Fazer |
 ---
 ## 5. Rastreabilidade: User Stories → Tasks
-| User Story (PRD) | Definicao Tecnica (SPEC) | Tasks Relacionadas | Status |
-|------------------|--------------------------|-------------------|--------|
-| US-01            |                          | T1, T2            |        |
-| US-02            |                          | T3, T4            |        |
+| User Story (PRD) | Definição Técnica (SPEC) | Tasks Relacionadas | Status |
+| ---------------- | ------------------------ | ------------------ | ------ |
+| US-01            |                          | T1, T2             |        |
+| US-02            |                          | T3, T4             |        |
-> Esta tabela garante que TODAS as user stories do PRD tem tasks correspondentes para implementacao.
+<!-- LLM-ONLY: Esta tabela garante que TODAS as user stories do PRD tem tasks correspondentes para implementacao. -->
 ---
-## 6. Dependencias Gerais
-Liste dependencias entre tasks, externas, bloqueios e pre-requisitos do time.
+## 6. Dependências Gerais
+Liste dependências entre tasks, externas, bloqueios e pré-requisitos do time.
 ---
-## 7. Criterios de Conclusao da Feature
-A feature sera considerada concluida quando:
+## 7. Critérios de Conclusão da Feature
+A feature será considerada concluída quando:
 - [ ] Todas as tasks estiverem completas
 - [ ] Testes validados
-- [ ] Criterios tecnicos do SPEC atendidos
+- [ ] Critérios técnicos do SPEC atendidos
 - [ ] Nenhum comportamento divergente do PRD
-- [ ] Todas as User Stories cobertas (tabela secao 5)
+- [ ] Todas as User Stories cobertas (tabela seção 5)
 - [ ] Deploy aprovado
 ---
-## 8. Riscos & Mitigacoes
-- Risco 1 → Mitigacao
-- Risco 2 → Mitigacao
+## 8. Riscos & Mitigações
+- Risco 1 → Mitigação
+- Risco 2 → Mitigação
 ---
 ## 9. Checklist Final
 - [ ] Task Plan completo
 - [ ] Tasks mapeadas
-- [ ] Dependencias validadas
+- [ ] Dependências validadas
 - [ ] Rastreabilidade User Stories → Tasks preenchida
-- [ ] Pronto para execucao paralela
+- [ ] Pronto para execução paralela

package/frameworks/skills/sdd-task-plan-expert/templates/task_template.md CHANGED Viewed

@@ -1,40 +1,40 @@
 # TASK – Detalhamento da Task
-## 1. Identificacao
+## 1. Identificação
 - **ID**:
 - **Nome da Task**:
-- **Responsavel**:
-- **Status**: A Fazer | Em Progresso | Revisao | Concluido
+- **Responsável**:
+- **Status**: A Fazer | Em Progresso | Revisão | Concluído
 - **Fase**:
-- **Dependencias**:
+- **Dependências**:
 - **User Stories Relacionadas**: (US-XX do PRD)
 ---
 ## 2. Objetivo da Task
-Explique o que deve ser entregue ao final desta task (resultado tecnico direto, nao comportamento do usuario).
+Explique o que deve ser entregue ao final desta task (resultado técnico direto, não comportamento do usuário).
 ---
-## 3. Descricao Detalhada
+## 3. Descrição Detalhada
 Explique COMO implementar, baseado no SPEC_TECH:
 - O que deve ser criado
 - O que deve ser modificado
-- Fluxo tecnico envolvido
-- Regras de implementacao especificas
-- Decisoes tecnicas ja tomadas
+- Fluxo técnico envolvido
+- Regras de implementação específicas
+- Decisões técnicas já tomadas
-> Deve ser objetiva, clara e de engenharia.
+<!-- LLM-ONLY: A descricao deve ser objetiva, clara e de engenharia. -->
 ---
-## 4. Aceite Tecnico (criterios objetivos)
-A task estara concluida quando:
+## 4. Aceite Técnico (critérios objetivos)
+A task estará concluída quando:
 - [ ] Estrutura implementada conforme SPEC
-- [ ] Fluxo tecnico funcional
+- [ ] Fluxo técnico funcional
 - [ ] Erros corretamente tratados
-- [ ] Testes da task criados (quando aplicavel)
-- [ ] Codigo revisado e aprovado
+- [ ] Testes da task criados (quando aplicável)
+- [ ] Código revisado e aprovado
 - [ ] Nenhuma quebra nos fluxos existentes
 ---
@@ -42,16 +42,16 @@ A task estara concluida quando:
 ## 5. Arquivos Impactados
 ### 5.1 Arquivos a Criar
-| Arquivo | Descricao |
+| Arquivo | Descrição |
 |---------|-----------|
 |         |           |
 ### 5.2 Arquivos a Modificar
-| Arquivo | Modificacao |
+| Arquivo | Modificação |
 |---------|------------|
 |         |            |
-### 5.3 Arquivos de Referencia
+### 5.3 Arquivos de Referência
 | Arquivo | Motivo da Consulta |
 |---------|-------------------|
 |         |                   |
@@ -60,30 +60,56 @@ A task estara concluida quando:
 ## 6. Testes
-### 6.1 Testes Unitarios
-- [ ] Teste: descricao do teste unitario
-- [ ] Teste: descricao do teste unitario
+<!-- LLM-ONLY: Coluna "Objetivo": Descreva em 1 frase O QUE o teste valida e POR QUE importa. Use o padrao: Verbo + comportamento especifico + condicao. Exemplo: "Verificar que apenas categorias com ativo=1 sao retornadas, ordenadas pelo campo 'ordem'". NAO repita o nome do teste — o objetivo deve dar contexto que o nome sozinho nao da. -->
-### 6.2 Testes de Integracao
-- [ ] Teste: descricao do teste de integracao
+### 6.1 Testes Unitários
+#### [Camada]: [NomeComponente] (`arquivo_test.go`)
+Mock: [interfaces mockadas]
+| CT | Teste | CA | Objetivo | Input | Expected | Mock |
+|----|-------|----|----------|-------|----------|------|
+| CT-XX | TestMetodo_Cenario | CA-XX | Verificar que [comportamento esperado] quando [condição] | dados de entrada | resultado esperado | dependências mockadas |
+### 6.2 Testes de Integração
+#### [CamadaA + CamadaB] (`arquivo_test.go`)
+Setup: [banco in-memory, migrações, fixtures]
+| CT | Teste | CA | Objetivo | Fluxo | Validação |
+|----|-------|----|----------|-------|-----------|
+| CT-XX | TestIntegracao_Cenario | CA-XX | Verificar que [comportamento] quando [condição] | Passos do fluxo | Assertions esperadas |
 ### 6.3 Testes E2E
-- [ ] Teste: descricao do teste e2e (quando aplicavel)
-### 6.4 Cenarios de Erro
-- [ ] Cenario: descricao do cenario de erro esperado
+#### Fluxo: [Nome do Fluxo] (CT-XX)
+- **CA**: CA-XX, CA-YY
+- **Objetivo**: (1 frase descrevendo o que este fluxo E2E valida de ponta a ponta)
+- **Pré-condições**: (estado inicial do sistema)
+- **Passos**:
+  1. Passo 1
+  2. Passo 2
+- **Validações**: (assertions sobre dados e estado final)
+### 6.4 Cenários de Erro
+| Cenário | CA | Objetivo | Trigger | Código/Status | Log Esperado |
+|---------|----|----------|---------|---------------|-------------|
+| Descrição do cenário | CA-XX | Verificar que [constraint] impede [operação] e retorna erro adequado | Ação que dispara o erro | Código de erro esperado | Mensagem de log esperada |
 ---
-## 7. Notas / Observacoes
-Anotacoes tecnicas, decisoes, pontos relevantes.
+## 7. Notas / Observações
+Anotações técnicas, decisões, pontos relevantes.
 ---
 ## 8. Checklist Final
 - [ ] Implementada conforme SPEC
-- [ ] Testes unitarios criados/atualizados
-- [ ] Testes de integracao criados/atualizados
-- [ ] Aceite tecnico atendido
+- [ ] Testes unitários criados/atualizados
+- [ ] Testes de integração criados/atualizados
+- [ ] Aceite técnico atendido
 - [ ] Revisada
-- [ ] Integrada a branch principal
+- [ ] Integrada à branch principal

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/benchmark.json ADDED Viewed

@@ -0,0 +1,99 @@
+{
+  "skill_name": "sdd-task-plan-expert",
+  "iteration": 1,
+  "configurations": [
+    {
+      "name": "with_skill",
+      "pass_rate": 0.933,
+      "mean_tokens": 55027,
+      "stddev_tokens": 10217,
+      "mean_duration_seconds": 184.9,
+      "stddev_duration_seconds": 85.7,
+      "evals": [
+        {
+          "eval_name": "happy-path-spec-tech-usuario",
+          "pass_rate": 0.8,
+          "passed": 4,
+          "total": 5,
+          "tokens": 61221,
+          "duration_seconds": 138.2,
+          "failed_assertions": ["Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks"]
+        },
+        {
+          "eval_name": "spec-tech-simples-alteracao-pontual",
+          "pass_rate": 1.0,
+          "passed": 5,
+          "total": 5,
+          "tokens": 60596,
+          "duration_seconds": 286.6,
+          "failed_assertions": []
+        },
+        {
+          "eval_name": "spec-tech-sem-user-stories-explicitas",
+          "pass_rate": 1.0,
+          "passed": 5,
+          "total": 5,
+          "tokens": 43263,
+          "duration_seconds": 130.0,
+          "failed_assertions": []
+        }
+      ]
+    },
+    {
+      "name": "without_skill",
+      "pass_rate": 0.333,
+      "mean_tokens": 38834,
+      "stddev_tokens": 3912,
+      "mean_duration_seconds": 151.2,
+      "stddev_duration_seconds": 14.5,
+      "evals": [
+        {
+          "eval_name": "happy-path-spec-tech-usuario",
+          "pass_rate": 0.2,
+          "passed": 1,
+          "total": 5,
+          "tokens": 40363,
+          "duration_seconds": 141.3,
+          "failed_assertions": [
+            "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir",
+            "Faz apenas UMA pergunta por vez",
+            "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks",
+            "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks"
+          ]
+        },
+        {
+          "eval_name": "spec-tech-simples-alteracao-pontual",
+          "pass_rate": 0.2,
+          "passed": 1,
+          "total": 5,
+          "tokens": 41818,
+          "duration_seconds": 167.6,
+          "failed_assertions": [
+            "Gera um numero proporcional de tasks (entre 3 e 6)",
+            "Mapeia a US-10 na tabela de rastreabilidade do task_plan",
+            "Cada task segue o template completo (secoes 1-8)",
+            "Salva task_plan.md como documento de REFERENCIA"
+          ]
+        },
+        {
+          "eval_name": "spec-tech-sem-user-stories-explicitas",
+          "pass_rate": 0.4,
+          "passed": 2,
+          "total": 5,
+          "tokens": 34322,
+          "duration_seconds": 144.7,
+          "failed_assertions": [
+            "PERGUNTA ao usuario sobre User Stories / PRD em vez de inventar ou ignorar",
+            "Extrai corretamente o nome da feature em kebab-case",
+            "Segue o processo interativo (uma pergunta por vez)"
+          ]
+        }
+      ]
+    }
+  ],
+  "delta": {
+    "pass_rate_improvement": "+60.0pp",
+    "tokens_overhead": "+41.7%",
+    "duration_overhead": "+22.3%"
+  }
+}

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/benchmark.md ADDED Viewed

@@ -0,0 +1,64 @@
+# Benchmark — sdd-task-plan-expert (Iteration 1)
+## Resumo
+| Metrica | With Skill | Without Skill (Baseline) | Delta |
+|---------|-----------|-------------------------|-------|
+| **Pass Rate** | **93.3%** (14/15) | 33.3% (5/15) | **+60.0pp** |
+| **Tokens (media)** | 55,027 | 38,834 | +41.7% |
+| **Duracao (media)** | 184.9s | 151.2s | +22.3% |
+## Resultados por Eval
+### Eval 1: Happy Path (SPEC_TECH real do modulo de usuario)
+| Assertion | With Skill | Without Skill |
+|-----------|:---------:|:------------:|
+| Extrai nome e confirma com usuario | PASS | FAIL |
+| Uma pergunta por vez | PASS | FAIL |
+| Propoe fases antes de tasks | PASS | FAIL |
+| Le rules do projeto antes | FAIL | FAIL |
+| Nao inicia execucao automatica | PASS | PASS |
+### Eval 2: Feature Simples (adicionar telefone)
+| Assertion | With Skill | Without Skill |
+|-----------|:---------:|:------------:|
+| Numero proporcional de tasks (3-6) | PASS (6) | FAIL (12) |
+| Ordem de dependencias correta | PASS | PASS |
+| Rastreabilidade US-10 | PASS | FAIL |
+| Template completo (secoes 1-8) | PASS | FAIL |
+| task_plan como referencia | PASS | FAIL |
+### Eval 3: Sem User Stories
+| Assertion | With Skill | Without Skill |
+|-----------|:---------:|:------------:|
+| Detecta ausencia de US/PRD | PASS | PASS |
+| Pergunta ao usuario | PASS | FAIL |
+| Nao inventa US ficticias | PASS | PASS |
+| Nome em kebab-case | PASS | FAIL |
+| Processo interativo | PASS | FAIL |
+## Analise
+### Pontos Fortes da Skill
+1. **Processo interativo**: A skill garante interacao step-by-step (93% vs 33% pass rate)
+2. **Proporcionalidade**: 6 tasks para feature simples vs 12 sem skill
+3. **Guardrails**: Detectou e perguntou sobre US/PRD ausentes em vez de ignorar
+4. **Template e rastreabilidade**: Segue template oficial e mapeia User Stories
+5. **Separacao de documentos**: task_plan como referencia, tasks em arquivos individuais
+### Ponto de Melhoria Identificado
+1. **Leitura de rules do projeto (a4)**: A skill instrui "Ler as rules do projeto", mas o agente leu extensivamente o codebase sem ler `.claude/rules/` e `CLAUDE.md` explicitamente. Sugestao: reforcar na skill que a leitura de rules e o PRIMEIRO passo, antes de explorar o codebase.
+### Custo da Skill
+- **+41.7% tokens**: Esperado — a skill faz mais trabalho (leitura de templates, processo interativo, exploração de codebase mais detalhada)
+- **+22.3% duracao**: Overhead moderado, aceitavel dado o ganho de qualidade
+### Assertions Nao-Discriminantes
+- "Nao inventa US ficticias" passou em ambas as configuracoes (with/without skill) — o modelo base ja respeita isso
+- "Nao inicia execucao automatica" tambem passou em ambas
+### Conclusao
+A skill melhora drasticamente a qualidade do output (+60pp pass rate). O unico ponto de falha (leitura de rules) e um refinamento menor. O custo adicional em tokens/tempo e justificado pelo ganho em estrutura, interatividade e conformidade com o framework SDD.

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/eval-1-happy-path/eval_metadata.json ADDED Viewed

@@ -0,0 +1,12 @@
+{
+  "eval_id": 1,
+  "eval_name": "happy-path-spec-tech-usuario",
+  "prompt": "Gere o TASK PLAN para a feature de usuario. O SPEC_TECH aprovado esta em docs/feature-user/v1/spec_tech.md",
+  "assertions": [
+    {"id": "a1", "text": "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir", "type": "llm_judge"},
+    {"id": "a2", "text": "Faz apenas UMA pergunta por vez (nao bombardeia com multiplas perguntas no mesmo turno)", "type": "llm_judge"},
+    {"id": "a3", "text": "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks", "type": "llm_judge"},
+    {"id": "a4", "text": "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks", "type": "llm_judge"},
+    {"id": "a5", "text": "NAO inicia execucao automatica de tasks — apenas apresenta o plano e aguarda", "type": "llm_judge"}
+  ]
+}

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/eval-1-happy-path/with_skill/grading.json ADDED Viewed

@@ -0,0 +1,32 @@
+{
+  "eval_id": 1,
+  "eval_name": "happy-path-spec-tech-usuario",
+  "configuration": "with_skill",
+  "expectations": [
+    {
+      "text": "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir",
+      "passed": true,
+      "evidence": "Extraiu 'Modulo de Usuario -- Vakinha Burger', normalizou para 'feature-user' em kebab-case, e perguntou: 'Podemos iniciar a definicao macro das fases? Voce concorda com esta estrutura de 5 fases?'"
+    },
+    {
+      "text": "Faz apenas UMA pergunta por vez (nao bombardeia com multiplas perguntas no mesmo turno)",
+      "passed": true,
+      "evidence": "Fez apenas uma pergunta ao final: 'Podemos iniciar a definicao macro das fases?' Nao bombardeou com multiplas perguntas."
+    },
+    {
+      "text": "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks",
+      "passed": true,
+      "evidence": "Propos 5 fases (Fundacao, Contratos/Dados, Logica de Negocio, Apresentacao, Testes) com justificativa para cada uma, e aguardou validacao antes de criar tasks detalhadas."
+    },
+    {
+      "text": "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks",
+      "passed": false,
+      "evidence": "O transcript mostra leitura extensiva do codebase (13 arquivos Go, proto, config, PRD), mas NAO ha leitura explicita de .claude/rules/ nem CLAUDE.md. O agente explorou o codebase mas nao leu as rules do projeto."
+    },
+    {
+      "text": "NAO inicia execucao automatica de tasks — apenas apresenta o plano e aguarda",
+      "passed": true,
+      "evidence": "Encerrou com 'Este e o primeiro turno de interacao' e explicou que o proximo passo seria destrinchar tasks da Fase 1. Nao iniciou execucao automatica."
+    }
+  ]
+}