npm - adi_dev_workflow - Versions diffs - 1.1.0 → 1.2.0 - Mend

adi_dev_workflow 1.1.0 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (111) hide show

package/frameworks/skills/ministack-tasks-expert/templates/task_plan_template.md DELETED Viewed

@@ -1,78 +0,0 @@
-# TASK PLAN – MiniStack
-## 1. Identificacao
-- **Feature**:
-- **Intent**: `[caminho-feature]/intent.md`
-- **Scope**: `[caminho-feature]/scope.md`
-- **Responsavel**:
-- **Data**:
-- **Status**: Rascunho | Em Andamento | Concluido
----
-## 2. Objetivo Tecnico
-O que sera entregue tecnicamente ao final de todas as tasks.
----
-## 3. Macro-Fases (alto nivel)
-- **Fase 1 – Preparacao / Fundamentos**
-  - Objetivo:
-  - Tasks: T1, T2
-- **Fase 2 – Implementacao Principal**
-  - Objetivo:
-  - Tasks: T3, T4, T5
-- **Fase 3 – Integracoes / Ajustes**
-  - Objetivo:
-  - Tasks: T6, T7
----
-## 4. Lista de Tasks (visao macro)
-| ID | Nome da Task | Arquivo | Fase | Dependencias | Pode Rodar em Paralelo? | Status |
-|----|-------------|---------|------|-------------|------------------------|--------|
-| T1 |             | [T1](tasks/T1.md) | | — | Sim | A Fazer |
-| T2 |             | [T2](tasks/T2.md) | | T1 | Nao | A Fazer |
----
-## 5. Ordem de Execucao
-```
-T1 -> T2 -> T3
-      -> T4 (paralelo)
-```
-### Grafo de Dependencias
-| Task | Depende de | Pode Rodar em Paralelo? | Status |
-|------|------------|-------------------------|--------|
-| T1 | — | Sim | A Fazer |
-| T2 | T1 | Nao | A Fazer |
----
-## 6. Arquivos / Areas Impactadas (visao consolidada)
-| Area | Arquivos | Acao |
-|------|----------|------|
-| `[camada]/...` | [arquivo] | criar |
-| `[camada]/...` | [arquivo] | modificar |
-> **Legenda de Acoes:** `criar` | `modificar` | `remover`
----
-## 7. Criterios de Conclusao Geral
-- [ ] Todas as tasks concluidas
-- [ ] Objetivo tecnico atingido
-- [ ] Codigo compila sem erros
-- [ ] Testes unitarios passando
-- [ ] Testes de integracao passando (se aplicavel)
-- [ ] Testes e2e passando (se aplicavel)
----
-## 8. Notas para a LLM Executora
-- Instrucoes especiais de implementacao
-- Padroes a seguir
-- Convencoes do projeto

package/frameworks/skills/ministack-tasks-expert/templates/task_template.md DELETED Viewed

@@ -1,103 +0,0 @@
-# TASK – Detalhamento da Task
-## 1. Identificacao
-- **ID**:
-- **Nome da Task**:
-- **Status**: A Fazer | Em Progresso | Revisao | Concluido
-- **Fase**:
-- **Dependencias**:
-- **Criterio de Conclusao**: Como saber que esta pronta
----
-## 2. Objetivo da Task
-O que esta task entrega (resultado tecnico direto).
----
-## 3. Arquivos Impactados
-### 3.1 Arquivos a Criar
-| Arquivo | Descricao |
-|---------|-----------|
-|         |           |
-### 3.2 Arquivos a Modificar
-| Arquivo | Modificacao |
-|---------|------------|
-|         |            |
-### 3.3 Arquivos de Referencia
-| Arquivo | Motivo da Consulta |
-|---------|-------------------|
-|         |                   |
----
-## 4. Detalhes de Implementacao
-- [ ] Subtask 1
-- [ ] Subtask 2
----
-## 5. Testes
-<!-- LLM-ONLY: Coluna "Objetivo": Descreva em 1 frase O QUE o teste valida e POR QUE importa. Use o padrao: Verbo + comportamento especifico + condicao. Exemplo: "Verificar que apenas categorias com ativo=1 sao retornadas, ordenadas pelo campo 'ordem'". NAO repita o nome do teste. -->
-### 5.1 Testes Unitarios
-#### [Camada]: [NomeComponente] (`arquivo_test.go`)
-Mock: [interfaces mockadas]
-| CT | Teste | Objetivo | Input | Expected | Mock |
-|----|-------|----------|-------|----------|------|
-| CT-XX | TestMetodo_Cenario | Verificar que [comportamento] quando [condicao] | dados entrada | resultado esperado | dependencias mockadas |
-### 5.2 Testes de Integracao
-#### [CamadaA + CamadaB] (`arquivo_test.go`)
-Setup: [banco in-memory, migracoes, fixtures]
-| CT | Teste | Objetivo | Fluxo | Validacao |
-|----|-------|----------|-------|-----------|
-| CT-XX | TestIntegracao_Cenario | Verificar que [comportamento] quando [condicao] | Passos do fluxo | Assertions esperadas |
-### 5.3 Testes E2E
-#### Fluxo: [Nome do Fluxo] (CT-XX)
-- **Objetivo**: (1 frase descrevendo o que este fluxo E2E valida de ponta a ponta)
-- **Pre-condicoes**: (estado inicial do sistema)
-- **Passos**:
-  1. Passo 1
-  2. Passo 2
-- **Validacoes**: (assertions sobre dados e estado final)
-### 5.4 Cenarios de Erro
-| Cenario | Objetivo | Trigger | Codigo/Status | Log Esperado |
-|---------|----------|---------|---------------|-------------|
-| Descricao do cenario | Verificar que [constraint] impede [operacao] | Acao trigger | Codigo erro | Mensagem log |
-### Testes Existentes a Modificar
-| Arquivo | Motivo da Modificacao |
-|---------|----------------------|
-|         |                      |
-<!-- LLM-ONLY: Se nenhum teste existente precisa ser modificado, escreva: "Nenhum teste existente impactado." -->
----
-## 6. Notas / Observacoes
-Anotacoes tecnicas, decisoes, pontos relevantes.
----
-## 7. Checklist Final
-- [ ] Implementada conforme Scope
-- [ ] Testes unitarios criados/atualizados
-- [ ] Testes de integracao criados/atualizados
-- [ ] Criterio de conclusao atendido
-- [ ] Revisada

package/frameworks/skills/ministack-tech-direction-expert/SKILL.md DELETED Viewed

@@ -1,218 +0,0 @@
----
-name: ministack-tech-direction-expert
-description: Especialista em geracao de TECH DIRECTION do framework miniStack. Guia o usuario na definicao de decisoes tecnicas a partir de uma INTENT aprovada, gerando o tech_direction.md preenchido.
-argument-hint: [caminho do intent.md]
----
-PERSONA: Voce e um Arquiteto de Software Senior com foco em tomada de decisao tecnica.
-Responsabilidades:
-- Ler a INTENT aprovada e entender o escopo da feature
-- Pesquisar o codebase para entender stack, padroes e convencoes existentes
-- Guiar o usuario com perguntas curtas e contextualizadas para extrair decisoes tecnicas
-- Gerar o tech_direction.md preenchido com as decisoes do usuario
-Domina o framework miniStack: template, regras, guardrails, convencoes e fluxos.
-Foco: **DECISOES TECNICAS** que guiarao o SCOPE. Nao e SCOPE — e o direcionamento previo.
-Estilo: Objetivo. Contextualizado. Perguntas curtas com opcoes baseadas no codebase.
----
-# Framework miniStack — Etapa Tech Direction
-## Visao Geral
-O **Tech Direction** e uma etapa opcional (mas recomendada) entre a INTENT aprovada e o SCOPE. Ele captura as **decisoes tecnicas do usuario** antes do arquiteto iniciar a especificacao tecnica, acelerando o processo e reduzindo perguntas durante o SCOPE.
-### Fluxo do Framework miniStack
-```
-Descricao da Feature
-        |
-   INTENT (O QUE / POR QUE)
-        | (INTENT aprovada)
-   TECH DIRECTION (DECISOES)    <-- voce esta aqui
-        | (Tech Direction aprovado)
-   SCOPE (COMO)
-        | (SCOPE aprovado)
-   TASKS (EXECUCAO)
-        | (Tasks aprovadas)
-   Implementacao
-        |
-   Feature Entregue
-```
----
-## Conceitos Fundamentais
-| Conceito | Descricao |
-|---|---|
-| **Tech Direction** | Decisoes tecnicas pre-definidas pelo usuario que guiam o SCOPE. Nao e uma especificacao — e um direcionamento |
-| **INTENT** | O QUE e POR QUE — entrada obrigatoria para o Tech Direction |
-| **SCOPE** | COMO sera feito — consome o Tech Direction como ponto de partida |
-| **Project Profile** | Perfil tecnico do projeto — pre-requisito obrigatorio para contextualizar perguntas |
----
-## Pre-requisito: Project Profile
-**ANTES de qualquer acao**, voce DEVE verificar se `.claude/rules/project-profile.md` existe.
-### Se NAO existir
-Interrompa imediatamente e informe o usuario:
-> "Para gerar o tech_direction com contexto adequado, preciso do perfil do projeto. Execute `/generate-project-profile` primeiro e depois re-execute este comando."
-**NAO prossiga sem o project-profile.** Ele contem informacoes criticas sobre stack, padroes de teste, camadas e convencoes que contextualizam as perguntas.
-### Se existir
-Leia o arquivo e use as informacoes para:
-- Entender a stack tecnologica do projeto (linguagem, frameworks, banco, libs)
-- Identificar padroes de teste e convencoes existentes
-- Mapear camadas da arquitetura
-- Contextualizar as perguntas com dados reais do projeto
----
-## Suas Responsabilidades
-1. Verificar pre-requisito: `project-profile.md` existe
-2. Ler a INTENT aprovada recebida como argumento
-3. Ler o `project-profile.md` para entender stack e padroes
-4. Usar `CLAUDE.md` e `.claude/rules/` (ja no contexto) como complemento
-5. Pesquisar o codebase quando necessario (codigo especifico da feature)
-6. Guiar o usuario por **4 perguntas contextualizadas** (UMA POR VEZ)
-7. Gerar e salvar o `tech_direction.md` preenchido
-8. **NUNCA** deduzir ou inventar decisoes tecnicas — apenas registrar o que o usuario decidiu
-9. Usar `AskUserQuestion` no Claude Code para interagir com o usuario
----
-## Processo Interativo (UMA PERGUNTA POR VEZ)
-### Passo 0: Leitura e Pesquisa (automatico)
-Antes de fazer qualquer pergunta:
-1. **Verificar project-profile.md** — se nao existir, interromper (ver secao Pre-requisito)
-2. **Ler a INTENT aprovada** no caminho fornecido
-3. **Ler o project-profile.md** para entender stack, padroes, camadas, libs
-4. **Pesquisa complementar** no codebase se necessario
-5. **Apresentar resumo** ao usuario:
-> "Li a INTENT e o perfil do projeto. Entendi que o objetivo e [resumo da INTENT]. Stack: [resumo da stack do project-profile]. Vou te guiar por 4 decisoes tecnicas rapidas."
-### Sequencia de Perguntas
-Faca **apenas uma pergunta por vez** e aguarde a resposta completa antes de avancar:
-#### 1. Decisoes tecnicas ja tomadas
-Baseado no escopo da INTENT, pergunte sobre decisoes firmes:
-> "A INTENT define [resumo do escopo]. Voce ja tem decisoes tecnicas firmes para essa feature? Exemplos: protocolo de comunicacao, abordagem de autenticacao, estrategia de armazenamento."
-Se o usuario nao souber, oferecer opcoes baseadas no project-profile:
-> "O projeto usa [stack identificada]. Sugestoes: [opcao A], [opcao B], [opcao C]. Ou prefere outra abordagem?"
-#### 2. Tecnologias/Libs sugeridas
-Baseado nas libs do project-profile, pergunte sobre preferencias:
-> "O projeto ja usa [libs identificadas no project-profile]. Quer manter essas tecnologias para esta feature ou tem preferencia por outras?"
-#### 3. Padroes ou abordagens preferidas
-Baseado nos padroes do project-profile, pergunte sobre abordagens:
-> "O projeto segue [padroes identificados: ex. Clean Architecture, Repository pattern]. Quer seguir os mesmos padroes para esta feature ou tem preferencia diferente?"
-#### 4. Observacoes
-Pergunta aberta para contexto adicional:
-> "Algum contexto tecnico adicional que o arquiteto deveria considerar ao definir o SCOPE? Ex: integracoes externas, decisoes historicas, restricoes de equipe ou infra."
-### Regras do Processo Interativo
-- Faca **apenas uma pergunta por vez**
-- Aguarde a resposta completa antes de avancar
-- Se o usuario responder "nao", "nenhum" ou "nada", registre: "Sem direcionamento especifico — a criterio do arquiteto"
-- Se o usuario nao souber, ofereca **2-4 opcoes** baseadas no project-profile e codebase
-- Se o usuario fornecer informacoes extras, reutilize para secoes futuras
-- Se algo nao ficou claro, **PERGUNTE** — nunca deduza
-- **NUNCA invente decisoes** — registre apenas o que o usuario decidiu
----
-## Template
-Use o template oficial em: [tech_direction-template.md](templates/tech_direction-template.md)
-O template contem 4 secoes que correspondem as 4 perguntas. Preencha cada secao com as respostas do usuario.
----
-## Guardrails Inviolaveis
-Estas regras sao **absolutas** e nao podem ser violadas em nenhuma circunstancia:
-1. **Project Profile obrigatorio** — se `.claude/rules/project-profile.md` nao existir, interromper e pedir geracao via `/generate-project-profile`
-2. **UMA pergunta por vez** — nunca bombardeie o usuario com multiplas perguntas
-3. **NUNCA avance sem resposta** — cada pergunta deve ser respondida antes de prosseguir
-4. **NUNCA invente decisoes** — se faltar dado, PERGUNTE ao usuario
-5. **NUNCA deduza decisoes tecnicas** — registre apenas o que o usuario decidiu explicitamente
-6. **SEMPRE salvar arquivo fisico ANTES de apresentar ao usuario** — o arquivo deve existir no disco antes de pedir aprovacao
-7. **NUNCA inicie automaticamente a proxima etapa (SCOPE)** — apenas encerre e aguarde
-8. **NUNCA sugira proximos passos do framework** — apenas encerre
-9. **Template COMPLETO** — todas as 4 secoes devem ser preenchidas (mesmo que com "Sem direcionamento especifico")
-10. **AskUserQuestion** — no Claude Code, use esta ferramenta para interagir com o usuario
-11. **Remover comentarios `<!-- LLM-ONLY: ... -->`** do conteudo antes de salvar
----
-## Versionamento
-O Tech Direction e salvo **na mesma pasta** da INTENT aprovada. O versionamento ja foi definido pela INTENT:
-- Se a INTENT esta em `docs/feature-x/v1/intent.md`, o tech_direction vai em `docs/feature-x/v1/tech_direction.md`
-- **NAO crie nova versao** — use a mesma pasta da INTENT fornecida como argumento
----
-## Salvar Arquivo (OBRIGATORIO)
-**ANTES de apresentar o Tech Direction ao usuario**, voce DEVE:
-1. **Identificar o diretorio** da INTENT fornecida (ex: `docs/feature-x/v1/`)
-2. **Remover todos os comentarios `<!-- LLM-ONLY: ... -->`** do conteudo antes de salvar
-3. **Salvar o arquivo fisico** em: `docs/[nome-feature]/vN/tech_direction.md` (mesmo diretorio da INTENT)
-4. **Confirmar** que o arquivo foi criado com sucesso
----
-## Saida Esperada
-Apos salvar o arquivo fisico, apresente **apenas um resumo compacto**. NAO exiba o tech_direction completo no terminal.
-```
-Arquivo salvo em: docs/[nome-feature]/vN/tech_direction.md
-## Resumo do Tech Direction
-- **Decisoes:** [lista curta]
-- **Tecnologias:** [lista curta]
-- **Padroes:** [lista curta]
-- **Observacoes:** [resumo]
-Esse direcionamento tecnico esta correto? (sim/nao)
-```
-**IMPORTANTE:**
-- NAO exiba o tech_direction completo no terminal — apenas o resumo acima
-- NAO inicie `/ministack:generate-scope` automaticamente
-- NAO sugira executar o proximo comando
-- NAO sugira proximos passos do framework
-- Apenas aguarde a confirmacao do usuario e encerre
----
-## Entrada
-$ARGUMENTS

package/frameworks/skills/ministack-tech-direction-expert/evals/evals.json DELETED Viewed

	@@ -1 +0,0 @@
1	- []

package/frameworks/skills/ministack-tech-direction-expert/templates/tech_direction-template.md DELETED Viewed

@@ -1,17 +0,0 @@
-# TECH DIRECTION (Opcional)
-> Direcionamento tecnico inicial para a feature. Serve como ponto de partida para o SCOPE, nao como decisao final.
-> O Arquiteto (scope-expert) pode complementar, ajustar ou questionar qualquer item aqui.
-## Decisoes tecnicas ja tomadas
-- (ex: Usar AWS SES para envio de email)
-- (ex: Criar gateway separado para integracao externa)
-## Tecnologias/Libs sugeridas
-- (ex: aws-sdk-go-v2 para integracao com SES)
-## Padroes ou abordagens preferidas
-- (ex: Seguir o pattern Gateway ja usado no projeto)
-## Observacoes
-- (qualquer contexto tecnico relevante que o arquiteto deve considerar)

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/benchmark.json DELETED Viewed

@@ -1,99 +0,0 @@
-{
-  "skill_name": "sdd-task-plan-expert",
-  "iteration": 1,
-  "configurations": [
-    {
-      "name": "with_skill",
-      "pass_rate": 0.933,
-      "mean_tokens": 55027,
-      "stddev_tokens": 10217,
-      "mean_duration_seconds": 184.9,
-      "stddev_duration_seconds": 85.7,
-      "evals": [
-        {
-          "eval_name": "happy-path-spec-tech-usuario",
-          "pass_rate": 0.8,
-          "passed": 4,
-          "total": 5,
-          "tokens": 61221,
-          "duration_seconds": 138.2,
-          "failed_assertions": ["Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks"]
-        },
-        {
-          "eval_name": "spec-tech-simples-alteracao-pontual",
-          "pass_rate": 1.0,
-          "passed": 5,
-          "total": 5,
-          "tokens": 60596,
-          "duration_seconds": 286.6,
-          "failed_assertions": []
-        },
-        {
-          "eval_name": "spec-tech-sem-user-stories-explicitas",
-          "pass_rate": 1.0,
-          "passed": 5,
-          "total": 5,
-          "tokens": 43263,
-          "duration_seconds": 130.0,
-          "failed_assertions": []
-        }
-      ]
-    },
-    {
-      "name": "without_skill",
-      "pass_rate": 0.333,
-      "mean_tokens": 38834,
-      "stddev_tokens": 3912,
-      "mean_duration_seconds": 151.2,
-      "stddev_duration_seconds": 14.5,
-      "evals": [
-        {
-          "eval_name": "happy-path-spec-tech-usuario",
-          "pass_rate": 0.2,
-          "passed": 1,
-          "total": 5,
-          "tokens": 40363,
-          "duration_seconds": 141.3,
-          "failed_assertions": [
-            "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir",
-            "Faz apenas UMA pergunta por vez",
-            "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks",
-            "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks"
-          ]
-        },
-        {
-          "eval_name": "spec-tech-simples-alteracao-pontual",
-          "pass_rate": 0.2,
-          "passed": 1,
-          "total": 5,
-          "tokens": 41818,
-          "duration_seconds": 167.6,
-          "failed_assertions": [
-            "Gera um numero proporcional de tasks (entre 3 e 6)",
-            "Mapeia a US-10 na tabela de rastreabilidade do task_plan",
-            "Cada task segue o template completo (secoes 1-8)",
-            "Salva task_plan.md como documento de REFERENCIA"
-          ]
-        },
-        {
-          "eval_name": "spec-tech-sem-user-stories-explicitas",
-          "pass_rate": 0.4,
-          "passed": 2,
-          "total": 5,
-          "tokens": 34322,
-          "duration_seconds": 144.7,
-          "failed_assertions": [
-            "PERGUNTA ao usuario sobre User Stories / PRD em vez de inventar ou ignorar",
-            "Extrai corretamente o nome da feature em kebab-case",
-            "Segue o processo interativo (uma pergunta por vez)"
-          ]
-        }
-      ]
-    }
-  ],
-  "delta": {
-    "pass_rate_improvement": "+60.0pp",
-    "tokens_overhead": "+41.7%",
-    "duration_overhead": "+22.3%"
-  }
-}

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/benchmark.md DELETED Viewed

@@ -1,64 +0,0 @@
-# Benchmark — sdd-task-plan-expert (Iteration 1)
-## Resumo
-| Metrica | With Skill | Without Skill (Baseline) | Delta |
-|---------|-----------|-------------------------|-------|
-| **Pass Rate** | **93.3%** (14/15) | 33.3% (5/15) | **+60.0pp** |
-| **Tokens (media)** | 55,027 | 38,834 | +41.7% |
-| **Duracao (media)** | 184.9s | 151.2s | +22.3% |
-## Resultados por Eval
-### Eval 1: Happy Path (SPEC_TECH real do modulo de usuario)
-| Assertion | With Skill | Without Skill |
-|-----------|:---------:|:------------:|
-| Extrai nome e confirma com usuario | PASS | FAIL |
-| Uma pergunta por vez | PASS | FAIL |
-| Propoe fases antes de tasks | PASS | FAIL |
-| Le rules do projeto antes | FAIL | FAIL |
-| Nao inicia execucao automatica | PASS | PASS |
-### Eval 2: Feature Simples (adicionar telefone)
-| Assertion | With Skill | Without Skill |
-|-----------|:---------:|:------------:|
-| Numero proporcional de tasks (3-6) | PASS (6) | FAIL (12) |
-| Ordem de dependencias correta | PASS | PASS |
-| Rastreabilidade US-10 | PASS | FAIL |
-| Template completo (secoes 1-8) | PASS | FAIL |
-| task_plan como referencia | PASS | FAIL |
-### Eval 3: Sem User Stories
-| Assertion | With Skill | Without Skill |
-|-----------|:---------:|:------------:|
-| Detecta ausencia de US/PRD | PASS | PASS |
-| Pergunta ao usuario | PASS | FAIL |
-| Nao inventa US ficticias | PASS | PASS |
-| Nome em kebab-case | PASS | FAIL |
-| Processo interativo | PASS | FAIL |
-## Analise
-### Pontos Fortes da Skill
-1. **Processo interativo**: A skill garante interacao step-by-step (93% vs 33% pass rate)
-2. **Proporcionalidade**: 6 tasks para feature simples vs 12 sem skill
-3. **Guardrails**: Detectou e perguntou sobre US/PRD ausentes em vez de ignorar
-4. **Template e rastreabilidade**: Segue template oficial e mapeia User Stories
-5. **Separacao de documentos**: task_plan como referencia, tasks em arquivos individuais
-### Ponto de Melhoria Identificado
-1. **Leitura de rules do projeto (a4)**: A skill instrui "Ler as rules do projeto", mas o agente leu extensivamente o codebase sem ler `.claude/rules/` e `CLAUDE.md` explicitamente. Sugestao: reforcar na skill que a leitura de rules e o PRIMEIRO passo, antes de explorar o codebase.
-### Custo da Skill
-- **+41.7% tokens**: Esperado — a skill faz mais trabalho (leitura de templates, processo interativo, exploração de codebase mais detalhada)
-- **+22.3% duracao**: Overhead moderado, aceitavel dado o ganho de qualidade
-### Assertions Nao-Discriminantes
-- "Nao inventa US ficticias" passou em ambas as configuracoes (with/without skill) — o modelo base ja respeita isso
-- "Nao inicia execucao automatica" tambem passou em ambas
-### Conclusao
-A skill melhora drasticamente a qualidade do output (+60pp pass rate). O unico ponto de falha (leitura de rules) e um refinamento menor. O custo adicional em tokens/tempo e justificado pelo ganho em estrutura, interatividade e conformidade com o framework SDD.

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/eval-1-happy-path/eval_metadata.json DELETED Viewed

@@ -1,12 +0,0 @@
-{
-  "eval_id": 1,
-  "eval_name": "happy-path-spec-tech-usuario",
-  "prompt": "Gere o TASK PLAN para a feature de usuario. O SPEC_TECH aprovado esta em docs/feature-user/v1/spec_tech.md",
-  "assertions": [
-    {"id": "a1", "text": "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir", "type": "llm_judge"},
-    {"id": "a2", "text": "Faz apenas UMA pergunta por vez (nao bombardeia com multiplas perguntas no mesmo turno)", "type": "llm_judge"},
-    {"id": "a3", "text": "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks", "type": "llm_judge"},
-    {"id": "a4", "text": "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks", "type": "llm_judge"},
-    {"id": "a5", "text": "NAO inicia execucao automatica de tasks — apenas apresenta o plano e aguarda", "type": "llm_judge"}
-  ]
-}

package/frameworks/skills/sdd-task-plan-expert-workspace/iteration-1/eval-1-happy-path/with_skill/grading.json DELETED Viewed

@@ -1,32 +0,0 @@
-{
-  "eval_id": 1,
-  "eval_name": "happy-path-spec-tech-usuario",
-  "configuration": "with_skill",
-  "expectations": [
-    {
-      "text": "Extrai o nome da feature do SPEC_TECH e confirma com o usuario antes de prosseguir",
-      "passed": true,
-      "evidence": "Extraiu 'Modulo de Usuario -- Vakinha Burger', normalizou para 'feature-user' em kebab-case, e perguntou: 'Podemos iniciar a definicao macro das fases? Voce concorda com esta estrutura de 5 fases?'"
-    },
-    {
-      "text": "Faz apenas UMA pergunta por vez (nao bombardeia com multiplas perguntas no mesmo turno)",
-      "passed": true,
-      "evidence": "Fez apenas uma pergunta ao final: 'Podemos iniciar a definicao macro das fases?' Nao bombardeou com multiplas perguntas."
-    },
-    {
-      "text": "Propoe macro-fases de alto nivel e aguarda validacao antes de criar tasks",
-      "passed": true,
-      "evidence": "Propos 5 fases (Fundacao, Contratos/Dados, Logica de Negocio, Apresentacao, Testes) com justificativa para cada uma, e aguardou validacao antes de criar tasks detalhadas."
-    },
-    {
-      "text": "Le as rules do projeto (.claude/rules/ e CLAUDE.md) ANTES de gerar tasks",
-      "passed": false,
-      "evidence": "O transcript mostra leitura extensiva do codebase (13 arquivos Go, proto, config, PRD), mas NAO ha leitura explicita de .claude/rules/ nem CLAUDE.md. O agente explorou o codebase mas nao leu as rules do projeto."
-    },
-    {
-      "text": "NAO inicia execucao automatica de tasks — apenas apresenta o plano e aguarda",
-      "passed": true,
-      "evidence": "Encerrou com 'Este e o primeiro turno de interacao' e explicou que o proximo passo seria destrinchar tasks da Fase 1. Nao iniciou execucao automatica."
-    }
-  ]
-}