@luanpdd/kit-mcp 1.8.1 → 1.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (61) hide show
  1. package/CHANGELOG.md +86 -0
  2. package/README.md +97 -1
  3. package/gates/golden-signals-coverage.md +133 -0
  4. package/gates/obs-agents-mcp-supabase.md +86 -0
  5. package/gates/obs-skills-frontmatter.md +76 -0
  6. package/gates/omm-no-regression.md +83 -0
  7. package/gates/postmortem-template-required.md +127 -0
  8. package/gates/prr-checklist-coverage.md +128 -0
  9. package/gates/skill-must-include.md +21 -19
  10. package/kit/agents/burn-rate-forecaster.md +160 -0
  11. package/kit/agents/golden-signals-instrumenter.md +241 -0
  12. package/kit/agents/incident-investigator.md +245 -0
  13. package/kit/agents/observability-instrumenter.md +200 -0
  14. package/kit/agents/omm-auditor.md +251 -0
  15. package/kit/agents/postmortem-writer.md +282 -0
  16. package/kit/agents/prr-conductor.md +288 -0
  17. package/kit/agents/slo-engineer.md +224 -0
  18. package/kit/agents/supabase-architect.md +62 -0
  19. package/kit/agents/supabase-auth-bootstrapper.md +17 -0
  20. package/kit/agents/supabase-edge-fn-writer.md +124 -0
  21. package/kit/agents/supabase-migration-writer.md +98 -0
  22. package/kit/agents/supabase-realtime-implementer.md +23 -0
  23. package/kit/agents/supabase-rls-writer.md +17 -0
  24. package/kit/agents/supabase-storage-implementer.md +174 -0
  25. package/kit/agents/toil-auditor.md +277 -0
  26. package/kit/commands/auditar-marco.md +102 -1
  27. package/kit/commands/auditar-observabilidade.md +103 -0
  28. package/kit/commands/auditar-toil.md +129 -0
  29. package/kit/commands/burn-rate-status.md +140 -0
  30. package/kit/commands/concluir-marco.md +73 -1
  31. package/kit/commands/definir-slo.md +108 -0
  32. package/kit/commands/discutir-fase.md +26 -0
  33. package/kit/commands/forense.md +83 -1
  34. package/kit/commands/golden-signals.md +142 -0
  35. package/kit/commands/instrumentar-fase.md +200 -0
  36. package/kit/commands/investigar-producao.md +162 -0
  37. package/kit/commands/observabilidade.md +116 -0
  38. package/kit/commands/planejar-fase.md +20 -0
  39. package/kit/commands/postmortem.md +179 -0
  40. package/kit/commands/prr.md +205 -0
  41. package/kit/commands/risk-budget.md +220 -0
  42. package/kit/commands/sre.md +227 -0
  43. package/kit/commands/verificar-trabalho.md +26 -0
  44. package/kit/skills/_shared-observability/glossary.md +396 -0
  45. package/kit/skills/_shared-sre/glossary.md +573 -0
  46. package/kit/skills/blameless-postmortems/SKILL.md +340 -0
  47. package/kit/skills/burn-rate-alerting/SKILL.md +258 -0
  48. package/kit/skills/core-analysis-loop/SKILL.md +352 -0
  49. package/kit/skills/distributed-tracing/SKILL.md +362 -0
  50. package/kit/skills/eliminating-toil/SKILL.md +243 -0
  51. package/kit/skills/event-based-slos/SKILL.md +296 -0
  52. package/kit/skills/four-golden-signals/SKILL.md +297 -0
  53. package/kit/skills/observability-driven-development/SKILL.md +315 -0
  54. package/kit/skills/observability-maturity-model/SKILL.md +222 -0
  55. package/kit/skills/opentelemetry-standard/SKILL.md +351 -0
  56. package/kit/skills/production-readiness-review/SKILL.md +305 -0
  57. package/kit/skills/sre-risk-management/SKILL.md +221 -0
  58. package/kit/skills/structured-events/SKILL.md +265 -0
  59. package/kit/skills/telemetry-pipelines/SKILL.md +259 -0
  60. package/kit/skills/telemetry-sampling/SKILL.md +256 -0
  61. package/package.json +1 -1
@@ -0,0 +1,140 @@
1
+ ---
2
+ name: burn-rate-status
3
+ description: Tabela de burn rate por SLO — % budget gasto, ETA exhaustão, ação (page/ticket/warn/ok). Rodável manualmente ou em /loop. Aplica skill burn-rate-alerting.
4
+ argument-hint: "[<slo_name>] [--lookahead 4h] [--baseline 1h]"
5
+ allowed-tools:
6
+ - Read
7
+ - Bash
8
+ - Task
9
+ - Glob
10
+ ---
11
+
12
+ <objective>
13
+ Snapshot de burn rate para 1 SLO (se especificado) ou TODOS os SLOs definidos. Aplica skill [`burn-rate-alerting`](../skills/burn-rate-alerting/SKILL.md) — fórmula `burn_rate = error_rate / (1 - target)`, lookahead ≤ 4× baseline.
14
+
15
+ **Cria/Atualiza:** nada — comando read-only.
16
+
17
+ **Após:** o user vê tabela com status (PAGE / TICKET / WARN / OK) e pode escolher invocar `/investigar-producao` se há burn ativo.
18
+ </objective>
19
+
20
+ <context>
21
+ **Argumentos:** `$ARGUMENTS` — opcional `<slo_name>` para 1 SLO; sem args = todos.
22
+
23
+ **Flags:**
24
+ - `--lookahead <duration>` — janela predictive (default: `4h` para short-term)
25
+ - `--baseline <duration>` — janela base (default: `1h`)
26
+ - `--format <table|json>` — output format (default: `table`)
27
+
28
+ **Combinações canônicas:**
29
+ - short-term: lookahead 4h, baseline 1h (page-tier)
30
+ - long-term: lookahead 3d, baseline 18h (ticket-tier)
31
+
32
+ **Loop pattern:** rodar este comando via skill `loop` com intervalo 5min para monitoramento contínuo.
33
+
34
+ ```text
35
+ /loop 5m /burn-rate-status
36
+ ```
37
+ </context>
38
+
39
+ <process>
40
+
41
+ ## 1. Parsear argumentos
42
+
43
+ ```bash
44
+ SLO_NAME=$(echo "$ARGUMENTS" | awk '{print $1}' | grep -v '^--' || true)
45
+ LOOKAHEAD=$(echo "$ARGUMENTS" | grep -oE -- '--lookahead [^ ]+' | awk '{print $2}')
46
+ BASELINE=$(echo "$ARGUMENTS" | grep -oE -- '--baseline [^ ]+' | awk '{print $2}')
47
+ FORMAT=$(echo "$ARGUMENTS" | grep -oE -- '--format [^ ]+' | awk '{print $2}')
48
+
49
+ [ -z "$LOOKAHEAD" ] && LOOKAHEAD="4h"
50
+ [ -z "$BASELINE" ] && BASELINE="1h"
51
+ [ -z "$FORMAT" ] && FORMAT="table"
52
+ ```
53
+
54
+ ## 2. Listar SLOs
55
+
56
+ ```bash
57
+ if [ -n "$SLO_NAME" ]; then
58
+ SLO_FILES=(".planning/slos/${SLO_NAME}.md")
59
+ else
60
+ SLO_FILES=(.planning/slos/*.md)
61
+ fi
62
+
63
+ if [ ${#SLO_FILES[@]} -eq 0 ] || [ ! -f "${SLO_FILES[0]}" ]; then
64
+ echo "Nenhum SLO definido. Rode /definir-slo <feature> primeiro."
65
+ exit 0
66
+ fi
67
+ ```
68
+
69
+ ## 3. Para cada SLO, dispatch para `burn-rate-forecaster`
70
+
71
+ Para cada `SLO_FILE`:
72
+
73
+ ```bash
74
+ SLO_NAME=$(basename "$SLO_FILE" .md)
75
+ TARGET=$(grep -oE 'Target.*[0-9.]+' "$SLO_FILE" | head -1 | grep -oE '[0-9.]+')
76
+ ```
77
+
78
+ ```text
79
+ Task(
80
+ subagent_type="burn-rate-forecaster",
81
+ prompt="
82
+ slo_name: ${SLO_NAME}
83
+ target: ${TARGET}
84
+ lookahead: ${LOOKAHEAD}
85
+ baseline: ${BASELINE}
86
+
87
+ Calcular burn rate atual + ETA + status (PAGE/TICKET/WARN/OK).
88
+ Output formato compatível com tabela mestra.
89
+ "
90
+ )
91
+ ```
92
+
93
+ ## 4. Agregar resultados em tabela
94
+
95
+ ```
96
+ ═══════════════════════════════════════════════════════════
97
+ framework ► BURN-RATE-STATUS ▸ {timestamp}
98
+ ═══════════════════════════════════════════════════════════
99
+
100
+ | SLO | Target | Window | Budget gasto | Burn rate | ETA exhaustão | Status | Ação |
101
+ |---|---|---|---|---|---|---|---|
102
+ | checkout_success | 99.9% | 30d | 23% | 1.4× | 12d | OK | informativo |
103
+ | login_success | 99.95% | 30d | 78% | 8.0× | 4h | **PAGE** | invocar /investigar-producao |
104
+ | search_latency | 99% | 30d | 15% | 0.7× | — | OK | — |
105
+ ```
106
+
107
+ ## 5. Sugerir próximas ações
108
+
109
+ Se algum SLO em status PAGE ou TICKET:
110
+
111
+ ```
112
+ ## ⚠ SLOs em alerta:
113
+ 1. login_success — burn rate 8.0×, ETA 4h
114
+ → /investigar-producao "login_success burn rate = 8.0× às {timestamp}"
115
+
116
+ ## SLOs em WARN (>= 80% gasto):
117
+ - (nenhum)
118
+
119
+ ## SLOs OK:
120
+ - 2 SLOs em compliance saudável
121
+ ```
122
+
123
+ ## 6. Modo `/loop`
124
+
125
+ Se chamado dentro de `/loop`, comportamento idempotente:
126
+ - Não acumular state entre invocações (snapshot fresh)
127
+ - Output curto se nada mudou (apenas status; sem repetir tabela completa em todo loop)
128
+ - Acionar AskUserQuestion APENAS quando status muda de OK → WARN/TICKET/PAGE (transição)
129
+
130
+ </process>
131
+
132
+ <success_criteria>
133
+ - [ ] $ARGUMENTS parseados (SLO opcional + flags)
134
+ - [ ] SLOs descobertos via glob `.planning/slos/*.md`
135
+ - [ ] `burn-rate-forecaster` invocado para cada SLO
136
+ - [ ] Tabela agregada em formato consistente
137
+ - [ ] Status enum: PAGE / TICKET / WARN / OK
138
+ - [ ] Sugestões de próximas ações para SLOs em alerta
139
+ - [ ] Idempotente (rodável em /loop sem acúmulo)
140
+ </success_criteria>
@@ -133,4 +133,76 @@ Saída: Milestone arquivado (roadmap + requisitos), PROJECT.md evoluído, tag gi
133
133
  - **Resumo de uma linha:** Milestone colapsado no ROADMAP.md deve ser uma única linha com link
134
134
  - **Eficiência de contexto:** Arquivo mantém ROADMAP.md e REQUIREMENTS.md com tamanho constante por milestone
135
135
  - **Novos requisitos:** Próximo milestone começa com `/novo-marco` que inclui definição de requisitos
136
- </critical_rules>
136
+ </critical_rules>
137
+
138
+ <observability_integration>
139
+ **OMM no-regression gate (v1.9 — INT-FW-05):**
140
+
141
+ Quando `workflow.complete_milestone_omm_gate = true` (default), o workflow inclui passo OMM regression check antes de arquivar:
142
+
143
+ 1. Procurar `.planning/OMM-REPORT.md` atual. Se ausente: rodar `/auditar-observabilidade` primeiro.
144
+ 2. Comparar scores das 5 capacidades com `.planning/milestones/<previous>/OMM-REPORT.md`.
145
+ 3. Se alguma capacidade regrediu E `workflow.omm_no_regression = true`: BLOQUEAR conclusion.
146
+ 4. Se regression detectada mas `workflow.omm_no_regression = false`: WARN explícito; user decide entre aceitar ou pausar.
147
+ 5. OMM-REPORT.md final é arquivado em `.planning/milestones/v<version>/OMM-REPORT.md`.
148
+
149
+ Gate executável: `gates/omm-no-regression.md`.
150
+
151
+ Skill consultada: [`observability-maturity-model`](../skills/observability-maturity-model/SKILL.md).
152
+
153
+ **REQ:** INT-FW-05.
154
+ </observability_integration>
155
+
156
+ <sre_integration>
157
+ **PRR gate opcional para features production-bound (v1.10 — INT-FW-V2-02):**
158
+
159
+ Quando `workflow.complete_milestone_prr_gate = true` (default `false` — opt-in até maturidade SRE Engagement do projeto), o workflow inclui passo PRR coverage check **antes de arquivar** o milestone:
160
+
161
+ 1. Listar features production-bound do milestone (heurística: features com Edge Functions deployed, features com SLO definido em `.planning/slos/`, features marcadas explicitamente `production: true` em ROADMAP.md ou em `.planning/phases/<N>-CONTEXT.md`)
162
+ 2. Para cada feature production-bound, procurar `.planning/prr/<feature-id>-PRR-REPORT.md` (cross-ref [prr-conductor](../agents/prr-conductor.md) — agent que produz o relatório scored em 6 axes do cap 32)
163
+ 3. Verificar status do PRR-REPORT.md:
164
+ - Se ausente: BLOQUEAR conclusion — sugerir `/prr --feature "<descrição>"` ou `/sre prr --feature "..."` antes de re-rodar `/concluir-marco`
165
+ - Se presente mas status `failed` (≥ 1 axe P0 reprovado): BLOQUEAR conclusion — listar axes P0 reprovados e exigir remediation
166
+ - Se presente com status `passed`: incluir `PRR-REPORT.md` como anexo no `.planning/milestones/v<version>-MILESTONE.md` (audit trail)
167
+ 4. Quando todos os PRRs de features production-bound forem `passed`: prosseguir para passo 7 (commit + tag) do workflow `complete-milestone.md`
168
+
169
+ **Distinção `passed` vs `failed`:**
170
+
171
+ | Status | Definição | Resultado em /concluir-marco |
172
+ |---|---|---|
173
+ | `passed` | Todos os 6 axes scored ≥ 3/5 (cap 32 — System Architecture / Instrumentation / Emergency Response / Capacity Planning / Change Management / Performance) | Milestone arquivável (gate aprova) |
174
+ | `passed-with-warnings` | 6/6 axes ≥ 3/5 mas ≥ 1 axe com action items P1 não resolvidos | Milestone arquivável; warnings explícitos no archive |
175
+ | `failed` | ≥ 1 axe < 3/5 OU ≥ 1 action item P0 não resolvido | Gate BLOQUEIA — exige remediation antes de arquivar |
176
+
177
+ **Default `false` por design:**
178
+
179
+ `workflow.complete_milestone_prr_gate` default `false` (≠ `complete_milestone_omm_gate` que é `true`) — PRR Engagement Model do livro Google SRE assume **maturidade organizacional** (SRE team, on-call rotation, incident response). Para projetos em early stage / dogfooding, gate `false` é o correto. Quando o projeto atinge tier-1 (production-user-facing, paid tier, SLA contratual), user explicitamente liga setando `workflow.complete_milestone_prr_gate=true` no config.
180
+
181
+ **Quando ligar gate:**
182
+
183
+ - Projeto tem feature user-facing pagante (≥ 1 jornada crítica monetizada)
184
+ - Projeto tem SLO definido em `.planning/slos/` com error budget tracking
185
+ - Projeto tem on-call rotation documentada em runbook
186
+ - Projeto tem postmortem culture estabelecida (≥ 1 postmortem blameless escrito em `.planning/postmortems/`)
187
+ - **Pelo menos 2 dos 4 acima** = liga gate (sinal de production maturity)
188
+
189
+ **Quando manter gate desligado:**
190
+
191
+ - Projeto early stage / dogfooding interno (sem usuário pagante)
192
+ - Solo developer side project sem on-call
193
+ - Pesquisa / POC / experimento (não production-bound por design)
194
+ - Equipe ainda construindo SRE muscle (PRR vira teatro se não há cultura de remediation)
195
+
196
+ **Skill consultada:** [production-readiness-review](../skills/production-readiness-review/SKILL.md) (cap 32 livro Google SRE — *Evolving SRE Engagement Model* — define os 6 axes + 3 engagement models: Simple, Early Engagement, Frameworks/SRE Platform).
197
+
198
+ **Gate executável:** `gates/prr-checklist-coverage.md` (criado em Phase 41 — QA-SRE-03). Workflow `.claude/framework/workflows/complete-milestone.md` consulta esse gate quando flag `true`.
199
+
200
+ **Anti-patterns prevenidos:**
201
+
202
+ - "Marcar feature como production-bound mas pular PRR" → gate exige PRR-REPORT.md presente
203
+ - "PRR-REPORT.md gerado mas status `failed`" → gate exige `passed` (não basta existir)
204
+ - "Auto-PRR pelo time dev" → cross-ref [prr-conductor](../agents/prr-conductor.md) reforça que `prr-conductor` agent é par externo (não o mesmo agent que escreveu a feature)
205
+ - "Gate ligado em projeto early stage" → bloco "Quando ligar gate" exige ≥ 2 sinais de production maturity
206
+
207
+ **REQ:** INT-FW-V2-02.
208
+ </sre_integration>
@@ -0,0 +1,108 @@
1
+ ---
2
+ name: definir-slo
3
+ description: Invoca slo-engineer para gerar SLO.md + SQL materialização SLI events. Aplica skill event-based-slos. Default 30d sliding window, target ≤ 99.95%.
4
+ argument-hint: "<feature> [--target 99.9] [--owner email]"
5
+ allowed-tools:
6
+ - Read
7
+ - Write
8
+ - Bash
9
+ - Task
10
+ - AskUserQuestion
11
+ ---
12
+
13
+ <objective>
14
+ Definir um SLO event-based para uma feature/jornada do usuário. Invoca o agente [`slo-engineer`](../agents/slo-engineer.md) que aplica a skill [`event-based-slos`](../skills/event-based-slos/SKILL.md) — SLI event-based, sliding window 30d, target ≤ 99.95%, owner nomeado, materialização em Postgres.
15
+
16
+ **Cria/Atualiza:**
17
+ - `.planning/slos/<slo_name>.md` — definição canônica do SLO
18
+ - `supabase/migrations/<timestamp>_create_sli_<slo_name>.sql` — view materializada SLI
19
+
20
+ **Após:** SLO está em `draft` status. Próximo passo: `/burn-rate-status <slo_name>` para validar baseline; após 1+ semana, promover de `draft` → `test_channel` → `primary`.
21
+ </objective>
22
+
23
+ <context>
24
+ **Argumentos:** `$ARGUMENTS` — primeiro token é a feature/jornada (ex: `checkout`, `login`, `bulk-orders`); restante são flags.
25
+
26
+ **Flags:**
27
+ - `--target <percent>` — target % do SLO (default: agent sugere baseado em criticality, sempre ≤ 99.95%)
28
+ - `--owner <email>` — owner do SLO (default: AskUserQuestion)
29
+ - `--window <duration>` — sliding window (default: `30d`)
30
+
31
+ **Pré-requisito (Full mode):** projeto Supabase configurado, schema `observability` com tabela de events (Phase 31 supabase-architect projeta isso).
32
+ </context>
33
+
34
+ <process>
35
+
36
+ ## 1. Parsear argumentos
37
+
38
+ ```bash
39
+ FEATURE=$(echo "$ARGUMENTS" | awk '{print $1}')
40
+ TARGET=$(echo "$ARGUMENTS" | grep -oE -- '--target [0-9.]+' | awk '{print $2}')
41
+ OWNER=$(echo "$ARGUMENTS" | grep -oE -- '--owner [^ ]+' | awk '{print $2}')
42
+ WINDOW=$(echo "$ARGUMENTS" | grep -oE -- '--window [^ ]+' | awk '{print $2}')
43
+
44
+ [ -z "$FEATURE" ] && {
45
+ echo "Uso: /definir-slo <feature> [--target N] [--owner email]"
46
+ exit 1
47
+ }
48
+
49
+ [ -z "$WINDOW" ] && WINDOW="30d"
50
+ ```
51
+
52
+ ## 2. Detectar `supabase/config.toml`
53
+
54
+ ```bash
55
+ PROJECT_ID=""
56
+ if [ -f supabase/config.toml ]; then
57
+ PROJECT_ID=$(grep -E '^project_id\s*=' supabase/config.toml | sed 's/.*= *"\(.*\)".*/\1/' | head -1)
58
+ fi
59
+ ```
60
+
61
+ ## 3. Dispatch para `slo-engineer`
62
+
63
+ ```text
64
+ Task(
65
+ subagent_type="slo-engineer",
66
+ prompt="
67
+ feature: ${FEATURE}
68
+ ${TARGET:+target: ${TARGET}}
69
+ ${OWNER:+owner: ${OWNER}}
70
+ window: ${WINDOW}
71
+ ${PROJECT_ID:+project_id: ${PROJECT_ID}}
72
+
73
+ Aplicar skill event-based-slos. Gerar:
74
+ 1. .planning/slos/<slo_name>.md (SLO definition canônico)
75
+ 2. supabase/migrations/<timestamp>_create_sli_<slo_name>.sql (materialized view + pg_cron refresh)
76
+
77
+ Se target > 99.95%, recusar e explicar — métrica informativa, não SLO.
78
+ Se Full mode (mcp__supabase disponível), apply_migration; senão, output text.
79
+ "
80
+ )
81
+ ```
82
+
83
+ ## 4. Pós-output
84
+
85
+ ```
86
+ ═══════════════════════════════════════════════════════════
87
+ framework ► DEFINIR-SLO ▸ {slo_name}
88
+ ═══════════════════════════════════════════════════════════
89
+
90
+ [output do slo-engineer — ver Step 8 do agent]
91
+
92
+ ## Próximos passos
93
+ 1. `/burn-rate-status {slo_name}` — checar baseline atual
94
+ 2. Após 1+ semana validando que SLO detecta incidents reais:
95
+ - Editar `.planning/slos/{slo_name}.md` → status: `test_channel` → `primary`
96
+ 3. Configurar alerts (page + ticket) — invocar `burn-rate-forecaster` ou config manual
97
+ ```
98
+
99
+ </process>
100
+
101
+ <success_criteria>
102
+ - [ ] FEATURE parseado de $ARGUMENTS
103
+ - [ ] `slo-engineer` invocado via Task
104
+ - [ ] `.planning/slos/<slo_name>.md` criado
105
+ - [ ] Migration SQL criada (Full mode applied; Offline mode escrita)
106
+ - [ ] Target ≤ 99.95% enforced
107
+ - [ ] Owner registrado (via flag ou AskUserQuestion)
108
+ </success_criteria>
@@ -62,3 +62,29 @@ Se `DISCUSS_MODE` for `"discuss"` (ou não definido, ou qualquer outro valor): L
62
62
  - CONTEXT.md captura decisões, não visão vaga
63
63
  - Usuário conhece os próximos passos
64
64
  </success_criteria>
65
+
66
+ <observability_integration>
67
+ **Integração com Observability-Driven Development (v1.9):**
68
+
69
+ Quando o workflow.observability_phase_questions = true (default), o workflow inclui pergunta canônica de ODD na sessão de discussão:
70
+
71
+ > "Quais SLIs essa fase impacta? O que precisa ser instrumentado para responder às 4 perguntas pré-PR?"
72
+
73
+ A pergunta é resolvida consultando a skill [`observability-driven-development`](../skills/observability-driven-development/SKILL.md) e o resultado é registrado na seção `<observability>` do CONTEXT.md gerado:
74
+
75
+ ```markdown
76
+ <observability>
77
+ ## SLIs impactados
78
+ - [SLI ou "nenhum — fase puramente interna"]
79
+
80
+ ## Instrumentação necessária
81
+ - Spans novos: [lista]
82
+ - Atributos canônicos: [user.id, tenant_id, ...]
83
+ - error.type enum esperado: [validation, timeout, ...]
84
+ </observability>
85
+ ```
86
+
87
+ O `plan-checker` invocado pelo `/planejar-fase` (Phase 33 — INT-FW-02) lê esta seção e bloqueia o plano se ODD ausente para fases voltadas ao usuário (skip silenciosamente para fases de infraestrutura — ver detecção em `discuss-phase.md`).
88
+
89
+ **REQ:** INT-FW-01.
90
+ </observability_integration>
@@ -53,4 +53,86 @@ Ler e executar o workflow forensics de @./.claude/framework/workflows/forensics.
53
53
  - **Redigir dados sensíveis:** Remover caminhos absolutos, chaves de API, tokens de relatórios e issues.
54
54
  - **Fundamentar descobertas em evidências:** Toda anomalia deve citar commits, arquivos ou dados de estado específicos.
55
55
  - **Sem especulação sem evidência:** Se os dados forem insuficientes, diga isso — não fabrique causas raiz.
56
- </critical_rules>
56
+ </critical_rules>
57
+
58
+ <observability_integration>
59
+ **Integração com Core Analysis Loop (v1.9):**
60
+
61
+ Forense usa skill [`core-analysis-loop`](../skills/core-analysis-loop/SKILL.md) — método científico iterativo (sintoma → hipótese de dados → validação → próxima iteração) em vez de inspeção ad hoc.
62
+
63
+ Cada anomalia detectada vira hipótese com query de validação:
64
+
65
+ | Tipo de anomalia | Hipótese formada | Query de validação |
66
+ |---|---|---|
67
+ | Loop travado | "phase X stuck há Yh" | `git log --since="Yh ago" --grep=phase` para confirmar zero commits |
68
+ | Artefatos ausentes | "PLAN.md ausente em phase X" | `ls .planning/phases/X-*/X-PLAN-*.md` |
69
+ | Trabalho abandonado | "branch sem merge nem commit recente" | `git log -1 <branch>` + `git status` |
70
+ | Crash/interrupção | "executor falhou em meio a fase" | grep no STATE.md por "in_progress" sem update recente |
71
+
72
+ **Skill consultada explicitamente:** abrir o arquivo `kit/skills/core-analysis-loop/SKILL.md` para padrão "documentação da trilha (formato canônico)" — o relatório forense em `.planning/forensics/report-<ts>.md` segue esse formato com cada hipótese tendo "Query / Resultado / Status (VALIDATED / REFUTED / INCONCLUSIVE)".
73
+
74
+ **REQ:** INT-FW-06.
75
+ </observability_integration>
76
+
77
+ <sre_integration>
78
+ **Chain `/postmortem` após Core Analysis Loop (v1.10 — INT-FW-V2-01):**
79
+
80
+ Forense é diagnóstico evidence-based read-only — identifica o **o que** e o **como** via método científico (sintoma → hipótese → query → status `VALIDATED | REFUTED | INCONCLUSIVE`). Quando o Core Analysis Loop fecha com pelo menos uma hipótese `VALIDATED` apontando para root cause, o próximo passo canônico é **postmortem blameless** (cap 15 livro Google SRE — *Postmortem Culture: Learning from Failure*).
81
+
82
+ Distinção fundamental:
83
+
84
+ | Etapa | Pergunta respondida | Output | Audiência |
85
+ |---|---|---|---|
86
+ | Forense | "O que aconteceu? Onde está a evidência?" | `.planning/forensics/report-<ts>.md` | Investigador (você) |
87
+ | Postmortem | "O que aprendemos? O que mudaremos?" | `.planning/postmortems/<id>.md` | Organização inteira (no postmortem left unreviewed) |
88
+
89
+ Forense **diagnostica**; postmortem **transforma diagnóstico em aprendizado durável**. Pular postmortem = perder aprendizado organizacional (anti-pattern hero culture: "fixei o bug, vamos seguir").
90
+
91
+ **Trigger automático sugerido (não-bloqueante):**
92
+
93
+ Quando o relatório forense conclui com:
94
+ - ≥ 1 hipótese `VALIDATED` apontando root cause acionável, OU
95
+ - Incident impactou usuário (não apenas dev experience), OU
96
+ - Workflow framework crashou em produção (não dogfooding)
97
+
98
+ O comando `/forense` **sugere ao usuário** ao final do relatório:
99
+
100
+ ```text
101
+ Próximo passo recomendado:
102
+ /postmortem --incident "<one-liner derivado do relatório forense>"
103
+ Continua o blameless write-up com Summary + Impact + Root Causes + Action Items.
104
+ Cross-ref canônico: [blameless-postmortems](../skills/blameless-postmortems/SKILL.md) skill + [postmortem-writer](../agents/postmortem-writer.md) agent.
105
+
106
+ Nota: para incidents de produção SRE com investigação completa via /investigar-producao
107
+ (que produz .planning/investigations/<id>.md), use `/postmortem --from-investigation <id>`.
108
+ ```
109
+
110
+ **Chain de fluxo canônico:**
111
+
112
+ ```text
113
+ Falha detectada
114
+
115
+ /forense "<descrição>" ← diagnóstico evidence-based (este comando, output: .planning/forensics/report-<ts>.md)
116
+ ↓ (Core Analysis Loop fecha com VALIDATED)
117
+ /postmortem --incident "<one-liner>" ← blameless write-up (chain sugerido — modo standalone)
118
+
119
+ Action Items P0/P1 viram tarefas em milestone atual ou próximo
120
+
121
+ Wheel of Misfortune: postmortem vira treino de novos engineers (cap 15)
122
+ ```
123
+
124
+ **Distinção `/forense` vs `/investigar-producao`:**
125
+
126
+ - `/forense` — diagnóstico de workflows framework com falha (post-mortem de processo). Output: `.planning/forensics/report-<ts>.md`. Chain: `--incident "<one-liner>"`.
127
+ - `/investigar-producao` (v1.9) — Core Analysis Loop em incident produção SRE com MCP Supabase. Output: `.planning/investigations/<id>.md`. Chain: `--from-investigation <id>`.
128
+
129
+ **Quando NÃO sugerir chain `/postmortem`:**
130
+
131
+ - Forense `INCONCLUSIVE` em todas as hipóteses (root cause não identificada — sugerir nova investigação ao invés)
132
+ - Falha trivial documentada (typo em `.gitignore`) sem impacto a usuário
133
+ - Investigação cancelada pelo user antes do Core Analysis Loop fechar
134
+
135
+ **Cultura blameless é não-negociável:** o postmortem foca em **sistema** (controles ausentes, signals não monitorados, escalation paths frágeis), nunca em **pessoas** ("dev X esqueceu de testar"). Anti-pattern blame culture é explicitamente prevenido pelo template de `postmortem-writer` (cap 15 — *No postmortem left unreviewed*).
136
+
137
+ **REQ:** INT-FW-V2-01.
138
+ </sre_integration>
@@ -0,0 +1,142 @@
1
+ ---
2
+ name: golden-signals
3
+ description: Invoca golden-signals-instrumenter para serviço/Edge Function/fase — instrumenta 4 golden signals OTel (Latency histogram, Traffic counter, Errors counter, Saturation gauge).
4
+ argument-hint: "<target> [--service <name>] [--saturation <resource>] [--runtime <node|deno|python>]"
5
+ allowed-tools:
6
+ - Read
7
+ - Write
8
+ - Bash
9
+ - Grep
10
+ - Glob
11
+ - Task
12
+ - AskUserQuestion
13
+ ---
14
+
15
+ <objective>
16
+ Instrumentar um serviço/Edge Function/fase com os **4 golden signals** do cap 6 do livro Google SRE — Latency (histogram bucketed), Traffic (counter), Errors (counter por `error.type`), Saturation (gauge resource-specific). Invoca o agente [`golden-signals-instrumenter`](../agents/golden-signals-instrumenter.md) que aplica a skill [`four-golden-signals`](../skills/four-golden-signals/SKILL.md).
17
+
18
+ **Cria/Atualiza:**
19
+ - Patches OTel nos arquivos do `<target>` (Latency + Traffic + Errors + Saturation)
20
+ - `GOLDEN-SIGNALS.md` por target com tabela de instrumentação aplicada (output do agent)
21
+
22
+ **Após:** os 4 signals estão instrumentados e o user pode rodar smoke local para verificar histogram/counter/gauge no backend OTel.
23
+ </objective>
24
+
25
+ <context>
26
+ **Argumentos:** `$ARGUMENTS` — primeiro token é o `<target>` (path de arquivo, diretório de service, ou número de fase como `38`); restante são flags.
27
+
28
+ **Flags:**
29
+ - `--service <name>` — nome canônico do serviço (default: deriva de `package.json#name` ou diretório)
30
+ - `--saturation <resource>` — recurso de saturation (`db_connection_pool` | `cache_memory` | `queue_depth` | `concurrency_limit` | `cpu_load` | `egress_bandwidth`); se omitido, agent infere via heurística
31
+ - `--runtime <node|deno|python>` — runtime; se omitido, detecta via `package.json`/`deno.json`/`pyproject.toml`
32
+
33
+ **Exemplos:**
34
+ ```
35
+ /golden-signals src/orders/handler.ts # 1 arquivo
36
+ /golden-signals supabase/functions/process-emails # 1 Edge Function
37
+ /golden-signals 38 # todos os arquivos modificados pela Phase 38
38
+ /golden-signals src/api --service orders-api --saturation db_connection_pool
39
+ ```
40
+
41
+ **Pré-requisito:** OTel SDK pode estar ausente — agent flagga deps necessárias no output. Caller decide instalar.
42
+ </context>
43
+
44
+ <process>
45
+
46
+ ## 1. Parsear argumentos
47
+
48
+ ```bash
49
+ TARGET=$(echo "$ARGUMENTS" | awk '{print $1}')
50
+ SERVICE=$(echo "$ARGUMENTS" | grep -oE -- '--service [^ ]+' | awk '{print $2}')
51
+ SATURATION=$(echo "$ARGUMENTS" | grep -oE -- '--saturation [^ ]+' | awk '{print $2}')
52
+ RUNTIME=$(echo "$ARGUMENTS" | grep -oE -- '--runtime [^ ]+' | awk '{print $2}')
53
+
54
+ if [ -z "$TARGET" ]; then
55
+ echo "Uso: /golden-signals <target> [--service N] [--saturation R] [--runtime RT]"
56
+ echo "Exemplos:"
57
+ echo " /golden-signals src/orders/handler.ts"
58
+ echo " /golden-signals supabase/functions/process-emails"
59
+ echo " /golden-signals 38 # todos arquivos da Phase 38"
60
+ exit 1
61
+ fi
62
+ ```
63
+
64
+ ## 2. Resolver target → lista de target_files
65
+
66
+ ```bash
67
+ # PT-BR: 3 modos de resolução
68
+ if [[ "$TARGET" =~ ^[0-9]+$ ]]; then
69
+ # Modo fase — extrai files_modified de PLAN.md(s) da Phase $TARGET
70
+ PHASE_STATE=$(node "./.claude/framework/bin/tools.cjs" init phase-op "$TARGET")
71
+ PHASE_DIR=$(echo "$PHASE_STATE" | jq -r .phase_dir)
72
+ if [ "$PHASE_DIR" = "null" ] || [ ! -d "$PHASE_DIR" ]; then
73
+ echo "Fase $TARGET ainda não foi planejada."
74
+ exit 1
75
+ fi
76
+ TARGET_FILES=$(grep -rh "^ - " "$PHASE_DIR"/*-PLAN-*.md | grep -oE '[a-zA-Z0-9_/.-]+\.(ts|js|py|deno|sql)' | sort -u | tr '\n' ' ')
77
+ elif [ -d "$TARGET" ]; then
78
+ # Modo diretório — todos arquivos relevantes (.ts, .js, .py)
79
+ TARGET_FILES=$(find "$TARGET" -type f \( -name "*.ts" -o -name "*.js" -o -name "*.py" \) | tr '\n' ' ')
80
+ elif [ -f "$TARGET" ]; then
81
+ # Modo arquivo único
82
+ TARGET_FILES="$TARGET"
83
+ else
84
+ echo "Erro: target '$TARGET' não é arquivo, diretório ou número de fase válido."
85
+ exit 1
86
+ fi
87
+
88
+ if [ -z "$TARGET_FILES" ]; then
89
+ echo "Nenhum arquivo encontrado para target '$TARGET'."
90
+ exit 0
91
+ fi
92
+ ```
93
+
94
+ ## 3. Dispatch para `golden-signals-instrumenter`
95
+
96
+ ```text
97
+ Task(
98
+ subagent_type="golden-signals-instrumenter",
99
+ prompt="
100
+ target_files: ${TARGET_FILES}
101
+ ${SERVICE:+service_name: ${SERVICE}}
102
+ ${RUNTIME:+runtime: ${RUNTIME}}
103
+ ${SATURATION:+saturation_resource: ${SATURATION}}
104
+
105
+ Aplicar skill four-golden-signals. Gerar patches OTel para os 4 signals em cada arquivo:
106
+ 1. Latency: histogram com explicitBucketBoundaries exponencial, dimension result=success|error
107
+ 2. Traffic: counter incrementado antes de processar request
108
+ 3. Errors: counter por error_type enum (5-15 valores; NÃO error.message)
109
+ 4. Saturation: ObservableGauge do recurso mais escasso (callback lê estado real)
110
+
111
+ Validar 6 checks no Step 3 do agent (latency separado success/error, error_type enum, etc.).
112
+ Output: tabela de patches gerados + GOLDEN-SIGNALS.md por target.
113
+ "
114
+ )
115
+ ```
116
+
117
+ ## 4. Pós-output
118
+
119
+ ```
120
+ ═══════════════════════════════════════════════════════════
121
+ framework ► GOLDEN-SIGNALS ▸ ${TARGET}
122
+ ═══════════════════════════════════════════════════════════
123
+
124
+ [output do golden-signals-instrumenter — ver Step 4 do agent]
125
+
126
+ ## Próximos passos
127
+ 1. Smoke local — enviar request e verificar histogram/counter/gauge no backend OTel
128
+ 2. Cross-ref: rodar `/instrumentar-fase ${TARGET}` se spans/wide events ainda ausentes (complementar)
129
+ 3. Após validar baseline, definir SLO event-based: `/observabilidade slo <feature>`
130
+ 4. PRR antes de production: `/prr --service ${SERVICE:-<name>}`
131
+ ```
132
+
133
+ </process>
134
+
135
+ <success_criteria>
136
+ - [ ] `<target>` parseado de $ARGUMENTS (arquivo, diretório, ou número de fase)
137
+ - [ ] `target_files` resolvido para lista não-vazia (3 modos suportados)
138
+ - [ ] `golden-signals-instrumenter` invocado via `Task(subagent_type=...)`
139
+ - [ ] Patches aplicados em todos os arquivos do target (4 signals cada)
140
+ - [ ] Output forwarded transparentemente do agent (sem post-processing)
141
+ - [ ] Próximos passos sugerem cross-ref para `/instrumentar-fase`, `/observabilidade slo`, `/prr`
142
+ </success_criteria>