@luanpdd/kit-mcp 1.8.1 → 1.10.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CHANGELOG.md +86 -0
- package/README.md +97 -1
- package/gates/golden-signals-coverage.md +133 -0
- package/gates/obs-agents-mcp-supabase.md +86 -0
- package/gates/obs-skills-frontmatter.md +76 -0
- package/gates/omm-no-regression.md +83 -0
- package/gates/postmortem-template-required.md +127 -0
- package/gates/prr-checklist-coverage.md +128 -0
- package/gates/skill-must-include.md +21 -19
- package/kit/agents/burn-rate-forecaster.md +160 -0
- package/kit/agents/golden-signals-instrumenter.md +241 -0
- package/kit/agents/incident-investigator.md +245 -0
- package/kit/agents/observability-instrumenter.md +200 -0
- package/kit/agents/omm-auditor.md +251 -0
- package/kit/agents/postmortem-writer.md +282 -0
- package/kit/agents/prr-conductor.md +288 -0
- package/kit/agents/slo-engineer.md +224 -0
- package/kit/agents/supabase-architect.md +62 -0
- package/kit/agents/supabase-auth-bootstrapper.md +17 -0
- package/kit/agents/supabase-edge-fn-writer.md +124 -0
- package/kit/agents/supabase-migration-writer.md +98 -0
- package/kit/agents/supabase-realtime-implementer.md +23 -0
- package/kit/agents/supabase-rls-writer.md +17 -0
- package/kit/agents/supabase-storage-implementer.md +174 -0
- package/kit/agents/toil-auditor.md +277 -0
- package/kit/commands/auditar-marco.md +102 -1
- package/kit/commands/auditar-observabilidade.md +103 -0
- package/kit/commands/auditar-toil.md +129 -0
- package/kit/commands/burn-rate-status.md +140 -0
- package/kit/commands/concluir-marco.md +73 -1
- package/kit/commands/definir-slo.md +108 -0
- package/kit/commands/discutir-fase.md +26 -0
- package/kit/commands/forense.md +83 -1
- package/kit/commands/golden-signals.md +142 -0
- package/kit/commands/instrumentar-fase.md +200 -0
- package/kit/commands/investigar-producao.md +162 -0
- package/kit/commands/observabilidade.md +116 -0
- package/kit/commands/planejar-fase.md +20 -0
- package/kit/commands/postmortem.md +179 -0
- package/kit/commands/prr.md +205 -0
- package/kit/commands/risk-budget.md +220 -0
- package/kit/commands/sre.md +227 -0
- package/kit/commands/verificar-trabalho.md +26 -0
- package/kit/skills/_shared-observability/glossary.md +396 -0
- package/kit/skills/_shared-sre/glossary.md +573 -0
- package/kit/skills/blameless-postmortems/SKILL.md +340 -0
- package/kit/skills/burn-rate-alerting/SKILL.md +258 -0
- package/kit/skills/core-analysis-loop/SKILL.md +352 -0
- package/kit/skills/distributed-tracing/SKILL.md +362 -0
- package/kit/skills/eliminating-toil/SKILL.md +243 -0
- package/kit/skills/event-based-slos/SKILL.md +296 -0
- package/kit/skills/four-golden-signals/SKILL.md +297 -0
- package/kit/skills/observability-driven-development/SKILL.md +315 -0
- package/kit/skills/observability-maturity-model/SKILL.md +222 -0
- package/kit/skills/opentelemetry-standard/SKILL.md +351 -0
- package/kit/skills/production-readiness-review/SKILL.md +305 -0
- package/kit/skills/sre-risk-management/SKILL.md +221 -0
- package/kit/skills/structured-events/SKILL.md +265 -0
- package/kit/skills/telemetry-pipelines/SKILL.md +259 -0
- package/kit/skills/telemetry-sampling/SKILL.md +256 -0
- package/package.json +1 -1
|
@@ -0,0 +1,140 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: burn-rate-status
|
|
3
|
+
description: Tabela de burn rate por SLO — % budget gasto, ETA exhaustão, ação (page/ticket/warn/ok). Rodável manualmente ou em /loop. Aplica skill burn-rate-alerting.
|
|
4
|
+
argument-hint: "[<slo_name>] [--lookahead 4h] [--baseline 1h]"
|
|
5
|
+
allowed-tools:
|
|
6
|
+
- Read
|
|
7
|
+
- Bash
|
|
8
|
+
- Task
|
|
9
|
+
- Glob
|
|
10
|
+
---
|
|
11
|
+
|
|
12
|
+
<objective>
|
|
13
|
+
Snapshot de burn rate para 1 SLO (se especificado) ou TODOS os SLOs definidos. Aplica skill [`burn-rate-alerting`](../skills/burn-rate-alerting/SKILL.md) — fórmula `burn_rate = error_rate / (1 - target)`, lookahead ≤ 4× baseline.
|
|
14
|
+
|
|
15
|
+
**Cria/Atualiza:** nada — comando read-only.
|
|
16
|
+
|
|
17
|
+
**Após:** o user vê tabela com status (PAGE / TICKET / WARN / OK) e pode escolher invocar `/investigar-producao` se há burn ativo.
|
|
18
|
+
</objective>
|
|
19
|
+
|
|
20
|
+
<context>
|
|
21
|
+
**Argumentos:** `$ARGUMENTS` — opcional `<slo_name>` para 1 SLO; sem args = todos.
|
|
22
|
+
|
|
23
|
+
**Flags:**
|
|
24
|
+
- `--lookahead <duration>` — janela predictive (default: `4h` para short-term)
|
|
25
|
+
- `--baseline <duration>` — janela base (default: `1h`)
|
|
26
|
+
- `--format <table|json>` — output format (default: `table`)
|
|
27
|
+
|
|
28
|
+
**Combinações canônicas:**
|
|
29
|
+
- short-term: lookahead 4h, baseline 1h (page-tier)
|
|
30
|
+
- long-term: lookahead 3d, baseline 18h (ticket-tier)
|
|
31
|
+
|
|
32
|
+
**Loop pattern:** rodar este comando via skill `loop` com intervalo 5min para monitoramento contínuo.
|
|
33
|
+
|
|
34
|
+
```text
|
|
35
|
+
/loop 5m /burn-rate-status
|
|
36
|
+
```
|
|
37
|
+
</context>
|
|
38
|
+
|
|
39
|
+
<process>
|
|
40
|
+
|
|
41
|
+
## 1. Parsear argumentos
|
|
42
|
+
|
|
43
|
+
```bash
|
|
44
|
+
SLO_NAME=$(echo "$ARGUMENTS" | awk '{print $1}' | grep -v '^--' || true)
|
|
45
|
+
LOOKAHEAD=$(echo "$ARGUMENTS" | grep -oE -- '--lookahead [^ ]+' | awk '{print $2}')
|
|
46
|
+
BASELINE=$(echo "$ARGUMENTS" | grep -oE -- '--baseline [^ ]+' | awk '{print $2}')
|
|
47
|
+
FORMAT=$(echo "$ARGUMENTS" | grep -oE -- '--format [^ ]+' | awk '{print $2}')
|
|
48
|
+
|
|
49
|
+
[ -z "$LOOKAHEAD" ] && LOOKAHEAD="4h"
|
|
50
|
+
[ -z "$BASELINE" ] && BASELINE="1h"
|
|
51
|
+
[ -z "$FORMAT" ] && FORMAT="table"
|
|
52
|
+
```
|
|
53
|
+
|
|
54
|
+
## 2. Listar SLOs
|
|
55
|
+
|
|
56
|
+
```bash
|
|
57
|
+
if [ -n "$SLO_NAME" ]; then
|
|
58
|
+
SLO_FILES=(".planning/slos/${SLO_NAME}.md")
|
|
59
|
+
else
|
|
60
|
+
SLO_FILES=(.planning/slos/*.md)
|
|
61
|
+
fi
|
|
62
|
+
|
|
63
|
+
if [ ${#SLO_FILES[@]} -eq 0 ] || [ ! -f "${SLO_FILES[0]}" ]; then
|
|
64
|
+
echo "Nenhum SLO definido. Rode /definir-slo <feature> primeiro."
|
|
65
|
+
exit 0
|
|
66
|
+
fi
|
|
67
|
+
```
|
|
68
|
+
|
|
69
|
+
## 3. Para cada SLO, dispatch para `burn-rate-forecaster`
|
|
70
|
+
|
|
71
|
+
Para cada `SLO_FILE`:
|
|
72
|
+
|
|
73
|
+
```bash
|
|
74
|
+
SLO_NAME=$(basename "$SLO_FILE" .md)
|
|
75
|
+
TARGET=$(grep -oE 'Target.*[0-9.]+' "$SLO_FILE" | head -1 | grep -oE '[0-9.]+')
|
|
76
|
+
```
|
|
77
|
+
|
|
78
|
+
```text
|
|
79
|
+
Task(
|
|
80
|
+
subagent_type="burn-rate-forecaster",
|
|
81
|
+
prompt="
|
|
82
|
+
slo_name: ${SLO_NAME}
|
|
83
|
+
target: ${TARGET}
|
|
84
|
+
lookahead: ${LOOKAHEAD}
|
|
85
|
+
baseline: ${BASELINE}
|
|
86
|
+
|
|
87
|
+
Calcular burn rate atual + ETA + status (PAGE/TICKET/WARN/OK).
|
|
88
|
+
Output formato compatível com tabela mestra.
|
|
89
|
+
"
|
|
90
|
+
)
|
|
91
|
+
```
|
|
92
|
+
|
|
93
|
+
## 4. Agregar resultados em tabela
|
|
94
|
+
|
|
95
|
+
```
|
|
96
|
+
═══════════════════════════════════════════════════════════
|
|
97
|
+
framework ► BURN-RATE-STATUS ▸ {timestamp}
|
|
98
|
+
═══════════════════════════════════════════════════════════
|
|
99
|
+
|
|
100
|
+
| SLO | Target | Window | Budget gasto | Burn rate | ETA exhaustão | Status | Ação |
|
|
101
|
+
|---|---|---|---|---|---|---|---|
|
|
102
|
+
| checkout_success | 99.9% | 30d | 23% | 1.4× | 12d | OK | informativo |
|
|
103
|
+
| login_success | 99.95% | 30d | 78% | 8.0× | 4h | **PAGE** | invocar /investigar-producao |
|
|
104
|
+
| search_latency | 99% | 30d | 15% | 0.7× | — | OK | — |
|
|
105
|
+
```
|
|
106
|
+
|
|
107
|
+
## 5. Sugerir próximas ações
|
|
108
|
+
|
|
109
|
+
Se algum SLO em status PAGE ou TICKET:
|
|
110
|
+
|
|
111
|
+
```
|
|
112
|
+
## ⚠ SLOs em alerta:
|
|
113
|
+
1. login_success — burn rate 8.0×, ETA 4h
|
|
114
|
+
→ /investigar-producao "login_success burn rate = 8.0× às {timestamp}"
|
|
115
|
+
|
|
116
|
+
## SLOs em WARN (>= 80% gasto):
|
|
117
|
+
- (nenhum)
|
|
118
|
+
|
|
119
|
+
## SLOs OK:
|
|
120
|
+
- 2 SLOs em compliance saudável
|
|
121
|
+
```
|
|
122
|
+
|
|
123
|
+
## 6. Modo `/loop`
|
|
124
|
+
|
|
125
|
+
Se chamado dentro de `/loop`, comportamento idempotente:
|
|
126
|
+
- Não acumular state entre invocações (snapshot fresh)
|
|
127
|
+
- Output curto se nada mudou (apenas status; sem repetir tabela completa em todo loop)
|
|
128
|
+
- Acionar AskUserQuestion APENAS quando status muda de OK → WARN/TICKET/PAGE (transição)
|
|
129
|
+
|
|
130
|
+
</process>
|
|
131
|
+
|
|
132
|
+
<success_criteria>
|
|
133
|
+
- [ ] $ARGUMENTS parseados (SLO opcional + flags)
|
|
134
|
+
- [ ] SLOs descobertos via glob `.planning/slos/*.md`
|
|
135
|
+
- [ ] `burn-rate-forecaster` invocado para cada SLO
|
|
136
|
+
- [ ] Tabela agregada em formato consistente
|
|
137
|
+
- [ ] Status enum: PAGE / TICKET / WARN / OK
|
|
138
|
+
- [ ] Sugestões de próximas ações para SLOs em alerta
|
|
139
|
+
- [ ] Idempotente (rodável em /loop sem acúmulo)
|
|
140
|
+
</success_criteria>
|
|
@@ -133,4 +133,76 @@ Saída: Milestone arquivado (roadmap + requisitos), PROJECT.md evoluído, tag gi
|
|
|
133
133
|
- **Resumo de uma linha:** Milestone colapsado no ROADMAP.md deve ser uma única linha com link
|
|
134
134
|
- **Eficiência de contexto:** Arquivo mantém ROADMAP.md e REQUIREMENTS.md com tamanho constante por milestone
|
|
135
135
|
- **Novos requisitos:** Próximo milestone começa com `/novo-marco` que inclui definição de requisitos
|
|
136
|
-
</critical_rules>
|
|
136
|
+
</critical_rules>
|
|
137
|
+
|
|
138
|
+
<observability_integration>
|
|
139
|
+
**OMM no-regression gate (v1.9 — INT-FW-05):**
|
|
140
|
+
|
|
141
|
+
Quando `workflow.complete_milestone_omm_gate = true` (default), o workflow inclui passo OMM regression check antes de arquivar:
|
|
142
|
+
|
|
143
|
+
1. Procurar `.planning/OMM-REPORT.md` atual. Se ausente: rodar `/auditar-observabilidade` primeiro.
|
|
144
|
+
2. Comparar scores das 5 capacidades com `.planning/milestones/<previous>/OMM-REPORT.md`.
|
|
145
|
+
3. Se alguma capacidade regrediu E `workflow.omm_no_regression = true`: BLOQUEAR conclusion.
|
|
146
|
+
4. Se regression detectada mas `workflow.omm_no_regression = false`: WARN explícito; user decide entre aceitar ou pausar.
|
|
147
|
+
5. OMM-REPORT.md final é arquivado em `.planning/milestones/v<version>/OMM-REPORT.md`.
|
|
148
|
+
|
|
149
|
+
Gate executável: `gates/omm-no-regression.md`.
|
|
150
|
+
|
|
151
|
+
Skill consultada: [`observability-maturity-model`](../skills/observability-maturity-model/SKILL.md).
|
|
152
|
+
|
|
153
|
+
**REQ:** INT-FW-05.
|
|
154
|
+
</observability_integration>
|
|
155
|
+
|
|
156
|
+
<sre_integration>
|
|
157
|
+
**PRR gate opcional para features production-bound (v1.10 — INT-FW-V2-02):**
|
|
158
|
+
|
|
159
|
+
Quando `workflow.complete_milestone_prr_gate = true` (default `false` — opt-in até maturidade SRE Engagement do projeto), o workflow inclui passo PRR coverage check **antes de arquivar** o milestone:
|
|
160
|
+
|
|
161
|
+
1. Listar features production-bound do milestone (heurística: features com Edge Functions deployed, features com SLO definido em `.planning/slos/`, features marcadas explicitamente `production: true` em ROADMAP.md ou em `.planning/phases/<N>-CONTEXT.md`)
|
|
162
|
+
2. Para cada feature production-bound, procurar `.planning/prr/<feature-id>-PRR-REPORT.md` (cross-ref [prr-conductor](../agents/prr-conductor.md) — agent que produz o relatório scored em 6 axes do cap 32)
|
|
163
|
+
3. Verificar status do PRR-REPORT.md:
|
|
164
|
+
- Se ausente: BLOQUEAR conclusion — sugerir `/prr --feature "<descrição>"` ou `/sre prr --feature "..."` antes de re-rodar `/concluir-marco`
|
|
165
|
+
- Se presente mas status `failed` (≥ 1 axe P0 reprovado): BLOQUEAR conclusion — listar axes P0 reprovados e exigir remediation
|
|
166
|
+
- Se presente com status `passed`: incluir `PRR-REPORT.md` como anexo no `.planning/milestones/v<version>-MILESTONE.md` (audit trail)
|
|
167
|
+
4. Quando todos os PRRs de features production-bound forem `passed`: prosseguir para passo 7 (commit + tag) do workflow `complete-milestone.md`
|
|
168
|
+
|
|
169
|
+
**Distinção `passed` vs `failed`:**
|
|
170
|
+
|
|
171
|
+
| Status | Definição | Resultado em /concluir-marco |
|
|
172
|
+
|---|---|---|
|
|
173
|
+
| `passed` | Todos os 6 axes scored ≥ 3/5 (cap 32 — System Architecture / Instrumentation / Emergency Response / Capacity Planning / Change Management / Performance) | Milestone arquivável (gate aprova) |
|
|
174
|
+
| `passed-with-warnings` | 6/6 axes ≥ 3/5 mas ≥ 1 axe com action items P1 não resolvidos | Milestone arquivável; warnings explícitos no archive |
|
|
175
|
+
| `failed` | ≥ 1 axe < 3/5 OU ≥ 1 action item P0 não resolvido | Gate BLOQUEIA — exige remediation antes de arquivar |
|
|
176
|
+
|
|
177
|
+
**Default `false` por design:**
|
|
178
|
+
|
|
179
|
+
`workflow.complete_milestone_prr_gate` default `false` (≠ `complete_milestone_omm_gate` que é `true`) — PRR Engagement Model do livro Google SRE assume **maturidade organizacional** (SRE team, on-call rotation, incident response). Para projetos em early stage / dogfooding, gate `false` é o correto. Quando o projeto atinge tier-1 (production-user-facing, paid tier, SLA contratual), user explicitamente liga setando `workflow.complete_milestone_prr_gate=true` no config.
|
|
180
|
+
|
|
181
|
+
**Quando ligar gate:**
|
|
182
|
+
|
|
183
|
+
- Projeto tem feature user-facing pagante (≥ 1 jornada crítica monetizada)
|
|
184
|
+
- Projeto tem SLO definido em `.planning/slos/` com error budget tracking
|
|
185
|
+
- Projeto tem on-call rotation documentada em runbook
|
|
186
|
+
- Projeto tem postmortem culture estabelecida (≥ 1 postmortem blameless escrito em `.planning/postmortems/`)
|
|
187
|
+
- **Pelo menos 2 dos 4 acima** = liga gate (sinal de production maturity)
|
|
188
|
+
|
|
189
|
+
**Quando manter gate desligado:**
|
|
190
|
+
|
|
191
|
+
- Projeto early stage / dogfooding interno (sem usuário pagante)
|
|
192
|
+
- Solo developer side project sem on-call
|
|
193
|
+
- Pesquisa / POC / experimento (não production-bound por design)
|
|
194
|
+
- Equipe ainda construindo SRE muscle (PRR vira teatro se não há cultura de remediation)
|
|
195
|
+
|
|
196
|
+
**Skill consultada:** [production-readiness-review](../skills/production-readiness-review/SKILL.md) (cap 32 livro Google SRE — *Evolving SRE Engagement Model* — define os 6 axes + 3 engagement models: Simple, Early Engagement, Frameworks/SRE Platform).
|
|
197
|
+
|
|
198
|
+
**Gate executável:** `gates/prr-checklist-coverage.md` (criado em Phase 41 — QA-SRE-03). Workflow `.claude/framework/workflows/complete-milestone.md` consulta esse gate quando flag `true`.
|
|
199
|
+
|
|
200
|
+
**Anti-patterns prevenidos:**
|
|
201
|
+
|
|
202
|
+
- "Marcar feature como production-bound mas pular PRR" → gate exige PRR-REPORT.md presente
|
|
203
|
+
- "PRR-REPORT.md gerado mas status `failed`" → gate exige `passed` (não basta existir)
|
|
204
|
+
- "Auto-PRR pelo time dev" → cross-ref [prr-conductor](../agents/prr-conductor.md) reforça que `prr-conductor` agent é par externo (não o mesmo agent que escreveu a feature)
|
|
205
|
+
- "Gate ligado em projeto early stage" → bloco "Quando ligar gate" exige ≥ 2 sinais de production maturity
|
|
206
|
+
|
|
207
|
+
**REQ:** INT-FW-V2-02.
|
|
208
|
+
</sre_integration>
|
|
@@ -0,0 +1,108 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: definir-slo
|
|
3
|
+
description: Invoca slo-engineer para gerar SLO.md + SQL materialização SLI events. Aplica skill event-based-slos. Default 30d sliding window, target ≤ 99.95%.
|
|
4
|
+
argument-hint: "<feature> [--target 99.9] [--owner email]"
|
|
5
|
+
allowed-tools:
|
|
6
|
+
- Read
|
|
7
|
+
- Write
|
|
8
|
+
- Bash
|
|
9
|
+
- Task
|
|
10
|
+
- AskUserQuestion
|
|
11
|
+
---
|
|
12
|
+
|
|
13
|
+
<objective>
|
|
14
|
+
Definir um SLO event-based para uma feature/jornada do usuário. Invoca o agente [`slo-engineer`](../agents/slo-engineer.md) que aplica a skill [`event-based-slos`](../skills/event-based-slos/SKILL.md) — SLI event-based, sliding window 30d, target ≤ 99.95%, owner nomeado, materialização em Postgres.
|
|
15
|
+
|
|
16
|
+
**Cria/Atualiza:**
|
|
17
|
+
- `.planning/slos/<slo_name>.md` — definição canônica do SLO
|
|
18
|
+
- `supabase/migrations/<timestamp>_create_sli_<slo_name>.sql` — view materializada SLI
|
|
19
|
+
|
|
20
|
+
**Após:** SLO está em `draft` status. Próximo passo: `/burn-rate-status <slo_name>` para validar baseline; após 1+ semana, promover de `draft` → `test_channel` → `primary`.
|
|
21
|
+
</objective>
|
|
22
|
+
|
|
23
|
+
<context>
|
|
24
|
+
**Argumentos:** `$ARGUMENTS` — primeiro token é a feature/jornada (ex: `checkout`, `login`, `bulk-orders`); restante são flags.
|
|
25
|
+
|
|
26
|
+
**Flags:**
|
|
27
|
+
- `--target <percent>` — target % do SLO (default: agent sugere baseado em criticality, sempre ≤ 99.95%)
|
|
28
|
+
- `--owner <email>` — owner do SLO (default: AskUserQuestion)
|
|
29
|
+
- `--window <duration>` — sliding window (default: `30d`)
|
|
30
|
+
|
|
31
|
+
**Pré-requisito (Full mode):** projeto Supabase configurado, schema `observability` com tabela de events (Phase 31 supabase-architect projeta isso).
|
|
32
|
+
</context>
|
|
33
|
+
|
|
34
|
+
<process>
|
|
35
|
+
|
|
36
|
+
## 1. Parsear argumentos
|
|
37
|
+
|
|
38
|
+
```bash
|
|
39
|
+
FEATURE=$(echo "$ARGUMENTS" | awk '{print $1}')
|
|
40
|
+
TARGET=$(echo "$ARGUMENTS" | grep -oE -- '--target [0-9.]+' | awk '{print $2}')
|
|
41
|
+
OWNER=$(echo "$ARGUMENTS" | grep -oE -- '--owner [^ ]+' | awk '{print $2}')
|
|
42
|
+
WINDOW=$(echo "$ARGUMENTS" | grep -oE -- '--window [^ ]+' | awk '{print $2}')
|
|
43
|
+
|
|
44
|
+
[ -z "$FEATURE" ] && {
|
|
45
|
+
echo "Uso: /definir-slo <feature> [--target N] [--owner email]"
|
|
46
|
+
exit 1
|
|
47
|
+
}
|
|
48
|
+
|
|
49
|
+
[ -z "$WINDOW" ] && WINDOW="30d"
|
|
50
|
+
```
|
|
51
|
+
|
|
52
|
+
## 2. Detectar `supabase/config.toml`
|
|
53
|
+
|
|
54
|
+
```bash
|
|
55
|
+
PROJECT_ID=""
|
|
56
|
+
if [ -f supabase/config.toml ]; then
|
|
57
|
+
PROJECT_ID=$(grep -E '^project_id\s*=' supabase/config.toml | sed 's/.*= *"\(.*\)".*/\1/' | head -1)
|
|
58
|
+
fi
|
|
59
|
+
```
|
|
60
|
+
|
|
61
|
+
## 3. Dispatch para `slo-engineer`
|
|
62
|
+
|
|
63
|
+
```text
|
|
64
|
+
Task(
|
|
65
|
+
subagent_type="slo-engineer",
|
|
66
|
+
prompt="
|
|
67
|
+
feature: ${FEATURE}
|
|
68
|
+
${TARGET:+target: ${TARGET}}
|
|
69
|
+
${OWNER:+owner: ${OWNER}}
|
|
70
|
+
window: ${WINDOW}
|
|
71
|
+
${PROJECT_ID:+project_id: ${PROJECT_ID}}
|
|
72
|
+
|
|
73
|
+
Aplicar skill event-based-slos. Gerar:
|
|
74
|
+
1. .planning/slos/<slo_name>.md (SLO definition canônico)
|
|
75
|
+
2. supabase/migrations/<timestamp>_create_sli_<slo_name>.sql (materialized view + pg_cron refresh)
|
|
76
|
+
|
|
77
|
+
Se target > 99.95%, recusar e explicar — métrica informativa, não SLO.
|
|
78
|
+
Se Full mode (mcp__supabase disponível), apply_migration; senão, output text.
|
|
79
|
+
"
|
|
80
|
+
)
|
|
81
|
+
```
|
|
82
|
+
|
|
83
|
+
## 4. Pós-output
|
|
84
|
+
|
|
85
|
+
```
|
|
86
|
+
═══════════════════════════════════════════════════════════
|
|
87
|
+
framework ► DEFINIR-SLO ▸ {slo_name}
|
|
88
|
+
═══════════════════════════════════════════════════════════
|
|
89
|
+
|
|
90
|
+
[output do slo-engineer — ver Step 8 do agent]
|
|
91
|
+
|
|
92
|
+
## Próximos passos
|
|
93
|
+
1. `/burn-rate-status {slo_name}` — checar baseline atual
|
|
94
|
+
2. Após 1+ semana validando que SLO detecta incidents reais:
|
|
95
|
+
- Editar `.planning/slos/{slo_name}.md` → status: `test_channel` → `primary`
|
|
96
|
+
3. Configurar alerts (page + ticket) — invocar `burn-rate-forecaster` ou config manual
|
|
97
|
+
```
|
|
98
|
+
|
|
99
|
+
</process>
|
|
100
|
+
|
|
101
|
+
<success_criteria>
|
|
102
|
+
- [ ] FEATURE parseado de $ARGUMENTS
|
|
103
|
+
- [ ] `slo-engineer` invocado via Task
|
|
104
|
+
- [ ] `.planning/slos/<slo_name>.md` criado
|
|
105
|
+
- [ ] Migration SQL criada (Full mode applied; Offline mode escrita)
|
|
106
|
+
- [ ] Target ≤ 99.95% enforced
|
|
107
|
+
- [ ] Owner registrado (via flag ou AskUserQuestion)
|
|
108
|
+
</success_criteria>
|
|
@@ -62,3 +62,29 @@ Se `DISCUSS_MODE` for `"discuss"` (ou não definido, ou qualquer outro valor): L
|
|
|
62
62
|
- CONTEXT.md captura decisões, não visão vaga
|
|
63
63
|
- Usuário conhece os próximos passos
|
|
64
64
|
</success_criteria>
|
|
65
|
+
|
|
66
|
+
<observability_integration>
|
|
67
|
+
**Integração com Observability-Driven Development (v1.9):**
|
|
68
|
+
|
|
69
|
+
Quando o workflow.observability_phase_questions = true (default), o workflow inclui pergunta canônica de ODD na sessão de discussão:
|
|
70
|
+
|
|
71
|
+
> "Quais SLIs essa fase impacta? O que precisa ser instrumentado para responder às 4 perguntas pré-PR?"
|
|
72
|
+
|
|
73
|
+
A pergunta é resolvida consultando a skill [`observability-driven-development`](../skills/observability-driven-development/SKILL.md) e o resultado é registrado na seção `<observability>` do CONTEXT.md gerado:
|
|
74
|
+
|
|
75
|
+
```markdown
|
|
76
|
+
<observability>
|
|
77
|
+
## SLIs impactados
|
|
78
|
+
- [SLI ou "nenhum — fase puramente interna"]
|
|
79
|
+
|
|
80
|
+
## Instrumentação necessária
|
|
81
|
+
- Spans novos: [lista]
|
|
82
|
+
- Atributos canônicos: [user.id, tenant_id, ...]
|
|
83
|
+
- error.type enum esperado: [validation, timeout, ...]
|
|
84
|
+
</observability>
|
|
85
|
+
```
|
|
86
|
+
|
|
87
|
+
O `plan-checker` invocado pelo `/planejar-fase` (Phase 33 — INT-FW-02) lê esta seção e bloqueia o plano se ODD ausente para fases voltadas ao usuário (skip silenciosamente para fases de infraestrutura — ver detecção em `discuss-phase.md`).
|
|
88
|
+
|
|
89
|
+
**REQ:** INT-FW-01.
|
|
90
|
+
</observability_integration>
|
package/kit/commands/forense.md
CHANGED
|
@@ -53,4 +53,86 @@ Ler e executar o workflow forensics de @./.claude/framework/workflows/forensics.
|
|
|
53
53
|
- **Redigir dados sensíveis:** Remover caminhos absolutos, chaves de API, tokens de relatórios e issues.
|
|
54
54
|
- **Fundamentar descobertas em evidências:** Toda anomalia deve citar commits, arquivos ou dados de estado específicos.
|
|
55
55
|
- **Sem especulação sem evidência:** Se os dados forem insuficientes, diga isso — não fabrique causas raiz.
|
|
56
|
-
</critical_rules>
|
|
56
|
+
</critical_rules>
|
|
57
|
+
|
|
58
|
+
<observability_integration>
|
|
59
|
+
**Integração com Core Analysis Loop (v1.9):**
|
|
60
|
+
|
|
61
|
+
Forense usa skill [`core-analysis-loop`](../skills/core-analysis-loop/SKILL.md) — método científico iterativo (sintoma → hipótese de dados → validação → próxima iteração) em vez de inspeção ad hoc.
|
|
62
|
+
|
|
63
|
+
Cada anomalia detectada vira hipótese com query de validação:
|
|
64
|
+
|
|
65
|
+
| Tipo de anomalia | Hipótese formada | Query de validação |
|
|
66
|
+
|---|---|---|
|
|
67
|
+
| Loop travado | "phase X stuck há Yh" | `git log --since="Yh ago" --grep=phase` para confirmar zero commits |
|
|
68
|
+
| Artefatos ausentes | "PLAN.md ausente em phase X" | `ls .planning/phases/X-*/X-PLAN-*.md` |
|
|
69
|
+
| Trabalho abandonado | "branch sem merge nem commit recente" | `git log -1 <branch>` + `git status` |
|
|
70
|
+
| Crash/interrupção | "executor falhou em meio a fase" | grep no STATE.md por "in_progress" sem update recente |
|
|
71
|
+
|
|
72
|
+
**Skill consultada explicitamente:** abrir o arquivo `kit/skills/core-analysis-loop/SKILL.md` para padrão "documentação da trilha (formato canônico)" — o relatório forense em `.planning/forensics/report-<ts>.md` segue esse formato com cada hipótese tendo "Query / Resultado / Status (VALIDATED / REFUTED / INCONCLUSIVE)".
|
|
73
|
+
|
|
74
|
+
**REQ:** INT-FW-06.
|
|
75
|
+
</observability_integration>
|
|
76
|
+
|
|
77
|
+
<sre_integration>
|
|
78
|
+
**Chain `/postmortem` após Core Analysis Loop (v1.10 — INT-FW-V2-01):**
|
|
79
|
+
|
|
80
|
+
Forense é diagnóstico evidence-based read-only — identifica o **o que** e o **como** via método científico (sintoma → hipótese → query → status `VALIDATED | REFUTED | INCONCLUSIVE`). Quando o Core Analysis Loop fecha com pelo menos uma hipótese `VALIDATED` apontando para root cause, o próximo passo canônico é **postmortem blameless** (cap 15 livro Google SRE — *Postmortem Culture: Learning from Failure*).
|
|
81
|
+
|
|
82
|
+
Distinção fundamental:
|
|
83
|
+
|
|
84
|
+
| Etapa | Pergunta respondida | Output | Audiência |
|
|
85
|
+
|---|---|---|---|
|
|
86
|
+
| Forense | "O que aconteceu? Onde está a evidência?" | `.planning/forensics/report-<ts>.md` | Investigador (você) |
|
|
87
|
+
| Postmortem | "O que aprendemos? O que mudaremos?" | `.planning/postmortems/<id>.md` | Organização inteira (no postmortem left unreviewed) |
|
|
88
|
+
|
|
89
|
+
Forense **diagnostica**; postmortem **transforma diagnóstico em aprendizado durável**. Pular postmortem = perder aprendizado organizacional (anti-pattern hero culture: "fixei o bug, vamos seguir").
|
|
90
|
+
|
|
91
|
+
**Trigger automático sugerido (não-bloqueante):**
|
|
92
|
+
|
|
93
|
+
Quando o relatório forense conclui com:
|
|
94
|
+
- ≥ 1 hipótese `VALIDATED` apontando root cause acionável, OU
|
|
95
|
+
- Incident impactou usuário (não apenas dev experience), OU
|
|
96
|
+
- Workflow framework crashou em produção (não dogfooding)
|
|
97
|
+
|
|
98
|
+
O comando `/forense` **sugere ao usuário** ao final do relatório:
|
|
99
|
+
|
|
100
|
+
```text
|
|
101
|
+
Próximo passo recomendado:
|
|
102
|
+
/postmortem --incident "<one-liner derivado do relatório forense>"
|
|
103
|
+
Continua o blameless write-up com Summary + Impact + Root Causes + Action Items.
|
|
104
|
+
Cross-ref canônico: [blameless-postmortems](../skills/blameless-postmortems/SKILL.md) skill + [postmortem-writer](../agents/postmortem-writer.md) agent.
|
|
105
|
+
|
|
106
|
+
Nota: para incidents de produção SRE com investigação completa via /investigar-producao
|
|
107
|
+
(que produz .planning/investigations/<id>.md), use `/postmortem --from-investigation <id>`.
|
|
108
|
+
```
|
|
109
|
+
|
|
110
|
+
**Chain de fluxo canônico:**
|
|
111
|
+
|
|
112
|
+
```text
|
|
113
|
+
Falha detectada
|
|
114
|
+
↓
|
|
115
|
+
/forense "<descrição>" ← diagnóstico evidence-based (este comando, output: .planning/forensics/report-<ts>.md)
|
|
116
|
+
↓ (Core Analysis Loop fecha com VALIDATED)
|
|
117
|
+
/postmortem --incident "<one-liner>" ← blameless write-up (chain sugerido — modo standalone)
|
|
118
|
+
↓
|
|
119
|
+
Action Items P0/P1 viram tarefas em milestone atual ou próximo
|
|
120
|
+
↓
|
|
121
|
+
Wheel of Misfortune: postmortem vira treino de novos engineers (cap 15)
|
|
122
|
+
```
|
|
123
|
+
|
|
124
|
+
**Distinção `/forense` vs `/investigar-producao`:**
|
|
125
|
+
|
|
126
|
+
- `/forense` — diagnóstico de workflows framework com falha (post-mortem de processo). Output: `.planning/forensics/report-<ts>.md`. Chain: `--incident "<one-liner>"`.
|
|
127
|
+
- `/investigar-producao` (v1.9) — Core Analysis Loop em incident produção SRE com MCP Supabase. Output: `.planning/investigations/<id>.md`. Chain: `--from-investigation <id>`.
|
|
128
|
+
|
|
129
|
+
**Quando NÃO sugerir chain `/postmortem`:**
|
|
130
|
+
|
|
131
|
+
- Forense `INCONCLUSIVE` em todas as hipóteses (root cause não identificada — sugerir nova investigação ao invés)
|
|
132
|
+
- Falha trivial documentada (typo em `.gitignore`) sem impacto a usuário
|
|
133
|
+
- Investigação cancelada pelo user antes do Core Analysis Loop fechar
|
|
134
|
+
|
|
135
|
+
**Cultura blameless é não-negociável:** o postmortem foca em **sistema** (controles ausentes, signals não monitorados, escalation paths frágeis), nunca em **pessoas** ("dev X esqueceu de testar"). Anti-pattern blame culture é explicitamente prevenido pelo template de `postmortem-writer` (cap 15 — *No postmortem left unreviewed*).
|
|
136
|
+
|
|
137
|
+
**REQ:** INT-FW-V2-01.
|
|
138
|
+
</sre_integration>
|
|
@@ -0,0 +1,142 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: golden-signals
|
|
3
|
+
description: Invoca golden-signals-instrumenter para serviço/Edge Function/fase — instrumenta 4 golden signals OTel (Latency histogram, Traffic counter, Errors counter, Saturation gauge).
|
|
4
|
+
argument-hint: "<target> [--service <name>] [--saturation <resource>] [--runtime <node|deno|python>]"
|
|
5
|
+
allowed-tools:
|
|
6
|
+
- Read
|
|
7
|
+
- Write
|
|
8
|
+
- Bash
|
|
9
|
+
- Grep
|
|
10
|
+
- Glob
|
|
11
|
+
- Task
|
|
12
|
+
- AskUserQuestion
|
|
13
|
+
---
|
|
14
|
+
|
|
15
|
+
<objective>
|
|
16
|
+
Instrumentar um serviço/Edge Function/fase com os **4 golden signals** do cap 6 do livro Google SRE — Latency (histogram bucketed), Traffic (counter), Errors (counter por `error.type`), Saturation (gauge resource-specific). Invoca o agente [`golden-signals-instrumenter`](../agents/golden-signals-instrumenter.md) que aplica a skill [`four-golden-signals`](../skills/four-golden-signals/SKILL.md).
|
|
17
|
+
|
|
18
|
+
**Cria/Atualiza:**
|
|
19
|
+
- Patches OTel nos arquivos do `<target>` (Latency + Traffic + Errors + Saturation)
|
|
20
|
+
- `GOLDEN-SIGNALS.md` por target com tabela de instrumentação aplicada (output do agent)
|
|
21
|
+
|
|
22
|
+
**Após:** os 4 signals estão instrumentados e o user pode rodar smoke local para verificar histogram/counter/gauge no backend OTel.
|
|
23
|
+
</objective>
|
|
24
|
+
|
|
25
|
+
<context>
|
|
26
|
+
**Argumentos:** `$ARGUMENTS` — primeiro token é o `<target>` (path de arquivo, diretório de service, ou número de fase como `38`); restante são flags.
|
|
27
|
+
|
|
28
|
+
**Flags:**
|
|
29
|
+
- `--service <name>` — nome canônico do serviço (default: deriva de `package.json#name` ou diretório)
|
|
30
|
+
- `--saturation <resource>` — recurso de saturation (`db_connection_pool` | `cache_memory` | `queue_depth` | `concurrency_limit` | `cpu_load` | `egress_bandwidth`); se omitido, agent infere via heurística
|
|
31
|
+
- `--runtime <node|deno|python>` — runtime; se omitido, detecta via `package.json`/`deno.json`/`pyproject.toml`
|
|
32
|
+
|
|
33
|
+
**Exemplos:**
|
|
34
|
+
```
|
|
35
|
+
/golden-signals src/orders/handler.ts # 1 arquivo
|
|
36
|
+
/golden-signals supabase/functions/process-emails # 1 Edge Function
|
|
37
|
+
/golden-signals 38 # todos os arquivos modificados pela Phase 38
|
|
38
|
+
/golden-signals src/api --service orders-api --saturation db_connection_pool
|
|
39
|
+
```
|
|
40
|
+
|
|
41
|
+
**Pré-requisito:** OTel SDK pode estar ausente — agent flagga deps necessárias no output. Caller decide instalar.
|
|
42
|
+
</context>
|
|
43
|
+
|
|
44
|
+
<process>
|
|
45
|
+
|
|
46
|
+
## 1. Parsear argumentos
|
|
47
|
+
|
|
48
|
+
```bash
|
|
49
|
+
TARGET=$(echo "$ARGUMENTS" | awk '{print $1}')
|
|
50
|
+
SERVICE=$(echo "$ARGUMENTS" | grep -oE -- '--service [^ ]+' | awk '{print $2}')
|
|
51
|
+
SATURATION=$(echo "$ARGUMENTS" | grep -oE -- '--saturation [^ ]+' | awk '{print $2}')
|
|
52
|
+
RUNTIME=$(echo "$ARGUMENTS" | grep -oE -- '--runtime [^ ]+' | awk '{print $2}')
|
|
53
|
+
|
|
54
|
+
if [ -z "$TARGET" ]; then
|
|
55
|
+
echo "Uso: /golden-signals <target> [--service N] [--saturation R] [--runtime RT]"
|
|
56
|
+
echo "Exemplos:"
|
|
57
|
+
echo " /golden-signals src/orders/handler.ts"
|
|
58
|
+
echo " /golden-signals supabase/functions/process-emails"
|
|
59
|
+
echo " /golden-signals 38 # todos arquivos da Phase 38"
|
|
60
|
+
exit 1
|
|
61
|
+
fi
|
|
62
|
+
```
|
|
63
|
+
|
|
64
|
+
## 2. Resolver target → lista de target_files
|
|
65
|
+
|
|
66
|
+
```bash
|
|
67
|
+
# PT-BR: 3 modos de resolução
|
|
68
|
+
if [[ "$TARGET" =~ ^[0-9]+$ ]]; then
|
|
69
|
+
# Modo fase — extrai files_modified de PLAN.md(s) da Phase $TARGET
|
|
70
|
+
PHASE_STATE=$(node "./.claude/framework/bin/tools.cjs" init phase-op "$TARGET")
|
|
71
|
+
PHASE_DIR=$(echo "$PHASE_STATE" | jq -r .phase_dir)
|
|
72
|
+
if [ "$PHASE_DIR" = "null" ] || [ ! -d "$PHASE_DIR" ]; then
|
|
73
|
+
echo "Fase $TARGET ainda não foi planejada."
|
|
74
|
+
exit 1
|
|
75
|
+
fi
|
|
76
|
+
TARGET_FILES=$(grep -rh "^ - " "$PHASE_DIR"/*-PLAN-*.md | grep -oE '[a-zA-Z0-9_/.-]+\.(ts|js|py|deno|sql)' | sort -u | tr '\n' ' ')
|
|
77
|
+
elif [ -d "$TARGET" ]; then
|
|
78
|
+
# Modo diretório — todos arquivos relevantes (.ts, .js, .py)
|
|
79
|
+
TARGET_FILES=$(find "$TARGET" -type f \( -name "*.ts" -o -name "*.js" -o -name "*.py" \) | tr '\n' ' ')
|
|
80
|
+
elif [ -f "$TARGET" ]; then
|
|
81
|
+
# Modo arquivo único
|
|
82
|
+
TARGET_FILES="$TARGET"
|
|
83
|
+
else
|
|
84
|
+
echo "Erro: target '$TARGET' não é arquivo, diretório ou número de fase válido."
|
|
85
|
+
exit 1
|
|
86
|
+
fi
|
|
87
|
+
|
|
88
|
+
if [ -z "$TARGET_FILES" ]; then
|
|
89
|
+
echo "Nenhum arquivo encontrado para target '$TARGET'."
|
|
90
|
+
exit 0
|
|
91
|
+
fi
|
|
92
|
+
```
|
|
93
|
+
|
|
94
|
+
## 3. Dispatch para `golden-signals-instrumenter`
|
|
95
|
+
|
|
96
|
+
```text
|
|
97
|
+
Task(
|
|
98
|
+
subagent_type="golden-signals-instrumenter",
|
|
99
|
+
prompt="
|
|
100
|
+
target_files: ${TARGET_FILES}
|
|
101
|
+
${SERVICE:+service_name: ${SERVICE}}
|
|
102
|
+
${RUNTIME:+runtime: ${RUNTIME}}
|
|
103
|
+
${SATURATION:+saturation_resource: ${SATURATION}}
|
|
104
|
+
|
|
105
|
+
Aplicar skill four-golden-signals. Gerar patches OTel para os 4 signals em cada arquivo:
|
|
106
|
+
1. Latency: histogram com explicitBucketBoundaries exponencial, dimension result=success|error
|
|
107
|
+
2. Traffic: counter incrementado antes de processar request
|
|
108
|
+
3. Errors: counter por error_type enum (5-15 valores; NÃO error.message)
|
|
109
|
+
4. Saturation: ObservableGauge do recurso mais escasso (callback lê estado real)
|
|
110
|
+
|
|
111
|
+
Validar 6 checks no Step 3 do agent (latency separado success/error, error_type enum, etc.).
|
|
112
|
+
Output: tabela de patches gerados + GOLDEN-SIGNALS.md por target.
|
|
113
|
+
"
|
|
114
|
+
)
|
|
115
|
+
```
|
|
116
|
+
|
|
117
|
+
## 4. Pós-output
|
|
118
|
+
|
|
119
|
+
```
|
|
120
|
+
═══════════════════════════════════════════════════════════
|
|
121
|
+
framework ► GOLDEN-SIGNALS ▸ ${TARGET}
|
|
122
|
+
═══════════════════════════════════════════════════════════
|
|
123
|
+
|
|
124
|
+
[output do golden-signals-instrumenter — ver Step 4 do agent]
|
|
125
|
+
|
|
126
|
+
## Próximos passos
|
|
127
|
+
1. Smoke local — enviar request e verificar histogram/counter/gauge no backend OTel
|
|
128
|
+
2. Cross-ref: rodar `/instrumentar-fase ${TARGET}` se spans/wide events ainda ausentes (complementar)
|
|
129
|
+
3. Após validar baseline, definir SLO event-based: `/observabilidade slo <feature>`
|
|
130
|
+
4. PRR antes de production: `/prr --service ${SERVICE:-<name>}`
|
|
131
|
+
```
|
|
132
|
+
|
|
133
|
+
</process>
|
|
134
|
+
|
|
135
|
+
<success_criteria>
|
|
136
|
+
- [ ] `<target>` parseado de $ARGUMENTS (arquivo, diretório, ou número de fase)
|
|
137
|
+
- [ ] `target_files` resolvido para lista não-vazia (3 modos suportados)
|
|
138
|
+
- [ ] `golden-signals-instrumenter` invocado via `Task(subagent_type=...)`
|
|
139
|
+
- [ ] Patches aplicados em todos os arquivos do target (4 signals cada)
|
|
140
|
+
- [ ] Output forwarded transparentemente do agent (sem post-processing)
|
|
141
|
+
- [ ] Próximos passos sugerem cross-ref para `/instrumentar-fase`, `/observabilidade slo`, `/prr`
|
|
142
|
+
</success_criteria>
|