@luanpdd/kit-mcp 1.35.0 → 1.36.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/bin/cli.js +2 -2
- package/bin/mcp.js +6 -6
- package/bin/ui.js +74 -74
- package/gates/ai-prompt-stability.md +120 -120
- package/gates/budget-description.md +68 -68
- package/gates/confidence.md +29 -29
- package/gates/dependency-check.md +33 -33
- package/gates/dept-cycle-prevention.md +179 -179
- package/gates/golden-signals-coverage.md +133 -133
- package/gates/legacy-refactor-safety.md +178 -178
- package/gates/multi-tenant-rls-coverage.md +102 -102
- package/gates/no-personal-uuid.md +72 -72
- package/gates/obs-agents-mcp-supabase.md +86 -86
- package/gates/obs-skills-frontmatter.md +76 -76
- package/gates/observability-coverage.md +151 -151
- package/gates/omm-no-regression.md +83 -83
- package/gates/postmortem-template-required.md +127 -127
- package/gates/prr-checklist-coverage.md +128 -128
- package/gates/regression.md +32 -32
- package/gates/release-pipeline-policy.md +132 -132
- package/gates/secrets-scan.md +33 -33
- package/gates/service-role-not-in-user-facing.md +113 -113
- package/gates/skill-must-include.md +71 -71
- package/gates/sync-idempotent.md +62 -62
- package/gates/verify-phase-goal.md +34 -34
- package/kit/agents/designer-ui.md +216 -216
- package/kit/agents/workflow-generator.md +537 -167
- package/kit/commands/adicionar-backlog.md +1 -1
- package/kit/commands/adicionar-fase.md +1 -1
- package/kit/commands/adicionar-tarefa.md +1 -1
- package/kit/commands/auditar-observabilidade.md +103 -103
- package/kit/commands/auditar-toil.md +129 -129
- package/kit/commands/caracterizar-prompt.md +195 -195
- package/kit/commands/criar-workflow.md +158 -158
- package/kit/commands/definir-perfil.md +1 -1
- package/kit/commands/definir-slo.md +108 -108
- package/kit/commands/fio.md +1 -1
- package/kit/commands/golden-signals.md +142 -142
- package/kit/commands/instrumentar-fase.md +200 -200
- package/kit/commands/investigar-producao.md +162 -162
- package/kit/commands/observabilidade.md +118 -118
- package/kit/commands/postmortem.md +179 -179
- package/kit/commands/prr.md +205 -205
- package/kit/commands/publicar-rapido.md +207 -207
- package/kit/commands/risk-budget.md +220 -220
- package/kit/commands/sre.md +230 -230
- package/kit/file-manifest.json +424 -424
- package/kit/framework/references/output-style.md +22 -22
- package/kit/hooks/post-apply-migration.js +199 -199
- package/kit/hooks/sidecar-tool-publisher.js +210 -210
- package/kit/skills/_shared-dados-distribuidos/glossary.md +224 -224
- package/kit/skills/_shared-legacy/glossary.md +389 -389
- package/kit/skills/_shared-multi-tenant/glossary.md +186 -186
- package/kit/skills/_shared-observability/glossary.md +396 -396
- package/kit/skills/_shared-sre/glossary.md +712 -712
- package/kit/skills/_shared-supabase/glossary.md +234 -234
- package/kit/skills/blameless-postmortems/SKILL.md +340 -340
- package/kit/skills/burn-rate-alerting/SKILL.md +258 -258
- package/kit/skills/cascading-failures/SKILL.md +311 -311
- package/kit/skills/core-analysis-loop/SKILL.md +352 -352
- package/kit/skills/distributed-tracing/SKILL.md +362 -362
- package/kit/skills/dynamic-workflow-authoring/SKILL.md +327 -223
- package/kit/skills/eliminating-toil/SKILL.md +243 -243
- package/kit/skills/event-based-slos/SKILL.md +296 -296
- package/kit/skills/four-golden-signals/SKILL.md +314 -314
- package/kit/skills/hermetic-builds/SKILL.md +323 -323
- package/kit/skills/legacy-monster-methods/SKILL.md +444 -444
- package/kit/skills/llm-as-dependency/SKILL.md +436 -436
- package/kit/skills/load-shedding-graceful-degradation/SKILL.md +396 -396
- package/kit/skills/observability-driven-development/SKILL.md +315 -315
- package/kit/skills/observability-maturity-model/SKILL.md +222 -222
- package/kit/skills/opentelemetry-standard/SKILL.md +351 -351
- package/kit/skills/production-readiness-review/SKILL.md +305 -305
- package/kit/skills/release-engineering/SKILL.md +367 -367
- package/kit/skills/retry-strategies/SKILL.md +372 -372
- package/kit/skills/sre-risk-management/SKILL.md +221 -221
- package/kit/skills/structured-events/SKILL.md +265 -265
- package/kit/skills/supabase-cron-queues/SKILL.md +275 -275
- package/kit/skills/supabase-database-functions/SKILL.md +332 -332
- package/kit/skills/supabase-declarative-schema/SKILL.md +183 -183
- package/kit/skills/supabase-pgvector-rag/SKILL.md +253 -253
- package/kit/skills/supabase-postgres-style/SKILL.md +138 -138
- package/kit/skills/supabase-storage/SKILL.md +234 -234
- package/kit/skills/telemetry-pipelines/SKILL.md +259 -259
- package/kit/skills/telemetry-sampling/SKILL.md +256 -256
- package/kit/skills/ui-anti-padroes-ia/SKILL.md +261 -261
- package/kit/skills/ui-contexto-produto/SKILL.md +248 -248
- package/kit/skills/ui-cor-estrategia/SKILL.md +213 -213
- package/kit/skills/ui-critica-auditoria/SKILL.md +260 -260
- package/kit/skills/ui-motion-funcional/SKILL.md +264 -264
- package/kit/skills/ui-ritmo-espacial/SKILL.md +259 -259
- package/kit/skills/ui-tipografia/SKILL.md +211 -211
- package/package.json +1 -1
- package/src/cli/index.js +1114 -1114
- package/src/cli/render.js +194 -194
- package/src/cli/upgrade-check.js +135 -135
- package/src/core/error-redaction.js +76 -76
- package/src/core/failures.js +153 -153
- package/src/core/gate-runner.js +205 -205
- package/src/core/gates.js +82 -82
- package/src/core/logger.js +170 -170
- package/src/core/manifest-verify.js +174 -174
- package/src/core/metrics.js +268 -268
- package/src/core/notify.js +60 -60
- package/src/core/path-safety.js +141 -141
- package/src/core/replays.js +120 -120
- package/src/core/ui.js +185 -185
- package/src/mcp-server/install.js +149 -149
- package/src/mcp-server/roots.js +124 -124
- package/src/ui/auto-spawn.js +113 -113
- package/src/ui/browser.js +78 -78
- package/src/ui/client.js +130 -130
- package/src/ui/events.js +65 -65
- package/src/ui/lockfile.js +191 -191
- package/src/ui/port.js +67 -67
- package/src/ui/server.js +547 -547
- package/src/ui/wrapper.js +129 -129
|
@@ -1,222 +1,222 @@
|
|
|
1
|
-
---
|
|
2
|
-
name: observability-maturity-model
|
|
3
|
-
description: Use ao avaliar maturidade observabilidade — 5 capacidades (resiliência, qualidade, complexidade, cadência, comportamento) com sintomas doing well/poorly por capacidade.
|
|
4
|
-
---
|
|
5
|
-
|
|
6
|
-
# Observabilidade — Maturity Model (OMM)
|
|
7
|
-
|
|
8
|
-
## Quando usar
|
|
9
|
-
|
|
10
|
-
LLM carrega esta skill ao auditar maturidade observability de projeto/time. Trigger phrases:
|
|
11
|
-
|
|
12
|
-
- "OMM", "observability maturity"
|
|
13
|
-
- "estamos prontos para SRE?"
|
|
14
|
-
- "quanto vale investir em observability?"
|
|
15
|
-
- "auditar observabilidade"
|
|
16
|
-
- "como saber se time está bem?"
|
|
17
|
-
|
|
18
|
-
## As 5 capacidades (Cap 21)
|
|
19
|
-
|
|
20
|
-
OMM mede 5 capacidades sociotécnicas, cada uma com sintomas qualitativos. Não é checkbox — é trajetória.
|
|
21
|
-
|
|
22
|
-
| # | Capacidade | Pergunta central |
|
|
23
|
-
|---|------------|------------------|
|
|
24
|
-
| **1** | **Resiliência** (Respond to System Failure) | Quanto tempo MTTR? On-call sustentável? |
|
|
25
|
-
| **2** | **Qualidade de Código** (Deliver High-Quality Code) | Bugs encontrados em prod ou pre-merge? |
|
|
26
|
-
| **3** | **Complexidade / Tech Debt** (Manage Complexity) | Engineers conseguem encontrar gargalos sem chutes? |
|
|
27
|
-
| **4** | **Cadência de Release** (Predictable Release Cadence) | Tempo do commit ao prod? Deploy diariamente ou mensalmente? |
|
|
28
|
-
| **5** | **Comportamento de Usuário** (Understand User Behavior) | Time consegue responder "quem usa feature X?" |
|
|
29
|
-
|
|
30
|
-
## Capacidade 1 — Resiliência
|
|
31
|
-
|
|
32
|
-
### Doing well
|
|
33
|
-
- Uptime atinge metas de negócio e está melhorando
|
|
34
|
-
- On-call response a alertas é eficiente; alertas não são ignorados
|
|
35
|
-
- Plantão não é estressante; engineers aceitam shifts adicionais
|
|
36
|
-
- Engineers manejam workload de incidents sem horas extras
|
|
37
|
-
|
|
38
|
-
### Doing poorly
|
|
39
|
-
- Time gastando muito tempo + dinheiro em on-call
|
|
40
|
-
- Incidents frequentes e prolongados
|
|
41
|
-
- On-call sofre alert fatigue ou perde failures reais
|
|
42
|
-
- Investigators não conseguem diagnosticar incidents
|
|
43
|
-
- Mesmas pessoas sempre puxadas para emergências (knowledge silo)
|
|
44
|
-
|
|
45
|
-
### Como observability ajuda
|
|
46
|
-
Alertas relevantes/focados/acionáveis (reduzem alert fatigue). Relação clara entre error budget e customer needs. Wide events permitem investigators efetivos. Alta cardinalidade pinpoint sources rapidamente. Investigation paths democratizados (qualquer engineer respondedor).
|
|
47
|
-
|
|
48
|
-
## Capacidade 2 — Qualidade de Código
|
|
49
|
-
|
|
50
|
-
### Doing well
|
|
51
|
-
- Código é estável; menos bugs em prod; menos outages
|
|
52
|
-
- Após deploy, time foca em customer solutions, não suporte
|
|
53
|
-
- Engineers acham intuitivo debugar em qualquer estágio
|
|
54
|
-
- Issues isoladas são fix-áveis sem cascading failures
|
|
55
|
-
|
|
56
|
-
### Doing poorly
|
|
57
|
-
- Custo alto de customer support
|
|
58
|
-
- Alto % do tempo de eng gasto em bugs vs features novas
|
|
59
|
-
- Engineers reluctant em deployar (perceived risk)
|
|
60
|
-
- Reproduzir falhas demora muito
|
|
61
|
-
- Devs com baixa confidence no código pós-ship
|
|
62
|
-
|
|
63
|
-
### Como observability ajuda
|
|
64
|
-
Mesmo tooling para debugar 1 máquina ou 10k. Telemetry rica mostra código em ação. Validar fix é fácil. Watch deployments e fix antes de visível para usuários.
|
|
65
|
-
|
|
66
|
-
## Capacidade 3 — Complexidade / Tech Debt
|
|
67
|
-
|
|
68
|
-
### Doing well
|
|
69
|
-
- Engineers gastam maioria do tempo em forward progress
|
|
70
|
-
- Bug fixing minoritário
|
|
71
|
-
- Engineers raramente desorientados ("onde no codebase?")
|
|
72
|
-
|
|
73
|
-
### Doing poorly
|
|
74
|
-
- Eng time desperdiçado rebuilding após scaling limits
|
|
75
|
-
- Times distraídos fixando coisa errada
|
|
76
|
-
- Localized changes têm ripple effects descontrolados
|
|
77
|
-
- "Haunted graveyard" — código que ninguém quer mexer
|
|
78
|
-
|
|
79
|
-
### Como observability ajuda
|
|
80
|
-
Performance end-to-end claramente mensurada. Investigators encontram trilhas em parte desconhecida do sistema. Tracing aponta gargalo correto. Engineers identificam o que otimizar (não chutes).
|
|
81
|
-
|
|
82
|
-
## Capacidade 4 — Cadência de Release
|
|
83
|
-
|
|
84
|
-
### Doing well
|
|
85
|
-
- Cadência alinha com customer needs
|
|
86
|
-
- Código entra em prod logo após escrito; engineer dispara deploy próprio
|
|
87
|
-
- Code paths habilitáveis/desabilitáveis sem deploy (feature flags)
|
|
88
|
-
- Deploys e rollbacks são rápidos
|
|
89
|
-
|
|
90
|
-
### Doing poorly
|
|
91
|
-
- Releases infrequentes; muita intervenção humana
|
|
92
|
-
- Muitas mudanças shipped de uma vez (batches)
|
|
93
|
-
- Releases em ordem específica obrigatória
|
|
94
|
-
- Sales gating em release train específico
|
|
95
|
-
- Times evitando deploys em certos dias/horários
|
|
96
|
-
|
|
97
|
-
### Como observability ajuda
|
|
98
|
-
Entende build pipeline + production. Mostra degradação em tests ou erros de build. Confidence no release: comparar build_id antes/depois é trivial. Drilldown em eventos específicos.
|
|
99
|
-
|
|
100
|
-
## Capacidade 5 — Comportamento de Usuário
|
|
101
|
-
|
|
102
|
-
### Doing well
|
|
103
|
-
- Product team consegue responder "qual feature mais usada?", "qual customer tier mais ativo?"
|
|
104
|
-
- Adoption tracking de features novas
|
|
105
|
-
- Sucesso ou abandono mensurável por dimensão (geo, tier, feature flag)
|
|
106
|
-
|
|
107
|
-
### Doing poorly
|
|
108
|
-
- Time intui "users gostaram disso" sem dados
|
|
109
|
-
- BI reports lentos demais (dias) para steering decisions
|
|
110
|
-
- "Quantos users hit este bug?" leva sprint inteiro para responder
|
|
111
|
-
- Sales/Customer Success usam dashboards diferentes do eng (silos)
|
|
112
|
-
|
|
113
|
-
### Como observability ajuda
|
|
114
|
-
Data democratizada — Product, CS, Sales, Exec consultam mesma observability data. Granular por user/tenant. Time real (não BI overnight). Slice & dice ad hoc por feature flag, customer tier, region.
|
|
115
|
-
|
|
116
|
-
## Patterns canônicos
|
|
117
|
-
|
|
118
|
-
### Pattern: scoring de OMM (1-5 por capacidade)
|
|
119
|
-
|
|
120
|
-
```text
|
|
121
|
-
1 = Initial: ad-hoc, individual heroics, sem padrão
|
|
122
|
-
2 = Repeatable: básico funciona; alguns engineers conseguem
|
|
123
|
-
3 = Defined: documentado e cross-team; new hires aprendem
|
|
124
|
-
4 = Managed: métricas + targets; tracking de regressão
|
|
125
|
-
5 = Optimizing: melhoria contínua; experimentação ativa
|
|
126
|
-
```
|
|
127
|
-
|
|
128
|
-
### Pattern: snapshot OMM (Markdown gerado por agent)
|
|
129
|
-
|
|
130
|
-
```markdown
|
|
131
|
-
# OMM Snapshot — kit-mcp 2026-05-06
|
|
132
|
-
|
|
133
|
-
| Capacidade | Score (1-5) | Trend | Sintomas-chave |
|
|
134
|
-
|---|---|---|---|
|
|
135
|
-
| 1. Resiliência | 3 | ↑ | MTTR 2h (era 6h em v1.7) |
|
|
136
|
-
| 2. Qualidade | 4 | → | Bugs em prod ↓ 70% após v1.6 |
|
|
137
|
-
| 3. Complexidade | 2 | ↑ | Tracing recém adotado v1.9 |
|
|
138
|
-
| 4. Cadência | 4 | → | Daily deploy ativo |
|
|
139
|
-
| 5. Comportamento usuário | 1 | ↑ | Sem product analytics ainda |
|
|
140
|
-
|
|
141
|
-
## Action items (priorizados)
|
|
142
|
-
1. [Cap 5] Adicionar dashboards Product (mais alto ROI dado score 1)
|
|
143
|
-
2. [Cap 3] Skills de tracing (Phase 29-30 v1.9 endereçaram)
|
|
144
|
-
3. [Cap 1] Reduzir MTTR de 2h para < 1h (usar incident-investigator)
|
|
145
|
-
```
|
|
146
|
-
|
|
147
|
-
### Pattern: regression check entre marcos
|
|
148
|
-
|
|
149
|
-
```text
|
|
150
|
-
ANTES de /concluir-marco, gerar OMM snapshot.
|
|
151
|
-
Se ALGUMA capacidade regrediu vs marco anterior:
|
|
152
|
-
- Bloquear conclusion (workflow.omm_no_regression = true)
|
|
153
|
-
- Ou abrir ticket explícito + warning, mas permitir conclusion
|
|
154
|
-
```
|
|
155
|
-
|
|
156
|
-
## Anti-patterns
|
|
157
|
-
|
|
158
|
-
### ANTI: scoring por checkbox (Maturity Model literal)
|
|
159
|
-
|
|
160
|
-
```text
|
|
161
|
-
ANTI: "checklist com 50 items; score = N items checked / 50"
|
|
162
|
-
|
|
163
|
-
PROBLEMA: prática observability não cabe em checklist. Score = comportamento sociotécnico.
|
|
164
|
-
|
|
165
|
-
CERTO: avaliar SINTOMAS qualitativos. "On-call está sustentável?" "Engineers conseguem debugar sem help?" Score reflete trajetória.
|
|
166
|
-
```
|
|
167
|
-
|
|
168
|
-
### ANTI: comparar org com peers (FAANG envy)
|
|
169
|
-
|
|
170
|
-
```text
|
|
171
|
-
ANTI: "FAANG faz X, então temos que fazer X também"
|
|
172
|
-
|
|
173
|
-
PROBLEMA: contexto importa. Org de 10 engineers ≠ Google.
|
|
174
|
-
|
|
175
|
-
CERTO: compare com VOCÊ MESMO (vs marco anterior). Cada org tem trajetória própria.
|
|
176
|
-
```
|
|
177
|
-
|
|
178
|
-
### ANTI: maturity model como ferramenta de marketing
|
|
179
|
-
|
|
180
|
-
```text
|
|
181
|
-
ANTI: "estamos no nível 5 de OMM!" como bragging rights
|
|
182
|
-
|
|
183
|
-
PROBLEMA: nível 5 é teórico (continuous improvement, never done).
|
|
184
|
-
Self-promotion mascara gaps reais.
|
|
185
|
-
|
|
186
|
-
CERTO: OMM é diagnostic interno. Output → action items, não slides para sales.
|
|
187
|
-
```
|
|
188
|
-
|
|
189
|
-
### ANTI: prática técnica sem cultura
|
|
190
|
-
|
|
191
|
-
```text
|
|
192
|
-
ANTI: comprar tools de observability achando que resolve
|
|
193
|
-
|
|
194
|
-
PROBLEMA: tools sem skills/processo geram dashboards inúteis.
|
|
195
|
-
OMM é SOCIO-técnico.
|
|
196
|
-
|
|
197
|
-
CERTO: tooling + skills + processo + cultura + buy-in. OMM mede tudo.
|
|
198
|
-
```
|
|
199
|
-
|
|
200
|
-
## Verificação
|
|
201
|
-
|
|
202
|
-
OMM snapshot canônico:
|
|
203
|
-
|
|
204
|
-
1. **5 capacidades scored** — cada uma 1-5
|
|
205
|
-
2. **Sintomas qualitativos citados** — não números abstratos
|
|
206
|
-
3. **Trend vs último marco** — ↑ ↓ →
|
|
207
|
-
4. **Action items priorizados** — capacidade com score baixo = high priority
|
|
208
|
-
5. **Owner por action item** — sem owner = sem ação
|
|
209
|
-
6. **Regression check** — alertar se alguma capacidade regrediu
|
|
210
|
-
|
|
211
|
-
---
|
|
212
|
-
|
|
213
|
-
## Ver também
|
|
214
|
-
|
|
215
|
-
- `kit/skills/_shared-observability/glossary.md` — termos OMM
|
|
216
|
-
- `kit/skills/event-based-slos/SKILL.md` — Cap 1 (resiliência via SLO/burn rate)
|
|
217
|
-
- `kit/skills/observability-driven-development/SKILL.md` — Cap 2 (qualidade), Cap 4 (cadência)
|
|
218
|
-
- `kit/skills/core-analysis-loop/SKILL.md` — Cap 3 (complexidade — encontrar gargalo)
|
|
219
|
-
- `kit/agents/omm-auditor.md` — agente que pontua e gera OMM snapshot
|
|
220
|
-
- `kit/commands/auditar-observabilidade.md` — comando que invoca o agente
|
|
221
|
-
|
|
222
|
-
*Material-fonte: Observability Engineering (O'Reilly, 2022) — Cap 21: "An Observability Maturity Model".*
|
|
1
|
+
---
|
|
2
|
+
name: observability-maturity-model
|
|
3
|
+
description: Use ao avaliar maturidade observabilidade — 5 capacidades (resiliência, qualidade, complexidade, cadência, comportamento) com sintomas doing well/poorly por capacidade.
|
|
4
|
+
---
|
|
5
|
+
|
|
6
|
+
# Observabilidade — Maturity Model (OMM)
|
|
7
|
+
|
|
8
|
+
## Quando usar
|
|
9
|
+
|
|
10
|
+
LLM carrega esta skill ao auditar maturidade observability de projeto/time. Trigger phrases:
|
|
11
|
+
|
|
12
|
+
- "OMM", "observability maturity"
|
|
13
|
+
- "estamos prontos para SRE?"
|
|
14
|
+
- "quanto vale investir em observability?"
|
|
15
|
+
- "auditar observabilidade"
|
|
16
|
+
- "como saber se time está bem?"
|
|
17
|
+
|
|
18
|
+
## As 5 capacidades (Cap 21)
|
|
19
|
+
|
|
20
|
+
OMM mede 5 capacidades sociotécnicas, cada uma com sintomas qualitativos. Não é checkbox — é trajetória.
|
|
21
|
+
|
|
22
|
+
| # | Capacidade | Pergunta central |
|
|
23
|
+
|---|------------|------------------|
|
|
24
|
+
| **1** | **Resiliência** (Respond to System Failure) | Quanto tempo MTTR? On-call sustentável? |
|
|
25
|
+
| **2** | **Qualidade de Código** (Deliver High-Quality Code) | Bugs encontrados em prod ou pre-merge? |
|
|
26
|
+
| **3** | **Complexidade / Tech Debt** (Manage Complexity) | Engineers conseguem encontrar gargalos sem chutes? |
|
|
27
|
+
| **4** | **Cadência de Release** (Predictable Release Cadence) | Tempo do commit ao prod? Deploy diariamente ou mensalmente? |
|
|
28
|
+
| **5** | **Comportamento de Usuário** (Understand User Behavior) | Time consegue responder "quem usa feature X?" |
|
|
29
|
+
|
|
30
|
+
## Capacidade 1 — Resiliência
|
|
31
|
+
|
|
32
|
+
### Doing well
|
|
33
|
+
- Uptime atinge metas de negócio e está melhorando
|
|
34
|
+
- On-call response a alertas é eficiente; alertas não são ignorados
|
|
35
|
+
- Plantão não é estressante; engineers aceitam shifts adicionais
|
|
36
|
+
- Engineers manejam workload de incidents sem horas extras
|
|
37
|
+
|
|
38
|
+
### Doing poorly
|
|
39
|
+
- Time gastando muito tempo + dinheiro em on-call
|
|
40
|
+
- Incidents frequentes e prolongados
|
|
41
|
+
- On-call sofre alert fatigue ou perde failures reais
|
|
42
|
+
- Investigators não conseguem diagnosticar incidents
|
|
43
|
+
- Mesmas pessoas sempre puxadas para emergências (knowledge silo)
|
|
44
|
+
|
|
45
|
+
### Como observability ajuda
|
|
46
|
+
Alertas relevantes/focados/acionáveis (reduzem alert fatigue). Relação clara entre error budget e customer needs. Wide events permitem investigators efetivos. Alta cardinalidade pinpoint sources rapidamente. Investigation paths democratizados (qualquer engineer respondedor).
|
|
47
|
+
|
|
48
|
+
## Capacidade 2 — Qualidade de Código
|
|
49
|
+
|
|
50
|
+
### Doing well
|
|
51
|
+
- Código é estável; menos bugs em prod; menos outages
|
|
52
|
+
- Após deploy, time foca em customer solutions, não suporte
|
|
53
|
+
- Engineers acham intuitivo debugar em qualquer estágio
|
|
54
|
+
- Issues isoladas são fix-áveis sem cascading failures
|
|
55
|
+
|
|
56
|
+
### Doing poorly
|
|
57
|
+
- Custo alto de customer support
|
|
58
|
+
- Alto % do tempo de eng gasto em bugs vs features novas
|
|
59
|
+
- Engineers reluctant em deployar (perceived risk)
|
|
60
|
+
- Reproduzir falhas demora muito
|
|
61
|
+
- Devs com baixa confidence no código pós-ship
|
|
62
|
+
|
|
63
|
+
### Como observability ajuda
|
|
64
|
+
Mesmo tooling para debugar 1 máquina ou 10k. Telemetry rica mostra código em ação. Validar fix é fácil. Watch deployments e fix antes de visível para usuários.
|
|
65
|
+
|
|
66
|
+
## Capacidade 3 — Complexidade / Tech Debt
|
|
67
|
+
|
|
68
|
+
### Doing well
|
|
69
|
+
- Engineers gastam maioria do tempo em forward progress
|
|
70
|
+
- Bug fixing minoritário
|
|
71
|
+
- Engineers raramente desorientados ("onde no codebase?")
|
|
72
|
+
|
|
73
|
+
### Doing poorly
|
|
74
|
+
- Eng time desperdiçado rebuilding após scaling limits
|
|
75
|
+
- Times distraídos fixando coisa errada
|
|
76
|
+
- Localized changes têm ripple effects descontrolados
|
|
77
|
+
- "Haunted graveyard" — código que ninguém quer mexer
|
|
78
|
+
|
|
79
|
+
### Como observability ajuda
|
|
80
|
+
Performance end-to-end claramente mensurada. Investigators encontram trilhas em parte desconhecida do sistema. Tracing aponta gargalo correto. Engineers identificam o que otimizar (não chutes).
|
|
81
|
+
|
|
82
|
+
## Capacidade 4 — Cadência de Release
|
|
83
|
+
|
|
84
|
+
### Doing well
|
|
85
|
+
- Cadência alinha com customer needs
|
|
86
|
+
- Código entra em prod logo após escrito; engineer dispara deploy próprio
|
|
87
|
+
- Code paths habilitáveis/desabilitáveis sem deploy (feature flags)
|
|
88
|
+
- Deploys e rollbacks são rápidos
|
|
89
|
+
|
|
90
|
+
### Doing poorly
|
|
91
|
+
- Releases infrequentes; muita intervenção humana
|
|
92
|
+
- Muitas mudanças shipped de uma vez (batches)
|
|
93
|
+
- Releases em ordem específica obrigatória
|
|
94
|
+
- Sales gating em release train específico
|
|
95
|
+
- Times evitando deploys em certos dias/horários
|
|
96
|
+
|
|
97
|
+
### Como observability ajuda
|
|
98
|
+
Entende build pipeline + production. Mostra degradação em tests ou erros de build. Confidence no release: comparar build_id antes/depois é trivial. Drilldown em eventos específicos.
|
|
99
|
+
|
|
100
|
+
## Capacidade 5 — Comportamento de Usuário
|
|
101
|
+
|
|
102
|
+
### Doing well
|
|
103
|
+
- Product team consegue responder "qual feature mais usada?", "qual customer tier mais ativo?"
|
|
104
|
+
- Adoption tracking de features novas
|
|
105
|
+
- Sucesso ou abandono mensurável por dimensão (geo, tier, feature flag)
|
|
106
|
+
|
|
107
|
+
### Doing poorly
|
|
108
|
+
- Time intui "users gostaram disso" sem dados
|
|
109
|
+
- BI reports lentos demais (dias) para steering decisions
|
|
110
|
+
- "Quantos users hit este bug?" leva sprint inteiro para responder
|
|
111
|
+
- Sales/Customer Success usam dashboards diferentes do eng (silos)
|
|
112
|
+
|
|
113
|
+
### Como observability ajuda
|
|
114
|
+
Data democratizada — Product, CS, Sales, Exec consultam mesma observability data. Granular por user/tenant. Time real (não BI overnight). Slice & dice ad hoc por feature flag, customer tier, region.
|
|
115
|
+
|
|
116
|
+
## Patterns canônicos
|
|
117
|
+
|
|
118
|
+
### Pattern: scoring de OMM (1-5 por capacidade)
|
|
119
|
+
|
|
120
|
+
```text
|
|
121
|
+
1 = Initial: ad-hoc, individual heroics, sem padrão
|
|
122
|
+
2 = Repeatable: básico funciona; alguns engineers conseguem
|
|
123
|
+
3 = Defined: documentado e cross-team; new hires aprendem
|
|
124
|
+
4 = Managed: métricas + targets; tracking de regressão
|
|
125
|
+
5 = Optimizing: melhoria contínua; experimentação ativa
|
|
126
|
+
```
|
|
127
|
+
|
|
128
|
+
### Pattern: snapshot OMM (Markdown gerado por agent)
|
|
129
|
+
|
|
130
|
+
```markdown
|
|
131
|
+
# OMM Snapshot — kit-mcp 2026-05-06
|
|
132
|
+
|
|
133
|
+
| Capacidade | Score (1-5) | Trend | Sintomas-chave |
|
|
134
|
+
|---|---|---|---|
|
|
135
|
+
| 1. Resiliência | 3 | ↑ | MTTR 2h (era 6h em v1.7) |
|
|
136
|
+
| 2. Qualidade | 4 | → | Bugs em prod ↓ 70% após v1.6 |
|
|
137
|
+
| 3. Complexidade | 2 | ↑ | Tracing recém adotado v1.9 |
|
|
138
|
+
| 4. Cadência | 4 | → | Daily deploy ativo |
|
|
139
|
+
| 5. Comportamento usuário | 1 | ↑ | Sem product analytics ainda |
|
|
140
|
+
|
|
141
|
+
## Action items (priorizados)
|
|
142
|
+
1. [Cap 5] Adicionar dashboards Product (mais alto ROI dado score 1)
|
|
143
|
+
2. [Cap 3] Skills de tracing (Phase 29-30 v1.9 endereçaram)
|
|
144
|
+
3. [Cap 1] Reduzir MTTR de 2h para < 1h (usar incident-investigator)
|
|
145
|
+
```
|
|
146
|
+
|
|
147
|
+
### Pattern: regression check entre marcos
|
|
148
|
+
|
|
149
|
+
```text
|
|
150
|
+
ANTES de /concluir-marco, gerar OMM snapshot.
|
|
151
|
+
Se ALGUMA capacidade regrediu vs marco anterior:
|
|
152
|
+
- Bloquear conclusion (workflow.omm_no_regression = true)
|
|
153
|
+
- Ou abrir ticket explícito + warning, mas permitir conclusion
|
|
154
|
+
```
|
|
155
|
+
|
|
156
|
+
## Anti-patterns
|
|
157
|
+
|
|
158
|
+
### ANTI: scoring por checkbox (Maturity Model literal)
|
|
159
|
+
|
|
160
|
+
```text
|
|
161
|
+
ANTI: "checklist com 50 items; score = N items checked / 50"
|
|
162
|
+
|
|
163
|
+
PROBLEMA: prática observability não cabe em checklist. Score = comportamento sociotécnico.
|
|
164
|
+
|
|
165
|
+
CERTO: avaliar SINTOMAS qualitativos. "On-call está sustentável?" "Engineers conseguem debugar sem help?" Score reflete trajetória.
|
|
166
|
+
```
|
|
167
|
+
|
|
168
|
+
### ANTI: comparar org com peers (FAANG envy)
|
|
169
|
+
|
|
170
|
+
```text
|
|
171
|
+
ANTI: "FAANG faz X, então temos que fazer X também"
|
|
172
|
+
|
|
173
|
+
PROBLEMA: contexto importa. Org de 10 engineers ≠ Google.
|
|
174
|
+
|
|
175
|
+
CERTO: compare com VOCÊ MESMO (vs marco anterior). Cada org tem trajetória própria.
|
|
176
|
+
```
|
|
177
|
+
|
|
178
|
+
### ANTI: maturity model como ferramenta de marketing
|
|
179
|
+
|
|
180
|
+
```text
|
|
181
|
+
ANTI: "estamos no nível 5 de OMM!" como bragging rights
|
|
182
|
+
|
|
183
|
+
PROBLEMA: nível 5 é teórico (continuous improvement, never done).
|
|
184
|
+
Self-promotion mascara gaps reais.
|
|
185
|
+
|
|
186
|
+
CERTO: OMM é diagnostic interno. Output → action items, não slides para sales.
|
|
187
|
+
```
|
|
188
|
+
|
|
189
|
+
### ANTI: prática técnica sem cultura
|
|
190
|
+
|
|
191
|
+
```text
|
|
192
|
+
ANTI: comprar tools de observability achando que resolve
|
|
193
|
+
|
|
194
|
+
PROBLEMA: tools sem skills/processo geram dashboards inúteis.
|
|
195
|
+
OMM é SOCIO-técnico.
|
|
196
|
+
|
|
197
|
+
CERTO: tooling + skills + processo + cultura + buy-in. OMM mede tudo.
|
|
198
|
+
```
|
|
199
|
+
|
|
200
|
+
## Verificação
|
|
201
|
+
|
|
202
|
+
OMM snapshot canônico:
|
|
203
|
+
|
|
204
|
+
1. **5 capacidades scored** — cada uma 1-5
|
|
205
|
+
2. **Sintomas qualitativos citados** — não números abstratos
|
|
206
|
+
3. **Trend vs último marco** — ↑ ↓ →
|
|
207
|
+
4. **Action items priorizados** — capacidade com score baixo = high priority
|
|
208
|
+
5. **Owner por action item** — sem owner = sem ação
|
|
209
|
+
6. **Regression check** — alertar se alguma capacidade regrediu
|
|
210
|
+
|
|
211
|
+
---
|
|
212
|
+
|
|
213
|
+
## Ver também
|
|
214
|
+
|
|
215
|
+
- `kit/skills/_shared-observability/glossary.md` — termos OMM
|
|
216
|
+
- `kit/skills/event-based-slos/SKILL.md` — Cap 1 (resiliência via SLO/burn rate)
|
|
217
|
+
- `kit/skills/observability-driven-development/SKILL.md` — Cap 2 (qualidade), Cap 4 (cadência)
|
|
218
|
+
- `kit/skills/core-analysis-loop/SKILL.md` — Cap 3 (complexidade — encontrar gargalo)
|
|
219
|
+
- `kit/agents/omm-auditor.md` — agente que pontua e gera OMM snapshot
|
|
220
|
+
- `kit/commands/auditar-observabilidade.md` — comando que invoca o agente
|
|
221
|
+
|
|
222
|
+
*Material-fonte: Observability Engineering (O'Reilly, 2022) — Cap 21: "An Observability Maturity Model".*
|