@saulwade/swl-ses 1.3.8 → 1.4.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CLAUDE.md +12 -4
- package/README.md +1 -1
- package/bin/swl-mcp-server.js +187 -187
- package/bin/swl-webhook-server.js +198 -0
- package/comandos/swl/.evolved.json +22 -22
- package/comandos/swl/adoptar-proyecto.md +21 -1
- package/comandos/swl/claudemd.md +14 -1
- package/comandos/swl/contribuir.md +233 -233
- package/comandos/swl/exportar-vault.md +108 -0
- package/comandos/swl/nuevo-proyecto.md +24 -2
- package/gateway/adapters/base.js +109 -0
- package/gateway/adapters/discord.js +167 -0
- package/gateway/adapters/email.js +221 -0
- package/gateway/adapters/slack.js +192 -0
- package/gateway/adapters/telegram.js +183 -0
- package/gateway/adapters/webhook.js +113 -0
- package/gateway/adapters/whatsapp.js +214 -0
- package/gateway/agent-executor.js +322 -0
- package/gateway/command-relay.js +271 -0
- package/gateway/cron/jobs.js +263 -0
- package/gateway/cron/scheduler.js +322 -0
- package/gateway/cron/store.js +335 -0
- package/gateway/index.js +320 -0
- package/gateway/lib/event-channel.js +191 -0
- package/gateway/session.js +131 -0
- package/gateway/webhook-server.js +324 -0
- package/habilidades/backend-production-resilience/SKILL.md +288 -288
- package/habilidades/benchmark-memoria/SKILL.md +186 -186
- package/habilidades/build-errors-nextjs/SKILL.md +55 -1
- package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
- package/habilidades/doubt-driven-review/SKILL.md +171 -171
- package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
- package/habilidades/eval-framework/SKILL.md +212 -212
- package/habilidades/extractor-de-aprendizajes/SKILL.md +20 -10
- package/habilidades/harness-claude-code/SKILL.md +299 -299
- package/habilidades/infra-github-actions/SKILL.md +166 -166
- package/habilidades/legacy-code-rescue/SKILL.md +267 -267
- package/habilidades/manejo-errores/.evolved.json +8 -8
- package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
- package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
- package/habilidades/nextjs-testing/SKILL.md +89 -5
- package/habilidades/node-experto/SKILL.md +37 -1
- package/habilidades/patrones-python/SKILL.md +229 -229
- package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
- package/habilidades/planear-fase/SKILL.md +319 -319
- package/habilidades/react-experto/SKILL.md +45 -4
- package/habilidades/release-semver/.evolved.json +8 -8
- package/habilidades/tdd-workflow/SKILL.md +36 -4
- package/habilidades/testing-python/SKILL.md +340 -340
- package/hooks/claudemd-bloat-detector.js +161 -161
- package/hooks/inyeccion-contexto.js +8 -3
- package/hooks/lib/agent-routing.js +107 -107
- package/hooks/lib/auto-consolidator.js +335 -335
- package/hooks/lib/error-classifier.js +308 -308
- package/hooks/lib/merkle-audit.js +96 -96
- package/hooks/lib/provenance-tracker.js +191 -191
- package/hooks/lib/rate-limit-ip.js +177 -0
- package/hooks/lib/rate-limit-tracker.js +253 -253
- package/hooks/lib/resource-quota.js +122 -122
- package/hooks/lib/retry-jitter.js +165 -165
- package/hooks/lib/skill-auditor.js +588 -588
- package/hooks/lib/sync-status.js +228 -228
- package/hooks/lib/taint-tracker.js +107 -107
- package/hooks/lib/text-similarity.js +241 -241
- package/hooks/lib/toon-compressor.js +245 -245
- package/hooks/lib/webhook-dedup.js +184 -0
- package/hooks/lib/webhook-verify.js +123 -0
- package/hooks/proteccion-rutas.js +120 -15
- package/hooks/registro-turnos.js +209 -209
- package/hooks/sugerir-regenerar-inventario.js +170 -170
- package/hooks/validar-formato-post-subagente.js +140 -140
- package/hooks/validar-memoria-hook.js +218 -218
- package/instintos/prompt-appendices.yaml +57 -57
- package/manifiestos/agent-output-schemas.json +57 -57
- package/manifiestos/modulos.json +1 -0
- package/manifiestos/skills-lock.json +34 -34
- package/package.json +5 -3
- package/plantillas/auditor-veto-template.md +105 -105
- package/plantillas/github-workflows/README.md +47 -47
- package/plantillas/github-workflows/release-please.yml +44 -44
- package/plantillas/github-workflows/swl-ci.yml +107 -107
- package/plantillas/github-workflows/swl-security.yml +51 -51
- package/plugin.json +1 -1
- package/reglas/analisis-previo-tareas-grandes.md +172 -172
- package/reglas/arreglar-al-detectar.md +147 -147
- package/reglas/fragmentos-compartidos.md +152 -152
- package/reglas/harness-claude-code.md +213 -213
- package/reglas/usar-context7.md +226 -226
- package/reglas/usar-sistema-swl.md +251 -0
- package/schemas/diary-entry.schema.json +80 -80
- package/scripts/benchmark-memoria.js +167 -167
- package/scripts/comandos/skills.js +251 -2
- package/scripts/configurar-branch-protection.js +418 -418
- package/scripts/detectar-aprendizajes-duplicados.js +151 -151
- package/scripts/field-report.js +199 -199
- package/scripts/generar-checklists-consolidados.js +273 -273
- package/scripts/generar-inventario.js +420 -420
- package/scripts/generar-matriz-lenguajes.js +271 -271
- package/scripts/lib/artefactos-python.js +43 -43
- package/scripts/lib/benchmark-metrics.js +160 -160
- package/scripts/lib/budget-enforcer.js +252 -252
- package/scripts/lib/configurar-ci.js +380 -380
- package/scripts/lib/contadores-inventario.js +217 -217
- package/scripts/lib/detectar-stack-detallado.js +307 -307
- package/scripts/lib/diary-entry.js +234 -234
- package/scripts/lib/eval-metrics-store.js +218 -218
- package/scripts/lib/eval-quality.js +171 -171
- package/scripts/lib/eval-schemas.js +144 -144
- package/scripts/lib/eval-self-correct.js +106 -106
- package/scripts/lib/eval-validator.js +185 -185
- package/scripts/lib/jaccard-similarity.js +98 -98
- package/scripts/lib/longmemeval-runner.js +125 -125
- package/scripts/lib/npm-version.js +261 -261
- package/scripts/lib/paquetes-conocidos.js +50 -50
- package/scripts/lib/prompt-builder.js +264 -264
- package/scripts/lib/rrf-fusion.js +175 -175
- package/scripts/lib/scoring-instintos.js +277 -277
- package/scripts/lib/semantic-search.js +252 -252
- package/scripts/limpiar-artefactos-python.js +131 -131
- package/scripts/mcp-server/README.md +128 -128
- package/scripts/mcp-server/handlers.js +206 -206
- package/scripts/migrar-csv-a-array.js +168 -168
- package/scripts/migrar-fase-dominio.js +201 -201
- package/scripts/publicar.js +511 -511
- package/scripts/run-eval.js +141 -141
- package/scripts/validar-manifest.js +195 -195
- package/scripts/validar-userland-vacio.js +110 -110
- package/scripts/verificar-release.js +110 -0
|
@@ -1,288 +1,288 @@
|
|
|
1
|
-
---
|
|
2
|
-
name: backend-production-resilience
|
|
3
|
-
description: >
|
|
4
|
-
Patrones de resiliencia para servicios backend en producción. Cubre timeouts
|
|
5
|
-
obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
|
|
6
|
-
bulkheads, backpressure, graceful degradation, blast radius, fault isolation
|
|
7
|
-
y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
|
|
8
|
-
que llame a dependencias externas (BD, APIs, colas, caches), cuando se
|
|
9
|
-
diagnostique un incidente de producción, o cuando se quiera endurecer
|
|
10
|
-
endpoints contra sobrecarga, latencia y fallas en cascada.
|
|
11
|
-
version: "1.0.0"
|
|
12
|
-
evolved: false
|
|
13
|
-
herramientasPermitidas: [Read]
|
|
14
|
-
exclusiones:
|
|
15
|
-
- "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
|
|
16
|
-
- "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
|
|
17
|
-
- "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
|
|
18
|
-
- "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
|
|
19
|
-
evolvable: true
|
|
20
|
-
---
|
|
21
|
-
|
|
22
|
-
# Backend Production Resilience
|
|
23
|
-
|
|
24
|
-
## Cuándo cargar
|
|
25
|
-
|
|
26
|
-
- Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
|
|
27
|
-
- Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
|
|
28
|
-
- Se prepara un endpoint público para tráfico real (no solo el happy path).
|
|
29
|
-
- Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
|
|
30
|
-
- Se hace code review de un PR que toca integración con sistemas externos.
|
|
31
|
-
|
|
32
|
-
## Cuándo NO cargar
|
|
33
|
-
|
|
34
|
-
- La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
|
|
35
|
-
- La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
|
|
36
|
-
- El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
|
|
37
|
-
- El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
|
|
38
|
-
|
|
39
|
-
## Directiva primaria
|
|
40
|
-
|
|
41
|
-
**La producción es desordenada por defecto.** Toda dependencia externa puede ser
|
|
42
|
-
lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
|
|
43
|
-
Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
|
|
44
|
-
|
|
45
|
-
Diseñar para que el servicio:
|
|
46
|
-
|
|
47
|
-
1. **Falle visible** en lugar de colgarse en silencio.
|
|
48
|
-
2. **Limite el blast radius** en lugar de propagar la falla.
|
|
49
|
-
3. **Descarte carga** en lugar de colapsar bajo presión.
|
|
50
|
-
4. **Preserve servicios core** cuando hay degradación.
|
|
51
|
-
5. **Permita diagnóstico** desde los logs, métricas y trazas.
|
|
52
|
-
|
|
53
|
-
No diseñar solo para el happy path.
|
|
54
|
-
|
|
55
|
-
## Mindset de estabilidad — 6 axiomas
|
|
56
|
-
|
|
57
|
-
1. Toda dependencia puede ser lenta, no responder o estar mal.
|
|
58
|
-
2. Toda cola se puede llenar.
|
|
59
|
-
3. Todo cache puede fallar o sufrir stampede.
|
|
60
|
-
4. Todo timeout puede cascadear hacia arriba.
|
|
61
|
-
5. Todo caller puede reintentar mal (DDoSearte sin querer).
|
|
62
|
-
6. Todo estado "temporal degradado" puede convertirse en normal por horas.
|
|
63
|
-
|
|
64
|
-
El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
|
|
65
|
-
|
|
66
|
-
---
|
|
67
|
-
|
|
68
|
-
## Timeouts — obligatorios, no opcionales
|
|
69
|
-
|
|
70
|
-
- Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
|
|
71
|
-
un timeout explícito.
|
|
72
|
-
- El timeout va en el código, NO se hereda del default de la librería.
|
|
73
|
-
Los defaults suelen ser infinitos o demasiado largos.
|
|
74
|
-
- Distintas dependencias pueden tener distintos presupuestos de timeout
|
|
75
|
-
según su SLA conocido. No usar un único valor global.
|
|
76
|
-
- Esperas infinitas están prohibidas. Sin excepción.
|
|
77
|
-
|
|
78
|
-
```python
|
|
79
|
-
# MAL — sin timeout, defaults dependen de la librería
|
|
80
|
-
async with httpx.AsyncClient() as client:
|
|
81
|
-
r = await client.get(url) # puede colgar indefinidamente
|
|
82
|
-
|
|
83
|
-
# BIEN — timeout explícito por nivel (connect, read, write, pool)
|
|
84
|
-
TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
|
|
85
|
-
async with httpx.AsyncClient(timeout=TIMEOUT) as client:
|
|
86
|
-
r = await client.get(url)
|
|
87
|
-
```
|
|
88
|
-
|
|
89
|
-
Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
|
|
90
|
-
`maxTimeMS` en MongoDB), no solo en el connection pool.
|
|
91
|
-
|
|
92
|
-
---
|
|
93
|
-
|
|
94
|
-
## Retries — disciplinados o ninguno
|
|
95
|
-
|
|
96
|
-
- Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
|
|
97
|
-
explícitamente diseñadas con idempotency key (POST con header
|
|
98
|
-
`Idempotency-Key: <uuid>`).
|
|
99
|
-
- Acotar el conteo de reintentos Y el tiempo total de reintentos.
|
|
100
|
-
- Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
|
|
101
|
-
reintentos sincronizados.
|
|
102
|
-
- NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
|
|
103
|
-
5xx (excepto 501, 505) y errores de red transitorios.
|
|
104
|
-
- Si el caller también reintenta, los reintentos se multiplican
|
|
105
|
-
exponencialmente — preferir un solo nivel de retry en la cadena.
|
|
106
|
-
|
|
107
|
-
```python
|
|
108
|
-
import random
|
|
109
|
-
async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
|
|
110
|
-
"""Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
|
|
111
|
-
for intento in range(intentos):
|
|
112
|
-
try:
|
|
113
|
-
return await fn()
|
|
114
|
-
except (httpx.TimeoutException, httpx.NetworkError) as e:
|
|
115
|
-
if intento == intentos - 1:
|
|
116
|
-
raise
|
|
117
|
-
cap = min(max_delay, base_delay * (2 ** intento))
|
|
118
|
-
await asyncio.sleep(random.uniform(0, cap)) # full jitter
|
|
119
|
-
```
|
|
120
|
-
|
|
121
|
-
---
|
|
122
|
-
|
|
123
|
-
## Circuit breakers
|
|
124
|
-
|
|
125
|
-
Cuando una dependencia está fallando, **dejar de llamarla** durante un
|
|
126
|
-
período corto en lugar de seguir intentando y consumir threads/conexiones.
|
|
127
|
-
|
|
128
|
-
Estados:
|
|
129
|
-
- **CLOSED**: peticiones pasan normalmente.
|
|
130
|
-
- **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
|
|
131
|
-
- **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
|
|
132
|
-
pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
|
|
133
|
-
|
|
134
|
-
Reglas:
|
|
135
|
-
- Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
|
|
136
|
-
20 llamadas) y tiempo de cooldown (ej: 30s).
|
|
137
|
-
- El circuit breaker DEBE emitir métricas con el cambio de estado para
|
|
138
|
-
que se monitoree.
|
|
139
|
-
- En estado OPEN, devolver una respuesta degradada (cache, default, error
|
|
140
|
-
visible al caller) — nunca colgar.
|
|
141
|
-
- Probar el comportamiento del CB con tests específicos: simular dependencia
|
|
142
|
-
caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
|
|
143
|
-
|
|
144
|
-
Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
|
|
145
|
-
`resilience4j` (Java).
|
|
146
|
-
|
|
147
|
-
---
|
|
148
|
-
|
|
149
|
-
## Bulkheads — aislamiento de fallos
|
|
150
|
-
|
|
151
|
-
Aislar pools de recursos por dependencia para que una dependencia lenta
|
|
152
|
-
no agote todos los threads/conexiones del servicio:
|
|
153
|
-
|
|
154
|
-
- Pools separados de conexiones HTTP por upstream crítico.
|
|
155
|
-
- Pools separados de threads/workers por tipo de tarea.
|
|
156
|
-
- Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
|
|
157
|
-
fallar rápido en lugar de hacer cola infinita.
|
|
158
|
-
|
|
159
|
-
```python
|
|
160
|
-
# Cliente HTTP con pool dedicado por upstream (httpx)
|
|
161
|
-
cliente_pagos = httpx.AsyncClient(
|
|
162
|
-
timeout=TIMEOUT_PAGOS,
|
|
163
|
-
limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
|
|
164
|
-
)
|
|
165
|
-
cliente_inventario = httpx.AsyncClient(
|
|
166
|
-
timeout=TIMEOUT_INVENTARIO,
|
|
167
|
-
limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
|
|
168
|
-
)
|
|
169
|
-
```
|
|
170
|
-
|
|
171
|
-
Sin bulkheads, una dependencia lenta puede consumir todos los workers y
|
|
172
|
-
dejar al servicio sin capacidad para responder otros endpoints.
|
|
173
|
-
|
|
174
|
-
---
|
|
175
|
-
|
|
176
|
-
## Backpressure y descarte de carga
|
|
177
|
-
|
|
178
|
-
Cuando el servicio recibe más peticiones de las que puede procesar, debe
|
|
179
|
-
DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
|
|
180
|
-
|
|
181
|
-
Patrones:
|
|
182
|
-
- **Rate limiting** por cliente/endpoint (token bucket, sliding window).
|
|
183
|
-
Devolver `429 Too Many Requests` con header `Retry-After`.
|
|
184
|
-
- **Cola acotada**: si la cola interna excede N items, rechazar nuevas
|
|
185
|
-
con `503 Service Unavailable`.
|
|
186
|
-
- **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
|
|
187
|
-
primero, preservar servicios core.
|
|
188
|
-
- **Admission control**: rechazar peticiones que probablemente excederán
|
|
189
|
-
el deadline antes de empezar a procesarlas.
|
|
190
|
-
|
|
191
|
-
NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
|
|
192
|
-
provocar OOM.
|
|
193
|
-
|
|
194
|
-
---
|
|
195
|
-
|
|
196
|
-
## Graceful degradation
|
|
197
|
-
|
|
198
|
-
Cuando una dependencia no-crítica falla, el servicio debe seguir
|
|
199
|
-
funcionando con funcionalidad reducida en lugar de devolver error
|
|
200
|
-
completo:
|
|
201
|
-
|
|
202
|
-
- Catalogar dependencias en críticas vs. mejoradoras (recommendations,
|
|
203
|
-
analytics, notifications son típicamente mejoradoras).
|
|
204
|
-
- Si una dependencia mejoradora falla: registrar la falla, devolver
|
|
205
|
-
resultado degradado (sin recommendations, sin notification enviada
|
|
206
|
-
pero encolada para retry).
|
|
207
|
-
- El cliente debe poder distinguir entre respuesta completa y
|
|
208
|
-
respuesta degradada (ej: header `X-Service-Degraded: notifications`).
|
|
209
|
-
|
|
210
|
-
Antipatrón: si el servicio de notifications falla, fallar la operación
|
|
211
|
-
de checkout completa. Eso convierte una dependencia mejoradora en
|
|
212
|
-
crítica.
|
|
213
|
-
|
|
214
|
-
---
|
|
215
|
-
|
|
216
|
-
## Blast radius — contención del impacto
|
|
217
|
-
|
|
218
|
-
Diseñar para que una falla aislada NO se propague a todo el sistema:
|
|
219
|
-
|
|
220
|
-
- Particionar usuarios/tenants en shards independientes (un shard caído
|
|
221
|
-
no tira a otros tenants).
|
|
222
|
-
- Separar workloads críticos de no-críticos en infraestructura distinta
|
|
223
|
-
(un job de reportes pesado no debe usar el mismo pool que el checkout).
|
|
224
|
-
- Limitar el alcance de cambios deployable: feature flags por usuario o
|
|
225
|
-
porcentaje, canary deployments, blue-green.
|
|
226
|
-
|
|
227
|
-
Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
|
|
228
|
-
**¿cuántos usuarios se ven afectados y por cuánto tiempo?**
|
|
229
|
-
|
|
230
|
-
---
|
|
231
|
-
|
|
232
|
-
## Observabilidad obligatoria
|
|
233
|
-
|
|
234
|
-
Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
|
|
235
|
-
Mínimo requerido:
|
|
236
|
-
|
|
237
|
-
- **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
|
|
238
|
-
(p50/p95/p99).
|
|
239
|
-
- **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
|
|
240
|
-
- **Saturación de pools**: utilización de connection pool, queue depth.
|
|
241
|
-
- **Latencia por dependencia externa**: histograma separado por upstream.
|
|
242
|
-
- **Logs estructurados** con correlation ID que cruce el request completo.
|
|
243
|
-
- **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
|
|
244
|
-
cross-service.
|
|
245
|
-
|
|
246
|
-
Si un patrón de resiliencia se activa (CB abre, retry consume budget,
|
|
247
|
-
load shedding descarta) DEBE quedar registrado con suficiente contexto
|
|
248
|
-
para diagnóstico post-mortem.
|
|
249
|
-
|
|
250
|
-
---
|
|
251
|
-
|
|
252
|
-
## Anti-patrones
|
|
253
|
-
|
|
254
|
-
- **Retry sin jitter**: causa retry storm sincronizado que tira la
|
|
255
|
-
dependencia justo cuando se está recuperando.
|
|
256
|
-
- **Timeout en el caller pero no en el callee**: el callee sigue
|
|
257
|
-
procesando una petición ya abandonada — desperdicia recursos.
|
|
258
|
-
- **Catch-all `except Exception` con log y continue**: oculta fallas
|
|
259
|
-
reales, hace el servicio "imposible de diagnosticar".
|
|
260
|
-
- **Cola en memoria sin límite**: tarde o temprano OOM.
|
|
261
|
-
- **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
|
|
262
|
-
- **Misma dependencia compartiendo pool con todas las demás**: cuando
|
|
263
|
-
esa dependencia lenta llega, mata todo el servicio.
|
|
264
|
-
- **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
|
|
265
|
-
|
|
266
|
-
---
|
|
267
|
-
|
|
268
|
-
## Gotchas / Errores comunes no obvios
|
|
269
|
-
|
|
270
|
-
- **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
|
|
271
|
-
- **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
|
|
272
|
-
- **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
|
|
273
|
-
- **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
|
|
274
|
-
- **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
|
|
275
|
-
|
|
276
|
-
## Checklist antes de poner un servicio en producción
|
|
277
|
-
|
|
278
|
-
- [ ] Toda llamada externa tiene timeout explícito (no default).
|
|
279
|
-
- [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
|
|
280
|
-
- [ ] Circuit breaker configurado para cada dependencia externa crítica.
|
|
281
|
-
- [ ] Pools separados por dependencia (bulkheads).
|
|
282
|
-
- [ ] Rate limiting en endpoints públicos.
|
|
283
|
-
- [ ] Cola interna con límite (rechazar 503 al exceder).
|
|
284
|
-
- [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
|
|
285
|
-
- [ ] Métricas RED + estado CB + saturación pools instrumentadas.
|
|
286
|
-
- [ ] Logs estructurados con correlation ID.
|
|
287
|
-
- [ ] Trazas distribuidas configuradas (OpenTelemetry).
|
|
288
|
-
- [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.
|
|
1
|
+
---
|
|
2
|
+
name: backend-production-resilience
|
|
3
|
+
description: >
|
|
4
|
+
Patrones de resiliencia para servicios backend en producción. Cubre timeouts
|
|
5
|
+
obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
|
|
6
|
+
bulkheads, backpressure, graceful degradation, blast radius, fault isolation
|
|
7
|
+
y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
|
|
8
|
+
que llame a dependencias externas (BD, APIs, colas, caches), cuando se
|
|
9
|
+
diagnostique un incidente de producción, o cuando se quiera endurecer
|
|
10
|
+
endpoints contra sobrecarga, latencia y fallas en cascada.
|
|
11
|
+
version: "1.0.0"
|
|
12
|
+
evolved: false
|
|
13
|
+
herramientasPermitidas: [Read]
|
|
14
|
+
exclusiones:
|
|
15
|
+
- "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
|
|
16
|
+
- "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
|
|
17
|
+
- "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
|
|
18
|
+
- "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
|
|
19
|
+
evolvable: true
|
|
20
|
+
---
|
|
21
|
+
|
|
22
|
+
# Backend Production Resilience
|
|
23
|
+
|
|
24
|
+
## Cuándo cargar
|
|
25
|
+
|
|
26
|
+
- Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
|
|
27
|
+
- Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
|
|
28
|
+
- Se prepara un endpoint público para tráfico real (no solo el happy path).
|
|
29
|
+
- Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
|
|
30
|
+
- Se hace code review de un PR que toca integración con sistemas externos.
|
|
31
|
+
|
|
32
|
+
## Cuándo NO cargar
|
|
33
|
+
|
|
34
|
+
- La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
|
|
35
|
+
- La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
|
|
36
|
+
- El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
|
|
37
|
+
- El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
|
|
38
|
+
|
|
39
|
+
## Directiva primaria
|
|
40
|
+
|
|
41
|
+
**La producción es desordenada por defecto.** Toda dependencia externa puede ser
|
|
42
|
+
lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
|
|
43
|
+
Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
|
|
44
|
+
|
|
45
|
+
Diseñar para que el servicio:
|
|
46
|
+
|
|
47
|
+
1. **Falle visible** en lugar de colgarse en silencio.
|
|
48
|
+
2. **Limite el blast radius** en lugar de propagar la falla.
|
|
49
|
+
3. **Descarte carga** en lugar de colapsar bajo presión.
|
|
50
|
+
4. **Preserve servicios core** cuando hay degradación.
|
|
51
|
+
5. **Permita diagnóstico** desde los logs, métricas y trazas.
|
|
52
|
+
|
|
53
|
+
No diseñar solo para el happy path.
|
|
54
|
+
|
|
55
|
+
## Mindset de estabilidad — 6 axiomas
|
|
56
|
+
|
|
57
|
+
1. Toda dependencia puede ser lenta, no responder o estar mal.
|
|
58
|
+
2. Toda cola se puede llenar.
|
|
59
|
+
3. Todo cache puede fallar o sufrir stampede.
|
|
60
|
+
4. Todo timeout puede cascadear hacia arriba.
|
|
61
|
+
5. Todo caller puede reintentar mal (DDoSearte sin querer).
|
|
62
|
+
6. Todo estado "temporal degradado" puede convertirse en normal por horas.
|
|
63
|
+
|
|
64
|
+
El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
|
|
65
|
+
|
|
66
|
+
---
|
|
67
|
+
|
|
68
|
+
## Timeouts — obligatorios, no opcionales
|
|
69
|
+
|
|
70
|
+
- Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
|
|
71
|
+
un timeout explícito.
|
|
72
|
+
- El timeout va en el código, NO se hereda del default de la librería.
|
|
73
|
+
Los defaults suelen ser infinitos o demasiado largos.
|
|
74
|
+
- Distintas dependencias pueden tener distintos presupuestos de timeout
|
|
75
|
+
según su SLA conocido. No usar un único valor global.
|
|
76
|
+
- Esperas infinitas están prohibidas. Sin excepción.
|
|
77
|
+
|
|
78
|
+
```python
|
|
79
|
+
# MAL — sin timeout, defaults dependen de la librería
|
|
80
|
+
async with httpx.AsyncClient() as client:
|
|
81
|
+
r = await client.get(url) # puede colgar indefinidamente
|
|
82
|
+
|
|
83
|
+
# BIEN — timeout explícito por nivel (connect, read, write, pool)
|
|
84
|
+
TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
|
|
85
|
+
async with httpx.AsyncClient(timeout=TIMEOUT) as client:
|
|
86
|
+
r = await client.get(url)
|
|
87
|
+
```
|
|
88
|
+
|
|
89
|
+
Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
|
|
90
|
+
`maxTimeMS` en MongoDB), no solo en el connection pool.
|
|
91
|
+
|
|
92
|
+
---
|
|
93
|
+
|
|
94
|
+
## Retries — disciplinados o ninguno
|
|
95
|
+
|
|
96
|
+
- Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
|
|
97
|
+
explícitamente diseñadas con idempotency key (POST con header
|
|
98
|
+
`Idempotency-Key: <uuid>`).
|
|
99
|
+
- Acotar el conteo de reintentos Y el tiempo total de reintentos.
|
|
100
|
+
- Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
|
|
101
|
+
reintentos sincronizados.
|
|
102
|
+
- NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
|
|
103
|
+
5xx (excepto 501, 505) y errores de red transitorios.
|
|
104
|
+
- Si el caller también reintenta, los reintentos se multiplican
|
|
105
|
+
exponencialmente — preferir un solo nivel de retry en la cadena.
|
|
106
|
+
|
|
107
|
+
```python
|
|
108
|
+
import random
|
|
109
|
+
async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
|
|
110
|
+
"""Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
|
|
111
|
+
for intento in range(intentos):
|
|
112
|
+
try:
|
|
113
|
+
return await fn()
|
|
114
|
+
except (httpx.TimeoutException, httpx.NetworkError) as e:
|
|
115
|
+
if intento == intentos - 1:
|
|
116
|
+
raise
|
|
117
|
+
cap = min(max_delay, base_delay * (2 ** intento))
|
|
118
|
+
await asyncio.sleep(random.uniform(0, cap)) # full jitter
|
|
119
|
+
```
|
|
120
|
+
|
|
121
|
+
---
|
|
122
|
+
|
|
123
|
+
## Circuit breakers
|
|
124
|
+
|
|
125
|
+
Cuando una dependencia está fallando, **dejar de llamarla** durante un
|
|
126
|
+
período corto en lugar de seguir intentando y consumir threads/conexiones.
|
|
127
|
+
|
|
128
|
+
Estados:
|
|
129
|
+
- **CLOSED**: peticiones pasan normalmente.
|
|
130
|
+
- **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
|
|
131
|
+
- **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
|
|
132
|
+
pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
|
|
133
|
+
|
|
134
|
+
Reglas:
|
|
135
|
+
- Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
|
|
136
|
+
20 llamadas) y tiempo de cooldown (ej: 30s).
|
|
137
|
+
- El circuit breaker DEBE emitir métricas con el cambio de estado para
|
|
138
|
+
que se monitoree.
|
|
139
|
+
- En estado OPEN, devolver una respuesta degradada (cache, default, error
|
|
140
|
+
visible al caller) — nunca colgar.
|
|
141
|
+
- Probar el comportamiento del CB con tests específicos: simular dependencia
|
|
142
|
+
caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
|
|
143
|
+
|
|
144
|
+
Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
|
|
145
|
+
`resilience4j` (Java).
|
|
146
|
+
|
|
147
|
+
---
|
|
148
|
+
|
|
149
|
+
## Bulkheads — aislamiento de fallos
|
|
150
|
+
|
|
151
|
+
Aislar pools de recursos por dependencia para que una dependencia lenta
|
|
152
|
+
no agote todos los threads/conexiones del servicio:
|
|
153
|
+
|
|
154
|
+
- Pools separados de conexiones HTTP por upstream crítico.
|
|
155
|
+
- Pools separados de threads/workers por tipo de tarea.
|
|
156
|
+
- Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
|
|
157
|
+
fallar rápido en lugar de hacer cola infinita.
|
|
158
|
+
|
|
159
|
+
```python
|
|
160
|
+
# Cliente HTTP con pool dedicado por upstream (httpx)
|
|
161
|
+
cliente_pagos = httpx.AsyncClient(
|
|
162
|
+
timeout=TIMEOUT_PAGOS,
|
|
163
|
+
limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
|
|
164
|
+
)
|
|
165
|
+
cliente_inventario = httpx.AsyncClient(
|
|
166
|
+
timeout=TIMEOUT_INVENTARIO,
|
|
167
|
+
limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
|
|
168
|
+
)
|
|
169
|
+
```
|
|
170
|
+
|
|
171
|
+
Sin bulkheads, una dependencia lenta puede consumir todos los workers y
|
|
172
|
+
dejar al servicio sin capacidad para responder otros endpoints.
|
|
173
|
+
|
|
174
|
+
---
|
|
175
|
+
|
|
176
|
+
## Backpressure y descarte de carga
|
|
177
|
+
|
|
178
|
+
Cuando el servicio recibe más peticiones de las que puede procesar, debe
|
|
179
|
+
DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
|
|
180
|
+
|
|
181
|
+
Patrones:
|
|
182
|
+
- **Rate limiting** por cliente/endpoint (token bucket, sliding window).
|
|
183
|
+
Devolver `429 Too Many Requests` con header `Retry-After`.
|
|
184
|
+
- **Cola acotada**: si la cola interna excede N items, rechazar nuevas
|
|
185
|
+
con `503 Service Unavailable`.
|
|
186
|
+
- **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
|
|
187
|
+
primero, preservar servicios core.
|
|
188
|
+
- **Admission control**: rechazar peticiones que probablemente excederán
|
|
189
|
+
el deadline antes de empezar a procesarlas.
|
|
190
|
+
|
|
191
|
+
NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
|
|
192
|
+
provocar OOM.
|
|
193
|
+
|
|
194
|
+
---
|
|
195
|
+
|
|
196
|
+
## Graceful degradation
|
|
197
|
+
|
|
198
|
+
Cuando una dependencia no-crítica falla, el servicio debe seguir
|
|
199
|
+
funcionando con funcionalidad reducida en lugar de devolver error
|
|
200
|
+
completo:
|
|
201
|
+
|
|
202
|
+
- Catalogar dependencias en críticas vs. mejoradoras (recommendations,
|
|
203
|
+
analytics, notifications son típicamente mejoradoras).
|
|
204
|
+
- Si una dependencia mejoradora falla: registrar la falla, devolver
|
|
205
|
+
resultado degradado (sin recommendations, sin notification enviada
|
|
206
|
+
pero encolada para retry).
|
|
207
|
+
- El cliente debe poder distinguir entre respuesta completa y
|
|
208
|
+
respuesta degradada (ej: header `X-Service-Degraded: notifications`).
|
|
209
|
+
|
|
210
|
+
Antipatrón: si el servicio de notifications falla, fallar la operación
|
|
211
|
+
de checkout completa. Eso convierte una dependencia mejoradora en
|
|
212
|
+
crítica.
|
|
213
|
+
|
|
214
|
+
---
|
|
215
|
+
|
|
216
|
+
## Blast radius — contención del impacto
|
|
217
|
+
|
|
218
|
+
Diseñar para que una falla aislada NO se propague a todo el sistema:
|
|
219
|
+
|
|
220
|
+
- Particionar usuarios/tenants en shards independientes (un shard caído
|
|
221
|
+
no tira a otros tenants).
|
|
222
|
+
- Separar workloads críticos de no-críticos en infraestructura distinta
|
|
223
|
+
(un job de reportes pesado no debe usar el mismo pool que el checkout).
|
|
224
|
+
- Limitar el alcance de cambios deployable: feature flags por usuario o
|
|
225
|
+
porcentaje, canary deployments, blue-green.
|
|
226
|
+
|
|
227
|
+
Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
|
|
228
|
+
**¿cuántos usuarios se ven afectados y por cuánto tiempo?**
|
|
229
|
+
|
|
230
|
+
---
|
|
231
|
+
|
|
232
|
+
## Observabilidad obligatoria
|
|
233
|
+
|
|
234
|
+
Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
|
|
235
|
+
Mínimo requerido:
|
|
236
|
+
|
|
237
|
+
- **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
|
|
238
|
+
(p50/p95/p99).
|
|
239
|
+
- **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
|
|
240
|
+
- **Saturación de pools**: utilización de connection pool, queue depth.
|
|
241
|
+
- **Latencia por dependencia externa**: histograma separado por upstream.
|
|
242
|
+
- **Logs estructurados** con correlation ID que cruce el request completo.
|
|
243
|
+
- **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
|
|
244
|
+
cross-service.
|
|
245
|
+
|
|
246
|
+
Si un patrón de resiliencia se activa (CB abre, retry consume budget,
|
|
247
|
+
load shedding descarta) DEBE quedar registrado con suficiente contexto
|
|
248
|
+
para diagnóstico post-mortem.
|
|
249
|
+
|
|
250
|
+
---
|
|
251
|
+
|
|
252
|
+
## Anti-patrones
|
|
253
|
+
|
|
254
|
+
- **Retry sin jitter**: causa retry storm sincronizado que tira la
|
|
255
|
+
dependencia justo cuando se está recuperando.
|
|
256
|
+
- **Timeout en el caller pero no en el callee**: el callee sigue
|
|
257
|
+
procesando una petición ya abandonada — desperdicia recursos.
|
|
258
|
+
- **Catch-all `except Exception` con log y continue**: oculta fallas
|
|
259
|
+
reales, hace el servicio "imposible de diagnosticar".
|
|
260
|
+
- **Cola en memoria sin límite**: tarde o temprano OOM.
|
|
261
|
+
- **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
|
|
262
|
+
- **Misma dependencia compartiendo pool con todas las demás**: cuando
|
|
263
|
+
esa dependencia lenta llega, mata todo el servicio.
|
|
264
|
+
- **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
|
|
265
|
+
|
|
266
|
+
---
|
|
267
|
+
|
|
268
|
+
## Gotchas / Errores comunes no obvios
|
|
269
|
+
|
|
270
|
+
- **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
|
|
271
|
+
- **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
|
|
272
|
+
- **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
|
|
273
|
+
- **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
|
|
274
|
+
- **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
|
|
275
|
+
|
|
276
|
+
## Checklist antes de poner un servicio en producción
|
|
277
|
+
|
|
278
|
+
- [ ] Toda llamada externa tiene timeout explícito (no default).
|
|
279
|
+
- [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
|
|
280
|
+
- [ ] Circuit breaker configurado para cada dependencia externa crítica.
|
|
281
|
+
- [ ] Pools separados por dependencia (bulkheads).
|
|
282
|
+
- [ ] Rate limiting en endpoints públicos.
|
|
283
|
+
- [ ] Cola interna con límite (rechazar 503 al exceder).
|
|
284
|
+
- [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
|
|
285
|
+
- [ ] Métricas RED + estado CB + saturación pools instrumentadas.
|
|
286
|
+
- [ ] Logs estructurados con correlation ID.
|
|
287
|
+
- [ ] Trazas distribuidas configuradas (OpenTelemetry).
|
|
288
|
+
- [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.
|