@saulwade/swl-ses 1.5.0 → 1.5.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (134) hide show
  1. package/CLAUDE.md +19 -2
  2. package/README.md +561 -561
  3. package/agentes/arquitecto-swl.md +33 -1
  4. package/agentes/nemesis-auditor-swl.md +59 -19
  5. package/bin/swl-mcp-server.js +214 -214
  6. package/comandos/swl/.evolved.json +22 -22
  7. package/comandos/swl/contribuir.md +233 -233
  8. package/comandos/swl/nemesis.md +230 -56
  9. package/gateway/lib/event-channel.js +191 -191
  10. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  11. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  12. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  13. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  14. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  15. package/habilidades/ejecutar-task-iterativo/SKILL.md +278 -278
  16. package/habilidades/eval-framework/SKILL.md +212 -212
  17. package/habilidades/feynman-auditor-swl/SKILL.md +123 -123
  18. package/habilidades/feynman-auditor-swl/recursos/preguntas-language-agnostic.md +108 -108
  19. package/habilidades/harness-claude-code/SKILL.md +299 -299
  20. package/habilidades/infra-github-actions/SKILL.md +166 -166
  21. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  22. package/habilidades/manejo-errores/.evolved.json +8 -8
  23. package/habilidades/meta-skills-estandar/SKILL.md +225 -1
  24. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  25. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  26. package/habilidades/nemesis-evaluacion-json/SKILL.md +266 -0
  27. package/habilidades/nemesis-redistribuir/SKILL.md +341 -0
  28. package/habilidades/node-experto/SKILL.md +105 -4
  29. package/habilidades/patrones-python/SKILL.md +229 -229
  30. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  31. package/habilidades/planear-fase/SKILL.md +319 -319
  32. package/habilidades/protocolo-revision-swl/SKILL.md +350 -276
  33. package/habilidades/release-semver/.evolved.json +8 -8
  34. package/habilidades/state-inconsistency-auditor-swl/SKILL.md +166 -166
  35. package/habilidades/state-inconsistency-auditor-swl/recursos/coupled-state-patterns.md +147 -147
  36. package/habilidades/tdd-workflow/SKILL.md +150 -4
  37. package/habilidades/testing-python/SKILL.md +340 -340
  38. package/habilidades/verificar-trabajo/SKILL.md +8 -3
  39. package/habilidades/web-fetcher-routing/SKILL.md +75 -75
  40. package/hooks/check-update.js +31 -3
  41. package/hooks/claudemd-bloat-detector.js +161 -161
  42. package/hooks/lib/agent-routing.js +107 -107
  43. package/hooks/lib/auto-consolidator.js +335 -335
  44. package/hooks/lib/error-classifier.js +308 -308
  45. package/hooks/lib/merkle-audit.js +96 -96
  46. package/hooks/lib/provenance-tracker.js +191 -191
  47. package/hooks/lib/rate-limit-tracker.js +253 -253
  48. package/hooks/lib/resource-quota.js +122 -122
  49. package/hooks/lib/retry-jitter.js +165 -165
  50. package/hooks/lib/security-net.js +201 -201
  51. package/hooks/lib/skill-auditor.js +588 -588
  52. package/hooks/lib/sync-status.js +228 -228
  53. package/hooks/lib/taint-tracker.js +107 -107
  54. package/hooks/lib/text-similarity.js +241 -241
  55. package/hooks/lib/toon-compressor.js +245 -245
  56. package/hooks/registro-turnos.js +209 -209
  57. package/hooks/sugerir-regenerar-inventario.js +170 -170
  58. package/hooks/validar-formato-post-subagente.js +140 -140
  59. package/hooks/validar-memoria-hook.js +218 -218
  60. package/instintos/prompt-appendices.yaml +57 -57
  61. package/manifiestos/agent-output-schemas.json +57 -57
  62. package/manifiestos/modulos.json +1324 -1321
  63. package/manifiestos/skills-lock.json +1114 -1114
  64. package/package.json +2 -2
  65. package/plantillas/auditor-veto-template.md +105 -105
  66. package/plantillas/github-workflows/README.md +47 -47
  67. package/plantillas/github-workflows/release-please.yml +44 -44
  68. package/plantillas/github-workflows/swl-ci.yml +107 -107
  69. package/plantillas/github-workflows/swl-security.yml +51 -51
  70. package/plugin.json +353 -351
  71. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  72. package/reglas/arreglar-al-detectar.md +147 -147
  73. package/reglas/fragmentos-compartidos.md +152 -152
  74. package/reglas/harness-claude-code.md +213 -213
  75. package/reglas/registro-componentes-nuevos.md +192 -0
  76. package/reglas/usar-context7.md +226 -226
  77. package/schemas/diary-entry.schema.json +80 -80
  78. package/scripts/actualizar.js +110 -1
  79. package/scripts/audit-tools/audit-history.js +330 -330
  80. package/scripts/audit-tools/bundle-tracker.js +290 -290
  81. package/scripts/audit-tools/canary-monitor.js +352 -352
  82. package/scripts/audit-tools/code-profiler.js +605 -605
  83. package/scripts/audit-tools/dep-doctor.js +320 -320
  84. package/scripts/audit-tools/env-validator.js +206 -206
  85. package/scripts/audit-tools/lib/fs-walk.js +48 -48
  86. package/scripts/audit-tools/lib/output.js +23 -23
  87. package/scripts/audit-tools/migration-checker.js +392 -392
  88. package/scripts/audit-tools/pentest-scanner.js +1436 -1436
  89. package/scripts/benchmark-memoria.js +167 -167
  90. package/scripts/configurar-branch-protection.js +418 -418
  91. package/scripts/derivar-feature-list.js +489 -489
  92. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  93. package/scripts/doctor.js +58 -4
  94. package/scripts/field-report.js +199 -199
  95. package/scripts/generar-checklists-consolidados.js +273 -273
  96. package/scripts/generar-inventario.js +420 -420
  97. package/scripts/generar-matriz-lenguajes.js +271 -271
  98. package/scripts/lib/artefactos-python.js +43 -43
  99. package/scripts/lib/benchmark-metrics.js +160 -160
  100. package/scripts/lib/budget-enforcer.js +252 -252
  101. package/scripts/lib/configurar-ci.js +380 -380
  102. package/scripts/lib/contadores-inventario.js +217 -217
  103. package/scripts/lib/detectar-stack-detallado.js +307 -307
  104. package/scripts/lib/diary-entry.js +234 -234
  105. package/scripts/lib/eval-metrics-store.js +218 -218
  106. package/scripts/lib/eval-quality.js +171 -171
  107. package/scripts/lib/eval-schemas.js +144 -144
  108. package/scripts/lib/eval-self-correct.js +106 -106
  109. package/scripts/lib/eval-validator.js +185 -185
  110. package/scripts/lib/expandir-targets.js +71 -71
  111. package/scripts/lib/jaccard-similarity.js +98 -98
  112. package/scripts/lib/longmemeval-runner.js +125 -125
  113. package/scripts/lib/mcp_config.py +127 -0
  114. package/scripts/lib/npm-version.js +261 -261
  115. package/scripts/lib/paquetes-conocidos.js +50 -50
  116. package/scripts/lib/prompt-builder.js +264 -264
  117. package/scripts/lib/rrf-fusion.js +175 -175
  118. package/scripts/lib/scoring-instintos.js +277 -277
  119. package/scripts/lib/semantic-search.js +252 -252
  120. package/scripts/lib/toml-merge.js +204 -204
  121. package/scripts/lib/transformadores/codex.js +375 -375
  122. package/scripts/lib/transformadores/cursor.js +359 -359
  123. package/scripts/limpiar-artefactos-python.js +131 -131
  124. package/scripts/mcp-orchestrator.py +8 -18
  125. package/scripts/mcp-pool-manager.py +12 -23
  126. package/scripts/mcp-server/README.md +170 -170
  127. package/scripts/mcp-server/auth.js +105 -105
  128. package/scripts/mcp-server/cache.js +106 -106
  129. package/scripts/mcp-server/telemetry.js +78 -78
  130. package/scripts/migrar-csv-a-array.js +168 -168
  131. package/scripts/migrar-fase-dominio.js +201 -201
  132. package/scripts/publicar.js +511 -511
  133. package/scripts/run-eval.js +141 -141
  134. package/scripts/validar-userland-vacio.js +110 -110
@@ -1,288 +1,288 @@
1
- ---
2
- name: backend-production-resilience
3
- description: >
4
- Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
- obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
- bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
- y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
- que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
- diagnostique un incidente de producción, o cuando se quiera endurecer
10
- endpoints contra sobrecarga, latencia y fallas en cascada.
11
- version: "1.0.0"
12
- evolved: false
13
- herramientasPermitidas: [Read]
14
- exclusiones:
15
- - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
- - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
- - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
- - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
- evolvable: true
20
- ---
21
-
22
- # Backend Production Resilience
23
-
24
- ## Cuándo cargar
25
-
26
- - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
- - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
- - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
- - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
- - Se hace code review de un PR que toca integración con sistemas externos.
31
-
32
- ## Cuándo NO cargar
33
-
34
- - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
- - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
- - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
- - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
-
39
- ## Directiva primaria
40
-
41
- **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
- lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
- Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
-
45
- Diseñar para que el servicio:
46
-
47
- 1. **Falle visible** en lugar de colgarse en silencio.
48
- 2. **Limite el blast radius** en lugar de propagar la falla.
49
- 3. **Descarte carga** en lugar de colapsar bajo presión.
50
- 4. **Preserve servicios core** cuando hay degradación.
51
- 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
-
53
- No diseñar solo para el happy path.
54
-
55
- ## Mindset de estabilidad — 6 axiomas
56
-
57
- 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
- 2. Toda cola se puede llenar.
59
- 3. Todo cache puede fallar o sufrir stampede.
60
- 4. Todo timeout puede cascadear hacia arriba.
61
- 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
- 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
-
64
- El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
-
66
- ---
67
-
68
- ## Timeouts — obligatorios, no opcionales
69
-
70
- - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
- un timeout explícito.
72
- - El timeout va en el código, NO se hereda del default de la librería.
73
- Los defaults suelen ser infinitos o demasiado largos.
74
- - Distintas dependencias pueden tener distintos presupuestos de timeout
75
- según su SLA conocido. No usar un único valor global.
76
- - Esperas infinitas están prohibidas. Sin excepción.
77
-
78
- ```python
79
- # MAL — sin timeout, defaults dependen de la librería
80
- async with httpx.AsyncClient() as client:
81
- r = await client.get(url) # puede colgar indefinidamente
82
-
83
- # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
- TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
- async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
- r = await client.get(url)
87
- ```
88
-
89
- Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
- `maxTimeMS` en MongoDB), no solo en el connection pool.
91
-
92
- ---
93
-
94
- ## Retries — disciplinados o ninguno
95
-
96
- - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
- explícitamente diseñadas con idempotency key (POST con header
98
- `Idempotency-Key: <uuid>`).
99
- - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
- - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
- reintentos sincronizados.
102
- - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
- 5xx (excepto 501, 505) y errores de red transitorios.
104
- - Si el caller también reintenta, los reintentos se multiplican
105
- exponencialmente — preferir un solo nivel de retry en la cadena.
106
-
107
- ```python
108
- import random
109
- async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
- """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
- for intento in range(intentos):
112
- try:
113
- return await fn()
114
- except (httpx.TimeoutException, httpx.NetworkError) as e:
115
- if intento == intentos - 1:
116
- raise
117
- cap = min(max_delay, base_delay * (2 ** intento))
118
- await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
- ```
120
-
121
- ---
122
-
123
- ## Circuit breakers
124
-
125
- Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
- período corto en lugar de seguir intentando y consumir threads/conexiones.
127
-
128
- Estados:
129
- - **CLOSED**: peticiones pasan normalmente.
130
- - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
- - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
- pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
-
134
- Reglas:
135
- - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
- 20 llamadas) y tiempo de cooldown (ej: 30s).
137
- - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
- que se monitoree.
139
- - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
- visible al caller) — nunca colgar.
141
- - Probar el comportamiento del CB con tests específicos: simular dependencia
142
- caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
-
144
- Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
- `resilience4j` (Java).
146
-
147
- ---
148
-
149
- ## Bulkheads — aislamiento de fallos
150
-
151
- Aislar pools de recursos por dependencia para que una dependencia lenta
152
- no agote todos los threads/conexiones del servicio:
153
-
154
- - Pools separados de conexiones HTTP por upstream crítico.
155
- - Pools separados de threads/workers por tipo de tarea.
156
- - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
- fallar rápido en lugar de hacer cola infinita.
158
-
159
- ```python
160
- # Cliente HTTP con pool dedicado por upstream (httpx)
161
- cliente_pagos = httpx.AsyncClient(
162
- timeout=TIMEOUT_PAGOS,
163
- limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
- )
165
- cliente_inventario = httpx.AsyncClient(
166
- timeout=TIMEOUT_INVENTARIO,
167
- limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
- )
169
- ```
170
-
171
- Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
- dejar al servicio sin capacidad para responder otros endpoints.
173
-
174
- ---
175
-
176
- ## Backpressure y descarte de carga
177
-
178
- Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
- DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
-
181
- Patrones:
182
- - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
- Devolver `429 Too Many Requests` con header `Retry-After`.
184
- - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
- con `503 Service Unavailable`.
186
- - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
- primero, preservar servicios core.
188
- - **Admission control**: rechazar peticiones que probablemente excederán
189
- el deadline antes de empezar a procesarlas.
190
-
191
- NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
- provocar OOM.
193
-
194
- ---
195
-
196
- ## Graceful degradation
197
-
198
- Cuando una dependencia no-crítica falla, el servicio debe seguir
199
- funcionando con funcionalidad reducida en lugar de devolver error
200
- completo:
201
-
202
- - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
- analytics, notifications son típicamente mejoradoras).
204
- - Si una dependencia mejoradora falla: registrar la falla, devolver
205
- resultado degradado (sin recommendations, sin notification enviada
206
- pero encolada para retry).
207
- - El cliente debe poder distinguir entre respuesta completa y
208
- respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
-
210
- Antipatrón: si el servicio de notifications falla, fallar la operación
211
- de checkout completa. Eso convierte una dependencia mejoradora en
212
- crítica.
213
-
214
- ---
215
-
216
- ## Blast radius — contención del impacto
217
-
218
- Diseñar para que una falla aislada NO se propague a todo el sistema:
219
-
220
- - Particionar usuarios/tenants en shards independientes (un shard caído
221
- no tira a otros tenants).
222
- - Separar workloads críticos de no-críticos en infraestructura distinta
223
- (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
- - Limitar el alcance de cambios deployable: feature flags por usuario o
225
- porcentaje, canary deployments, blue-green.
226
-
227
- Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
- **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
-
230
- ---
231
-
232
- ## Observabilidad obligatoria
233
-
234
- Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
- Mínimo requerido:
236
-
237
- - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
- (p50/p95/p99).
239
- - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
- - **Saturación de pools**: utilización de connection pool, queue depth.
241
- - **Latencia por dependencia externa**: histograma separado por upstream.
242
- - **Logs estructurados** con correlation ID que cruce el request completo.
243
- - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
- cross-service.
245
-
246
- Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
- load shedding descarta) DEBE quedar registrado con suficiente contexto
248
- para diagnóstico post-mortem.
249
-
250
- ---
251
-
252
- ## Anti-patrones
253
-
254
- - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
- dependencia justo cuando se está recuperando.
256
- - **Timeout en el caller pero no en el callee**: el callee sigue
257
- procesando una petición ya abandonada — desperdicia recursos.
258
- - **Catch-all `except Exception` con log y continue**: oculta fallas
259
- reales, hace el servicio "imposible de diagnosticar".
260
- - **Cola en memoria sin límite**: tarde o temprano OOM.
261
- - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
- - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
- esa dependencia lenta llega, mata todo el servicio.
264
- - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
-
266
- ---
267
-
268
- ## Gotchas / Errores comunes no obvios
269
-
270
- - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
- - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
- - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
- - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
- - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
-
276
- ## Checklist antes de poner un servicio en producción
277
-
278
- - [ ] Toda llamada externa tiene timeout explícito (no default).
279
- - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
- - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
- - [ ] Pools separados por dependencia (bulkheads).
282
- - [ ] Rate limiting en endpoints públicos.
283
- - [ ] Cola interna con límite (rechazar 503 al exceder).
284
- - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
- - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
- - [ ] Logs estructurados con correlation ID.
287
- - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
- - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.
1
+ ---
2
+ name: backend-production-resilience
3
+ description: >
4
+ Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
+ obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
+ bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
+ y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
+ que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
+ diagnostique un incidente de producción, o cuando se quiera endurecer
10
+ endpoints contra sobrecarga, latencia y fallas en cascada.
11
+ version: "1.0.0"
12
+ evolved: false
13
+ herramientasPermitidas: [Read]
14
+ exclusiones:
15
+ - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
+ - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
+ - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
+ - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
+ evolvable: true
20
+ ---
21
+
22
+ # Backend Production Resilience
23
+
24
+ ## Cuándo cargar
25
+
26
+ - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
+ - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
+ - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
+ - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
+ - Se hace code review de un PR que toca integración con sistemas externos.
31
+
32
+ ## Cuándo NO cargar
33
+
34
+ - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
+ - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
+ - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
+ - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
+
39
+ ## Directiva primaria
40
+
41
+ **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
+ lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
+ Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
+
45
+ Diseñar para que el servicio:
46
+
47
+ 1. **Falle visible** en lugar de colgarse en silencio.
48
+ 2. **Limite el blast radius** en lugar de propagar la falla.
49
+ 3. **Descarte carga** en lugar de colapsar bajo presión.
50
+ 4. **Preserve servicios core** cuando hay degradación.
51
+ 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
+
53
+ No diseñar solo para el happy path.
54
+
55
+ ## Mindset de estabilidad — 6 axiomas
56
+
57
+ 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
+ 2. Toda cola se puede llenar.
59
+ 3. Todo cache puede fallar o sufrir stampede.
60
+ 4. Todo timeout puede cascadear hacia arriba.
61
+ 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
+ 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
+
64
+ El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
+
66
+ ---
67
+
68
+ ## Timeouts — obligatorios, no opcionales
69
+
70
+ - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
+ un timeout explícito.
72
+ - El timeout va en el código, NO se hereda del default de la librería.
73
+ Los defaults suelen ser infinitos o demasiado largos.
74
+ - Distintas dependencias pueden tener distintos presupuestos de timeout
75
+ según su SLA conocido. No usar un único valor global.
76
+ - Esperas infinitas están prohibidas. Sin excepción.
77
+
78
+ ```python
79
+ # MAL — sin timeout, defaults dependen de la librería
80
+ async with httpx.AsyncClient() as client:
81
+ r = await client.get(url) # puede colgar indefinidamente
82
+
83
+ # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
+ TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
+ async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
+ r = await client.get(url)
87
+ ```
88
+
89
+ Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
+ `maxTimeMS` en MongoDB), no solo en el connection pool.
91
+
92
+ ---
93
+
94
+ ## Retries — disciplinados o ninguno
95
+
96
+ - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
+ explícitamente diseñadas con idempotency key (POST con header
98
+ `Idempotency-Key: <uuid>`).
99
+ - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
+ - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
+ reintentos sincronizados.
102
+ - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
+ 5xx (excepto 501, 505) y errores de red transitorios.
104
+ - Si el caller también reintenta, los reintentos se multiplican
105
+ exponencialmente — preferir un solo nivel de retry en la cadena.
106
+
107
+ ```python
108
+ import random
109
+ async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
+ """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
+ for intento in range(intentos):
112
+ try:
113
+ return await fn()
114
+ except (httpx.TimeoutException, httpx.NetworkError) as e:
115
+ if intento == intentos - 1:
116
+ raise
117
+ cap = min(max_delay, base_delay * (2 ** intento))
118
+ await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
+ ```
120
+
121
+ ---
122
+
123
+ ## Circuit breakers
124
+
125
+ Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
+ período corto en lugar de seguir intentando y consumir threads/conexiones.
127
+
128
+ Estados:
129
+ - **CLOSED**: peticiones pasan normalmente.
130
+ - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
+ - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
+ pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
+
134
+ Reglas:
135
+ - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
+ 20 llamadas) y tiempo de cooldown (ej: 30s).
137
+ - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
+ que se monitoree.
139
+ - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
+ visible al caller) — nunca colgar.
141
+ - Probar el comportamiento del CB con tests específicos: simular dependencia
142
+ caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
+
144
+ Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
+ `resilience4j` (Java).
146
+
147
+ ---
148
+
149
+ ## Bulkheads — aislamiento de fallos
150
+
151
+ Aislar pools de recursos por dependencia para que una dependencia lenta
152
+ no agote todos los threads/conexiones del servicio:
153
+
154
+ - Pools separados de conexiones HTTP por upstream crítico.
155
+ - Pools separados de threads/workers por tipo de tarea.
156
+ - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
+ fallar rápido en lugar de hacer cola infinita.
158
+
159
+ ```python
160
+ # Cliente HTTP con pool dedicado por upstream (httpx)
161
+ cliente_pagos = httpx.AsyncClient(
162
+ timeout=TIMEOUT_PAGOS,
163
+ limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
+ )
165
+ cliente_inventario = httpx.AsyncClient(
166
+ timeout=TIMEOUT_INVENTARIO,
167
+ limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
+ )
169
+ ```
170
+
171
+ Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
+ dejar al servicio sin capacidad para responder otros endpoints.
173
+
174
+ ---
175
+
176
+ ## Backpressure y descarte de carga
177
+
178
+ Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
+ DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
+
181
+ Patrones:
182
+ - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
+ Devolver `429 Too Many Requests` con header `Retry-After`.
184
+ - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
+ con `503 Service Unavailable`.
186
+ - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
+ primero, preservar servicios core.
188
+ - **Admission control**: rechazar peticiones que probablemente excederán
189
+ el deadline antes de empezar a procesarlas.
190
+
191
+ NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
+ provocar OOM.
193
+
194
+ ---
195
+
196
+ ## Graceful degradation
197
+
198
+ Cuando una dependencia no-crítica falla, el servicio debe seguir
199
+ funcionando con funcionalidad reducida en lugar de devolver error
200
+ completo:
201
+
202
+ - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
+ analytics, notifications son típicamente mejoradoras).
204
+ - Si una dependencia mejoradora falla: registrar la falla, devolver
205
+ resultado degradado (sin recommendations, sin notification enviada
206
+ pero encolada para retry).
207
+ - El cliente debe poder distinguir entre respuesta completa y
208
+ respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
+
210
+ Antipatrón: si el servicio de notifications falla, fallar la operación
211
+ de checkout completa. Eso convierte una dependencia mejoradora en
212
+ crítica.
213
+
214
+ ---
215
+
216
+ ## Blast radius — contención del impacto
217
+
218
+ Diseñar para que una falla aislada NO se propague a todo el sistema:
219
+
220
+ - Particionar usuarios/tenants en shards independientes (un shard caído
221
+ no tira a otros tenants).
222
+ - Separar workloads críticos de no-críticos en infraestructura distinta
223
+ (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
+ - Limitar el alcance de cambios deployable: feature flags por usuario o
225
+ porcentaje, canary deployments, blue-green.
226
+
227
+ Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
+ **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
+
230
+ ---
231
+
232
+ ## Observabilidad obligatoria
233
+
234
+ Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
+ Mínimo requerido:
236
+
237
+ - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
+ (p50/p95/p99).
239
+ - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
+ - **Saturación de pools**: utilización de connection pool, queue depth.
241
+ - **Latencia por dependencia externa**: histograma separado por upstream.
242
+ - **Logs estructurados** con correlation ID que cruce el request completo.
243
+ - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
+ cross-service.
245
+
246
+ Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
+ load shedding descarta) DEBE quedar registrado con suficiente contexto
248
+ para diagnóstico post-mortem.
249
+
250
+ ---
251
+
252
+ ## Anti-patrones
253
+
254
+ - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
+ dependencia justo cuando se está recuperando.
256
+ - **Timeout en el caller pero no en el callee**: el callee sigue
257
+ procesando una petición ya abandonada — desperdicia recursos.
258
+ - **Catch-all `except Exception` con log y continue**: oculta fallas
259
+ reales, hace el servicio "imposible de diagnosticar".
260
+ - **Cola en memoria sin límite**: tarde o temprano OOM.
261
+ - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
+ - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
+ esa dependencia lenta llega, mata todo el servicio.
264
+ - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
+
266
+ ---
267
+
268
+ ## Gotchas / Errores comunes no obvios
269
+
270
+ - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
+ - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
+ - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
+ - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
+ - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
+
276
+ ## Checklist antes de poner un servicio en producción
277
+
278
+ - [ ] Toda llamada externa tiene timeout explícito (no default).
279
+ - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
+ - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
+ - [ ] Pools separados por dependencia (bulkheads).
282
+ - [ ] Rate limiting en endpoints públicos.
283
+ - [ ] Cola interna con límite (rechazar 503 al exceder).
284
+ - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
+ - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
+ - [ ] Logs estructurados con correlation ID.
287
+ - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
+ - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.