@saulwade/swl-ses 1.4.1 → 1.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (114) hide show
  1. package/CLAUDE.md +1 -1
  2. package/README.md +1 -1
  3. package/agentes/nemesis-auditor-swl.md +161 -161
  4. package/bin/swl-mcp-server.js +187 -187
  5. package/comandos/swl/.evolved.json +22 -22
  6. package/comandos/swl/contribuir.md +233 -233
  7. package/comandos/swl/nemesis.md +122 -122
  8. package/gateway/lib/event-channel.js +191 -191
  9. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  10. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  11. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  12. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  13. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  14. package/habilidades/eval-framework/SKILL.md +212 -212
  15. package/habilidades/feynman-auditor-swl/SKILL.md +123 -123
  16. package/habilidades/feynman-auditor-swl/recursos/preguntas-language-agnostic.md +108 -108
  17. package/habilidades/harness-claude-code/SKILL.md +299 -299
  18. package/habilidades/infra-github-actions/SKILL.md +166 -166
  19. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  20. package/habilidades/manejo-errores/.evolved.json +8 -8
  21. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  22. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  23. package/habilidades/patrones-python/SKILL.md +229 -229
  24. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  25. package/habilidades/planear-fase/SKILL.md +319 -319
  26. package/habilidades/release-semver/.evolved.json +8 -8
  27. package/habilidades/state-inconsistency-auditor-swl/SKILL.md +166 -166
  28. package/habilidades/state-inconsistency-auditor-swl/recursos/coupled-state-patterns.md +147 -147
  29. package/habilidades/testing-python/SKILL.md +340 -340
  30. package/habilidades/web-fetcher-routing/SKILL.md +75 -75
  31. package/hooks/claudemd-bloat-detector.js +161 -161
  32. package/hooks/lib/agent-routing.js +107 -107
  33. package/hooks/lib/auto-consolidator.js +335 -335
  34. package/hooks/lib/error-classifier.js +308 -308
  35. package/hooks/lib/merkle-audit.js +96 -96
  36. package/hooks/lib/provenance-tracker.js +191 -191
  37. package/hooks/lib/rate-limit-tracker.js +253 -253
  38. package/hooks/lib/resource-quota.js +122 -122
  39. package/hooks/lib/retry-jitter.js +165 -165
  40. package/hooks/lib/security-net.js +201 -201
  41. package/hooks/lib/skill-auditor.js +588 -588
  42. package/hooks/lib/sync-status.js +228 -228
  43. package/hooks/lib/taint-tracker.js +107 -107
  44. package/hooks/lib/text-similarity.js +241 -241
  45. package/hooks/lib/toon-compressor.js +245 -245
  46. package/hooks/registro-turnos.js +209 -209
  47. package/hooks/sugerir-regenerar-inventario.js +170 -170
  48. package/hooks/validar-formato-post-subagente.js +140 -140
  49. package/hooks/validar-memoria-hook.js +218 -218
  50. package/instintos/prompt-appendices.yaml +57 -57
  51. package/manifiestos/agent-output-schemas.json +57 -57
  52. package/manifiestos/modulos.json +11 -6
  53. package/manifiestos/perfiles.json +2 -1
  54. package/manifiestos/skills-lock.json +1114 -1114
  55. package/package.json +1 -1
  56. package/plantillas/auditor-veto-template.md +105 -105
  57. package/plantillas/github-workflows/README.md +47 -47
  58. package/plantillas/github-workflows/release-please.yml +44 -44
  59. package/plantillas/github-workflows/swl-ci.yml +107 -107
  60. package/plantillas/github-workflows/swl-security.yml +51 -51
  61. package/plugin.json +9 -1
  62. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  63. package/reglas/arreglar-al-detectar.md +147 -147
  64. package/reglas/fragmentos-compartidos.md +152 -152
  65. package/reglas/harness-claude-code.md +213 -213
  66. package/reglas/usar-context7.md +226 -226
  67. package/schemas/diary-entry.schema.json +80 -80
  68. package/scripts/audit-tools/audit-history.js +330 -330
  69. package/scripts/audit-tools/bundle-tracker.js +290 -290
  70. package/scripts/audit-tools/canary-monitor.js +352 -352
  71. package/scripts/audit-tools/code-profiler.js +605 -605
  72. package/scripts/audit-tools/dep-doctor.js +320 -320
  73. package/scripts/audit-tools/env-validator.js +206 -206
  74. package/scripts/audit-tools/lib/fs-walk.js +48 -48
  75. package/scripts/audit-tools/lib/output.js +23 -23
  76. package/scripts/audit-tools/migration-checker.js +392 -392
  77. package/scripts/audit-tools/pentest-scanner.js +1436 -1436
  78. package/scripts/benchmark-memoria.js +167 -167
  79. package/scripts/configurar-branch-protection.js +418 -418
  80. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  81. package/scripts/field-report.js +199 -199
  82. package/scripts/generar-checklists-consolidados.js +273 -273
  83. package/scripts/generar-inventario.js +420 -420
  84. package/scripts/generar-matriz-lenguajes.js +271 -271
  85. package/scripts/lib/artefactos-python.js +43 -43
  86. package/scripts/lib/benchmark-metrics.js +160 -160
  87. package/scripts/lib/budget-enforcer.js +252 -252
  88. package/scripts/lib/configurar-ci.js +380 -380
  89. package/scripts/lib/contadores-inventario.js +217 -217
  90. package/scripts/lib/detectar-stack-detallado.js +307 -307
  91. package/scripts/lib/diary-entry.js +234 -234
  92. package/scripts/lib/eval-metrics-store.js +218 -218
  93. package/scripts/lib/eval-quality.js +171 -171
  94. package/scripts/lib/eval-schemas.js +144 -144
  95. package/scripts/lib/eval-self-correct.js +106 -106
  96. package/scripts/lib/eval-validator.js +185 -185
  97. package/scripts/lib/jaccard-similarity.js +98 -98
  98. package/scripts/lib/longmemeval-runner.js +125 -125
  99. package/scripts/lib/manifiestos.js +42 -1
  100. package/scripts/lib/npm-version.js +261 -261
  101. package/scripts/lib/paquetes-conocidos.js +50 -50
  102. package/scripts/lib/prompt-builder.js +264 -264
  103. package/scripts/lib/rrf-fusion.js +175 -175
  104. package/scripts/lib/scoring-instintos.js +277 -277
  105. package/scripts/lib/semantic-search.js +252 -252
  106. package/scripts/limpiar-artefactos-python.js +131 -131
  107. package/scripts/mcp-server/README.md +128 -128
  108. package/scripts/mcp-server/handlers.js +206 -206
  109. package/scripts/migrar-csv-a-array.js +168 -168
  110. package/scripts/migrar-fase-dominio.js +201 -201
  111. package/scripts/publicar.js +511 -511
  112. package/scripts/run-eval.js +141 -141
  113. package/scripts/validar-manifest.js +231 -195
  114. package/scripts/validar-userland-vacio.js +110 -110
@@ -1,288 +1,288 @@
1
- ---
2
- name: backend-production-resilience
3
- description: >
4
- Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
- obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
- bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
- y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
- que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
- diagnostique un incidente de producción, o cuando se quiera endurecer
10
- endpoints contra sobrecarga, latencia y fallas en cascada.
11
- version: "1.0.0"
12
- evolved: false
13
- herramientasPermitidas: [Read]
14
- exclusiones:
15
- - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
- - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
- - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
- - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
- evolvable: true
20
- ---
21
-
22
- # Backend Production Resilience
23
-
24
- ## Cuándo cargar
25
-
26
- - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
- - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
- - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
- - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
- - Se hace code review de un PR que toca integración con sistemas externos.
31
-
32
- ## Cuándo NO cargar
33
-
34
- - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
- - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
- - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
- - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
-
39
- ## Directiva primaria
40
-
41
- **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
- lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
- Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
-
45
- Diseñar para que el servicio:
46
-
47
- 1. **Falle visible** en lugar de colgarse en silencio.
48
- 2. **Limite el blast radius** en lugar de propagar la falla.
49
- 3. **Descarte carga** en lugar de colapsar bajo presión.
50
- 4. **Preserve servicios core** cuando hay degradación.
51
- 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
-
53
- No diseñar solo para el happy path.
54
-
55
- ## Mindset de estabilidad — 6 axiomas
56
-
57
- 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
- 2. Toda cola se puede llenar.
59
- 3. Todo cache puede fallar o sufrir stampede.
60
- 4. Todo timeout puede cascadear hacia arriba.
61
- 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
- 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
-
64
- El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
-
66
- ---
67
-
68
- ## Timeouts — obligatorios, no opcionales
69
-
70
- - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
- un timeout explícito.
72
- - El timeout va en el código, NO se hereda del default de la librería.
73
- Los defaults suelen ser infinitos o demasiado largos.
74
- - Distintas dependencias pueden tener distintos presupuestos de timeout
75
- según su SLA conocido. No usar un único valor global.
76
- - Esperas infinitas están prohibidas. Sin excepción.
77
-
78
- ```python
79
- # MAL — sin timeout, defaults dependen de la librería
80
- async with httpx.AsyncClient() as client:
81
- r = await client.get(url) # puede colgar indefinidamente
82
-
83
- # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
- TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
- async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
- r = await client.get(url)
87
- ```
88
-
89
- Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
- `maxTimeMS` en MongoDB), no solo en el connection pool.
91
-
92
- ---
93
-
94
- ## Retries — disciplinados o ninguno
95
-
96
- - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
- explícitamente diseñadas con idempotency key (POST con header
98
- `Idempotency-Key: <uuid>`).
99
- - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
- - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
- reintentos sincronizados.
102
- - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
- 5xx (excepto 501, 505) y errores de red transitorios.
104
- - Si el caller también reintenta, los reintentos se multiplican
105
- exponencialmente — preferir un solo nivel de retry en la cadena.
106
-
107
- ```python
108
- import random
109
- async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
- """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
- for intento in range(intentos):
112
- try:
113
- return await fn()
114
- except (httpx.TimeoutException, httpx.NetworkError) as e:
115
- if intento == intentos - 1:
116
- raise
117
- cap = min(max_delay, base_delay * (2 ** intento))
118
- await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
- ```
120
-
121
- ---
122
-
123
- ## Circuit breakers
124
-
125
- Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
- período corto en lugar de seguir intentando y consumir threads/conexiones.
127
-
128
- Estados:
129
- - **CLOSED**: peticiones pasan normalmente.
130
- - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
- - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
- pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
-
134
- Reglas:
135
- - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
- 20 llamadas) y tiempo de cooldown (ej: 30s).
137
- - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
- que se monitoree.
139
- - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
- visible al caller) — nunca colgar.
141
- - Probar el comportamiento del CB con tests específicos: simular dependencia
142
- caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
-
144
- Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
- `resilience4j` (Java).
146
-
147
- ---
148
-
149
- ## Bulkheads — aislamiento de fallos
150
-
151
- Aislar pools de recursos por dependencia para que una dependencia lenta
152
- no agote todos los threads/conexiones del servicio:
153
-
154
- - Pools separados de conexiones HTTP por upstream crítico.
155
- - Pools separados de threads/workers por tipo de tarea.
156
- - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
- fallar rápido en lugar de hacer cola infinita.
158
-
159
- ```python
160
- # Cliente HTTP con pool dedicado por upstream (httpx)
161
- cliente_pagos = httpx.AsyncClient(
162
- timeout=TIMEOUT_PAGOS,
163
- limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
- )
165
- cliente_inventario = httpx.AsyncClient(
166
- timeout=TIMEOUT_INVENTARIO,
167
- limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
- )
169
- ```
170
-
171
- Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
- dejar al servicio sin capacidad para responder otros endpoints.
173
-
174
- ---
175
-
176
- ## Backpressure y descarte de carga
177
-
178
- Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
- DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
-
181
- Patrones:
182
- - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
- Devolver `429 Too Many Requests` con header `Retry-After`.
184
- - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
- con `503 Service Unavailable`.
186
- - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
- primero, preservar servicios core.
188
- - **Admission control**: rechazar peticiones que probablemente excederán
189
- el deadline antes de empezar a procesarlas.
190
-
191
- NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
- provocar OOM.
193
-
194
- ---
195
-
196
- ## Graceful degradation
197
-
198
- Cuando una dependencia no-crítica falla, el servicio debe seguir
199
- funcionando con funcionalidad reducida en lugar de devolver error
200
- completo:
201
-
202
- - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
- analytics, notifications son típicamente mejoradoras).
204
- - Si una dependencia mejoradora falla: registrar la falla, devolver
205
- resultado degradado (sin recommendations, sin notification enviada
206
- pero encolada para retry).
207
- - El cliente debe poder distinguir entre respuesta completa y
208
- respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
-
210
- Antipatrón: si el servicio de notifications falla, fallar la operación
211
- de checkout completa. Eso convierte una dependencia mejoradora en
212
- crítica.
213
-
214
- ---
215
-
216
- ## Blast radius — contención del impacto
217
-
218
- Diseñar para que una falla aislada NO se propague a todo el sistema:
219
-
220
- - Particionar usuarios/tenants en shards independientes (un shard caído
221
- no tira a otros tenants).
222
- - Separar workloads críticos de no-críticos en infraestructura distinta
223
- (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
- - Limitar el alcance de cambios deployable: feature flags por usuario o
225
- porcentaje, canary deployments, blue-green.
226
-
227
- Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
- **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
-
230
- ---
231
-
232
- ## Observabilidad obligatoria
233
-
234
- Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
- Mínimo requerido:
236
-
237
- - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
- (p50/p95/p99).
239
- - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
- - **Saturación de pools**: utilización de connection pool, queue depth.
241
- - **Latencia por dependencia externa**: histograma separado por upstream.
242
- - **Logs estructurados** con correlation ID que cruce el request completo.
243
- - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
- cross-service.
245
-
246
- Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
- load shedding descarta) DEBE quedar registrado con suficiente contexto
248
- para diagnóstico post-mortem.
249
-
250
- ---
251
-
252
- ## Anti-patrones
253
-
254
- - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
- dependencia justo cuando se está recuperando.
256
- - **Timeout en el caller pero no en el callee**: el callee sigue
257
- procesando una petición ya abandonada — desperdicia recursos.
258
- - **Catch-all `except Exception` con log y continue**: oculta fallas
259
- reales, hace el servicio "imposible de diagnosticar".
260
- - **Cola en memoria sin límite**: tarde o temprano OOM.
261
- - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
- - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
- esa dependencia lenta llega, mata todo el servicio.
264
- - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
-
266
- ---
267
-
268
- ## Gotchas / Errores comunes no obvios
269
-
270
- - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
- - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
- - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
- - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
- - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
-
276
- ## Checklist antes de poner un servicio en producción
277
-
278
- - [ ] Toda llamada externa tiene timeout explícito (no default).
279
- - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
- - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
- - [ ] Pools separados por dependencia (bulkheads).
282
- - [ ] Rate limiting en endpoints públicos.
283
- - [ ] Cola interna con límite (rechazar 503 al exceder).
284
- - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
- - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
- - [ ] Logs estructurados con correlation ID.
287
- - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
- - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.
1
+ ---
2
+ name: backend-production-resilience
3
+ description: >
4
+ Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
+ obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
+ bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
+ y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
+ que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
+ diagnostique un incidente de producción, o cuando se quiera endurecer
10
+ endpoints contra sobrecarga, latencia y fallas en cascada.
11
+ version: "1.0.0"
12
+ evolved: false
13
+ herramientasPermitidas: [Read]
14
+ exclusiones:
15
+ - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
+ - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
+ - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
+ - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
+ evolvable: true
20
+ ---
21
+
22
+ # Backend Production Resilience
23
+
24
+ ## Cuándo cargar
25
+
26
+ - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
+ - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
+ - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
+ - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
+ - Se hace code review de un PR que toca integración con sistemas externos.
31
+
32
+ ## Cuándo NO cargar
33
+
34
+ - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
+ - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
+ - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
+ - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
+
39
+ ## Directiva primaria
40
+
41
+ **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
+ lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
+ Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
+
45
+ Diseñar para que el servicio:
46
+
47
+ 1. **Falle visible** en lugar de colgarse en silencio.
48
+ 2. **Limite el blast radius** en lugar de propagar la falla.
49
+ 3. **Descarte carga** en lugar de colapsar bajo presión.
50
+ 4. **Preserve servicios core** cuando hay degradación.
51
+ 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
+
53
+ No diseñar solo para el happy path.
54
+
55
+ ## Mindset de estabilidad — 6 axiomas
56
+
57
+ 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
+ 2. Toda cola se puede llenar.
59
+ 3. Todo cache puede fallar o sufrir stampede.
60
+ 4. Todo timeout puede cascadear hacia arriba.
61
+ 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
+ 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
+
64
+ El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
+
66
+ ---
67
+
68
+ ## Timeouts — obligatorios, no opcionales
69
+
70
+ - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
+ un timeout explícito.
72
+ - El timeout va en el código, NO se hereda del default de la librería.
73
+ Los defaults suelen ser infinitos o demasiado largos.
74
+ - Distintas dependencias pueden tener distintos presupuestos de timeout
75
+ según su SLA conocido. No usar un único valor global.
76
+ - Esperas infinitas están prohibidas. Sin excepción.
77
+
78
+ ```python
79
+ # MAL — sin timeout, defaults dependen de la librería
80
+ async with httpx.AsyncClient() as client:
81
+ r = await client.get(url) # puede colgar indefinidamente
82
+
83
+ # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
+ TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
+ async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
+ r = await client.get(url)
87
+ ```
88
+
89
+ Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
+ `maxTimeMS` en MongoDB), no solo en el connection pool.
91
+
92
+ ---
93
+
94
+ ## Retries — disciplinados o ninguno
95
+
96
+ - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
+ explícitamente diseñadas con idempotency key (POST con header
98
+ `Idempotency-Key: <uuid>`).
99
+ - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
+ - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
+ reintentos sincronizados.
102
+ - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
+ 5xx (excepto 501, 505) y errores de red transitorios.
104
+ - Si el caller también reintenta, los reintentos se multiplican
105
+ exponencialmente — preferir un solo nivel de retry en la cadena.
106
+
107
+ ```python
108
+ import random
109
+ async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
+ """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
+ for intento in range(intentos):
112
+ try:
113
+ return await fn()
114
+ except (httpx.TimeoutException, httpx.NetworkError) as e:
115
+ if intento == intentos - 1:
116
+ raise
117
+ cap = min(max_delay, base_delay * (2 ** intento))
118
+ await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
+ ```
120
+
121
+ ---
122
+
123
+ ## Circuit breakers
124
+
125
+ Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
+ período corto en lugar de seguir intentando y consumir threads/conexiones.
127
+
128
+ Estados:
129
+ - **CLOSED**: peticiones pasan normalmente.
130
+ - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
+ - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
+ pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
+
134
+ Reglas:
135
+ - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
+ 20 llamadas) y tiempo de cooldown (ej: 30s).
137
+ - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
+ que se monitoree.
139
+ - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
+ visible al caller) — nunca colgar.
141
+ - Probar el comportamiento del CB con tests específicos: simular dependencia
142
+ caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
+
144
+ Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
+ `resilience4j` (Java).
146
+
147
+ ---
148
+
149
+ ## Bulkheads — aislamiento de fallos
150
+
151
+ Aislar pools de recursos por dependencia para que una dependencia lenta
152
+ no agote todos los threads/conexiones del servicio:
153
+
154
+ - Pools separados de conexiones HTTP por upstream crítico.
155
+ - Pools separados de threads/workers por tipo de tarea.
156
+ - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
+ fallar rápido en lugar de hacer cola infinita.
158
+
159
+ ```python
160
+ # Cliente HTTP con pool dedicado por upstream (httpx)
161
+ cliente_pagos = httpx.AsyncClient(
162
+ timeout=TIMEOUT_PAGOS,
163
+ limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
+ )
165
+ cliente_inventario = httpx.AsyncClient(
166
+ timeout=TIMEOUT_INVENTARIO,
167
+ limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
+ )
169
+ ```
170
+
171
+ Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
+ dejar al servicio sin capacidad para responder otros endpoints.
173
+
174
+ ---
175
+
176
+ ## Backpressure y descarte de carga
177
+
178
+ Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
+ DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
+
181
+ Patrones:
182
+ - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
+ Devolver `429 Too Many Requests` con header `Retry-After`.
184
+ - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
+ con `503 Service Unavailable`.
186
+ - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
+ primero, preservar servicios core.
188
+ - **Admission control**: rechazar peticiones que probablemente excederán
189
+ el deadline antes de empezar a procesarlas.
190
+
191
+ NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
+ provocar OOM.
193
+
194
+ ---
195
+
196
+ ## Graceful degradation
197
+
198
+ Cuando una dependencia no-crítica falla, el servicio debe seguir
199
+ funcionando con funcionalidad reducida en lugar de devolver error
200
+ completo:
201
+
202
+ - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
+ analytics, notifications son típicamente mejoradoras).
204
+ - Si una dependencia mejoradora falla: registrar la falla, devolver
205
+ resultado degradado (sin recommendations, sin notification enviada
206
+ pero encolada para retry).
207
+ - El cliente debe poder distinguir entre respuesta completa y
208
+ respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
+
210
+ Antipatrón: si el servicio de notifications falla, fallar la operación
211
+ de checkout completa. Eso convierte una dependencia mejoradora en
212
+ crítica.
213
+
214
+ ---
215
+
216
+ ## Blast radius — contención del impacto
217
+
218
+ Diseñar para que una falla aislada NO se propague a todo el sistema:
219
+
220
+ - Particionar usuarios/tenants en shards independientes (un shard caído
221
+ no tira a otros tenants).
222
+ - Separar workloads críticos de no-críticos en infraestructura distinta
223
+ (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
+ - Limitar el alcance de cambios deployable: feature flags por usuario o
225
+ porcentaje, canary deployments, blue-green.
226
+
227
+ Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
+ **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
+
230
+ ---
231
+
232
+ ## Observabilidad obligatoria
233
+
234
+ Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
+ Mínimo requerido:
236
+
237
+ - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
+ (p50/p95/p99).
239
+ - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
+ - **Saturación de pools**: utilización de connection pool, queue depth.
241
+ - **Latencia por dependencia externa**: histograma separado por upstream.
242
+ - **Logs estructurados** con correlation ID que cruce el request completo.
243
+ - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
+ cross-service.
245
+
246
+ Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
+ load shedding descarta) DEBE quedar registrado con suficiente contexto
248
+ para diagnóstico post-mortem.
249
+
250
+ ---
251
+
252
+ ## Anti-patrones
253
+
254
+ - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
+ dependencia justo cuando se está recuperando.
256
+ - **Timeout en el caller pero no en el callee**: el callee sigue
257
+ procesando una petición ya abandonada — desperdicia recursos.
258
+ - **Catch-all `except Exception` con log y continue**: oculta fallas
259
+ reales, hace el servicio "imposible de diagnosticar".
260
+ - **Cola en memoria sin límite**: tarde o temprano OOM.
261
+ - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
+ - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
+ esa dependencia lenta llega, mata todo el servicio.
264
+ - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
+
266
+ ---
267
+
268
+ ## Gotchas / Errores comunes no obvios
269
+
270
+ - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
+ - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
+ - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
+ - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
+ - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
+
276
+ ## Checklist antes de poner un servicio en producción
277
+
278
+ - [ ] Toda llamada externa tiene timeout explícito (no default).
279
+ - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
+ - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
+ - [ ] Pools separados por dependencia (bulkheads).
282
+ - [ ] Rate limiting en endpoints públicos.
283
+ - [ ] Cola interna con límite (rechazar 503 al exceder).
284
+ - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
+ - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
+ - [ ] Logs estructurados con correlation ID.
287
+ - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
+ - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.