@saulwade/swl-ses 1.3.8 → 1.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (148) hide show
  1. package/CLAUDE.md +15 -6
  2. package/README.md +15 -14
  3. package/agentes/nemesis-auditor-swl.md +161 -0
  4. package/bin/swl-mcp-server.js +187 -187
  5. package/bin/swl-webhook-server.js +198 -0
  6. package/comandos/swl/.evolved.json +22 -22
  7. package/comandos/swl/adoptar-proyecto.md +21 -1
  8. package/comandos/swl/claudemd.md +14 -1
  9. package/comandos/swl/contribuir.md +233 -233
  10. package/comandos/swl/exportar-vault.md +108 -0
  11. package/comandos/swl/nemesis.md +122 -0
  12. package/comandos/swl/nuevo-proyecto.md +24 -2
  13. package/comandos/swl/salud.md +34 -0
  14. package/comandos/swl/verificar.md +45 -0
  15. package/gateway/adapters/base.js +109 -0
  16. package/gateway/adapters/discord.js +167 -0
  17. package/gateway/adapters/email.js +221 -0
  18. package/gateway/adapters/slack.js +192 -0
  19. package/gateway/adapters/telegram.js +183 -0
  20. package/gateway/adapters/webhook.js +113 -0
  21. package/gateway/adapters/whatsapp.js +214 -0
  22. package/gateway/agent-executor.js +322 -0
  23. package/gateway/command-relay.js +271 -0
  24. package/gateway/cron/jobs.js +263 -0
  25. package/gateway/cron/scheduler.js +322 -0
  26. package/gateway/cron/store.js +335 -0
  27. package/gateway/index.js +320 -0
  28. package/gateway/lib/event-channel.js +191 -0
  29. package/gateway/session.js +131 -0
  30. package/gateway/webhook-server.js +324 -0
  31. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  32. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  33. package/habilidades/build-errors-nextjs/SKILL.md +55 -1
  34. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  35. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  36. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  37. package/habilidades/eval-framework/SKILL.md +212 -212
  38. package/habilidades/extractor-de-aprendizajes/SKILL.md +20 -10
  39. package/habilidades/feynman-auditor-swl/SKILL.md +123 -0
  40. package/habilidades/feynman-auditor-swl/recursos/preguntas-language-agnostic.md +108 -0
  41. package/habilidades/harness-claude-code/SKILL.md +299 -299
  42. package/habilidades/infra-github-actions/SKILL.md +166 -166
  43. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  44. package/habilidades/manejo-errores/.evolved.json +8 -8
  45. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  46. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  47. package/habilidades/nextjs-testing/SKILL.md +89 -5
  48. package/habilidades/node-experto/SKILL.md +37 -1
  49. package/habilidades/patrones-python/SKILL.md +229 -229
  50. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  51. package/habilidades/planear-fase/SKILL.md +319 -319
  52. package/habilidades/react-experto/SKILL.md +45 -4
  53. package/habilidades/release-semver/.evolved.json +8 -8
  54. package/habilidades/state-inconsistency-auditor-swl/SKILL.md +166 -0
  55. package/habilidades/state-inconsistency-auditor-swl/recursos/coupled-state-patterns.md +147 -0
  56. package/habilidades/tdd-workflow/SKILL.md +36 -4
  57. package/habilidades/testing-python/SKILL.md +340 -340
  58. package/habilidades/web-fetcher-routing/SKILL.md +75 -0
  59. package/hooks/claudemd-bloat-detector.js +161 -161
  60. package/hooks/inyeccion-contexto.js +8 -3
  61. package/hooks/lib/agent-routing.js +107 -107
  62. package/hooks/lib/auto-consolidator.js +335 -335
  63. package/hooks/lib/error-classifier.js +308 -308
  64. package/hooks/lib/merkle-audit.js +96 -96
  65. package/hooks/lib/provenance-tracker.js +191 -191
  66. package/hooks/lib/rate-limit-ip.js +177 -0
  67. package/hooks/lib/rate-limit-tracker.js +253 -253
  68. package/hooks/lib/resource-quota.js +122 -122
  69. package/hooks/lib/retry-jitter.js +165 -165
  70. package/hooks/lib/security-net.js +201 -0
  71. package/hooks/lib/skill-auditor.js +588 -588
  72. package/hooks/lib/sync-status.js +228 -228
  73. package/hooks/lib/taint-tracker.js +107 -107
  74. package/hooks/lib/text-similarity.js +241 -241
  75. package/hooks/lib/toon-compressor.js +245 -245
  76. package/hooks/lib/webhook-dedup.js +184 -0
  77. package/hooks/lib/webhook-verify.js +123 -0
  78. package/hooks/proteccion-rutas.js +120 -15
  79. package/hooks/registro-turnos.js +209 -209
  80. package/hooks/sugerir-regenerar-inventario.js +170 -170
  81. package/hooks/validar-formato-post-subagente.js +140 -140
  82. package/hooks/validar-memoria-hook.js +218 -218
  83. package/instintos/prompt-appendices.yaml +57 -57
  84. package/manifiestos/agent-output-schemas.json +57 -57
  85. package/manifiestos/modulos.json +31 -0
  86. package/manifiestos/skills-lock.json +1114 -1093
  87. package/package.json +6 -4
  88. package/plantillas/auditor-veto-template.md +105 -105
  89. package/plantillas/github-workflows/README.md +47 -47
  90. package/plantillas/github-workflows/release-please.yml +44 -44
  91. package/plantillas/github-workflows/swl-ci.yml +107 -107
  92. package/plantillas/github-workflows/swl-security.yml +51 -51
  93. package/plugin.json +2 -2
  94. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  95. package/reglas/arreglar-al-detectar.md +147 -147
  96. package/reglas/fragmentos-compartidos.md +152 -152
  97. package/reglas/harness-claude-code.md +213 -213
  98. package/reglas/usar-context7.md +226 -226
  99. package/reglas/usar-sistema-swl.md +251 -0
  100. package/schemas/diary-entry.schema.json +80 -80
  101. package/scripts/audit-tools/audit-history.js +330 -0
  102. package/scripts/audit-tools/bundle-tracker.js +290 -0
  103. package/scripts/audit-tools/canary-monitor.js +352 -0
  104. package/scripts/audit-tools/code-profiler.js +605 -0
  105. package/scripts/audit-tools/dep-doctor.js +320 -0
  106. package/scripts/audit-tools/env-validator.js +206 -0
  107. package/scripts/audit-tools/lib/fs-walk.js +48 -0
  108. package/scripts/audit-tools/lib/output.js +23 -0
  109. package/scripts/audit-tools/migration-checker.js +392 -0
  110. package/scripts/audit-tools/pentest-scanner.js +1436 -0
  111. package/scripts/benchmark-memoria.js +167 -167
  112. package/scripts/comandos/skills.js +251 -2
  113. package/scripts/configurar-branch-protection.js +418 -418
  114. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  115. package/scripts/field-report.js +199 -199
  116. package/scripts/generar-checklists-consolidados.js +273 -273
  117. package/scripts/generar-inventario.js +420 -420
  118. package/scripts/generar-matriz-lenguajes.js +271 -271
  119. package/scripts/lib/artefactos-python.js +43 -43
  120. package/scripts/lib/benchmark-metrics.js +160 -160
  121. package/scripts/lib/budget-enforcer.js +252 -252
  122. package/scripts/lib/configurar-ci.js +380 -380
  123. package/scripts/lib/contadores-inventario.js +217 -217
  124. package/scripts/lib/detectar-stack-detallado.js +307 -307
  125. package/scripts/lib/diary-entry.js +234 -234
  126. package/scripts/lib/eval-metrics-store.js +218 -218
  127. package/scripts/lib/eval-quality.js +171 -171
  128. package/scripts/lib/eval-schemas.js +144 -144
  129. package/scripts/lib/eval-self-correct.js +106 -106
  130. package/scripts/lib/eval-validator.js +185 -185
  131. package/scripts/lib/jaccard-similarity.js +98 -98
  132. package/scripts/lib/longmemeval-runner.js +125 -125
  133. package/scripts/lib/npm-version.js +261 -261
  134. package/scripts/lib/paquetes-conocidos.js +50 -50
  135. package/scripts/lib/prompt-builder.js +264 -264
  136. package/scripts/lib/rrf-fusion.js +175 -175
  137. package/scripts/lib/scoring-instintos.js +277 -277
  138. package/scripts/lib/semantic-search.js +252 -252
  139. package/scripts/limpiar-artefactos-python.js +131 -131
  140. package/scripts/mcp-server/README.md +128 -128
  141. package/scripts/mcp-server/handlers.js +206 -206
  142. package/scripts/migrar-csv-a-array.js +168 -168
  143. package/scripts/migrar-fase-dominio.js +201 -201
  144. package/scripts/publicar.js +511 -511
  145. package/scripts/run-eval.js +141 -141
  146. package/scripts/validar-manifest.js +195 -195
  147. package/scripts/validar-userland-vacio.js +110 -110
  148. package/scripts/verificar-release.js +110 -0
@@ -1,288 +1,288 @@
1
- ---
2
- name: backend-production-resilience
3
- description: >
4
- Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
- obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
- bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
- y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
- que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
- diagnostique un incidente de producción, o cuando se quiera endurecer
10
- endpoints contra sobrecarga, latencia y fallas en cascada.
11
- version: "1.0.0"
12
- evolved: false
13
- herramientasPermitidas: [Read]
14
- exclusiones:
15
- - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
- - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
- - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
- - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
- evolvable: true
20
- ---
21
-
22
- # Backend Production Resilience
23
-
24
- ## Cuándo cargar
25
-
26
- - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
- - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
- - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
- - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
- - Se hace code review de un PR que toca integración con sistemas externos.
31
-
32
- ## Cuándo NO cargar
33
-
34
- - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
- - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
- - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
- - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
-
39
- ## Directiva primaria
40
-
41
- **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
- lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
- Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
-
45
- Diseñar para que el servicio:
46
-
47
- 1. **Falle visible** en lugar de colgarse en silencio.
48
- 2. **Limite el blast radius** en lugar de propagar la falla.
49
- 3. **Descarte carga** en lugar de colapsar bajo presión.
50
- 4. **Preserve servicios core** cuando hay degradación.
51
- 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
-
53
- No diseñar solo para el happy path.
54
-
55
- ## Mindset de estabilidad — 6 axiomas
56
-
57
- 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
- 2. Toda cola se puede llenar.
59
- 3. Todo cache puede fallar o sufrir stampede.
60
- 4. Todo timeout puede cascadear hacia arriba.
61
- 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
- 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
-
64
- El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
-
66
- ---
67
-
68
- ## Timeouts — obligatorios, no opcionales
69
-
70
- - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
- un timeout explícito.
72
- - El timeout va en el código, NO se hereda del default de la librería.
73
- Los defaults suelen ser infinitos o demasiado largos.
74
- - Distintas dependencias pueden tener distintos presupuestos de timeout
75
- según su SLA conocido. No usar un único valor global.
76
- - Esperas infinitas están prohibidas. Sin excepción.
77
-
78
- ```python
79
- # MAL — sin timeout, defaults dependen de la librería
80
- async with httpx.AsyncClient() as client:
81
- r = await client.get(url) # puede colgar indefinidamente
82
-
83
- # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
- TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
- async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
- r = await client.get(url)
87
- ```
88
-
89
- Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
- `maxTimeMS` en MongoDB), no solo en el connection pool.
91
-
92
- ---
93
-
94
- ## Retries — disciplinados o ninguno
95
-
96
- - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
- explícitamente diseñadas con idempotency key (POST con header
98
- `Idempotency-Key: <uuid>`).
99
- - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
- - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
- reintentos sincronizados.
102
- - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
- 5xx (excepto 501, 505) y errores de red transitorios.
104
- - Si el caller también reintenta, los reintentos se multiplican
105
- exponencialmente — preferir un solo nivel de retry en la cadena.
106
-
107
- ```python
108
- import random
109
- async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
- """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
- for intento in range(intentos):
112
- try:
113
- return await fn()
114
- except (httpx.TimeoutException, httpx.NetworkError) as e:
115
- if intento == intentos - 1:
116
- raise
117
- cap = min(max_delay, base_delay * (2 ** intento))
118
- await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
- ```
120
-
121
- ---
122
-
123
- ## Circuit breakers
124
-
125
- Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
- período corto en lugar de seguir intentando y consumir threads/conexiones.
127
-
128
- Estados:
129
- - **CLOSED**: peticiones pasan normalmente.
130
- - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
- - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
- pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
-
134
- Reglas:
135
- - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
- 20 llamadas) y tiempo de cooldown (ej: 30s).
137
- - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
- que se monitoree.
139
- - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
- visible al caller) — nunca colgar.
141
- - Probar el comportamiento del CB con tests específicos: simular dependencia
142
- caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
-
144
- Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
- `resilience4j` (Java).
146
-
147
- ---
148
-
149
- ## Bulkheads — aislamiento de fallos
150
-
151
- Aislar pools de recursos por dependencia para que una dependencia lenta
152
- no agote todos los threads/conexiones del servicio:
153
-
154
- - Pools separados de conexiones HTTP por upstream crítico.
155
- - Pools separados de threads/workers por tipo de tarea.
156
- - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
- fallar rápido en lugar de hacer cola infinita.
158
-
159
- ```python
160
- # Cliente HTTP con pool dedicado por upstream (httpx)
161
- cliente_pagos = httpx.AsyncClient(
162
- timeout=TIMEOUT_PAGOS,
163
- limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
- )
165
- cliente_inventario = httpx.AsyncClient(
166
- timeout=TIMEOUT_INVENTARIO,
167
- limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
- )
169
- ```
170
-
171
- Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
- dejar al servicio sin capacidad para responder otros endpoints.
173
-
174
- ---
175
-
176
- ## Backpressure y descarte de carga
177
-
178
- Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
- DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
-
181
- Patrones:
182
- - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
- Devolver `429 Too Many Requests` con header `Retry-After`.
184
- - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
- con `503 Service Unavailable`.
186
- - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
- primero, preservar servicios core.
188
- - **Admission control**: rechazar peticiones que probablemente excederán
189
- el deadline antes de empezar a procesarlas.
190
-
191
- NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
- provocar OOM.
193
-
194
- ---
195
-
196
- ## Graceful degradation
197
-
198
- Cuando una dependencia no-crítica falla, el servicio debe seguir
199
- funcionando con funcionalidad reducida en lugar de devolver error
200
- completo:
201
-
202
- - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
- analytics, notifications son típicamente mejoradoras).
204
- - Si una dependencia mejoradora falla: registrar la falla, devolver
205
- resultado degradado (sin recommendations, sin notification enviada
206
- pero encolada para retry).
207
- - El cliente debe poder distinguir entre respuesta completa y
208
- respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
-
210
- Antipatrón: si el servicio de notifications falla, fallar la operación
211
- de checkout completa. Eso convierte una dependencia mejoradora en
212
- crítica.
213
-
214
- ---
215
-
216
- ## Blast radius — contención del impacto
217
-
218
- Diseñar para que una falla aislada NO se propague a todo el sistema:
219
-
220
- - Particionar usuarios/tenants en shards independientes (un shard caído
221
- no tira a otros tenants).
222
- - Separar workloads críticos de no-críticos en infraestructura distinta
223
- (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
- - Limitar el alcance de cambios deployable: feature flags por usuario o
225
- porcentaje, canary deployments, blue-green.
226
-
227
- Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
- **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
-
230
- ---
231
-
232
- ## Observabilidad obligatoria
233
-
234
- Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
- Mínimo requerido:
236
-
237
- - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
- (p50/p95/p99).
239
- - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
- - **Saturación de pools**: utilización de connection pool, queue depth.
241
- - **Latencia por dependencia externa**: histograma separado por upstream.
242
- - **Logs estructurados** con correlation ID que cruce el request completo.
243
- - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
- cross-service.
245
-
246
- Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
- load shedding descarta) DEBE quedar registrado con suficiente contexto
248
- para diagnóstico post-mortem.
249
-
250
- ---
251
-
252
- ## Anti-patrones
253
-
254
- - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
- dependencia justo cuando se está recuperando.
256
- - **Timeout en el caller pero no en el callee**: el callee sigue
257
- procesando una petición ya abandonada — desperdicia recursos.
258
- - **Catch-all `except Exception` con log y continue**: oculta fallas
259
- reales, hace el servicio "imposible de diagnosticar".
260
- - **Cola en memoria sin límite**: tarde o temprano OOM.
261
- - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
- - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
- esa dependencia lenta llega, mata todo el servicio.
264
- - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
-
266
- ---
267
-
268
- ## Gotchas / Errores comunes no obvios
269
-
270
- - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
- - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
- - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
- - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
- - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
-
276
- ## Checklist antes de poner un servicio en producción
277
-
278
- - [ ] Toda llamada externa tiene timeout explícito (no default).
279
- - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
- - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
- - [ ] Pools separados por dependencia (bulkheads).
282
- - [ ] Rate limiting en endpoints públicos.
283
- - [ ] Cola interna con límite (rechazar 503 al exceder).
284
- - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
- - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
- - [ ] Logs estructurados con correlation ID.
287
- - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
- - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.
1
+ ---
2
+ name: backend-production-resilience
3
+ description: >
4
+ Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
+ obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
+ bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
+ y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
+ que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
+ diagnostique un incidente de producción, o cuando se quiera endurecer
10
+ endpoints contra sobrecarga, latencia y fallas en cascada.
11
+ version: "1.0.0"
12
+ evolved: false
13
+ herramientasPermitidas: [Read]
14
+ exclusiones:
15
+ - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
+ - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
+ - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
+ - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
+ evolvable: true
20
+ ---
21
+
22
+ # Backend Production Resilience
23
+
24
+ ## Cuándo cargar
25
+
26
+ - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
+ - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
+ - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
+ - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
+ - Se hace code review de un PR que toca integración con sistemas externos.
31
+
32
+ ## Cuándo NO cargar
33
+
34
+ - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
+ - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
+ - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
+ - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
+
39
+ ## Directiva primaria
40
+
41
+ **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
+ lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
+ Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
+
45
+ Diseñar para que el servicio:
46
+
47
+ 1. **Falle visible** en lugar de colgarse en silencio.
48
+ 2. **Limite el blast radius** en lugar de propagar la falla.
49
+ 3. **Descarte carga** en lugar de colapsar bajo presión.
50
+ 4. **Preserve servicios core** cuando hay degradación.
51
+ 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
+
53
+ No diseñar solo para el happy path.
54
+
55
+ ## Mindset de estabilidad — 6 axiomas
56
+
57
+ 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
+ 2. Toda cola se puede llenar.
59
+ 3. Todo cache puede fallar o sufrir stampede.
60
+ 4. Todo timeout puede cascadear hacia arriba.
61
+ 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
+ 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
+
64
+ El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
+
66
+ ---
67
+
68
+ ## Timeouts — obligatorios, no opcionales
69
+
70
+ - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
+ un timeout explícito.
72
+ - El timeout va en el código, NO se hereda del default de la librería.
73
+ Los defaults suelen ser infinitos o demasiado largos.
74
+ - Distintas dependencias pueden tener distintos presupuestos de timeout
75
+ según su SLA conocido. No usar un único valor global.
76
+ - Esperas infinitas están prohibidas. Sin excepción.
77
+
78
+ ```python
79
+ # MAL — sin timeout, defaults dependen de la librería
80
+ async with httpx.AsyncClient() as client:
81
+ r = await client.get(url) # puede colgar indefinidamente
82
+
83
+ # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
+ TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
+ async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
+ r = await client.get(url)
87
+ ```
88
+
89
+ Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
+ `maxTimeMS` en MongoDB), no solo en el connection pool.
91
+
92
+ ---
93
+
94
+ ## Retries — disciplinados o ninguno
95
+
96
+ - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
+ explícitamente diseñadas con idempotency key (POST con header
98
+ `Idempotency-Key: <uuid>`).
99
+ - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
+ - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
+ reintentos sincronizados.
102
+ - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
+ 5xx (excepto 501, 505) y errores de red transitorios.
104
+ - Si el caller también reintenta, los reintentos se multiplican
105
+ exponencialmente — preferir un solo nivel de retry en la cadena.
106
+
107
+ ```python
108
+ import random
109
+ async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
+ """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
+ for intento in range(intentos):
112
+ try:
113
+ return await fn()
114
+ except (httpx.TimeoutException, httpx.NetworkError) as e:
115
+ if intento == intentos - 1:
116
+ raise
117
+ cap = min(max_delay, base_delay * (2 ** intento))
118
+ await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
+ ```
120
+
121
+ ---
122
+
123
+ ## Circuit breakers
124
+
125
+ Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
+ período corto en lugar de seguir intentando y consumir threads/conexiones.
127
+
128
+ Estados:
129
+ - **CLOSED**: peticiones pasan normalmente.
130
+ - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
+ - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
+ pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
+
134
+ Reglas:
135
+ - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
+ 20 llamadas) y tiempo de cooldown (ej: 30s).
137
+ - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
+ que se monitoree.
139
+ - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
+ visible al caller) — nunca colgar.
141
+ - Probar el comportamiento del CB con tests específicos: simular dependencia
142
+ caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
+
144
+ Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
+ `resilience4j` (Java).
146
+
147
+ ---
148
+
149
+ ## Bulkheads — aislamiento de fallos
150
+
151
+ Aislar pools de recursos por dependencia para que una dependencia lenta
152
+ no agote todos los threads/conexiones del servicio:
153
+
154
+ - Pools separados de conexiones HTTP por upstream crítico.
155
+ - Pools separados de threads/workers por tipo de tarea.
156
+ - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
+ fallar rápido en lugar de hacer cola infinita.
158
+
159
+ ```python
160
+ # Cliente HTTP con pool dedicado por upstream (httpx)
161
+ cliente_pagos = httpx.AsyncClient(
162
+ timeout=TIMEOUT_PAGOS,
163
+ limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
+ )
165
+ cliente_inventario = httpx.AsyncClient(
166
+ timeout=TIMEOUT_INVENTARIO,
167
+ limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
+ )
169
+ ```
170
+
171
+ Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
+ dejar al servicio sin capacidad para responder otros endpoints.
173
+
174
+ ---
175
+
176
+ ## Backpressure y descarte de carga
177
+
178
+ Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
+ DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
+
181
+ Patrones:
182
+ - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
+ Devolver `429 Too Many Requests` con header `Retry-After`.
184
+ - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
+ con `503 Service Unavailable`.
186
+ - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
+ primero, preservar servicios core.
188
+ - **Admission control**: rechazar peticiones que probablemente excederán
189
+ el deadline antes de empezar a procesarlas.
190
+
191
+ NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
+ provocar OOM.
193
+
194
+ ---
195
+
196
+ ## Graceful degradation
197
+
198
+ Cuando una dependencia no-crítica falla, el servicio debe seguir
199
+ funcionando con funcionalidad reducida en lugar de devolver error
200
+ completo:
201
+
202
+ - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
+ analytics, notifications son típicamente mejoradoras).
204
+ - Si una dependencia mejoradora falla: registrar la falla, devolver
205
+ resultado degradado (sin recommendations, sin notification enviada
206
+ pero encolada para retry).
207
+ - El cliente debe poder distinguir entre respuesta completa y
208
+ respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
+
210
+ Antipatrón: si el servicio de notifications falla, fallar la operación
211
+ de checkout completa. Eso convierte una dependencia mejoradora en
212
+ crítica.
213
+
214
+ ---
215
+
216
+ ## Blast radius — contención del impacto
217
+
218
+ Diseñar para que una falla aislada NO se propague a todo el sistema:
219
+
220
+ - Particionar usuarios/tenants en shards independientes (un shard caído
221
+ no tira a otros tenants).
222
+ - Separar workloads críticos de no-críticos en infraestructura distinta
223
+ (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
+ - Limitar el alcance de cambios deployable: feature flags por usuario o
225
+ porcentaje, canary deployments, blue-green.
226
+
227
+ Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
+ **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
+
230
+ ---
231
+
232
+ ## Observabilidad obligatoria
233
+
234
+ Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
+ Mínimo requerido:
236
+
237
+ - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
+ (p50/p95/p99).
239
+ - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
+ - **Saturación de pools**: utilización de connection pool, queue depth.
241
+ - **Latencia por dependencia externa**: histograma separado por upstream.
242
+ - **Logs estructurados** con correlation ID que cruce el request completo.
243
+ - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
+ cross-service.
245
+
246
+ Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
+ load shedding descarta) DEBE quedar registrado con suficiente contexto
248
+ para diagnóstico post-mortem.
249
+
250
+ ---
251
+
252
+ ## Anti-patrones
253
+
254
+ - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
+ dependencia justo cuando se está recuperando.
256
+ - **Timeout en el caller pero no en el callee**: el callee sigue
257
+ procesando una petición ya abandonada — desperdicia recursos.
258
+ - **Catch-all `except Exception` con log y continue**: oculta fallas
259
+ reales, hace el servicio "imposible de diagnosticar".
260
+ - **Cola en memoria sin límite**: tarde o temprano OOM.
261
+ - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
+ - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
+ esa dependencia lenta llega, mata todo el servicio.
264
+ - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
+
266
+ ---
267
+
268
+ ## Gotchas / Errores comunes no obvios
269
+
270
+ - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
+ - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
+ - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
+ - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
+ - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
+
276
+ ## Checklist antes de poner un servicio en producción
277
+
278
+ - [ ] Toda llamada externa tiene timeout explícito (no default).
279
+ - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
+ - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
+ - [ ] Pools separados por dependencia (bulkheads).
282
+ - [ ] Rate limiting en endpoints públicos.
283
+ - [ ] Cola interna con límite (rechazar 503 al exceder).
284
+ - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
+ - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
+ - [ ] Logs estructurados con correlation ID.
287
+ - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
+ - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.