@saulwade/swl-ses 1.3.3 → 1.3.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (102) hide show
  1. package/CLAUDE.md +1 -1
  2. package/README.md +1 -1
  3. package/bin/swl-mcp-server.js +187 -187
  4. package/bin/swl-ses.js +4 -62
  5. package/comandos/swl/.evolved.json +22 -22
  6. package/comandos/swl/adoptar-proyecto.md +207 -207
  7. package/comandos/swl/contribuir.md +233 -233
  8. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  9. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  10. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  11. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  12. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  13. package/habilidades/eval-framework/SKILL.md +212 -212
  14. package/habilidades/extractor-de-aprendizajes/SKILL.md +321 -321
  15. package/habilidades/harness-claude-code/SKILL.md +299 -299
  16. package/habilidades/infra-github-actions/SKILL.md +166 -166
  17. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  18. package/habilidades/manejo-errores/.evolved.json +8 -8
  19. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  20. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  21. package/habilidades/patrones-python/SKILL.md +229 -229
  22. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  23. package/habilidades/planear-fase/SKILL.md +319 -319
  24. package/habilidades/release-semver/.evolved.json +8 -8
  25. package/habilidades/swl-claudemd/SKILL.md +220 -220
  26. package/habilidades/testing-python/SKILL.md +340 -340
  27. package/hooks/claudemd-bloat-detector.js +161 -161
  28. package/hooks/extraccion-aprendizajes.js +43 -12
  29. package/hooks/lib/agent-routing.js +107 -107
  30. package/hooks/lib/auto-consolidator.js +335 -335
  31. package/hooks/lib/error-classifier.js +308 -308
  32. package/hooks/lib/merkle-audit.js +96 -96
  33. package/hooks/lib/provenance-tracker.js +191 -191
  34. package/hooks/lib/rate-limit-tracker.js +253 -253
  35. package/hooks/lib/resource-quota.js +122 -122
  36. package/hooks/lib/retry-jitter.js +165 -165
  37. package/hooks/lib/skill-auditor.js +588 -588
  38. package/hooks/lib/sync-status.js +228 -228
  39. package/hooks/lib/taint-tracker.js +107 -107
  40. package/hooks/lib/text-similarity.js +241 -241
  41. package/hooks/lib/toon-compressor.js +245 -245
  42. package/hooks/registro-turnos.js +209 -209
  43. package/hooks/sugerir-regenerar-inventario.js +170 -170
  44. package/hooks/validar-formato-post-subagente.js +140 -140
  45. package/hooks/validar-memoria-hook.js +218 -218
  46. package/instintos/prompt-appendices.yaml +57 -57
  47. package/manifiestos/agent-output-schemas.json +57 -57
  48. package/manifiestos/skills-lock.json +27 -27
  49. package/package.json +1 -1
  50. package/plantillas/auditor-veto-template.md +105 -105
  51. package/plantillas/github-workflows/README.md +47 -47
  52. package/plantillas/github-workflows/release-please.yml +44 -44
  53. package/plantillas/github-workflows/swl-ci.yml +107 -107
  54. package/plantillas/github-workflows/swl-security.yml +51 -51
  55. package/plugin.json +1 -1
  56. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  57. package/reglas/arreglar-al-detectar.md +147 -147
  58. package/reglas/fragmentos-compartidos.md +152 -152
  59. package/reglas/harness-claude-code.md +213 -213
  60. package/reglas/usar-context7.md +226 -226
  61. package/schemas/diary-entry.schema.json +80 -80
  62. package/scripts/benchmark-memoria.js +167 -167
  63. package/scripts/configurar-branch-protection.js +418 -418
  64. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  65. package/scripts/doctor.js +77 -3
  66. package/scripts/field-report.js +199 -199
  67. package/scripts/generar-checklists-consolidados.js +273 -273
  68. package/scripts/generar-inventario.js +420 -420
  69. package/scripts/generar-matriz-lenguajes.js +271 -271
  70. package/scripts/instalador.js +38 -1
  71. package/scripts/lib/artefactos-python.js +43 -43
  72. package/scripts/lib/benchmark-metrics.js +160 -160
  73. package/scripts/lib/budget-enforcer.js +252 -252
  74. package/scripts/lib/configurar-ci.js +380 -380
  75. package/scripts/lib/contadores-inventario.js +217 -217
  76. package/scripts/lib/detectar-stack-detallado.js +307 -307
  77. package/scripts/lib/diary-entry.js +234 -234
  78. package/scripts/lib/eval-metrics-store.js +218 -218
  79. package/scripts/lib/eval-quality.js +171 -171
  80. package/scripts/lib/eval-schemas.js +144 -144
  81. package/scripts/lib/eval-self-correct.js +106 -106
  82. package/scripts/lib/eval-validator.js +185 -185
  83. package/scripts/lib/jaccard-similarity.js +98 -98
  84. package/scripts/lib/longmemeval-runner.js +125 -125
  85. package/scripts/lib/npm-version.js +261 -261
  86. package/scripts/lib/paquetes-conocidos.js +50 -50
  87. package/scripts/lib/parsear-opciones.js +136 -0
  88. package/scripts/lib/prompt-builder.js +264 -264
  89. package/scripts/lib/rrf-fusion.js +175 -175
  90. package/scripts/lib/scoring-instintos.js +277 -277
  91. package/scripts/lib/semantic-search.js +252 -252
  92. package/scripts/lib/transformadores/claude.js +200 -200
  93. package/scripts/limpiar-artefactos-python.js +131 -131
  94. package/scripts/mcp-server/README.md +128 -128
  95. package/scripts/mcp-server/handlers.js +206 -206
  96. package/scripts/migrar-csv-a-array.js +168 -168
  97. package/scripts/migrar-fase-dominio.js +201 -201
  98. package/scripts/publicar.js +511 -511
  99. package/scripts/run-eval.js +141 -141
  100. package/scripts/validar-manifest.js +195 -195
  101. package/scripts/validar-userland-vacio.js +110 -110
  102. package/scripts/verificar-release.js +5 -1
@@ -1,288 +1,288 @@
1
- ---
2
- name: backend-production-resilience
3
- description: >
4
- Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
- obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
- bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
- y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
- que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
- diagnostique un incidente de producción, o cuando se quiera endurecer
10
- endpoints contra sobrecarga, latencia y fallas en cascada.
11
- version: "1.0.0"
12
- evolved: false
13
- herramientasPermitidas: [Read]
14
- exclusiones:
15
- - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
- - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
- - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
- - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
- evolvable: true
20
- ---
21
-
22
- # Backend Production Resilience
23
-
24
- ## Cuándo cargar
25
-
26
- - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
- - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
- - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
- - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
- - Se hace code review de un PR que toca integración con sistemas externos.
31
-
32
- ## Cuándo NO cargar
33
-
34
- - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
- - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
- - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
- - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
-
39
- ## Directiva primaria
40
-
41
- **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
- lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
- Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
-
45
- Diseñar para que el servicio:
46
-
47
- 1. **Falle visible** en lugar de colgarse en silencio.
48
- 2. **Limite el blast radius** en lugar de propagar la falla.
49
- 3. **Descarte carga** en lugar de colapsar bajo presión.
50
- 4. **Preserve servicios core** cuando hay degradación.
51
- 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
-
53
- No diseñar solo para el happy path.
54
-
55
- ## Mindset de estabilidad — 6 axiomas
56
-
57
- 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
- 2. Toda cola se puede llenar.
59
- 3. Todo cache puede fallar o sufrir stampede.
60
- 4. Todo timeout puede cascadear hacia arriba.
61
- 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
- 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
-
64
- El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
-
66
- ---
67
-
68
- ## Timeouts — obligatorios, no opcionales
69
-
70
- - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
- un timeout explícito.
72
- - El timeout va en el código, NO se hereda del default de la librería.
73
- Los defaults suelen ser infinitos o demasiado largos.
74
- - Distintas dependencias pueden tener distintos presupuestos de timeout
75
- según su SLA conocido. No usar un único valor global.
76
- - Esperas infinitas están prohibidas. Sin excepción.
77
-
78
- ```python
79
- # MAL — sin timeout, defaults dependen de la librería
80
- async with httpx.AsyncClient() as client:
81
- r = await client.get(url) # puede colgar indefinidamente
82
-
83
- # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
- TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
- async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
- r = await client.get(url)
87
- ```
88
-
89
- Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
- `maxTimeMS` en MongoDB), no solo en el connection pool.
91
-
92
- ---
93
-
94
- ## Retries — disciplinados o ninguno
95
-
96
- - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
- explícitamente diseñadas con idempotency key (POST con header
98
- `Idempotency-Key: <uuid>`).
99
- - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
- - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
- reintentos sincronizados.
102
- - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
- 5xx (excepto 501, 505) y errores de red transitorios.
104
- - Si el caller también reintenta, los reintentos se multiplican
105
- exponencialmente — preferir un solo nivel de retry en la cadena.
106
-
107
- ```python
108
- import random
109
- async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
- """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
- for intento in range(intentos):
112
- try:
113
- return await fn()
114
- except (httpx.TimeoutException, httpx.NetworkError) as e:
115
- if intento == intentos - 1:
116
- raise
117
- cap = min(max_delay, base_delay * (2 ** intento))
118
- await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
- ```
120
-
121
- ---
122
-
123
- ## Circuit breakers
124
-
125
- Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
- período corto en lugar de seguir intentando y consumir threads/conexiones.
127
-
128
- Estados:
129
- - **CLOSED**: peticiones pasan normalmente.
130
- - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
- - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
- pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
-
134
- Reglas:
135
- - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
- 20 llamadas) y tiempo de cooldown (ej: 30s).
137
- - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
- que se monitoree.
139
- - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
- visible al caller) — nunca colgar.
141
- - Probar el comportamiento del CB con tests específicos: simular dependencia
142
- caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
-
144
- Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
- `resilience4j` (Java).
146
-
147
- ---
148
-
149
- ## Bulkheads — aislamiento de fallos
150
-
151
- Aislar pools de recursos por dependencia para que una dependencia lenta
152
- no agote todos los threads/conexiones del servicio:
153
-
154
- - Pools separados de conexiones HTTP por upstream crítico.
155
- - Pools separados de threads/workers por tipo de tarea.
156
- - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
- fallar rápido en lugar de hacer cola infinita.
158
-
159
- ```python
160
- # Cliente HTTP con pool dedicado por upstream (httpx)
161
- cliente_pagos = httpx.AsyncClient(
162
- timeout=TIMEOUT_PAGOS,
163
- limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
- )
165
- cliente_inventario = httpx.AsyncClient(
166
- timeout=TIMEOUT_INVENTARIO,
167
- limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
- )
169
- ```
170
-
171
- Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
- dejar al servicio sin capacidad para responder otros endpoints.
173
-
174
- ---
175
-
176
- ## Backpressure y descarte de carga
177
-
178
- Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
- DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
-
181
- Patrones:
182
- - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
- Devolver `429 Too Many Requests` con header `Retry-After`.
184
- - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
- con `503 Service Unavailable`.
186
- - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
- primero, preservar servicios core.
188
- - **Admission control**: rechazar peticiones que probablemente excederán
189
- el deadline antes de empezar a procesarlas.
190
-
191
- NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
- provocar OOM.
193
-
194
- ---
195
-
196
- ## Graceful degradation
197
-
198
- Cuando una dependencia no-crítica falla, el servicio debe seguir
199
- funcionando con funcionalidad reducida en lugar de devolver error
200
- completo:
201
-
202
- - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
- analytics, notifications son típicamente mejoradoras).
204
- - Si una dependencia mejoradora falla: registrar la falla, devolver
205
- resultado degradado (sin recommendations, sin notification enviada
206
- pero encolada para retry).
207
- - El cliente debe poder distinguir entre respuesta completa y
208
- respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
-
210
- Antipatrón: si el servicio de notifications falla, fallar la operación
211
- de checkout completa. Eso convierte una dependencia mejoradora en
212
- crítica.
213
-
214
- ---
215
-
216
- ## Blast radius — contención del impacto
217
-
218
- Diseñar para que una falla aislada NO se propague a todo el sistema:
219
-
220
- - Particionar usuarios/tenants en shards independientes (un shard caído
221
- no tira a otros tenants).
222
- - Separar workloads críticos de no-críticos en infraestructura distinta
223
- (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
- - Limitar el alcance de cambios deployable: feature flags por usuario o
225
- porcentaje, canary deployments, blue-green.
226
-
227
- Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
- **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
-
230
- ---
231
-
232
- ## Observabilidad obligatoria
233
-
234
- Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
- Mínimo requerido:
236
-
237
- - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
- (p50/p95/p99).
239
- - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
- - **Saturación de pools**: utilización de connection pool, queue depth.
241
- - **Latencia por dependencia externa**: histograma separado por upstream.
242
- - **Logs estructurados** con correlation ID que cruce el request completo.
243
- - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
- cross-service.
245
-
246
- Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
- load shedding descarta) DEBE quedar registrado con suficiente contexto
248
- para diagnóstico post-mortem.
249
-
250
- ---
251
-
252
- ## Anti-patrones
253
-
254
- - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
- dependencia justo cuando se está recuperando.
256
- - **Timeout en el caller pero no en el callee**: el callee sigue
257
- procesando una petición ya abandonada — desperdicia recursos.
258
- - **Catch-all `except Exception` con log y continue**: oculta fallas
259
- reales, hace el servicio "imposible de diagnosticar".
260
- - **Cola en memoria sin límite**: tarde o temprano OOM.
261
- - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
- - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
- esa dependencia lenta llega, mata todo el servicio.
264
- - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
-
266
- ---
267
-
268
- ## Gotchas / Errores comunes no obvios
269
-
270
- - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
- - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
- - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
- - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
- - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
-
276
- ## Checklist antes de poner un servicio en producción
277
-
278
- - [ ] Toda llamada externa tiene timeout explícito (no default).
279
- - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
- - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
- - [ ] Pools separados por dependencia (bulkheads).
282
- - [ ] Rate limiting en endpoints públicos.
283
- - [ ] Cola interna con límite (rechazar 503 al exceder).
284
- - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
- - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
- - [ ] Logs estructurados con correlation ID.
287
- - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
- - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.
1
+ ---
2
+ name: backend-production-resilience
3
+ description: >
4
+ Patrones de resiliencia para servicios backend en producción. Cubre timeouts
5
+ obligatorios, retries con jitter+backoff e idempotency, circuit breakers,
6
+ bulkheads, backpressure, graceful degradation, blast radius, fault isolation
7
+ y observabilidad operacional. Cargar cuando se diseñe o revise un servicio
8
+ que llame a dependencias externas (BD, APIs, colas, caches), cuando se
9
+ diagnostique un incidente de producción, o cuando se quiera endurecer
10
+ endpoints contra sobrecarga, latencia y fallas en cascada.
11
+ version: "1.0.0"
12
+ evolved: false
13
+ herramientasPermitidas: [Read]
14
+ exclusiones:
15
+ - "No cargar para resiliencia de agentes IA o cadenas de delegación — cargar `seguridad-agentes` o `guardrail-semantico`. Este skill cubre servicios web/API/backend, no orquestación de agentes."
16
+ - "No cargar para definición de SLO/SLI o error budgets — cargar `sre-patrones`. Este skill cubre patrones de implementación; SRE cubre el framework de confiabilidad."
17
+ - "No cargar para configuración de monitoreo (Prometheus, Grafana, alertas) — cargar `monitoring-alertas`. Este skill cubre qué emitir desde el código; monitoreo cubre cómo capturarlo y graficarlo."
18
+ - "No cargar para manejo de errores genérico (jerarquía de excepciones, códigos de dominio) — cargar `manejo-errores`. Este skill asume que ese ya está aplicado y agrega patrones de resiliencia operacional encima."
19
+ evolvable: true
20
+ ---
21
+
22
+ # Backend Production Resilience
23
+
24
+ ## Cuándo cargar
25
+
26
+ - Se diseña o revisa un servicio que llama dependencias externas (BD, APIs HTTP, colas, caches, filesystem remoto).
27
+ - Se diagnostica un incidente de producción: latencia, timeouts en cascada, OOM, retry storms.
28
+ - Se prepara un endpoint público para tráfico real (no solo el happy path).
29
+ - Se va a integrar un nuevo cliente HTTP o driver de BD: aplicar timeouts y circuit breaker desde el inicio.
30
+ - Se hace code review de un PR que toca integración con sistemas externos.
31
+
32
+ ## Cuándo NO cargar
33
+
34
+ - La tarea es definir SLO/SLI o calcular error budgets — usar `sre-patrones`.
35
+ - La tarea es configurar dashboards o alertas en Prometheus/Grafana — usar `monitoring-alertas`.
36
+ - El problema es resiliencia de cadenas de agentes IA o blast radius de delegación — usar `seguridad-agentes`.
37
+ - El servicio aún no maneja errores correctamente — primero cargar `manejo-errores` y aplicar la jerarquía base; este skill asume manejo de errores ya correcto.
38
+
39
+ ## Directiva primaria
40
+
41
+ **La producción es desordenada por defecto.** Toda dependencia externa puede ser
42
+ lenta, no estar disponible o devolver datos incorrectos. Toda cola se llena.
43
+ Todo cache puede fallar o sufrir stampede. Todo timeout puede cascadear.
44
+
45
+ Diseñar para que el servicio:
46
+
47
+ 1. **Falle visible** en lugar de colgarse en silencio.
48
+ 2. **Limite el blast radius** en lugar de propagar la falla.
49
+ 3. **Descarte carga** en lugar de colapsar bajo presión.
50
+ 4. **Preserve servicios core** cuando hay degradación.
51
+ 5. **Permita diagnóstico** desde los logs, métricas y trazas.
52
+
53
+ No diseñar solo para el happy path.
54
+
55
+ ## Mindset de estabilidad — 6 axiomas
56
+
57
+ 1. Toda dependencia puede ser lenta, no responder o estar mal.
58
+ 2. Toda cola se puede llenar.
59
+ 3. Todo cache puede fallar o sufrir stampede.
60
+ 4. Todo timeout puede cascadear hacia arriba.
61
+ 5. Todo caller puede reintentar mal (DDoSearte sin querer).
62
+ 6. Todo estado "temporal degradado" puede convertirse en normal por horas.
63
+
64
+ El código debe asumir estas condiciones por construcción, no tolerarlas por accidente.
65
+
66
+ ---
67
+
68
+ ## Timeouts — obligatorios, no opcionales
69
+
70
+ - Toda llamada de salida (HTTP, DB query, cache get, cola publish) DEBE tener
71
+ un timeout explícito.
72
+ - El timeout va en el código, NO se hereda del default de la librería.
73
+ Los defaults suelen ser infinitos o demasiado largos.
74
+ - Distintas dependencias pueden tener distintos presupuestos de timeout
75
+ según su SLA conocido. No usar un único valor global.
76
+ - Esperas infinitas están prohibidas. Sin excepción.
77
+
78
+ ```python
79
+ # MAL — sin timeout, defaults dependen de la librería
80
+ async with httpx.AsyncClient() as client:
81
+ r = await client.get(url) # puede colgar indefinidamente
82
+
83
+ # BIEN — timeout explícito por nivel (connect, read, write, pool)
84
+ TIMEOUT = httpx.Timeout(connect=2.0, read=5.0, write=2.0, pool=1.0)
85
+ async with httpx.AsyncClient(timeout=TIMEOUT) as client:
86
+ r = await client.get(url)
87
+ ```
88
+
89
+ Para BD: el timeout va en el statement (`statement_timeout` en PostgreSQL,
90
+ `maxTimeMS` en MongoDB), no solo en el connection pool.
91
+
92
+ ---
93
+
94
+ ## Retries — disciplinados o ninguno
95
+
96
+ - Reintenta solo operaciones **idempotentes** (GET, PUT, DELETE) o
97
+ explícitamente diseñadas con idempotency key (POST con header
98
+ `Idempotency-Key: <uuid>`).
99
+ - Acotar el conteo de reintentos Y el tiempo total de reintentos.
100
+ - Aplicar **jitter** y **backoff exponencial** para evitar tormentas de
101
+ reintentos sincronizados.
102
+ - NUNCA reintentes errores 4xx (client error). Reintenta solo 408, 429,
103
+ 5xx (excepto 501, 505) y errores de red transitorios.
104
+ - Si el caller también reintenta, los reintentos se multiplican
105
+ exponencialmente — preferir un solo nivel de retry en la cadena.
106
+
107
+ ```python
108
+ import random
109
+ async def retry_con_jitter(fn, intentos=3, base_delay=0.5, max_delay=8.0):
110
+ """Backoff exponencial completo + jitter aleatorio (AWS Architecture Blog)."""
111
+ for intento in range(intentos):
112
+ try:
113
+ return await fn()
114
+ except (httpx.TimeoutException, httpx.NetworkError) as e:
115
+ if intento == intentos - 1:
116
+ raise
117
+ cap = min(max_delay, base_delay * (2 ** intento))
118
+ await asyncio.sleep(random.uniform(0, cap)) # full jitter
119
+ ```
120
+
121
+ ---
122
+
123
+ ## Circuit breakers
124
+
125
+ Cuando una dependencia está fallando, **dejar de llamarla** durante un
126
+ período corto en lugar de seguir intentando y consumir threads/conexiones.
127
+
128
+ Estados:
129
+ - **CLOSED**: peticiones pasan normalmente.
130
+ - **OPEN**: peticiones fallan inmediatamente (no se llama a la dependencia).
131
+ - **HALF_OPEN**: tras un timeout, se permiten N peticiones de prueba; si
132
+ pasan, vuelve a CLOSED; si fallan, vuelve a OPEN.
133
+
134
+ Reglas:
135
+ - Definir thresholds explícitos: tasa de error (ej: ≥50% de las últimas
136
+ 20 llamadas) y tiempo de cooldown (ej: 30s).
137
+ - El circuit breaker DEBE emitir métricas con el cambio de estado para
138
+ que se monitoree.
139
+ - En estado OPEN, devolver una respuesta degradada (cache, default, error
140
+ visible al caller) — nunca colgar.
141
+ - Probar el comportamiento del CB con tests específicos: simular dependencia
142
+ caída y verificar que el CB abre, sostiene y vuelve a HALF_OPEN.
143
+
144
+ Librerías recomendadas: `pybreaker` (Python), `opossum` (Node.js),
145
+ `resilience4j` (Java).
146
+
147
+ ---
148
+
149
+ ## Bulkheads — aislamiento de fallos
150
+
151
+ Aislar pools de recursos por dependencia para que una dependencia lenta
152
+ no agote todos los threads/conexiones del servicio:
153
+
154
+ - Pools separados de conexiones HTTP por upstream crítico.
155
+ - Pools separados de threads/workers por tipo de tarea.
156
+ - Tamaño máximo del pool acotado: si hay tráfico que excede capacidad,
157
+ fallar rápido en lugar de hacer cola infinita.
158
+
159
+ ```python
160
+ # Cliente HTTP con pool dedicado por upstream (httpx)
161
+ cliente_pagos = httpx.AsyncClient(
162
+ timeout=TIMEOUT_PAGOS,
163
+ limits=httpx.Limits(max_connections=20, max_keepalive_connections=10),
164
+ )
165
+ cliente_inventario = httpx.AsyncClient(
166
+ timeout=TIMEOUT_INVENTARIO,
167
+ limits=httpx.Limits(max_connections=50, max_keepalive_connections=20),
168
+ )
169
+ ```
170
+
171
+ Sin bulkheads, una dependencia lenta puede consumir todos los workers y
172
+ dejar al servicio sin capacidad para responder otros endpoints.
173
+
174
+ ---
175
+
176
+ ## Backpressure y descarte de carga
177
+
178
+ Cuando el servicio recibe más peticiones de las que puede procesar, debe
179
+ DESCARTAR carga rápidamente en lugar de hacer cola y degradar a todos.
180
+
181
+ Patrones:
182
+ - **Rate limiting** por cliente/endpoint (token bucket, sliding window).
183
+ Devolver `429 Too Many Requests` con header `Retry-After`.
184
+ - **Cola acotada**: si la cola interna excede N items, rechazar nuevas
185
+ con `503 Service Unavailable`.
186
+ - **Load shedding**: bajo CPU/memoria altos, rechazar peticiones no-críticas
187
+ primero, preservar servicios core.
188
+ - **Admission control**: rechazar peticiones que probablemente excederán
189
+ el deadline antes de empezar a procesarlas.
190
+
191
+ NO usar colas en memoria ilimitadas — un upstream lento las llena hasta
192
+ provocar OOM.
193
+
194
+ ---
195
+
196
+ ## Graceful degradation
197
+
198
+ Cuando una dependencia no-crítica falla, el servicio debe seguir
199
+ funcionando con funcionalidad reducida en lugar de devolver error
200
+ completo:
201
+
202
+ - Catalogar dependencias en críticas vs. mejoradoras (recommendations,
203
+ analytics, notifications son típicamente mejoradoras).
204
+ - Si una dependencia mejoradora falla: registrar la falla, devolver
205
+ resultado degradado (sin recommendations, sin notification enviada
206
+ pero encolada para retry).
207
+ - El cliente debe poder distinguir entre respuesta completa y
208
+ respuesta degradada (ej: header `X-Service-Degraded: notifications`).
209
+
210
+ Antipatrón: si el servicio de notifications falla, fallar la operación
211
+ de checkout completa. Eso convierte una dependencia mejoradora en
212
+ crítica.
213
+
214
+ ---
215
+
216
+ ## Blast radius — contención del impacto
217
+
218
+ Diseñar para que una falla aislada NO se propague a todo el sistema:
219
+
220
+ - Particionar usuarios/tenants en shards independientes (un shard caído
221
+ no tira a otros tenants).
222
+ - Separar workloads críticos de no-críticos en infraestructura distinta
223
+ (un job de reportes pesado no debe usar el mismo pool que el checkout).
224
+ - Limitar el alcance de cambios deployable: feature flags por usuario o
225
+ porcentaje, canary deployments, blue-green.
226
+
227
+ Pregunta de revisión: si esta dependencia se cae a las 3am del sábado,
228
+ **¿cuántos usuarios se ven afectados y por cuánto tiempo?**
229
+
230
+ ---
231
+
232
+ ## Observabilidad obligatoria
233
+
234
+ Sin observabilidad, los patrones anteriores son invisibles cuando fallan.
235
+ Mínimo requerido:
236
+
237
+ - **Métricas RED por endpoint**: Rate (req/s), Errors (count/rate), Duration
238
+ (p50/p95/p99).
239
+ - **Estado de circuit breakers**: gauge por dependencia (0=closed, 1=open).
240
+ - **Saturación de pools**: utilización de connection pool, queue depth.
241
+ - **Latencia por dependencia externa**: histograma separado por upstream.
242
+ - **Logs estructurados** con correlation ID que cruce el request completo.
243
+ - **Trazas distribuidas** (OpenTelemetry) para diagnosticar latencia
244
+ cross-service.
245
+
246
+ Si un patrón de resiliencia se activa (CB abre, retry consume budget,
247
+ load shedding descarta) DEBE quedar registrado con suficiente contexto
248
+ para diagnóstico post-mortem.
249
+
250
+ ---
251
+
252
+ ## Anti-patrones
253
+
254
+ - **Retry sin jitter**: causa retry storm sincronizado que tira la
255
+ dependencia justo cuando se está recuperando.
256
+ - **Timeout en el caller pero no en el callee**: el callee sigue
257
+ procesando una petición ya abandonada — desperdicia recursos.
258
+ - **Catch-all `except Exception` con log y continue**: oculta fallas
259
+ reales, hace el servicio "imposible de diagnosticar".
260
+ - **Cola en memoria sin límite**: tarde o temprano OOM.
261
+ - **Reintentar 4xx**: errores del cliente no se arreglan reintentando.
262
+ - **Misma dependencia compartiendo pool con todas las demás**: cuando
263
+ esa dependencia lenta llega, mata todo el servicio.
264
+ - **CB sin métricas**: nadie se entera cuando abre, falla en silencio.
265
+
266
+ ---
267
+
268
+ ## Gotchas / Errores comunes no obvios
269
+
270
+ - **`asyncio.wait_for` no cancela la operación interna en algunas librerías**: el timeout dispara pero la operación sigue corriendo en background consumiendo recursos. Causa: la librería interna no propaga `CancelledError`. Solución: verificar que la librería soporta cancelación cooperativa; si no, ejecutar en thread separado con `loop.run_in_executor` y matarlo explícitamente.
271
+ - **Reintento sobre POST sin idempotency key duplica órdenes**: si la red corta antes de recibir la respuesta, el caller no sabe si se procesó. Causa: POST por defecto no es idempotente. Solución: requerir `Idempotency-Key: <uuid>` en POST que muten estado, persistir el key con la respuesta, devolver la misma respuesta si llega una repetición.
272
+ - **Circuit breaker con threshold absoluto en lugar de tasa**: el CB nunca abre porque "10 errores" tarda en alcanzarse en bajo tráfico, pero abre falsamente con "10 errores en 1000 req". Causa: threshold absoluto sin ventana temporal. Solución: usar tasa de error sobre ventana deslizante (ej: 50% de errores en últimas 20 peticiones o últimos 10s).
273
+ - **Backoff exponencial sin cap**: tras varios fallos, el delay crece a 30 minutos y el caller percibe como cuelgue. Causa: olvidar `max_delay`. Solución: siempre acotar con `min(cap, base * 2**n)` (capped exponential backoff).
274
+ - **Bulkhead omitido entre tenants**: un tenant grande consume todo el pool y deja a los demás esperando. Causa: pool global, no por tenant. Solución: pool por tenant o tenant pesos en admission control.
275
+
276
+ ## Checklist antes de poner un servicio en producción
277
+
278
+ - [ ] Toda llamada externa tiene timeout explícito (no default).
279
+ - [ ] Retries acotados, con jitter+backoff, solo en operaciones idempotentes.
280
+ - [ ] Circuit breaker configurado para cada dependencia externa crítica.
281
+ - [ ] Pools separados por dependencia (bulkheads).
282
+ - [ ] Rate limiting en endpoints públicos.
283
+ - [ ] Cola interna con límite (rechazar 503 al exceder).
284
+ - [ ] Catálogo de dependencias críticas vs. mejoradoras documentado.
285
+ - [ ] Métricas RED + estado CB + saturación pools instrumentadas.
286
+ - [ ] Logs estructurados con correlation ID.
287
+ - [ ] Trazas distribuidas configuradas (OpenTelemetry).
288
+ - [ ] Test de chaos: simular latencia/caída de cada dependencia y verificar comportamiento.