@luanpdd/kit-mcp 1.20.0 → 1.22.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/README.md +1 -1
- package/gates/dept-cycle-prevention.md +179 -0
- package/gates/multi-tenant-rls-coverage.md +102 -0
- package/gates/service-role-not-in-user-facing.md +113 -0
- package/kit/README.md +24 -0
- package/kit/agents/audit-log-implementer.md +175 -0
- package/kit/agents/auditor-consistencia-isolamento.md +380 -0
- package/kit/agents/b2b-saas-architect.md +156 -0
- package/kit/agents/crm-pipeline-implementer.md +167 -0
- package/kit/agents/detector-tenant-quente.md +337 -0
- package/kit/agents/evolution-go-integrator.md +179 -0
- package/kit/agents/invite-flow-implementer.md +137 -0
- package/kit/agents/lgpd-compliance-auditor.md +206 -0
- package/kit/agents/multi-tenant-isolation-auditor.md +253 -0
- package/kit/agents/multi-tenant-rls-writer.md +262 -0
- package/kit/agents/org-onboarding-implementer.md +202 -0
- package/kit/agents/supabase-architect.md +10 -0
- package/kit/agents/supabase-migration-writer.md +12 -0
- package/kit/agents/super-admin-implementer.md +182 -0
- package/kit/agents/validador-evolucao-schema.md +335 -0
- package/kit/commands/dados-distribuidos.md +188 -0
- package/kit/commands/multi-tenant.md +163 -0
- package/kit/file-manifest.json +48 -9
- package/kit/skills/_shared-dados-distribuidos/glossary.md +224 -0
- package/kit/skills/_shared-multi-tenant/glossary.md +186 -0
- package/kit/skills/armadilhas-sistemas-distribuidos/SKILL.md +447 -0
- package/kit/skills/audit-log-multi-tenant/SKILL.md +340 -0
- package/kit/skills/b2b-saas-architecture/SKILL.md +300 -0
- package/kit/skills/cascading-failures/SKILL.md +4 -0
- package/kit/skills/consistencia-leitura-replica/SKILL.md +385 -0
- package/kit/skills/crm-lead-pipeline-patterns/SKILL.md +343 -0
- package/kit/skills/escolha-modelo-consistencia/SKILL.md +495 -0
- package/kit/skills/evolucao-schema-compativel/SKILL.md +448 -0
- package/kit/skills/evolution-go-whatsapp-integration/SKILL.md +322 -0
- package/kit/skills/lgpd-multi-tenant-compliance/SKILL.md +340 -0
- package/kit/skills/member-invite-flow/SKILL.md +305 -0
- package/kit/skills/member-management-react-shadcn/SKILL.md +328 -0
- package/kit/skills/multi-tenant-performance-scaling/SKILL.md +316 -0
- package/kit/skills/multi-tenant-rls-hierarchy/SKILL.md +342 -0
- package/kit/skills/org-onboarding-flow/SKILL.md +257 -0
- package/kit/skills/org-switcher-react-pattern/SKILL.md +349 -0
- package/kit/skills/permission-gate-react-pattern/SKILL.md +271 -0
- package/kit/skills/postgres-isolamento-concorrencia/SKILL.md +552 -0
- package/kit/skills/rbac-permissions-matrix-supabase/SKILL.md +301 -0
- package/kit/skills/streams-eventos-cdc/SKILL.md +712 -0
- package/kit/skills/supabase-cron-queues/SKILL.md +9 -0
- package/kit/skills/supabase-migrations/SKILL.md +10 -0
- package/kit/skills/super-admin-platform-pattern/SKILL.md +326 -0
- package/kit/skills/tenant-quente-mitigacao/SKILL.md +605 -0
- package/kit/skills/whatsapp-conversation-state-machine/SKILL.md +287 -0
- package/package.json +1 -1
|
@@ -0,0 +1,186 @@
|
|
|
1
|
+
# Glossário Multi-Tenant SaaS B2B — Termos, Patterns e Convenções
|
|
2
|
+
|
|
3
|
+
> Arquivo de referência compartilhado pelas skills da Suíte Multi-Tenant v1.21. **NÃO é skill** — não tem `description:` triggerável; não aparece em `listKit`. Cross-referenciado pelas 15 skills via Markdown link relativo.
|
|
4
|
+
>
|
|
5
|
+
> **Cross-suite reference ATIVO:** termos Supabase já definidos em [`_shared-supabase/glossary.md`](../_shared-supabase/glossary.md) — esta skill **não duplica**, apenas linka. Termos como `RLS`, `auth.uid()`, `app_metadata`, `service_role`, `pg_cron`, `pgmq`, `STABLE`, `SECURITY INVOKER`, `search_path = ''` são definidos lá.
|
|
6
|
+
|
|
7
|
+
---
|
|
8
|
+
|
|
9
|
+
## (a) Termos PT-BR ↔ EN — Multi-Tenancy Core
|
|
10
|
+
|
|
11
|
+
### Tenancy
|
|
12
|
+
|
|
13
|
+
| EN | PT-BR / Significado |
|
|
14
|
+
|---|---|
|
|
15
|
+
| **tenant** | Inquilino — entidade de top-level que isola dados entre clientes (organização/escritório). Em B2B SaaS = `organizations` row. |
|
|
16
|
+
| **`org_id`** | Coluna canônica em **toda tabela multi-tenant** que identifica a qual `organizations.id` aquela linha pertence. RLS sempre filtra por `org_id`. |
|
|
17
|
+
| **multi-tenant** | App que serve N tenants do mesmo deployment, com isolamento de dados entre eles (tipicamente via RLS). |
|
|
18
|
+
| **single-tenant** | App que serve 1 tenant por deployment (típico enterprise on-prem). |
|
|
19
|
+
| **isolation strategy** | Como tenants são separados — **single schema + `org_id`** (default 90% B2B), schema-per-tenant, ou DB-per-tenant. Ver skill [`b2b-saas-architecture`](../b2b-saas-architecture/SKILL.md). |
|
|
20
|
+
| **cross-tenant query** | Query que toca dados de mais de um tenant — apenas super_admin pode executar. Sempre auditada. |
|
|
21
|
+
| **tenant routing** | Mapeamento URL → tenant. Padrão canônico: `/orgs/[slug]/...`. |
|
|
22
|
+
|
|
23
|
+
### Hierarquia
|
|
24
|
+
|
|
25
|
+
| EN | PT-BR / Significado |
|
|
26
|
+
|---|---|
|
|
27
|
+
| **organization** | Tenant root. Tabela `public.organizations`. Tem `owner_id`, `plan`, `slug` (imutável). |
|
|
28
|
+
| **department** | Sub-divisão opcional de uma org. Tabela `public.departments` com `org_id` FK + `parent_id` para hierarquia (até 5 níveis máx por convenção). |
|
|
29
|
+
| **member** | User pertencente a uma org. Tabela `public.organization_members(org_id, user_id, role_id)`. |
|
|
30
|
+
| **department member** | User pertencente a um dept. Tabela `public.department_members(dept_id, user_id, role_id)`. `role_id` NULL = herda do `organization_members`. |
|
|
31
|
+
| **leader** | Membro de departamento com flag `is_leader = true`. Não é uma role — é capability adicional dentro do dept. |
|
|
32
|
+
|
|
33
|
+
### RBAC
|
|
34
|
+
|
|
35
|
+
| EN | PT-BR / Significado |
|
|
36
|
+
|---|---|
|
|
37
|
+
| **RBAC** | Role-Based Access Control — autorização por role (não por user direto). Cada user tem 1 role por org. |
|
|
38
|
+
| **role** | Função/cargo dentro de uma org. Tabela `public.roles(org_id, name)`. 3 built-in (owner/admin/member) + custom permitidos. |
|
|
39
|
+
| **permission** | Capacidade granular — string `<resource>:<action>` (ex: `leads:create`, `members:invite`). Tabela `public.permissions(action, resource)`. |
|
|
40
|
+
| **permission matrix** | Mapeamento N:M de roles ↔ permissions. Tabela `public.role_permissions(role_id, permission_id)`. |
|
|
41
|
+
| **role inheritance** | Department member sem role própria herda role do organization_members. NULL → herda; preenchido → sobrescreve. |
|
|
42
|
+
| **role escalation rule** | Regra canônica: usuário só pode atribuir roles ≤ ao próprio role (admin não cria owner; member não cria admin). |
|
|
43
|
+
|
|
44
|
+
### Super-admin
|
|
45
|
+
|
|
46
|
+
| EN | PT-BR / Significado |
|
|
47
|
+
|---|---|
|
|
48
|
+
| **super_admin** | Usuário com `app_metadata.super_admin = true` (set apenas via service_role). Bypassa todas as RLS via helper function `private.is_super_admin()`. |
|
|
49
|
+
| **impersonation** | Super-admin assume identidade de outro user temporariamente para suporte. **Sempre** com banner visual + reason obrigatório + TTL 30min. |
|
|
50
|
+
| **platform admin** | Sinônimo de super_admin no contexto B2B SaaS. |
|
|
51
|
+
| **cross-tenant view** | Lista todos tenants para super_admin (Settings → All Organizations). Apenas super_admin enxerga. |
|
|
52
|
+
|
|
53
|
+
### Invite Flow
|
|
54
|
+
|
|
55
|
+
| EN | PT-BR / Significado |
|
|
56
|
+
|---|---|
|
|
57
|
+
| **invitation token** | Hash SHA-256 de uma string aleatória de 32 bytes. Armazenado no banco; raw token enviado por email. Single-use, TTL 7 dias. |
|
|
58
|
+
| **invite state machine** | `pending → accepted | rejected | cancelled | expired`. Transições enforced via trigger ou check constraint. |
|
|
59
|
+
| **email-locked invite** | Invite válido apenas se quem clica está logado com email destino. Anti-pattern: link compartilhável (qualquer um aceita). |
|
|
60
|
+
| **first admin** | Usuário criador da org — ganha role `owner` na criação, sem invite. |
|
|
61
|
+
| **bulk invite** | UI permite invite N emails de uma vez. Cada um gera linha em `org_invites` independente. |
|
|
62
|
+
|
|
63
|
+
### Audit Log
|
|
64
|
+
|
|
65
|
+
| EN | PT-BR / Significado |
|
|
66
|
+
|---|---|
|
|
67
|
+
| **audit log** | Tabela `public.audit_logs` append-only registrando eventos críticos com `tenant_id` indexado. |
|
|
68
|
+
| **append-only table** | Tabela onde `DELETE` e `UPDATE` são revogados via `REVOKE DELETE, UPDATE FROM authenticated`. Apenas service_role pode mutar (via partition swap, raramente). |
|
|
69
|
+
| **event taxonomy** | 7 eventos canônicos mínimos: `login`, `member_invited`, `role_changed`, `data_exported`, `member_removed`, `settings_changed`, `super_admin_action`. |
|
|
70
|
+
| **legal hold** | Flag boolean `legal_hold` em row de audit_log que **bloqueia** delete enquanto DSR LGPD está pendente. |
|
|
71
|
+
| **PII sanitization** | Antes de armazenar em audit_log, hash de `actor_email` e `target_phone` (SHA-256). Nunca raw PII em log. |
|
|
72
|
+
|
|
73
|
+
### LGPD
|
|
74
|
+
|
|
75
|
+
| EN | PT-BR / Significado |
|
|
76
|
+
|---|---|
|
|
77
|
+
| **LGPD** | Lei Geral de Proteção de Dados (Brasil) — Lei 13.709/2018. Equivalente brasileiro do GDPR. |
|
|
78
|
+
| **DSR** | Data Subject Request — pedido formal do titular dos dados exercendo direito previsto em Art. 18 LGPD. SLA legal 15 dias (Art. 19). |
|
|
79
|
+
| **9 direitos LGPD Art. 18** | Confirmação · Acesso · Correção · Anonimização/Bloqueio/Eliminação · Portabilidade · Eliminação · Informação sobre compartilhamento · Revogação de consentimento · Revisão de decisão automatizada |
|
|
80
|
+
| **anonymization** | Padrão de erasure: preservar UUID, apagar PII (`name → NULL`, `email → SHA-256 hash`, `phone → NULL`). Permite manter audit trail sem violar LGPD. |
|
|
81
|
+
| **consent grain** | Granularidade do consentimento — separado por finalidade (analytics ≠ marketing ≠ third-party-share). Default opt-out (Art. 8 §5 LGPD). |
|
|
82
|
+
| **adequacy decision** | Decisão da ANPD/comissão equivalente reconhecendo país como destino seguro de transferência internacional. Brasil-UE estabelecida em jan/2026. |
|
|
83
|
+
|
|
84
|
+
### Webhooks (Evolution Go / Meta Cloud)
|
|
85
|
+
|
|
86
|
+
| EN | PT-BR / Significado |
|
|
87
|
+
|---|---|
|
|
88
|
+
| **Evolution Go** | Implementação alternativa do WhatsApp via biblioteca `whatsmeow` (Go) — usa protocolo WhatsApp Web não-oficial. Não é Meta Cloud API. |
|
|
89
|
+
| **Meta Cloud API** | API oficial WhatsApp Business da Meta. Requer Business Account, número aprovado, custo por conversa. |
|
|
90
|
+
| **HMAC-SHA256 signature** | Validação de webhook Meta — header `X-Hub-Signature-256: sha256=<hmac>`. Computar HMAC sobre **raw body antes de JSON.parse**. |
|
|
91
|
+
| **timing-safe comparison** | Comparação de strings em tempo constante (`crypto.timingSafeEqual`) para evitar timing attacks na validação HMAC. |
|
|
92
|
+
| **idempotency key** | `(org_id, message_id)` unique constraint — `ON CONFLICT DO NOTHING` evita duplicatas em retry Meta (entrega at-least-once). |
|
|
93
|
+
| **webhook event types** | 19 tipos documentados Evolution Go: `messages.upsert`, `messages.update`, `groups.upsert`, etc. |
|
|
94
|
+
| **rate limit Meta** | 80 msg/s default. Exceder = erro 131056, escala para 24h ban. |
|
|
95
|
+
| **throttle Evolution Go** | 1 msg/s (manual, biblioteca não enforce). Acima disso = ban Meta de qualquer forma (mesma infra subjacente). |
|
|
96
|
+
| **conversation state machine** | Modelagem de fluxo conversa WhatsApp (lead → qualified → opt-in → conversation → action). Estados persistidos em PG (não em memória). Implementado com `xstate v5`. |
|
|
97
|
+
|
|
98
|
+
### CRM Lead Pipeline
|
|
99
|
+
|
|
100
|
+
| EN | PT-BR / Significado |
|
|
101
|
+
|---|---|
|
|
102
|
+
| **lead** | Contato em estágio inicial do funil de vendas. Tabela `public.leads(org_id, contact_email, contact_phone, stage, owner_id)`. |
|
|
103
|
+
| **stages canônicos** | `lead → qualified → proposal → negotiation → won | lost`. Transições enforced via trigger BEFORE UPDATE (não só CHECK constraint que client pode burlar). |
|
|
104
|
+
| **ownership transfer** | Mudar `owner_id` de um lead. Sempre dispara: notificação ao novo owner + entry em audit_log com `previous_owner_id, new_owner_id, reason`. |
|
|
105
|
+
| **lead dedup** | Unique constraint `(org_id, contact_phone)` + `(org_id, contact_email)`. Lookup obrigatório antes de criar lead via integração WhatsApp. |
|
|
106
|
+
| **scoring** | Pontuação de lead (manual ou auto). Diferenciador (não table stakes). Out-of-scope v1.21. |
|
|
107
|
+
|
|
108
|
+
### React Patterns
|
|
109
|
+
|
|
110
|
+
| EN | PT-BR / Significado |
|
|
111
|
+
|---|---|
|
|
112
|
+
| **org switcher** | Componente UI que troca tenant ativo. Padrão canônico: URL `/orgs/[slug]/...` (Next.js middleware) ou `useParams()` (Vite SPA). |
|
|
113
|
+
| **permission gate** | Componente declarativo `<PermissionGate permission="leads:create">` que esconde UI quando user não tem permission. **Apenas UX** — server-side enforcement obrigatório via RLS. |
|
|
114
|
+
| **CASL** | Biblioteca canônica RBAC para React 2026. `@casl/ability` 6.8 + `@casl/react` 4.x. Isomorfica (frontend + backend). |
|
|
115
|
+
| **JWT stale** | Após mudança de role, JWT do client ainda tem role antiga até refresh (~1h). Mitigação: `supabase.auth.refreshSession()` imediatamente após operação de role change + RLS como enforcement final. |
|
|
116
|
+
| **shadcn/ui** | Component library copy-paste (não NPM package). Componentes para member management: `data-table`, `dialog`, `select`, `badge`, `dropdown-menu`, `avatar`, `command`, `form`, `toast`. |
|
|
117
|
+
|
|
118
|
+
---
|
|
119
|
+
|
|
120
|
+
## (b) Decisões Arquiteturais Vinculantes (cristalizadas em Phase 106)
|
|
121
|
+
|
|
122
|
+
1. **Single Schema + `org_id` + RLS** é estratégia default (90% B2B). Schema-per-tenant é exceção justificada por compliance.
|
|
123
|
+
2. **JWT minimal** — apenas `super_admin: bool` em `app_metadata`. Lista de orgs no JWT é anti-pattern.
|
|
124
|
+
3. **Helper functions PG STABLE** — todas as funções `private.is_member_of`, `private.has_role`, `private.has_permission`, `private.is_super_admin` marcadas `STABLE`. VOLATILE = re-execução por linha.
|
|
125
|
+
4. **7 tabelas core** — `organizations`, `departments`, `roles`, `permissions`, `role_permissions`, `organization_members`, `department_members` (+ auxiliar `organization_slug_history`).
|
|
126
|
+
5. **Slug imutável** com redirect trail via `organization_slug_history`. Mutação direta = bookmarks/webhooks/OAuth quebram.
|
|
127
|
+
6. **Audit log append-only** — REVOKE DELETE, UPDATE para `authenticated`. Apenas service_role pode mutar.
|
|
128
|
+
7. **DSR erasure via anonymization** — preserva UUID, apaga PII. Hard delete destrói audit trail.
|
|
129
|
+
8. **HMAC validation antes de JSON.parse** — sobre raw body. Validar após parse = inválido.
|
|
130
|
+
|
|
131
|
+
---
|
|
132
|
+
|
|
133
|
+
## (c) Convenções de Naming (todas as tabelas multi-tenant)
|
|
134
|
+
|
|
135
|
+
| Padrão | Exemplo |
|
|
136
|
+
|---|---|
|
|
137
|
+
| Tabelas em snake_case plural | `organizations`, `organization_members`, `department_members`, `role_permissions` |
|
|
138
|
+
| Colunas em snake_case singular | `org_id`, `user_id`, `role_id`, `created_at`, `is_leader` |
|
|
139
|
+
| FK naming `<entidade>_id` | `org_id`, `user_id`, `dept_id`, `role_id`, `permission_id` |
|
|
140
|
+
| Boolean prefix `is_` ou `has_` | `is_leader`, `is_super_admin`, `is_built_in`, `has_permission` |
|
|
141
|
+
| Timestamps ISO 8601 | `created_at`, `updated_at`, `joined_at`, `expires_at`, `accepted_at` |
|
|
142
|
+
| Helper functions em schema `private` | `private.is_member_of`, `private.has_role`, `private.has_permission`, `private.is_super_admin` |
|
|
143
|
+
| Audit triggers em schema `private` | `private.track_org_slug_change`, `private.create_audit_partition`, `private.on_org_created` |
|
|
144
|
+
|
|
145
|
+
---
|
|
146
|
+
|
|
147
|
+
## (d) Cross-Refs Externos
|
|
148
|
+
|
|
149
|
+
- [Supabase RLS Best Practices](https://makerkit.dev/blog/tutorials/supabase-rls-best-practices)
|
|
150
|
+
- [Supabase Custom Access Token Hook](https://supabase.com/docs/guides/auth/auth-hooks/custom-access-token-hook)
|
|
151
|
+
- [Supabase Supavisor 1M Connections](https://supabase.com/blog/supavisor-1-million)
|
|
152
|
+
- [Meta Developers — WhatsApp Webhooks](https://developers.facebook.com/docs/whatsapp/cloud-api/guides/set-up-webhooks/)
|
|
153
|
+
- [Meta Developers — Messaging Limits](https://developers.facebook.com/docs/whatsapp/messaging-limits/)
|
|
154
|
+
- [Evolution API Documentation](https://doc.evolution-api.com/v2/en/configuration/webhooks)
|
|
155
|
+
- [LGPD Brazil — Lei 13.709/2018](https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm)
|
|
156
|
+
- [ANPD — International Data Transfers Deadline 2025](https://www.mydata-trust.com/2025/08/19/brazil-data-transfers-deadline/)
|
|
157
|
+
- [CASL Documentation](https://casl.js.org/)
|
|
158
|
+
- [shadcn/ui](https://ui.shadcn.com/)
|
|
159
|
+
|
|
160
|
+
---
|
|
161
|
+
|
|
162
|
+
## (e) Cross-Suite Invocation Pattern (introduzido v1.21)
|
|
163
|
+
|
|
164
|
+
Agents da Suíte Multi-Tenant **não duplicam** lógica Supabase. Padrão canônico de delegação:
|
|
165
|
+
|
|
166
|
+
```
|
|
167
|
+
b2b-saas-architect (v1.21)
|
|
168
|
+
└─→ Task(supabase-architect) # plano de migration + tier/branches
|
|
169
|
+
└─→ Task(supabase-migration-writer) # SQL final
|
|
170
|
+
|
|
171
|
+
multi-tenant-rls-writer (v1.21)
|
|
172
|
+
├─ herda anti-pitfalls supabase-rls-writer (v1.8) via cross-ref Markdown
|
|
173
|
+
└─ adiciona helper functions hierárquicas + super_admin bypass
|
|
174
|
+
|
|
175
|
+
evolution-go-integrator (v1.21)
|
|
176
|
+
└─→ Task(supabase-edge-fn-writer) # Deno code da Edge Function
|
|
177
|
+
|
|
178
|
+
audit-log-implementer (v1.21)
|
|
179
|
+
└─ usa skill supabase-cron-queues (v1.8) para retention scheduling
|
|
180
|
+
|
|
181
|
+
org-onboarding-implementer (v1.21)
|
|
182
|
+
├─→ Task(supabase-migration-writer) # migration de criação de org
|
|
183
|
+
└─→ Task(supabase-edge-fn-writer) # Edge Function setup wizard
|
|
184
|
+
```
|
|
185
|
+
|
|
186
|
+
**Anti-pattern:** agent v1.21 reescrever lógica de RLS do zero (deve herdar e estender). Agent v1.21 escrever Edge Function direto (deve delegar para `supabase-edge-fn-writer`).
|
|
@@ -0,0 +1,447 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: armadilhas-sistemas-distribuidos
|
|
3
|
+
description: Use ao desenhar lógica que depende de relógio (expiração, TTL, ordenação por timestamp) ou distributed lock em Supabase — perigos clock skew (now() vs clock_timestamp() vs transaction_timestamp() semantics), fencing tokens canônicos para distributed locks (pg_advisory_xact_lock + sequence monotônico), GC pause / process pause + impacto split-brain, falhas parciais (timeout-based detection é falaciosa, phi accrual failure detector), modelos sistema (byzantine vs crash-stop vs crash-recovery — Supabase = crash-recovery).
|
|
4
|
+
---
|
|
5
|
+
|
|
6
|
+
# Armadilhas de Sistemas Distribuídos — Clock Skew, Fencing Tokens, GC Pause, Falhas Parciais, Modelos de Sistema
|
|
7
|
+
|
|
8
|
+
## Quando usar
|
|
9
|
+
|
|
10
|
+
LLM carrega esta skill ao desenhar ou revisar código que depende de relógio (expiração, TTL, ordenação por timestamp) ou distributed lock em ambiente Supabase / Edge Function. Trigger phrases:
|
|
11
|
+
|
|
12
|
+
- "TTL expirado", "lease", "deadline", "timeout"
|
|
13
|
+
- "clock skew", "wall clock", "now() vs clock_timestamp()", "timestamp errado"
|
|
14
|
+
- "ordenação por timestamp", "ordering cross-node"
|
|
15
|
+
- "distributed lock", "leader election", "advisory lock", "fencing token"
|
|
16
|
+
- "split brain", "GC pause", "process pause", "stop-the-world"
|
|
17
|
+
- "nó morto vs lento", "detecção de falha", "phi accrual", "heartbeat"
|
|
18
|
+
- "byzantine fault", "crash-recovery model", "crash-stop"
|
|
19
|
+
- "Edge Function não responde", "lock que não libera"
|
|
20
|
+
|
|
21
|
+
Esta skill **estende** [`cascading-failures`](../cascading-failures/SKILL.md) (v1.11) — herda noção de timeout vs falha real e adiciona armadilhas de relógio + fencing tokens + modelos de sistema (cap 8 DDIA).
|
|
22
|
+
|
|
23
|
+
Termos canônicos preservados em EN porque são padrão internacional do livro DDIA Ch 8 + literatura de sistemas distribuídos. Definições PT-BR ↔ EN no glossário [`_shared-dados-distribuidos/glossary.md`](../_shared-dados-distribuidos/glossary.md) seção (e).
|
|
24
|
+
|
|
25
|
+
## Regras absolutas
|
|
26
|
+
|
|
27
|
+
**REGRA #1 (NUNCA wall clock para lógica de expiração):** `clock_timestamp()` retorna real-time wall clock que pode pular (forward ou backward) quando NTP corrige drift. NUNCA usar para expirar TTL, lease, invite token, ordenação cross-transaction. Use `now()` ou `transaction_timestamp()` (alias) — monotônico DENTRO da transação. Para timestamp absoluto persistido, escreva `now()` na transação que cria o token.
|
|
28
|
+
|
|
29
|
+
**REGRA #2 (lock distribuído sem fencing token = split-brain garantido):** Qualquer pattern de "adquire lease 30s + faz trabalho" é vulnerável a GC pause / network partition / VM suspend. Mitigação **obrigatória**: token de fencing monotônico crescente; o storage rejeita writes com `last_token < $token`. Sem fencing, dois processos podem se achar líder simultaneamente e gerar writes conflitantes. Pattern Postgres canônico: `pg_advisory_xact_lock(hashtext('lock_name'))` + `nextval('fencing_tokens_seq')`.
|
|
30
|
+
|
|
31
|
+
**REGRA #3 (timeout fixo para detectar nó morto = false positives):** Timeout binário (responde em N ms = vivo, não responde = morto) confunde lentidão com morte. Em rede sob carga, RTT pode subir 10× sem o nó estar morto. Mitigação: timeout dinâmico baseado em P99 RTT histórico (`>= 3× P99`) + consenso de N-1 nós antes de declarar morto.
|
|
32
|
+
|
|
33
|
+
**REGRA #4 (default Supabase = crash-recovery model):** Em Supabase você assume `crash-recovery` — Edge Functions reiniciam, Postgres faz failover preservando WAL, jobs pgmq são re-entregues após crash. NÃO assuma `crash-stop` (nó nunca volta). NÃO assuma `byzantine` (nó mente) — fora do scope, apenas blockchain/safety-critical.
|
|
34
|
+
|
|
35
|
+
**REGRA #5 (lentidão é a pior falha — pior que down):** Nó completamente down é facilmente detectável (TCP RST imediato, conexão recusada). Nó "limping" (Gigabit interface caiu para 1 kbit/s por driver bug — exemplo DDIA Ch 8 nota [90]) ainda responde mas degrada o sistema inteiro. Mitigação: SLO-based health check (latência P99 > N ms = unhealthy, não apenas "respondeu sim/não").
|
|
36
|
+
|
|
37
|
+
## Patterns canônicos
|
|
38
|
+
|
|
39
|
+
### REQ ARMADILHAS-01 — Clock skew: tabela canônica de timestamps Postgres
|
|
40
|
+
|
|
41
|
+
| Função | Semântica | Quando usar | Quando NÃO |
|
|
42
|
+
|---|---|---|---|
|
|
43
|
+
| `now()` / `transaction_timestamp()` | **Início da transação** — monotônico DENTRO da transação (todas as chamadas dentro da mesma trx retornam o mesmo valor) | Audit log timestamps, default values em colunas `created_at`/`updated_at`, lógica de expiração persistida ("token expira em `now() + interval '7 days'`") | Profiling de performance dentro da trx (não muda) |
|
|
44
|
+
| `statement_timestamp()` | **Início do statement atual** — diferente entre statements da mesma trx | Profiling: `select clock_timestamp() - statement_timestamp() as elapsed` para latência por statement | Lógica de expiração (mesma trx pode ter valores diferentes) |
|
|
45
|
+
| `clock_timestamp()` | **Real-time wall clock** — muda a cada chamada; pode pular forward ou backward se NTP corrige drift | Logs de duração interna (mensurar quanto tempo X levou no MEIO de uma trx) | **NUNCA** lógica de expiração; **NUNCA** ordenação cross-transaction; **NUNCA** TTL de lease |
|
|
46
|
+
| `current_timestamp` (palavra-chave SQL) | Sinônimo de `transaction_timestamp()` — início da transação | Idem `now()` | Idem `now()` |
|
|
47
|
+
|
|
48
|
+
#### Exemplo errado vs certo
|
|
49
|
+
|
|
50
|
+
**Errado:**
|
|
51
|
+
```sql
|
|
52
|
+
-- Token expira 24h após criação — usando wall clock
|
|
53
|
+
insert into public.api_tokens (token, expires_at)
|
|
54
|
+
values ($1, clock_timestamp() + interval '24 hours');
|
|
55
|
+
```
|
|
56
|
+
|
|
57
|
+
Por quê: `clock_timestamp()` é real-time. Se NTP corrige drift backward (raro mas possível), o `expires_at` pode ser MENOR que `now()` da próxima validação — token já nasce expirado.
|
|
58
|
+
|
|
59
|
+
**Certo:**
|
|
60
|
+
```sql
|
|
61
|
+
-- Token expira 24h após criação — usando início da transação
|
|
62
|
+
insert into public.api_tokens (token, expires_at)
|
|
63
|
+
values ($1, now() + interval '24 hours');
|
|
64
|
+
|
|
65
|
+
-- Validação na próxima transação
|
|
66
|
+
select * from public.api_tokens
|
|
67
|
+
where token = $1
|
|
68
|
+
and expires_at > now();
|
|
69
|
+
```
|
|
70
|
+
|
|
71
|
+
#### Profile latência interna sem violar a regra
|
|
72
|
+
|
|
73
|
+
```sql
|
|
74
|
+
-- Profiling DENTRO de uma trx — clock_timestamp OK aqui (não persistido)
|
|
75
|
+
do $$
|
|
76
|
+
declare
|
|
77
|
+
t0 timestamptz := clock_timestamp();
|
|
78
|
+
begin
|
|
79
|
+
perform expensive_function();
|
|
80
|
+
raise notice 'Levou %', clock_timestamp() - t0;
|
|
81
|
+
end $$;
|
|
82
|
+
```
|
|
83
|
+
|
|
84
|
+
---
|
|
85
|
+
|
|
86
|
+
### REQ ARMADILHAS-02 — Fencing tokens canônicos para distributed locks
|
|
87
|
+
|
|
88
|
+
#### Pattern Postgres completo
|
|
89
|
+
|
|
90
|
+
```sql
|
|
91
|
+
-- (a) Sequence monotônica para fencing tokens
|
|
92
|
+
create sequence if not exists fencing_tokens_seq;
|
|
93
|
+
|
|
94
|
+
-- (b) Tabela protegida por fencing
|
|
95
|
+
create table public.locked_resource (
|
|
96
|
+
id uuid primary key,
|
|
97
|
+
last_token bigint not null default 0,
|
|
98
|
+
value text,
|
|
99
|
+
updated_at timestamptz not null default now()
|
|
100
|
+
);
|
|
101
|
+
|
|
102
|
+
-- (c) Acquire lock + obter token (em uma transação)
|
|
103
|
+
begin;
|
|
104
|
+
|
|
105
|
+
-- pg_advisory_xact_lock: lock por nome lógico, libera no commit/rollback
|
|
106
|
+
select pg_advisory_xact_lock(hashtext('resource:42'));
|
|
107
|
+
|
|
108
|
+
-- nextval é safe sob concorrência — sequences são MVCC-exempt
|
|
109
|
+
select nextval('fencing_tokens_seq') as token;
|
|
110
|
+
-- (assume retornou: token = 17)
|
|
111
|
+
|
|
112
|
+
-- Faz o trabalho longo aqui (ex: chamar API externa, computar coisa cara)
|
|
113
|
+
|
|
114
|
+
-- Storage rejeita writes com token < último visto
|
|
115
|
+
update public.locked_resource
|
|
116
|
+
set value = $1,
|
|
117
|
+
last_token = 17,
|
|
118
|
+
updated_at = now()
|
|
119
|
+
where id = $resource_id
|
|
120
|
+
and last_token < 17;
|
|
121
|
+
-- if rowcount = 0: outro processo com token MAIOR já escreveu — abort
|
|
122
|
+
|
|
123
|
+
commit;
|
|
124
|
+
```
|
|
125
|
+
|
|
126
|
+
#### Aplicações canônicas em Supabase
|
|
127
|
+
|
|
128
|
+
| Use case | Lock name | Fencing rationale |
|
|
129
|
+
|---|---|---|
|
|
130
|
+
| Super-admin impersonation com TTL 30min | `super_admin:impersonate:<actor_id>` | Edge Function pode sofrer timeout de 60s; sem fencing, segunda invocação assume sessão vencida e duas escritas concorrentes corrompem audit log. Ver [super-admin-platform-pattern](../super-admin-platform-pattern/SKILL.md) |
|
|
131
|
+
| Job agendado pgmq que processa fila | `pgmq:worker:<queue_name>:<batch_id>` | Worker pode crashar mid-batch; fencing garante que retry não duplica processamento mesmo se o worker original "voltar" zumbi |
|
|
132
|
+
| Eleição de líder simples (substituto leve de ZooKeeper) | `leader:<region>` | Nó "líder" sofre GC pause de 60s; outro nó assume; fencing rejeita writes do nó antigo quando volta. Ver REQ ARMADILHAS-03 abaixo |
|
|
133
|
+
|
|
134
|
+
---
|
|
135
|
+
|
|
136
|
+
### REQ ARMADILHAS-03 — GC pause / process pause: cenário split-brain canônico + mitigação
|
|
137
|
+
|
|
138
|
+
#### Cenário canônico (DDIA Ch 8 p. 287-291)
|
|
139
|
+
|
|
140
|
+
```
|
|
141
|
+
T = 0s Nó A adquire lease 30s no resource R; recebe token = 17
|
|
142
|
+
T = 0s Nó A começa trabalho lento (ex: write em S3 + DB)
|
|
143
|
+
|
|
144
|
+
T = 5s Nó A entra em GC pause (stop-the-world full GC)
|
|
145
|
+
[Nó A está congelado — não envia heartbeat, não responde]
|
|
146
|
+
|
|
147
|
+
T = 30s Lease de A expira no broker
|
|
148
|
+
T = 31s Nó B ganha lease no resource R; recebe token = 18
|
|
149
|
+
T = 35s Nó B faz update em R com value="B", token=18, last_token=18
|
|
150
|
+
|
|
151
|
+
T = 50s Nó A volta do GC pause
|
|
152
|
+
[Nó A AINDA acha que tem o lease — sua memória local diz que sim]
|
|
153
|
+
T = 51s Nó A faz update em R com value="A", token=17
|
|
154
|
+
|
|
155
|
+
Sem fencing: write de A SOBRESCREVE write de B → split brain (corrupção)
|
|
156
|
+
Com fencing: storage rejeita porque last_token=18 > token=17 → consistência preservada
|
|
157
|
+
```
|
|
158
|
+
|
|
159
|
+
#### Implementação Edge Function Deno
|
|
160
|
+
|
|
161
|
+
```typescript
|
|
162
|
+
// Edge Function — write em recurso compartilhado com fencing
|
|
163
|
+
import { Pool } from "npm:pg@8";
|
|
164
|
+
|
|
165
|
+
const pool = new Pool({ connectionString: Deno.env.get("DATABASE_URL")! });
|
|
166
|
+
|
|
167
|
+
async function safeWriteWithFencing(
|
|
168
|
+
resourceId: string,
|
|
169
|
+
newValue: string,
|
|
170
|
+
): Promise<{ ok: boolean; reason?: string }> {
|
|
171
|
+
const client = await pool.connect();
|
|
172
|
+
try {
|
|
173
|
+
await client.query("begin");
|
|
174
|
+
|
|
175
|
+
// Adquire lock por nome lógico (libera no commit/rollback)
|
|
176
|
+
await client.query(
|
|
177
|
+
"select pg_advisory_xact_lock(hashtext($1))",
|
|
178
|
+
[`resource:${resourceId}`],
|
|
179
|
+
);
|
|
180
|
+
|
|
181
|
+
// Obtém fencing token monotônico
|
|
182
|
+
const { rows: [{ token }] } = await client.query<{ token: string }>(
|
|
183
|
+
"select nextval('fencing_tokens_seq') as token",
|
|
184
|
+
);
|
|
185
|
+
|
|
186
|
+
// CHAMA EXTERNAL API LENTA — pode levar 10-60s
|
|
187
|
+
// (Edge Function pode atingir timeout aqui; ou GC pause, ou suspend de VM)
|
|
188
|
+
await callExternalApiSlowly();
|
|
189
|
+
|
|
190
|
+
// Storage rejeita se outro processo já escreveu com token maior
|
|
191
|
+
const { rowCount } = await client.query(
|
|
192
|
+
`update public.locked_resource
|
|
193
|
+
set value = $1, last_token = $2, updated_at = now()
|
|
194
|
+
where id = $3 and last_token < $2`,
|
|
195
|
+
[newValue, token, resourceId],
|
|
196
|
+
);
|
|
197
|
+
|
|
198
|
+
await client.query("commit");
|
|
199
|
+
|
|
200
|
+
if (rowCount === 0) {
|
|
201
|
+
// Outro processo (com token maior) já escreveu durante nossa pause
|
|
202
|
+
return { ok: false, reason: "fenced_out" };
|
|
203
|
+
}
|
|
204
|
+
return { ok: true };
|
|
205
|
+
} catch (err) {
|
|
206
|
+
await client.query("rollback");
|
|
207
|
+
throw err;
|
|
208
|
+
} finally {
|
|
209
|
+
client.release();
|
|
210
|
+
}
|
|
211
|
+
}
|
|
212
|
+
```
|
|
213
|
+
|
|
214
|
+
#### Outros gatilhos de pause além de GC
|
|
215
|
+
|
|
216
|
+
DDIA Ch 8 enumera (p. 290-291):
|
|
217
|
+
|
|
218
|
+
- **Stop-the-world garbage collection** — JVM/V8/etc; pode pausar minutos em heaps grandes
|
|
219
|
+
- **VM suspend** — hipervisor pode suspender VM por migração live (segundos a minutos sem aviso)
|
|
220
|
+
- **Swap pesado para disco** — se host fica sem RAM, processo trava em page faults
|
|
221
|
+
- **`SIGSTOP` / Ctrl-Z em terminal** — operador pausa processo investigando bug
|
|
222
|
+
- **NTP step adjustment** — relógio pode pular forward/backward por minutos (raro mas existe)
|
|
223
|
+
|
|
224
|
+
Em Edge Functions Supabase: timeout do runtime Deno (60s default), VM cold start, suspensão durante deploy = todos gatilhos equivalentes.
|
|
225
|
+
|
|
226
|
+
---
|
|
227
|
+
|
|
228
|
+
### REQ ARMADILHAS-04 — Falhas parciais: detecção por timeout é falaciosa
|
|
229
|
+
|
|
230
|
+
#### Por que timeout binário falha
|
|
231
|
+
|
|
232
|
+
DDIA Ch 8 p. 280-282: "lentidão não é morte". Cenários onde nó está vivo mas parece morto:
|
|
233
|
+
|
|
234
|
+
- Network congestionado: pacotes filados; RTT 100ms → 5s
|
|
235
|
+
- GC pause: nó vivo mas não responde por 30s
|
|
236
|
+
- CPU starvation: nó com 100% load mas processando aos poucos
|
|
237
|
+
- Driver bug "limping" (REGRA #5): responde, só que LENTO
|
|
238
|
+
|
|
239
|
+
E vice-versa — nó morto que parece vivo:
|
|
240
|
+
|
|
241
|
+
- TCP keep-alive ainda válido na conexão até next request
|
|
242
|
+
- Heartbeat enviado segundos antes do crash, ainda dentro da janela
|
|
243
|
+
|
|
244
|
+
#### Phi accrual failure detector (literatura clássica)
|
|
245
|
+
|
|
246
|
+
Algoritmo probabilístico (Cassandra usa em produção): em vez de "vivo/morto" binário, calcula `φ` = probabilidade do nó estar morto baseado em variance histórica de heartbeats.
|
|
247
|
+
|
|
248
|
+
```
|
|
249
|
+
φ alto (e.g. > 8) → quase certeza de morte (assume morto)
|
|
250
|
+
φ médio (3-8) → suspeito, mas espera mais antes de declarar morto
|
|
251
|
+
φ baixo (< 3) → vivo, confiar na resposta
|
|
252
|
+
```
|
|
253
|
+
|
|
254
|
+
Implementação completa de phi accrual em Postgres está fora de escopo (precisa janela móvel de heartbeats por nó, agregação stream); referência se necessário no link DDIA bibliografia.
|
|
255
|
+
|
|
256
|
+
#### Pattern prático para Supabase: timeout dinâmico
|
|
257
|
+
|
|
258
|
+
Substituir timeout fixo "30s = morto" por:
|
|
259
|
+
|
|
260
|
+
```sql
|
|
261
|
+
-- Tabela de heartbeats por instância
|
|
262
|
+
create table public.instance_heartbeats (
|
|
263
|
+
instance_id text primary key,
|
|
264
|
+
last_seen timestamptz not null,
|
|
265
|
+
-- janela móvel de RTT últimos 100 heartbeats
|
|
266
|
+
rtt_p99_ms numeric not null default 1000
|
|
267
|
+
);
|
|
268
|
+
|
|
269
|
+
-- Detecção: nó morto se sem heartbeat por >= 3× P99 RTT histórico
|
|
270
|
+
create or replace view private.suspected_dead_instances as
|
|
271
|
+
select instance_id,
|
|
272
|
+
extract(epoch from (now() - last_seen)) * 1000 as silent_ms,
|
|
273
|
+
rtt_p99_ms,
|
|
274
|
+
case
|
|
275
|
+
when extract(epoch from (now() - last_seen)) * 1000 >= 3 * rtt_p99_ms
|
|
276
|
+
then 'suspected_dead'
|
|
277
|
+
else 'alive'
|
|
278
|
+
end as status
|
|
279
|
+
from public.instance_heartbeats;
|
|
280
|
+
```
|
|
281
|
+
|
|
282
|
+
#### Regra de quem assume nó morto
|
|
283
|
+
|
|
284
|
+
**NÃO** decisão unilateral — regra DDIA p. 296-297: precisa **consenso de N-1 nós** antes de declarar morto e iniciar failover. Em sistema com 3 nós, ≥ 2 precisam concordar. Para apps Supabase com ≤ 3 instâncias, normalmente o broker (pgmq, pg_cron) já faz isso transparentemente — **não tente reimplementar**.
|
|
285
|
+
|
|
286
|
+
---
|
|
287
|
+
|
|
288
|
+
### REQ ARMADILHAS-05 — Modelos de sistema: quando cada um aplica em Supabase
|
|
289
|
+
|
|
290
|
+
| Modelo | Premissa | Realista em Supabase? | Exemplo |
|
|
291
|
+
|---|---|---|---|
|
|
292
|
+
| **Crash-stop** | Nó crashou, **nunca volta** | NÃO — irreal | Apenas para análise teórica de algoritmos |
|
|
293
|
+
| **Crash-recovery** | Nó pode crashar, depois reiniciar com **estado parcial** (estado em memória perdido; estado em disco preservado) | **SIM — modelo Supabase típico** | Edge Function timeout + restart; Postgres failover preservando WAL; pgmq worker crash + retry |
|
|
294
|
+
| **Byzantine** | Nó pode mentir, enviar mensagens corrompidas, agir maliciosamente | NÃO — fora do scope | Apenas blockchain (Bitcoin, Ethereum), aviônica, militar |
|
|
295
|
+
|
|
296
|
+
#### Implicações práticas
|
|
297
|
+
|
|
298
|
+
**Como Supabase = crash-recovery, você DEVE:**
|
|
299
|
+
|
|
300
|
+
1. **Persistir estado crítico em disco antes de "ack"** — Edge Function não pode confirmar processamento até `commit` no DB.
|
|
301
|
+
2. **Tornar operações idempotentes** — qualquer write deve ser safe se executado N vezes (exemplo canônico: `INSERT ... ON CONFLICT DO NOTHING` para webhook de pagamento).
|
|
302
|
+
3. **Usar fencing tokens (REQ ARMADILHAS-02)** quando tem distributed locks — porque "nó voltou achando que ainda é líder" é cenário comum em crash-recovery.
|
|
303
|
+
4. **Nunca confiar em estado em memória sobreviver crash** — caches em memória de Edge Function são perdidos em restart; persista no Postgres ou Redis.
|
|
304
|
+
|
|
305
|
+
**O que NÃO se preocupar (fora do scope):**
|
|
306
|
+
|
|
307
|
+
- Nó Postgres mentindo (corrupção de dados maliciosa) — não é seu modelo. Se preocupação real, use TLS + checksums (Postgres já tem); se preocupação extrema, blockchain.
|
|
308
|
+
- Eleição de líder bizantina (Paxos, Raft com defesa contra mentira) — Supabase usa pg + replicas single-leader, modelo trust-based dentro do tenant.
|
|
309
|
+
|
|
310
|
+
#### Anti-modelo: tratar Supabase como crash-stop
|
|
311
|
+
|
|
312
|
+
```typescript
|
|
313
|
+
// ERRADO — assume que se Edge Function crashar, simplesmente "desaparece"
|
|
314
|
+
async function processPayment(payment: Payment) {
|
|
315
|
+
await chargeStripe(payment); // sem idempotency key
|
|
316
|
+
await db.insert("payments", payment); // sem ON CONFLICT
|
|
317
|
+
// Se crashar entre chargeStripe e insert: cobrança feita mas não registrada
|
|
318
|
+
// Retry vai cobrar de novo (Stripe sem idempotency key cobra 2×)
|
|
319
|
+
}
|
|
320
|
+
```
|
|
321
|
+
|
|
322
|
+
```typescript
|
|
323
|
+
// CERTO — assume crash-recovery; idempotente em todas as etapas
|
|
324
|
+
async function processPayment(payment: Payment) {
|
|
325
|
+
// Stripe idempotency key — Stripe rejeita se key já vista
|
|
326
|
+
await chargeStripe(payment, { idempotencyKey: payment.id });
|
|
327
|
+
|
|
328
|
+
// INSERT ... ON CONFLICT — DB rejeita duplicata silenciosamente
|
|
329
|
+
await db.query(
|
|
330
|
+
`insert into public.payments (id, amount, status)
|
|
331
|
+
values ($1, $2, 'charged')
|
|
332
|
+
on conflict (id) do nothing`,
|
|
333
|
+
[payment.id, payment.amount],
|
|
334
|
+
);
|
|
335
|
+
}
|
|
336
|
+
```
|
|
337
|
+
|
|
338
|
+
---
|
|
339
|
+
|
|
340
|
+
## Anti-patterns
|
|
341
|
+
|
|
342
|
+
### Anti-pattern 1: `clock_timestamp()` em lógica de expiração
|
|
343
|
+
|
|
344
|
+
**Errado:**
|
|
345
|
+
```sql
|
|
346
|
+
update public.sessions set expires_at = clock_timestamp() + interval '1 hour' where id = $1;
|
|
347
|
+
```
|
|
348
|
+
|
|
349
|
+
**Por quê:** `clock_timestamp()` real-time pode pular para trás se NTP corrige drift. Sessão pode expirar antes do esperado (ou nunca expirar, se relógio voltou). Viola REGRA #1.
|
|
350
|
+
|
|
351
|
+
**Certo:** `now()` (alias `transaction_timestamp()`) — monotônico dentro da trx:
|
|
352
|
+
```sql
|
|
353
|
+
update public.sessions set expires_at = now() + interval '1 hour' where id = $1;
|
|
354
|
+
```
|
|
355
|
+
|
|
356
|
+
### Anti-pattern 2: Distributed lock sem fencing token
|
|
357
|
+
|
|
358
|
+
**Errado:**
|
|
359
|
+
```typescript
|
|
360
|
+
// "Adquire lock 30s, faz trabalho, libera"
|
|
361
|
+
const lockId = await redis.set("resource:42", "locked", { EX: 30, NX: true });
|
|
362
|
+
if (lockId) {
|
|
363
|
+
await doExpensiveWork(); // pode levar 60s; ou GC pause de 45s
|
|
364
|
+
await writeToStorage(value); // sem proteção
|
|
365
|
+
await redis.del("resource:42");
|
|
366
|
+
}
|
|
367
|
+
```
|
|
368
|
+
|
|
369
|
+
**Por quê:** se `doExpensiveWork()` excede 30s (lease expirou) ou processo sofre pause, outro nó assume lock e começa a trabalhar. Quando este volta, `writeToStorage` sobrescreve o write do segundo nó. Split brain — viola REGRA #2.
|
|
370
|
+
|
|
371
|
+
**Certo:** fencing token (REQ ARMADILHAS-02). Cada acquire pega `nextval('fencing_tokens_seq')`; storage compara com `last_token` e rejeita writes antigos.
|
|
372
|
+
|
|
373
|
+
### Anti-pattern 3: Detectar nó morto com timeout fixo
|
|
374
|
+
|
|
375
|
+
**Errado:**
|
|
376
|
+
```python
|
|
377
|
+
# Heartbeat check
|
|
378
|
+
if time_since_last_heartbeat > 30_seconds:
|
|
379
|
+
declare_dead(node)
|
|
380
|
+
failover()
|
|
381
|
+
```
|
|
382
|
+
|
|
383
|
+
**Por quê:** sob carga ou GC pause, nó vivo pode silenciar 30s. Failover desnecessário gera split brain (dois nós ativos). Viola REGRA #3.
|
|
384
|
+
|
|
385
|
+
**Certo:** timeout dinâmico baseado em P99 histórico + consenso (REQ ARMADILHAS-04):
|
|
386
|
+
```python
|
|
387
|
+
threshold = max(3 * historical_p99_rtt_ms, 30_000) # piso de 30s
|
|
388
|
+
if time_since_last_heartbeat > threshold:
|
|
389
|
+
if quorum_agrees(node):
|
|
390
|
+
declare_dead(node)
|
|
391
|
+
```
|
|
392
|
+
|
|
393
|
+
### Anti-pattern 4: Assumir crash-stop em Edge Function
|
|
394
|
+
|
|
395
|
+
**Errado:**
|
|
396
|
+
```typescript
|
|
397
|
+
// Edge Function que envia email e marca como enviado
|
|
398
|
+
async function sendWelcomeEmail(userId: string) {
|
|
399
|
+
await emailService.send(userId);
|
|
400
|
+
await db.query("update users set welcome_sent = true where id = $1", [userId]);
|
|
401
|
+
}
|
|
402
|
+
```
|
|
403
|
+
|
|
404
|
+
**Por quê:** se Edge Function crashar entre `emailService.send` e o `update`, retry vai mandar 2 emails. Crash-recovery é a realidade — viola REGRA #4.
|
|
405
|
+
|
|
406
|
+
**Certo:** mover para "outbox pattern" (write na tabela primeiro, send depois — separado por job idempotente):
|
|
407
|
+
```typescript
|
|
408
|
+
// 1. Idempotent enqueue
|
|
409
|
+
await db.query(
|
|
410
|
+
`insert into public.email_outbox (user_id, kind)
|
|
411
|
+
values ($1, 'welcome') on conflict (user_id, kind) do nothing`,
|
|
412
|
+
[userId],
|
|
413
|
+
);
|
|
414
|
+
// 2. Worker pgmq consome outbox e envia (com idempotency key no provider)
|
|
415
|
+
```
|
|
416
|
+
|
|
417
|
+
### Anti-pattern 5: `clock_timestamp()` para ordenar eventos cross-node
|
|
418
|
+
|
|
419
|
+
**Errado:**
|
|
420
|
+
```sql
|
|
421
|
+
-- Tabela de eventos com ordering por clock_timestamp
|
|
422
|
+
insert into public.events (kind, payload, occurred_at)
|
|
423
|
+
values ('user_action', $1, clock_timestamp());
|
|
424
|
+
|
|
425
|
+
-- Query "ordem global"
|
|
426
|
+
select * from public.events order by occurred_at desc limit 100;
|
|
427
|
+
```
|
|
428
|
+
|
|
429
|
+
**Por quê:** se `events` é populada por múltiplos nós (Edge Functions diferentes), cada um tem `clock_timestamp()` próprio. Skew de 100ms entre nós distorce ordenação. Eventos podem aparecer "fora de ordem causal" — viola REGRA #1.
|
|
430
|
+
|
|
431
|
+
**Certo:** ordenação por `id` monotônico (sequence) ou logical timestamp (Lamport, vector clock — fora de scope desta skill, ver futuras skills consenso v1.23).
|
|
432
|
+
```sql
|
|
433
|
+
-- Sequence monotônica garante ordem global
|
|
434
|
+
alter table public.events add column event_seq bigint default nextval('events_seq');
|
|
435
|
+
select * from public.events order by event_seq desc limit 100;
|
|
436
|
+
```
|
|
437
|
+
|
|
438
|
+
## Ver também
|
|
439
|
+
|
|
440
|
+
- [cascading-failures](../cascading-failures/SKILL.md) — timeout vs falha real (esta skill estende para clock skew + fencing)
|
|
441
|
+
- [super-admin-platform-pattern](../super-admin-platform-pattern/SKILL.md) — TTL impersonation 30min usa fencing token (REQ ARMADILHAS-02 aplicação canônica)
|
|
442
|
+
- [supabase-cron-queues](../supabase-cron-queues/SKILL.md) — pgmq worker é crash-recovery (REGRA #4); idempotency obrigatória
|
|
443
|
+
- [retry-strategies](../retry-strategies/SKILL.md) — retry exige idempotency (cross-ref para Anti-pattern 4)
|
|
444
|
+
- [postgres-isolamento-concorrencia](../postgres-isolamento-concorrencia/SKILL.md) — `pg_advisory_xact_lock` definido lá; aqui usamos para fencing
|
|
445
|
+
- [_shared-dados-distribuidos/glossary.md](../_shared-dados-distribuidos/glossary.md) seção (e) — definições canônicas PT-BR ↔ EN de partial failure, clock skew, fencing token, GC pause, byzantine fault, phi accrual
|
|
446
|
+
- [PostgreSQL Documentation — Date/Time Functions](https://www.postgresql.org/docs/current/functions-datetime.html#FUNCTIONS-DATETIME-CURRENT) — fonte canônica oficial das 4 funções de timestamp
|
|
447
|
+
- DDIA Cap 8 (Kleppmann, O'Reilly 2017) — The Trouble with Distributed Systems — clock skew p. 287-294, fencing tokens p. 304-305, summary p. 302-303
|