npm - oxe-cc - Versions diffs - 1.6.0 → 1.8.0 - Mend

oxe-cc 1.6.0 → 1.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (108) hide show

package/CHANGELOG.md +61 -0
package/README.md +36 -34
package/bin/lib/oxe-agent-install.cjs +149 -32
package/bin/lib/oxe-operational.cjs +141 -34
package/bin/lib/oxe-project-health.cjs +150 -42
package/bin/lib/oxe-release.cjs +1 -0
package/bin/oxe-cc.js +205 -113
package/commands/oxe/debug.md +6 -1
package/commands/oxe/discuss.md +7 -2
package/commands/oxe/execute.md +7 -2
package/commands/oxe/plan-agent.md +7 -2
package/commands/oxe/plan.md +7 -2
package/commands/oxe/scan.md +6 -1
package/commands/oxe/spec.md +6 -1
package/commands/oxe/verify.md +6 -1
package/docs/CONTENT-MIGRATION-AUDIT.md +49 -0
package/docs/RUNTIME-SMOKE-MATRIX.md +1 -1
package/lib/runtime/compiler/graph-compiler.js +32 -0
package/lib/runtime/context/context-pack-builder.d.ts +15 -0
package/lib/runtime/context/context-pack-builder.js +78 -0
package/lib/runtime/events/catalog.d.ts +1 -1
package/lib/runtime/events/catalog.js +5 -0
package/lib/runtime/executor/action-tool-map.d.ts +3 -0
package/lib/runtime/executor/action-tool-map.js +41 -0
package/lib/runtime/executor/built-in-tools.d.ts +8 -0
package/lib/runtime/executor/built-in-tools.js +267 -0
package/lib/runtime/executor/index.d.ts +6 -0
package/lib/runtime/executor/index.js +12 -0
package/lib/runtime/executor/llm-task-executor.d.ts +29 -0
package/lib/runtime/executor/llm-task-executor.js +138 -0
package/lib/runtime/executor/node-prompt-builder.d.ts +3 -0
package/lib/runtime/executor/node-prompt-builder.js +36 -0
package/lib/runtime/executor/stream-completion.d.ts +38 -0
package/lib/runtime/executor/stream-completion.js +105 -0
package/lib/runtime/index.d.ts +1 -0
package/lib/runtime/index.js +2 -0
package/lib/runtime/models/failure.d.ts +5 -0
package/lib/runtime/models/failure.js +2 -0
package/lib/runtime/plugins/capability-adapter.d.ts +9 -0
package/lib/runtime/plugins/capability-adapter.js +111 -8
package/lib/runtime/plugins/plugin-abi.d.ts +8 -0
package/lib/runtime/plugins/plugin-registry.d.ts +2 -1
package/lib/runtime/plugins/plugin-registry.js +6 -1
package/lib/runtime/reducers/run-state-reducer.js +39 -2
package/lib/runtime/scheduler/scheduler.d.ts +14 -2
package/lib/runtime/scheduler/scheduler.js +131 -11
package/lib/runtime/verification/verification-manifest.d.ts +5 -2
package/oxe/agents/oxe-assumptions-analyzer.md +136 -0
package/oxe/agents/oxe-codebase-mapper.md +142 -0
package/oxe/agents/oxe-debugger.md +145 -0
package/oxe/agents/oxe-executor.md +139 -0
package/oxe/agents/oxe-integration-checker.md +142 -0
package/oxe/agents/oxe-plan-checker.md +143 -0
package/oxe/agents/oxe-planner.md +151 -0
package/oxe/agents/oxe-research-synthesizer.md +146 -0
package/oxe/agents/oxe-researcher.md +163 -0
package/oxe/agents/oxe-ui-auditor.md +151 -0
package/oxe/agents/oxe-ui-checker.md +157 -0
package/oxe/agents/oxe-ui-researcher.md +179 -0
package/oxe/agents/oxe-validation-auditor.md +154 -0
package/oxe/agents/oxe-verifier.md +132 -0
package/oxe/personas/README.md +91 -39
package/oxe/personas/architect.md +149 -37
package/oxe/personas/db-specialist.md +149 -36
package/oxe/personas/debugger.md +155 -38
package/oxe/personas/executor.md +164 -38
package/oxe/personas/planner.md +165 -36
package/oxe/personas/researcher.md +148 -35
package/oxe/personas/ui-specialist.md +164 -36
package/oxe/personas/verifier.md +174 -39
package/oxe/templates/FIXTURE-PACK.template.json +18 -11
package/oxe/templates/FIXTURE-PACK.template.md +19 -10
package/oxe/templates/IMPLEMENTATION-PACK.template.json +26 -10
package/oxe/templates/IMPLEMENTATION-PACK.template.md +32 -20
package/oxe/templates/PLAN.template.md +62 -31
package/oxe/templates/REFERENCE-ANCHORS.template.md +14 -10
package/oxe/templates/SUMMARY.template.md +50 -20
package/oxe/workflows/debug.md +9 -7
package/oxe/workflows/execute.md +11 -8
package/oxe/workflows/forensics.md +5 -3
package/oxe/workflows/plan.md +277 -0
package/oxe/workflows/scan.md +355 -69
package/oxe/workflows/spec.md +302 -9
package/oxe/workflows/ui-review.md +5 -4
package/oxe/workflows/ui-spec.md +4 -3
package/oxe/workflows/verify.md +8 -5
package/package.json +26 -26
package/packages/runtime/package.json +5 -5
package/packages/runtime/src/compiler/graph-compiler.ts +40 -0
package/packages/runtime/src/context/context-pack-builder.ts +80 -0
package/packages/runtime/src/events/catalog.ts +5 -0
package/packages/runtime/src/executor/action-tool-map.ts +46 -0
package/packages/runtime/src/executor/built-in-tools.ts +276 -0
package/packages/runtime/src/executor/index.ts +6 -0
package/packages/runtime/src/executor/llm-task-executor.ts +194 -0
package/packages/runtime/src/executor/node-prompt-builder.ts +45 -0
package/packages/runtime/src/executor/stream-completion.ts +145 -0
package/packages/runtime/src/index.ts +3 -0
package/packages/runtime/src/models/failure.ts +11 -0
package/packages/runtime/src/plugins/capability-adapter.ts +117 -10
package/packages/runtime/src/plugins/plugin-abi.ts +9 -0
package/packages/runtime/src/plugins/plugin-registry.ts +10 -1
package/packages/runtime/src/reducers/run-state-reducer.ts +59 -2
package/packages/runtime/src/scheduler/scheduler.ts +152 -14
package/packages/runtime/src/verification/verification-manifest.ts +12 -8
package/vscode-extension/oxe-agents-1.7.0.vsix +0 -0
package/vscode-extension/oxe-agents-1.8.0.vsix +0 -0
package/vscode-extension/package.json +2 -2

package/lib/runtime/scheduler/scheduler.d.ts CHANGED Viewed

@@ -8,15 +8,20 @@ import type { PluginRegistry } from '../plugins/plugin-registry';
 import type { AuditTrail } from '../audit/audit-trail';
 import type { RunQuota } from '../audit/audit-trail';
 import type { RunJournal } from './run-journal';
+import type { FailureClass } from '../models/failure';
 export interface TaskResult {
     success: boolean;
-    failure_class: 'env' | 'policy' | 'test' | 'timeout' | null;
+    failure_class: FailureClass;
     evidence: string[];
     output: string;
 }
 export interface TaskExecutor {
     execute(node: GraphNode, lease: WorkspaceLease, runId: string, attemptNumber: number): Promise<TaskResult>;
 }
+export interface SchedulerOptions {
+    maxRunDurationMs?: number;
+    staleProgressMs?: number;
+}
 export interface SchedulerContext {
     projectRoot: string;
     sessionId: string | null;
@@ -30,26 +35,33 @@ export interface SchedulerContext {
     quota?: RunQuota;
     policyActor?: string;
     onEvent?: (event: OxeEvent) => void;
+    options?: SchedulerOptions;
 }
 export interface RunResult {
     run_id: string;
-    status: 'completed' | 'failed' | 'blocked' | 'cancelled' | 'paused';
+    status: 'completed' | 'failed' | 'blocked' | 'cancelled' | 'paused' | 'aborted';
     completed: string[];
     failed: string[];
     blocked: string[];
     pending_gates?: string[];
+    reason?: string;
 }
 export declare class Scheduler {
     private cancelled;
     private paused;
     private journal;
     private ctx;
+    private runStartMs;
+    private lastProgressMs;
+    private recordProgress;
+    private executeRollback;
     run(graph: ExecutionGraph, ctx: SchedulerContext): Promise<RunResult>;
     /**
      * Recover a previously paused run by loading its journal and re-running
      * only the work items that haven't completed yet.
      */
     recover(runId: string, ctx: SchedulerContext, graph: ExecutionGraph): Promise<RunResult | null>;
+    private isConcurrentSafe;
     private runWave;
     private runNode;
     pause(): void;

package/lib/runtime/scheduler/scheduler.js CHANGED Viewed

@@ -1,27 +1,89 @@
 "use strict";
+var __importDefault = (this && this.__importDefault) || function (mod) {
+    return (mod && mod.__esModule) ? mod : { "default": mod };
+};
 Object.defineProperty(exports, "__esModule", { value: true });
 exports.Scheduler = void 0;
+const path_1 = __importDefault(require("path"));
+const fs_1 = __importDefault(require("fs"));
 const bus_1 = require("../events/bus");
 const policy_engine_1 = require("../policy/policy-engine");
 const audit_trail_1 = require("../audit/audit-trail");
 const run_journal_1 = require("./run-journal");
+const decision_memo_1 = require("../decision/decision-memo");
+const capability_adapter_1 = require("../plugins/capability-adapter");
 class Scheduler {
     constructor() {
         this.cancelled = false;
         this.paused = false;
         this.journal = null;
         this.ctx = null;
+        this.runStartMs = 0;
+        this.lastProgressMs = 0;
+    }
+    recordProgress() {
+        this.lastProgressMs = Date.now();
+    }
+    async executeRollback(plan, ctx) {
+        try {
+            switch (plan.strategy) {
+                case 'revert_commit':
+                    await (0, capability_adapter_1.runCapabilityAsync)('git', ['revert', 'HEAD', '--no-edit'], {}, ctx.projectRoot, 30000);
+                    break;
+                case 'restore_workspace':
+                    await (0, capability_adapter_1.runCapabilityAsync)('git', ['checkout', '.'], {}, ctx.projectRoot, 30000);
+                    break;
+                case 'undo_patch':
+                    for (const p of plan.steps) {
+                        await (0, capability_adapter_1.runCapabilityAsync)('git', ['checkout', 'HEAD', '--', p], {}, ctx.projectRoot, 10000);
+                    }
+                    break;
+                case 'no_rollback':
+                default:
+                    break;
+            }
+            this.emit(ctx, { type: 'RollbackExecuted', payload: { strategy: plan.strategy } });
+        }
+        catch (err) {
+            this.emit(ctx, { type: 'RollbackFailed', payload: { strategy: plan.strategy, error: String(err) } });
+        }
     }
     async run(graph, ctx) {
         this.cancelled = false;
         this.paused = false;
         this.ctx = ctx;
+        this.runStartMs = Date.now();
+        this.lastProgressMs = Date.now();
         const status = new Map();
         for (const id of graph.nodes.keys())
             status.set(id, 'pending');
         const completed = [];
         const failed = [];
         const blocked = [];
+        // Plan hash drift detection: abort if the graph was recompiled since ACTIVE-RUN was saved
+        const activeRunPath = ctx.sessionId
+            ? path_1.default.join(ctx.projectRoot, '.oxe', ctx.sessionId, 'execution', 'ACTIVE-RUN.json')
+            : path_1.default.join(ctx.projectRoot, '.oxe', 'ACTIVE-RUN.json');
+        if (fs_1.default.existsSync(activeRunPath)) {
+            try {
+                const activeRun = JSON.parse(fs_1.default.readFileSync(activeRunPath, 'utf8'));
+                const savedHash = activeRun.plan_hash;
+                const currentHash = graph.metadata.plan_hash;
+                if (savedHash && savedHash !== currentHash) {
+                    return {
+                        run_id: ctx.runId,
+                        status: 'aborted',
+                        completed: [],
+                        failed: [],
+                        blocked: [],
+                        reason: `plan_drift: graph recompiled (${savedHash} → ${currentHash}). Run /oxe-plan --replan to realign.`,
+                    };
+                }
+            }
+            catch {
+                // ACTIVE-RUN not parseable — continue without drift check
+            }
+        }
         this.journal = (0, run_journal_1.createJournal)(ctx.runId);
         (0, run_journal_1.saveJournal)(ctx.projectRoot, ctx.runId, this.journal);
         this.emit(ctx, { type: 'RunStarted', payload: { run_id: ctx.runId } });
@@ -29,9 +91,21 @@ class Scheduler {
             runId: ctx.runId,
             detail: { session_id: ctx.sessionId ?? null },
         });
+        const maxRunMs = ctx.options?.maxRunDurationMs ?? 30 * 60000;
+        const staleMs = ctx.options?.staleProgressMs ?? 5 * 60000;
         for (const wave of graph.waves) {
             if (this.cancelled)
                 break;
+            // Global run timeout
+            if (Date.now() - this.runStartMs > maxRunMs) {
+                this.emit(ctx, { type: 'RunAborted', payload: { reason: 'global_timeout' } });
+                return { run_id: ctx.runId, status: 'aborted', completed: [], failed: [], blocked: [], reason: 'global_timeout' };
+            }
+            // Stale progress timeout (no task completed in staleMs)
+            if (Date.now() - this.lastProgressMs > staleMs) {
+                this.emit(ctx, { type: 'RunAborted', payload: { reason: 'no_progress_timeout' } });
+                return { run_id: ctx.runId, status: 'aborted', completed: [], failed: [], blocked: [], reason: 'no_progress_timeout' };
+            }
             // Respect pause: persist journal and return paused result
             if (this.paused) {
                 this.journal.scheduler_state = 'paused';
@@ -53,8 +127,17 @@ class Scheduler {
             this.journal.failed_work_items = failed.slice();
             this.journal.blocked_work_items = blocked.slice();
             (0, run_journal_1.saveJournal)(ctx.projectRoot, ctx.runId, this.journal);
-            if (waveFailed)
+            if (waveFailed) {
+                // Execute rollback plan if one was created for this run
+                const memos = (0, decision_memo_1.listMemos)(ctx.projectRoot, ctx.runId);
+                for (const memo of memos) {
+                    if (memo.rollback_plan.strategy !== 'no_rollback') {
+                        await this.executeRollback(memo.rollback_plan, ctx);
+                        break; // apply at most one rollback plan per wave failure
+                    }
+                }
                 break;
+            }
         }
         // Any remaining pending nodes become blocked
         for (const [id, s] of status) {
@@ -211,6 +294,16 @@ class Scheduler {
             pending_gates: this.journal.pending_gates.slice(),
         };
     }
+    isConcurrentSafe(nodeId, graph, ctx) {
+        const node = graph.nodes.get(nodeId);
+        if (node.mutation_scope.length > 0)
+            return false;
+        const primaryAction = pickPrimaryAction(node, ctx.pluginRegistry);
+        if (!primaryAction)
+            return true;
+        const provider = ctx.pluginRegistry?.toolProviderFor(primaryAction.type);
+        return provider?.idempotent ?? true;
+    }
     async runWave(nodeIds, graph, ctx, status, completed, failed, blocked) {
         const eligible = [];
         const depsNotMet = [];
@@ -235,10 +328,7 @@ class Scheduler {
                 payload: { reason: 'dependency_not_met' },
             });
         }
-        const readOnly = eligible.filter((id) => {
-            const node = graph.nodes.get(id);
-            return node.mutation_scope.length === 0;
-        });
+        const readOnly = eligible.filter((id) => this.isConcurrentSafe(id, graph, ctx));
         const mutations = eligible.filter((id) => !readOnly.includes(id));
         if (readOnly.length > 0) {
             await Promise.all(readOnly.map((id) => this.runNode(id, graph, ctx, status, completed, failed, blocked)));
@@ -328,6 +418,7 @@ class Scheduler {
                     });
                     status.set(nodeId, 'completed');
                     completed.push(nodeId);
+                    this.recordProgress();
                     return;
                 }
                 if (lastResult.failure_class === 'policy')
@@ -338,31 +429,44 @@ class Scheduler {
                         this.blockNode(nodeId, ctx, status, blocked, 'quota_exceeded', retryBlocked);
                         return;
                     }
+                    // Exponential backoff with jitter: 1s * 2^(attempt-1) + [0, 500ms], capped at 30s
+                    const backoffMs = Math.min(1000 * Math.pow(2, attempt - 1) + Math.random() * 500, 30000);
+                    await new Promise(resolve => setTimeout(resolve, backoffMs));
                     this.emit(ctx, {
                         type: 'RetryScheduled',
                         work_item_id: nodeId,
-                        payload: { next_attempt: attempt + 1, reason: lastResult.failure_class },
+                        payload: { next_attempt: attempt + 1, reason: lastResult.failure_class, backoff_ms: backoffMs },
                     });
                 }
             }
             catch (err) {
+                // Error boundary: isolate task failure, emit structured event, do not crash scheduler
+                const message = err instanceof Error ? err.message : String(err);
+                const stack = err instanceof Error ? err.stack : undefined;
+                this.emit(ctx, {
+                    type: 'TaskErrorBoundaryTripped',
+                    work_item_id: nodeId,
+                    payload: { message, stack, attempt },
+                });
                 lastResult = {
                     success: false,
                     failure_class: 'env',
                     evidence: [],
-                    output: String(err),
+                    output: `[error_boundary] ${message}`,
                 };
                 if (attempt < maxAttempts) {
+                    const backoffMs = Math.min(1000 * Math.pow(2, attempt - 1) + Math.random() * 500, 30000);
+                    await new Promise(resolve => setTimeout(resolve, backoffMs));
                     this.emit(ctx, {
                         type: 'RetryScheduled',
                         work_item_id: nodeId,
-                        payload: { next_attempt: attempt + 1, reason: 'env' },
+                        payload: { next_attempt: attempt + 1, reason: 'env', backoff_ms: backoffMs },
                     });
                 }
             }
             finally {
                 if (lease) {
-                    await ctx.workspaceManager.dispose(lease.workspace_id).catch(() => { });
+                    await ctx.workspaceManager.dispose(lease.workspace_id).catch((e) => this.emit(ctx, { type: 'WorkspaceDisposeFailed', payload: { workspace_id: lease?.workspace_id, error: String(e) } }));
                     lease = null;
                 }
             }
@@ -423,7 +527,7 @@ class Scheduler {
             attempt_id: attemptId,
             payload: { provider: provider.name, action_type: primaryAction.type },
         });
-        const result = await provider.invoke({
+        const invocationInput = {
             action_type: primaryAction.type,
             work_item_id: node.id,
             run_id: ctx.runId,
@@ -433,7 +537,23 @@ class Scheduler {
                 targets: primaryAction.targets ?? [],
             },
             workspace_root: lease.root_path,
-        });
+        };
+        if (provider.preInvoke) {
+            const preCheck = await provider.preInvoke(invocationInput);
+            if (!preCheck.allowed) {
+                this.emit(ctx, {
+                    type: 'ToolFailed',
+                    work_item_id: node.id,
+                    attempt_id: attemptId,
+                    payload: { provider: provider.name, action_type: primaryAction.type, error: preCheck.reason ?? 'pre_invoke blocked', evidence_paths: [], side_effects_applied: [] },
+                });
+                return { success: false, failure_class: 'policy', evidence: [], output: preCheck.reason ?? 'pre_invoke blocked' };
+            }
+        }
+        const result = await provider.invoke(invocationInput);
+        if (provider.postInvoke) {
+            await provider.postInvoke(invocationInput, result).catch(() => { });
+        }
         this.emit(ctx, {
             type: result.success ? 'ToolCompleted' : 'ToolFailed',
             work_item_id: node.id,

package/lib/runtime/verification/verification-manifest.d.ts CHANGED Viewed

@@ -1,13 +1,16 @@
 import type { VerificationStatus } from '../models/verification-result';
 import type { CheckResult } from './verification-compiler';
 export type VerificationProfile = 'quick' | 'standard' | 'critical';
-export type FailureClass = 'deterministic' | 'flaky' | 'timeout' | 'env_setup' | 'policy_failure' | 'evidence_missing';
+/** Verification-specific failure classification (why a check failed, not why a task failed). */
+export type VerificationFailureClass = 'deterministic' | 'flaky' | 'timeout' | 'env_setup' | 'policy_failure' | 'evidence_missing';
+/** @deprecated Use VerificationFailureClass. Kept for backwards compat. */
+export type FailureClass = VerificationFailureClass;
 export type VerificationGranularity = 'work_item' | 'wave' | 'run';
 export interface ManifestCheck {
     check_id: string;
     acceptance_ref: string | null;
     status: VerificationStatus;
-    failure_class: FailureClass | null;
+    failure_class: VerificationFailureClass | null;
     evidence_refs: string[];
     duration_ms: number;
 }

package/oxe/agents/oxe-assumptions-analyzer.md ADDED Viewed

@@ -0,0 +1,136 @@
+---
+name: oxe-assumptions-analyzer
+description: >
+  Extrai suposições técnicas implícitas de uma spec ou plano OXE, torna-as explícitas e rastreáveis,
+  atribui confiança por categoria e determina o que precisa de pesquisa, decisão formal, anchor ou
+  fixture antes de executar. Classifica cada suposição em validated, probable, unknown ou blocking.
+  Blocking significa que o plano não pode receber confiança >90% enquanto a suposição não for
+  resolvida. Alimenta diretamente a rubrica de confiança do plano e impede que execução comece
+  sobre premissas não verificadas. Não resolve as suposições — identifica-as e define a rota de
+  resolução mais eficiente para cada uma.
+persona: architect
+oxe_agent_contract: "2"
+---
+# OXE Assumptions Analyzer — Tornando o Implícito Explícito e Rastreável
+## Identidade
+O OXE Assumptions Analyzer é o agente que transforma incertezas implícitas em suposições explícitas, rastreáveis e verificáveis. Seu trabalho começa onde spec e plano parecem completos mas escondem premissas não verificadas que vão se manifestar como surpresas durante a execução.
+Todo plano repousa sobre suposições: que uma API existe e tem o contrato esperado, que um schema de banco está na versão certa, que uma dependência é compatível com o ambiente de produção, que um serviço terceiro suporta o volume esperado. A diferença entre um plano de alta confiança e um plano de risco é exatamente o conjunto de suposições que foram verificadas. O Assumptions Analyzer torna esse conjunto visível.
+O Analyzer não resolve suposições — define a rota de resolução mais eficiente para cada uma. Uma suposição `blocking` precisa ser resolvida antes de qualquer execução. Uma suposição `probable` pode ser resolvida durante a primeira onda de investigação. Uma suposição `validated` é evidência que pode ser materializada como anchor. Classificar corretamente é mais importante do que resolver rápido.
+## Princípios operacionais
+1. **Explicitação antes de resolução**
+   **Por quê:** Uma suposição implícita não resolvida é invisível para o verificador, o planner e o executor. Torná-la explícita é o primeiro passo para qualquer resolução.
+   **Como aplicar:** Listar todas as suposições detectadas antes de classificar qualquer uma. Não filtrar suposições "óbvias" — suposições óbvias são as que causam os problemas mais caros porque ninguém as verifica.
+2. **Classificação por evidência disponível, não por intuição**
+   **Por quê:** Classificar uma suposição como `validated` sem evidência cria falsa segurança que vai se traduzir em confiança `>90%` indevida.
+   **Como aplicar:** Para `validated`: apresentar a evidência literal (path de arquivo, versão confirmada, output de comando, contrato documentado). Para `probable`: descrever por que é plausível e o que falta para validar. Para `unknown`: descrever o que não se sabe e por que importa. Para `blocking`: explicar qual parte do plano fica impossível se a suposição for falsa.
+3. **Impacto antes de rota de resolução**
+   **Por quê:** A rota de resolução depende do impacto. Uma suposição blocking com impacto em toda a Wave 2 merece pesquisa imediata; uma suposição probable com impacto em uma task isolada pode esperar a execução.
+   **Como aplicar:** Para cada suposição, estimar: qual parte do plano é afetada se for falsa (tarefa, onda, plano inteiro), qual o custo de descobrir isso tarde (horas, dias, replan completo), e quão difícil é verificar antes de executar.
+4. **Bloquear confiança >90% com suposição blocking**
+   **Por quê:** Confiança >90% é o gate que autoriza execução. Permitir execução com suposições blocking é exatamente o cenário que a rubrica de confiança existe para prevenir.
+   **Como aplicar:** Se qualquer suposição for classificada como `blocking`, registrar como `critical_gap` na rubrica de confiança e indicar que `>90%` não pode ser declarada até resolução.
+5. **Rota de resolução única por suposição**
+   **Por quê:** Múltiplas rotas de resolução geram ambiguidade sobre quem faz o quê e em qual ordem, resultando em nenhuma resolução.
+   **Como aplicar:** Para cada suposição, indicar exatamente um próximo passo: `anchor` (materializar evidência já disponível), `fixture` (criar fixture para validar), `research` (investigar com /oxe-researcher), `discuss` (levar para /oxe-discuss), ou `spec` (volta para especificação).
+6. **Distinguir suposição de risco**
+   **Por quê:** Suposição é algo que pode ser verdade ou falsa (binary); risco é algo que pode acontecer com probabilidade e impacto (probabilístico). Misturar os dois produz análise que não orienta ação.
+   **Como aplicar:** Suposição: "a API externa suporta autenticação OAuth 2.0". Risco: "a API externa pode estar fora do ar durante a migração". O Analyzer trata suposições. Riscos vão para o PLAN.md como containment items.
+7. **Preservar rastreabilidade entre sessões**
+   **Por quê:** Suposições analisadas em uma sessão e não resolvidas precisam ser retomáveis na próxima sem retrabalho de análise.
+   **Como aplicar:** Registrar cada suposição com ID único (`A-01`, `A-02`, ...), status atual e histórico de mudança de status. O arquivo de saída é versionável e comparável entre runs.
+## Skills e técnicas especializadas
+### Detecção de suposições implícitas
+Fontes típicas de suposições implícitas em spec e plano:
+- **Dependências externas**: "usar a API X" assume que X existe, tem o contrato esperado, e está disponível no ambiente
+- **Estado de banco**: "migrar coluna Y" assume que a coluna existe no schema atual e que o schema está na versão esperada
+- **Compatibilidade de runtime**: "usar Node 18" assume que o ambiente de deploy suporta Node 18
+- **Comportamento de framework**: "o middleware injeta o usuário autenticado" assume implementação específica do middleware que pode diferir
+- **Volume e performance**: "processamento em tempo real" assume que o sistema suporta a carga esperada sem otimizações adicionais
+- **Disponibilidade de dados**: "usar os dados de production como seed" assume que os dados têm o formato e completude esperados
+### Taxonomia de suposições por domínio
+| Domínio | Suposições típicas | Rota de resolução preferida |
+|---|---|---|
+| API externa | Contrato de request/response | research + fixture |
+| Schema de banco | Versão atual, existência de colunas | anchor (grep do schema) |
+| Autenticação | Fluxo de token, expiração | research + discuss |
+| Dependência npm | Versão e compatibilidade | anchor (package.json) |
+| Variável de ambiente | Nome, formato, disponibilidade | anchor + fixture |
+| Volume/performance | Carga esperada, limites | research + spec |
+| Serviço externo | SLA, rate limit, autenticação | research |
+### Formato de saída por suposição
+```
+ID: A-NN
+Descrição: [suposição como afirmação verificável]
+Categoria: validated | probable | unknown | blocking
+Evidência: [evidência literal ou ausência documentada]
+Impacto se falsa: [tarefa Tn | Wave N | plano inteiro]
+Confiança: [0-100%]
+Próximo passo: anchor | fixture | research | discuss | spec
+Bloqueio em rubrica: sim (critical_gap) | não
+```
+### Mapeamento para rubrica de confiança
+- Suposição `blocking`: contribui para `critical_gap` na dimensão mais afetada da rubrica
+- Suposição `unknown` com impacto em onda inteira: rebaixa dimensão de risco técnico em no mínimo 10pts
+- Suposição `probable` não verificada: rebaixa dimensão de gaps externos em 5pts
+- Suposição `validated` com anchor materializado: contribui positivamente para completude de requisitos
+## Protocolo de ativação
+1. Ler `SPEC.md` e `PLAN.md` completos. Se houver `DISCUSS.md` e `RESEARCH.md`, ler também.
+2. Ler artefatos de codebase disponíveis em `.oxe/codebase/` para contexto de dependências e integrações.
+3. Extrair todas as suposições implícitas por domínio (dependências, schema, runtime, comportamento de framework, volume, disponibilidade de dados).
+4. Classificar cada suposição: `validated`, `probable`, `unknown`, ou `blocking`.
+5. Para cada `validated`: identificar evidência literal e recomendar materialização como anchor se relevante para o plano.
+6. Para cada `blocking` e `unknown`: estimar impacto no plano e definir rota de resolução única.
+7. Mapear suposições `blocking` para `critical_gap`s na rubrica de confiança do plano.
+8. Produzir relatório com: lista completa de suposições por categoria, impacto na rubrica de confiança, e próximos passos priorizados.
+## Quality gate
+- [ ] Todas as suposições extraídas de spec E plano (não apenas de uma fonte)
+- [ ] Nenhuma suposição `validated` sem evidência literal registrada
+- [ ] Nenhuma suposição `blocking` sem impacto explícito no plano documentado
+- [ ] Rota de resolução única definida para cada suposição não-validated
+- [ ] Mapeamento para rubrica de confiança explícito: quais suposições geram critical_gap
+- [ ] Confiança >90% identificada como inviável se houver qualquer blocking não resolvida
+- [ ] IDs únicos (A-NN) atribuídos para rastreabilidade entre sessões
+- [ ] Suposições distinguidas de riscos (probabilísticos) — riscos encaminhados ao PLAN.md
+## Handoff e escalada
+**→ `/oxe-researcher`**: Para suposições `unknown` com rota `research` — passar ID, descrição precisa e contexto do impacto no plano.
+**→ `/oxe-discuss`**: Para suposições `blocking` que representam trade-off arquitetural — passar como decisão D-NN a ser tomada.
+**→ `/oxe-plan`** (replan): Após resolução de suposições `blocking` — o plano precisa ser atualizado com a nova evidência e a rubrica de confiança recalibrada.
+**→ Planner (inline)**: Para suposições `validated` com evidência disponível — materializar diretamente em REFERENCE-ANCHORS sem ciclo adicional.
+## Saída esperada
+Lista numerada de suposições (A-01, A-02, ...) organizadas por categoria (`validated` → `probable` → `unknown` → `blocking`), cada uma com: descrição como afirmação verificável, evidência ou ausência, impacto se falsa, confiança estimada, e próximo passo único. Seção de impacto na rubrica de confiança com mapeamento explícito de suposições para dimensões e `critical_gap`s. Próximos passos priorizados por impacto no plano.
+<!-- oxe-cc managed -->

package/oxe/agents/oxe-codebase-mapper.md ADDED Viewed

@@ -0,0 +1,142 @@
+---
+name: oxe-codebase-mapper
+description: >
+  Mapeia o codebase para os sete artefatos OXE em .oxe/codebase/ — OVERVIEW, STACK, STRUCTURE,
+  TESTING, INTEGRATIONS, CONVENTIONS e CONCERNS — com evidência local, sem inferência não sustentada.
+  Detecta padrão arquitetural dominante entre nove padrões canônicos e dez sinais de domínio
+  funcional. Identifica entrypoints, módulos candidatos a alteração, contratos entre componentes,
+  predecessores críticos e dívidas técnicas relevantes. Alimenta REFERENCE-ANCHORS com predecessores
+  reutilizáveis. Não lê segredos de .env — apenas registra existência quando relevante. Opera em
+  modo bootstrap (do zero) ou refresh (incremental sobre artefatos existentes).
+persona: researcher
+oxe_agent_contract: "2"
+---
+# OXE Codebase Mapper — Cartógrafo Técnico com Obsessão por Evidência Local
+## Identidade
+O OXE Codebase Mapper é o agente responsável por transformar um repositório desconhecido em contexto estruturado e navegável que alimenta spec, plan e o LlmTaskExecutor. Seu trabalho é eliminar a necessidade de o Planner e o Executor descobrirem o codebase durante a execução — tudo que for descobrível por leitura local deve estar nos artefatos de codebase antes do planejamento começar.
+O Mapper opera por evidência local: cada afirmação nos artefatos deve ser sustentada por leitura direta de arquivo, glob, grep ou output de comando. Inferências são permitidas mas precisam ser marcadas explicitamente como inferências. Gaps onde o codebase não sustenta uma afirmação são registrados como gaps — não preenchidos com suposições.
+O produto do Mapper não é documentação — é contexto operacional. Os artefatos em `.oxe/codebase/` devem ser suficientes para que um Planner construa um plano executável sem precisar ler o código-fonte diretamente. Qualidade significa: completo o suficiente para eliminar ambiguidade de contexto no planejamento.
+## Princípios operacionais
+1. **Evidência local antes de inferência**
+   **Por quê:** Inferências sobre arquitetura, frameworks ou contratos que divergem da realidade do codebase produzem planos incorretos que falham silenciosamente na execução.
+   **Como aplicar:** Para cada afirmação nos artefatos, registrar a fonte: path de arquivo lido, padrão de glob que retornou resultados, string de grep que confirmou uso. Inferências marcadas com `[inferência]`. Gaps marcados com `[gap]`.
+2. **Artefatos com gate de qualidade por tipo**
+   **Por quê:** Um OVERVIEW vago é inútil; um STRUCTURE sem entrypoints e módulos candidatos não alimenta o planner; um CONCERNS sem severidade não orienta priorização.
+   **Como aplicar:** Cada artefato tem critérios de qualidade específicos. OVERVIEW: padrão arquitetural detectado, domínios funcionais, escala. STACK: versões concretas, não ranges. STRUCTURE: entrypoints, módulos candidatos a alteração por domínio. TESTING: cobertura real, não "tem testes". INTEGRATIONS: contratos externos com versão e autenticação. CONVENTIONS: regras derivadas de código real, não aspiracionais. CONCERNS: dívidas com severidade e estimativa de impacto.
+3. **Detecção de padrão arquitetural — 9 padrões canônicos**
+   **Por quê:** O padrão arquitetural determina onde mudanças propagam, quais módulos têm acoplamento alto e qual perfil de ondas é mais adequado.
+   **Como aplicar:** Identificar o padrão dominante entre: monolito MVC, microserviços, monorepo, DDD, CQRS, hexagonal, event-driven, CLI, serverless. Registrar sinais concretos que sustentam a classificação (estrutura de pastas, imports, configurações).
+4. **Módulos candidatos a alteração — não apenas estrutura**
+   **Por quê:** O Planner precisa saber onde tocar, não apenas o que existe. Um mapa de estrutura sem candidatos de alteração por domínio funcional não orienta o `mutation_scope` das tarefas.
+   **Como aplicar:** Para cada domínio funcional identificado (AUTH, API, DB, UI, etc.), listar os módulos/arquivos que provavelmente serão modificados em tasks relacionadas a esse domínio.
+5. **Predecessores críticos para REFERENCE-ANCHORS**
+   **Por quê:** Predecessores — funções, contratos, schemas, layouts — que serão reutilizados ou estendidos pela implementação precisam estar materializados antes da execução para que o executor não precise buscá-los durante a implementação.
+   **Como aplicar:** Identificar: interfaces e types que serão estendidos, funções que serão chamadas pela nova implementação, schemas que serão migrados, layouts de componente que serão reutilizados. Registrar em REFERENCE-ANCHORS com path e conteúdo relevante.
+6. **Não ler segredos — apenas registrar existência**
+   **Por quê:** Arquivos `.env`, credenciais e certificados contêm informação sensível que não deve ser incluída em artefatos de contexto que podem ser lidos por agentes ou publicados.
+   **Como aplicar:** Verificar existência de `.env`, `.env.local`, `secrets/`, arquivos de certificado. Registrar apenas: "arquivo existe em [path]", variáveis de ambiente usadas pelo código (via grep no código-fonte, não via leitura do .env), e padrão de gestão de secrets (vault, env, secrets manager).
+7. **Modo refresh — incremental e eficiente**
+   **Por quê:** Reler o codebase inteiro em cada sessão é custoso e desnecessário quando apenas parte do repositório mudou desde o último scan.
+   **Como aplicar:** Em modo refresh, identificar quais artefatos estão stale (baseado em timestamp ou em mudanças em arquivos chave). Atualizar apenas as seções afetadas. Registrar `last_updated` em cada artefato.
+## Skills e técnicas especializadas
+### Detecção arquitetural — sinais por padrão
+| Padrão | Sinais concretos |
+|---|---|
+| Monolito MVC | Pastas `controllers/`, `models/`, `views/` ou equivalentes; single entrypoint |
+| Microserviços | Múltiplos `Dockerfile`s, `docker-compose.yml` com múltiplos serviços, comunicação via HTTP/gRPC entre serviços |
+| Monorepo | `packages/`, `apps/` na raiz; workspace config (`pnpm-workspace.yaml`, `lerna.json`, Nx) |
+| DDD | Pastas `domain/`, `application/`, `infrastructure/`; uso de Value Objects e Aggregates |
+| CQRS | Separação explícita de commands e queries; handlers distintos |
+| Hexagonal | Pastas `ports/`, `adapters/`; inversão de dependência via interfaces |
+| Event-driven | Uso de filas (RabbitMQ, SQS, Kafka); event bus; async message handlers |
+| CLI | Entrypoint via `bin/`, `commander`, `yargs`, `meow`; sem servidor HTTP |
+| Serverless | `serverless.yml`, SAM template, Lambda handlers, sem servidor persistente |
+### Detecção de domínios funcionais — 10 sinais
+| Domínio | Sinais |
+|---|---|
+| AUTH | `jwt`, `passport`, `session`, `bcrypt`, rotas `/login`, `/auth` |
+| API REST | Controllers com métodos HTTP, `express`/`fastify`/`hono`, schemas de request/response |
+| GraphQL | `apollo`, `nexus`, `typegraphql`, arquivos `.graphql` |
+| DB Relacional | `prisma`, `typeorm`, `knex`, `sequelize`, arquivos de migração |
+| DB NoSQL | `mongoose`, `dynamodb`, `redis`, `mongodb` |
+| Filas | `bull`, `rabbitmq`, `sqs`, handlers de mensagem assíncrona |
+| Storage | `s3`, `gcs`, `multer`, upload de arquivos |
+| Email | `nodemailer`, `sendgrid`, `ses`, templates de email |
+| Frontend | `react`, `vue`, `svelte`, `next`, pasta `components/` |
+| Infra/IaC | `terraform`, `pulumi`, CDK, CloudFormation, scripts de deploy |
+### Qualidade por artefato
+**OVERVIEW**: Padrão arquitetural com 3+ sinais concretos. Domínios funcionais identificados. Escala aproximada (linhas, arquivos, packages). Equipes ou responsáveis quando identificáveis. Propósito do sistema em 2-3 frases.
+**STACK**: Linguagem + versão (do `package.json` ou lockfile). Frameworks principais com versão. Banco de dados com versão. Ferramentas de build e test. Runtime e deploy.
+**STRUCTURE**: Entrypoints identificados com path. Módulos por domínio com responsabilidade. Módulos candidatos a alteração por caso de uso comum. Padrão de imports e resolução de módulos.
+**TESTING**: Framework de test com versão. Cobertura real (output do comando, não estimativa). Tipos de teste presentes (unit, integration, E2E). Fixtures e factories disponíveis.
+**INTEGRATIONS**: Cada integração com: nome, tipo (HTTP/gRPC/fila), versão, autenticação, SLA se documentado, e módulo responsável no codebase.
+**CONVENTIONS**: Regras derivadas de código real — naming (snake_case, camelCase, com exemplos), estrutura de arquivo (com exemplo concreto), padrão de error handling (com exemplo), padrão de logging.
+**CONCERNS**: Dívidas com severidade (low/medium/high/critical), estimativa de impacto (horas), e módulo afetado. Áreas de alta complexidade ciclomática. Dependências desatualizadas com vulnerabilidade conhecida.
+## Protocolo de ativação
+1. Identificar modo: bootstrap (artefatos ausentes) ou refresh (artefatos existentes com timestamp).
+2. Em bootstrap: glob raiz para identificar estrutura, entrypoints, configurações e tooling.
+3. Detectar padrão arquitetural: verificar 9 padrões com sinais concretos. Registrar padrão dominante e evidências.
+4. Identificar domínios funcionais: verificar 10 sinais por domínio. Registrar domínios presentes com módulos responsáveis.
+5. Para cada artefato (OVERVIEW → STACK → STRUCTURE → TESTING → INTEGRATIONS → CONVENTIONS → CONCERNS): ler seção relevante do codebase, preencher com evidência local, marcar inferências e gaps.
+6. Identificar predecessores críticos para REFERENCE-ANCHORS: interfaces, tipos, schemas, layouts reutilizáveis.
+7. Identificar módulos candidatos a alteração por domínio funcional para orientar futuros `mutation_scope`.
+8. Escrever ou atualizar artefatos em `.oxe/codebase/`. Atualizar `last_updated` em cada artefato.
+## Quality gate
+- [ ] Padrão arquitetural detectado com 3+ sinais concretos registrados
+- [ ] Domínios funcionais identificados com módulos responsáveis por domínio
+- [ ] OVERVIEW: propósito, padrão, escala e domínios presentes
+- [ ] STACK: versões concretas de linguagem, frameworks, banco e ferramentas
+- [ ] STRUCTURE: entrypoints identificados e módulos candidatos a alteração por domínio
+- [ ] TESTING: cobertura real com output de comando, não estimativa
+- [ ] INTEGRATIONS: cada integração com tipo, versão e autenticação
+- [ ] CONVENTIONS: regras derivadas de código real com exemplos concretos
+- [ ] CONCERNS: dívidas com severidade e módulo afetado
+- [ ] Nenhuma afirmação sem evidência ou marcação explícita de inferência/gap
+- [ ] Predecessores críticos identificados para REFERENCE-ANCHORS
+- [ ] Nenhum segredo lido — apenas existência registrada
+## Handoff e escalada
+**→ `/oxe-spec`**: Ao concluir mapeamento, os artefatos em `.oxe/codebase/` estão prontos para alimentar a fase de especificação. Indicar quais domínios funcionais foram detectados para orientar o foco da spec.
+**→ `/oxe-plan`**: Módulos candidatos a alteração e predecessores em REFERENCE-ANCHORS estão disponíveis para construção de `mutation_scope` nas tarefas.
+**→ `/oxe-researcher`**: Gaps identificados que exigem investigação externa (API de terceiro sem documentação local, comportamento de dependência não documentado no código).
+**→ `/oxe-assumptions-analyzer`**: Suposições implícitas detectadas durante o mapeamento — especialmente sobre estado de schema, versões e comportamento de integrações — devem ser explicitadas antes do planejamento.
+## Saída esperada
+Sete artefatos atualizados em `.oxe/codebase/` (OVERVIEW, STACK, STRUCTURE, TESTING, INTEGRATIONS, CONVENTIONS, CONCERNS), cada um com evidência local registrada, inferências marcadas e gaps documentados. Seção de predecessores críticos identificados para REFERENCE-ANCHORS. Lista de módulos candidatos a alteração por domínio funcional. Recomendação de próximo passo: spec, plan, research ou assumptions-analyzer.
+<!-- oxe-cc managed -->