npm - wiggum-cli - Versions diffs - 0.17.2 → 0.18.3 - Mend

wiggum-cli 0.17.2 → 0.18.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (71) hide show

package/README.md +58 -14
package/dist/agent/orchestrator.d.ts +21 -3
package/dist/agent/orchestrator.js +394 -187
package/dist/agent/resolve-config.js +1 -1
package/dist/agent/scheduler.d.ts +29 -0
package/dist/agent/scheduler.js +1149 -0
package/dist/agent/tools/backlog.d.ts +6 -0
package/dist/agent/tools/backlog.js +23 -4
package/dist/agent/tools/execution.js +1 -1
package/dist/agent/tools/introspection.js +26 -4
package/dist/agent/types.d.ts +113 -0
package/dist/ai/conversation/url-fetcher.js +46 -13
package/dist/ai/enhancer.js +1 -2
package/dist/ai/providers.js +4 -4
package/dist/commands/agent.d.ts +1 -0
package/dist/commands/agent.js +53 -1
package/dist/commands/config.js +100 -6
package/dist/commands/run.d.ts +2 -0
package/dist/commands/run.js +47 -2
package/dist/commands/sync.js +2 -2
package/dist/generator/config.js +13 -2
package/dist/index.js +11 -3
package/dist/repl/command-parser.d.ts +1 -1
package/dist/repl/command-parser.js +1 -1
package/dist/templates/config/ralph.config.cjs.tmpl +9 -2
package/dist/templates/prompts/PROMPT_e2e.md.tmpl +16 -89
package/dist/templates/prompts/PROMPT_e2e_fix.md.tmpl +55 -0
package/dist/templates/prompts/PROMPT_feature.md.tmpl +12 -98
package/dist/templates/prompts/PROMPT_review_auto.md.tmpl +52 -49
package/dist/templates/prompts/PROMPT_review_manual.md.tmpl +30 -2
package/dist/templates/prompts/PROMPT_review_merge.md.tmpl +59 -69
package/dist/templates/prompts/PROMPT_verify.md.tmpl +7 -0
package/dist/templates/root/README.md.tmpl +2 -3
package/dist/templates/scripts/feature-loop.sh.tmpl +835 -93
package/dist/templates/scripts/loop.sh.tmpl +5 -1
package/dist/templates/scripts/ralph-monitor.sh.tmpl +0 -2
package/dist/tui/app.d.ts +5 -1
package/dist/tui/app.js +22 -3
package/dist/tui/components/HeaderContent.d.ts +4 -1
package/dist/tui/components/HeaderContent.js +4 -2
package/dist/tui/hooks/useAgentOrchestrator.d.ts +2 -1
package/dist/tui/hooks/useAgentOrchestrator.js +86 -33
package/dist/tui/hooks/useInit.d.ts +5 -1
package/dist/tui/hooks/useInit.js +20 -2
package/dist/tui/screens/AgentScreen.js +3 -1
package/dist/tui/screens/InitScreen.js +12 -1
package/dist/tui/screens/MainShell.js +70 -6
package/dist/tui/screens/RunScreen.d.ts +6 -2
package/dist/tui/screens/RunScreen.js +48 -6
package/dist/tui/utils/loop-status.d.ts +15 -0
package/dist/tui/utils/loop-status.js +89 -27
package/dist/tui/utils/polishGoal.js +14 -1
package/dist/utils/config.d.ts +7 -0
package/dist/utils/config.js +14 -0
package/dist/utils/env.js +7 -1
package/dist/utils/github.d.ts +13 -0
package/dist/utils/github.js +63 -4
package/dist/utils/logger.js +1 -1
package/package.json +9 -7
package/src/templates/config/ralph.config.cjs.tmpl +9 -2
package/src/templates/prompts/PROMPT_e2e.md.tmpl +16 -89
package/src/templates/prompts/PROMPT_e2e_fix.md.tmpl +55 -0
package/src/templates/prompts/PROMPT_feature.md.tmpl +12 -98
package/src/templates/prompts/PROMPT_review_auto.md.tmpl +52 -49
package/src/templates/prompts/PROMPT_review_manual.md.tmpl +30 -2
package/src/templates/prompts/PROMPT_review_merge.md.tmpl +59 -69
package/src/templates/prompts/PROMPT_verify.md.tmpl +7 -0
package/src/templates/root/README.md.tmpl +2 -3
package/src/templates/scripts/feature-loop.sh.tmpl +835 -93
package/src/templates/scripts/loop.sh.tmpl +5 -1
package/src/templates/scripts/ralph-monitor.sh.tmpl +0 -2

package/dist/templates/scripts/feature-loop.sh.tmpl CHANGED Viewed

@@ -1,12 +1,14 @@
 #!/bin/bash
 # feature-loop.sh - Full feature workflow: branch -> implement -> E2E test -> PR -> review -> merge
 # Generated by ralph-cli for {{projectName}}
-# Usage: ./feature-loop.sh <feature-name> [max-iterations] [max-e2e-attempts] [--worktree] [--resume] [--model MODEL] [--review-mode MODE]
+# Usage: ./feature-loop.sh <feature-name> [max-iterations] [max-e2e-attempts] [--worktree] [--resume] [--model MODEL] [--cli CLI] [--review-cli CLI] [--review-mode MODE]
 #
 # Options:
 #   --worktree           Use git worktree for isolation (enables parallel execution)
 #   --resume             Resume an interrupted loop (reuses existing branch/worktree)
-#   --model MODEL        Claude model to use (e.g., opus, sonnet, claude-sonnet-4-6)
+#   --model MODEL        Model to use for coding/review CLI
+#   --cli CLI            Implementation CLI: 'claude' | 'codex'
+#   --review-cli CLI     Review CLI: 'claude' | 'codex'
 #   --review-mode MODE   Review mode: 'manual' (stop at PR), 'auto' (review, no merge), or 'merge' (review + merge). Default: 'manual'
 set -e
@@ -23,6 +25,13 @@ if [ -f "$SCRIPT_DIR/../ralph.config.cjs" ]; then
     PROMPTS_DIR=$(node -e "console.log(require('$CONFIG_PATH').paths?.prompts || '.ralph/prompts')" 2>/dev/null || echo ".ralph/prompts")
     DEFAULT_MODEL=$(node -e "console.log(require('$CONFIG_PATH').loop?.defaultModel || 'sonnet')" 2>/dev/null || echo "sonnet")
     PLANNING_MODEL=$(node -e "console.log(require('$CONFIG_PATH').loop?.planningModel || 'opus')" 2>/dev/null || echo "opus")
+    DEFAULT_CODEX_MODEL=$(node -e "console.log(require('$CONFIG_PATH').loop?.codexModel || 'gpt-5.3-codex')" 2>/dev/null || echo "gpt-5.3-codex")
+    DEFAULT_CODING_CLI=$(node -e "console.log(require('$CONFIG_PATH').loop?.codingCli || 'claude')" 2>/dev/null || echo "claude")
+    DEFAULT_REVIEW_CLI=$(node -e "console.log(require('$CONFIG_PATH').loop?.reviewCli || require('$CONFIG_PATH').loop?.codingCli || 'claude')" 2>/dev/null || echo "claude")
+    CLAUDE_PERMISSION_MODE=$(node -e "console.log(require('$CONFIG_PATH').loop?.claudePermissionMode || 'default')" 2>/dev/null || echo "default")
+    CODEX_SANDBOX=$(node -e "console.log(require('$CONFIG_PATH').loop?.codexSandbox || 'workspace-write')" 2>/dev/null || echo "workspace-write")
+    CODEX_APPROVAL_POLICY=$(node -e "console.log(require('$CONFIG_PATH').loop?.codexApprovalPolicy || 'never')" 2>/dev/null || echo "never")
+    DISABLE_MCP_IN_AUTOMATED=$(node -e "const v=require('$CONFIG_PATH').loop?.disableMcpInAutomatedRuns; console.log(v === undefined ? 'true' : String(v))" 2>/dev/null || echo "true")
     DEFAULT_MAX_ITERATIONS=$(node -e "console.log(require('$CONFIG_PATH').loop?.maxIterations || 10)" 2>/dev/null || echo "10")
     DEFAULT_MAX_E2E=$(node -e "console.log(require('$CONFIG_PATH').loop?.maxE2eAttempts || 5)" 2>/dev/null || echo "5")
     TEST_COMMAND=$(node -e "console.log(require('$CONFIG_PATH').commands?.test || 'npm test')" 2>/dev/null || echo "npm test")
@@ -34,6 +43,13 @@ elif [ -f "$SCRIPT_DIR/../../ralph.config.cjs" ]; then
     PROMPTS_DIR=$(node -e "console.log(require('$CONFIG_PATH').paths?.prompts || '.ralph/prompts')" 2>/dev/null || echo ".ralph/prompts")
     DEFAULT_MODEL=$(node -e "console.log(require('$CONFIG_PATH').loop?.defaultModel || 'sonnet')" 2>/dev/null || echo "sonnet")
     PLANNING_MODEL=$(node -e "console.log(require('$CONFIG_PATH').loop?.planningModel || 'opus')" 2>/dev/null || echo "opus")
+    DEFAULT_CODEX_MODEL=$(node -e "console.log(require('$CONFIG_PATH').loop?.codexModel || 'gpt-5.3-codex')" 2>/dev/null || echo "gpt-5.3-codex")
+    DEFAULT_CODING_CLI=$(node -e "console.log(require('$CONFIG_PATH').loop?.codingCli || 'claude')" 2>/dev/null || echo "claude")
+    DEFAULT_REVIEW_CLI=$(node -e "console.log(require('$CONFIG_PATH').loop?.reviewCli || require('$CONFIG_PATH').loop?.codingCli || 'claude')" 2>/dev/null || echo "claude")
+    CLAUDE_PERMISSION_MODE=$(node -e "console.log(require('$CONFIG_PATH').loop?.claudePermissionMode || 'default')" 2>/dev/null || echo "default")
+    CODEX_SANDBOX=$(node -e "console.log(require('$CONFIG_PATH').loop?.codexSandbox || 'workspace-write')" 2>/dev/null || echo "workspace-write")
+    CODEX_APPROVAL_POLICY=$(node -e "console.log(require('$CONFIG_PATH').loop?.codexApprovalPolicy || 'never')" 2>/dev/null || echo "never")
+    DISABLE_MCP_IN_AUTOMATED=$(node -e "const v=require('$CONFIG_PATH').loop?.disableMcpInAutomatedRuns; console.log(v === undefined ? 'true' : String(v))" 2>/dev/null || echo "true")
     DEFAULT_MAX_ITERATIONS=$(node -e "console.log(require('$CONFIG_PATH').loop?.maxIterations || 10)" 2>/dev/null || echo "10")
     DEFAULT_MAX_E2E=$(node -e "console.log(require('$CONFIG_PATH').loop?.maxE2eAttempts || 5)" 2>/dev/null || echo "5")
     TEST_COMMAND=$(node -e "console.log(require('$CONFIG_PATH').commands?.test || 'npm test')" 2>/dev/null || echo "npm test")
@@ -45,6 +61,13 @@ else
     PROMPTS_DIR=".ralph/prompts"
     DEFAULT_MODEL="sonnet"
     PLANNING_MODEL="opus"
+    DEFAULT_CODEX_MODEL="gpt-5.3-codex"
+    DEFAULT_CODING_CLI="claude"
+    DEFAULT_REVIEW_CLI="claude"
+    CLAUDE_PERMISSION_MODE="default"
+    CODEX_SANDBOX="workspace-write"
+    CODEX_APPROVAL_POLICY="never"
+    DISABLE_MCP_IN_AUTOMATED="true"
     DEFAULT_MAX_ITERATIONS="10"
     DEFAULT_MAX_E2E="5"
     TEST_COMMAND="npm test"
@@ -59,6 +82,8 @@ USE_WORKTREE=false
 RESUME=false
 MODEL=""
 REVIEW_MODE=""
+CLI_OVERRIDE=""
+REVIEW_CLI_OVERRIDE=""
 POSITIONAL=()
 while [[ $# -gt 0 ]]; do
     case $1 in
@@ -74,6 +99,14 @@ while [[ $# -gt 0 ]]; do
             MODEL="$2"
             shift 2
             ;;
+        --cli)
+            CLI_OVERRIDE="$2"
+            shift 2
+            ;;
+        --review-cli)
+            REVIEW_CLI_OVERRIDE="$2"
+            shift 2
+            ;;
         --review-mode)
             REVIEW_MODE="$2"
             shift 2
@@ -117,9 +150,168 @@ if [ "$REVIEW_MODE" != "manual" ] && [ "$REVIEW_MODE" != "auto" ] && [ "$REVIEW_
     exit 1
 fi
-# Build claude commands
-CLAUDE_CMD_OPUS="claude -p --output-format json --dangerously-skip-permissions --model ${PLANNING_MODEL}"
-CLAUDE_CMD_IMPL="claude -p --output-format json --dangerously-skip-permissions --model ${MODEL:-$DEFAULT_MODEL}"
+# Resolve coding/review CLI from CLI > config > default
+CODING_CLI="${CLI_OVERRIDE:-$DEFAULT_CODING_CLI}"
+REVIEW_CLI="${REVIEW_CLI_OVERRIDE:-${DEFAULT_REVIEW_CLI:-$CODING_CLI}}"
+DISABLE_MCP_IN_AUTOMATED_NORM=$(echo "$DISABLE_MCP_IN_AUTOMATED" | tr '[:upper:]' '[:lower:]')
+# Validate CLI values
+if [ "$CODING_CLI" != "claude" ] && [ "$CODING_CLI" != "codex" ]; then
+    echo "ERROR: Invalid --cli value '$CODING_CLI'. Allowed values are 'claude' or 'codex'." >&2
+    exit 1
+fi
+if [ "$REVIEW_CLI" != "claude" ] && [ "$REVIEW_CLI" != "codex" ]; then
+    echo "ERROR: Invalid --review-cli value '$REVIEW_CLI'. Allowed values are 'claude' or 'codex'." >&2
+    exit 1
+fi
+is_valid_claude_permission_mode() {
+    case "$1" in
+        acceptEdits|bypassPermissions|default|dontAsk|plan|auto) return 0 ;;
+        *) return 1 ;;
+    esac
+}
+is_valid_codex_sandbox() {
+    case "$1" in
+        read-only|workspace-write|danger-full-access) return 0 ;;
+        *) return 1 ;;
+    esac
+}
+is_valid_codex_approval_policy() {
+    case "$1" in
+        untrusted|on-failure|on-request|never) return 0 ;;
+        *) return 1 ;;
+    esac
+}
+if ! is_valid_claude_permission_mode "$CLAUDE_PERMISSION_MODE"; then
+    echo "ERROR: Invalid loop.claudePermissionMode '$CLAUDE_PERMISSION_MODE' in ralph.config.cjs." >&2
+    exit 1
+fi
+if ! is_valid_codex_sandbox "$CODEX_SANDBOX"; then
+    echo "ERROR: Invalid loop.codexSandbox '$CODEX_SANDBOX' in ralph.config.cjs." >&2
+    exit 1
+fi
+if ! is_valid_codex_approval_policy "$CODEX_APPROVAL_POLICY"; then
+    echo "ERROR: Invalid loop.codexApprovalPolicy '$CODEX_APPROVAL_POLICY' in ralph.config.cjs." >&2
+    exit 1
+fi
+case "$DISABLE_MCP_IN_AUTOMATED_NORM" in
+    true|false) ;;
+    *)
+        echo "ERROR: Invalid loop.disableMcpInAutomatedRuns '$DISABLE_MCP_IN_AUTOMATED' in ralph.config.cjs. Use true or false." >&2
+        exit 1
+        ;;
+esac
+is_claude_only_model() {
+    local candidate="$1"
+    case "$candidate" in
+        sonnet|opus|haiku|claude-*) return 0 ;;
+        *) return 1 ;;
+    esac
+}
+resolve_codex_model() {
+    local candidate="${MODEL:-$DEFAULT_CODEX_MODEL}"
+    if is_claude_only_model "$candidate"; then
+        echo "$DEFAULT_CODEX_MODEL"
+    else
+        echo "$candidate"
+    fi
+}
+if [ -n "$MODEL" ] && { [ "$CODING_CLI" = "codex" ] || [ "$REVIEW_CLI" = "codex" ]; }; then
+    if is_claude_only_model "$MODEL"; then
+        echo "WARNING: --model '$MODEL' is Claude-specific. Codex phases will use '$DEFAULT_CODEX_MODEL'." >&2
+    fi
+fi
+build_cli_cmd() {
+    local cli="$1"
+    local model="$2"
+    if [[ ! "$model" =~ ^[A-Za-z0-9._:/=-]+$ ]]; then
+        echo "ERROR: Invalid model value '$model'. Only alphanumeric, dot, underscore, colon, slash, equals and hyphen are allowed." >&2
+        return 1
+    fi
+    case "$cli" in
+        claude)
+            echo "claude -p --output-format json --permission-mode ${CLAUDE_PERMISSION_MODE} --model ${model}"
+            ;;
+        codex)
+            local codex_extra=""
+            # Avoid MCP startup deadlocks in unattended loop runs.
+            if [ "${RALPH_AUTOMATED:-}" = "1" ] && [ "$DISABLE_MCP_IN_AUTOMATED_NORM" = "true" ]; then
+                codex_extra=" -c mcp_servers={}"
+            fi
+            # Keep command string token-safe. run_claude_* parses it as an argument array.
+            echo "codex --ask-for-approval ${CODEX_APPROVAL_POLICY} --sandbox ${CODEX_SANDBOX} exec --cd . --model ${model}${codex_extra}"
+            ;;
+        *)
+            echo "ERROR: Unsupported CLI '$cli'" >&2
+            return 1
+            ;;
+    esac
+}
+get_phase_cli() {
+    local phase="$1"
+    case "$phase" in
+        review)
+            echo "$REVIEW_CLI"
+            ;;
+        *)
+            echo "$CODING_CLI"
+            ;;
+    esac
+}
+get_phase_model() {
+    local phase="$1"
+    local cli
+    cli=$(get_phase_cli "$phase")
+    if [ "$cli" = "codex" ]; then
+        resolve_codex_model
+        return
+    fi
+    case "$phase" in
+        planning|review)
+            echo "$PLANNING_MODEL"
+            ;;
+        *)
+            echo "${MODEL:-$DEFAULT_MODEL}"
+            ;;
+    esac
+}
+get_phase_cmd() {
+    local phase="$1"
+    local cli
+    local model
+    cli=$(get_phase_cli "$phase")
+    model=$(get_phase_model "$phase")
+    build_cli_cmd "$cli" "$model"
+}
+check_cli_binary() {
+    local cli="$1"
+    local install_hint=""
+    case "$cli" in
+        claude) install_hint="npm install -g @anthropic-ai/claude-code" ;;
+        codex) install_hint="npm install -g @openai/codex" ;;
+    esac
+    if ! command -v "$cli" >/dev/null 2>&1; then
+        echo "ERROR: ${cli} CLI not found. Install with: ${install_hint}" >&2
+        exit 1
+    fi
+}
 # Automation footer appended to every prompt in automated mode.
 # Prevents interactive skill prompts from blocking headless sessions.
@@ -141,22 +333,69 @@ This is a fully automated session with no human operator. You MUST:
 '
 fi
-# Helper: pipe prompt with automation footer to claude
+# Helper: pipe prompt with automation footer to selected CLI command
 run_claude_prompt() {
     local prompt_file="$1"
     local claude_cmd="$2"
-    { cat "$prompt_file" | envsubst; echo "$AUTOMATION_FOOTER"; } | $claude_cmd
+    local -a cmd_parts=()
+    read -r -a cmd_parts <<< "$claude_cmd"
+    if [[ "${cmd_parts[0]:-}" == "codex" ]]; then
+        LAST_RUN_CLI="codex"
+        { cat "$prompt_file" | envsubst; echo "$AUTOMATION_FOOTER"; } | (cd "$APP_DIR" && "${cmd_parts[@]}" --json --output-last-message "$LAST_MESSAGE_FILE" -)
+    else
+        LAST_RUN_CLI="claude"
+        { cat "$prompt_file" | envsubst; echo "$AUTOMATION_FOOTER"; } | "${cmd_parts[@]}"
+    fi
+}
+# Helper: resume an existing session with a short continuation prompt
+run_claude_resume() {
+    local session_id="$1"
+    local continuation_prompt="$2"
+    local claude_cmd="$3"
+    if [[ ! "$session_id" =~ ^[A-Za-z0-9._:-]+$ ]]; then
+        echo "WARNING: Refusing to resume with unsafe session id '$session_id'" >&2
+        return 1
+    fi
+    if [[ "$claude_cmd" == codex* ]]; then
+        LAST_RUN_CLI="codex"
+        local resume_cmd="${claude_cmd/ exec / exec resume }"
+        if [ "$resume_cmd" = "$claude_cmd" ]; then
+            echo "WARNING: codex resume injection failed, exec segment not found in command" >&2
+            return 1
+        fi
+        # codex exec resume does not accept -C/--cd; resume from APP_DIR instead.
+        resume_cmd="${resume_cmd/ --cd ./}"
+        resume_cmd="${resume_cmd/ -C ./}"
+        local -a resume_parts=()
+        read -r -a resume_parts <<< "$resume_cmd"
+        { echo "$continuation_prompt"; echo "$AUTOMATION_FOOTER"; } | (cd "$APP_DIR" && "${resume_parts[@]}" "$session_id" - --json --output-last-message "$LAST_MESSAGE_FILE")
+    else
+        LAST_RUN_CLI="claude"
+        # Insert --resume before the -p flag.
+        local resume_cmd="${claude_cmd/ -p / --resume ${session_id} -p }"
+        if [ "$resume_cmd" = "$claude_cmd" ]; then
+            echo "WARNING: --resume injection failed, -p flag not found in command" >&2
+            return 1
+        fi
+        local -a resume_parts=()
+        read -r -a resume_parts <<< "$resume_cmd"
+        { echo "$continuation_prompt"; echo "$AUTOMATION_FOOTER"; } | "${resume_parts[@]}"
+    fi
 }
 # Token tracking
 TOKENS_FILE="/tmp/ralph-loop-${1}.tokens"
 CLAUDE_OUTPUT="/tmp/ralph-loop-${1}.output"
+LAST_MESSAGE_FILE="/tmp/ralph-loop-${1}.last-message"
 STATUS_FILE="/tmp/ralph-loop-${1}.status"
 FINAL_STATUS_FILE="/tmp/ralph-loop-${1}.final"
 PHASES_FILE="/tmp/ralph-loop-${1}.phases"
 BASELINE_FILE="/tmp/ralph-loop-${1}.baseline"
+PRE_RUN_DIRTY_FILE="/tmp/ralph-loop-${1}.dirty"
 SESSIONS_FILE="/tmp/ralph-loop-${1}.sessions"
 LOG_FILE="/tmp/ralph-loop-${1}.log"
+LAST_RUN_CLI=""
 # Initialize token tracking (4-field format: input|output|cache_create|cache_read)
 init_tokens() {
@@ -165,15 +404,85 @@ init_tokens() {
     > "$LOG_FILE"
 }
-# Extract session result from JSON output.
+# Extract session result from command output.
 # Writes human-readable result text to the .log file and captures session_id.
-# Usage: extract_session_result <raw_json_file>
+# Usage: extract_session_result <raw_file> [cli]
 # Sets: LAST_SESSION_ID variable
 extract_session_result() {
     local raw_file="$1"
+    local cli="${2:-$LAST_RUN_CLI}"
     LAST_SESSION_ID=""
     if [ ! -f "$raw_file" ]; then return; fi
+    if [ "$cli" = "codex" ]; then
+        local result
+        result=$(python3 -c "
+import json, sys
+session = ''
+for line in open(sys.argv[1], encoding='utf-8', errors='ignore'):
+    line = line.strip()
+    if not line:
+        continue
+    try:
+        obj = json.loads(line)
+    except Exception:
+        continue
+    stack = [obj]
+    while stack:
+        cur = stack.pop()
+        if isinstance(cur, dict):
+            for key in ('session_id', 'sessionId', 'conversation_id', 'conversationId', 'thread_id', 'threadId', 'response_id', 'responseId', 'run_id', 'runId'):
+                val = cur.get(key)
+                if isinstance(val, str) and val:
+                    session = val
+            # Newer Codex JSON can nest thread/session identifiers under typed objects.
+            node_type = cur.get('type')
+            if node_type in ('thread.started', 'session.started'):
+                val = cur.get('id')
+                if isinstance(val, str) and val:
+                    session = val
+            thread_obj = cur.get('thread')
+            if isinstance(thread_obj, dict):
+                val = thread_obj.get('id')
+                if isinstance(val, str) and val:
+                    session = val
+            for val in cur.values():
+                if isinstance(val, (dict, list)):
+                    stack.append(val)
+        elif isinstance(cur, list):
+            for val in cur:
+                if isinstance(val, (dict, list)):
+                    stack.append(val)
+print(session)
+" "$raw_file" 2>/dev/null) || true
+        LAST_SESSION_ID="$result"
+        if [ -n "$LAST_SESSION_ID" ]; then
+            echo "$LAST_SESSION_ID" >> "$SESSIONS_FILE"
+        fi
+        if [ -f "$LAST_MESSAGE_FILE" ]; then
+            cat "$LAST_MESSAGE_FILE" >> "$LOG_FILE" 2>/dev/null || true
+            echo "" >> "$LOG_FILE"
+        else
+            python3 -c "
+import json, sys
+for line in open(sys.argv[1], encoding='utf-8', errors='ignore'):
+    try:
+        obj = json.loads(line)
+    except Exception:
+        continue
+    if not isinstance(obj, dict):
+        continue
+    for key in ('output_text', 'text', 'content'):
+        val = obj.get(key)
+        if isinstance(val, str) and val.strip():
+            print(val.strip())
+" "$raw_file" >> "$LOG_FILE" 2>/dev/null || true
+        fi
+        return
+    fi
     local result
     result=$(python3 -c "
 import json, sys
@@ -210,29 +519,109 @@ except Exception:
 " "$raw_file" >> "$LOG_FILE" 2>/dev/null || true
 }
-# Accumulate tokens from a session JSONL file into the .tokens file.
-# Usage: accumulate_tokens_from_session <session_id>
+# Accumulate tokens into the .tokens file.
+# Usage: accumulate_tokens_from_session <session_id> [raw_file] [cli]
 accumulate_tokens_from_session() {
     local session_id="$1"
-    if [ -z "$session_id" ]; then return; fi
+    local raw_file="${2:-}"
+    local cli="${3:-$LAST_RUN_CLI}"
-    # Find the JSONL file for this session
-    local jsonl_file=""
-    for f in ~/.claude/projects/*/"${session_id}.jsonl"; do
-        if [ -f "$f" ]; then
-            jsonl_file="$f"
-            break
+    local s_input=0
+    local s_output=0
+    local s_cache_create=0
+    local s_cache_read=0
+    if [ "$cli" = "codex" ]; then
+        if [ -z "$raw_file" ] || [ ! -f "$raw_file" ]; then
+            return
         fi
-    done
-    if [ -z "$jsonl_file" ]; then
-        echo "WARNING: Could not find JSONL for session $session_id" >&2
-        return
-    fi
+        local session_tokens
+        session_tokens=$(python3 -c "
+import json, sys
+def to_int(v):
+    try:
+        return int(v)
+    except Exception:
+        return 0
+def usage_pair(usage):
+    input_tokens = (
+        to_int(usage.get('input_tokens'))
+        or to_int(usage.get('inputTokens'))
+        or to_int(usage.get('prompt_tokens'))
+        or to_int(usage.get('promptTokens'))
+    )
+    output_tokens = (
+        to_int(usage.get('output_tokens'))
+        or to_int(usage.get('outputTokens'))
+        or to_int(usage.get('completion_tokens'))
+        or to_int(usage.get('completionTokens'))
+    )
+    return input_tokens, output_tokens
+# Codex JSONL often contains repeated/cumulative usage in multiple events.
+# Use the highest observed values from a single run to avoid overcounting.
+max_input = 0
+max_output = 0
+for line in open(sys.argv[1], encoding='utf-8', errors='ignore'):
+    line = line.strip()
+    if not line:
+        continue
+    try:
+        obj = json.loads(line)
+    except Exception:
+        continue
+    stack = [obj]
+    while stack:
+        cur = stack.pop()
+        if isinstance(cur, dict):
+            if 'usage' in cur and isinstance(cur['usage'], dict):
+                usage = cur['usage']
+                u_in, u_out = usage_pair(usage)
+                if u_in > max_input:
+                    max_input = u_in
+                if u_out > max_output:
+                    max_output = u_out
+            for val in cur.values():
+                if isinstance(val, (dict, list)):
+                    stack.append(val)
+        elif isinstance(cur, list):
+            for val in cur:
+                if isinstance(val, (dict, list)):
+                    stack.append(val)
+print(f\"{max_input}|{max_output}|0|0\")
+" "$raw_file" 2>/dev/null) || true
+        if [ -n "$session_tokens" ]; then
+            s_input=$(echo "$session_tokens" | cut -d'|' -f1)
+            s_output=$(echo "$session_tokens" | cut -d'|' -f2)
+            s_cache_create=0
+            s_cache_read=0
+        fi
+    else
+        if [ -z "$session_id" ]; then return; fi
+        # Find the JSONL file for this session
+        local jsonl_file=""
+        for f in ~/.claude/projects/*/"${session_id}.jsonl"; do
+            if [ -f "$f" ]; then
+                jsonl_file="$f"
+                break
+            fi
+        done
+        if [ -z "$jsonl_file" ]; then
+            echo "WARNING: Could not find JSONL for session $session_id" >&2
+            return
+        fi
-    # Extract and sum token usage from all assistant messages
-    local session_tokens
-    session_tokens=$(python3 -c "
+        # Extract and sum token usage from all assistant messages
+        local session_tokens
+        session_tokens=$(python3 -c "
 import json, sys
 totals = {'input': 0, 'output': 0, 'cache_create': 0, 'cache_read': 0}
 for line in open(sys.argv[1]):
@@ -252,14 +641,19 @@ for line in open(sys.argv[1]):
 print(f\"{totals['input']}|{totals['output']}|{totals['cache_create']}|{totals['cache_read']}\")
 " "$jsonl_file" 2>/dev/null) || true
-    if [ -z "$session_tokens" ]; then return; fi
+        if [ -z "$session_tokens" ]; then return; fi
-    # Parse session tokens
-    local s_input s_output s_cache_create s_cache_read
-    s_input=$(echo "$session_tokens" | cut -d'|' -f1)
-    s_output=$(echo "$session_tokens" | cut -d'|' -f2)
-    s_cache_create=$(echo "$session_tokens" | cut -d'|' -f3)
-    s_cache_read=$(echo "$session_tokens" | cut -d'|' -f4)
+        # Parse session tokens
+        s_input=$(echo "$session_tokens" | cut -d'|' -f1)
+        s_output=$(echo "$session_tokens" | cut -d'|' -f2)
+        s_cache_create=$(echo "$session_tokens" | cut -d'|' -f3)
+        s_cache_read=$(echo "$session_tokens" | cut -d'|' -f4)
+    fi
+    [[ "$s_input" =~ ^[0-9]+$ ]] || s_input=0
+    [[ "$s_output" =~ ^[0-9]+$ ]] || s_output=0
+    [[ "$s_cache_create" =~ ^[0-9]+$ ]] || s_cache_create=0
+    [[ "$s_cache_read" =~ ^[0-9]+$ ]] || s_cache_read=0
     # Read current totals
     local current c_input c_output c_cache_create c_cache_read
@@ -396,7 +790,51 @@ detect_plan_format() {
     echo "unknown"
 }
-# Check if any tracked files were changed since baseline.
+# Snapshot tracked dirty files before loop execution starts.
+# Each entry stores <path>\t<working-tree blob hash or __MISSING__ marker>.
+capture_pre_run_dirty_snapshot() {
+    local baseline="$1"
+    > "$PRE_RUN_DIRTY_FILE"
+    if [ -z "$baseline" ]; then
+        return
+    fi
+    python3 - "$baseline" "$PRE_RUN_DIRTY_FILE" <<'PY' 2>/dev/null || true
+import os
+import subprocess
+import sys
+baseline = sys.argv[1]
+output_path = sys.argv[2]
+try:
+    changed = subprocess.check_output(
+        ["git", "diff", "--name-only", baseline],
+        stderr=subprocess.DEVNULL,
+    ).splitlines()
+except Exception:
+    changed = []
+with open(output_path, "w", encoding="utf-8", errors="surrogateescape") as fh:
+    for raw_path in changed:
+        if not raw_path:
+            continue
+        path = raw_path.decode("utf-8", errors="surrogateescape")
+        marker = "__MISSING__"
+        if os.path.exists(path):
+            try:
+                marker = subprocess.check_output(
+                    ["git", "hash-object", "--", path],
+                    stderr=subprocess.DEVNULL,
+                    text=True,
+                ).strip()
+            except Exception:
+                marker = "__HASH_ERROR__"
+        fh.write(f"{path}\t{marker}\n")
+PY
+}
+# Check if any tracked files were changed since baseline (excluding unchanged
+# tracked edits that already existed before the loop started).
 # Counts ALL file types (code, docs, config) — not just source code.
 count_file_changes() {
     local baseline="$1"
@@ -405,14 +843,90 @@ count_file_changes() {
         return
     fi
     local count
-    count=$(git diff --name-only "${baseline}..HEAD" 2>/dev/null | wc -l | tr -d ' ') || count=0
+    # Compare baseline commit against working tree; subtract pre-run dirty files
+    # unless that specific file changed again after loop start.
+    count=$(python3 - "$baseline" "$PRE_RUN_DIRTY_FILE" <<'PY' 2>/dev/null || echo "0"
+import os
+import subprocess
+import sys
+baseline = sys.argv[1]
+snapshot_path = sys.argv[2]
+snapshot = {}
+if os.path.exists(snapshot_path):
+    with open(snapshot_path, "r", encoding="utf-8", errors="surrogateescape") as fh:
+        for line in fh:
+            line = line.rstrip("\n")
+            if not line or "\t" not in line:
+                continue
+            path, marker = line.split("\t", 1)
+            snapshot[path] = marker
+try:
+    changed = subprocess.check_output(
+        ["git", "diff", "--name-only", baseline],
+        stderr=subprocess.DEVNULL,
+    ).splitlines()
+except Exception:
+    print("0")
+    raise SystemExit(0)
+count = 0
+for raw_path in changed:
+    if not raw_path:
+        continue
+    path = raw_path.decode("utf-8", errors="surrogateescape")
+    start_marker = snapshot.get(path)
+    if start_marker is None:
+        count += 1
+        continue
+    current_marker = "__MISSING__"
+    if os.path.exists(path):
+        try:
+            current_marker = subprocess.check_output(
+                ["git", "hash-object", "--", path],
+                stderr=subprocess.DEVNULL,
+                text=True,
+            ).strip()
+        except Exception:
+            current_marker = "__HASH_ERROR__"
+    if current_marker != start_marker:
+        count += 1
+print(count)
+PY
+)
     echo "$count"
 }
-# Extract review findings text from a Claude JSON output file.
+# Extract review findings text from command output.
 # Returns the result text from the last result entry.
 extract_review_findings() {
     local raw_file="$1"
+    local cli="${2:-$LAST_RUN_CLI}"
+    if [ "$cli" = "codex" ]; then
+        if [ -f "$LAST_MESSAGE_FILE" ]; then
+            cat "$LAST_MESSAGE_FILE" 2>/dev/null || echo "No review output available"
+            return
+        fi
+        python3 -c "
+import json, sys
+for line in open(sys.argv[1], encoding='utf-8', errors='ignore'):
+    try:
+        obj = json.loads(line)
+    except Exception:
+        continue
+    if isinstance(obj, dict):
+        for key in ('output_text', 'text', 'content'):
+            val = obj.get(key)
+            if isinstance(val, str) and val.strip():
+                print(val.strip())
+" "$raw_file" 2>/dev/null || echo "No review output available"
+        return
+    fi
     python3 -c "
 import json, sys
 try:
@@ -428,11 +942,16 @@ except Exception:
 }
 # Run a fix iteration based on code review findings.
-# Pipes the review output into Claude for targeted fixes.
+# Pipes the review output into the implementation CLI for targeted fixes.
 run_review_fix() {
     local findings
+    local impl_cli="$CODING_CLI"
     findings=$(extract_review_findings "${CLAUDE_OUTPUT}.raw")
-    cat <<FIXEOF | $CLAUDE_CMD_IMPL 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+    local -a impl_cmd_parts=()
+    read -r -a impl_cmd_parts <<< "$IMPL_CMD"
+    if [ "$impl_cli" = "codex" ]; then
+        LAST_RUN_CLI="codex"
+        cat <<FIXEOF | "${impl_cmd_parts[@]}" --json --output-last-message "$LAST_MESSAGE_FILE" - 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
 ## Code Review Findings
 The following issues were found during code review:
@@ -447,8 +966,51 @@ Fix each issue listed above. Run git diff $DEFAULT_BRANCH to see the current cha
 3. Commit and push the fixes
 Do NOT propose completion options or ask interactive questions. Just fix, test, commit, push.
 FIXEOF
-    extract_session_result "${CLAUDE_OUTPUT}.raw"
-    accumulate_tokens_from_session "$LAST_SESSION_ID"
+    else
+        LAST_RUN_CLI="claude"
+        cat <<FIXEOF | "${impl_cmd_parts[@]}" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+## Code Review Findings
+The following issues were found during code review:
+${findings}
+## Task
+Fix each issue listed above. Run git diff $DEFAULT_BRANCH to see the current changes, then:
+1. Fix each issue referenced in the review
+2. Run tests to verify fixes
+3. Commit and push the fixes
+Do NOT propose completion options or ask interactive questions. Just fix, test, commit, push.
+FIXEOF
+    fi
+    extract_session_result "${CLAUDE_OUTPUT}.raw" "$impl_cli"
+    accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$impl_cli"
+}
+validate_simple_command() {
+    local command="$1"
+    if [[ "$command" =~ [\;\&\|\<\>\`\$\(\)] ]]; then
+        return 1
+    fi
+    if [[ "$command" =~ [[:cntrl:]] ]]; then
+        return 1
+    fi
+    return 0
+}
+run_test_command() {
+    if ! validate_simple_command "$TEST_COMMAND"; then
+        echo "ERROR: commands.test contains unsupported shell operators. Use a plain command and arguments." >&2
+        return 2
+    fi
+    local -a test_cmd_parts=()
+    read -r -a test_cmd_parts <<< "$TEST_COMMAND"
+    if [ ${#test_cmd_parts[@]} -eq 0 ]; then
+        echo "ERROR: commands.test resolved to an empty command." >&2
+        return 2
+    fi
+    (cd "$APP_DIR" && "${test_cmd_parts[@]}")
 }
 # Normalize test failure lines: extract test name, strip timing, deduplicate.
@@ -461,7 +1023,7 @@ normalize_test_failures() {
 # Returns 0 if tests pass OR all failures are pre-existing (captured at baseline).
 check_tests_pass_or_baseline() {
     local test_output
-    test_output=$( (cd "$APP_DIR" && eval "$TEST_COMMAND") 2>&1 )
+    test_output=$(run_test_command 2>&1)
     local exit_code=$?
     if [ $exit_code -eq 0 ]; then
@@ -523,7 +1085,7 @@ write_phase_end() {
 # Initialize phase tracking
 > "$PHASES_FILE"
-FEATURE="${1:?Usage: ./feature-loop.sh <feature-name> [max-iterations] [max-e2e-attempts] [--worktree] [--resume] [--model MODEL]}"
+FEATURE="${1:?Usage: ./feature-loop.sh <feature-name> [max-iterations] [max-e2e-attempts] [--worktree] [--resume] [--model MODEL] [--cli CLI] [--review-cli CLI] [--review-mode MODE]}"
 # Sanitize feature name to prevent path traversal and shell injection when used in temp file paths
 if [[ ! "$FEATURE" =~ ^[a-zA-Z0-9][a-zA-Z0-9_-]*$ ]]; then
     echo "ERROR: Feature name must start with alphanumeric and contain only letters, numbers, hyphens, and underscores." >&2
@@ -538,6 +1100,15 @@ SPEC_FILE="$SPEC_DIR/${FEATURE}.md"
 PLAN_FILE="$SPEC_DIR/${FEATURE}-implementation-plan.md"
 BRANCH="feat/${FEATURE}"
 APP_DIR="$(pwd)"
+PLANNING_CMD=$(get_phase_cmd "planning")
+IMPL_CMD=$(get_phase_cmd "implementation")
+REVIEW_CMD=$(get_phase_cmd "review")
+# Fail fast if required CLIs are not installed.
+check_cli_binary "$CODING_CLI"
+if [ "$REVIEW_CLI" != "$CODING_CLI" ]; then
+    check_cli_binary "$REVIEW_CLI"
+fi
 echo "=========================================="
 echo "Ralph Loop: $FEATURE"
@@ -547,9 +1118,26 @@ echo "Branch: $BRANCH"
 echo "App dir: $APP_DIR"
 echo "Worktree mode: $USE_WORKTREE"
 echo "Resume mode: $RESUME"
+echo "Coding CLI (impl/e2e): $CODING_CLI"
+echo "Review CLI: $REVIEW_CLI"
 echo "Review mode: $REVIEW_MODE"
-echo "Model (planning): $PLANNING_MODEL"
-echo "Model (impl): ${MODEL:-$DEFAULT_MODEL}"
+echo "Claude permission mode: $CLAUDE_PERMISSION_MODE"
+echo "Codex sandbox: $CODEX_SANDBOX"
+echo "Codex approval policy: $CODEX_APPROVAL_POLICY"
+if [ "${RALPH_AUTOMATED:-}" = "1" ]; then
+    echo "Disable MCP in automated runs: $DISABLE_MCP_IN_AUTOMATED_NORM"
+fi
+if [ "$CODING_CLI" = "codex" ] && [ "$REVIEW_CLI" = "codex" ]; then
+    echo "Model (all phases): $(resolve_codex_model)"
+else
+    if [ "$CODING_CLI" = "claude" ] || [ "$REVIEW_CLI" = "claude" ]; then
+        echo "Model (Claude planning/review): $PLANNING_MODEL"
+        echo "Model (Claude impl/e2e): ${MODEL:-$DEFAULT_MODEL}"
+    fi
+    if [ "$CODING_CLI" = "codex" ] || [ "$REVIEW_CLI" = "codex" ]; then
+        echo "Model (Codex phases): $(resolve_codex_model)"
+    fi
+fi
 echo "Max iterations: $MAX_ITERATIONS"
 echo "Max E2E attempts: $MAX_E2E_ATTEMPTS"
 echo "=========================================="
@@ -588,7 +1176,7 @@ fi
 # tasks to be checked — the checkboxes may be stale if the work shipped under a
 # different branch name that never updated this plan file.
 if [ -f "$PLAN_FILE" ]; then
-    _DIFF_STAT=$(git diff "$DEFAULT_BRANCH..HEAD" --stat 2>/dev/null || echo "")
+    _DIFF_STAT=$(git diff "${DEFAULT_BRANCH}..HEAD" --stat 2>/dev/null || echo "")
     if [ -z "$_DIFF_STAT" ]; then
         echo "Plan exists but branch has no diff to $DEFAULT_BRANCH — work already merged."
         > "$PHASES_FILE"
@@ -612,17 +1200,18 @@ if git rev-parse --git-dir > /dev/null 2>&1; then
     if [ -n "$BASELINE_COMMIT" ]; then
         echo "$BASELINE_COMMIT" > "$BASELINE_FILE"
         echo "Baseline commit: $BASELINE_COMMIT"
+        capture_pre_run_dirty_snapshot "$BASELINE_COMMIT"
     fi
 fi
 # Capture baseline test failures for pre-existing failure detection
 BASELINE_FAILURES_FILE="/tmp/ralph-loop-${FEATURE}.baseline-failures"
 echo "Capturing baseline test failures..."
-if (cd "$APP_DIR" && eval "$TEST_COMMAND" 2>&1) > /dev/null 2>&1; then
+if run_test_command > /dev/null 2>&1; then
     echo "Baseline: all tests passing"
     : > "$BASELINE_FAILURES_FILE"
 else
-    (cd "$APP_DIR" && eval "$TEST_COMMAND" 2>&1) | normalize_test_failures > "$BASELINE_FAILURES_FILE" 2>/dev/null || true
+    run_test_command 2>&1 | normalize_test_failures > "$BASELINE_FAILURES_FILE" 2>/dev/null || true
     BASELINE_COUNT=$(wc -l < "$BASELINE_FAILURES_FILE" | tr -d ' ')
     echo "Baseline: $BASELINE_COUNT pre-existing test failure(s) recorded"
 fi
@@ -634,14 +1223,14 @@ echo "0|$MAX_ITERATIONS|$(date +%s)" > "$STATUS_FILE"
 if [ ! -f "$PLAN_FILE" ]; then
     echo "======================== PLANNING PHASE ========================"
     write_phase_start "planning"
-    export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR
-    run_claude_prompt "$PROMPTS_DIR/PROMPT_feature.md" "$CLAUDE_CMD_OPUS" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || {
+    export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR CODING_CLI REVIEW_CLI REVIEW_MODE
+    run_claude_prompt "$PROMPTS_DIR/PROMPT_feature.md" "$PLANNING_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || {
         echo "ERROR: Planning phase failed"
         write_phase_end "planning" "failed"
         exit 1
     }
-    extract_session_result "${CLAUDE_OUTPUT}.raw"
-    accumulate_tokens_from_session "$LAST_SESSION_ID"
+    extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+    accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
     write_phase_end "planning" "success"
 else
     echo "Plan file exists, skipping planning phase"
@@ -693,10 +1282,30 @@ while true; do
         TASKS_BEFORE=$(count_pending_tasks "$PLAN_FILE")
         echo "Legacy plan format — relying on source-file gate for completion."
     fi
-    export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR
-    run_claude_prompt "$PROMPTS_DIR/PROMPT.md" "$CLAUDE_CMD_IMPL" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
-    extract_session_result "${CLAUDE_OUTPUT}.raw"
-    accumulate_tokens_from_session "$LAST_SESSION_ID"
+    export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR CODING_CLI REVIEW_CLI REVIEW_MODE
+    # Continuation prompt for implementation loop iterations 2+
+    CONTINUATION_PROMPT="Continue implementing the remaining tasks in the implementation plan at $SPEC_DIR/${FEATURE}-implementation-plan.md.
+Check off completed tasks as you go. Skip any E2E testing tasks.
+Run validation (lint, typecheck, test) after completing tasks."
+    if [ $ITERATION -eq 1 ] || [ -z "$LAST_SESSION_ID" ]; then
+        echo "Mode: fresh"
+        run_claude_prompt "$PROMPTS_DIR/PROMPT.md" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+    else
+        echo "Mode: resume (session: $LAST_SESSION_ID)"
+        RESUME_EXIT=0
+        run_claude_resume "$LAST_SESSION_ID" "$CONTINUATION_PROMPT" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || RESUME_EXIT=$?
+        extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+        if [ $RESUME_EXIT -ne 0 ] || [ -z "$LAST_SESSION_ID" ]; then
+            if [ $RESUME_EXIT -ne 0 ]; then
+                echo "Resume failed (resume_exit_nonzero: exit=$RESUME_EXIT). Fallback: using fresh prompt"
+            else
+                echo "Resume failed (resume_no_session_id). Fallback: using fresh prompt"
+            fi
+            run_claude_prompt "$PROMPTS_DIR/PROMPT.md" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+        fi
+    fi
+    extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+    accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
     # Check if any progress was made
     TASKS_AFTER=$(count_pending_tasks "$PLAN_FILE")
@@ -752,6 +1361,20 @@ if [ "$IMPL_SUCCESS" = true ]; then
     fi
 fi
+# Stop early when implementation failed to avoid wasting E2E/review cycles.
+if [ "$IMPL_SUCCESS" != true ]; then
+    echo "Implementation phase failed. Skipping remaining phases."
+    write_phase_start "e2e_testing"
+    write_phase_end "e2e_testing" "skipped"
+    write_phase_start "verification"
+    write_phase_end "verification" "skipped"
+    write_phase_start "pr_review"
+    write_phase_end "pr_review" "skipped"
+    echo "$ITERATION|$MAX_ITERATIONS|$(date +%s)|failed" > "$FINAL_STATUS_FILE"
+    rm -f "$STATUS_FILE" 2>/dev/null || true
+    exit 1
+fi
 # Phase 5: E2E Testing
 echo "======================== E2E TESTING PHASE ========================"
 E2E_TOTAL=$({ grep "^- \[.\].*E2E:" "$PLAN_FILE" 2>/dev/null || true; } | wc -l | tr -d ' ')
@@ -763,14 +1386,32 @@ else
     write_phase_start "e2e_testing"
     E2E_SUCCESS=false
     E2E_ATTEMPT=0
+    E2E_SESSION_ID=""
+    E2E_CONTINUATION_PROMPT="Continue remaining E2E scenarios. Check the implementation plan for unchecked \`- [ ] E2E:\` entries and implement/run those tests. Run validation after completing each scenario."
     while [ $E2E_ATTEMPT -lt $MAX_E2E_ATTEMPTS ]; do
         E2E_ATTEMPT=$((E2E_ATTEMPT + 1))
+        echo "$E2E_ATTEMPT|$MAX_E2E_ATTEMPTS|$(date +%s)" > "$STATUS_FILE"
         echo "------------------------ E2E Attempt $E2E_ATTEMPT of $MAX_E2E_ATTEMPTS ------------------------"
-        export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR
-        run_claude_prompt "$PROMPTS_DIR/PROMPT_e2e.md" "$CLAUDE_CMD_IMPL" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
-        extract_session_result "${CLAUDE_OUTPUT}.raw"
-        accumulate_tokens_from_session "$LAST_SESSION_ID"
+        export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR CODING_CLI REVIEW_CLI REVIEW_MODE
+        if [ $E2E_ATTEMPT -eq 1 ] || [ -z "$E2E_SESSION_ID" ]; then
+            echo "E2E attempt $E2E_ATTEMPT: using full prompt"
+            run_claude_prompt "$PROMPTS_DIR/PROMPT_e2e.md" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+        else
+            echo "E2E attempt $E2E_ATTEMPT: using resume session $E2E_SESSION_ID"
+            E2E_RESUME_EXIT=0
+            run_claude_resume "$E2E_SESSION_ID" "$E2E_CONTINUATION_PROMPT" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || E2E_RESUME_EXIT=$?
+            extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+            if [ $E2E_RESUME_EXIT -ne 0 ] || [ -z "$LAST_SESSION_ID" ]; then
+                echo "E2E attempt $E2E_ATTEMPT: resume unavailable, using full prompt"
+                run_claude_prompt "$PROMPTS_DIR/PROMPT_e2e.md" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+            fi
+        fi
+        extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+        if [ -n "$LAST_SESSION_ID" ]; then
+            E2E_SESSION_ID="$LAST_SESSION_ID"
+        fi
+        accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
         # Check if all E2E tests passed
         E2E_FAILED=$({ grep "^- \[ \].*E2E:.*FAILED" "$PLAN_FILE" 2>/dev/null || true; } | wc -l | tr -d ' ')
@@ -784,9 +1425,24 @@ else
         if [ $E2E_ATTEMPT -lt $MAX_E2E_ATTEMPTS ]; then
             echo "E2E tests have failures. Running fix iteration..."
-            run_claude_prompt "$PROMPTS_DIR/PROMPT.md" "$CLAUDE_CMD_IMPL" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
-            extract_session_result "${CLAUDE_OUTPUT}.raw"
-            accumulate_tokens_from_session "$LAST_SESSION_ID"
+            if [ -n "$E2E_SESSION_ID" ]; then
+                echo "E2E fix: using resume session $E2E_SESSION_ID"
+                E2E_FIX_EXIT=0
+                run_claude_resume "$E2E_SESSION_ID" "Fix the failing E2E tests identified above. Run validation after fixing." "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || E2E_FIX_EXIT=$?
+                extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+                if [ $E2E_FIX_EXIT -ne 0 ] || [ -z "$LAST_SESSION_ID" ]; then
+                    echo "E2E fix: resume unavailable, using full prompt"
+                    run_claude_prompt "$PROMPTS_DIR/PROMPT_e2e_fix.md" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+                fi
+            else
+                echo "E2E fix: resume unavailable, using full prompt"
+                run_claude_prompt "$PROMPTS_DIR/PROMPT_e2e_fix.md" "$IMPL_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+            fi
+            extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+            if [ -n "$LAST_SESSION_ID" ]; then
+                E2E_SESSION_ID="$LAST_SESSION_ID"
+            fi
+            accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
         fi
     done
@@ -797,21 +1453,16 @@ else
     fi
 fi
-# Phase 6: Spec Verification
-echo "======================== SPEC VERIFICATION PHASE ========================"
+# Phase 6: Spec Verification (merged into review phase)
+# Verification responsibilities (spec status, acceptance criteria, README updates)
+# are now handled in Step 0 of the review prompt templates.
+# This no-op marker preserves backward compatibility for TUI phase tracking.
 write_phase_start "verification"
-export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR
-VERIFY_STATUS="success"
-if ! run_claude_prompt "$PROMPTS_DIR/PROMPT_verify.md" "$CLAUDE_CMD_OPUS" 2>&1 | tee "${CLAUDE_OUTPUT}.raw"; then
-    VERIFY_STATUS="failed"
-fi
-extract_session_result "${CLAUDE_OUTPUT}.raw"
-accumulate_tokens_from_session "$LAST_SESSION_ID"
-write_phase_end "verification" "$VERIFY_STATUS"
+write_phase_end "verification" "skipped"
 # Guard B: Skip PR phase if branch has no diff to default branch
 # Safety net for cases where implementation ran but produced no net diff.
-_PR_DIFF_STAT=$(git diff "$DEFAULT_BRANCH..HEAD" --stat 2>/dev/null || echo "")
+_PR_DIFF_STAT=$(git diff "${DEFAULT_BRANCH}..HEAD" --stat 2>/dev/null || echo "")
 if [ -z "$_PR_DIFF_STAT" ]; then
     echo "No diff between $BRANCH and $DEFAULT_BRANCH — skipping PR phase."
     write_phase_start "pr_review"
@@ -824,12 +1475,14 @@ if [ -z "$_PR_DIFF_STAT" ]; then
     exit 0
 fi
-# Phase 7: PR and Review
+# Phase 7: PR and Review (includes spec verification via Step 0 in review prompts)
 echo "======================== PR & REVIEW PHASE ========================"
 write_phase_start "pr_review"
-export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR
+export FEATURE APP_DIR SPEC_DIR PROMPTS_DIR CODING_CLI REVIEW_CLI REVIEW_MODE
 PR_STATUS="success"
 MAX_REVIEW_ATTEMPTS=3
+REVIEW_SESSION_ID=""
+REVIEW_CONTINUATION_PROMPT="The issues from the previous review have been fixed. Re-run the code review, checking only for remaining issues. Report your verdict."
 # Short-circuit: skip review if no files exist in diff
 _REVIEW_FILE_CHANGES=$(count_file_changes "$BASELINE_COMMIT")
@@ -860,14 +1513,7 @@ check_review_approved() {
         fi
     fi
-    # Secondary: check if PR was already merged (Claude may merge before verdict is captured)
-    local pr_state
-    pr_state=$(gh pr view "$BRANCH" --json state --jq '.state' 2>/dev/null || echo "")
-    if [ "$pr_state" = "MERGED" ]; then
-        return 0
-    fi
-    # Tertiary: check the latest PR comment for approval signal
+    # Secondary: check the latest PR comment for approval signal
     local latest_comment
     latest_comment=$(gh pr view "$BRANCH" --json comments --jq '.comments[-1].body' 2>/dev/null || echo "")
     if echo "$latest_comment" | grep -qi "VERDICT:.*APPROVED" 2>/dev/null; then
@@ -879,12 +1525,60 @@ check_review_approved() {
     return 1
 }
+# Wait for CI checks to finish and pass.
+# Returns 0 when checks pass (or no checks exist), 1 on failure.
+wait_for_ci_checks() {
+    local pr_ref="$1"
+    echo "Waiting for CI checks on $pr_ref..."
+    local checks_output=""
+    checks_output=$(gh pr checks "$pr_ref" --watch --interval 10 2>&1)
+    local checks_exit=$?
+    echo "$checks_output"
+    if [ $checks_exit -eq 0 ]; then
+        echo "CI checks passed."
+        return 0
+    fi
+    # Some repos have no checks configured for certain PRs.
+    if echo "$checks_output" | grep -qiE "no checks|no status checks"; then
+        echo "No CI checks found for $pr_ref. Continuing."
+        return 0
+    fi
+    echo "ERROR: CI checks failed or did not complete successfully." >&2
+    return 1
+}
+# Merge PR after all gates are green.
+# Returns 0 on success, 1 on failure.
+merge_pr_after_ci_gate() {
+    local pr_ref="$1"
+    local pr_state
+    pr_state=$(gh pr view "$pr_ref" --json state --jq '.state' 2>/dev/null || echo "")
+    if [ "$pr_state" = "MERGED" ]; then
+        echo "PR already merged."
+        return 0
+    fi
+    echo "Merging PR after CI gate..."
+    if gh pr merge "$pr_ref" --squash --delete-branch; then
+        return 0
+    fi
+    echo "ERROR: Failed to merge PR $pr_ref after CI gate." >&2
+    return 1
+}
 if [ "$REVIEW_MODE" = "manual" ]; then
-    if ! run_claude_prompt "$PROMPTS_DIR/PROMPT_review_manual.md" "$CLAUDE_CMD_OPUS" 2>&1 | tee "${CLAUDE_OUTPUT}.raw"; then
+    if ! run_claude_prompt "$PROMPTS_DIR/PROMPT_review_manual.md" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw"; then
         PR_STATUS="failed"
     fi
-    extract_session_result "${CLAUDE_OUTPUT}.raw"
-    accumulate_tokens_from_session "$LAST_SESSION_ID"
+    extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+    accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
 elif [ "$REVIEW_MODE" = "merge" ]; then
     # Merge mode: create PR, iterate review+fixes until approved, then merge
@@ -893,22 +1587,53 @@ elif [ "$REVIEW_MODE" = "merge" ]; then
     while [ $REVIEW_ATTEMPT -lt $MAX_REVIEW_ATTEMPTS ]; do
         REVIEW_ATTEMPT=$((REVIEW_ATTEMPT + 1))
         echo "--- Review attempt $REVIEW_ATTEMPT of $MAX_REVIEW_ATTEMPTS ---"
-        run_claude_prompt "$PROMPTS_DIR/PROMPT_review_merge.md" "$CLAUDE_CMD_OPUS" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
-        extract_session_result "${CLAUDE_OUTPUT}.raw"
-        accumulate_tokens_from_session "$LAST_SESSION_ID"
+        if [ $REVIEW_ATTEMPT -eq 1 ] || [ -z "$REVIEW_SESSION_ID" ]; then
+            echo "Review attempt $REVIEW_ATTEMPT: using full prompt"
+            run_claude_prompt "$PROMPTS_DIR/PROMPT_review_merge.md" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+        else
+            echo "Review attempt $REVIEW_ATTEMPT: using resume session $REVIEW_SESSION_ID"
+            REVIEW_RESUME_EXIT=0
+            run_claude_resume "$REVIEW_SESSION_ID" "$REVIEW_CONTINUATION_PROMPT" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || REVIEW_RESUME_EXIT=$?
+            extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+            if [ $REVIEW_RESUME_EXIT -ne 0 ] || [ -z "$LAST_SESSION_ID" ]; then
+                echo "Review attempt $REVIEW_ATTEMPT: resume unavailable, using full prompt"
+                run_claude_prompt "$PROMPTS_DIR/PROMPT_review_merge.md" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+            fi
+        fi
+        extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+        if [ $REVIEW_ATTEMPT -eq 1 ] && [ -n "$LAST_SESSION_ID" ]; then
+            REVIEW_SESSION_ID="$LAST_SESSION_ID"
+        fi
+        accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
         # Check stdout and PR comment for approval
         if check_review_approved "${CLAUDE_OUTPUT}.raw"; then
             echo "Review approved! Running post-approval test gate..."
             if check_tests_pass_or_baseline; then
                 echo "Post-approval test gate passed."
+                if ! wait_for_ci_checks "$BRANCH"; then
+                    PR_STATUS="failed"
+                    break
+                fi
+                if ! merge_pr_after_ci_gate "$BRANCH"; then
+                    PR_STATUS="failed"
+                    break
+                fi
                 REVIEW_APPROVED=true
                 break
             else
                 echo "WARNING: Tests failing after review approval. Running fix iteration..."
                 run_review_fix
                 if check_tests_pass_or_baseline; then
-                    echo "Tests pass after fix. Proceeding with merge."
+                    echo "Tests pass after fix. Running CI and merge gates."
+                    if ! wait_for_ci_checks "$BRANCH"; then
+                        PR_STATUS="failed"
+                        break
+                    fi
+                    if ! merge_pr_after_ci_gate "$BRANCH"; then
+                        PR_STATUS="failed"
+                        break
+                    fi
                     REVIEW_APPROVED=true
                     break
                 else
@@ -936,9 +1661,24 @@ else
     while [ $REVIEW_ATTEMPT -lt $MAX_REVIEW_ATTEMPTS ]; do
         REVIEW_ATTEMPT=$((REVIEW_ATTEMPT + 1))
         echo "--- Review attempt $REVIEW_ATTEMPT of $MAX_REVIEW_ATTEMPTS ---"
-        run_claude_prompt "$PROMPTS_DIR/PROMPT_review_auto.md" "$CLAUDE_CMD_OPUS" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
-        extract_session_result "${CLAUDE_OUTPUT}.raw"
-        accumulate_tokens_from_session "$LAST_SESSION_ID"
+        if [ $REVIEW_ATTEMPT -eq 1 ] || [ -z "$REVIEW_SESSION_ID" ]; then
+            echo "Review attempt $REVIEW_ATTEMPT: using full prompt"
+            run_claude_prompt "$PROMPTS_DIR/PROMPT_review_auto.md" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+        else
+            echo "Review attempt $REVIEW_ATTEMPT: using resume session $REVIEW_SESSION_ID"
+            REVIEW_RESUME_EXIT=0
+            run_claude_resume "$REVIEW_SESSION_ID" "$REVIEW_CONTINUATION_PROMPT" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || REVIEW_RESUME_EXIT=$?
+            extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+            if [ $REVIEW_RESUME_EXIT -ne 0 ] || [ -z "$LAST_SESSION_ID" ]; then
+                echo "Review attempt $REVIEW_ATTEMPT: resume unavailable, using full prompt"
+                run_claude_prompt "$PROMPTS_DIR/PROMPT_review_auto.md" "$REVIEW_CMD" 2>&1 | tee "${CLAUDE_OUTPUT}.raw" || true
+            fi
+        fi
+        extract_session_result "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
+        if [ $REVIEW_ATTEMPT -eq 1 ] && [ -n "$LAST_SESSION_ID" ]; then
+            REVIEW_SESSION_ID="$LAST_SESSION_ID"
+        fi
+        accumulate_tokens_from_session "$LAST_SESSION_ID" "${CLAUDE_OUTPUT}.raw" "$LAST_RUN_CLI"
         # Check stdout and PR comment for approval
         if check_review_approved "${CLAUDE_OUTPUT}.raw"; then
@@ -1016,6 +1756,8 @@ fi
 rm -f "$STATUS_FILE" 2>/dev/null || true
 rm -f "/tmp/ralph-loop-${FEATURE}.output" 2>/dev/null || true
 rm -f "/tmp/ralph-loop-${FEATURE}.output.raw" 2>/dev/null || true
+rm -f "/tmp/ralph-loop-${FEATURE}.last-message" 2>/dev/null || true
+rm -f "$PRE_RUN_DIRTY_FILE" 2>/dev/null || true
 # Print final token usage
 if [ -f "/tmp/ralph-loop-${FEATURE}.tokens" ]; then