npm - claude-evolve - Versions diffs - 1.11.12 → 1.11.13 - Mend

claude-evolve 1.11.12 → 1.11.13

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/bin/claude-evolve-check +115 -46
package/lib/config.sh +5 -4
package/package.json +1 -1

package/bin/claude-evolve-check CHANGED Viewed

@@ -2,8 +2,8 @@
 # claude-evolve-check - Health check for AI model configurations
 # Tests all configured AI models to verify they're working before starting evolution runs
 #
-# AIDEV-NOTE: Claude CLI hangs when called from subshells (command substitution).
-# We use temp files instead of $() to avoid this issue.
+# AIDEV-NOTE: Claude CLI has issues with timeout command and subshells.
+# We test each model by running it directly and checking the result file.
 set -e
@@ -22,15 +22,16 @@ LIB_DIR="$(dirname "$SCRIPT_DIR")/lib"
 source "$LIB_DIR/config.sh"
 load_config
-# Test timeout in seconds (short to fail fast)
+# Test timeout in seconds
 TEST_TIMEOUT=30
 # Simple test prompt
 TEST_PROMPT="Say hello in exactly 3 words."
-# Temp file for output (avoids subshell issues with claude CLI)
+# Temp files
 TEMP_OUTPUT=$(mktemp)
-trap "rm -f $TEMP_OUTPUT" EXIT
+TEMP_PID=$(mktemp)
+trap "rm -f $TEMP_OUTPUT $TEMP_PID" EXIT
 echo -e "${CYAN}🔍 Claude Evolve - AI Model Health Check${NC}"
 echo "============================================"
@@ -39,12 +40,11 @@ echo
 # Collect all unique models into a simple list
 ALL_MODELS=""
 for model in $LLM_RUN $LLM_RUN_FALLBACK $LLM_IDEATE $LLM_IDEATE_FALLBACK; do
-  # Check if model already in list
   if ! echo "$ALL_MODELS" | grep -q -w "$model"; then
     ALL_MODELS="$ALL_MODELS $model"
   fi
 done
-ALL_MODELS=$(echo "$ALL_MODELS" | xargs)  # Trim whitespace
+ALL_MODELS=$(echo "$ALL_MODELS" | xargs)
 echo "Models to test: $ALL_MODELS"
 echo
@@ -55,78 +55,147 @@ FAILED=0
 FAILED_MODELS=""
 TIMEOUT_MODELS=""
-# Test each model - inline commands to avoid subshell issues
-for model in $ALL_MODELS; do
-  echo -n "Testing $model... "
-  START_TIME=$(date +%s)
+# Test a single model by writing a tiny test script and running it
+test_model() {
+  local model="$1"
+  local prompt="$2"
+  local outfile="$3"
+  local max_wait="$4"
-  # Run directly, write to temp file to avoid subshell
-  set +e
+  # Write a self-contained test script
+  local test_script=$(mktemp)
   case "$model" in
     opus|sonnet|haiku)
-      timeout -k 5 $TEST_TIMEOUT claude --dangerously-skip-permissions --mcp-config '' --model "$model" -p "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << SCRIPT
+#!/usr/bin/env bash
+exec claude --dangerously-skip-permissions --mcp-config '' --model $model -p "\$1"
+SCRIPT
       ;;
-    opus-think|sonnet-think)
-      base_model="${model%-think}"
-      timeout -k 5 $TEST_TIMEOUT claude --dangerously-skip-permissions --mcp-config '' --model "$base_model" -p "ultrathink
+    opus-think)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec claude --dangerously-skip-permissions --mcp-config '' --model opus -p "ultrathink
-$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+$1"
+SCRIPT
+      ;;
+    sonnet-think)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec claude --dangerously-skip-permissions --mcp-config '' --model sonnet -p "ultrathink
+$1"
+SCRIPT
       ;;
     gemini-pro)
-      timeout -k 5 $TEST_TIMEOUT gemini -y -m gemini-3-pro-preview -p "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec gemini -y -m gemini-3-pro-preview -p "$1"
+SCRIPT
       ;;
     gemini-flash|gemini-3-flash)
-      timeout -k 5 $TEST_TIMEOUT gemini -y -m gemini-2.5-flash -p "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec gemini -y -m gemini-2.5-flash -p "$1"
+SCRIPT
       ;;
     kimi-coder)
-      timeout -k 5 $TEST_TIMEOUT kimi --print -y -m kimi-for-coding -c "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec kimi --print -y -m kimi-for-coding -c "$1"
+SCRIPT
       ;;
     kimi-k2.5)
-      timeout -k 5 $TEST_TIMEOUT opencode -m openrouter/moonshotai/kimi-k2.5 run "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m openrouter/moonshotai/kimi-k2.5 run "$1"
+SCRIPT
       ;;
     glm-5)
-      timeout -k 5 $TEST_TIMEOUT opencode -m openrouter/z-ai/glm-5 run "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m openrouter/z-ai/glm-5 run "$1"
+SCRIPT
       ;;
     glm-5-zai)
-      timeout -k 5 $TEST_TIMEOUT opencode -m zai-coding-plan/glm-5 run "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m zai-coding-plan/glm-5 run "$1"
+SCRIPT
       ;;
     glm-zai)
-      timeout -k 5 $TEST_TIMEOUT opencode -m zai-coding-plan/glm-4.7 run "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m zai-coding-plan/glm-4.7 run "$1"
+SCRIPT
       ;;
     codex-oss-local)
-      timeout -k 5 $TEST_TIMEOUT codex exec --dangerously-bypass-approvals-and-sandbox --skip-git-repo-check --oss --local-provider=ollama "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec codex exec --dangerously-bypass-approvals-and-sandbox --skip-git-repo-check --oss --local-provider=ollama "$1"
+SCRIPT
       ;;
     gpt5|gpt5high)
-      timeout -k 5 $TEST_TIMEOUT codex exec --dangerously-bypass-approvals-and-sandbox "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec codex exec --dangerously-bypass-approvals-and-sandbox "$1"
+SCRIPT
       ;;
     qwen)
-      timeout -k 5 $TEST_TIMEOUT opencode -m openrouter/qwen/qwen3.5-plus-02-15 run "$TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
-      EXIT_CODE=$?
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m openrouter/qwen/qwen3.5-plus-02-15 run "$1"
+SCRIPT
       ;;
     *)
-      echo "Unknown model: $model" > "$TEMP_OUTPUT"
-      EXIT_CODE=1
+      echo "Unknown model: $model" > "$outfile"
+      rm -f "$test_script"
+      return 1
       ;;
   esac
+  chmod +x "$test_script"
+  # Run the test script in background, capture output to file
+  "$test_script" "$prompt" > "$outfile" 2>&1 &
+  local pid=$!
+  # Poll for completion
+  local elapsed=0
+  while kill -0 "$pid" 2>/dev/null; do
+    if [[ $elapsed -ge $max_wait ]]; then
+      kill "$pid" 2>/dev/null
+      sleep 1
+      kill -9 "$pid" 2>/dev/null
+      wait "$pid" 2>/dev/null
+      rm -f "$test_script"
+      return 124
+    fi
+    sleep 1
+    ((elapsed++))
+  done
+  wait "$pid"
+  local rc=$?
+  rm -f "$test_script"
+  return $rc
+}
+# Test each model
+for model in $ALL_MODELS; do
+  echo -n "Testing $model... "
+  START_TIME=$(date +%s)
+  set +e
+  test_model "$model" "$TEST_PROMPT" "$TEMP_OUTPUT" "$TEST_TIMEOUT"
+  EXIT_CODE=$?
   set -e
   END_TIME=$(date +%s)
   DURATION=$((END_TIME - START_TIME))
-  # Read output from temp file
-  OUTPUT=$(cat "$TEMP_OUTPUT")
+  # Read output
+  OUTPUT=$(cat "$TEMP_OUTPUT" 2>/dev/null || true)
   OUTPUT_LEN=${#OUTPUT}
   # Check result
@@ -134,7 +203,7 @@ $TEST_PROMPT" > "$TEMP_OUTPUT" 2>&1
     echo -e "${GREEN}✓ OK${NC} (${DURATION}s, ${OUTPUT_LEN} chars)"
     ((PASSED++))
   elif [[ $EXIT_CODE -eq 124 ]]; then
-    echo -e "${RED}✗ TIMEOUT${NC} (${TEST_TIMEOUT}s - likely permission dialog or hanging)"
+    echo -e "${RED}✗ TIMEOUT${NC} (${TEST_TIMEOUT}s)"
     TIMEOUT_MODELS="$TIMEOUT_MODELS $model"
     ((FAILED++))
   else

package/lib/config.sh CHANGED Viewed

@@ -61,18 +61,19 @@ DEFAULT_WORKER_MAX_CANDIDATES=3
 # Primary: Strong models used in normal operation
 # Fallback: Cheap/backup models used only when primary tier exhausted
 #
-# Run: GLM-5 and Qwen are primary models for code generation
+# Run: Primary models for code generation
+# Sonnet 4.6: 79.6% SWE-bench, $3/$15 per M tokens
 # GLM-5: 744B MoE, $0.80/M tokens, 77.8% SWE-bench
 # Qwen: hybrid linear attention + sparse MoE, strong reasoning
-DEFAULT_LLM_RUN="glm-5 glm-5 qwen kimi-k2.5 kimi-k2.5"
-DEFAULT_LLM_RUN_FALLBACK="gemini-3-flash codex-oss-local haiku"
+DEFAULT_LLM_RUN="sonnet glm-5 glm-5 qwen kimi-k2.5"
+DEFAULT_LLM_RUN_FALLBACK="gemini-3-flash codex-oss-local"
 #
 # Ideate: Only agentic models that can edit files reliably
 # AIDEV-NOTE: Ideation REQUIRES file editing - non-agentic models (opencode run, codex) return text
 # but don't actually edit files. Only use claude/gemini CLI, cursor-agent, or zai-coding-plan models.
 # OpenRouter models (via opencode) are chat-only and CANNOT edit files for ideation.
 DEFAULT_LLM_IDEATE="opus-think sonnet-think glm-5-zai gemini-pro kimi-coder"
-DEFAULT_LLM_IDEATE_FALLBACK="sonnet glm-zai haiku"
+DEFAULT_LLM_IDEATE_FALLBACK="sonnet glm-5-zai"
 # Load configuration from a YAML file and update variables
 _load_yaml_config() {

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "claude-evolve",
-  "version": "1.11.12",
+  "version": "1.11.13",
   "bin": {
     "claude-evolve": "bin/claude-evolve",
     "claude-evolve-main": "bin/claude-evolve-main",