npm - claude-evolve - Versions diffs - 1.11.11 → 1.11.13 - Mend

claude-evolve 1.11.11 → 1.11.13

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

package/bin/claude-evolve-check +146 -20
package/lib/ai-cli.sh +7 -0
package/lib/config.sh +7 -4
package/package.json +1 -1

package/bin/claude-evolve-check CHANGED Viewed

@@ -1,6 +1,9 @@
 #!/usr/bin/env bash
 # claude-evolve-check - Health check for AI model configurations
 # Tests all configured AI models to verify they're working before starting evolution runs
+#
+# AIDEV-NOTE: Claude CLI has issues with timeout command and subshells.
+# We test each model by running it directly and checking the result file.
 set -e
@@ -15,19 +18,21 @@ NC='\033[0m' # No Color
 SCRIPT_DIR="$(cd "$(dirname "$(readlink -f "${BASH_SOURCE[0]}" 2>/dev/null || echo "${BASH_SOURCE[0]}")")" && pwd)"
 LIB_DIR="$(dirname "$SCRIPT_DIR")/lib"
-# Source configuration
+# Source configuration to get model lists
 source "$LIB_DIR/config.sh"
 load_config
-# Source AI CLI for model calls
-source "$LIB_DIR/ai-cli.sh"
-# Test timeout in seconds (short to fail fast)
+# Test timeout in seconds
 TEST_TIMEOUT=30
 # Simple test prompt
 TEST_PROMPT="Say hello in exactly 3 words."
+# Temp files
+TEMP_OUTPUT=$(mktemp)
+TEMP_PID=$(mktemp)
+trap "rm -f $TEMP_OUTPUT $TEMP_PID" EXIT
 echo -e "${CYAN}🔍 Claude Evolve - AI Model Health Check${NC}"
 echo "============================================"
 echo
@@ -35,12 +40,11 @@ echo
 # Collect all unique models into a simple list
 ALL_MODELS=""
 for model in $LLM_RUN $LLM_RUN_FALLBACK $LLM_IDEATE $LLM_IDEATE_FALLBACK; do
-  # Check if model already in list
   if ! echo "$ALL_MODELS" | grep -q -w "$model"; then
     ALL_MODELS="$ALL_MODELS $model"
   fi
 done
-ALL_MODELS=$(echo "$ALL_MODELS" | xargs)  # Trim whitespace
+ALL_MODELS=$(echo "$ALL_MODELS" | xargs)
 echo "Models to test: $ALL_MODELS"
 echo
@@ -51,38 +55,160 @@ FAILED=0
 FAILED_MODELS=""
 TIMEOUT_MODELS=""
+# Test a single model by writing a tiny test script and running it
+test_model() {
+  local model="$1"
+  local prompt="$2"
+  local outfile="$3"
+  local max_wait="$4"
+  # Write a self-contained test script
+  local test_script=$(mktemp)
+  case "$model" in
+    opus|sonnet|haiku)
+      cat > "$test_script" << SCRIPT
+#!/usr/bin/env bash
+exec claude --dangerously-skip-permissions --mcp-config '' --model $model -p "\$1"
+SCRIPT
+      ;;
+    opus-think)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec claude --dangerously-skip-permissions --mcp-config '' --model opus -p "ultrathink
+$1"
+SCRIPT
+      ;;
+    sonnet-think)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec claude --dangerously-skip-permissions --mcp-config '' --model sonnet -p "ultrathink
+$1"
+SCRIPT
+      ;;
+    gemini-pro)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec gemini -y -m gemini-3-pro-preview -p "$1"
+SCRIPT
+      ;;
+    gemini-flash|gemini-3-flash)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec gemini -y -m gemini-2.5-flash -p "$1"
+SCRIPT
+      ;;
+    kimi-coder)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec kimi --print -y -m kimi-for-coding -c "$1"
+SCRIPT
+      ;;
+    kimi-k2.5)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m openrouter/moonshotai/kimi-k2.5 run "$1"
+SCRIPT
+      ;;
+    glm-5)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m openrouter/z-ai/glm-5 run "$1"
+SCRIPT
+      ;;
+    glm-5-zai)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m zai-coding-plan/glm-5 run "$1"
+SCRIPT
+      ;;
+    glm-zai)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m zai-coding-plan/glm-4.7 run "$1"
+SCRIPT
+      ;;
+    codex-oss-local)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec codex exec --dangerously-bypass-approvals-and-sandbox --skip-git-repo-check --oss --local-provider=ollama "$1"
+SCRIPT
+      ;;
+    gpt5|gpt5high)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec codex exec --dangerously-bypass-approvals-and-sandbox "$1"
+SCRIPT
+      ;;
+    qwen)
+      cat > "$test_script" << 'SCRIPT'
+#!/usr/bin/env bash
+exec opencode -m openrouter/qwen/qwen3.5-plus-02-15 run "$1"
+SCRIPT
+      ;;
+    *)
+      echo "Unknown model: $model" > "$outfile"
+      rm -f "$test_script"
+      return 1
+      ;;
+  esac
+  chmod +x "$test_script"
+  # Run the test script in background, capture output to file
+  "$test_script" "$prompt" > "$outfile" 2>&1 &
+  local pid=$!
+  # Poll for completion
+  local elapsed=0
+  while kill -0 "$pid" 2>/dev/null; do
+    if [[ $elapsed -ge $max_wait ]]; then
+      kill "$pid" 2>/dev/null
+      sleep 1
+      kill -9 "$pid" 2>/dev/null
+      wait "$pid" 2>/dev/null
+      rm -f "$test_script"
+      return 124
+    fi
+    sleep 1
+    ((elapsed++))
+  done
+  wait "$pid"
+  local rc=$?
+  rm -f "$test_script"
+  return $rc
+}
 # Test each model
 for model in $ALL_MODELS; do
   echo -n "Testing $model... "
-  # Run the test with timeout
   START_TIME=$(date +%s)
-  # Call the model directly using the configured command
   set +e
-  OUTPUT=$(timeout -k 5 $TEST_TIMEOUT bash -c "
-    source '$LIB_DIR/config.sh'
-    load_config
-    source '$LIB_DIR/ai-cli.sh'
-    call_ai_model_configured '$model' '$TEST_PROMPT' 2>/dev/null
-  " 2>&1)
+  test_model "$model" "$TEST_PROMPT" "$TEMP_OUTPUT" "$TEST_TIMEOUT"
   EXIT_CODE=$?
   set -e
   END_TIME=$(date +%s)
   DURATION=$((END_TIME - START_TIME))
+  # Read output
+  OUTPUT=$(cat "$TEMP_OUTPUT" 2>/dev/null || true)
+  OUTPUT_LEN=${#OUTPUT}
   # Check result
-  if [[ $EXIT_CODE -eq 0 ]] && [[ -n "$OUTPUT" ]] && [[ ${#OUTPUT} -gt 10 ]]; then
-    echo -e "${GREEN}✓ OK${NC} (${DURATION}s, ${#OUTPUT} chars)"
+  if [[ $EXIT_CODE -eq 0 ]] && [[ -n "$OUTPUT" ]] && [[ $OUTPUT_LEN -gt 10 ]]; then
+    echo -e "${GREEN}✓ OK${NC} (${DURATION}s, ${OUTPUT_LEN} chars)"
     ((PASSED++))
   elif [[ $EXIT_CODE -eq 124 ]]; then
-    echo -e "${RED}✗ TIMEOUT${NC} (${TEST_TIMEOUT}s - likely permission dialog or hanging)"
+    echo -e "${RED}✗ TIMEOUT${NC} (${TEST_TIMEOUT}s)"
     TIMEOUT_MODELS="$TIMEOUT_MODELS $model"
     ((FAILED++))
   else
-    echo -e "${RED}✗ FAILED${NC} (exit=$EXIT_CODE, ${#OUTPUT} chars)"
-    if [[ -n "$OUTPUT" ]] && [[ ${#OUTPUT} -lt 200 ]]; then
+    echo -e "${RED}✗ FAILED${NC} (exit=$EXIT_CODE, ${OUTPUT_LEN} chars)"
+    if [[ -n "$OUTPUT" ]] && [[ $OUTPUT_LEN -lt 200 ]]; then
       echo "    Output: $OUTPUT"
     fi
     FAILED_MODELS="$FAILED_MODELS $model"

package/lib/ai-cli.sh CHANGED Viewed

@@ -224,6 +224,13 @@ $prompt"
       ai_output=$(timeout -k 30 600 opencode -m openrouter/moonshotai/kimi-k2.5 run "$prompt" 2>&1)
       local ai_exit_code=$?
       ;;
+    qwen)
+      local ai_output
+      # Qwen latest - Alibaba's flagship model (currently qwen3.5-plus)
+      # Linear attention + sparse MoE, strong multimodal capabilities
+      ai_output=$(timeout -k 30 600 opencode -m openrouter/qwen/qwen3.5-plus-02-15 run "$prompt" 2>&1)
+      local ai_exit_code=$?
+      ;;
     codex-oss-local)
       # Codex-OSS via Codex CLI with Ollama backend
       local ai_output

package/lib/config.sh CHANGED Viewed

@@ -61,16 +61,19 @@ DEFAULT_WORKER_MAX_CANDIDATES=3
 # Primary: Strong models used in normal operation
 # Fallback: Cheap/backup models used only when primary tier exhausted
 #
-# Run: GLM-5 is now the primary model (744B MoE, $0.80/M tokens, 77.8% SWE-bench)
-DEFAULT_LLM_RUN="glm-5 glm-5 glm-5 kimi-k2.5 kimi-k2.5"
-DEFAULT_LLM_RUN_FALLBACK="gemini-3-flash codex-oss-local haiku"
+# Run: Primary models for code generation
+# Sonnet 4.6: 79.6% SWE-bench, $3/$15 per M tokens
+# GLM-5: 744B MoE, $0.80/M tokens, 77.8% SWE-bench
+# Qwen: hybrid linear attention + sparse MoE, strong reasoning
+DEFAULT_LLM_RUN="sonnet glm-5 glm-5 qwen kimi-k2.5"
+DEFAULT_LLM_RUN_FALLBACK="gemini-3-flash codex-oss-local"
 #
 # Ideate: Only agentic models that can edit files reliably
 # AIDEV-NOTE: Ideation REQUIRES file editing - non-agentic models (opencode run, codex) return text
 # but don't actually edit files. Only use claude/gemini CLI, cursor-agent, or zai-coding-plan models.
 # OpenRouter models (via opencode) are chat-only and CANNOT edit files for ideation.
 DEFAULT_LLM_IDEATE="opus-think sonnet-think glm-5-zai gemini-pro kimi-coder"
-DEFAULT_LLM_IDEATE_FALLBACK="sonnet glm-zai haiku"
+DEFAULT_LLM_IDEATE_FALLBACK="sonnet glm-5-zai"
 # Load configuration from a YAML file and update variables
 _load_yaml_config() {

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "claude-evolve",
-  "version": "1.11.11",
+  "version": "1.11.13",
   "bin": {
     "claude-evolve": "bin/claude-evolve",
     "claude-evolve-main": "bin/claude-evolve-main",