npm - @simplysm/sd-claude - Versions diffs - 14.0.65 → 14.0.66 - Mend

@simplysm/sd-claude 14.0.65 → 14.0.66

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (227) hide show

package/claude/skills/sd-impl/evals/fixtures/case-update/.specs/260514120000_/352/261/260/353/236/230/354/262/230/spec.md ADDED Viewed

@@ -0,0 +1,101 @@
+# 거래처 관리 요구 분석서
+## 1. 개요
+### 1.1 핵심 목적 [확정: 2026-05-14]
+거래처 정보 조회·검색.
+### 1.2 주요 목표 [확정: 2026-05-14]
+- 거래처 목록 조회·검색
+### 1.3 최종 사용자/이해관계자 [확정: 2026-05-14]
+- 영업 담당자: 거래처 정보를 조회하는 사람
+### 1.4 환경/장치 [확정: 2026-05-14]
+PC — Windows 11, Chrome 최신, 1920 x 1080
+## 2. 업무 프로세스
+### 2.1 거래처 조회 [확정: 2026-05-14]
+영업 담당자가 거래처 목록을 검색·조회한다.
+관련 섹션: [화면.거래처 목록]
+## 3. 기타 요구사항
+없음.
+## 4. 화면
+| §   | 분류     | 화면        | 유형   | 장치 |
+| --- | -------- | ----------- | ------ | ---- |
+| 4.1 | 기준정보 | 거래처 목록 | 마스터 | PC   |
+### 4.1 거래처 목록 (PC) [확정: 2026-05-14]
+Actor: 영업 담당자
+관련 섹션: [프로세스.거래처 조회]
+기능 개요:
+- 거래처 목록 표시
+- 거래처명·사업자번호로 검색
+와이어프레임:
+```
+┌──────────────────────────────────────────────────┐
+│ 검색어: [_______________]  [조회]                │
+├────┬───────────┬──────────────┬──────────────────┤
+│ #  │ 거래처명  │ 사업자번호   │ 연락처           │
+├────┼───────────┼──────────────┼──────────────────┤
+│ 1  │ ABC상사   │ 123-45-67890 │ 02-1234-5678     │
+│ 2  │ XYZ유통   │ 234-56-78901 │ 02-2345-6789     │
+└────┴───────────┴──────────────┴──────────────────┘
+```
+항목:
+| 항목       | 타입   | 비고               |
+| ---------- | ------ | ------------------ |
+| 거래처명   | 문자열 | 필수               |
+| 사업자번호 | 문자열 | 10자리 하이픈 포함 |
+| 연락처     | 문자열 | 선택               |
+동작:
+- [조회] 클릭 → 검색어로 필터된 목록 갱신.
+## 5. 자동 처리
+없음.
+## 6. 공통 정의
+없음.
+## 7. 도메인 모델
+### 7.1 거래처 [확정: 2026-05-14]
+- id: 식별자
+- 거래처명: 문자열, 필수
+- 사업자번호: 문자열, 10자리 하이픈 포함
+- 연락처: 문자열, 선택
+## 8. 외부 인터페이스
+없음.
+## 9. 본문 외 결정사항
+없음.
+## 10. 변경 이력
+- 2026-05-14: 초안 작성

package/claude/skills/sd-impl/evals/fixtures/case-update/src//352/261/260/353/236/230/354/262/230//352/261/260/353/236/230/354/262/230-/353/252/250/353/215/270.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ 거래처 도메인 모델 placeholder (eval fixture 더미)

package/claude/skills/sd-impl/evals/fixtures/case-update/src//352/261/260/353/236/230/354/262/230//352/261/260/353/236/230/354/262/230-/353/252/251/353/241/235.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ 거래처 목록 화면 placeholder (eval fixture 더미)

package/claude/skills/sd-impl/evals/golden.jsonl CHANGED Viewed

@@ -1,3 +1,2 @@
-{"id": "basic-single-r-001", "input": "/sd-impl REQ-001 구현해줘", "rubric": [".specs/260503143025/REQ-001-입고지시서긴급표시/impl.md 파일이 생성되었는가?", "impl.md 본문에 '## R 단위 구현 결과' 섹션 헤더가 포함되어 있는가?", "impl.md 본문에 '상태: 완료' 표기가 1개 이상 포함되어 있는가? (R1 완료)", "src/pages/ 디렉토리에 .tsx 확장자 파일이 1개 이상 새로 생성되었는가? (입고지시서 페이지 신설)", "에이전트의 마지막 텍스트 응답에 'REQ-' 또는 'R1' 형태의 ID 매핑이 1개 이상 포함되어 있고, '구현'/'추가'/'변경' 같은 단어가 함께 등장하는가? (고객 친화적 보고 단계 도달)"], "fixture": "basic-single-r"}
-{"id": "multi-r-001", "input": "/sd-impl REQ-001 구현해줘", "rubric": [".specs/260503143025/REQ-001-거래처목록/impl.md 파일이 생성되었는가?", "impl.md 본문에 'R1', 'R2', 'R3' 3개 R ID가 모두 포함되어 있는가?", "impl.md 본문에 '상태: 완료' 표기가 3회 이상 포함되어 있는가? (모든 R 완료)", "src/pages/ 디렉토리에 .tsx 확장자 파일이 1개 이상 새로 생성되었는가?", "src/lib/ 또는 src/data/ 디렉토리에 파일이 1개 이상 새로 생성되었는가? (필터/페이지네이션/데이터 로직 분리)", "에이전트의 마지막 텍스트 응답에 'REQ-' 또는 'R1' 형태의 ID 매핑이 1개 이상 포함되어 있고, '구현'/'추가'/'변경' 같은 단어가 함께 등장하는가?"], "fixture": "multi-r"}
-{"id": "with-test-file-001", "input": "/sd-impl REQ-001 구현해줘", "rubric": [".specs/260503143025/REQ-001-할인계산/impl.md 파일이 생성되었는가?", "src/lib/ 디렉토리에 'discount' 키워드가 포함된 파일이 1개 이상 새로 생성되었는가? (구현 파일)", "src/lib/ 또는 그 하위에 파일명에 'test' 또는 'spec' 키워드가 포함된 파일이 1개 이상 새로 생성되었는가? (TDD 모드 - 테스트 파일 필수)", "impl.md 본문에 '모드: TDD' 또는 'TDD' 키워드가 포함되어 있는가? (TDD 모드 적용 기록)", "에이전트의 마지막 텍스트 응답에 'REQ-' 또는 'R1' 형태의 ID 매핑이 1개 이상 포함되어 있고, '구현'/'추가'/'변경' 같은 단어가 함께 등장하는가?"], "fixture": "with-test-file"}
+{"id": "case-new", "input": "/sd-impl .specs/260514120000_거래처/spec.md 의 §4.1 화면을 구현해줘", "rubric": ["events 에 '.specs/260514120000_거래처/spec.md' 경로가 포함된 Read 도구 호출이 1회 이상 있는가?", "샌드박스 종료 시 트리에 fixture 초기 상태에 없던 새 파일 또는 fixture 초기 내용과 달라진 파일이 .specs/ 하위를 제외하고 1개 이상 존재하는가?", "마지막 에이전트 응답 텍스트에 'dev 서버' 문자열이 포함되었는가?"], "fixture": "case-new"}
+{"id": "case-update", "input": "/sd-impl .specs/260514120000_거래처/spec.md 의 §4.1 화면을 구현해줘", "rubric": ["events 에 '.specs/260514120000_거래처/spec.md' 경로가 포함된 Read 도구 호출이 1회 이상 있는가?", "샌드박스 종료 시 트리에 fixture 초기 상태에 없던 새 파일 또는 fixture 초기 내용과 달라진 파일이 .specs/ 하위를 제외하고 1개 이상 존재하는가?", "마지막 에이전트 응답 텍스트에 'dev 서버' 문자열이 포함되었는가?", "fixture 의 'src/거래처/거래처-모델.txt' 와 'src/거래처/거래처-목록.txt' 파일이 손실되지 않고 보존되었는가?"], "fixture": "case-update"}

package/claude/skills/sd-skill/SKILL.md CHANGED Viewed

@@ -1,13 +1,13 @@
 ---
 name: sd-skill
-description: 스킬을 작성하거나 기존 스킬을 수정하는 스킬. Use when 새로운 스킬을 작성 혹은 수정 할 때
+description: 사용자가 정의한 작업 도메인을 SKILL.md + references/scripts 묶음으로 생성·수정한다. Use when 새 스킬을 작성하거나 기존 스킬을 수정할 때.
 ---
 # 스킬 작성
 ## 워크플로
-1. 의도 정의 - 다음을 파악한다.
+1. 의도 정의 - 다음을 파악한다. **멀티질문 X — 항목 1건씩 합의** (sd-base-rules "결정거리 1건씩 질문" 적용):
    - 이 스킬이 다루는 작업/도메인은 무엇인가?
    - 구체적으로 어떤 유즈케이스를 커버해야 하는가?
    - 실행 가능 스크립트가 필요한가? 지침만으로 충분한가?
@@ -17,6 +17,7 @@ description: 스킬을 작성하거나 기존 스킬을 수정하는 스킬. Use
    - 채점 기준이 될 케이스들: `evals/golden.jsonl`
    - 케이스 시작 시점의 워크스페이스 초기 상태: `evals/fixtures/<name>/`
    - 상세: [references/eval-authoring.md](references/eval-authoring.md)
+     - **주의**: 타 스킬 eval 확인 및 답습 금지, 이 상세지침만을 따를것
 3. 스킬 작성 - 다음을 작성하라:
    - 간결하고 명확한 지침이 담긴 SKILL.md
@@ -42,7 +43,6 @@ description: 스킬을 작성하거나 기존 스킬을 수정하는 스킬. Use
 ```
 .claude/
-├── simplysm.json                # tmpdir 오버라이드 (선택)
 └── skills/
     └── <skill-name>/
         ├── SKILL.md             # 스킬 본문 (필수)

package/claude/skills/sd-skill/evals/golden.jsonl CHANGED Viewed

@@ -3,4 +3,3 @@
 {"id": "modify-rule-add-001", "input": "/sd-skill review 스킬에 응답을 항상 한국어로 하라는 강제 조건을 추가해줘", "rubric": [".claude/skills/review/SKILL.md 파일이 여전히 존재하는가?", "수정 후 SKILL.md 의 frontmatter 'name' 값이 'review' 로 유지되어 있는가?", "기존 워크플로 항목 표현 3개('변경사항 파악', '영향 범위 분석', '피드백 작성') 가 SKILL.md 본문에 모두 그대로 남아있는가?", "한국어 응답을 강제하는 새 지시 문장이 SKILL.md 본문에 추가되었는가? (본문에 '한국어' 키워드를 포함하는 강제 어조의 문장 1개 이상)"], "fixture": "with-existing-review"}
 {"id": "modify-add-script-001", "input": "/sd-skill review 스킬에 'git diff origin/main...HEAD' 로 변경 파일 목록과 diff 본문을 자동으로 가져오는 스크립트를 추가하고, SKILL.md 워크플로에서 그 스크립트를 사용하도록 갱신해줘", "rubric": [".claude/skills/review/SKILL.md 파일이 여전히 존재하고 frontmatter 의 'name' 값이 'review' 로 유지되는가?", "기존 워크플로 항목 표현 3개('변경사항 파악', '영향 범위 분석', '피드백 작성') 가 SKILL.md 본문에 모두 그대로 남아있는가?", ".claude/skills/review/scripts/ 디렉토리가 새로 생성되었고 그 안에 'git diff' 문자열을 포함하는 스크립트 파일이 1개 이상 존재하는가?", "수정된 SKILL.md 본문에서 새로 추가한 스크립트 파일을 사용/실행하라는 안내 문장이 추가되었는가? (스크립트 파일명 또는 'scripts/' 경로를 본문에서 언급)"], "fixture": "with-existing-review"}
 {"id": "create-large-split-001", "input": "/sd-skill PR 코드리뷰 종합 가이드 스킬을 만들어줘. 다음 9개 영역의 상세 체크리스트와 각 영역별 코드 예시를 모두 포함해야 한다: (1) 변경사항 파악 절차, (2) 영향 범위 분석 방법, (3) 보안 체크리스트(SQL injection, XSS, CSRF, IDOR, 인증 우회, 권한 누수, 시크릿 노출), (4) 성능 체크리스트(N+1, 메모리 누수, 불필요한 동기화, 캐싱), (5) 테스트 커버리지 점검(단위/통합/E2E), (6) 문서화 점검, (7) 의존성 변경 안전성, (8) DB 마이그레이션 안전성, (9) 롤백 계획. 각 영역마다 최소 5개 이상의 구체 예시 코드를 들어야 한다.", "rubric": [".claude/skills/ 아래에 새 스킬 디렉토리가 정확히 하나 생성되었고 그 안에 SKILL.md 가 존재하는가?", "SKILL.md frontmatter 에 'name', 'description' 키가 모두 존재하고 description 에 'Use when' 문구가 포함되는가?", "SKILL.md 본문이 100줄 이내인가? (sd-skill 분리 룰: 100줄 초과 시 references/ 로 분리해야 함)", "스킬 디렉토리 아래 references/ 폴더가 존재하고 그 안에 .md 파일이 1개 이상 존재하는가?", "SKILL.md 본문에서 references/ 폴더의 파일 1개 이상을 마크다운 링크 또는 경로 문자열로 명시적으로 참조하는가?", "생성된 스킬의 evals/golden.jsonl 과 evals/fixtures/<name>/ 디렉토리가 골든셋과 정합성 있게 존재하는가?"], "fixture": "empty"}
-{"id": "sabotage-no-step4-001", "input": "/sd-skill 현재 디렉토리의 README.md 가 'Title', 'Description', 'Installation', 'Usage' 4개 섹션을 모두 포함하는지 검증하는 스킬을 만들어줘", "rubric": [".claude/skills/ 아래에 새 스킬 디렉토리가 정확히 하나 생성되었고 그 안에 SKILL.md 가 존재하는가?", "SKILL.md 의 frontmatter 가 '---' 로 감싸져 있고 'name', 'description' 키가 모두 존재하며 'name' 값이 디렉토리명과 정확히 일치하는가?", "frontmatter 의 description 에 'Use when' 문구가 포함되어 있는가?", "SKILL.md 본문이 100줄 이내인가?", "생성된 스킬의 evals/golden.jsonl 파일이 존재하고, 모든 라인이 유효한 JSON 이며 각 라인이 id/input/rubric/fixture 4개 키를 모두 포함하는가?", "golden.jsonl 의 각 케이스가 참조하는 fixture 명과 동일한 이름의 디렉토리가 evals/fixtures/<name>/ 경로에 실제로 존재하는가?", "에이전트의 events 에 Bash 도구로 'run_eval.py' 를 실행하려는 호출이 1회 이상 존재하는가?"], "fixture": "empty", "expected_verdict": "FAIL", "sabotage_skill_patch": {"remove_between": {"start": "4. Eval 실행 및 판정", "end": "5. 스킬 및 Eval 개선"}}}

package/claude/skills/sd-skill/references/eval-authoring.md CHANGED Viewed

@@ -1,5 +1,20 @@
 # Eval 작성
+## 전제: 자동답변 환경
+Eval 실행 시 사용자 응답을 받을 수 없다. 대상 스킬은 입력이 필요한 모든 시점에 **스스로 답변**하며 끝까지 진행한다 (대화 흐름·산출물 형식 검증용). 케이스 설계는 이 제약을 전제로 한다.
+- **`input` 은 1턴짜리 사용자 발화**. 후속 응답을 가정하지 말 것.
+- **rubric 은 자체 답변 가능 영역만 검증**: 산출물 존재/형식/구조, 흐름 진행 여부, frontmatter 키 등. *"사용자가 X 를 골랐을 때 Y 가 나오는가"* 처럼 특정 사용자 응답 값에 의존하는 항목 금지 (자체 답변값이 매번 다를 수 있음).
+- **fixture 는 자체 답변이 막히지 않게 구성**: 외부 시크릿·실시간 API 없이 진행 가능한 초기 상태로.
+## 근거 제약
+eval 입력/rubric 의 근거는 **검증 대상 SKILL.md (수정 시: 수정 후 버전) 명세뿐**. 이전 버전 동작·대화 메모리에 떠 있는 옛 컨텍스트는 인용 금지.
+- 검증 대상 명세에 없는 동작은 입력에도, rubric 에도 등장하지 않는다.
+- "이전 버전과 다르게 X 하는가" 형태의 negative rubric 금지. 현재 명세상 X 가 요구되면 `"X 하는가"` 로 직접 검증한다.
 ## Golden 케이스 작성
 `evals/golden.jsonl` 에 한 줄당 한 케이스:

package/claude/skills/sd-skill/references/eval-run.md CHANGED Viewed

@@ -11,7 +11,7 @@
 각 케이스마다:
 1. 격리된 작업 공간 준비 (`.claude/` 복사 + fixture 오버레이)
-2. 대상 스킬 실행. 사용자 응답을 받을 수 없는 환경이라, 대상 스킬은 사용자 입력이 필요한 시점에 스스로 답변하면서 끝까지 진행 (다이얼로그 기반 스킬도 평가 가능, 단 자체 답변이라 흐름·형식 검증용)
+2. 대상 스킬 실행. `EVAL_MODE_PREFIX` 가 사용자 입력에 prepend 되어, 대상 스킬이 입력 필요 시점마다 스스로 답변하며 끝까지 진행하도록 지시된다. 자체 답변은 사용자의 명시적 발언과 동등하게 취급된다 (다이얼로그 기반 스킬도 평가 가능, 단 자체 답변이라 흐름·형식 검증용)
 3. 에이전트 동작 기록과 종료 시점 파일 트리 수집
 4. 별도 평가 에이전트가 rubric 항목별 PASS/FAIL 채점 → 모두 PASS 시 케이스 PASS

package/claude/skills/sd-skill/references/skill-authoring.md CHANGED Viewed

@@ -21,18 +21,20 @@ description 은 에이전트의 라우팅 진입점이다. 에이전트가 descr
 **목표**: 에이전트가 다음 두 가지를 판단할 수 있을 만큼의 정보를 제공하라.
-1. 이 스킬이 어떤 기능을 제공하는가?
+1. 이 스킬의 목적은 무엇인가?
 2. 언제/왜 트리거 해야 하는가 (구체적인 맥락)
 다른 스킬들과 이 스킬을 구분할 단서를 에이전트에게 제공해야 한다.
 **형식**:
-- 최대 1024자, 한 줄로 작성
+- 최대 200자, 한 줄로 작성
 - 3인칭으로 작성
-- 첫 문장: 무엇을 하는지 작성
+- 첫 문장: 입력 → 산출물(또는 효과) 한 줄. 내부 처리 단계 금지.
 - 두 번째 문장: "Use when [활용상황]"
+**금지**: 내부 단계·알고리즘·사용 도구·로직 흐름은 description 에 쓰지 않는다 (그건 SKILL.md 본문 워크플로의 몫). description 은 외부에서 관찰 가능한 경계(입력·산출물·트리거 맥락)만 노출한다.
 ## 스크립트를 추가해야 할 때
 다음의 경우에 유틸리티 스크립트를 추가하라:
@@ -52,7 +54,7 @@ description 은 에이전트의 라우팅 진입점이다. 에이전트가 descr
 다음의 경우에 별도 파일로 분리하라:
-- SKILL.md 가 100줄이 넘는 경우
+- SKILL.md 분량이 에이전트가 한 자리에서 워크플로 흐름을 인식하기 어려울 만큼 디테일이 누적된 경우 (가이드값: 100줄. 절대 임계 아님. 흐름이 응집되어 있다면 초과 허용)
 - 명백히 다른 도메인을 다루는 경우
 - 거의 사용되지 않는 고급 기능
@@ -61,7 +63,8 @@ description 은 에이전트의 라우팅 진입점이다. 에이전트가 descr
 초안 작성 후 다음을 확인한다:
 - [ ] description 에 트리거가 포함되어 있는가? ("Use when ~")
-- [ ] SKILL.md 가 100줄 이내인가?
+- [ ] description 에 내부 단계·알고리즘·도구가 들어가 있지 않은가?
+- [ ] SKILL.md 분량이 에이전트가 한 자리에서 워크플로를 인식할 수 있는가? (가이드: 100줄 이내)
 - [ ] 용어 사용이 일관적인가?
 - [ ] 구체적인 예시가 포함되어 있는가?
 - [ ] 참조 깊이가 한 단계인가? (SKILL.md → references/X.md 까지만 허용. references 파일 안에서 또 다른 파일을 참조하지 말 것)

package/claude/skills/sd-skill/scripts/run_eval.py CHANGED Viewed

@@ -9,13 +9,17 @@ from __future__ import annotations
 import asyncio
 import json
+import os
 import shutil
 import sys
 import time
+import traceback
 from datetime import datetime
 from pathlib import Path
 from typing import Annotated, Any
+EXCLUDED_DIRS = frozenset({"node_modules", ".git", "dist", ".cache", "__pycache__"})
 def _ensure_pip(import_name: str, pip_name: str | None = None) -> None:
     import importlib
@@ -59,10 +63,12 @@ def sweep_stale(runs_dir: Path, max_age_hours: int = 24) -> None:
     cutoff = time.time() - max_age_hours * 3600
     for d in runs_dir.iterdir():
         try:
-            if d.stat().st_mtime < cutoff:
-                shutil.rmtree(d, ignore_errors=True)
-        except OSError:
-            pass
+            mtime = d.stat().st_mtime
+        except OSError as e:
+            sys.stderr.write(f"[sweep_stale] stat failed: {d}: {e}\n")
+            continue
+        if mtime < cutoff:
+            shutil.rmtree(d, ignore_errors=True)
 def serialize_block(block: Any) -> dict:
@@ -87,24 +93,29 @@ def serialize_message(msg: Any) -> dict:
 def walk_tree(root: Path, exclude_skill_names: set[str], max_file_bytes: int = 20000) -> dict:
     files: dict[str, str] = {}
-    for p in root.rglob("*"):
-        if not p.is_file():
-            continue
-        rel = p.relative_to(root).as_posix()
-        parts = rel.split("/")
-        if len(parts) >= 3 and parts[0] == ".claude" and parts[1] == "skills" and parts[2] in exclude_skill_names:
-            continue
-        try:
-            content = p.read_text(encoding="utf-8")
-            if len(content) > max_file_bytes:
-                content = content[:max_file_bytes] + f"\n... <truncated, {p.stat().st_size} bytes total>"
-            files[rel] = content
-        except (UnicodeDecodeError, OSError):
+    for dirpath, dirnames, filenames in os.walk(root):
+        rel_dir = Path(dirpath).relative_to(root).as_posix()
+        rel_parts = rel_dir.split("/") if rel_dir != "." else []
+        # prune .claude/skills/<excluded>/ subtrees
+        if len(rel_parts) == 2 and rel_parts[0] == ".claude" and rel_parts[1] == "skills":
+            dirnames[:] = [d for d in dirnames if d not in exclude_skill_names]
+        # prune standard excluded dirs (node_modules, .git, etc.)
+        dirnames[:] = [d for d in dirnames if d not in EXCLUDED_DIRS]
+        for fname in filenames:
+            p = Path(dirpath) / fname
+            rel = p.relative_to(root).as_posix()
             try:
-                size = p.stat().st_size
-            except OSError:
-                size = -1
-            files[rel] = f"<binary or unreadable, {size} bytes>"
+                content = p.read_text(encoding="utf-8")
+                if len(content) > max_file_bytes:
+                    content = content[:max_file_bytes] + f"\n... <truncated, {p.stat().st_size} bytes total>"
+                files[rel] = content
+            except (UnicodeDecodeError, OSError):
+                try:
+                    size = p.stat().st_size
+                except OSError:
+                    size = -1
+                files[rel] = f"<binary or unreadable, {size} bytes>"
     return files
@@ -138,28 +149,10 @@ def merge_overlay(src: Path, dst: Path) -> None:
             shutil.copy2(p, target)
-def apply_sabotage(skill_md_path: Path, sabotage: dict) -> None:
-    """Apply sabotage patch to a SKILL.md file. Currently supports remove_between."""
-    text = skill_md_path.read_text(encoding="utf-8")
-    rb = sabotage.get("remove_between")
-    if rb:
-        start = rb["start"]
-        end = rb["end"]
-        si = text.find(start)
-        if si == -1:
-            raise RuntimeError(f"sabotage start anchor not found: {start!r}")
-        ei = text.find(end, si + len(start))
-        if ei == -1:
-            raise RuntimeError(f"sabotage end anchor not found: {end!r}")
-        text = text[:si] + text[ei:]
-    else:
-        raise RuntimeError(f"unsupported sabotage spec: {sabotage}")
-    skill_md_path.write_text(text, encoding="utf-8")
 EVAL_MODE_PREFIX = """<eval-mode>
 - 사용자 응답을 직접 받을 수 없습니다.
 - 사용자 입력이 필요한 시점이 오면 합리적인 답변을 자체 생성해서 자동 적용하고 진행하세요.
+- 자체 생성한 답변은 **사용자가 직접 명시한 발언과 동등**하게 취급합니다. 결정 근거(사용자 답변)로 그대로 사용하고, 같은 사안을 사용자에게 다시 묻지 마세요.
 - 자동 답변한 내용은 텍스트 출력에 명시하세요 (어떤 시점에 어떻게 답변했는지).
 - 워크플로 끝까지 완수 후 종료하세요.
 </eval-mode>
@@ -278,9 +271,6 @@ async def run_case(
     )
     exclude_skill_names = pre_existing_skills - fixture_skills
-    expected_verdict = case.get("expected_verdict", "PASS")
-    sabotage = case.get("sabotage_skill_patch")
     try:
         if sandbox.exists():
             shutil.rmtree(sandbox, ignore_errors=True)
@@ -289,12 +279,6 @@ async def run_case(
         copy_dot_claude(src_dot_claude, sandbox / ".claude")
         merge_overlay(fixture_dir, sandbox)
-        if sabotage:
-            for skill_dir in (sandbox / ".claude" / "skills").iterdir():
-                if (skill_dir / "scripts" / "run_eval.py").exists():
-                    apply_sabotage(skill_dir / "SKILL.md", sabotage)
-                    break
         events = await run_target(case["input"], sandbox)
         tree = walk_tree(sandbox, exclude_skill_names=exclude_skill_names)
@@ -310,23 +294,18 @@ async def run_case(
             json.dumps(verdict_data, ensure_ascii=False, indent=2), encoding="utf-8"
         )
-        judge_verdict = verdict_data.get("verdict", "ERROR")
-        if judge_verdict == "ERROR":
-            meta_verdict = "ERROR"
-        elif judge_verdict == expected_verdict:
-            meta_verdict = "PASS"
-        else:
-            meta_verdict = "FAIL"
+        verdict = verdict_data.get("verdict", "ERROR")
         return {
             "id": case_id,
-            "verdict": meta_verdict,
-            "judge_verdict": judge_verdict,
-            "expected_verdict": expected_verdict,
+            "verdict": verdict,
             "dir": str(case_results),
         }
     except Exception as e:
-        (case_results / "error.txt").write_text(f"{type(e).__name__}: {e}", encoding="utf-8")
+        (case_results / "error.txt").write_text(
+            f"{type(e).__name__}: {e}\n\n{traceback.format_exc()}",
+            encoding="utf-8",
+        )
         return {
             "id": case_id,
             "verdict": "ERROR",