buildcrew 1.8.3 → 1.8.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (4) hide show
  1. package/README.ko.md +108 -137
  2. package/README.md +113 -139
  3. package/bin/setup.js +16 -8
  4. package/package.json +1 -1
package/README.ko.md CHANGED
@@ -18,6 +18,7 @@ AI 코딩 에이전트가 아무리 똑똑해도, 구조 없이 쓰면 결과가
18
18
  - **프로세스** — 품질 게이트가 있는 순차 파이프라인. 통과 못하면 자동으로 재시도
19
19
  - **하네스** — 코드베이스를 분석해서 프로젝트 맥락을 자동으로 파악
20
20
  - **오케스트레이터** — `@buildcrew`에게 말하면 알아서 적절한 에이전트를 투입
21
+ - **세컨드 오피니언** — 모든 작업 후 독립적인 리뷰 (Codex 또는 Claude subagent)
21
22
 
22
23
  ```
23
24
  나: @buildcrew 유저 인증 추가해줘
@@ -30,87 +31,24 @@ AI 코딩 에이전트가 아무리 똑똑해도, 구조 없이 쓰면 결과가
30
31
 
31
32
  ## 시작하기
32
33
 
33
- ```bash
34
- # 1. 에이전트 설치
35
- npx buildcrew
36
-
37
- # 2. 프로젝트 하네스 자동 생성 (질문 없이 코드베이스 분석)
38
- npx buildcrew init
39
-
40
- # 3. 필요한 부분만 커스터마이징
41
- code .claude/harness/
42
-
43
- # 4. 바로 사용
44
- @buildcrew 유저 대시보드 추가해줘
45
- ```
46
-
47
- ---
48
-
49
- ## 하네스 엔지니어링
50
-
51
- `npx buildcrew init` 하나로 코드베이스를 스캔해서 프로젝트 하네스를 자동 생성합니다. 질문하지 않습니다.
52
-
53
- ### 자동 감지 항목
54
-
55
- | 카테고리 | 감지 대상 |
56
- |---------|----------|
57
- | 프레임워크 | Next.js, Nuxt, React, Vue, SvelteKit, Express |
58
- | 언어/CSS | TypeScript, TailwindCSS, Framer Motion |
59
- | 데이터베이스 | Supabase, Prisma, Drizzle, MongoDB |
60
- | 인증 | NextAuth, Supabase Auth, Firebase Auth |
61
- | 결제 | Stripe, Paddle, Toss Payments |
62
- | AI | OpenAI, Anthropic, Google AI |
63
- | 배포 | Vercel, Netlify, Fly.io, Docker |
64
- | 컴포넌트 | `src/components/` 자동 스캔 |
65
- | API 라우트 | `src/app/api/` 자동 스캔 |
66
- | 다국어 | i18n 디렉토리 스캔 |
67
-
68
- ### 생성되는 파일
69
-
70
- 감지 결과에 따라 필요한 하네스 파일이 자동으로 생성됩니다:
71
-
72
- ```
73
- .claude/harness/
74
- ├── project.md ← 항상 (프로젝트 컨텍스트, 스택, 컴포넌트, API)
75
- ├── rules.md ← 항상 (프레임워크에 맞는 코딩 규칙)
76
- ├── erd.md ← DB 감지 시
77
- ├── api-spec.md ← API 라우트 발견 시
78
- ├── design-system.md ← TailwindCSS 감지 시
79
- ├── architecture.md ← 항상
80
- └── user-flow.md ← i18n 또는 5개 이상 컴포넌트 시
81
- ```
82
-
83
- ### 커스터마이징
84
-
85
- 생성된 파일에서 `<!-- HTML 주석 -->`으로 된 부분만 채우면 됩니다. 나머지는 코드베이스에서 이미 채워져 있습니다.
34
+ 한 명령어로 전부 끝납니다:
86
35
 
87
36
  ```bash
88
- npx buildcrew harness # 어떤 파일을 편집해야 하는지 확인
37
+ npx buildcrew
89
38
  ```
90
39
 
91
- ### 열린 구조
40
+ 인터랙티브 셋업이 순서대로 진행합니다:
41
+ 1. 15개 에이전트 + 오케스트레이터 설치
42
+ 2. Playwright MCP 설치 여부 (브라우저 테스트에 필요)
43
+ 3. 프로젝트 하네스 생성 여부 (스택 자동 감지)
44
+ 4. 추가 하네스 템플릿 선택
92
45
 
93
- `.claude/harness/`에 아무 `.md` 파일이나 추가하면 에이전트가 읽습니다:
46
+ 다음 바로 사용:
94
47
 
95
48
  ```bash
96
- npx buildcrew add glossary # 용어 사전 추가
97
- npx buildcrew add env-vars # 환경 변수 가이드 추가
98
- echo "# 내 메모" > .claude/harness/notes.md # 직접 파일 생성도 가능
49
+ @buildcrew 유저 대시보드 추가해줘
99
50
  ```
100
51
 
101
- ### 에이전트 라우팅
102
-
103
- 각 에이전트는 자기 역할에 맞는 하네스 파일만 읽습니다:
104
-
105
- | 파일 | 읽는 에이전트 |
106
- |------|-------------|
107
- | `project.md`, `rules.md` | 모든 에이전트 |
108
- | `erd.md`, `architecture.md`, `api-spec.md` | developer, reviewer, security-auditor, investigator |
109
- | `design-system.md` | designer |
110
- | `glossary.md`, `user-flow.md` | planner, designer, browser-qa |
111
- | `env-vars.md` | developer, security-auditor |
112
- | 커스텀 `.md` 파일 | reviewer, security-auditor (전부 읽음) |
113
-
114
52
  ---
115
53
 
116
54
  ## 에이전트
@@ -119,32 +57,41 @@ echo "# 내 메모" > .claude/harness/notes.md # 직접 파일 생성도 가능
119
57
 
120
58
  | 에이전트 | 모델 | 역할 |
121
59
  |---------|------|------|
122
- | **planner** | opus | 6가지 강제 질문으로 요구사항 분석 4관점 자체 리뷰 (CEO, 엔지니어링, 디자인, QA). 관점별 1-10점 채점 후 기준 미달 시 자동 보강. |
123
- | **designer** | opus | UI/UX 레퍼런스 리서치 + 모션 엔지니어링. Playwright 실제 사이트 스크린샷 수집, Figma MCP 연동, 애니메이션과 인터랙션이 포함된 프로덕션 컴포넌트 생성. AI 슬롭 블랙리스트 적용. |
124
- | **developer** | sonnet | 6가지 구현 질문으로 코드베이스를 먼저 파악한 구현. 3관점 자체 리뷰 (아키텍처, 코드 품질, 안전성) 자기 코드 검증. 에러 핸들링 프로토콜 내장. 기능 구현, 버그 수정, 반복 수정 3가지 모드 지원. |
60
+ | **planner** | opus | 6가지 강제 질문으로 요구사항 분석. 4관점 자체 리뷰 (CEO, 엔지니어링, 디자인, QA). 관점별 1-10점 채점. |
61
+ | **designer** | opus | UI/UX 레퍼런스 리서치 + 모션 엔지니어링. Playwright 스크린샷, Figma MCP, 프로덕션 컴포넌트 생성. |
62
+ | **developer** | opus | 6가지 구현 질문으로 코드베이스 파악 구현. 3관점 자체 리뷰 (아키텍처, 품질, 안전성). 에러 핸들링 프로토콜 내장. |
125
63
 
126
64
  ### 품질 팀
127
65
 
128
66
  | 에이전트 | 모델 | 역할 |
129
67
  |---------|------|------|
130
- | **qa-tester** | sonnet | 5가지 테스트 전략 질문으로 체계적 검증. 테스트 맵을 먼저 만들고 수용 기준별 검증 수행. 엣지 케이스 자동 생성, 신뢰도 점수 기반 버그 분류. |
131
- | **browser-qa** | sonnet | Playwright MCP로 실제 브라우저 테스트. 유저 플로우, 반응형, 콘솔 에러 확인. 건강 점수 (0-100) 산출. |
132
- | **reviewer** | opus | 4명의 전문가 관점으로 심층 리뷰 (보안, 성능, 테스트, 유지보수). 신뢰도 점수 + 스코프 드리프트 감지 + 적대적 리뷰. 기계적 이슈는 즉시 자동 수정. |
133
- | **health-checker** | sonnet | 코드 품질 대시보드. 7개 카테고리별 가중 점수 (0-10)와 트렌드 추적. |
68
+ | **qa-tester** | sonnet | 5가지 테스트 전략 질문 + 테스트 맵. 엣지 케이스 자동 생성, 신뢰도 점수 기반 분류. |
69
+ | **browser-qa** | sonnet | 4단계 브라우저 테스트 (파악→탐색→스트레스→판단). Playwright MCP. 건강 점수 0-100. |
70
+ | **reviewer** | opus | 4전문가 심층 리뷰 (보안, 성능, 테스트, 유지보수) + 적대적 리뷰 + 자동 수정. 코드 작성 실행. |
71
+ | **health-checker** | sonnet | 3단계 코드 품질 (감지→측정→처방). 가중 점수 0-10 + 트렌드 + 조치 항목 5개. |
134
72
 
135
73
  ### 보안 & 운영 팀
136
74
 
137
75
  | 에이전트 | 모델 | 역할 |
138
76
  |---------|------|------|
139
- | **security-auditor** | opus | OWASP Top 10 + STRIDE 위협 모델 기반 10단계 보안 감사. 신뢰도 게이트 적용. |
140
- | **canary-monitor** | sonnet | 배포 후 프로덕션 상태 모니터링. 페이지 로드, API 응답, 콘솔 에러, 성능 비교. |
141
- | **shipper** | sonnet | 8가지 사전 점검 배포. Semver 결정 프레임워크로 버전 자동 판단. 체인지로그 자동 생성, PR 템플릿, 배포 후 검증까지. |
77
+ | **security-auditor** | sonnet | OWASP Top 10 + STRIDE 위협 모델. 10단계 보안 감사. |
78
+ | **canary-monitor** | sonnet | 3단계 배포 후 모니터링 (파악→검증→판단). 베이스라인 비교, 신뢰도 점수. |
79
+ | **shipper** | sonnet | 8가지 사전 점검 버전 체인지로그 PR 배포 후 검증. |
80
+
81
+ ### 생각 & 리뷰 팀
82
+
83
+ | 에이전트 | 모델 | 역할 |
84
+ |---------|------|------|
85
+ | **thinker** | opus | "이거 만들 가치가 있나?" — 6가지 핵심 질문, 전제 의문, 대안 3개, 외부 관점 수집, 설계 문서 생성. |
86
+ | **architect** | opus | 코드 짜기 전 아키텍처 리뷰 — 스코프 챌린지, 컴포넌트 다이어그램, 데이터 흐름, 실패 모드, 테스트 커버리지 맵. |
87
+ | **design-reviewer** | sonnet | UI/UX 품질 — 8차원 0-10점 평가, Playwright 스크린샷 기반, 구체적 수정안 + 노력도, WCAG 준수. |
142
88
 
143
89
  ### 전문가
144
90
 
145
91
  | 에이전트 | 모델 | 역할 |
146
92
  |---------|------|------|
147
- | **investigator** | sonnet | 5가지 증거 수집 가설 수립 (확률 기반) → 가설 검증 → 수정. 12가지 대표 버그 패턴 내장. 무관한 코드 수정 자동 차단. |
93
+ | **investigator** | sonnet | 4단계 근본 원인 디버깅. 12가지 대표 버그 패턴. 무관한 코드 수정 자동 차단. |
94
+ | **qa-auditor** | opus | 3개 병렬 subagent (보안, 버그, 설계 준수)가 git diff를 설계 문서와 비교 검사. API 키 불필요. |
148
95
 
149
96
  ---
150
97
 
@@ -162,19 +109,71 @@ echo "# 내 메모" > .claude/harness/notes.md # 직접 파일 생성도 가능
162
109
  | **Health** | "헬스체크 돌려줘" | 품질 대시보드 |
163
110
  | **Canary** | "배포 확인해줘" | 프로덕션 모니터링 |
164
111
  | **Review** | "코드 리뷰해줘" | 4전문가 병렬 리뷰 + 자동 수정 |
165
- | **Ship** | "배포해줘" | 사전 점검 → 테스트 → 버전 → 체인지로그 → PR |
112
+ | **Ship** | "배포해줘" | 사전 점검 → 버전 → 체인지로그 → PR |
113
+ | **QA Audit** | "코드 검사해줘" | 3 subagent 병렬 검사 |
114
+ | **Think** | "이거 만들 가치가 있을까?" | 6가지 질문 + 대안 + 설계 문서 |
115
+ | **Arch Review** | "아키텍처 리뷰해줘" | 스코프 + 다이어그램 + 실패 모드 |
116
+ | **Design Review** | "디자인 리뷰해줘" | 8차원 점수 + 구체적 수정안 |
117
+
118
+ ### 모드 우선순위
119
+
120
+ 메시지가 여러 모드에 해당하면 우선순위 테이블로 해결합니다. Debug가 항상 최우선. Think은 Feature보다 우선. 애매하면 사용자에게 물어봅니다.
121
+
122
+ ### 세컨드 오피니언
123
+
124
+ 모든 모드 완료 후 독립적인 리뷰를 제안합니다:
125
+ - **Codex CLI 있으면**: 다른 AI 모델이 독립 리뷰
126
+ - **없으면**: 세션 기억 없는 새 Claude subagent가 리뷰
127
+
128
+ 사용자가 결과를 보고 어떤 걸 반영할지 결정합니다.
166
129
 
167
130
  ### 반복 실행
168
131
 
169
- 매 반복마다 전체 파이프라인을 처음부터 다시 돌립니다. 기획자가 이전 결과를 읽고 계획을 수정하고, 개발자가 다시 구현하고, QA가 다시 검증합니다:
132
+ 매 반복마다 전체 파이프라인을 처음부터 다시 돌립니다:
170
133
 
171
134
  ```
172
135
  @buildcrew 유저 대시보드 추가해줘, 5 iterations
173
136
  ```
174
137
 
175
- ### 모드 체이닝
138
+ ---
139
+
140
+ ## 하네스 엔지니어링
141
+
142
+ `npx buildcrew` 실행 시 코드베이스를 스캔해서 프로젝트 하네스를 자동 생성합니다.
143
+
144
+ ### 자동 감지 항목
145
+
146
+ | 카테고리 | 감지 대상 |
147
+ |---------|----------|
148
+ | 프레임워크 | Next.js, Nuxt, React, Vue, SvelteKit, Express |
149
+ | 언어/CSS | TypeScript, TailwindCSS, Framer Motion |
150
+ | 데이터베이스 | Supabase, Prisma, Drizzle, MongoDB |
151
+ | 인증 | NextAuth, Supabase Auth, Firebase Auth |
152
+ | 결제 | Stripe, Paddle, Toss Payments |
153
+ | AI | OpenAI, Anthropic, Google AI |
154
+ | 배포 | Vercel, Netlify, Fly.io, Docker |
155
+
156
+ ### 생성되는 파일
157
+
158
+ ```
159
+ .claude/harness/
160
+ ├── project.md ← 항상 (프로젝트 컨텍스트, 스택, 컴포넌트, API)
161
+ ├── rules.md ← 항상 (프레임워크에 맞는 코딩 규칙)
162
+ ├── erd.md ← DB 감지 시
163
+ ├── api-spec.md ← API 라우트 발견 시
164
+ ├── design-system.md ← TailwindCSS 감지 시
165
+ ├── architecture.md ← 항상
166
+ └── user-flow.md ← i18n 또는 5개 이상 컴포넌트 시
167
+ ```
168
+
169
+ ### 열린 구조
170
+
171
+ `.claude/harness/`에 아무 `.md` 파일이나 추가하면 에이전트가 읽습니다.
176
172
 
177
- Feature 완료 → Ship 제안 → Canary 제안. Canary에서 문제 발견 → Debug 자동 전환.
173
+ ```bash
174
+ npx buildcrew harness # 어떤 파일을 편집해야 하는지 확인
175
+ npx buildcrew add # 사용 가능한 템플릿 목록
176
+ ```
178
177
 
179
178
  ---
180
179
 
@@ -185,12 +184,11 @@ Feature 완료 → Ship 제안 → Canary 제안. Canary에서 문제 발견 →
185
184
  ```
186
185
  .claude/pipeline/{기능명}/
187
186
  ├── 01-plan.md 요구사항 + 4관점 리뷰 점수
188
- ├── 02-references.md UI/UX 레퍼런스
189
187
  ├── 02-design.md 디자인 결정 + 컴포넌트 스펙
190
- ├── 03-dev-notes.md 구현 노트 + 6질문 분석 + 자체 리뷰 점수
191
- ├── 04-qa-report.md 테스트 맵 + 수용 기준 검증 + 버그 리포트
192
- ├── 05-browser-qa.md 건강 점수 + 스크린샷 + 유저 플로우
193
- ├── 06-review.md 4전문가 발견사항 + 자동 수정 내역
188
+ ├── 03-dev-notes.md 구현 + 6질문 분석 + 자체 리뷰
189
+ ├── 04-qa-report.md 테스트 맵 + 수용 기준 검증
190
+ ├── 05-browser-qa.md 건강 점수 + 스크린샷
191
+ ├── 06-review.md 4전문가 발견 + 자동 수정
194
192
  └── 07-ship.md PR URL + 릴리즈 노트
195
193
  ```
196
194
 
@@ -200,11 +198,11 @@ Feature 완료 → Ship 제안 → Canary 제안. Canary에서 문제 발견 →
200
198
 
201
199
  | 명령어 | 설명 |
202
200
  |--------|------|
203
- | `npx buildcrew` | 에이전트 설치 (11개 + 오케스트레이터) |
204
- | `npx buildcrew init` | 하네스 자동 생성 (질문 없이 코드베이스 분석) |
205
- | `npx buildcrew init --force` | 하네스 재생성 |
201
+ | `npx buildcrew` | 전체 인터랙티브 셋업 (에이전트 + MCP + 하네스) |
202
+ | `npx buildcrew init` | 하네스만 생성 |
203
+ | `npx buildcrew init --force` | 하네스 재생성 (기존 백업) |
206
204
  | `npx buildcrew add` | 사용 가능한 템플릿 목록 |
207
- | `npx buildcrew add <name>` | 템플릿 추가 (erd, architecture 등) |
205
+ | `npx buildcrew add <name>` | 템플릿 추가 |
208
206
  | `npx buildcrew harness` | 하네스 파일 상태 확인 |
209
207
  | `npx buildcrew --force` | 에이전트 덮어쓰기 |
210
208
  | `npx buildcrew --list` | 에이전트 목록 + 모델 정보 |
@@ -214,60 +212,33 @@ Feature 완료 → Ship 제안 → Canary 제안. Canary에서 문제 발견 →
214
212
  ## 요구사항
215
213
 
216
214
  - **필수**: [Claude Code](https://claude.ai/code) CLI
217
- - **선택**: [Playwright MCP](https://github.com/anthropics/anthropic-quickstarts/tree/main/mcp-servers/playwright) — browser-qa, canary-monitor, designer가 사용
215
+ - **필수**: [Playwright MCP](https://github.com/anthropics/anthropic-quickstarts/tree/main/mcp-servers/playwright) — 셋업 자동 설치
218
216
  - **선택**: [Figma MCP](https://github.com/anthropics/anthropic-quickstarts/tree/main/mcp-servers/figma) — designer가 사용
219
-
220
- ```bash
221
- # 실제 브라우저 테스트 활성화
222
- claude mcp add playwright -- npx @anthropic-ai/mcp-server-playwright
223
- ```
224
-
225
- ## 커스터마이징
226
-
227
- ```
228
- .claude/agents/ 에이전트 정의 — 역할, 도구, 모델 수정 가능
229
- .claude/harness/ 프로젝트 컨텍스트 — 언제든 수정, .md 파일 자유 추가
230
- .claude/pipeline/ 결과물 — 기능별 자동 생성
231
- ```
232
-
233
- ## 실시간 진행 상태
234
-
235
- 모든 에이전트가 이모지 태그된 진행 로그를 출력합니다:
236
-
237
- ```
238
- 📋 PLANNER — "유저 대시보드" 요구사항 분석 시작
239
- 🧠 6가지 강제 질문 분석...
240
- 🔎 4관점 자체 리뷰...
241
- 🏢 CEO: 8/10 ⚙️ 엔지니어링: 9/10 🎨 디자인: 9/10 🧪 QA: 8/10
242
- ✅ PLANNER — 완료 (평균: 8.5/10)
243
-
244
- 💻 DEVELOPER — 구현 시작
245
- 🔍 6가지 구현 질문 분석...
246
- 🏗️ 구현 중...
247
- 🔎 3관점 자체 리뷰 — 아키텍처: 8/10, 품질: 9/10, 안전성: 7/10
248
- ✅ DEVELOPER — 완료 (12개 파일 변경, 평균: 8.0/10)
249
-
250
- 🧪 QA TESTER — 테스트 맵 구축 → 검증 중
251
- ✅ AC-1: 통과 ❌ AC-2: 실패 (신뢰도: 9/10)
252
- 🔬 REVIEWER — 4전문가 + 적대적 리뷰 — 승인 (2건 자동 수정)
253
- ```
217
+ - **선택**: [Codex CLI](https://github.com/openai/codex) — 크로스 모델 세컨드 오피니언
254
218
 
255
219
  ## 아키텍처
256
220
 
257
221
  ```
258
- @buildcrew (오케스트레이터, opus)
222
+ @buildcrew (오케스트레이터, opus, 199줄)
259
223
 
260
224
  ├─ .claude/harness/*.md 읽기
261
- ├─ 유저 메시지에서 모드 자동 감지
225
+ ├─ 유저 메시지에서 모드 자동 감지 (13개 모드, 우선순위 테이블)
262
226
  ├─ 하네스 컨텍스트와 함께 에이전트 디스패치
263
- └─ 품질 게이트 적용 + 전체 파이프라인 반복 관리
227
+ ├─ 품질 게이트 + 반복 관리
228
+ └─ 완료 후 세컨드 오피니언 제안
264
229
 
265
- ├── 빌드: plannerdesigner → developer
266
- ├── 품질: qa-testerbrowser-qareviewer
230
+ ├── 생각: thinkerarchitect
231
+ ├── 빌드: plannerdesignerdeveloper
232
+ ├── 품질: qa-tester → browser-qa → reviewer
267
233
  ├── 보안/운영: security-auditor, canary-monitor, shipper
234
+ ├── 리뷰: architect, design-reviewer, qa-auditor
268
235
  └── 디버그: investigator
269
236
  ```
270
237
 
238
+ ### 버전 자동 업데이트
239
+
240
+ 에이전트에 버전 헤더가 포함되어 있습니다. 기존 프로젝트에서 `npx buildcrew`를 다시 실행하면 구버전 에이전트가 자동으로 업데이트됩니다.
241
+
271
242
  ## 라이선스
272
243
 
273
244
  MIT
package/README.md CHANGED
@@ -18,6 +18,7 @@ AI coding agents are powerful, but without structure they produce inconsistent r
18
18
  - **A process** — sequential pipeline with quality gates and iteration
19
19
  - **A harness** — your project context auto-detected from your codebase
20
20
  - **An orchestrator** — just talk to `@buildcrew`, it routes automatically
21
+ - **A second opinion** — independent review after every mode (Codex or Claude subagent)
21
22
 
22
23
  ```
23
24
  You: @buildcrew Add user authentication
@@ -30,85 +31,24 @@ No external dependencies. No runtime. No binaries. Just Markdown.
30
31
 
31
32
  ## Getting Started
32
33
 
33
- ```bash
34
- # 1. Install agents
35
- npx buildcrew
36
-
37
- # 2. Auto-generate project harness (zero questions asked)
38
- npx buildcrew init
39
-
40
- # 3. Customize (replace <!-- comments --> in generated files)
41
- code .claude/harness/
42
-
43
- # 4. Start working
44
- @buildcrew Add user dashboard
45
- ```
46
-
47
- ---
48
-
49
- ## Harness Engineering
50
-
51
- `npx buildcrew init` scans your codebase and generates a project harness — **zero questions asked**.
52
-
53
- ### What it auto-detects
54
-
55
- | Category | Detected from |
56
- |----------|--------------|
57
- | Framework | package.json (Next.js, Nuxt, React, Vue, SvelteKit, Express) |
58
- | Language | TypeScript, TailwindCSS, Framer Motion |
59
- | Database | Supabase, Prisma, Drizzle, MongoDB |
60
- | Auth | NextAuth, Supabase Auth, Firebase Auth |
61
- | Payments | Stripe, Paddle, Toss Payments |
62
- | AI | OpenAI, Anthropic, Google AI |
63
- | Deploy | Vercel, Netlify, Fly.io, Docker |
64
- | Components | Scans `src/components/` |
65
- | API Routes | Scans `src/app/api/` |
66
- | Locales | Scans i18n directories |
67
-
68
- ### What it generates
69
-
70
- Based on detection, relevant harness files are auto-created:
71
-
72
- ```
73
- .claude/harness/
74
- ├── project.md ← always (project context, stack, components, API routes)
75
- ├── rules.md ← always (smart defaults for your framework)
76
- ├── erd.md ← if database detected
77
- ├── api-spec.md ← if API routes found
78
- ├── design-system.md ← if TailwindCSS detected
79
- ├── architecture.md ← always
80
- └── user-flow.md ← if i18n or 5+ components
81
- ```
82
-
83
- ### Customize
84
-
85
- Generated files use `<!-- HTML comments -->` for parts you need to fill in. Everything else is pre-filled from your codebase.
34
+ One command does everything:
86
35
 
87
36
  ```bash
88
- npx buildcrew harness # Check which files need editing
37
+ npx buildcrew
89
38
  ```
90
39
 
91
- ### The harness is open
40
+ The interactive setup will:
41
+ 1. Install 15 agents + orchestrator
42
+ 2. Ask to install Playwright MCP (required for browser testing)
43
+ 3. Ask to generate project harness (auto-detects your stack)
44
+ 4. Let you pick additional harness templates
92
45
 
93
- Add any `.md` file to `.claude/harness/` — agents read them all:
46
+ Then start working:
94
47
 
95
48
  ```bash
96
- npx buildcrew add glossary # Add from template
97
- npx buildcrew add env-vars # Add from template
98
- echo "# Notes" > .claude/harness/my-notes.md # Or create your own
49
+ @buildcrew Add user dashboard
99
50
  ```
100
51
 
101
- ### Agent routing
102
-
103
- | File | Routed to |
104
- |------|-----------|
105
- | `project.md`, `rules.md` | All agents |
106
- | `erd.md`, `architecture.md`, `api-spec.md` | developer, reviewer, security-auditor, investigator |
107
- | `design-system.md` | designer |
108
- | `glossary.md`, `user-flow.md` | planner, designer, browser-qa |
109
- | `env-vars.md` | developer, security-auditor |
110
- | Custom `.md` files | reviewer, security-auditor (read ALL) |
111
-
112
52
  ---
113
53
 
114
54
  ## Agents
@@ -118,35 +58,44 @@ echo "# Notes" > .claude/harness/my-notes.md # Or create your own
118
58
  | Agent | Model | Role |
119
59
  |-------|-------|------|
120
60
  | **planner** | opus | 6 Forcing Questions + 4-Lens Self-Review (CEO, Engineering, Design, QA). Plans scored 1-10 per lens. |
121
- | **designer** | opus | UI/UX research + motion engineering Playwright screenshots Figma MCP production components with animations, scroll effects, gestures. AI slop blacklist. |
122
- | **developer** | sonnet | 6 Implementation Questions + 3-Lens Self-Review (Architecture, Code Quality, Safety). Error Handling Protocol. 3 modes: feature, bugfix, iteration. |
61
+ | **designer** | opus | UI/UX research + motion engineering. Playwright screenshots, Figma MCP, production components with animations. AI slop blacklist. |
62
+ | **developer** | opus | 6 Implementation Questions + 3-Lens Self-Review (Architecture, Code Quality, Safety). Error Handling Protocol. 3 modes: feature, bugfix, iteration. |
123
63
 
124
64
  ### Quality Team
125
65
 
126
66
  | Agent | Model | Role |
127
67
  |-------|-------|------|
128
- | **qa-tester** | sonnet | 5 Test Strategy Questions + Test Map methodology. Systematic edge case generation. Confidence-scored findings with severity classification. |
129
- | **browser-qa** | sonnet | Real browser testing via Playwright MCP flows, responsive, console, health score (0-100). |
130
- | **reviewer** | opus | 4-specialist deep analysis (security, perf, testing, maintainability) with confidence scoring + scope drift detection + adversarial pass + fix-first approach. |
131
- | **health-checker** | sonnet | Code quality dashboard 7-category weighted 0-10 score + trends. |
68
+ | **qa-tester** | sonnet | 5 Test Strategy Questions + Test Map methodology. Edge case generation, confidence-scored findings. |
69
+ | **browser-qa** | sonnet | 4-phase browser testing (orient, explore, stress, judge) via Playwright MCP. Health score 0-100, self-review. |
70
+ | **reviewer** | opus | 4-specialist analysis (security, perf, testing, maintainability) + confidence scoring + adversarial pass + auto-fix. Runs AFTER code. |
71
+ | **health-checker** | sonnet | 3-phase code quality (detect, measure, prescribe). Weighted 0-10 score + trends + top 5 actionable items. |
132
72
 
133
73
  ### Security & Ops
134
74
 
135
75
  | Agent | Model | Role |
136
76
  |-------|-------|------|
137
- | **security-auditor** | opus | OWASP Top 10 + STRIDE threat model. 10-phase audit with confidence gate. |
138
- | **canary-monitor** | sonnet | Post-deploy health — pages, APIs, console, performance vs baseline. |
139
- | **shipper** | sonnet | 8-point pre-flight + semver decision framework + changelog methodology + PR template + post-ship verification. |
77
+ | **security-auditor** | sonnet | OWASP Top 10 + STRIDE threat model. 10-phase audit with confidence gate. |
78
+ | **canary-monitor** | sonnet | 3-phase post-deploy health (orient, verify, judge). Baseline comparison, confidence-scored findings. |
79
+ | **shipper** | sonnet | 8-point pre-flight + semver + changelog + PR + post-ship verification. |
80
+
81
+ ### Thinking & Review Team
82
+
83
+ | Agent | Model | Role |
84
+ |-------|-------|------|
85
+ | **thinker** | opus | "Should we build this?" — 6 forcing questions, premise challenge, 3 alternatives, cross-model outside perspective, design doc output. |
86
+ | **architect** | opus | Architecture review BEFORE code — scope challenge, component diagrams, data flow, failure modes, test coverage map. |
87
+ | **design-reviewer** | sonnet | UI/UX quality — 8 dimensions scored 0-10, screenshot evidence via Playwright, specific fixes with effort estimates, WCAG compliance. |
140
88
 
141
89
  ### Specialist
142
90
 
143
91
  | Agent | Model | Role |
144
92
  |-------|-------|------|
145
- | **investigator** | sonnet | 5 Evidence Sources + hypothesis scoring + 12 common bug patterns + regression prevention. Edit freeze on unrelated code. |
93
+ | **investigator** | sonnet | 4-phase root cause debugging. 12 common bug patterns. Edit freeze on unrelated code. |
94
+ | **qa-auditor** | opus | 3 parallel subagents (security, bugs, spec compliance) audit git diffs against design docs. No API key needed. |
146
95
 
147
96
  ---
148
97
 
149
- ## 9 Operating Modes
98
+ ## 13 Operating Modes
150
99
 
151
100
  Talk to `@buildcrew` naturally. It auto-detects the mode.
152
101
 
@@ -154,27 +103,80 @@ Talk to `@buildcrew` naturally. It auto-detects the mode.
154
103
  |------|---------|----------|
155
104
  | **Feature** | "Add user dashboard" | Plan → Design → Dev → QA → Browser QA → Review |
156
105
  | **Project Audit** | "full project audit" | Scan → Prioritize → Fix → Verify (loop) |
157
- | **Browser QA** | "browser qa localhost:3000" | Playwright tests + health score |
106
+ | **Browser QA** | "browser qa localhost:3000" | Playwright testing + health score |
158
107
  | **Security** | "security audit" | OWASP + STRIDE + secrets + deps |
159
108
  | **Debug** | "debug: login broken" | 4-phase root cause investigation |
160
- | **Health** | "health check" | Quality dashboard (types, lint, deps, i18n) |
109
+ | **Health** | "health check" | Quality dashboard (types, lint, deps, bundle) |
161
110
  | **Canary** | "canary https://myapp.com" | Post-deploy production monitoring |
162
111
  | **Review** | "code review" | Multi-specialist analysis + auto-fix |
163
112
  | **Ship** | "ship" | Test → version → changelog → PR |
113
+ | **QA Audit** | "qa" | 3 parallel subagent audit on git diff |
114
+ | **Think** | "is this worth building?" | 6 forcing questions + alternatives + design doc |
115
+ | **Arch Review** | "architecture review" | Scope challenge + diagrams + failure modes |
116
+ | **Design Review** | "design review" | 8-dimension scoring + specific fixes |
117
+
118
+ ### Mode Priority
119
+
120
+ When a message matches multiple modes, a priority table resolves conflicts. Debug always wins. Think beats Feature. "architecture review" goes to Architect, not Reviewer. If truly ambiguous, asks the user.
121
+
122
+ ### Second Opinion
123
+
124
+ After any mode completes, buildcrew offers an independent second opinion:
125
+ - **Codex CLI available**: genuinely different AI model reviews the work
126
+ - **No Codex**: fresh Claude subagent with no session memory
127
+
128
+ The user decides what to act on.
164
129
 
165
130
  ### Iterations
166
131
 
167
- Each iteration runs the **full end-to-end pipeline** — planner re-evaluates, designer refines, developer fixes, QA re-verifies:
132
+ Each iteration runs the **full end-to-end pipeline**:
168
133
 
169
134
  ```
170
135
  @buildcrew Add user dashboard, 5 iterations
171
136
  ```
172
137
 
173
- ### Mode chaining
138
+ ---
139
+
140
+ ## Harness Engineering
141
+
142
+ `npx buildcrew` auto-detects your stack and generates a project harness.
143
+
144
+ ### What it auto-detects
145
+
146
+ | Category | Detected from |
147
+ |----------|--------------|
148
+ | Framework | package.json (Next.js, Nuxt, React, Vue, SvelteKit, Express) |
149
+ | Language | TypeScript, TailwindCSS, Framer Motion |
150
+ | Database | Supabase, Prisma, Drizzle, MongoDB |
151
+ | Auth | NextAuth, Supabase Auth, Firebase Auth |
152
+ | Payments | Stripe, Paddle, Toss Payments |
153
+ | AI | OpenAI, Anthropic, Google AI |
154
+ | Deploy | Vercel, Netlify, Fly.io, Docker |
155
+ | Components | Scans `src/components/` |
156
+ | API Routes | Scans `src/app/api/` |
157
+ | Locales | Scans i18n directories |
158
+
159
+ ### Generated files
160
+
161
+ ```
162
+ .claude/harness/
163
+ ├── project.md ← always (project context, stack, components, API routes)
164
+ ├── rules.md ← always (smart defaults for your framework)
165
+ ├── erd.md ← if database detected
166
+ ├── api-spec.md ← if API routes found
167
+ ├── design-system.md ← if TailwindCSS detected
168
+ ├── architecture.md ← always
169
+ └── user-flow.md ← if i18n or 5+ components
170
+ ```
171
+
172
+ ### The harness is open
174
173
 
175
- Auto-suggests the next mode:
176
- - Feature complete → Ship → Canary
177
- - Canary CRITICAL → Debug
174
+ Add any `.md` file to `.claude/harness/` — agents read them all.
175
+
176
+ ```bash
177
+ npx buildcrew harness # Check which files need editing
178
+ npx buildcrew add # List available templates
179
+ ```
178
180
 
179
181
  ---
180
182
 
@@ -185,12 +187,11 @@ Each feature generates a full document chain:
185
187
  ```
186
188
  .claude/pipeline/{feature}/
187
189
  ├── 01-plan.md Requirements + 4-lens review scores
188
- ├── 02-references.md Curated UI/UX references from real sites
189
190
  ├── 02-design.md Design decisions + component specs
190
- ├── 03-dev-notes.md Implementation notes + files changed
191
- ├── 04-qa-report.md Acceptance criteria verification
191
+ ├── 03-dev-notes.md Implementation + 6-question analysis + self-review
192
+ ├── 04-qa-report.md Test map + acceptance criteria verification
192
193
  ├── 05-browser-qa.md Health score + screenshots + flows
193
- ├── 06-review.md Review findings + auto-fixes applied
194
+ ├── 06-review.md 4-specialist findings + auto-fixes
194
195
  └── 07-ship.md PR URL + release notes
195
196
  ```
196
197
 
@@ -200,11 +201,11 @@ Each feature generates a full document chain:
200
201
 
201
202
  | Command | Description |
202
203
  |---------|-------------|
203
- | `npx buildcrew` | Install agents (11 + orchestrator) |
204
- | `npx buildcrew init` | Auto-generate harness (zero questions) |
205
- | `npx buildcrew init --force` | Regenerate harness |
204
+ | `npx buildcrew` | Full interactive setup (agents + MCP + harness) |
205
+ | `npx buildcrew init` | Generate harness only |
206
+ | `npx buildcrew init --force` | Regenerate harness (backs up existing) |
206
207
  | `npx buildcrew add` | List harness templates |
207
- | `npx buildcrew add <name>` | Add a template (erd, architecture, etc.) |
208
+ | `npx buildcrew add <name>` | Add a template |
208
209
  | `npx buildcrew harness` | Show harness file status |
209
210
  | `npx buildcrew --force` | Overwrite existing agents |
210
211
  | `npx buildcrew --list` | List agents with models |
@@ -214,60 +215,33 @@ Each feature generates a full document chain:
214
215
  ## Requirements
215
216
 
216
217
  - **Required**: [Claude Code](https://claude.ai/code) CLI
217
- - **Optional**: [Playwright MCP](https://github.com/anthropics/anthropic-quickstarts/tree/main/mcp-servers/playwright) — for browser-qa, canary-monitor, designer
218
+ - **Required**: [Playwright MCP](https://github.com/anthropics/anthropic-quickstarts/tree/main/mcp-servers/playwright) — installed automatically during setup
218
219
  - **Optional**: [Figma MCP](https://github.com/anthropics/anthropic-quickstarts/tree/main/mcp-servers/figma) — for designer
219
-
220
- ```bash
221
- # Enable real browser testing
222
- claude mcp add playwright -- npx @anthropic-ai/mcp-server-playwright
223
- ```
224
-
225
- ## Customization
226
-
227
- ```
228
- .claude/agents/ Agent definitions — edit roles, tools, model
229
- .claude/harness/ Project context — edit anytime, add any .md
230
- .claude/pipeline/ Output documents — auto-generated per feature
231
- ```
232
-
233
- ## Real-time Status
234
-
235
- Every agent outputs emoji-tagged progress logs so you can track what's happening:
236
-
237
- ```
238
- 📋 PLANNER — Starting requirements analysis for "user dashboard"
239
- 🧠 Phase 1: Asking 6 Forcing Questions...
240
- 🔎 Phase 3: 4-Lens Self-Review...
241
- 🏢 CEO: 8/10 ⚙️ Engineering: 9/10 🎨 Design: 9/10 🧪 QA: 8/10
242
- ✅ PLANNER — Complete (avg score: 8.5/10)
243
-
244
- 🎨 DESIGNER — Starting UI/UX design...
245
- 💻 DEVELOPER — Phase 1: 6 Implementation Questions...
246
- 🔍 Phase 2: Implementation...
247
- 🔎 Phase 3: 3-Lens Self-Review — Architecture: 8/10, Quality: 9/10, Safety: 7/10
248
- ✅ DEVELOPER — Complete (12 files changed, avg: 8.0/10)
249
-
250
- 🧪 QA TESTER — 5 Test Strategy Questions → Test Map built
251
- ✅ AC-1: PASS ❌ AC-2: FAIL (confidence: 9/10)
252
- 🔬 REVIEWER — 4 specialists + adversarial — APPROVE (2 auto-fixed)
253
- ```
220
+ - **Optional**: [Codex CLI](https://github.com/openai/codex) — for cross-model second opinion
254
221
 
255
222
  ## Architecture
256
223
 
257
224
  ```
258
- @buildcrew (orchestrator, opus)
225
+ @buildcrew (orchestrator, opus, 199 lines)
259
226
 
260
227
  ├─ reads .claude/harness/*.md
261
- ├─ detects mode from user message
228
+ ├─ detects mode from user message (13 modes, priority table)
262
229
  ├─ dispatches agents with harness context
263
- └─ enforces quality gates + full end-to-end iteration
230
+ ├─ enforces quality gates + iteration
231
+ └─ offers second opinion after completion
264
232
 
265
- ├── Build: plannerdesigner → developer
266
- ├── Quality: qa-testerbrowser-qareviewer
267
- ├── Sec/Ops: security-auditor, canary-monitor, shipper
268
- └── Debug: investigator
233
+ ├── Think: thinkerarchitect
234
+ ├── Build: plannerdesignerdeveloper
235
+ ├── Quality: qa-tester → browser-qa → reviewer
236
+ ├── Sec/Ops: security-auditor, canary-monitor, shipper
237
+ ├── Review: architect, design-reviewer, qa-auditor
238
+ └── Debug: investigator
269
239
  ```
270
240
 
241
+ ### Version Auto-Update
242
+
243
+ Agents include version headers. When you run `npx buildcrew` on an existing project, outdated agents are automatically updated — no `--force` needed.
244
+
271
245
  ## License
272
246
 
273
247
  MIT
package/bin/setup.js CHANGED
@@ -475,16 +475,12 @@ async function runInstall(force) {
475
475
  if (installed > 0 || updated > 0) log(` ${GREEN}${BOLD}Done!${RESET} ${parts.join(", ")}.\n`);
476
476
  else log(` ${GREEN}All agents up-to-date.${RESET} (v${VERSION})\n`);
477
477
 
478
- if (!(await exists(join(HARNESS_DIR, "project.md")))) {
479
- log(` ${CYAN}Next:${RESET} ${BOLD}npx buildcrew init${RESET} — auto-generates project harness from your codebase.\n`);
480
- }
481
-
482
- // Check Playwright MCP (required for browser-qa, design-reviewer, canary-monitor, designer)
478
+ // ─── Step 2: Playwright MCP ───
483
479
  try {
484
480
  const { execSync } = await import("child_process");
485
481
  const mcpList = execSync("claude mcp list 2>/dev/null", { encoding: "utf8" });
486
482
  if (!mcpList.includes("playwright")) {
487
- log(`\n ${YELLOW}Playwright MCP${RESET} is needed for browser testing agents.`);
483
+ log(` ${YELLOW}Playwright MCP${RESET} is needed for browser testing agents.`);
488
484
  log(` ${DIM}Used by: browser-qa, design-reviewer, canary-monitor, designer${RESET}\n`);
489
485
  const answer = await ask(` Install Playwright MCP now? ${BOLD}(Y/n)${RESET} `);
490
486
  if (answer === "" || answer === "y" || answer === "yes") {
@@ -497,14 +493,26 @@ async function runInstall(force) {
497
493
  log(` ${BOLD}claude mcp add playwright -- npx @anthropic-ai/mcp-server-playwright${RESET}\n`);
498
494
  }
499
495
  } else {
500
- log(`\n ${DIM}Skipped. Install later with:${RESET}`);
501
- log(` ${BOLD}claude mcp add playwright -- npx @anthropic-ai/mcp-server-playwright${RESET}\n`);
496
+ log(`\n ${DIM}Skipped. Run later: claude mcp add playwright -- npx @anthropic-ai/mcp-server-playwright${RESET}\n`);
502
497
  }
503
498
  } else {
504
499
  log(` ${GREEN}Playwright MCP:${RESET} installed ✓\n`);
505
500
  }
506
501
  } catch { /* claude CLI not available, skip */ }
507
502
 
503
+ // ─── Step 3: Project harness ───
504
+ if (!(await exists(join(HARNESS_DIR, "project.md")))) {
505
+ const initAnswer = await ask(` Generate project harness? ${DIM}(auto-detects your stack)${RESET} ${BOLD}(Y/n)${RESET} `);
506
+ if (initAnswer === "" || initAnswer === "y" || initAnswer === "yes") {
507
+ log("");
508
+ await runInit(false);
509
+ } else {
510
+ log(`\n ${DIM}Skipped. Run later: npx buildcrew init${RESET}\n`);
511
+ }
512
+ } else {
513
+ log(` ${GREEN}Project harness:${RESET} exists ✓\n`);
514
+ }
515
+
508
516
  log(` ${BOLD}Start:${RESET} @buildcrew [your request]\n`);
509
517
  }
510
518
 
package/package.json CHANGED
@@ -1,6 +1,6 @@
1
1
  {
2
2
  "name": "buildcrew",
3
- "version": "1.8.3",
3
+ "version": "1.8.5",
4
4
  "description": "15 AI agents for Claude Code — full development lifecycle from product thinking to production monitoring",
5
5
  "homepage": "https://buildcrew-landing.vercel.app",
6
6
  "author": "z1nun",