codex-harness-engineering 0.1.4 → 0.1.6
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/AGENTS.md +18 -6
- package/LICENSE +21 -0
- package/README.md +69 -6
- package/docs/harness-engineering/implementation-playbook.md +232 -286
- package/docs/harness-engineering/index.md +7 -4
- package/docs/harness-engineering/research-note.md +294 -274
- package/docs/harness-engineering/sources.md +166 -72
- package/package.json +9 -4
- package/scripts/install-skills.mjs +73 -15
- package/scripts/publish.sh +2 -2
- package/scripts/verify-harness.mjs +61 -4
- package/skills/acceptance-contract/SKILL.md +39 -49
- package/skills/acceptance-contract/agents/openai.yaml +2 -2
- package/skills/cleanup-harness/SKILL.md +48 -59
- package/skills/cleanup-harness/agents/openai.yaml +2 -2
- package/skills/creator-harness/SKILL.md +79 -95
- package/skills/creator-harness/agents/openai.yaml +2 -2
- package/skills/creator-harness/references/harness-artifacts.md +63 -62
- package/skills/lessons-harness/SKILL.md +68 -0
- package/skills/lessons-harness/agents/openai.yaml +4 -0
- package/templates/harness/AGENTS.md +77 -0
- package/templates/harness/feature_list.json +16 -0
- package/templates/harness/init.sh +15 -0
- package/templates/harness/lessons.md +18 -0
- package/templates/harness/memory/README.md +22 -0
- package/templates/harness/progress.md +33 -0
- package/templates/harness/rotate-state.mjs +131 -0
- package/templates/harness/verify-state.mjs +117 -0
- package/templates/team/roles/evaluator.md +43 -0
- package/templates/team/roles/implementer.md +29 -0
- package/templates/team/roles/planner.md +28 -0
- package/templates/team/sprint-template.md +36 -0
- package/templates/team/verify-team.mjs +71 -0
- package/templates/team/workflow.md +62 -0
|
@@ -1,50 +1,38 @@
|
|
|
1
1
|
---
|
|
2
2
|
name: acceptance-contract
|
|
3
|
-
description:
|
|
3
|
+
description: Dùng khi cần chốt tiêu chí "done", làm rõ phạm vi, ngăn agent tuyên bố hoàn thành sớm, hoặc chuẩn bị một task cho coding agent trước khi triển khai.
|
|
4
4
|
---
|
|
5
5
|
|
|
6
6
|
# Acceptance Contract
|
|
7
7
|
|
|
8
|
-
##
|
|
8
|
+
## Quy trình
|
|
9
9
|
|
|
10
|
-
|
|
11
|
-
|
|
12
|
-
|
|
10
|
+
1. Nêu các giả định trong một danh sách ngắn.
|
|
11
|
+
2. Chỉ ra mọi điểm nhập nhằng làm thay đổi cách triển khai hoặc verification.
|
|
12
|
+
3. Giữ phạm vi nhỏ hơn phần việc triển khai.
|
|
13
|
+
4. Định nghĩa hành vi nhìn thấy được ở phía người dùng hoặc hệ thống.
|
|
14
|
+
5. Định nghĩa tiêu chí nghiệm thu kiểm chứng được.
|
|
15
|
+
6. Định nghĩa lệnh verification hoặc tín hiệu quan sát được.
|
|
16
|
+
7. Đánh dấu non-goals để agent không mở rộng task.
|
|
17
|
+
8. Chỉ triển khai sau khi contract đủ rõ để verify.
|
|
13
18
|
|
|
14
|
-
|
|
15
|
-
|
|
16
|
-
check that policy. For templates, prefer the relevant section of
|
|
17
|
-
`docs/harness-engineering/implementation-playbook.md` instead of loading the
|
|
18
|
-
whole research note.
|
|
19
|
+
Nếu thông tin còn thiếu không thể suy luận an toàn, hãy hỏi một câu ngắn gọn
|
|
20
|
+
trước khi viết code.
|
|
19
21
|
|
|
20
|
-
##
|
|
21
|
-
|
|
22
|
-
1. State assumptions in one short list.
|
|
23
|
-
2. Name any ambiguity that changes implementation or verification.
|
|
24
|
-
3. Keep the scope smaller than the implementation work.
|
|
25
|
-
4. Define user-visible or system-visible behavior.
|
|
26
|
-
5. Define acceptance criteria that can be checked.
|
|
27
|
-
6. Define verification commands or observable signals.
|
|
28
|
-
7. Mark non-goals so the agent does not widen the task.
|
|
29
|
-
8. Implement only after the contract is clear enough to verify.
|
|
30
|
-
|
|
31
|
-
If the missing information cannot be inferred safely, ask one concise question
|
|
32
|
-
before writing code.
|
|
33
|
-
|
|
34
|
-
## Contract Template
|
|
22
|
+
## Mẫu Contract
|
|
35
23
|
|
|
36
24
|
```markdown
|
|
37
25
|
# Acceptance Contract
|
|
38
26
|
|
|
39
|
-
##
|
|
27
|
+
## Giả định
|
|
40
28
|
- ...
|
|
41
29
|
|
|
42
|
-
##
|
|
30
|
+
## Phạm vi
|
|
43
31
|
- Feature/fix:
|
|
44
|
-
-
|
|
45
|
-
-
|
|
32
|
+
- Hành vi nhìn thấy phía người dùng:
|
|
33
|
+
- File có khả năng đụng đến:
|
|
46
34
|
|
|
47
|
-
##
|
|
35
|
+
## Tiêu chí nghiệm thu
|
|
48
36
|
- [ ] ...
|
|
49
37
|
- [ ] ...
|
|
50
38
|
|
|
@@ -54,25 +42,27 @@ before writing code.
|
|
|
54
42
|
- Browser/API:
|
|
55
43
|
- Log/metric/trace:
|
|
56
44
|
|
|
57
|
-
##
|
|
45
|
+
## Ngoài phạm vi
|
|
58
46
|
- ...
|
|
59
47
|
```
|
|
60
48
|
|
|
61
|
-
##
|
|
62
|
-
|
|
63
|
-
-
|
|
64
|
-
-
|
|
65
|
-
-
|
|
66
|
-
|
|
67
|
-
-
|
|
68
|
-
|
|
69
|
-
|
|
70
|
-
##
|
|
71
|
-
|
|
72
|
-
-
|
|
73
|
-
-
|
|
74
|
-
|
|
75
|
-
-
|
|
76
|
-
|
|
77
|
-
|
|
78
|
-
|
|
49
|
+
## Quy tắc verification
|
|
50
|
+
|
|
51
|
+
- Ưu tiên một lệnh sẵn có của dự án hơn là viết script mới.
|
|
52
|
+
- Với thay đổi code, chạy bài test hẹp nhất chứng minh được tiêu chí.
|
|
53
|
+
- Với hành vi UI/runtime, dùng bằng chứng browser, API, log, metric, trace,
|
|
54
|
+
hoặc screenshot khi có.
|
|
55
|
+
- Không đánh dấu tiêu chí là done cho tới khi verification đã chạy, hoặc nêu rõ
|
|
56
|
+
lý do nếu một kiểm tra bị bỏ qua.
|
|
57
|
+
|
|
58
|
+
## Ánh xạ nguồn
|
|
59
|
+
|
|
60
|
+
- Task nhỏ nên dùng quy trình đơn giản đủ dùng nhất [S3].
|
|
61
|
+
- Task agent chạy dài cần state và verification để tránh tuyên bố "done" sớm
|
|
62
|
+
[S2].
|
|
63
|
+
- Các kiểm tra nhìn thấy được lúc runtime cải thiện feedback loop của agent
|
|
64
|
+
[S1], [S2], [S4].
|
|
65
|
+
- Sprint contract và tiêu chí của evaluator giúp ích khi chất lượng task mang
|
|
66
|
+
tính chủ quan hoặc nhiều bước [S4].
|
|
67
|
+
- AutoHarness tổng hợp một code wrapper để cưỡng chế ràng buộc khi quy tắc thủ
|
|
68
|
+
công quá phức tạp [S5].
|
|
@@ -1,4 +1,4 @@
|
|
|
1
1
|
interface:
|
|
2
2
|
display_name: "Acceptance Contract"
|
|
3
|
-
short_description: "
|
|
4
|
-
default_prompt: "
|
|
3
|
+
short_description: "Chốt phạm vi, tiêu chí done, và kiểm tra"
|
|
4
|
+
default_prompt: "Dùng $acceptance-contract để chốt phạm vi, tiêu chí nghiệm thu, và verification cho task này."
|
|
@@ -1,90 +1,79 @@
|
|
|
1
1
|
---
|
|
2
2
|
name: cleanup-harness
|
|
3
|
-
description:
|
|
3
|
+
description: Dùng khi cần thiết kế, chốt phạm vi, hoặc thực hiện cleanup cho code do agent tạo, tài liệu trôi (drift), defect review lặp lại, kiến trúc trôi, hoặc nợ harness tích tụ.
|
|
4
4
|
---
|
|
5
5
|
|
|
6
6
|
# Cleanup Harness
|
|
7
7
|
|
|
8
|
-
##
|
|
8
|
+
## Điều kiện kích hoạt
|
|
9
9
|
|
|
10
|
-
|
|
11
|
-
needs a trigger, acceptance criteria, verification, and rollback path because
|
|
12
|
-
high agent throughput can spread weak patterns quickly.
|
|
10
|
+
Chỉ bắt đầu một task cleanup khi thấy ít nhất một trigger:
|
|
13
11
|
|
|
14
|
-
|
|
15
|
-
|
|
16
|
-
|
|
17
|
-
|
|
18
|
-
|
|
12
|
+
- cùng một helper, workaround, hoặc pattern xuất hiện lặp lại;
|
|
13
|
+
- một feature đi vòng qua ranh giới kiến trúc;
|
|
14
|
+
- log tiến độ lặp lại cùng một lỗi;
|
|
15
|
+
- feedback từ evaluator hoặc review bắt cùng một lớp defect nhiều lần;
|
|
16
|
+
- docs, index, hoặc `AGENTS.md` trôi khỏi trạng thái thực của repo;
|
|
17
|
+
- công việc mới thêm code workaround thay vì sửa nguyên nhân gốc.
|
|
19
18
|
|
|
20
|
-
|
|
19
|
+
Nếu không thấy trigger nào, hãy nêu vấn đề tiềm năng nhưng đừng sửa code không
|
|
20
|
+
liên quan.
|
|
21
21
|
|
|
22
|
-
|
|
22
|
+
## Quy trình
|
|
23
23
|
|
|
24
|
-
|
|
25
|
-
|
|
26
|
-
|
|
27
|
-
|
|
28
|
-
|
|
29
|
-
|
|
24
|
+
1. Xác định trigger cụ thể và bằng chứng.
|
|
25
|
+
2. Chốt phạm vi cleanup nhỏ nhất loại bỏ được vấn đề lặp lại.
|
|
26
|
+
3. Liệt kê các file có khả năng thay đổi.
|
|
27
|
+
4. Định nghĩa tiêu chí nghiệm thu.
|
|
28
|
+
5. Định nghĩa lệnh verification hoặc tín hiệu quan sát được.
|
|
29
|
+
6. Chỉ dọn nợ nằm trong phạm vi đã khai báo.
|
|
30
|
+
7. Chuyển phán đoán lặp lại thành một guardrail cơ học khi khả thi.
|
|
31
|
+
8. Ghi lại những gì đã verify và rủi ro còn lại.
|
|
30
32
|
|
|
31
|
-
|
|
32
|
-
code.
|
|
33
|
-
|
|
34
|
-
## Workflow
|
|
35
|
-
|
|
36
|
-
1. Identify the concrete trigger and evidence.
|
|
37
|
-
2. Define the smallest cleanup scope that removes the repeated problem.
|
|
38
|
-
3. List files likely to change.
|
|
39
|
-
4. Define acceptance criteria.
|
|
40
|
-
5. Define verification commands or observable signals.
|
|
41
|
-
6. Remove only debt inside the declared scope.
|
|
42
|
-
7. Convert repeated judgment into a mechanical guardrail when practical.
|
|
43
|
-
8. Record what was verified and any residual risk.
|
|
44
|
-
|
|
45
|
-
## Cleanup Task Template
|
|
33
|
+
## Mẫu Cleanup Task
|
|
46
34
|
|
|
47
35
|
```markdown
|
|
48
36
|
# Cleanup Task
|
|
49
37
|
|
|
50
38
|
## Trigger
|
|
51
|
-
-
|
|
39
|
+
- Bằng chứng:
|
|
52
40
|
|
|
53
|
-
##
|
|
54
|
-
-
|
|
55
|
-
-
|
|
41
|
+
## Phạm vi
|
|
42
|
+
- Cần dọn:
|
|
43
|
+
- File có khả năng đụng đến:
|
|
56
44
|
|
|
57
|
-
##
|
|
58
|
-
- [ ]
|
|
59
|
-
- [ ]
|
|
60
|
-
- [ ]
|
|
45
|
+
## Tiêu chí nghiệm thu
|
|
46
|
+
- [ ] Nguồn gây trùng lặp hoặc drift đã được loại bỏ.
|
|
47
|
+
- [ ] Hành vi giữ nguyên trừ khi được yêu cầu rõ ràng.
|
|
48
|
+
- [ ] Đã thêm guardrail, hoặc nêu rõ lý do không thêm.
|
|
61
49
|
|
|
62
50
|
## Verification
|
|
63
51
|
- Tests:
|
|
64
|
-
-
|
|
65
|
-
-
|
|
52
|
+
- Kiểm tra lint/cấu trúc:
|
|
53
|
+
- Kiểm tra runtime:
|
|
66
54
|
|
|
67
55
|
## Rollback
|
|
68
|
-
-
|
|
56
|
+
- Điểm khôi phục an toàn:
|
|
69
57
|
```
|
|
70
58
|
|
|
71
|
-
##
|
|
59
|
+
## Hướng dẫn guardrail
|
|
72
60
|
|
|
73
|
-
|
|
61
|
+
Ưu tiên một kiểm tra cơ học khi vấn đề có khả năng tái diễn:
|
|
74
62
|
|
|
75
|
-
- lint
|
|
76
|
-
- doc/index
|
|
77
|
-
- smoke test
|
|
78
|
-
- evaluator
|
|
63
|
+
- lint hoặc structural test cho ranh giới kiến trúc;
|
|
64
|
+
- kiểm tra độ tươi của doc/index cho nguồn chân lý của repo;
|
|
65
|
+
- smoke test cho drift trong setup hoặc runtime;
|
|
66
|
+
- rubric evaluator cho lỗi chất lượng chủ quan lặp lại.
|
|
79
67
|
|
|
80
|
-
|
|
68
|
+
Không thêm quy tắc rộng mà không bảo vệ một invariant cụ thể nào.
|
|
81
69
|
|
|
82
|
-
##
|
|
70
|
+
## Ánh xạ nguồn
|
|
83
71
|
|
|
84
|
-
- Cleanup
|
|
85
|
-
|
|
86
|
-
-
|
|
87
|
-
-
|
|
88
|
-
-
|
|
89
|
-
|
|
90
|
-
- AutoHarness
|
|
72
|
+
- Cleanup là một phần của bảo trì harness cấp repo khi throughput làm tăng
|
|
73
|
+
entropy [S1].
|
|
74
|
+
- Guardrail cơ học mạnh hơn văn xuôi cho các invariant lặp lại [S1].
|
|
75
|
+
- Giữ can thiệp đơn giản đúng mức mà failure mode cho phép [S3].
|
|
76
|
+
- Công việc chạy dài hưởng lợi từ state, verification, và điểm khôi phục tường
|
|
77
|
+
minh [S2], [S4].
|
|
78
|
+
- AutoHarness có thể tự tổng hợp ràng buộc dạng code để giảm nợ cleanup khi quy
|
|
79
|
+
tắc thủ công quá phức tạp [S5].
|
|
@@ -1,4 +1,4 @@
|
|
|
1
1
|
interface:
|
|
2
2
|
display_name: "Cleanup Harness"
|
|
3
|
-
short_description: "
|
|
4
|
-
default_prompt: "
|
|
3
|
+
short_description: "Chốt phạm vi cleanup theo trigger và kiểm tra"
|
|
4
|
+
default_prompt: "Dùng $cleanup-harness để chốt phạm vi một task cleanup với bằng chứng trigger, tiêu chí nghiệm thu, và verification."
|
|
@@ -1,108 +1,92 @@
|
|
|
1
1
|
---
|
|
2
2
|
name: creator-harness
|
|
3
|
-
description:
|
|
3
|
+
description: Dùng khi cần tạo, thiết kế, audit, hoặc cải thiện một harness cho AI agent, coding agent, công việc chạy dài, eval loop, workflow repository, hoặc quy trình vận hành của agent.
|
|
4
4
|
---
|
|
5
5
|
|
|
6
6
|
# Creator Harness
|
|
7
7
|
|
|
8
|
-
##
|
|
9
|
-
|
|
10
|
-
|
|
11
|
-
|
|
12
|
-
|
|
13
|
-
|
|
14
|
-
|
|
15
|
-
|
|
16
|
-
|
|
17
|
-
|
|
18
|
-
|
|
19
|
-
|
|
20
|
-
|
|
21
|
-
|
|
22
|
-
|
|
23
|
-
|
|
24
|
-
|
|
25
|
-
|
|
26
|
-
|
|
27
|
-
|
|
28
|
-
|
|
29
|
-
|
|
30
|
-
|
|
31
|
-
|
|
32
|
-
|
|
33
|
-
|
|
34
|
-
|
|
35
|
-
|
|
36
|
-
|
|
37
|
-
|
|
38
|
-
|
|
39
|
-
|
|
40
|
-
|
|
41
|
-
|
|
42
|
-
|
|
43
|
-
|
|
44
|
-
-
|
|
45
|
-
-
|
|
46
|
-
-
|
|
47
|
-
-
|
|
48
|
-
|
|
49
|
-
|
|
50
|
-
-
|
|
51
|
-
-
|
|
52
|
-
|
|
53
|
-
|
|
54
|
-
-
|
|
55
|
-
-
|
|
56
|
-
-
|
|
57
|
-
|
|
58
|
-
|
|
59
|
-
-
|
|
60
|
-
-
|
|
61
|
-
|
|
62
|
-
|
|
63
|
-
- weak self-review: evaluator rubric or separate evaluator pass;
|
|
64
|
-
- drift: structural lint or architecture test;
|
|
65
|
-
- throughput entropy: targeted cleanup task with verification;
|
|
66
|
-
- complex constraints: AutoHarness synthesized code wrapper [S5];
|
|
67
|
-
- agent trajectory drift: Trajectory Evaluation and LLM-as-a-judge [S5].
|
|
68
|
-
|
|
69
|
-
4. Write a harness contract:
|
|
70
|
-
- agent role and allowed scope;
|
|
71
|
-
- durable state files;
|
|
72
|
-
- required tools and observable signals;
|
|
73
|
-
- verification commands;
|
|
74
|
-
- loop cadence;
|
|
75
|
-
- stop/escalation conditions;
|
|
76
|
-
- out-of-scope work.
|
|
77
|
-
|
|
78
|
-
5. Create only the needed files. For templates, read
|
|
8
|
+
## Quy tắc làm việc
|
|
9
|
+
|
|
10
|
+
1. Nêu giả định trước khi tạo file. Nếu không thể biết target agent, runtime,
|
|
11
|
+
hoặc tiêu chí thành công, hãy hỏi một câu ngắn gọn.
|
|
12
|
+
2. Bắt đầu với harness single-agent kèm state và verification. Chỉ thêm planner,
|
|
13
|
+
evaluator, telemetry, hoặc cleanup automation khi một failure mode có tên đòi
|
|
14
|
+
hỏi.
|
|
15
|
+
3. Chỉ đụng đến artifact harness trừ khi người dùng yêu cầu rõ ràng thay đổi
|
|
16
|
+
code sản phẩm.
|
|
17
|
+
4. Mỗi artifact harness phải trả lời ít nhất một câu hỏi: Agent cần biết gì?
|
|
18
|
+
State nào sống sót qua mất context? Agent quan sát được gì? Verify thế nào?
|
|
19
|
+
Invariant nào được cưỡng chế cơ học?
|
|
20
|
+
5. Chuyển các preference quan trọng thành kiểm tra khi khả thi: test, lint,
|
|
21
|
+
script, CI job, rubric evaluator, hoặc reviewer contract.
|
|
22
|
+
6. Với chỉnh sửa Markdown hoặc research note một lần trong repo này, không khởi
|
|
23
|
+
động autonomous loop trừ khi người dùng yêu cầu rõ ràng.
|
|
24
|
+
|
|
25
|
+
## Quy trình thiết kế
|
|
26
|
+
|
|
27
|
+
1. Kiểm kê bề mặt harness hiện có:
|
|
28
|
+
- `AGENTS.md`, `README.md`, docs kiến trúc, product spec;
|
|
29
|
+
- setup script, task runner, CI, test, smoke test;
|
|
30
|
+
- log tiến độ, feature list, todo, research state;
|
|
31
|
+
- eval prompt, rubric evaluator, screenshot, trace, telemetry;
|
|
32
|
+
- tool contract, permission, quy tắc escalation.
|
|
33
|
+
|
|
34
|
+
2. Đặt tên cho các failure mode:
|
|
35
|
+
- mất context qua các session;
|
|
36
|
+
- tuyên bố "done" sớm;
|
|
37
|
+
- khả năng quan sát runtime yếu;
|
|
38
|
+
- triển khai quá rộng;
|
|
39
|
+
- lạc quan khi tự đánh giá;
|
|
40
|
+
- kiến trúc trôi;
|
|
41
|
+
- nợ cleanup do throughput cao của agent.
|
|
42
|
+
|
|
43
|
+
3. Chọn can thiệp tối thiểu:
|
|
44
|
+
- task chưa rõ: acceptance contract;
|
|
45
|
+
- mất context: `progress.md`, `feature_list.json`, git protocol;
|
|
46
|
+
- môi trường hỏng: `init.sh`, smoke test;
|
|
47
|
+
- runtime không nhìn thấy: kiểm tra browser/API/log/metric/trace;
|
|
48
|
+
- tự review yếu: rubric evaluator hoặc một lượt evaluator riêng;
|
|
49
|
+
- drift: structural lint hoặc architecture test;
|
|
50
|
+
- entropy do throughput: task cleanup có phạm vi kèm verification;
|
|
51
|
+
- ràng buộc phức tạp: code wrapper tổng hợp bởi AutoHarness [S5].
|
|
52
|
+
|
|
53
|
+
4. Viết một harness contract:
|
|
54
|
+
- vai trò agent và phạm vi cho phép;
|
|
55
|
+
- các file state bền vững;
|
|
56
|
+
- tool cần dùng và tín hiệu quan sát được;
|
|
57
|
+
- lệnh verification;
|
|
58
|
+
- nhịp loop;
|
|
59
|
+
- điều kiện stop/escalation;
|
|
60
|
+
- công việc ngoài phạm vi.
|
|
61
|
+
|
|
62
|
+
5. Chỉ tạo những file cần thiết. Khi cần mẫu, đọc
|
|
79
63
|
`references/harness-artifacts.md`.
|
|
80
64
|
|
|
81
|
-
6. Verify
|
|
82
|
-
-
|
|
83
|
-
-
|
|
84
|
-
-
|
|
85
|
-
-
|
|
86
|
-
|
|
87
|
-
-
|
|
65
|
+
6. Verify harness:
|
|
66
|
+
- chạy validator cú pháp/định dạng cho các file đã tạo;
|
|
67
|
+
- chạy smoke test đã khai báo nếu có;
|
|
68
|
+
- chạy lượt quét placeholder và citation theo `AGENTS.md`;
|
|
69
|
+
- kiểm tra không có automation định kỳ nào bị tạo cho một task tài liệu một
|
|
70
|
+
lần;
|
|
71
|
+
- nếu chỉnh sửa chính skill này, validate skill nếu có validator cục bộ.
|
|
88
72
|
|
|
89
|
-
##
|
|
73
|
+
## Các loại harness
|
|
90
74
|
|
|
91
|
-
|
|
|
92
|
-
|
|
|
93
|
-
|
|
|
94
|
-
|
|
|
95
|
-
| UI/runtime
|
|
96
|
-
|
|
|
97
|
-
|
|
|
98
|
-
|
|
|
75
|
+
| Tình huống | Harness mặc định |
|
|
76
|
+
| ---------------------------- | --------------------------------------------------------- |
|
|
77
|
+
| Bug/feature nhỏ | Tiêu chí nghiệm thu và một lệnh verification |
|
|
78
|
+
| Code nhiều session | `progress.md`, `feature_list.json`, `init.sh`, smoke test |
|
|
79
|
+
| App nặng UI/runtime | Sprint contract, kiểm tra browser/API, ghi chú evaluator |
|
|
80
|
+
| Build ứng dụng dài | Planner, generator, evaluator, sprint contract |
|
|
81
|
+
| Repo nhạy kiến trúc | Dependency rule, structural test, nhịp cleanup |
|
|
82
|
+
| Môi trường phức tạp/nhiều luật | Code wrapper tổng hợp bởi AutoHarness |
|
|
99
83
|
|
|
100
|
-
##
|
|
84
|
+
## Hình thức đầu ra
|
|
101
85
|
|
|
102
|
-
|
|
86
|
+
Khi trả lời mà không sửa file, hãy tạo:
|
|
103
87
|
|
|
104
88
|
```markdown
|
|
105
|
-
##
|
|
89
|
+
## Giả định
|
|
106
90
|
|
|
107
91
|
- ...
|
|
108
92
|
|
|
@@ -110,15 +94,15 @@ When answering without file edits, produce:
|
|
|
110
94
|
|
|
111
95
|
- ...
|
|
112
96
|
|
|
113
|
-
##
|
|
97
|
+
## Harness tối thiểu
|
|
114
98
|
|
|
115
99
|
- Artifact:
|
|
116
|
-
-
|
|
100
|
+
- Mục đích:
|
|
117
101
|
- Verification:
|
|
118
102
|
|
|
119
|
-
##
|
|
103
|
+
## Bước tiếp theo
|
|
120
104
|
|
|
121
105
|
- ...
|
|
122
106
|
```
|
|
123
107
|
|
|
124
|
-
|
|
108
|
+
Khi sửa file, tóm tắt các file đã đổi và verification đã chạy.
|
|
@@ -1,4 +1,4 @@
|
|
|
1
1
|
interface:
|
|
2
2
|
display_name: "Creator Harness"
|
|
3
|
-
short_description: "
|
|
4
|
-
default_prompt: "
|
|
3
|
+
short_description: "Thiết kế harness thực dụng cho agent"
|
|
4
|
+
default_prompt: "Dùng $creator-harness để thiết kế một harness tối thiểu cho repository này."
|