codex-harness-engineering 0.1.4 → 0.1.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (34) hide show
  1. package/AGENTS.md +18 -6
  2. package/LICENSE +21 -0
  3. package/README.md +69 -6
  4. package/docs/harness-engineering/implementation-playbook.md +232 -286
  5. package/docs/harness-engineering/index.md +7 -4
  6. package/docs/harness-engineering/research-note.md +294 -274
  7. package/docs/harness-engineering/sources.md +166 -72
  8. package/package.json +9 -4
  9. package/scripts/install-skills.mjs +73 -15
  10. package/scripts/publish.sh +2 -2
  11. package/scripts/verify-harness.mjs +61 -4
  12. package/skills/acceptance-contract/SKILL.md +39 -49
  13. package/skills/acceptance-contract/agents/openai.yaml +2 -2
  14. package/skills/cleanup-harness/SKILL.md +48 -59
  15. package/skills/cleanup-harness/agents/openai.yaml +2 -2
  16. package/skills/creator-harness/SKILL.md +79 -95
  17. package/skills/creator-harness/agents/openai.yaml +2 -2
  18. package/skills/creator-harness/references/harness-artifacts.md +63 -62
  19. package/skills/lessons-harness/SKILL.md +68 -0
  20. package/skills/lessons-harness/agents/openai.yaml +4 -0
  21. package/templates/harness/AGENTS.md +77 -0
  22. package/templates/harness/feature_list.json +16 -0
  23. package/templates/harness/init.sh +15 -0
  24. package/templates/harness/lessons.md +18 -0
  25. package/templates/harness/memory/README.md +22 -0
  26. package/templates/harness/progress.md +33 -0
  27. package/templates/harness/rotate-state.mjs +131 -0
  28. package/templates/harness/verify-state.mjs +117 -0
  29. package/templates/team/roles/evaluator.md +43 -0
  30. package/templates/team/roles/implementer.md +29 -0
  31. package/templates/team/roles/planner.md +28 -0
  32. package/templates/team/sprint-template.md +36 -0
  33. package/templates/team/verify-team.mjs +71 -0
  34. package/templates/team/workflow.md +62 -0
@@ -2,12 +2,13 @@
2
2
 
3
3
  ## Thứ tự đọc
4
4
 
5
- 1. `research-note.md` - bản tổng hợp khái niệm chính.
5
+ 1. `research-note.md` - white paper nguồn-truth, bản tổng hợp khái niệm chính.
6
6
  2. `implementation-playbook.md` - hướng dẫn triển khai harness trong repository.
7
7
  3. `sources.md` - metadata nguồn và bản đồ bằng chứng.
8
8
  4. `skills/creator-harness/SKILL.md` - skill thực hành để tạo harness tối thiểu.
9
9
  5. `skills/acceptance-contract/SKILL.md` - skill chốt scope, tiêu chí done, và verification.
10
10
  6. `skills/cleanup-harness/SKILL.md` - skill scope cleanup có trigger và rollback.
11
+ 7. `skills/lessons-harness/SKILL.md` - skill ghi mistake thành lesson và promote rule lặp lại thành guardrail.
11
12
 
12
13
  ## Phạm vi
13
14
 
@@ -17,7 +18,7 @@ Tài liệu này nghiên cứu harness engineering qua năm bài:
17
18
  - `[S2]` Anthropic, "Effective harnesses for long-running agents".
18
19
  - `[S3]` Anthropic, "Building effective agents".
19
20
  - `[S4]` Anthropic, "Harness design for long-running application development".
20
- - `[S5]` Google DeepMind, "AutoHarness: Improving LLM Agents by Automatically Synthesizing a Code Harness" & Google Cloud agent engineering practices.
21
+ - `[S5]` Google DeepMind, "AutoHarness: improving LLM agents by automatically synthesizing a code harness".
21
22
 
22
23
  Mọi nguồn khác đã bị loại khỏi narrative hiện tại để giữ trọng tâm đúng yêu cầu.
23
24
 
@@ -37,7 +38,8 @@ Năm bài tạo thành một chuỗi logic:
37
38
  chất lượng chủ quan, và QA qua runtime.
38
39
  4. `[S1]` mở rộng thành kỷ luật repository-level: tri thức trong repo, môi
39
40
  trường dễ đọc với agent, invariant cơ học, throughput, và cleanup.
40
- 5. `[S5]` bổ sung khả năng tự động hóa sinh lớp bọc thực thi (AutoHarness) và các phương pháp đánh giá vết chạy (Trajectory Evaluation) cùng LLM-as-a-judge.
41
+ 5. `[S5]` bổ sung khả năng tự động sinh lớp bọc thực thi (AutoHarness) và sinh
42
+ policy thành code tĩnh (code-as-policy).
41
43
 
42
44
  ## Luận điểm chính
43
45
 
@@ -52,7 +54,8 @@ Năm bài tạo thành một chuỗi logic:
52
54
  hơn để generator sửa [S4].
53
55
  6. Tài liệu không đủ để giữ kiến trúc; invariant nên được mã hóa bằng lint,
54
56
  structural test, CI, và cleanup [S1].
55
- 7. Khi quy tắc môi trường quá phức tạp để tự viết, có thể dùng mô hình tự động sinh lớp bọc bằng code (AutoHarness) và đánh giá vết chạy (Trajectory Evaluation) tự động [S5].
57
+ 7. Khi quy tắc môi trường quá phức tạp để tự viết, có thể dùng mô hình tự động
58
+ sinh lớp bọc bằng code (AutoHarness) [S5].
56
59
 
57
60
  ## Định nghĩa làm việc
58
61