npm - agentv - Versions diffs - 2.5.4 → 2.5.6 - Mend

agentv 2.5.4 → 2.5.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

package/README.md CHANGED Viewed

@@ -31,13 +31,9 @@ evalcases:
   - id: addition
     expected_outcome: Correctly calculates 15 + 27 = 42
-    input_messages:
-      - role: user
-        content: What is 15 + 27?
+    input: What is 15 + 27?
-    expected_messages:
-      - role: assistant
-        content: "42"
+    expected_output: "42"
     execution:
       evaluators:
@@ -108,8 +104,8 @@ See [AGENTS.md](AGENTS.md) for development guidelines and design principles.
 For large-scale evaluations, AgentV supports JSONL (JSON Lines) format as an alternative to YAML:
 ```jsonl
-{"id": "test-1", "expected_outcome": "Calculates correctly", "input_messages": [{"role": "user", "content": "What is 2+2?"}]}
-{"id": "test-2", "expected_outcome": "Provides explanation", "input_messages": [{"role": "user", "content": "Explain variables"}]}
+{"id": "test-1", "expected_outcome": "Calculates correctly", "input": "What is 2+2?"}
+{"id": "test-2", "expected_outcome": "Provides explanation", "input": "Explain variables"}
 ```
 Optional sidecar YAML metadata file (`dataset.yaml` alongside `dataset.jsonl`):
@@ -184,7 +180,7 @@ execution:
       script: ./validators/check_answer.py
 ```
-For complete templates, examples, and evaluator patterns, see: [custom-evaluators.md](.claude/skills/agentv-eval-builder/references/custom-evaluators.md)
+For complete templates, examples, and evaluator patterns, see: [custom-evaluators](https://agentv.dev/evaluators/custom-evaluators/)
 ### Compare Evaluation Results
@@ -238,7 +234,7 @@ Write validators in any language (Python, TypeScript, Node, etc.):
 ```
 For complete examples and patterns, see:
-- [custom-evaluators skill](.claude/skills/agentv-eval-builder/references/custom-evaluators.md)
+- [custom-evaluators](https://agentv.dev/evaluators/custom-evaluators/)
 - [code-judge-sdk example](examples/features/code-judge-sdk)
 ### LLM Judges
@@ -264,9 +260,7 @@ evalcases:
   - id: quicksort-explain
     expected_outcome: Explain how quicksort works
-    input_messages:
-      - role: user
-        content: Explain quicksort algorithm
+    input: Explain quicksort algorithm
     rubrics:
       - Mentions divide-and-conquer approach
@@ -281,7 +275,7 @@ Auto-generate rubrics from expected outcomes:
 agentv generate rubrics evals/my-eval.yaml
 ```
-See [rubric-evaluator skill](.claude/skills/agentv-eval-builder/references/rubric-evaluator.md) for detailed patterns.
+See [rubric evaluator](https://agentv.dev/evaluation/rubrics/) for detailed patterns.
 ## Advanced Configuration
@@ -310,9 +304,15 @@ Automatically retries on rate limits, transient 5xx errors, and network failures
 - AI agents: Ask Claude Code to `/agentv-eval-builder` to create and iterate on evals
 **Detailed Guides:**
-- [Evaluation format and structure](.claude/skills/agentv-eval-builder/SKILL.md)
-- [Custom evaluators](.claude/skills/agentv-eval-builder/references/custom-evaluators.md)
-- [Structured data evaluation](.claude/skills/agentv-eval-builder/references/structured-data-evaluators.md)
+- [Evaluation format and structure](https://agentv.dev/evaluation/eval-files/)
+- [Custom evaluators](https://agentv.dev/evaluators/custom-evaluators/)
+- [Rubric evaluator](https://agentv.dev/evaluation/rubrics/)
+- [Composite evaluator](https://agentv.dev/evaluators/composite/)
+- [Tool trajectory evaluator](https://agentv.dev/evaluators/tool-trajectory/)
+- [Structured data evaluators](https://agentv.dev/evaluators/structured-data/)
+- [Batch CLI evaluation](https://agentv.dev/evaluation/batch-cli/)
+- [Compare results](https://agentv.dev/tools/compare/)
+- [Example evaluations](https://agentv.dev/evaluation/examples/)
 **Reference:**
 - Monorepo structure: `packages/core/` (engine), `packages/eval/` (evaluation logic), `apps/cli/` (commands)