npm - @elizaos/plugin-training - Versions diffs - 2.0.3-beta.6 → 2.0.3-beta.7 - Mend

@elizaos/plugin-training 2.0.3-beta.6 → 2.0.3-beta.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (363) hide show

package/dist/backends/native.d.ts +96 -0
package/dist/backends/native.d.ts.map +1 -0
package/dist/backends/native.js +308 -0
package/dist/backends/native.js.map +1 -0
package/dist/cli/train.d.ts +22 -0
package/dist/cli/train.d.ts.map +1 -0
package/dist/cli/train.js +219 -0
package/dist/cli/train.js.map +1 -0
package/dist/core/action-benchmark-runner.d.ts +55 -0
package/dist/core/action-benchmark-runner.d.ts.map +1 -0
package/dist/core/action-benchmark-runner.js +341 -0
package/dist/core/action-benchmark-runner.js.map +1 -0
package/dist/core/artifact-store.d.ts +72 -0
package/dist/core/artifact-store.d.ts.map +1 -0
package/dist/core/artifact-store.js +50 -0
package/dist/core/artifact-store.js.map +1 -0
package/dist/core/benchmark-matrix-artifact.d.ts +102 -0
package/dist/core/benchmark-matrix-artifact.d.ts.map +1 -0
package/dist/core/benchmark-matrix-artifact.js +381 -0
package/dist/core/benchmark-matrix-artifact.js.map +1 -0
package/dist/core/benchmark-vs-cerebras-runner.d.ts +37 -0
package/dist/core/benchmark-vs-cerebras-runner.d.ts.map +1 -0
package/dist/core/benchmark-vs-cerebras-runner.js +151 -0
package/dist/core/benchmark-vs-cerebras-runner.js.map +1 -0
package/dist/core/cerebras-eval-model.d.ts +54 -0
package/dist/core/cerebras-eval-model.d.ts.map +1 -0
package/dist/core/cerebras-eval-model.js +249 -0
package/dist/core/cerebras-eval-model.js.map +1 -0
package/dist/core/cli.d.ts +15 -0
package/dist/core/cli.d.ts.map +1 -0
package/dist/core/cli.js +1003 -0
package/dist/core/cli.js.map +1 -0
package/dist/core/context-audit.d.ts +51 -0
package/dist/core/context-audit.d.ts.map +1 -0
package/dist/core/context-audit.js +166 -0
package/dist/core/context-audit.js.map +1 -0
package/dist/core/context-catalog.d.ts +47 -0
package/dist/core/context-catalog.d.ts.map +1 -0
package/dist/core/context-catalog.js +269 -0
package/dist/core/context-catalog.js.map +1 -0
package/dist/core/context-types.d.ts +3 -0
package/dist/core/context-types.d.ts.map +1 -0
package/dist/core/context-types.js +18 -0
package/dist/core/context-types.js.map +1 -0
package/dist/core/dataset-generator.d.ts +135 -0
package/dist/core/dataset-generator.d.ts.map +1 -0
package/dist/core/dataset-generator.js +895 -0
package/dist/core/dataset-generator.js.map +1 -0
package/dist/core/eliza1-benchmark-recipe.d.ts +18 -0
package/dist/core/eliza1-benchmark-recipe.d.ts.map +1 -0
package/dist/core/eliza1-benchmark-recipe.js +64 -0
package/dist/core/eliza1-benchmark-recipe.js.map +1 -0
package/dist/core/eliza1-bundle-stager.d.ts +57 -0
package/dist/core/eliza1-bundle-stager.d.ts.map +1 -0
package/dist/core/eliza1-bundle-stager.js +149 -0
package/dist/core/eliza1-bundle-stager.js.map +1 -0
package/dist/core/ensure-cron-job.d.ts +53 -0
package/dist/core/ensure-cron-job.d.ts.map +1 -0
package/dist/core/ensure-cron-job.js +51 -0
package/dist/core/ensure-cron-job.js.map +1 -0
package/dist/core/eval-comparison-artifact.d.ts +72 -0
package/dist/core/eval-comparison-artifact.d.ts.map +1 -0
package/dist/core/eval-comparison-artifact.js +281 -0
package/dist/core/eval-comparison-artifact.js.map +1 -0
package/dist/core/feed-generation-runner.d.ts +37 -0
package/dist/core/feed-generation-runner.d.ts.map +1 -0
package/dist/core/feed-generation-runner.js +232 -0
package/dist/core/feed-generation-runner.js.map +1 -0
package/dist/core/html-escape.d.ts +5 -0
package/dist/core/html-escape.d.ts.map +1 -0
package/dist/core/html-escape.js +11 -0
package/dist/core/html-escape.js.map +1 -0
package/dist/core/huggingface-dataset-ingest.d.ts +52 -0
package/dist/core/huggingface-dataset-ingest.d.ts.map +1 -0
package/dist/core/huggingface-dataset-ingest.js +134 -0
package/dist/core/huggingface-dataset-ingest.js.map +1 -0
package/dist/core/index.d.ts +29 -0
package/dist/core/index.d.ts.map +1 -0
package/dist/core/index.js +204 -0
package/dist/core/index.js.map +1 -0
package/dist/core/privacy-filter.d.ts +95 -0
package/dist/core/privacy-filter.d.ts.map +1 -0
package/dist/core/privacy-filter.js +324 -0
package/dist/core/privacy-filter.js.map +1 -0
package/dist/core/promotion-gate.d.ts +117 -0
package/dist/core/promotion-gate.d.ts.map +1 -0
package/dist/core/promotion-gate.js +85 -0
package/dist/core/promotion-gate.js.map +1 -0
package/dist/core/promotion-persist.d.ts +116 -0
package/dist/core/promotion-persist.d.ts.map +1 -0
package/dist/core/promotion-persist.js +93 -0
package/dist/core/promotion-persist.js.map +1 -0
package/dist/core/prompt-compare.d.ts +99 -0
package/dist/core/prompt-compare.d.ts.map +1 -0
package/dist/core/prompt-compare.js +210 -0
package/dist/core/prompt-compare.js.map +1 -0
package/dist/core/replay-validator.d.ts +136 -0
package/dist/core/replay-validator.d.ts.map +1 -0
package/dist/core/replay-validator.js +312 -0
package/dist/core/replay-validator.js.map +1 -0
package/dist/core/roleplay-executor.d.ts +123 -0
package/dist/core/roleplay-executor.d.ts.map +1 -0
package/dist/core/roleplay-executor.js +675 -0
package/dist/core/roleplay-executor.js.map +1 -0
package/dist/core/roleplay-trajectories.d.ts +54 -0
package/dist/core/roleplay-trajectories.d.ts.map +1 -0
package/dist/core/roleplay-trajectories.js +88 -0
package/dist/core/roleplay-trajectories.js.map +1 -0
package/dist/core/scenario-blueprints.d.ts +62 -0
package/dist/core/scenario-blueprints.d.ts.map +1 -0
package/dist/core/scenario-blueprints.js +850 -0
package/dist/core/scenario-blueprints.js.map +1 -0
package/dist/core/scenario-runner.d.ts +36 -0
package/dist/core/scenario-runner.d.ts.map +1 -0
package/dist/core/scenario-runner.js +216 -0
package/dist/core/scenario-runner.js.map +1 -0
package/dist/core/skill-scoring-cron.d.ts +57 -0
package/dist/core/skill-scoring-cron.d.ts.map +1 -0
package/dist/core/skill-scoring-cron.js +180 -0
package/dist/core/skill-scoring-cron.js.map +1 -0
package/dist/core/test-trajectory-collector.d.ts +37 -0
package/dist/core/test-trajectory-collector.d.ts.map +1 -0
package/dist/core/test-trajectory-collector.js +225 -0
package/dist/core/test-trajectory-collector.js.map +1 -0
package/dist/core/track-c-queue-task.d.ts +37 -0
package/dist/core/track-c-queue-task.d.ts.map +1 -0
package/dist/core/track-c-queue-task.js +104 -0
package/dist/core/track-c-queue-task.js.map +1 -0
package/dist/core/training-analysis-index.d.ts +104 -0
package/dist/core/training-analysis-index.d.ts.map +1 -0
package/dist/core/training-analysis-index.js +3297 -0
package/dist/core/training-analysis-index.js.map +1 -0
package/dist/core/training-collection-runner.d.ts +508 -0
package/dist/core/training-collection-runner.d.ts.map +1 -0
package/dist/core/training-collection-runner.js +2299 -0
package/dist/core/training-collection-runner.js.map +1 -0
package/dist/core/training-config.d.ts +52 -0
package/dist/core/training-config.d.ts.map +1 -0
package/dist/core/training-config.js +117 -0
package/dist/core/training-config.js.map +1 -0
package/dist/core/training-orchestrator.d.ts +112 -0
package/dist/core/training-orchestrator.d.ts.map +1 -0
package/dist/core/training-orchestrator.js +729 -0
package/dist/core/training-orchestrator.js.map +1 -0
package/dist/core/training-readiness-report.d.ts +52 -0
package/dist/core/training-readiness-report.d.ts.map +1 -0
package/dist/core/training-readiness-report.js +765 -0
package/dist/core/training-readiness-report.js.map +1 -0
package/dist/core/trajectory-consumer.d.ts +15 -0
package/dist/core/trajectory-consumer.d.ts.map +1 -0
package/dist/core/trajectory-consumer.js +61 -0
package/dist/core/trajectory-consumer.js.map +1 -0
package/dist/core/trajectory-export-bundle.d.ts +95 -0
package/dist/core/trajectory-export-bundle.d.ts.map +1 -0
package/dist/core/trajectory-export-bundle.js +561 -0
package/dist/core/trajectory-export-bundle.js.map +1 -0
package/dist/core/trajectory-export-cron.d.ts +57 -0
package/dist/core/trajectory-export-cron.d.ts.map +1 -0
package/dist/core/trajectory-export-cron.js +170 -0
package/dist/core/trajectory-export-cron.js.map +1 -0
package/dist/core/trajectory-hf-upload.d.ts +50 -0
package/dist/core/trajectory-hf-upload.d.ts.map +1 -0
package/dist/core/trajectory-hf-upload.js +111 -0
package/dist/core/trajectory-hf-upload.js.map +1 -0
package/dist/core/trajectory-task-datasets.d.ts +62 -0
package/dist/core/trajectory-task-datasets.d.ts.map +1 -0
package/dist/core/trajectory-task-datasets.js +427 -0
package/dist/core/trajectory-task-datasets.js.map +1 -0
package/dist/core/wait-for-service.d.ts +25 -0
package/dist/core/wait-for-service.d.ts.map +1 -0
package/dist/core/wait-for-service.js +19 -0
package/dist/core/wait-for-service.js.map +1 -0
package/dist/core/workspace-runtime.d.ts +4 -0
package/dist/core/workspace-runtime.d.ts.map +1 -0
package/dist/core/workspace-runtime.js +25 -0
package/dist/core/workspace-runtime.js.map +1 -0
package/dist/dspy/artifact.d.ts +54 -0
package/dist/dspy/artifact.d.ts.map +1 -0
package/dist/dspy/artifact.js +61 -0
package/dist/dspy/artifact.js.map +1 -0
package/dist/dspy/chain-of-thought.d.ts +27 -0
package/dist/dspy/chain-of-thought.d.ts.map +1 -0
package/dist/dspy/chain-of-thought.js +43 -0
package/dist/dspy/chain-of-thought.js.map +1 -0
package/dist/dspy/examples.d.ts +72 -0
package/dist/dspy/examples.d.ts.map +1 -0
package/dist/dspy/examples.js +105 -0
package/dist/dspy/examples.js.map +1 -0
package/dist/dspy/index.d.ts +15 -0
package/dist/dspy/index.d.ts.map +1 -0
package/dist/dspy/index.js +40 -0
package/dist/dspy/index.js.map +1 -0
package/dist/dspy/lm-adapter.d.ts +100 -0
package/dist/dspy/lm-adapter.d.ts.map +1 -0
package/dist/dspy/lm-adapter.js +81 -0
package/dist/dspy/lm-adapter.js.map +1 -0
package/dist/dspy/optimizers/dspy-bootstrap-fewshot.d.ts +23 -0
package/dist/dspy/optimizers/dspy-bootstrap-fewshot.d.ts.map +1 -0
package/dist/dspy/optimizers/dspy-bootstrap-fewshot.js +85 -0
package/dist/dspy/optimizers/dspy-bootstrap-fewshot.js.map +1 -0
package/dist/dspy/optimizers/dspy-copro.d.ts +29 -0
package/dist/dspy/optimizers/dspy-copro.d.ts.map +1 -0
package/dist/dspy/optimizers/dspy-copro.js +141 -0
package/dist/dspy/optimizers/dspy-copro.js.map +1 -0
package/dist/dspy/optimizers/dspy-mipro.d.ts +37 -0
package/dist/dspy/optimizers/dspy-mipro.d.ts.map +1 -0
package/dist/dspy/optimizers/dspy-mipro.js +194 -0
package/dist/dspy/optimizers/dspy-mipro.js.map +1 -0
package/dist/dspy/optimizers/index.d.ts +5 -0
package/dist/dspy/optimizers/index.d.ts.map +1 -0
package/dist/dspy/optimizers/index.js +11 -0
package/dist/dspy/optimizers/index.js.map +1 -0
package/dist/dspy/optimizers/types.d.ts +39 -0
package/dist/dspy/optimizers/types.d.ts.map +1 -0
package/dist/dspy/optimizers/types.js +1 -0
package/dist/dspy/optimizers/types.js.map +1 -0
package/dist/dspy/predict.d.ts +49 -0
package/dist/dspy/predict.d.ts.map +1 -0
package/dist/dspy/predict.js +73 -0
package/dist/dspy/predict.js.map +1 -0
package/dist/dspy/signature.d.ts +88 -0
package/dist/dspy/signature.d.ts.map +1 -0
package/dist/dspy/signature.js +205 -0
package/dist/dspy/signature.js.map +1 -0
package/dist/index.d.ts +15 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +15 -0
package/dist/index.js.map +1 -0
package/dist/optimizers/bootstrap-fewshot.d.ts +42 -0
package/dist/optimizers/bootstrap-fewshot.d.ts.map +1 -0
package/dist/optimizers/bootstrap-fewshot.js +92 -0
package/dist/optimizers/bootstrap-fewshot.js.map +1 -0
package/dist/optimizers/gepa.d.ts +63 -0
package/dist/optimizers/gepa.d.ts.map +1 -0
package/dist/optimizers/gepa.js +232 -0
package/dist/optimizers/gepa.js.map +1 -0
package/dist/optimizers/index.d.ts +7 -0
package/dist/optimizers/index.d.ts.map +1 -0
package/dist/optimizers/index.js +51 -0
package/dist/optimizers/index.js.map +1 -0
package/dist/optimizers/instruction-search.d.ts +39 -0
package/dist/optimizers/instruction-search.d.ts.map +1 -0
package/dist/optimizers/instruction-search.js +108 -0
package/dist/optimizers/instruction-search.js.map +1 -0
package/dist/optimizers/prompt-evolution.d.ts +39 -0
package/dist/optimizers/prompt-evolution.d.ts.map +1 -0
package/dist/optimizers/prompt-evolution.js +101 -0
package/dist/optimizers/prompt-evolution.js.map +1 -0
package/dist/optimizers/scoring.d.ts +139 -0
package/dist/optimizers/scoring.d.ts.map +1 -0
package/dist/optimizers/scoring.js +299 -0
package/dist/optimizers/scoring.js.map +1 -0
package/dist/optimizers/types.d.ts +105 -0
package/dist/optimizers/types.d.ts.map +1 -0
package/dist/optimizers/types.js +1 -0
package/dist/optimizers/types.js.map +1 -0
package/dist/register-runtime.d.ts +3 -0
package/dist/register-runtime.d.ts.map +1 -0
package/dist/register-runtime.js +60 -0
package/dist/register-runtime.js.map +1 -0
package/dist/register-terminal-view.d.ts +15 -0
package/dist/register-terminal-view.d.ts.map +1 -0
package/dist/register-terminal-view.js +31 -0
package/dist/register-terminal-view.js.map +1 -0
package/dist/routes/experience-routes.d.ts +21 -0
package/dist/routes/experience-routes.d.ts.map +1 -0
package/dist/routes/experience-routes.js +513 -0
package/dist/routes/experience-routes.js.map +1 -0
package/dist/routes/index.d.ts +5 -0
package/dist/routes/index.d.ts.map +1 -0
package/dist/routes/index.js +17 -0
package/dist/routes/index.js.map +1 -0
package/dist/routes/training-routes.d.ts +10 -0
package/dist/routes/training-routes.d.ts.map +1 -0
package/dist/routes/training-routes.js +1239 -0
package/dist/routes/training-routes.js.map +1 -0
package/dist/routes/training-vast-routes.d.ts +35 -0
package/dist/routes/training-vast-routes.d.ts.map +1 -0
package/dist/routes/training-vast-routes.js +249 -0
package/dist/routes/training-vast-routes.js.map +1 -0
package/dist/routes/trajectory-routes.d.ts +19 -0
package/dist/routes/trajectory-routes.d.ts.map +1 -0
package/dist/routes/trajectory-routes.js +1122 -0
package/dist/routes/trajectory-routes.js.map +1 -0
package/dist/services/index.d.ts +9 -0
package/dist/services/index.d.ts.map +1 -0
package/dist/services/index.js +63 -0
package/dist/services/index.js.map +1 -0
package/dist/services/training-backend-check.d.ts +8 -0
package/dist/services/training-backend-check.d.ts.map +1 -0
package/dist/services/training-backend-check.js +31 -0
package/dist/services/training-backend-check.js.map +1 -0
package/dist/services/training-service-like.d.ts +40 -0
package/dist/services/training-service-like.d.ts.map +1 -0
package/dist/services/training-service-like.js +1 -0
package/dist/services/training-service-like.js.map +1 -0
package/dist/services/training-service-registry.d.ts +4 -0
package/dist/services/training-service-registry.d.ts.map +1 -0
package/dist/services/training-service-registry.js +12 -0
package/dist/services/training-service-registry.js.map +1 -0
package/dist/services/training-service.d.ts +59 -0
package/dist/services/training-service.d.ts.map +1 -0
package/dist/services/training-service.js +154 -0
package/dist/services/training-service.js.map +1 -0
package/dist/services/training-trigger.d.ts +177 -0
package/dist/services/training-trigger.d.ts.map +1 -0
package/dist/services/training-trigger.js +300 -0
package/dist/services/training-trigger.js.map +1 -0
package/dist/services/training-vast-service.d.ts +149 -0
package/dist/services/training-vast-service.d.ts.map +1 -0
package/dist/services/training-vast-service.js +648 -0
package/dist/services/training-vast-service.js.map +1 -0
package/dist/services/vast-inference-stats.d.ts +37 -0
package/dist/services/vast-inference-stats.d.ts.map +1 -0
package/dist/services/vast-inference-stats.js +81 -0
package/dist/services/vast-inference-stats.js.map +1 -0
package/dist/services/vast-job-store.d.ts +74 -0
package/dist/services/vast-job-store.d.ts.map +1 -0
package/dist/services/vast-job-store.js +194 -0
package/dist/services/vast-job-store.js.map +1 -0
package/dist/services/vast-subprocess.d.ts +27 -0
package/dist/services/vast-subprocess.d.ts.map +1 -0
package/dist/services/vast-subprocess.js +78 -0
package/dist/services/vast-subprocess.js.map +1 -0
package/dist/setup-routes.d.ts +17 -0
package/dist/setup-routes.d.ts.map +1 -0
package/dist/setup-routes.js +319 -0
package/dist/setup-routes.js.map +1 -0
package/dist/ui/FineTuningSpatialView.d.ts +49 -0
package/dist/ui/FineTuningSpatialView.d.ts.map +1 -0
package/dist/ui/FineTuningSpatialView.js +154 -0
package/dist/ui/FineTuningSpatialView.js.map +1 -0
package/dist/ui/FineTuningView.d.ts +7 -0
package/dist/ui/FineTuningView.d.ts.map +1 -0
package/dist/ui/FineTuningView.helpers.d.ts +17 -0
package/dist/ui/FineTuningView.helpers.d.ts.map +1 -0
package/dist/ui/FineTuningView.helpers.js +30 -0
package/dist/ui/FineTuningView.helpers.js.map +1 -0
package/dist/ui/FineTuningView.interact.d.ts +2 -0
package/dist/ui/FineTuningView.interact.d.ts.map +1 -0
package/dist/ui/FineTuningView.interact.js +300 -0
package/dist/ui/FineTuningView.interact.js.map +1 -0
package/dist/ui/FineTuningView.js +4653 -0
package/dist/ui/FineTuningView.js.map +1 -0
package/dist/ui/fine-tuning-panels.d.ts +100 -0
package/dist/ui/fine-tuning-panels.d.ts.map +1 -0
package/dist/ui/fine-tuning-panels.helpers.d.ts +19 -0
package/dist/ui/fine-tuning-panels.helpers.d.ts.map +1 -0
package/dist/ui/fine-tuning-panels.helpers.js +77 -0
package/dist/ui/fine-tuning-panels.helpers.js.map +1 -0
package/dist/ui/fine-tuning-panels.js +928 -0
package/dist/ui/fine-tuning-panels.js.map +1 -0
package/dist/ui/index.d.ts +5 -0
package/dist/ui/index.d.ts.map +1 -0
package/dist/ui/index.js +5 -0
package/dist/ui/index.js.map +1 -0
package/dist/ui/training-view-bundle.d.ts +3 -0
package/dist/ui/training-view-bundle.d.ts.map +1 -0
package/dist/ui/training-view-bundle.js +7 -0
package/dist/ui/training-view-bundle.js.map +1 -0
package/dist/views/bundle.js +5312 -0
package/dist/views/bundle.js.map +1 -0
package/package.json +7 -7

package/dist/core/replay-validator.d.ts ADDED Viewed

@@ -0,0 +1,136 @@
+/**
+ * Replay validator for synthetic training data.
+ *
+ * Validates that every generated sample:
+ * 1. Parses correctly with the same Eliza parser
+ * 2. References only valid contexts/actions/providers
+ * 3. Would survive round-trip through the real runtime
+ * 4. Has proper structure for eliza_native_v1 supervised tuning
+ *
+ * Also computes dataset quality metrics:
+ * - Decision balance (RESPOND/IGNORE/STOP distribution)
+ * - Context coverage (all contexts represented)
+ * - Agent name diversity (no statistical pollution)
+ * - Turn count distribution
+ */
+import type { AgentContext } from "./context-types.js";
+import type { TrainingSample } from "./dataset-generator.js";
+export interface ValidationResult {
+    sampleId: string;
+    valid: boolean;
+    errors: ValidationError[];
+    warnings: ValidationWarning[];
+}
+export interface ValidationError {
+    type: "invalid_json" | "missing_field" | "invalid_context" | "invalid_action" | "invalid_decision" | "empty_messages" | "no_agent_name" | "name_in_response";
+    message: string;
+}
+export interface ValidationWarning {
+    type: "low_turn_count" | "high_turn_count" | "duplicate_agent_name" | "missing_grounding_keywords" | "single_participant";
+    message: string;
+}
+export interface DatasetQualityReport {
+    totalSamples: number;
+    validSamples: number;
+    invalidSamples: number;
+    errorRate: number;
+    /** Distribution of decisions */
+    decisionBalance: {
+        RESPOND: number;
+        IGNORE: number;
+        STOP: number;
+        respondPct: number;
+        ignorePct: number;
+        stopPct: number;
+    };
+    /** Context coverage */
+    contextCoverage: Record<AgentContext, number>;
+    missingContexts: AgentContext[];
+    /** Agent name diversity */
+    uniqueAgentNames: number;
+    totalSamplesChecked: number;
+    nameDiversityRatio: number;
+    /** Turn count stats */
+    turnCountStats: {
+        min: number;
+        max: number;
+        mean: number;
+        median: number;
+        p90: number;
+    };
+    /** Pattern distribution */
+    patternDistribution: Record<string, number>;
+    /** Top errors */
+    topErrors: Array<{
+        type: string;
+        count: number;
+    }>;
+    /** Top warnings */
+    topWarnings: Array<{
+        type: string;
+        count: number;
+    }>;
+    /** Native model-boundary format validation */
+    nativeFormatValid: number;
+    nativeFormatInvalid: number;
+}
+/**
+ * Validate a single training sample.
+ */
+export declare function validateSample(sample: TrainingSample): ValidationResult;
+/**
+ * Validate an eliza_native_v1 tuning example JSONL line.
+ */
+export declare function validateElizaNativeExample(jsonLine: string): {
+    valid: boolean;
+    errors: string[];
+};
+/**
+ * Validate an entire dataset and produce a quality report.
+ */
+export declare function validateDataset(samples: TrainingSample[]): DatasetQualityReport;
+/**
+ * Run all validations and produce a formatted report string.
+ */
+export declare function formatQualityReport(report: DatasetQualityReport): string;
+/**
+ * Minimum metadata a Skill needs for scoring. We do not import @elizaos/skills
+ * here because app-training is downstream of the skills package and we want
+ * scoreSkill to be usable in cron-job contexts that pass loaded skills.
+ */
+export interface ScoreableSkill {
+    name: string;
+}
+/**
+ * Loose Trajectory shape used for scoring. Mirrors the persisted-trajectory
+ * type but kept narrow so callers can pass results from any source (the
+ * `trajectories` service, JSON exports, fixtures).
+ */
+export interface ScoreableTrajectory {
+    trajectoryId?: string;
+    metrics?: {
+        finalStatus?: string;
+    };
+    steps?: Array<{
+        usedSkills?: string[];
+    }>;
+    metadata?: Record<string, unknown>;
+}
+/**
+ * Score a curated skill in [0, 1] based on its observed success rate across
+ * the supplied held-out trajectories.
+ *
+ * Algorithm:
+ *   1. Filter trajectories that reference the skill on any step (or via
+ *      metadata.usedSkills, for parity with the refinement evaluator).
+ *   2. Score = successCount / totalReferencingCount.
+ *   3. Returns 0 when no referencing trajectories exist (signals "no data" —
+ *      callers should treat 0 as "unscored" if they want to distinguish that
+ *      from "always failed").
+ *
+ * The scoring is deliberately simple because the source of truth is the
+ * trajectory store; richer signals (duration, retry count, user follow-ups)
+ * are easy to layer in later by extending ScoreableTrajectory.
+ */
+export declare function scoreSkill(skill: ScoreableSkill, heldOutTrajectories: ScoreableTrajectory[]): Promise<number>;
+//# sourceMappingURL=replay-validator.d.ts.map

package/dist/core/replay-validator.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"replay-validator.d.ts","sourceRoot":"","sources":["../../src/core/replay-validator.ts"],"names":[],"mappings":"AAAA;;;;;;;;;;;;;;GAcG;AAQH,OAAO,KAAK,EAAE,YAAY,EAAE,MAAM,oBAAoB,CAAC;AACvD,OAAO,KAAK,EAEV,cAAc,EACf,MAAM,wBAAwB,CAAC;AA8ChC,MAAM,WAAW,gBAAgB;IAC/B,QAAQ,EAAE,MAAM,CAAC;IACjB,KAAK,EAAE,OAAO,CAAC;IACf,MAAM,EAAE,eAAe,EAAE,CAAC;IAC1B,QAAQ,EAAE,iBAAiB,EAAE,CAAC;CAC/B;AAED,MAAM,WAAW,eAAe;IAC9B,IAAI,EACA,cAAc,GACd,eAAe,GACf,iBAAiB,GACjB,gBAAgB,GAChB,kBAAkB,GAClB,gBAAgB,GAChB,eAAe,GACf,kBAAkB,CAAC;IACvB,OAAO,EAAE,MAAM,CAAC;CACjB;AAED,MAAM,WAAW,iBAAiB;IAChC,IAAI,EACA,gBAAgB,GAChB,iBAAiB,GACjB,sBAAsB,GACtB,4BAA4B,GAC5B,oBAAoB,CAAC;IACzB,OAAO,EAAE,MAAM,CAAC;CACjB;AAED,MAAM,WAAW,oBAAoB;IACnC,YAAY,EAAE,MAAM,CAAC;IACrB,YAAY,EAAE,MAAM,CAAC;IACrB,cAAc,EAAE,MAAM,CAAC;IACvB,SAAS,EAAE,MAAM,CAAC;IAElB,gCAAgC;IAChC,eAAe,EAAE;QACf,OAAO,EAAE,MAAM,CAAC;QAChB,MAAM,EAAE,MAAM,CAAC;QACf,IAAI,EAAE,MAAM,CAAC;QACb,UAAU,EAAE,MAAM,CAAC;QACnB,SAAS,EAAE,MAAM,CAAC;QAClB,OAAO,EAAE,MAAM,CAAC;KACjB,CAAC;IAEF,uBAAuB;IACvB,eAAe,EAAE,MAAM,CAAC,YAAY,EAAE,MAAM,CAAC,CAAC;IAC9C,eAAe,EAAE,YAAY,EAAE,CAAC;IAEhC,2BAA2B;IAC3B,gBAAgB,EAAE,MAAM,CAAC;IACzB,mBAAmB,EAAE,MAAM,CAAC;IAC5B,kBAAkB,EAAE,MAAM,CAAC;IAE3B,uBAAuB;IACvB,cAAc,EAAE;QACd,GAAG,EAAE,MAAM,CAAC;QACZ,GAAG,EAAE,MAAM,CAAC;QACZ,IAAI,EAAE,MAAM,CAAC;QACb,MAAM,EAAE,MAAM,CAAC;QACf,GAAG,EAAE,MAAM,CAAC;KACb,CAAC;IAEF,2BAA2B;IAC3B,mBAAmB,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;IAE5C,iBAAiB;IACjB,SAAS,EAAE,KAAK,CAAC;QAAE,IAAI,EAAE,MAAM,CAAC;QAAC,KAAK,EAAE,MAAM,CAAA;KAAE,CAAC,CAAC;IAElD,mBAAmB;IACnB,WAAW,EAAE,KAAK,CAAC;QAAE,IAAI,EAAE,MAAM,CAAC;QAAC,KAAK,EAAE,MAAM,CAAA;KAAE,CAAC,CAAC;IAEpD,8CAA8C;IAC9C,iBAAiB,EAAE,MAAM,CAAC;IAC1B,mBAAmB,EAAE,MAAM,CAAC;CAC7B;AAID;;GAEG;AACH,wBAAgB,cAAc,CAAC,MAAM,EAAE,cAAc,GAAG,gBAAgB,CAuFvE;AAED;;GAEG;AACH,wBAAgB,0BAA0B,CAAC,QAAQ,EAAE,MAAM,GAAG;IAC5D,KAAK,EAAE,OAAO,CAAC;IACf,MAAM,EAAE,MAAM,EAAE,CAAC;CAClB,CAiDA;AAED;;GAEG;AACH,wBAAgB,eAAe,CAC7B,OAAO,EAAE,cAAc,EAAE,GACxB,oBAAoB,CAmGtB;AAED;;GAEG;AACH,wBAAgB,mBAAmB,CAAC,MAAM,EAAE,oBAAoB,GAAG,MAAM,CAyExE;AAID;;;;GAIG;AACH,MAAM,WAAW,cAAc;IAC7B,IAAI,EAAE,MAAM,CAAC;CACd;AAED;;;;GAIG;AACH,MAAM,WAAW,mBAAmB;IAClC,YAAY,CAAC,EAAE,MAAM,CAAC;IACtB,OAAO,CAAC,EAAE;QAAE,WAAW,CAAC,EAAE,MAAM,CAAA;KAAE,CAAC;IACnC,KAAK,CAAC,EAAE,KAAK,CAAC;QACZ,UAAU,CAAC,EAAE,MAAM,EAAE,CAAC;KACvB,CAAC,CAAC;IACH,QAAQ,CAAC,EAAE,MAAM,CAAC,MAAM,EAAE,OAAO,CAAC,CAAC;CACpC;AAED;;;;;;;;;;;;;;;GAeG;AACH,wBAAsB,UAAU,CAC9B,KAAK,EAAE,cAAc,EACrB,mBAAmB,EAAE,mBAAmB,EAAE,GACzC,OAAO,CAAC,MAAM,CAAC,CAYjB"}

package/dist/core/replay-validator.js ADDED Viewed

@@ -0,0 +1,312 @@
+import {
+  ELIZA_NATIVE_MODEL_BOUNDARIES,
+  ELIZA_NATIVE_TRAJECTORY_FORMAT
+} from "@elizaos/core";
+import { ACTION_CONTEXT_MAP, ALL_CONTEXTS } from "./context-catalog.js";
+const NATIVE_MODEL_BOUNDARIES = new Set(ELIZA_NATIVE_MODEL_BOUNDARIES);
+function getTuningMessages(parsed) {
+  const row = parsed;
+  if (row.format === ELIZA_NATIVE_TRAJECTORY_FORMAT) {
+    const out = [];
+    const system = row.request.system;
+    if (typeof system === "string" && system.length > 0) {
+      out.push({ role: "system", content: system });
+    }
+    const msgs = row.request.messages;
+    if (Array.isArray(msgs)) {
+      for (const msg of msgs) {
+        if (msg.role === "system" && out.length > 0 && out[0]?.role === "system" && out[0]?.content === msg.content) {
+          continue;
+        }
+        out.push(msg);
+      }
+    }
+    if (!out.some((msg) => msg.role === "user") && typeof row.request.prompt === "string" && row.request.prompt.length > 0) {
+      out.push({ role: "user", content: row.request.prompt });
+    }
+    return out.length > 0 ? out : null;
+  }
+  return null;
+}
+function validateSample(sample) {
+  const errors = [];
+  const warnings = [];
+  if (!sample.id)
+    errors.push({ type: "missing_field", message: "Missing sample ID" });
+  if (!sample.blueprintId)
+    errors.push({ type: "missing_field", message: "Missing blueprint ID" });
+  if (!sample.agentName)
+    errors.push({ type: "no_agent_name", message: "Missing agent name" });
+  if (sample.messages.length === 0) {
+    errors.push({ type: "empty_messages", message: "No messages in sample" });
+  } else {
+    if (sample.messages.length < 2) {
+      warnings.push({
+        type: "low_turn_count",
+        message: `Only ${sample.messages.length} turn(s)`
+      });
+    }
+    if (sample.messages.length > 30) {
+      warnings.push({
+        type: "high_turn_count",
+        message: `${sample.messages.length} turns (very long)`
+      });
+    }
+  }
+  const validDecisions = ["RESPOND", "IGNORE", "STOP"];
+  if (!validDecisions.includes(sample.expectedOutput.decision)) {
+    errors.push({
+      type: "invalid_decision",
+      message: `Invalid decision: ${sample.expectedOutput.decision}`
+    });
+  }
+  if (!ALL_CONTEXTS.includes(sample.expectedOutput.primaryContext)) {
+    errors.push({
+      type: "invalid_context",
+      message: `Unknown primary context: ${sample.expectedOutput.primaryContext}`
+    });
+  }
+  for (const ctx of sample.expectedOutput.secondaryContexts) {
+    if (!ALL_CONTEXTS.includes(ctx)) {
+      errors.push({
+        type: "invalid_context",
+        message: `Unknown secondary context: ${ctx}`
+      });
+    }
+  }
+  if (sample.expectedOutput.expectedAction) {
+    const actionUpper = sample.expectedOutput.expectedAction.toUpperCase();
+    if (!ACTION_CONTEXT_MAP[actionUpper]) {
+      warnings.push({
+        type: "missing_grounding_keywords",
+        message: `Action ${actionUpper} not in context catalog (may be a custom action)`
+      });
+    }
+  }
+  const participants = new Set(
+    sample.messages.map((m) => m.name).filter(Boolean)
+  );
+  if (participants.size <= 1 && sample.messages.length > 2) {
+    warnings.push({
+      type: "single_participant",
+      message: "Only one participant name in the conversation"
+    });
+  }
+  return {
+    sampleId: sample.id,
+    valid: errors.length === 0,
+    errors,
+    warnings
+  };
+}
+function validateElizaNativeExample(jsonLine) {
+  const errors = [];
+  let parsed;
+  try {
+    parsed = JSON.parse(jsonLine);
+  } catch {
+    return { valid: false, errors: ["Invalid JSON"] };
+  }
+  const messages = getTuningMessages(parsed);
+  if (!messages) {
+    errors.push("Missing eliza_native_v1 request system/messages/prompt");
+    return { valid: false, errors };
+  }
+  const native = parsed;
+  if (native.format !== ELIZA_NATIVE_TRAJECTORY_FORMAT) {
+    errors.push(`format must be ${ELIZA_NATIVE_TRAJECTORY_FORMAT}`);
+    return { valid: false, errors };
+  }
+  if (!NATIVE_MODEL_BOUNDARIES.has(native.boundary)) {
+    errors.push("boundary must be a supported Vercel AI SDK model boundary");
+  }
+  if (messages.length < 2) {
+    errors.push("Need at least 2 request messages (e.g. system + user)");
+  }
+  const text = native.response.text;
+  const toolCalls = native.response.toolCalls;
+  if ((typeof text !== "string" || text.trim().length === 0) && !Array.isArray(toolCalls)) {
+    errors.push("Missing response.text or response.toolCalls");
+  }
+  for (const msg of messages) {
+    if (!msg.role || !["system", "developer", "user", "assistant", "tool"].includes(msg.role)) {
+      errors.push(`Invalid role: ${msg.role}`);
+    }
+    if (msg.content === void 0 && msg.parts === void 0) {
+      errors.push("Missing message content/parts");
+    }
+  }
+  return { valid: errors.length === 0, errors };
+}
+function validateDataset(samples) {
+  const results = samples.map(validateSample);
+  const validResults = results.filter((r) => r.valid);
+  const invalidResults = results.filter((r) => !r.valid);
+  const respondCount = samples.filter(
+    (s) => s.expectedOutput.decision === "RESPOND"
+  ).length;
+  const ignoreCount = samples.filter(
+    (s) => s.expectedOutput.decision === "IGNORE"
+  ).length;
+  const stopCount = samples.filter(
+    (s) => s.expectedOutput.decision === "STOP"
+  ).length;
+  const contextCoverage = Object.fromEntries(
+    ALL_CONTEXTS.map((ctx) => [
+      ctx,
+      samples.filter((s) => s.expectedOutput.primaryContext === ctx).length
+    ])
+  );
+  const missingContexts = ALL_CONTEXTS.filter(
+    (ctx) => contextCoverage[ctx] === 0
+  );
+  const uniqueNames = new Set(samples.map((s) => s.agentName));
+  const turnCounts = samples.map((s) => s.metadata.turnCount).sort((a, b) => a - b);
+  const turnCountStats = {
+    min: turnCounts[0] ?? 0,
+    max: turnCounts[turnCounts.length - 1] ?? 0,
+    mean: turnCounts.reduce((a, b) => a + b, 0) / (turnCounts.length || 1),
+    median: turnCounts[Math.floor(turnCounts.length / 2)] ?? 0,
+    p90: turnCounts[Math.floor(turnCounts.length * 0.9)] ?? 0
+  };
+  const patternDistribution = {};
+  for (const s of samples) {
+    patternDistribution[s.metadata.pattern] = (patternDistribution[s.metadata.pattern] ?? 0) + 1;
+  }
+  const errorCounts = {};
+  const warningCounts = {};
+  for (const r of results) {
+    for (const e of r.errors) {
+      errorCounts[e.type] = (errorCounts[e.type] ?? 0) + 1;
+    }
+    for (const w of r.warnings) {
+      warningCounts[w.type] = (warningCounts[w.type] ?? 0) + 1;
+    }
+  }
+  return {
+    totalSamples: samples.length,
+    validSamples: validResults.length,
+    invalidSamples: invalidResults.length,
+    errorRate: invalidResults.length / (samples.length || 1),
+    decisionBalance: {
+      RESPOND: respondCount,
+      IGNORE: ignoreCount,
+      STOP: stopCount,
+      respondPct: respondCount / (samples.length || 1),
+      ignorePct: ignoreCount / (samples.length || 1),
+      stopPct: stopCount / (samples.length || 1)
+    },
+    contextCoverage,
+    missingContexts,
+    uniqueAgentNames: uniqueNames.size,
+    totalSamplesChecked: samples.length,
+    nameDiversityRatio: uniqueNames.size / (samples.length || 1),
+    turnCountStats,
+    patternDistribution,
+    topErrors: Object.entries(errorCounts).map(([type, count]) => ({ type, count })).sort((a, b) => b.count - a.count).slice(0, 10),
+    topWarnings: Object.entries(warningCounts).map(([type, count]) => ({ type, count })).sort((a, b) => b.count - a.count).slice(0, 10),
+    nativeFormatValid: 0,
+    // filled by separate JSONL validation
+    nativeFormatInvalid: 0
+  };
+}
+function formatQualityReport(report) {
+  const lines = [];
+  lines.push("=== Dataset Quality Report ===");
+  lines.push("");
+  lines.push(`Total samples: ${report.totalSamples}`);
+  lines.push(
+    `Valid: ${report.validSamples} (${((1 - report.errorRate) * 100).toFixed(1)}%)`
+  );
+  lines.push(`Invalid: ${report.invalidSamples}`);
+  lines.push("");
+  lines.push("--- Decision Balance ---");
+  lines.push(
+    `RESPOND: ${report.decisionBalance.RESPOND} (${(report.decisionBalance.respondPct * 100).toFixed(1)}%)`
+  );
+  lines.push(
+    `IGNORE:  ${report.decisionBalance.IGNORE} (${(report.decisionBalance.ignorePct * 100).toFixed(1)}%)`
+  );
+  lines.push(
+    `STOP:    ${report.decisionBalance.STOP} (${(report.decisionBalance.stopPct * 100).toFixed(1)}%)`
+  );
+  lines.push("");
+  lines.push("--- Context Coverage ---");
+  for (const [ctx, count] of Object.entries(report.contextCoverage)) {
+    lines.push(`  ${ctx}: ${count}`);
+  }
+  if (report.missingContexts.length > 0) {
+    lines.push(`  MISSING: ${report.missingContexts.join(", ")}`);
+  }
+  lines.push("");
+  lines.push("--- Name Diversity ---");
+  lines.push(
+    `Unique agent names: ${report.uniqueAgentNames} / ${report.totalSamplesChecked} samples`
+  );
+  lines.push(
+    `Diversity ratio: ${(report.nameDiversityRatio * 100).toFixed(1)}%`
+  );
+  lines.push("");
+  lines.push("--- Turn Count ---");
+  lines.push(`Min: ${report.turnCountStats.min}`);
+  lines.push(`Max: ${report.turnCountStats.max}`);
+  lines.push(`Mean: ${report.turnCountStats.mean.toFixed(1)}`);
+  lines.push(`Median: ${report.turnCountStats.median}`);
+  lines.push(`P90: ${report.turnCountStats.p90}`);
+  lines.push("");
+  lines.push("--- Pattern Distribution ---");
+  for (const [pattern, count] of Object.entries(report.patternDistribution)) {
+    lines.push(`  ${pattern}: ${count}`);
+  }
+  lines.push("");
+  if (report.topErrors.length > 0) {
+    lines.push("--- Top Errors ---");
+    for (const { type, count } of report.topErrors) {
+      lines.push(`  ${type}: ${count}`);
+    }
+    lines.push("");
+  }
+  if (report.topWarnings.length > 0) {
+    lines.push("--- Top Warnings ---");
+    for (const { type, count } of report.topWarnings) {
+      lines.push(`  ${type}: ${count}`);
+    }
+    lines.push("");
+  }
+  return lines.join("\n");
+}
+async function scoreSkill(skill, heldOutTrajectories) {
+  const referencing = heldOutTrajectories.filter(
+    (trajectory) => trajectoryUsesSkill(trajectory, skill.name)
+  );
+  if (referencing.length === 0) {
+    return 0;
+  }
+  const successes = referencing.filter(
+    (trajectory) => (trajectory.metrics?.finalStatus ?? "") === "completed"
+  ).length;
+  const score = successes / referencing.length;
+  return Math.max(0, Math.min(1, score));
+}
+function trajectoryUsesSkill(trajectory, skillName) {
+  const target = skillName.trim();
+  if (!target) return false;
+  for (const step of trajectory.steps ?? []) {
+    if (Array.isArray(step.usedSkills) && step.usedSkills.includes(target)) {
+      return true;
+    }
+  }
+  const metaUsed = trajectory.metadata?.usedSkills;
+  if (Array.isArray(metaUsed) && metaUsed.includes(target)) {
+    return true;
+  }
+  return false;
+}
+export {
+  formatQualityReport,
+  scoreSkill,
+  validateDataset,
+  validateElizaNativeExample,
+  validateSample
+};
+//# sourceMappingURL=replay-validator.js.map

package/dist/core/replay-validator.js.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../../src/core/replay-validator.ts"],"sourcesContent":["/**\n * Replay validator for synthetic training data.\n *\n * Validates that every generated sample:\n * 1. Parses correctly with the same Eliza parser\n * 2. References only valid contexts/actions/providers\n * 3. Would survive round-trip through the real runtime\n * 4. Has proper structure for eliza_native_v1 supervised tuning\n *\n * Also computes dataset quality metrics:\n * - Decision balance (RESPOND/IGNORE/STOP distribution)\n * - Context coverage (all contexts represented)\n * - Agent name diversity (no statistical pollution)\n * - Turn count distribution\n */\n\nimport {\n ELIZA_NATIVE_MODEL_BOUNDARIES,\n ELIZA_NATIVE_TRAJECTORY_FORMAT,\n type ElizaNativeTrajectoryRow,\n} from \"@elizaos/core\";\nimport { ACTION_CONTEXT_MAP, ALL_CONTEXTS } from \"./context-catalog.js\";\nimport type { AgentContext } from \"./context-types.js\";\nimport type {\n ElizaNativeTrainingExample,\n TrainingSample,\n} from \"./dataset-generator.js\";\n\ntype TuningMessage = { role?: string; content?: unknown; parts?: unknown };\nconst NATIVE_MODEL_BOUNDARIES = new Set<string>(ELIZA_NATIVE_MODEL_BOUNDARIES);\n\nfunction getTuningMessages(\n parsed: ElizaNativeTrainingExample,\n): TuningMessage[] | null {\n const row = parsed as ElizaNativeTrajectoryRow & {\n messages?: TuningMessage[];\n request?: { system?: unknown; messages?: unknown; prompt?: unknown };\n };\n if (row.format === ELIZA_NATIVE_TRAJECTORY_FORMAT) {\n const out: TuningMessage[] = [];\n const system = row.request.system;\n if (typeof system === \"string\" && system.length > 0) {\n out.push({ role: \"system\", content: system });\n }\n const msgs = row.request.messages;\n if (Array.isArray(msgs)) {\n for (const msg of msgs as TuningMessage[]) {\n if (\n msg.role === \"system\" &&\n out.length > 0 &&\n out[0]?.role === \"system\" &&\n out[0]?.content === msg.content\n ) {\n continue;\n }\n out.push(msg);\n }\n }\n if (\n !out.some((msg) => msg.role === \"user\") &&\n typeof row.request.prompt === \"string\" &&\n row.request.prompt.length > 0\n ) {\n out.push({ role: \"user\", content: row.request.prompt });\n }\n return out.length > 0 ? out : null;\n }\n return null;\n}\n\n// ==================== Validation types ====================\n\nexport interface ValidationResult {\n sampleId: string;\n valid: boolean;\n errors: ValidationError[];\n warnings: ValidationWarning[];\n}\n\nexport interface ValidationError {\n type:\n | \"invalid_json\"\n | \"missing_field\"\n | \"invalid_context\"\n | \"invalid_action\"\n | \"invalid_decision\"\n | \"empty_messages\"\n | \"no_agent_name\"\n | \"name_in_response\";\n message: string;\n}\n\nexport interface ValidationWarning {\n type:\n | \"low_turn_count\"\n | \"high_turn_count\"\n | \"duplicate_agent_name\"\n | \"missing_grounding_keywords\"\n | \"single_participant\";\n message: string;\n}\n\nexport interface DatasetQualityReport {\n totalSamples: number;\n validSamples: number;\n invalidSamples: number;\n errorRate: number;\n\n /** Distribution of decisions */\n decisionBalance: {\n RESPOND: number;\n IGNORE: number;\n STOP: number;\n respondPct: number;\n ignorePct: number;\n stopPct: number;\n };\n\n /** Context coverage */\n contextCoverage: Record<AgentContext, number>;\n missingContexts: AgentContext[];\n\n /** Agent name diversity */\n uniqueAgentNames: number;\n totalSamplesChecked: number;\n nameDiversityRatio: number;\n\n /** Turn count stats */\n turnCountStats: {\n min: number;\n max: number;\n mean: number;\n median: number;\n p90: number;\n };\n\n /** Pattern distribution */\n patternDistribution: Record<string, number>;\n\n /** Top errors */\n topErrors: Array<{ type: string; count: number }>;\n\n /** Top warnings */\n topWarnings: Array<{ type: string; count: number }>;\n\n /** Native model-boundary format validation */\n nativeFormatValid: number;\n nativeFormatInvalid: number;\n}\n\n// ==================== Validators ====================\n\n/**\n * Validate a single training sample.\n */\nexport function validateSample(sample: TrainingSample): ValidationResult {\n const errors: ValidationError[] = [];\n const warnings: ValidationWarning[] = [];\n\n // Check required fields\n if (!sample.id)\n errors.push({ type: \"missing_field\", message: \"Missing sample ID\" });\n if (!sample.blueprintId)\n errors.push({ type: \"missing_field\", message: \"Missing blueprint ID\" });\n if (!sample.agentName)\n errors.push({ type: \"no_agent_name\", message: \"Missing agent name\" });\n\n // Check messages\n if (sample.messages.length === 0) {\n errors.push({ type: \"empty_messages\", message: \"No messages in sample\" });\n } else {\n if (sample.messages.length < 2) {\n warnings.push({\n type: \"low_turn_count\",\n message: `Only ${sample.messages.length} turn(s)`,\n });\n }\n if (sample.messages.length > 30) {\n warnings.push({\n type: \"high_turn_count\",\n message: `${sample.messages.length} turns (very long)`,\n });\n }\n }\n\n // Check decision\n const validDecisions = [\"RESPOND\", \"IGNORE\", \"STOP\"];\n if (!validDecisions.includes(sample.expectedOutput.decision)) {\n errors.push({\n type: \"invalid_decision\",\n message: `Invalid decision: ${sample.expectedOutput.decision}`,\n });\n }\n\n // Check context\n if (\n !ALL_CONTEXTS.includes(sample.expectedOutput.primaryContext as AgentContext)\n ) {\n errors.push({\n type: \"invalid_context\",\n message: `Unknown primary context: ${sample.expectedOutput.primaryContext}`,\n });\n }\n\n for (const ctx of sample.expectedOutput.secondaryContexts) {\n if (!ALL_CONTEXTS.includes(ctx as AgentContext)) {\n errors.push({\n type: \"invalid_context\",\n message: `Unknown secondary context: ${ctx}`,\n });\n }\n }\n\n // Check expected action (if present)\n if (sample.expectedOutput.expectedAction) {\n const actionUpper = sample.expectedOutput.expectedAction.toUpperCase();\n if (!ACTION_CONTEXT_MAP[actionUpper]) {\n warnings.push({\n type: \"missing_grounding_keywords\",\n message: `Action ${actionUpper} not in context catalog (may be a custom action)`,\n });\n }\n }\n\n // Check for agent name pollution in the response\n // The model output should use the randomized agent name, not a fixed name\n const participants = new Set(\n sample.messages.map((m) => m.name).filter(Boolean),\n );\n if (participants.size <= 1 && sample.messages.length > 2) {\n warnings.push({\n type: \"single_participant\",\n message: \"Only one participant name in the conversation\",\n });\n }\n\n return {\n sampleId: sample.id,\n valid: errors.length === 0,\n errors,\n warnings,\n };\n}\n\n/**\n * Validate an eliza_native_v1 tuning example JSONL line.\n */\nexport function validateElizaNativeExample(jsonLine: string): {\n valid: boolean;\n errors: string[];\n} {\n const errors: string[] = [];\n\n let parsed: ElizaNativeTrainingExample;\n try {\n parsed = JSON.parse(jsonLine);\n } catch {\n return { valid: false, errors: [\"Invalid JSON\"] };\n }\n\n const messages = getTuningMessages(parsed);\n if (!messages) {\n errors.push(\"Missing eliza_native_v1 request system/messages/prompt\");\n return { valid: false, errors };\n }\n\n const native = parsed as ElizaNativeTrajectoryRow;\n if (native.format !== ELIZA_NATIVE_TRAJECTORY_FORMAT) {\n errors.push(`format must be ${ELIZA_NATIVE_TRAJECTORY_FORMAT}`);\n return { valid: false, errors };\n }\n if (!NATIVE_MODEL_BOUNDARIES.has(native.boundary)) {\n errors.push(\"boundary must be a supported Vercel AI SDK model boundary\");\n }\n\n if (messages.length < 2) {\n errors.push(\"Need at least 2 request messages (e.g. system + user)\");\n }\n const text = native.response.text;\n const toolCalls = native.response.toolCalls;\n if (\n (typeof text !== \"string\" || text.trim().length === 0) &&\n !Array.isArray(toolCalls)\n ) {\n errors.push(\"Missing response.text or response.toolCalls\");\n }\n for (const msg of messages) {\n if (\n !msg.role ||\n ![\"system\", \"developer\", \"user\", \"assistant\", \"tool\"].includes(msg.role)\n ) {\n errors.push(`Invalid role: ${msg.role}`);\n }\n if (msg.content === undefined && msg.parts === undefined) {\n errors.push(\"Missing message content/parts\");\n }\n }\n\n return { valid: errors.length === 0, errors };\n}\n\n/**\n * Validate an entire dataset and produce a quality report.\n */\nexport function validateDataset(\n samples: TrainingSample[],\n): DatasetQualityReport {\n const results = samples.map(validateSample);\n const validResults = results.filter((r) => r.valid);\n const invalidResults = results.filter((r) => !r.valid);\n\n // Decision balance\n const respondCount = samples.filter(\n (s) => s.expectedOutput.decision === \"RESPOND\",\n ).length;\n const ignoreCount = samples.filter(\n (s) => s.expectedOutput.decision === \"IGNORE\",\n ).length;\n const stopCount = samples.filter(\n (s) => s.expectedOutput.decision === \"STOP\",\n ).length;\n\n // Context coverage\n const contextCoverage = Object.fromEntries(\n ALL_CONTEXTS.map((ctx) => [\n ctx,\n samples.filter((s) => s.expectedOutput.primaryContext === ctx).length,\n ]),\n ) as Record<AgentContext, number>;\n const missingContexts = ALL_CONTEXTS.filter(\n (ctx) => contextCoverage[ctx] === 0,\n );\n\n // Agent name diversity\n const uniqueNames = new Set(samples.map((s) => s.agentName));\n\n // Turn count stats\n const turnCounts = samples\n .map((s) => s.metadata.turnCount)\n .sort((a, b) => a - b);\n const turnCountStats = {\n min: turnCounts[0] ?? 0,\n max: turnCounts[turnCounts.length - 1] ?? 0,\n mean: turnCounts.reduce((a, b) => a + b, 0) / (turnCounts.length || 1),\n median: turnCounts[Math.floor(turnCounts.length / 2)] ?? 0,\n p90: turnCounts[Math.floor(turnCounts.length * 0.9)] ?? 0,\n };\n\n // Pattern distribution\n const patternDistribution: Record<string, number> = {};\n for (const s of samples) {\n patternDistribution[s.metadata.pattern] =\n (patternDistribution[s.metadata.pattern] ?? 0) + 1;\n }\n\n // Top errors and warnings\n const errorCounts: Record<string, number> = {};\n const warningCounts: Record<string, number> = {};\n for (const r of results) {\n for (const e of r.errors) {\n errorCounts[e.type] = (errorCounts[e.type] ?? 0) + 1;\n }\n for (const w of r.warnings) {\n warningCounts[w.type] = (warningCounts[w.type] ?? 0) + 1;\n }\n }\n\n return {\n totalSamples: samples.length,\n validSamples: validResults.length,\n invalidSamples: invalidResults.length,\n errorRate: invalidResults.length / (samples.length || 1),\n\n decisionBalance: {\n RESPOND: respondCount,\n IGNORE: ignoreCount,\n STOP: stopCount,\n respondPct: respondCount / (samples.length || 1),\n ignorePct: ignoreCount / (samples.length || 1),\n stopPct: stopCount / (samples.length || 1),\n },\n\n contextCoverage,\n missingContexts,\n\n uniqueAgentNames: uniqueNames.size,\n totalSamplesChecked: samples.length,\n nameDiversityRatio: uniqueNames.size / (samples.length || 1),\n\n turnCountStats,\n patternDistribution,\n\n topErrors: Object.entries(errorCounts)\n .map(([type, count]) => ({ type, count }))\n .sort((a, b) => b.count - a.count)\n .slice(0, 10),\n\n topWarnings: Object.entries(warningCounts)\n .map(([type, count]) => ({ type, count }))\n .sort((a, b) => b.count - a.count)\n .slice(0, 10),\n\n nativeFormatValid: 0, // filled by separate JSONL validation\n nativeFormatInvalid: 0,\n };\n}\n\n/**\n * Run all validations and produce a formatted report string.\n */\nexport function formatQualityReport(report: DatasetQualityReport): string {\n const lines: string[] = [];\n\n lines.push(\"=== Dataset Quality Report ===\");\n lines.push(\"\");\n lines.push(`Total samples: ${report.totalSamples}`);\n lines.push(\n `Valid: ${report.validSamples} (${((1 - report.errorRate) * 100).toFixed(1)}%)`,\n );\n lines.push(`Invalid: ${report.invalidSamples}`);\n lines.push(\"\");\n\n lines.push(\"--- Decision Balance ---\");\n lines.push(\n `RESPOND: ${report.decisionBalance.RESPOND} (${(report.decisionBalance.respondPct * 100).toFixed(1)}%)`,\n );\n lines.push(\n `IGNORE: ${report.decisionBalance.IGNORE} (${(report.decisionBalance.ignorePct * 100).toFixed(1)}%)`,\n );\n lines.push(\n `STOP: ${report.decisionBalance.STOP} (${(report.decisionBalance.stopPct * 100).toFixed(1)}%)`,\n );\n lines.push(\"\");\n\n lines.push(\"--- Context Coverage ---\");\n for (const [ctx, count] of Object.entries(report.contextCoverage)) {\n lines.push(` ${ctx}: ${count}`);\n }\n if (report.missingContexts.length > 0) {\n lines.push(` MISSING: ${report.missingContexts.join(\", \")}`);\n }\n lines.push(\"\");\n\n lines.push(\"--- Name Diversity ---\");\n lines.push(\n `Unique agent names: ${report.uniqueAgentNames} / ${report.totalSamplesChecked} samples`,\n );\n lines.push(\n `Diversity ratio: ${(report.nameDiversityRatio * 100).toFixed(1)}%`,\n );\n lines.push(\"\");\n\n lines.push(\"--- Turn Count ---\");\n lines.push(`Min: ${report.turnCountStats.min}`);\n lines.push(`Max: ${report.turnCountStats.max}`);\n lines.push(`Mean: ${report.turnCountStats.mean.toFixed(1)}`);\n lines.push(`Median: ${report.turnCountStats.median}`);\n lines.push(`P90: ${report.turnCountStats.p90}`);\n lines.push(\"\");\n\n lines.push(\"--- Pattern Distribution ---\");\n for (const [pattern, count] of Object.entries(report.patternDistribution)) {\n lines.push(` ${pattern}: ${count}`);\n }\n lines.push(\"\");\n\n if (report.topErrors.length > 0) {\n lines.push(\"--- Top Errors ---\");\n for (const { type, count } of report.topErrors) {\n lines.push(` ${type}: ${count}`);\n }\n lines.push(\"\");\n }\n\n if (report.topWarnings.length > 0) {\n lines.push(\"--- Top Warnings ---\");\n for (const { type, count } of report.topWarnings) {\n lines.push(` ${type}: ${count}`);\n }\n lines.push(\"\");\n }\n\n return lines.join(\"\\n\");\n}\n\n// ==================== Skill scoring ====================\n\n/**\n * Minimum metadata a Skill needs for scoring. We do not import @elizaos/skills\n * here because app-training is downstream of the skills package and we want\n * scoreSkill to be usable in cron-job contexts that pass loaded skills.\n */\nexport interface ScoreableSkill {\n name: string;\n}\n\n/**\n * Loose Trajectory shape used for scoring. Mirrors the persisted-trajectory\n * type but kept narrow so callers can pass results from any source (the\n * `trajectories` service, JSON exports, fixtures).\n */\nexport interface ScoreableTrajectory {\n trajectoryId?: string;\n metrics?: { finalStatus?: string };\n steps?: Array<{\n usedSkills?: string[];\n }>;\n metadata?: Record<string, unknown>;\n}\n\n/**\n * Score a curated skill in [0, 1] based on its observed success rate across\n * the supplied held-out trajectories.\n *\n * Algorithm:\n * 1. Filter trajectories that reference the skill on any step (or via\n * metadata.usedSkills, for parity with the refinement evaluator).\n * 2. Score = successCount / totalReferencingCount.\n * 3. Returns 0 when no referencing trajectories exist (signals \"no data\" —\n * callers should treat 0 as \"unscored\" if they want to distinguish that\n * from \"always failed\").\n *\n * The scoring is deliberately simple because the source of truth is the\n * trajectory store; richer signals (duration, retry count, user follow-ups)\n * are easy to layer in later by extending ScoreableTrajectory.\n */\nexport async function scoreSkill(\n skill: ScoreableSkill,\n heldOutTrajectories: ScoreableTrajectory[],\n): Promise<number> {\n const referencing = heldOutTrajectories.filter((trajectory) =>\n trajectoryUsesSkill(trajectory, skill.name),\n );\n if (referencing.length === 0) {\n return 0;\n }\n const successes = referencing.filter(\n (trajectory) => (trajectory.metrics?.finalStatus ?? \"\") === \"completed\",\n ).length;\n const score = successes / referencing.length;\n return Math.max(0, Math.min(1, score));\n}\n\nfunction trajectoryUsesSkill(\n trajectory: ScoreableTrajectory,\n skillName: string,\n): boolean {\n const target = skillName.trim();\n if (!target) return false;\n for (const step of trajectory.steps ?? []) {\n if (Array.isArray(step.usedSkills) && step.usedSkills.includes(target)) {\n return true;\n }\n }\n const metaUsed = trajectory.metadata?.usedSkills;\n if (Array.isArray(metaUsed) && metaUsed.includes(target)) {\n return true;\n }\n return false;\n}\n"],"mappings":"AAgBA;AAAA,EACE;AAAA,EACA;AAAA,OAEK;AACP,SAAS,oBAAoB,oBAAoB;AAQjD,MAAM,0BAA0B,IAAI,IAAY,6BAA6B;AAE7E,SAAS,kBACP,QACwB;AACxB,QAAM,MAAM;AAIZ,MAAI,IAAI,WAAW,gCAAgC;AACjD,UAAM,MAAuB,CAAC;AAC9B,UAAM,SAAS,IAAI,QAAQ;AAC3B,QAAI,OAAO,WAAW,YAAY,OAAO,SAAS,GAAG;AACnD,UAAI,KAAK,EAAE,MAAM,UAAU,SAAS,OAAO,CAAC;AAAA,IAC9C;AACA,UAAM,OAAO,IAAI,QAAQ;AACzB,QAAI,MAAM,QAAQ,IAAI,GAAG;AACvB,iBAAW,OAAO,MAAyB;AACzC,YACE,IAAI,SAAS,YACb,IAAI,SAAS,KACb,IAAI,CAAC,GAAG,SAAS,YACjB,IAAI,CAAC,GAAG,YAAY,IAAI,SACxB;AACA;AAAA,QACF;AACA,YAAI,KAAK,GAAG;AAAA,MACd;AAAA,IACF;AACA,QACE,CAAC,IAAI,KAAK,CAAC,QAAQ,IAAI,SAAS,MAAM,KACtC,OAAO,IAAI,QAAQ,WAAW,YAC9B,IAAI,QAAQ,OAAO,SAAS,GAC5B;AACA,UAAI,KAAK,EAAE,MAAM,QAAQ,SAAS,IAAI,QAAQ,OAAO,CAAC;AAAA,IACxD;AACA,WAAO,IAAI,SAAS,IAAI,MAAM;AAAA,EAChC;AACA,SAAO;AACT;AAuFO,SAAS,eAAe,QAA0C;AACvE,QAAM,SAA4B,CAAC;AACnC,QAAM,WAAgC,CAAC;AAGvC,MAAI,CAAC,OAAO;AACV,WAAO,KAAK,EAAE,MAAM,iBAAiB,SAAS,oBAAoB,CAAC;AACrE,MAAI,CAAC,OAAO;AACV,WAAO,KAAK,EAAE,MAAM,iBAAiB,SAAS,uBAAuB,CAAC;AACxE,MAAI,CAAC,OAAO;AACV,WAAO,KAAK,EAAE,MAAM,iBAAiB,SAAS,qBAAqB,CAAC;AAGtE,MAAI,OAAO,SAAS,WAAW,GAAG;AAChC,WAAO,KAAK,EAAE,MAAM,kBAAkB,SAAS,wBAAwB,CAAC;AAAA,EAC1E,OAAO;AACL,QAAI,OAAO,SAAS,SAAS,GAAG;AAC9B,eAAS,KAAK;AAAA,QACZ,MAAM;AAAA,QACN,SAAS,QAAQ,OAAO,SAAS,MAAM;AAAA,MACzC,CAAC;AAAA,IACH;AACA,QAAI,OAAO,SAAS,SAAS,IAAI;AAC/B,eAAS,KAAK;AAAA,QACZ,MAAM;AAAA,QACN,SAAS,GAAG,OAAO,SAAS,MAAM;AAAA,MACpC,CAAC;AAAA,IACH;AAAA,EACF;AAGA,QAAM,iBAAiB,CAAC,WAAW,UAAU,MAAM;AACnD,MAAI,CAAC,eAAe,SAAS,OAAO,eAAe,QAAQ,GAAG;AAC5D,WAAO,KAAK;AAAA,MACV,MAAM;AAAA,MACN,SAAS,qBAAqB,OAAO,eAAe,QAAQ;AAAA,IAC9D,CAAC;AAAA,EACH;AAGA,MACE,CAAC,aAAa,SAAS,OAAO,eAAe,cAA8B,GAC3E;AACA,WAAO,KAAK;AAAA,MACV,MAAM;AAAA,MACN,SAAS,4BAA4B,OAAO,eAAe,cAAc;AAAA,IAC3E,CAAC;AAAA,EACH;AAEA,aAAW,OAAO,OAAO,eAAe,mBAAmB;AACzD,QAAI,CAAC,aAAa,SAAS,GAAmB,GAAG;AAC/C,aAAO,KAAK;AAAA,QACV,MAAM;AAAA,QACN,SAAS,8BAA8B,GAAG;AAAA,MAC5C,CAAC;AAAA,IACH;AAAA,EACF;AAGA,MAAI,OAAO,eAAe,gBAAgB;AACxC,UAAM,cAAc,OAAO,eAAe,eAAe,YAAY;AACrE,QAAI,CAAC,mBAAmB,WAAW,GAAG;AACpC,eAAS,KAAK;AAAA,QACZ,MAAM;AAAA,QACN,SAAS,UAAU,WAAW;AAAA,MAChC,CAAC;AAAA,IACH;AAAA,EACF;AAIA,QAAM,eAAe,IAAI;AAAA,IACvB,OAAO,SAAS,IAAI,CAAC,MAAM,EAAE,IAAI,EAAE,OAAO,OAAO;AAAA,EACnD;AACA,MAAI,aAAa,QAAQ,KAAK,OAAO,SAAS,SAAS,GAAG;AACxD,aAAS,KAAK;AAAA,MACZ,MAAM;AAAA,MACN,SAAS;AAAA,IACX,CAAC;AAAA,EACH;AAEA,SAAO;AAAA,IACL,UAAU,OAAO;AAAA,IACjB,OAAO,OAAO,WAAW;AAAA,IACzB;AAAA,IACA;AAAA,EACF;AACF;AAKO,SAAS,2BAA2B,UAGzC;AACA,QAAM,SAAmB,CAAC;AAE1B,MAAI;AACJ,MAAI;AACF,aAAS,KAAK,MAAM,QAAQ;AAAA,EAC9B,QAAQ;AACN,WAAO,EAAE,OAAO,OAAO,QAAQ,CAAC,cAAc,EAAE;AAAA,EAClD;AAEA,QAAM,WAAW,kBAAkB,MAAM;AACzC,MAAI,CAAC,UAAU;AACb,WAAO,KAAK,wDAAwD;AACpE,WAAO,EAAE,OAAO,OAAO,OAAO;AAAA,EAChC;AAEA,QAAM,SAAS;AACf,MAAI,OAAO,WAAW,gCAAgC;AACpD,WAAO,KAAK,kBAAkB,8BAA8B,EAAE;AAC9D,WAAO,EAAE,OAAO,OAAO,OAAO;AAAA,EAChC;AACA,MAAI,CAAC,wBAAwB,IAAI,OAAO,QAAQ,GAAG;AACjD,WAAO,KAAK,2DAA2D;AAAA,EACzE;AAEA,MAAI,SAAS,SAAS,GAAG;AACvB,WAAO,KAAK,uDAAuD;AAAA,EACrE;AACA,QAAM,OAAO,OAAO,SAAS;AAC7B,QAAM,YAAY,OAAO,SAAS;AAClC,OACG,OAAO,SAAS,YAAY,KAAK,KAAK,EAAE,WAAW,MACpD,CAAC,MAAM,QAAQ,SAAS,GACxB;AACA,WAAO,KAAK,6CAA6C;AAAA,EAC3D;AACA,aAAW,OAAO,UAAU;AAC1B,QACE,CAAC,IAAI,QACL,CAAC,CAAC,UAAU,aAAa,QAAQ,aAAa,MAAM,EAAE,SAAS,IAAI,IAAI,GACvE;AACA,aAAO,KAAK,iBAAiB,IAAI,IAAI,EAAE;AAAA,IACzC;AACA,QAAI,IAAI,YAAY,UAAa,IAAI,UAAU,QAAW;AACxD,aAAO,KAAK,+BAA+B;AAAA,IAC7C;AAAA,EACF;AAEA,SAAO,EAAE,OAAO,OAAO,WAAW,GAAG,OAAO;AAC9C;AAKO,SAAS,gBACd,SACsB;AACtB,QAAM,UAAU,QAAQ,IAAI,cAAc;AAC1C,QAAM,eAAe,QAAQ,OAAO,CAAC,MAAM,EAAE,KAAK;AAClD,QAAM,iBAAiB,QAAQ,OAAO,CAAC,MAAM,CAAC,EAAE,KAAK;AAGrD,QAAM,eAAe,QAAQ;AAAA,IAC3B,CAAC,MAAM,EAAE,eAAe,aAAa;AAAA,EACvC,EAAE;AACF,QAAM,cAAc,QAAQ;AAAA,IAC1B,CAAC,MAAM,EAAE,eAAe,aAAa;AAAA,EACvC,EAAE;AACF,QAAM,YAAY,QAAQ;AAAA,IACxB,CAAC,MAAM,EAAE,eAAe,aAAa;AAAA,EACvC,EAAE;AAGF,QAAM,kBAAkB,OAAO;AAAA,IAC7B,aAAa,IAAI,CAAC,QAAQ;AAAA,MACxB;AAAA,MACA,QAAQ,OAAO,CAAC,MAAM,EAAE,eAAe,mBAAmB,GAAG,EAAE;AAAA,IACjE,CAAC;AAAA,EACH;AACA,QAAM,kBAAkB,aAAa;AAAA,IACnC,CAAC,QAAQ,gBAAgB,GAAG,MAAM;AAAA,EACpC;AAGA,QAAM,cAAc,IAAI,IAAI,QAAQ,IAAI,CAAC,MAAM,EAAE,SAAS,CAAC;AAG3D,QAAM,aAAa,QAChB,IAAI,CAAC,MAAM,EAAE,SAAS,SAAS,EAC/B,KAAK,CAAC,GAAG,MAAM,IAAI,CAAC;AACvB,QAAM,iBAAiB;AAAA,IACrB,KAAK,WAAW,CAAC,KAAK;AAAA,IACtB,KAAK,WAAW,WAAW,SAAS,CAAC,KAAK;AAAA,IAC1C,MAAM,WAAW,OAAO,CAAC,GAAG,MAAM,IAAI,GAAG,CAAC,KAAK,WAAW,UAAU;AAAA,IACpE,QAAQ,WAAW,KAAK,MAAM,WAAW,SAAS,CAAC,CAAC,KAAK;AAAA,IACzD,KAAK,WAAW,KAAK,MAAM,WAAW,SAAS,GAAG,CAAC,KAAK;AAAA,EAC1D;AAGA,QAAM,sBAA8C,CAAC;AACrD,aAAW,KAAK,SAAS;AACvB,wBAAoB,EAAE,SAAS,OAAO,KACnC,oBAAoB,EAAE,SAAS,OAAO,KAAK,KAAK;AAAA,EACrD;AAGA,QAAM,cAAsC,CAAC;AAC7C,QAAM,gBAAwC,CAAC;AAC/C,aAAW,KAAK,SAAS;AACvB,eAAW,KAAK,EAAE,QAAQ;AACxB,kBAAY,EAAE,IAAI,KAAK,YAAY,EAAE,IAAI,KAAK,KAAK;AAAA,IACrD;AACA,eAAW,KAAK,EAAE,UAAU;AAC1B,oBAAc,EAAE,IAAI,KAAK,cAAc,EAAE,IAAI,KAAK,KAAK;AAAA,IACzD;AAAA,EACF;AAEA,SAAO;AAAA,IACL,cAAc,QAAQ;AAAA,IACtB,cAAc,aAAa;AAAA,IAC3B,gBAAgB,eAAe;AAAA,IAC/B,WAAW,eAAe,UAAU,QAAQ,UAAU;AAAA,IAEtD,iBAAiB;AAAA,MACf,SAAS;AAAA,MACT,QAAQ;AAAA,MACR,MAAM;AAAA,MACN,YAAY,gBAAgB,QAAQ,UAAU;AAAA,MAC9C,WAAW,eAAe,QAAQ,UAAU;AAAA,MAC5C,SAAS,aAAa,QAAQ,UAAU;AAAA,IAC1C;AAAA,IAEA;AAAA,IACA;AAAA,IAEA,kBAAkB,YAAY;AAAA,IAC9B,qBAAqB,QAAQ;AAAA,IAC7B,oBAAoB,YAAY,QAAQ,QAAQ,UAAU;AAAA,IAE1D;AAAA,IACA;AAAA,IAEA,WAAW,OAAO,QAAQ,WAAW,EAClC,IAAI,CAAC,CAAC,MAAM,KAAK,OAAO,EAAE,MAAM,MAAM,EAAE,EACxC,KAAK,CAAC,GAAG,MAAM,EAAE,QAAQ,EAAE,KAAK,EAChC,MAAM,GAAG,EAAE;AAAA,IAEd,aAAa,OAAO,QAAQ,aAAa,EACtC,IAAI,CAAC,CAAC,MAAM,KAAK,OAAO,EAAE,MAAM,MAAM,EAAE,EACxC,KAAK,CAAC,GAAG,MAAM,EAAE,QAAQ,EAAE,KAAK,EAChC,MAAM,GAAG,EAAE;AAAA,IAEd,mBAAmB;AAAA;AAAA,IACnB,qBAAqB;AAAA,EACvB;AACF;AAKO,SAAS,oBAAoB,QAAsC;AACxE,QAAM,QAAkB,CAAC;AAEzB,QAAM,KAAK,gCAAgC;AAC3C,QAAM,KAAK,EAAE;AACb,QAAM,KAAK,kBAAkB,OAAO,YAAY,EAAE;AAClD,QAAM;AAAA,IACJ,UAAU,OAAO,YAAY,OAAO,IAAI,OAAO,aAAa,KAAK,QAAQ,CAAC,CAAC;AAAA,EAC7E;AACA,QAAM,KAAK,YAAY,OAAO,cAAc,EAAE;AAC9C,QAAM,KAAK,EAAE;AAEb,QAAM,KAAK,0BAA0B;AACrC,QAAM;AAAA,IACJ,YAAY,OAAO,gBAAgB,OAAO,MAAM,OAAO,gBAAgB,aAAa,KAAK,QAAQ,CAAC,CAAC;AAAA,EACrG;AACA,QAAM;AAAA,IACJ,YAAY,OAAO,gBAAgB,MAAM,MAAM,OAAO,gBAAgB,YAAY,KAAK,QAAQ,CAAC,CAAC;AAAA,EACnG;AACA,QAAM;AAAA,IACJ,YAAY,OAAO,gBAAgB,IAAI,MAAM,OAAO,gBAAgB,UAAU,KAAK,QAAQ,CAAC,CAAC;AAAA,EAC/F;AACA,QAAM,KAAK,EAAE;AAEb,QAAM,KAAK,0BAA0B;AACrC,aAAW,CAAC,KAAK,KAAK,KAAK,OAAO,QAAQ,OAAO,eAAe,GAAG;AACjE,UAAM,KAAK,KAAK,GAAG,KAAK,KAAK,EAAE;AAAA,EACjC;AACA,MAAI,OAAO,gBAAgB,SAAS,GAAG;AACrC,UAAM,KAAK,cAAc,OAAO,gBAAgB,KAAK,IAAI,CAAC,EAAE;AAAA,EAC9D;AACA,QAAM,KAAK,EAAE;AAEb,QAAM,KAAK,wBAAwB;AACnC,QAAM;AAAA,IACJ,uBAAuB,OAAO,gBAAgB,MAAM,OAAO,mBAAmB;AAAA,EAChF;AACA,QAAM;AAAA,IACJ,qBAAqB,OAAO,qBAAqB,KAAK,QAAQ,CAAC,CAAC;AAAA,EAClE;AACA,QAAM,KAAK,EAAE;AAEb,QAAM,KAAK,oBAAoB;AAC/B,QAAM,KAAK,QAAQ,OAAO,eAAe,GAAG,EAAE;AAC9C,QAAM,KAAK,QAAQ,OAAO,eAAe,GAAG,EAAE;AAC9C,QAAM,KAAK,SAAS,OAAO,eAAe,KAAK,QAAQ,CAAC,CAAC,EAAE;AAC3D,QAAM,KAAK,WAAW,OAAO,eAAe,MAAM,EAAE;AACpD,QAAM,KAAK,QAAQ,OAAO,eAAe,GAAG,EAAE;AAC9C,QAAM,KAAK,EAAE;AAEb,QAAM,KAAK,8BAA8B;AACzC,aAAW,CAAC,SAAS,KAAK,KAAK,OAAO,QAAQ,OAAO,mBAAmB,GAAG;AACzE,UAAM,KAAK,KAAK,OAAO,KAAK,KAAK,EAAE;AAAA,EACrC;AACA,QAAM,KAAK,EAAE;AAEb,MAAI,OAAO,UAAU,SAAS,GAAG;AAC/B,UAAM,KAAK,oBAAoB;AAC/B,eAAW,EAAE,MAAM,MAAM,KAAK,OAAO,WAAW;AAC9C,YAAM,KAAK,KAAK,IAAI,KAAK,KAAK,EAAE;AAAA,IAClC;AACA,UAAM,KAAK,EAAE;AAAA,EACf;AAEA,MAAI,OAAO,YAAY,SAAS,GAAG;AACjC,UAAM,KAAK,sBAAsB;AACjC,eAAW,EAAE,MAAM,MAAM,KAAK,OAAO,aAAa;AAChD,YAAM,KAAK,KAAK,IAAI,KAAK,KAAK,EAAE;AAAA,IAClC;AACA,UAAM,KAAK,EAAE;AAAA,EACf;AAEA,SAAO,MAAM,KAAK,IAAI;AACxB;AA2CA,eAAsB,WACpB,OACA,qBACiB;AACjB,QAAM,cAAc,oBAAoB;AAAA,IAAO,CAAC,eAC9C,oBAAoB,YAAY,MAAM,IAAI;AAAA,EAC5C;AACA,MAAI,YAAY,WAAW,GAAG;AAC5B,WAAO;AAAA,EACT;AACA,QAAM,YAAY,YAAY;AAAA,IAC5B,CAAC,gBAAgB,WAAW,SAAS,eAAe,QAAQ;AAAA,EAC9D,EAAE;AACF,QAAM,QAAQ,YAAY,YAAY;AACtC,SAAO,KAAK,IAAI,GAAG,KAAK,IAAI,GAAG,KAAK,CAAC;AACvC;AAEA,SAAS,oBACP,YACA,WACS;AACT,QAAM,SAAS,UAAU,KAAK;AAC9B,MAAI,CAAC,OAAQ,QAAO;AACpB,aAAW,QAAQ,WAAW,SAAS,CAAC,GAAG;AACzC,QAAI,MAAM,QAAQ,KAAK,UAAU,KAAK,KAAK,WAAW,SAAS,MAAM,GAAG;AACtE,aAAO;AAAA,IACT;AAAA,EACF;AACA,QAAM,WAAW,WAAW,UAAU;AACtC,MAAI,MAAM,QAAQ,QAAQ,KAAK,SAAS,SAAS,MAAM,GAAG;AACxD,WAAO;AAAA,EACT;AACA,SAAO;AACT;","names":[]}

package/dist/core/roleplay-executor.d.ts ADDED Viewed

@@ -0,0 +1,123 @@
+import type { Trajectory } from "@elizaos/agent";
+import type { AgentRuntime } from "@elizaos/core";
+import type { RoleplayEpisode, RoleplayTurn } from "./roleplay-trajectories.js";
+import { type TrajectoryTaskDatasetExport, type TrajectoryTaskDatasetSummary } from "./trajectory-task-datasets.js";
+type RoleplayDecision = "RESPOND" | "IGNORE" | "STOP";
+export interface RoleplayTurnExecution {
+    turnId: string;
+    speaker: string;
+    role: RoleplayTurn["role"];
+    isEvaluationTarget: boolean;
+    actualDecision?: "RESPOND" | "IGNORE" | "STOP";
+    actualPrimaryContext?: string;
+    actualSecondaryContexts: string[];
+    selectedActions: string[];
+    executedActions: string[];
+    responseText: string;
+    callbackTexts: string[];
+    trajectoryId?: string;
+    warnings: string[];
+}
+export interface RoleplayEpisodeExecution {
+    episodeId: string;
+    blueprintId: string;
+    agentName: string;
+    pattern?: string;
+    evaluationTurnId: string;
+    expectedDecision: RoleplayDecision;
+    actualDecision: RoleplayDecision;
+    expectedPrimaryContext: string;
+    actualPrimaryContext?: string;
+    expectedSecondaryContexts: string[];
+    actualSecondaryContexts: string[];
+    expectedAction?: string;
+    actualActions: string[];
+    selectedActions: string[];
+    executedActions: string[];
+    decisionMatch: boolean;
+    primaryContextMatch: boolean;
+    secondaryContextExactMatch: boolean;
+    routingMatch: boolean;
+    actionMatch: boolean;
+    selectedActionMatch: boolean;
+    executedActionMatch: boolean;
+    trajectoryCaptured: boolean;
+    responseText: string;
+    callbackTexts: string[];
+    warnings: string[];
+    turnExecutions: RoleplayTurnExecution[];
+    trajectory?: Trajectory | null;
+}
+export interface RoleplayBucketReport {
+    totalEpisodes: number;
+    decisionMatches: number;
+    routingMatches: number;
+    primaryContextMatches: number;
+    secondaryContextExactMatches: number;
+    actionRelevantEpisodes: number;
+    actionMatches: number;
+    selectedActionMatches: number;
+    executedActionMatches: number;
+    decisionAccuracy: number;
+    routingAccuracy: number;
+    primaryContextAccuracy: number;
+    secondaryContextExactAccuracy: number;
+    actionAccuracy: number;
+    selectedActionAccuracy: number;
+    executedActionAccuracy: number;
+}
+export interface RoleplayExecutionReport {
+    totalEpisodes: number;
+    decisionMatches: number;
+    routingMatches: number;
+    primaryContextMatches: number;
+    secondaryContextExactMatches: number;
+    actionMatches: number;
+    selectedActionMatches: number;
+    executedActionMatches: number;
+    trajectoryCaptured: number;
+    decisionAccuracy: number;
+    routingAccuracy: number;
+    primaryContextAccuracy: number;
+    secondaryContextExactAccuracy: number;
+    actionAccuracy: number;
+    selectedActionAccuracy: number;
+    executedActionAccuracy: number;
+    trajectoryCaptureRate: number;
+    decisionConfusionMatrix: Record<RoleplayDecision, Record<RoleplayDecision, number>>;
+    warningCounts: Record<string, number>;
+    byPrimaryContext: Record<string, RoleplayBucketReport>;
+    byPattern: Record<string, RoleplayBucketReport>;
+    trajectoryDatasetSummary?: TrajectoryTaskDatasetSummary | null;
+    mismatches: Array<{
+        episodeId: string;
+        pattern?: string;
+        expectedDecision: string;
+        actualDecision: string;
+        expectedPrimaryContext: string;
+        actualPrimaryContext?: string;
+        expectedAction?: string;
+        actualActions: string[];
+        selectedActions: string[];
+        executedActions: string[];
+        warnings: string[];
+    }>;
+}
+export interface RoleplayExecutionExportPaths {
+    executionsPath: string;
+    reportPath: string;
+    trajectoryDataset?: TrajectoryTaskDatasetExport;
+}
+export interface ExecuteRoleplayOptions {
+    runtime?: AgentRuntime;
+    timeoutMs?: number;
+    executeAllParticipantTurns?: boolean;
+    outputDir?: string;
+}
+export declare function executeRoleplayEpisode(episode: RoleplayEpisode, options?: ExecuteRoleplayOptions): Promise<RoleplayEpisodeExecution>;
+export declare function executeRoleplayEpisodes(episodes: RoleplayEpisode[], options?: ExecuteRoleplayOptions): Promise<RoleplayEpisodeExecution[]>;
+export declare function buildRoleplayExecutionReport(executions: RoleplayEpisodeExecution[], trajectoryDatasetSummary?: TrajectoryTaskDatasetSummary | null): RoleplayExecutionReport;
+export declare function exportRoleplayExecutionResults(executions: RoleplayEpisodeExecution[], outputDir: string): Promise<RoleplayExecutionExportPaths>;
+export declare function loadRoleplayEpisodesFromPath(inputPath: string): Promise<RoleplayEpisode[]>;
+export {};
+//# sourceMappingURL=roleplay-executor.d.ts.map

package/dist/core/roleplay-executor.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"roleplay-executor.d.ts","sourceRoot":"","sources":["../../src/core/roleplay-executor.ts"],"names":[],"mappings":"AAGA,OAAO,KAAK,EAAE,UAAU,EAAE,MAAM,gBAAgB,CAAC;AACjD,OAAO,KAAK,EACV,YAAY,EAKb,MAAM,eAAe,CAAC;AACvB,OAAO,KAAK,EACV,eAAe,EAEf,YAAY,EACb,MAAM,4BAA4B,CAAC;AACpC,OAAO,EAEL,KAAK,2BAA2B,EAChC,KAAK,4BAA4B,EAClC,MAAM,+BAA+B,CAAC;AAEvC,KAAK,gBAAgB,GAAG,SAAS,GAAG,QAAQ,GAAG,MAAM,CAAC;AAEtD,MAAM,WAAW,qBAAqB;IACpC,MAAM,EAAE,MAAM,CAAC;IACf,OAAO,EAAE,MAAM,CAAC;IAChB,IAAI,EAAE,YAAY,CAAC,MAAM,CAAC,CAAC;IAC3B,kBAAkB,EAAE,OAAO,CAAC;IAC5B,cAAc,CAAC,EAAE,SAAS,GAAG,QAAQ,GAAG,MAAM,CAAC;IAC/C,oBAAoB,CAAC,EAAE,MAAM,CAAC;IAC9B,uBAAuB,EAAE,MAAM,EAAE,CAAC;IAClC,eAAe,EAAE,MAAM,EAAE,CAAC;IAC1B,eAAe,EAAE,MAAM,EAAE,CAAC;IAC1B,YAAY,EAAE,MAAM,CAAC;IACrB,aAAa,EAAE,MAAM,EAAE,CAAC;IACxB,YAAY,CAAC,EAAE,MAAM,CAAC;IACtB,QAAQ,EAAE,MAAM,EAAE,CAAC;CACpB;AAED,MAAM,WAAW,wBAAwB;IACvC,SAAS,EAAE,MAAM,CAAC;IAClB,WAAW,EAAE,MAAM,CAAC;IACpB,SAAS,EAAE,MAAM,CAAC;IAClB,OAAO,CAAC,EAAE,MAAM,CAAC;IACjB,gBAAgB,EAAE,MAAM,CAAC;IACzB,gBAAgB,EAAE,gBAAgB,CAAC;IACnC,cAAc,EAAE,gBAAgB,CAAC;IACjC,sBAAsB,EAAE,MAAM,CAAC;IAC/B,oBAAoB,CAAC,EAAE,MAAM,CAAC;IAC9B,yBAAyB,EAAE,MAAM,EAAE,CAAC;IACpC,uBAAuB,EAAE,MAAM,EAAE,CAAC;IAClC,cAAc,CAAC,EAAE,MAAM,CAAC;IACxB,aAAa,EAAE,MAAM,EAAE,CAAC;IACxB,eAAe,EAAE,MAAM,EAAE,CAAC;IAC1B,eAAe,EAAE,MAAM,EAAE,CAAC;IAC1B,aAAa,EAAE,OAAO,CAAC;IACvB,mBAAmB,EAAE,OAAO,CAAC;IAC7B,0BAA0B,EAAE,OAAO,CAAC;IACpC,YAAY,EAAE,OAAO,CAAC;IACtB,WAAW,EAAE,OAAO,CAAC;IACrB,mBAAmB,EAAE,OAAO,CAAC;IAC7B,mBAAmB,EAAE,OAAO,CAAC;IAC7B,kBAAkB,EAAE,OAAO,CAAC;IAC5B,YAAY,EAAE,MAAM,CAAC;IACrB,aAAa,EAAE,MAAM,EAAE,CAAC;IACxB,QAAQ,EAAE,MAAM,EAAE,CAAC;IACnB,cAAc,EAAE,qBAAqB,EAAE,CAAC;IACxC,UAAU,CAAC,EAAE,UAAU,GAAG,IAAI,CAAC;CAChC;AAED,MAAM,WAAW,oBAAoB;IACnC,aAAa,EAAE,MAAM,CAAC;IACtB,eAAe,EAAE,MAAM,CAAC;IACxB,cAAc,EAAE,MAAM,CAAC;IACvB,qBAAqB,EAAE,MAAM,CAAC;IAC9B,4BAA4B,EAAE,MAAM,CAAC;IACrC,sBAAsB,EAAE,MAAM,CAAC;IAC/B,aAAa,EAAE,MAAM,CAAC;IACtB,qBAAqB,EAAE,MAAM,CAAC;IAC9B,qBAAqB,EAAE,MAAM,CAAC;IAC9B,gBAAgB,EAAE,MAAM,CAAC;IACzB,eAAe,EAAE,MAAM,CAAC;IACxB,sBAAsB,EAAE,MAAM,CAAC;IAC/B,6BAA6B,EAAE,MAAM,CAAC;IACtC,cAAc,EAAE,MAAM,CAAC;IACvB,sBAAsB,EAAE,MAAM,CAAC;IAC/B,sBAAsB,EAAE,MAAM,CAAC;CAChC;AAED,MAAM,WAAW,uBAAuB;IACtC,aAAa,EAAE,MAAM,CAAC;IACtB,eAAe,EAAE,MAAM,CAAC;IACxB,cAAc,EAAE,MAAM,CAAC;IACvB,qBAAqB,EAAE,MAAM,CAAC;IAC9B,4BAA4B,EAAE,MAAM,CAAC;IACrC,aAAa,EAAE,MAAM,CAAC;IACtB,qBAAqB,EAAE,MAAM,CAAC;IAC9B,qBAAqB,EAAE,MAAM,CAAC;IAC9B,kBAAkB,EAAE,MAAM,CAAC;IAC3B,gBAAgB,EAAE,MAAM,CAAC;IACzB,eAAe,EAAE,MAAM,CAAC;IACxB,sBAAsB,EAAE,MAAM,CAAC;IAC/B,6BAA6B,EAAE,MAAM,CAAC;IACtC,cAAc,EAAE,MAAM,CAAC;IACvB,sBAAsB,EAAE,MAAM,CAAC;IAC/B,sBAAsB,EAAE,MAAM,CAAC;IAC/B,qBAAqB,EAAE,MAAM,CAAC;IAC9B,uBAAuB,EAAE,MAAM,CAC7B,gBAAgB,EAChB,MAAM,CAAC,gBAAgB,EAAE,MAAM,CAAC,CACjC,CAAC;IACF,aAAa,EAAE,MAAM,CAAC,MAAM,EAAE,MAAM,CAAC,CAAC;IACtC,gBAAgB,EAAE,MAAM,CAAC,MAAM,EAAE,oBAAoB,CAAC,CAAC;IACvD,SAAS,EAAE,MAAM,CAAC,MAAM,EAAE,oBAAoB,CAAC,CAAC;IAChD,wBAAwB,CAAC,EAAE,4BAA4B,GAAG,IAAI,CAAC;IAC/D,UAAU,EAAE,KAAK,CAAC;QAChB,SAAS,EAAE,MAAM,CAAC;QAClB,OAAO,CAAC,EAAE,MAAM,CAAC;QACjB,gBAAgB,EAAE,MAAM,CAAC;QACzB,cAAc,EAAE,MAAM,CAAC;QACvB,sBAAsB,EAAE,MAAM,CAAC;QAC/B,oBAAoB,CAAC,EAAE,MAAM,CAAC;QAC9B,cAAc,CAAC,EAAE,MAAM,CAAC;QACxB,aAAa,EAAE,MAAM,EAAE,CAAC;QACxB,eAAe,EAAE,MAAM,EAAE,CAAC;QAC1B,eAAe,EAAE,MAAM,EAAE,CAAC;QAC1B,QAAQ,EAAE,MAAM,EAAE,CAAC;KACpB,CAAC,CAAC;CACJ;AAED,MAAM,WAAW,4BAA4B;IAC3C,cAAc,EAAE,MAAM,CAAC;IACvB,UAAU,EAAE,MAAM,CAAC;IACnB,iBAAiB,CAAC,EAAE,2BAA2B,CAAC;CACjD;AAED,MAAM,WAAW,sBAAsB;IACrC,OAAO,CAAC,EAAE,YAAY,CAAC;IACvB,SAAS,CAAC,EAAE,MAAM,CAAC;IACnB,0BAA0B,CAAC,EAAE,OAAO,CAAC;IACrC,SAAS,CAAC,EAAE,MAAM,CAAC;CACpB;AAmgBD,wBAAsB,sBAAsB,CAC1C,OAAO,EAAE,eAAe,EACxB,OAAO,GAAE,sBAA2B,GACnC,OAAO,CAAC,wBAAwB,CAAC,CA0NnC;AAED,wBAAsB,uBAAuB,CAC3C,QAAQ,EAAE,eAAe,EAAE,EAC3B,OAAO,GAAE,sBAA2B,GACnC,OAAO,CAAC,wBAAwB,EAAE,CAAC,CAcrC;AAED,wBAAgB,4BAA4B,CAC1C,UAAU,EAAE,wBAAwB,EAAE,EACtC,wBAAwB,CAAC,EAAE,4BAA4B,GAAG,IAAI,GAC7D,uBAAuB,CA+GzB;AAED,wBAAsB,8BAA8B,CAClD,UAAU,EAAE,wBAAwB,EAAE,EACtC,SAAS,EAAE,MAAM,GAChB,OAAO,CAAC,4BAA4B,CAAC,CA6BvC;AAED,wBAAsB,4BAA4B,CAChD,SAAS,EAAE,MAAM,GAChB,OAAO,CAAC,eAAe,EAAE,CAAC,CAyC5B"}