PyPI - synth-ai - Versions diffs - 0.2.8.dev4__py3-none-any.whl → 0.2.23.dev3__py3-none-any.whl - Mend

synth-ai 0.2.8.dev4py3-none-any.whl → 0.2.23.dev3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (889) hide show

examples/README.md +1 -0
examples/__init__.py +16 -0
examples/analyze_semantic_words.sh +17 -0
examples/baseline/banking77_baseline.py +243 -0
examples/baseline/banking77_pipeline_baseline.py +294 -0
examples/baseline/crafter_baseline.py +407 -0
examples/baseline/pokemon_red_baseline.py +326 -0
examples/baseline/simple_baseline.py +56 -0
examples/baseline/warming_up_to_rl_baseline.py +239 -0
examples/blog_posts/gepa/README.md +355 -0
examples/blog_posts/gepa/configs/banking77_gepa_local.toml +95 -0
examples/blog_posts/gepa/configs/banking77_gepa_test.toml +80 -0
examples/blog_posts/gepa/configs/banking77_mipro_local.toml +50 -0
examples/blog_posts/gepa/configs/banking77_pipeline_gepa_local.toml +101 -0
examples/blog_posts/gepa/configs/banking77_pipeline_gepa_test.toml +96 -0
examples/blog_posts/gepa/configs/hotpotqa_gepa_local.toml +57 -0
examples/blog_posts/gepa/configs/hotpotqa_gepa_qwen.toml +35 -0
examples/blog_posts/gepa/configs/hotpotqa_mipro_local.toml +51 -0
examples/blog_posts/gepa/configs/hover_gepa_local.toml +57 -0
examples/blog_posts/gepa/configs/hover_gepa_qwen.toml +35 -0
examples/blog_posts/gepa/configs/hover_mipro_local.toml +51 -0
examples/blog_posts/gepa/configs/ifbench_gepa_local.toml +57 -0
examples/blog_posts/gepa/configs/ifbench_gepa_qwen.toml +35 -0
examples/blog_posts/gepa/configs/ifbench_mipro_local.toml +51 -0
examples/blog_posts/gepa/configs/pupa_gepa_local.toml +58 -0
examples/blog_posts/gepa/configs/pupa_mipro_local.toml +52 -0
examples/blog_posts/gepa/deploy_banking77_task_app.sh +54 -0
examples/blog_posts/gepa/gepa_baseline.py +204 -0
examples/blog_posts/gepa/query_prompts_example.py +97 -0
examples/blog_posts/gepa/run_gepa_banking77.sh +112 -0
examples/blog_posts/gepa/run_gepa_banking77_pipeline.sh +163 -0
examples/blog_posts/gepa/task_apps.py +105 -0
examples/blog_posts/gepa/test_gepa_local.sh +67 -0
examples/blog_posts/gepa/verify_banking77_setup.sh +123 -0
examples/blog_posts/mipro/README.md +415 -0
examples/blog_posts/mipro/configs/banking77_mipro_local.toml +91 -0
examples/blog_posts/mipro/configs/banking77_mipro_test.toml +87 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_gemini_flash_lite_local.toml +98 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_gpt41mini_local.toml +96 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_local.toml +94 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_test.toml +170 -0
examples/blog_posts/mipro/deploy_banking77_pipeline_task_app.sh +59 -0
examples/blog_posts/mipro/deploy_banking77_task_app.sh +41 -0
examples/blog_posts/mipro/multi_step.md +79 -0
examples/blog_posts/mipro/run_mipro_banking77.sh +191 -0
examples/blog_posts/mipro/run_mipro_banking77_pipeline.sh +171 -0
examples/blog_posts/mipro/run_mipro_banking77_pipeline_gemini_flash_lite.sh +177 -0
examples/blog_posts/mipro/run_mipro_banking77_pipeline_gpt41mini.sh +173 -0
examples/blog_posts/mipro/verify_banking77_setup.sh +117 -0
examples/blog_posts/pokemon_vl/README.md +98 -0
examples/blog_posts/pokemon_vl/configs/eval_gpt5nano.toml +26 -0
examples/blog_posts/pokemon_vl/configs/eval_qwen3_vl.toml +27 -0
examples/blog_posts/pokemon_vl/configs/eval_rl_final.toml +24 -0
examples/blog_posts/pokemon_vl/configs/filter_high_reward.toml +10 -0
examples/blog_posts/pokemon_vl/configs/train_rl_from_sft.toml +43 -0
examples/blog_posts/pokemon_vl/configs/train_sft_qwen4b_vl.toml +40 -0
examples/blog_posts/pokemon_vl/extract_images.py +239 -0
examples/blog_posts/pokemon_vl/pokemon_vl_baseline.py +326 -0
examples/blog_posts/pokemon_vl/run_eval_extract_images.py +209 -0
examples/blog_posts/pokemon_vl/run_qwen_eval_extract_images.py +212 -0
examples/blog_posts/pokemon_vl/text_box_analysis.md +106 -0
examples/blog_posts/warming_up_to_rl/ARCHITECTURE.md +195 -0
examples/blog_posts/warming_up_to_rl/FINAL_TEST_RESULTS.md +127 -0
examples/blog_posts/warming_up_to_rl/INFERENCE_SUCCESS.md +132 -0
examples/blog_posts/warming_up_to_rl/README.md +158 -0
examples/blog_posts/warming_up_to_rl/SMOKE_TESTING.md +164 -0
examples/blog_posts/warming_up_to_rl/SMOKE_TEST_COMPLETE.md +253 -0
examples/blog_posts/warming_up_to_rl/configs/eval_baseline_qwen32b_10x20.toml +25 -0
examples/blog_posts/warming_up_to_rl/configs/eval_ft_qwen4b.toml +25 -0
examples/blog_posts/warming_up_to_rl/configs/eval_ft_qwen4b_10x20.toml +26 -0
examples/blog_posts/warming_up_to_rl/configs/eval_groq_qwen32b.toml +25 -0
examples/blog_posts/warming_up_to_rl/configs/eval_openai_gpt_oss_120b.toml +29 -0
examples/blog_posts/warming_up_to_rl/configs/filter_high_reward_dataset.toml +10 -0
examples/blog_posts/warming_up_to_rl/configs/smoke_test.toml +75 -0
examples/blog_posts/warming_up_to_rl/configs/train_rl_from_sft.toml +91 -0
examples/blog_posts/warming_up_to_rl/configs/train_sft_qwen4b.toml +40 -0
examples/blog_posts/warming_up_to_rl/warming_up_to_rl_baseline.py +187 -0
examples/crafter_debug_render.py +186 -0
examples/dev/qwen3_32b_qlora_4xh100.toml +45 -0
examples/gepa/banking77_pipeline_gepa.toml +96 -0
examples/gepa/multi_stage_gepa_example.toml +84 -0
examples/gepa/run_gepa_banking77_pipeline.sh +157 -0
examples/multi_step/SFT_README.md +147 -0
examples/multi_step/configs/README_verilog_rl.md +77 -0
examples/multi_step/configs/VERILOG_REWARDS.md +103 -0
examples/multi_step/configs/VERILOG_RL_CHECKLIST.md +196 -0
examples/multi_step/configs/crafter_eval_synth_qwen4b.toml +35 -0
examples/multi_step/configs/crafter_eval_text_only_groq_qwen32b.toml +36 -0
examples/multi_step/configs/crafter_rl_outcome.toml +75 -0
examples/multi_step/configs/crafter_rl_stepwise_hosted_judge.toml +145 -0
examples/multi_step/configs/crafter_rl_stepwise_shaped.toml +84 -0
examples/multi_step/configs/crafter_rl_stepwise_simple.toml +79 -0
examples/multi_step/configs/crafter_rl_stepwise_simple_NEW_FORMAT.toml +105 -0
examples/multi_step/configs/crafter_sft_qwen30b_lora.toml +62 -0
examples/multi_step/configs/crafter_synth_backend.md +40 -0
examples/multi_step/configs/verilog_eval_groq_qwen32b.toml +31 -0
examples/multi_step/configs/verilog_eval_synth_qwen8b.toml +33 -0
examples/multi_step/configs/verilog_rl_lora.toml +147 -0
examples/multi_step/convert_traces_to_sft.py +84 -0
examples/multi_step/crafter_rl_lora.md +70 -0
examples/multi_step/judges/crafter_backend_judge.py +220 -0
examples/multi_step/judges/verilog_backend_judge.py +234 -0
examples/multi_step/readme.md +48 -0
examples/multi_step/run_sft_qwen30b.sh +45 -0
examples/multi_step/sse_metrics_streaming_notes.md +357 -0
examples/multi_step/task_app_config_notes.md +494 -0
examples/multi_step/verilog_rl_lora.md +218 -0
examples/qwen_coder/README.md +102 -0
examples/qwen_coder/_shared.py +113 -0
examples/qwen_coder/configs/coder_lora_30b.toml +60 -0
examples/qwen_coder/configs/coder_lora_4b.toml +61 -0
examples/qwen_coder/configs/coder_lora_small.toml +57 -0
examples/qwen_coder/generate_dataset.py +98 -0
examples/qwen_coder/infer_ft_smoke.py +65 -0
examples/qwen_coder/infer_prod_proxy.py +73 -0
examples/qwen_coder/infer_via_synth.py +87 -0
examples/qwen_coder/scripts/infer_coder.sh +19 -0
examples/qwen_coder/scripts/train_coder_30b.sh +22 -0
examples/qwen_coder/sft_full_17b.py +103 -0
examples/qwen_coder/sft_lora_30b.py +110 -0
examples/qwen_coder/subset_jsonl.py +39 -0
examples/qwen_coder/todos.md +38 -0
examples/qwen_coder/validate_jsonl.py +60 -0
examples/qwen_vl/BUGS_AND_FIXES.md +232 -0
examples/qwen_vl/IMAGE_VALIDATION_COMPLETE.md +271 -0
examples/qwen_vl/IMAGE_VALIDATION_SUMMARY.md +260 -0
examples/qwen_vl/INFERENCE_SFT_TESTS.md +412 -0
examples/qwen_vl/NEXT_STEPS_2B.md +325 -0
examples/qwen_vl/QUICKSTART.md +327 -0
examples/qwen_vl/QUICKSTART_RL_VISION.md +110 -0
examples/qwen_vl/README.md +152 -0
examples/qwen_vl/RL_VISION_COMPLETE.md +475 -0
examples/qwen_vl/RL_VISION_TESTING.md +333 -0
examples/qwen_vl/SDK_VISION_INTEGRATION.md +328 -0
examples/qwen_vl/SETUP_COMPLETE.md +274 -0
examples/qwen_vl/VISION_TESTS_COMPLETE.md +489 -0
examples/qwen_vl/VLM_PIPELINE_COMPLETE.md +242 -0
examples/qwen_vl/__init__.py +2 -0
examples/qwen_vl/collect_data_via_cli.md +415 -0
examples/qwen_vl/collect_vision_traces.py +368 -0
examples/qwen_vl/configs/crafter_rl_vision_qwen3vl4b.toml +110 -0
examples/qwen_vl/configs/crafter_vlm_sft_example.toml +59 -0
examples/qwen_vl/configs/eval_gpt4o_mini_vision.toml +26 -0
examples/qwen_vl/configs/eval_gpt4o_vision_proper.toml +29 -0
examples/qwen_vl/configs/eval_gpt5nano_vision.toml +26 -0
examples/qwen_vl/configs/eval_qwen3vl_vision.toml +26 -0
examples/qwen_vl/configs/filter_qwen3vl_sft.toml +49 -0
examples/qwen_vl/configs/filter_vision_sft.toml +52 -0
examples/qwen_vl/configs/filter_vision_test.toml +8 -0
examples/qwen_vl/configs/sft_qwen3_vl_2b_test.toml +54 -0
examples/qwen_vl/crafter_gpt5nano_agent.py +308 -0
examples/qwen_vl/crafter_qwen_vl_agent.py +300 -0
examples/qwen_vl/run_vision_comparison.sh +61 -0
examples/qwen_vl/run_vision_sft_pipeline.sh +175 -0
examples/qwen_vl/test_image_validation.py +201 -0
examples/qwen_vl/test_sft_vision_data.py +110 -0
examples/rl/README.md +169 -0
examples/rl/configs/eval_base_qwen.toml +17 -0
examples/rl/configs/eval_rl_qwen.toml +13 -0
examples/rl/configs/rl_from_base_qwen.toml +62 -0
examples/rl/configs/rl_from_base_qwen17.toml +80 -0
examples/rl/configs/rl_from_ft_qwen.toml +37 -0
examples/rl/download_dataset.py +80 -0
examples/rl/run_eval.py +436 -0
examples/rl/run_rl_and_save.py +111 -0
examples/rl/task_app/README.md +21 -0
examples/rl/task_app/math_single_step.py +990 -0
examples/rl/task_app/math_task_app.py +111 -0
examples/run_crafter_demo.sh +10 -0
examples/sdk_prompt_learning_example.py +55 -0
examples/sft/README.md +139 -0
examples/sft/configs/crafter_fft_qwen0p6b.toml +49 -0
examples/sft/configs/crafter_lora_qwen0p6b.toml +49 -0
examples/sft/evaluate.py +117 -0
examples/sft/export_dataset.py +120 -0
examples/sft/generate_traces.py +164 -0
examples/swe/__init__.py +12 -0
examples/swe/task_app/README.md +135 -0
examples/swe/task_app/__init__.py +2 -0
examples/swe/task_app/grpo_swe_mini.py +604 -0
examples/swe/task_app/grpo_swe_mini_task_app.py +124 -0
examples/swe/task_app/hosted/README.md +173 -0
examples/swe/task_app/hosted/__init__.py +5 -0
examples/swe/task_app/hosted/branching.py +143 -0
examples/swe/task_app/hosted/environment_routes.py +1289 -0
examples/swe/task_app/hosted/envs/__init__.py +1 -0
examples/swe/task_app/hosted/envs/crafter/__init__.py +6 -0
examples/swe/task_app/hosted/envs/crafter/app.py +1 -0
examples/swe/task_app/hosted/envs/crafter/environment.py +522 -0
examples/swe/task_app/hosted/envs/crafter/policy.py +478 -0
examples/swe/task_app/hosted/envs/crafter/react_agent.py +108 -0
examples/swe/task_app/hosted/envs/crafter/shared.py +305 -0
examples/swe/task_app/hosted/envs/crafter/tools.py +47 -0
examples/swe/task_app/hosted/envs/mini_swe/__init__.py +8 -0
examples/swe/task_app/hosted/envs/mini_swe/environment.py +1191 -0
examples/swe/task_app/hosted/envs/mini_swe/policy.py +355 -0
examples/swe/task_app/hosted/envs/mini_swe/shared.py +83 -0
examples/swe/task_app/hosted/envs/mini_swe/tools.py +96 -0
examples/swe/task_app/hosted/hosted_app.py +204 -0
examples/swe/task_app/hosted/inference/__init__.py +5 -0
examples/swe/task_app/hosted/inference/openai_client.py +584 -0
examples/swe/task_app/hosted/main.py +100 -0
examples/swe/task_app/hosted/policy_routes.py +1094 -0
examples/swe/task_app/hosted/registry.py +195 -0
examples/swe/task_app/hosted/rollout.py +1905 -0
examples/swe/task_app/hosted/storage/__init__.py +5 -0
examples/swe/task_app/hosted/storage/volume.py +211 -0
examples/swe/task_app/hosted/test_agents.py +161 -0
examples/swe/task_app/hosted/test_service.py +136 -0
examples/swe/task_app/hosted/utils.py +62 -0
examples/swe/task_app/morph_backend.py +178 -0
examples/task_apps/IMAGE_ONLY_EVAL_QUICKSTART.md +258 -0
examples/task_apps/TESTING.md +275 -0
examples/task_apps/banking77/__init__.py +6 -0
examples/task_apps/banking77/banking77_task_app.py +912 -0
examples/task_apps/banking77/deploy_wrapper.py +46 -0
examples/task_apps/banking77_pipeline/__init__.py +6 -0
examples/task_apps/banking77_pipeline/banking77_pipeline_task_app.py +489 -0
examples/task_apps/banking77_pipeline/deploy_wrapper.py +50 -0
examples/task_apps/crafter/CREATE_SFT_DATASET.md +286 -0
examples/task_apps/crafter/EVAL_IMAGE_ONLY_RESULTS.md +152 -0
examples/task_apps/crafter/FILTER_COMMAND_STATUS.md +187 -0
examples/task_apps/crafter/FILTER_COMMAND_SUCCESS.md +281 -0
examples/task_apps/crafter/QUERY_EXAMPLES.md +203 -0
examples/task_apps/crafter/README_IMAGE_ONLY_EVAL.md +316 -0
examples/task_apps/crafter/eval_image_only_gpt4o.toml +28 -0
examples/task_apps/crafter/eval_text_only_groq_llama.toml +36 -0
examples/task_apps/crafter/filter_sft_dataset.toml +16 -0
examples/task_apps/crafter/task_app/README.md +42 -0
examples/task_apps/crafter/task_app/__init__.py +5 -0
examples/task_apps/crafter/task_app/grpo_crafter.py +1055 -0
examples/task_apps/crafter/task_app/grpo_crafter_task_app.py +146 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/README.md +173 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/__init__.py +5 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/branching.py +143 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/environment_routes.py +1226 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/__init__.py +1 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/__init__.py +6 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/app.py +1 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/environment.py +532 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/policy.py +583 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/react_agent.py +122 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/shared.py +305 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/tools.py +47 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/hosted_app.py +253 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/__init__.py +5 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/openai_client.py +999 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/main.py +100 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/policy_routes.py +1252 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/registry.py +195 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/rollout.py +2233 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/storage/__init__.py +5 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/storage/volume.py +211 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/test_agents.py +161 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/test_service.py +136 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/utils.py +411 -0
examples/task_apps/dev/pokemon_emerald/__init__.py +2 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/README.md +811 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/__init__.py +120 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/action.py +160 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/memory.py +155 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/perception.py +69 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/planning.py +96 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/simple.py +1502 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/system_prompt.py +4 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/grab_map.py +68 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/manual.py +216 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/__init__.py +35 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/emerald_utils.py +631 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/emulator.py +1544 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/enums.py +1428 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/memory_reader.py +4848 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/types.py +41 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/utils.py +298 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pyproject.toml +95 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/run.py +204 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/app.py +2152 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/client.py +429 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/frame_server.py +155 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/README.md +78 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/run_tests.py +122 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_agent_direct.py +76 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_agent_prompts.py +413 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_battle_state_formatting.py +204 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_dialogue_detection.py +133 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_dialogue_detection_comprehensive.py +229 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_direct_agent_emulator.py +300 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_fps_adjustment_pytest.py +205 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_house_to_outside_direct.py +200 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_house_to_outside_transition.py +284 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_map_ground_truth_comparison.py +468 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_memory_map.py +575 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_server_map_validation.py +311 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_torchic_state.py +259 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/anticheat.py +372 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/checkpoint.py +296 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/error_handler.py +275 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/get_local_ip.py +22 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/helpers.py +44 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/llm_logger.py +514 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_formatter.py +415 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_stitcher.py +1763 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_stitcher_singleton.py +33 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_trimmer.py +106 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_visualizer.py +334 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/ocr_dialogue.py +1020 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/recording.py +188 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/state_formatter.py +1481 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/vlm.py +862 -0
examples/task_apps/dev/pokemon_emerald/modal_app.py +114 -0
examples/task_apps/dev/pokemon_emerald/task_app/README.md +81 -0
examples/task_apps/dev/pokemon_emerald/task_app/__init__.py +6 -0
examples/task_apps/dev/pokemon_emerald/task_app/pokemon_emerald.py +685 -0
examples/task_apps/enron/__init__.py +2 -0
examples/task_apps/enron/eval_groq_qwen32.toml +16 -0
examples/task_apps/enron/filter_sft.toml +5 -0
examples/task_apps/enron/task_app/README.md +14 -0
examples/task_apps/enron/task_app/__init__.py +1 -0
examples/task_apps/enron/task_app/grpo_enron.py +906 -0
examples/task_apps/enron/task_app/grpo_enron_task_app.py +146 -0
examples/task_apps/enron/tests/__init__.py +4 -0
examples/task_apps/enron/tests/conftest.py +115 -0
examples/task_apps/enron/tests/integration/__init__.py +4 -0
examples/task_apps/enron/tests/integration/test_enron_eval.py +179 -0
examples/task_apps/enron/tests/integration/test_enron_rollout.py +135 -0
examples/task_apps/enron/tests/unit/__init__.py +4 -0
examples/task_apps/enron/tests/unit/test_enron_environment.py +126 -0
examples/task_apps/gepa_benchmarks/__init__.py +7 -0
examples/task_apps/gepa_benchmarks/common.py +260 -0
examples/task_apps/gepa_benchmarks/hotpotqa_task_app.py +507 -0
examples/task_apps/gepa_benchmarks/hover_task_app.py +436 -0
examples/task_apps/gepa_benchmarks/ifbench_task_app.py +563 -0
examples/task_apps/gepa_benchmarks/pupa_task_app.py +460 -0
examples/task_apps/math/README.md +21 -0
examples/task_apps/math/math_single_step.py +1000 -0
examples/task_apps/math/math_task_app.py +115 -0
examples/task_apps/pokemon_battle/__init__.py +2 -0
examples/task_apps/pokemon_battle/modal_app.py +104 -0
examples/task_apps/pokemon_battle/task_app/README.md +68 -0
examples/task_apps/pokemon_battle/task_app/__init__.py +6 -0
examples/task_apps/pokemon_battle/task_app/pokemon_showdown.py +932 -0
examples/task_apps/pokemon_red/EVAL_IMAGE_ONLY_COMPLETE.md +283 -0
examples/task_apps/pokemon_red/EVAL_IMAGE_ONLY_STATUS.md +155 -0
examples/task_apps/pokemon_red/README.md +356 -0
examples/task_apps/pokemon_red/README_IMAGE_ONLY_EVAL.md +428 -0
examples/task_apps/pokemon_red/__init__.py +3 -0
examples/task_apps/pokemon_red/eval_image_only_gpt4o.toml +30 -0
examples/task_apps/pokemon_red/eval_pokemon_red_policy.py +224 -0
examples/task_apps/pokemon_red/pallet_town_rl_config.toml +75 -0
examples/task_apps/pokemon_red/task_app.py +1048 -0
examples/task_apps/pokemon_red/test_pallet_town_rewards.py +193 -0
examples/task_apps/sokoban/README.md +306 -0
examples/task_apps/sokoban/__init__.py +3 -0
examples/task_apps/sokoban/eval_groq_qwen32.toml +16 -0
examples/task_apps/sokoban/eval_openai_gpt5.toml +16 -0
examples/task_apps/sokoban/filter_sft.toml +5 -0
examples/task_apps/sokoban/task_app.py +1058 -0
examples/task_apps/sokoban/tests/__init__.py +4 -0
examples/task_apps/sokoban/tests/conftest.py +113 -0
examples/task_apps/sokoban/tests/integration/__init__.py +4 -0
examples/task_apps/sokoban/tests/integration/test_sokoban_eval.py +57 -0
examples/task_apps/sokoban/tests/integration/test_sokoban_rollout.py +198 -0
examples/task_apps/sokoban/tests/unit/__init__.py +4 -0
examples/task_apps/sokoban/tests/unit/test_sokoban_environment.py +114 -0
examples/task_apps/verilog/__init__.py +1 -0
examples/task_apps/verilog/eval_groq_qwen32b.toml +22 -0
examples/task_apps/verilog/filter_sft.toml +5 -0
examples/task_apps/verilog/task_app/README.md +12 -0
examples/task_apps/verilog/task_app/__init__.py +1 -0
examples/task_apps/verilog/task_app/grpo_verilog.py +1166 -0
examples/task_apps/verilog/task_app/grpo_verilog_task_app.py +145 -0
examples/task_apps/verilog/tests/__init__.py +4 -0
examples/task_apps/verilog/tests/conftest.py +115 -0
examples/task_apps/verilog/tests/integration/__init__.py +4 -0
examples/task_apps/verilog/tests/integration/test_verilog_eval.py +181 -0
examples/task_apps/verilog/tests/integration/test_verilog_rollout.py +55 -0
examples/task_apps/verilog/tests/unit/__init__.py +4 -0
examples/task_apps/verilog/tests/unit/test_verilog_scoring.py +118 -0
examples/tunnel_gepa_banking77/README.md +106 -0
examples/tunnel_gepa_banking77/banking77_gepa_tunnel.toml +95 -0
examples/tunnel_gepa_banking77/keep_tunnel_running.py +60 -0
examples/tunnel_gepa_banking77/run_gepa_with_tunnel.sh +226 -0
examples/vlm/PROPOSAL.md +53 -0
examples/vlm/README.md +68 -0
examples/vlm/configs/crafter_vlm_gpt4o.toml +49 -0
examples/vlm/crafter_image_only_agent.py +207 -0
examples/vlm/crafter_openai_vlm_agent.py +275 -0
examples/vlm/filter_image_rows.py +63 -0
examples/vlm/run_crafter_vlm_benchmark.py +316 -0
examples/warming_up_to_rl/_utils.py +92 -0
examples/warming_up_to_rl/analyze_trace_db.py +422 -0
examples/warming_up_to_rl/configs/crafter_fft.toml +53 -0
examples/warming_up_to_rl/configs/crafter_fft_4b.toml +54 -0
examples/warming_up_to_rl/configs/eval_fft_qwen4b.toml +22 -0
examples/warming_up_to_rl/configs/eval_groq_qwen32b.toml +15 -0
examples/warming_up_to_rl/configs/eval_modal_qwen4b.toml +24 -0
examples/warming_up_to_rl/configs/eval_stepwise_complex.toml +35 -0
examples/warming_up_to_rl/configs/eval_stepwise_consistent.toml +26 -0
examples/warming_up_to_rl/configs/eval_stepwise_per_achievement.toml +36 -0
examples/warming_up_to_rl/configs/eval_stepwise_simple.toml +32 -0
examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml +85 -0
examples/warming_up_to_rl/configs/rl_from_ft.toml +58 -0
examples/warming_up_to_rl/export_trace_sft.py +837 -0
examples/warming_up_to_rl/groq_test.py +97 -0
examples/warming_up_to_rl/manage_secrets.py +131 -0
examples/warming_up_to_rl/old/event_rewards.md +234 -0
examples/warming_up_to_rl/old/notes.md +73 -0
examples/warming_up_to_rl/readme.md +110 -0
examples/warming_up_to_rl/run_eval.py +736 -0
examples/warming_up_to_rl/run_fft_and_save.py +380 -0
examples/warming_up_to_rl/run_local_rollout.py +239 -0
examples/warming_up_to_rl/run_local_rollout_modal.py +248 -0
examples/warming_up_to_rl/run_local_rollout_parallel.py +405 -0
examples/warming_up_to_rl/run_local_rollout_traced.py +477 -0
examples/warming_up_to_rl/run_rl_and_save.py +124 -0
examples/warming_up_to_rl/run_rollout_remote.py +156 -0
examples/warming_up_to_rl/task_app/README.md +42 -0
examples/warming_up_to_rl/task_app/grpo_crafter.py +876 -0
examples/warming_up_to_rl/task_app/grpo_crafter_task_app.py +135 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/README.md +173 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/branching.py +143 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/environment_routes.py +1226 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/__init__.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/__init__.py +6 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/app.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/environment.py +522 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/policy.py +454 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/react_agent.py +108 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/shared.py +305 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/tools.py +47 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/hosted_app.py +253 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/openai_client.py +729 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/main.py +100 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/policy_routes.py +1114 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/registry.py +195 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/rollout.py +1891 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/volume.py +211 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_agents.py +161 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_service.py +137 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/utils.py +129 -0
examples/workflows/math_rl/configs/eval_base_qwen.toml +15 -0
examples/workflows/math_rl/configs/eval_rl_qwen.toml +11 -0
examples/workflows/math_rl/configs/rl_from_base_qwen.toml +62 -0
examples/workflows/math_rl/configs/rl_from_base_qwen17.toml +80 -0
examples/workflows/math_rl/configs/rl_from_ft_qwen.toml +35 -0
examples/workflows/math_rl/download_dataset.py +80 -0
examples/workflows/math_rl/run_eval.py +436 -0
examples/workflows/math_rl/run_rl_and_save.py +111 -0
synth_ai/__init__.py +47 -23
synth_ai/_utils/__init__.py +47 -0
synth_ai/_utils/base_url.py +10 -0
synth_ai/_utils/http.py +10 -0
synth_ai/_utils/prompts.py +10 -0
synth_ai/_utils/task_app_state.py +12 -0
synth_ai/_utils/user_config.py +10 -0
synth_ai/api/models/supported.py +514 -0
synth_ai/api/train/__init__.py +63 -0
synth_ai/api/train/builders.py +473 -0
synth_ai/api/train/cli.py +1185 -0
synth_ai/api/train/config_finder.py +246 -0
synth_ai/api/train/configs/__init__.py +65 -0
synth_ai/api/train/configs/prompt_learning.py +496 -0
synth_ai/api/train/configs/rl.py +188 -0
synth_ai/api/train/configs/sft.py +99 -0
synth_ai/api/train/configs/shared.py +81 -0
synth_ai/api/train/env_resolver.py +352 -0
synth_ai/api/train/pollers.py +91 -0
synth_ai/api/train/prompt_learning.py +425 -0
synth_ai/api/train/sft.py +390 -0
synth_ai/api/train/supported_algos.py +147 -0
synth_ai/api/train/task_app.py +195 -0
synth_ai/api/train/utils.py +244 -0
synth_ai/api/train/validators.py +1117 -0
synth_ai/api/tunnel.py +49 -0
synth_ai/auth/credentials.py +94 -0
synth_ai/baseline/__init__.py +25 -0
synth_ai/baseline/config.py +209 -0
synth_ai/baseline/discovery.py +214 -0
synth_ai/baseline/execution.py +146 -0
synth_ai/cfgs.py +227 -0
synth_ai/cli/__init__.py +90 -45
synth_ai/cli/_modal_wrapper.py +31 -0
synth_ai/cli/_storage.py +20 -0
synth_ai/cli/_typer_patch.py +47 -0
synth_ai/cli/_validate_task_app.py +29 -0
synth_ai/cli/balance.py +16 -4
synth_ai/cli/calc.py +36 -21
synth_ai/cli/claude.py +70 -0
synth_ai/cli/codex.py +267 -0
synth_ai/cli/commands/__init__.py +18 -0
synth_ai/cli/commands/baseline/__init__.py +12 -0
synth_ai/cli/commands/baseline/core.py +637 -0
synth_ai/cli/commands/baseline/list.py +93 -0
synth_ai/cli/commands/demo/__init__.py +6 -0
synth_ai/cli/commands/demo/core.py +163 -0
synth_ai/cli/commands/eval/__init__.py +19 -0
synth_ai/cli/commands/eval/core.py +1112 -0
synth_ai/cli/commands/eval/errors.py +81 -0
synth_ai/cli/commands/eval/validation.py +133 -0
synth_ai/cli/commands/filter/__init__.py +12 -0
synth_ai/cli/commands/filter/core.py +424 -0
synth_ai/cli/commands/filter/errors.py +55 -0
synth_ai/cli/commands/filter/validation.py +77 -0
synth_ai/cli/commands/help/__init__.py +185 -0
synth_ai/cli/commands/help/core.py +72 -0
synth_ai/cli/commands/smoke/__init__.py +7 -0
synth_ai/cli/commands/smoke/core.py +1437 -0
synth_ai/cli/commands/status/__init__.py +66 -0
synth_ai/cli/commands/status/client.py +192 -0
synth_ai/cli/commands/status/config.py +92 -0
synth_ai/cli/commands/status/errors.py +20 -0
synth_ai/cli/commands/status/formatters.py +164 -0
synth_ai/cli/commands/status/subcommands/__init__.py +9 -0
synth_ai/cli/commands/status/subcommands/files.py +79 -0
synth_ai/cli/commands/status/subcommands/jobs.py +334 -0
synth_ai/cli/commands/status/subcommands/models.py +79 -0
synth_ai/cli/commands/status/subcommands/pricing.py +22 -0
synth_ai/cli/commands/status/subcommands/runs.py +81 -0
synth_ai/cli/commands/status/subcommands/session.py +183 -0
synth_ai/cli/commands/status/subcommands/summary.py +47 -0
synth_ai/cli/commands/status/subcommands/usage.py +203 -0
synth_ai/cli/commands/status/utils.py +114 -0
synth_ai/cli/commands/train/__init__.py +53 -0
synth_ai/cli/commands/train/core.py +21 -0
synth_ai/cli/commands/train/errors.py +117 -0
synth_ai/cli/commands/train/judge_schemas.py +200 -0
synth_ai/cli/commands/train/judge_validation.py +305 -0
synth_ai/cli/commands/train/validation.py +386 -0
synth_ai/cli/demo.py +32 -140
synth_ai/cli/deploy.py +233 -0
synth_ai/cli/eval/__init__.py +36 -0
synth_ai/cli/eval/core.py +5 -0
synth_ai/cli/eval/errors.py +31 -0
synth_ai/cli/eval/validation.py +5 -0
synth_ai/cli/filter/__init__.py +28 -0
synth_ai/cli/filter/core.py +5 -0
synth_ai/cli/filter/errors.py +23 -0
synth_ai/cli/filter/validation.py +5 -0
synth_ai/cli/legacy_root_backup.py +28 -22
synth_ai/cli/lib/__init__.py +10 -0
synth_ai/cli/lib/task_app_discovery.py +7 -0
synth_ai/cli/lib/task_app_env.py +518 -0
synth_ai/cli/mcp.py +34 -0
synth_ai/cli/modal_serve/__init__.py +12 -0
synth_ai/cli/modal_serve/core.py +14 -0
synth_ai/cli/modal_serve/errors.py +8 -0
synth_ai/cli/modal_serve/validation.py +11 -0
synth_ai/cli/opencode.py +256 -0
synth_ai/cli/recent.py +13 -7
synth_ai/cli/rl_demo.py +166 -114
synth_ai/cli/root.py +143 -112
synth_ai/cli/serve/__init__.py +12 -0
synth_ai/cli/serve/core.py +14 -0
synth_ai/cli/serve/errors.py +8 -0
synth_ai/cli/serve/validation.py +11 -0
synth_ai/cli/setup.py +49 -0
synth_ai/cli/status.py +7 -125
synth_ai/cli/task_app_deploy.py +7 -0
synth_ai/cli/task_app_list.py +25 -0
synth_ai/cli/task_app_modal_serve.py +11 -0
synth_ai/cli/task_app_serve.py +11 -0
synth_ai/cli/task_apps.py +3134 -0
synth_ai/cli/traces.py +9 -5
synth_ai/cli/train/__init__.py +12 -0
synth_ai/cli/train/core.py +21 -0
synth_ai/cli/train/errors.py +8 -0
synth_ai/cli/train/validation.py +24 -0
synth_ai/cli/train.py +5 -0
synth_ai/cli/turso.py +73 -0
synth_ai/cli/watch.py +13 -18
synth_ai/demos/__init__.py +10 -0
synth_ai/demos/core/__init__.py +28 -1
synth_ai/demos/core/cli.py +745 -416
synth_ai/demos/crafter/__init__.py +1 -0
synth_ai/demos/crafter/crafter_fft_4b.toml +55 -0
synth_ai/demos/crafter/grpo_crafter_task_app.py +185 -0
synth_ai/demos/crafter/rl_from_base_qwen4b.toml +74 -0
synth_ai/demos/demo_registry.py +176 -0
synth_ai/demos/demo_task_apps/__init__.py +7 -1
synth_ai/demos/demo_task_apps/core.py +75 -37
synth_ai/demos/demo_task_apps/crafter/__init__.py +1 -0
synth_ai/demos/demo_task_apps/crafter/configs/crafter_fft_4b.toml +53 -0
synth_ai/demos/demo_task_apps/crafter/configs/rl_from_base_qwen4b.toml +73 -0
synth_ai/demos/demo_task_apps/crafter/grpo_crafter_task_app.py +184 -0
synth_ai/demos/demo_task_apps/math/_common.py +1 -2
synth_ai/demos/demo_task_apps/math/app.py +2 -1
synth_ai/demos/demo_task_apps/math/config.toml +55 -110
synth_ai/demos/demo_task_apps/math/deploy_modal.py +3 -6
synth_ai/demos/demo_task_apps/math/modal_task_app.py +491 -166
synth_ai/demos/demo_task_apps/math/task_app_entry.py +37 -0
synth_ai/demos/math/__init__.py +1 -0
synth_ai/demos/math/_common.py +16 -0
synth_ai/demos/math/app.py +38 -0
synth_ai/demos/math/config.toml +76 -0
synth_ai/demos/math/deploy_modal.py +54 -0
synth_ai/demos/math/modal_task_app.py +703 -0
synth_ai/demos/math/task_app_entry.py +51 -0
synth_ai/environments/environment/core.py +7 -1
synth_ai/environments/examples/bandit/engine.py +12 -5
synth_ai/environments/examples/bandit/environment.py +0 -1
synth_ai/environments/examples/bandit/taskset.py +4 -4
synth_ai/environments/examples/crafter_classic/engine_deterministic_patch.py +7 -4
synth_ai/environments/examples/crafter_classic/engine_serialization_patch_v3.py +9 -5
synth_ai/environments/examples/crafter_classic/environment.py +93 -2
synth_ai/environments/examples/crafter_classic/world_config_patch_simple.py +4 -3
synth_ai/environments/examples/enron/engine.py +7 -2
synth_ai/environments/examples/enron/environment.py +68 -0
synth_ai/environments/examples/red/engine.py +60 -12
synth_ai/environments/examples/red/engine_helpers/memory_map.py +7 -0
synth_ai/environments/examples/red/engine_helpers/reward_components.py +151 -179
synth_ai/environments/examples/red/engine_helpers/reward_library/pallet_town_progression.py +477 -0
synth_ai/environments/examples/red/engine_helpers/state_extraction.py +32 -0
synth_ai/environments/examples/red/environment.py +86 -0
synth_ai/environments/examples/red/trace_hooks_v3.py +168 -0
synth_ai/environments/examples/sokoban/taskset.py +116 -0
synth_ai/environments/examples/verilog/engine.py +104 -12
synth_ai/environments/examples/wordle/environment.py +0 -1
synth_ai/environments/reproducibility/tree.py +5 -6
synth_ai/environments/service/app.py +11 -12
synth_ai/environments/service/core_routes.py +10 -9
synth_ai/environments/stateful/engine.py +1 -1
synth_ai/environments/tasks/core.py +1 -0
synth_ai/environments/tasks/filters.py +5 -6
synth_ai/environments/tasks/utils.py +4 -5
synth_ai/evals/__init__.py +15 -0
synth_ai/evals/base.py +14 -5
synth_ai/evals/client.py +82 -0
synth_ai/evals/types.py +42 -0
synth_ai/http.py +8 -22
synth_ai/http_client.py +45 -12
synth_ai/inference/__init__.py +0 -2
synth_ai/inference/client.py +21 -7
synth_ai/jobs/client.py +129 -80
synth_ai/judge_schemas.py +127 -0
synth_ai/learning/__init__.py +51 -6
synth_ai/learning/algorithms.py +14 -0
synth_ai/learning/client.py +122 -30
synth_ai/learning/config.py +2 -40
synth_ai/learning/constants.py +0 -2
synth_ai/learning/ft_client.py +4 -56
synth_ai/learning/health.py +14 -8
synth_ai/learning/jobs.py +43 -47
synth_ai/learning/prompt_learning_client.py +276 -0
synth_ai/learning/prompt_learning_types.py +185 -0
synth_ai/{rl → learning/rl}/__init__.py +14 -5
synth_ai/learning/rl/client.py +269 -0
synth_ai/learning/rl/config.py +31 -0
synth_ai/{rl → learning/rl}/contracts.py +5 -10
synth_ai/{rl → learning/rl}/env_keys.py +45 -16
synth_ai/learning/rl/secrets.py +13 -0
synth_ai/learning/rl_client.py +2 -253
synth_ai/learning/sft/__init__.py +29 -0
synth_ai/learning/sft/client.py +68 -0
synth_ai/learning/sft/config.py +270 -0
synth_ai/learning/sft/data.py +698 -0
synth_ai/learning/sse.py +25 -26
synth_ai/learning/validators.py +29 -25
synth_ai/mcp/__init__.py +5 -0
synth_ai/mcp/__main__.py +8 -0
synth_ai/mcp/main.py +254 -0
synth_ai/mcp/setup.py +100 -0
synth_ai/modal.py +257 -0
synth_ai/pricing/__init__.py +3 -0
synth_ai/pricing/model_pricing.py +64 -0
synth_ai/session/__init__.py +75 -0
synth_ai/session/client.py +383 -0
synth_ai/session/constants.py +63 -0
synth_ai/session/exceptions.py +105 -0
synth_ai/session/manager.py +139 -0
synth_ai/session/models.py +89 -0
synth_ai/session/query.py +110 -0
synth_ai/spec/__init__.py +46 -0
synth_ai/spec/dataclasses.py +149 -0
synth_ai/spec/loader.py +144 -0
synth_ai/spec/serializer.py +199 -0
synth_ai/spec/validation.py +250 -0
synth_ai/streaming/__init__.py +29 -0
synth_ai/streaming/config.py +94 -0
synth_ai/streaming/handlers.py +589 -0
synth_ai/streaming/streamer.py +320 -0
synth_ai/streaming/types.py +95 -0
synth_ai/task/__init__.py +116 -3
synth_ai/task/apps/__init__.py +132 -0
synth_ai/task/auth.py +165 -0
synth_ai/task/client.py +167 -0
synth_ai/task/config.py +261 -0
synth_ai/task/contracts.py +173 -57
synth_ai/task/datasets.py +108 -0
synth_ai/task/errors.py +50 -0
synth_ai/task/health.py +17 -11
synth_ai/task/inference_api.py +101 -0
synth_ai/task/json.py +111 -0
synth_ai/task/proxy.py +251 -0
synth_ai/task/rubrics/__init__.py +55 -0
synth_ai/task/rubrics/loaders.py +156 -0
synth_ai/task/rubrics/models.py +57 -0
synth_ai/task/rubrics/scoring.py +116 -0
synth_ai/task/rubrics/strict.py +149 -0
synth_ai/task/rubrics.py +219 -0
synth_ai/task/server.py +432 -0
synth_ai/task/trace_correlation_helpers.py +328 -0
synth_ai/task/tracing_utils.py +95 -0
synth_ai/task/validators.py +449 -6
synth_ai/task/vendors.py +59 -0
synth_ai/tracing_v3/__init__.py +4 -0
synth_ai/tracing_v3/abstractions.py +21 -4
synth_ai/tracing_v3/config.py +167 -22
synth_ai/tracing_v3/constants.py +21 -0
synth_ai/tracing_v3/db_config.py +42 -29
synth_ai/tracing_v3/decorators.py +80 -45
synth_ai/tracing_v3/examples/basic_usage.py +15 -9
synth_ai/tracing_v3/hooks.py +6 -4
synth_ai/tracing_v3/llm_call_record_helpers.py +161 -61
synth_ai/tracing_v3/migration_helper.py +1 -2
synth_ai/tracing_v3/replica_sync.py +12 -7
synth_ai/tracing_v3/serialization.py +130 -0
synth_ai/tracing_v3/session_tracer.py +86 -21
synth_ai/tracing_v3/storage/base.py +98 -12
synth_ai/tracing_v3/storage/config.py +63 -16
synth_ai/tracing_v3/storage/factory.py +11 -9
synth_ai/tracing_v3/storage/utils.py +15 -11
synth_ai/tracing_v3/trace_utils.py +317 -0
synth_ai/tracing_v3/turso/__init__.py +8 -21
synth_ai/tracing_v3/turso/daemon.py +123 -15
synth_ai/tracing_v3/turso/models.py +5 -2
synth_ai/tracing_v3/turso/native_manager.py +1293 -0
synth_ai/tracing_v3/utils.py +5 -4
synth_ai/tunnel.py +143 -0
synth_ai/tunnel_deploy.py +278 -0
synth_ai/types.py +8 -0
synth_ai/urls.py +11 -0
synth_ai/utils/__init__.py +166 -0
synth_ai/utils/agents.py +74 -0
synth_ai/utils/apps.py +152 -0
synth_ai/utils/base_url.py +94 -0
synth_ai/utils/bin.py +39 -0
synth_ai/utils/claude.py +36 -0
synth_ai/utils/cli.py +284 -0
synth_ai/utils/config.py +81 -0
synth_ai/utils/env.py +346 -0
synth_ai/utils/errors.py +85 -0
synth_ai/utils/http.py +172 -0
synth_ai/utils/json.py +72 -0
synth_ai/utils/log_filter.py +99 -0
synth_ai/utils/logging.py +198 -0
synth_ai/utils/modal.py +299 -0
synth_ai/utils/paths.py +95 -0
synth_ai/utils/process.py +233 -0
synth_ai/utils/prompts.py +39 -0
synth_ai/utils/sqld.py +122 -0
synth_ai/utils/ssl.py +25 -0
synth_ai/utils/task_app_discovery.py +882 -0
synth_ai/utils/task_app_env.py +186 -0
synth_ai/utils/task_app_state.py +318 -0
synth_ai/utils/tunnel/__init__.py +12 -0
synth_ai/utils/tunnel/config.py +55 -0
synth_ai/utils/user_config.py +137 -0
synth_ai/uvicorn.py +77 -0
synth_ai-0.2.23.dev3.dist-info/METADATA +357 -0
synth_ai-0.2.23.dev3.dist-info/RECORD +983 -0
{synth_ai-0.2.8.dev4.dist-info → synth_ai-0.2.23.dev3.dist-info}/entry_points.txt +0 -1
{synth_ai-0.2.8.dev4.dist-info → synth_ai-0.2.23.dev3.dist-info}/top_level.txt +1 -0
synth_ai/cli/man.py +0 -106
synth_ai/core/experiment.py +0 -15
synth_ai/core/system.py +0 -15
synth_ai/environments/examples/sokoban/units/astar_common.py +0 -95
synth_ai/experimental/synth_oss.py +0 -446
synth_ai/handshake.py +0 -63
synth_ai/install_sqld.sh +0 -40
synth_ai/learning/offline/dpo.py +0 -0
synth_ai/learning/offline/providers.py +0 -7
synth_ai/learning/offline/sft.py +0 -0
synth_ai/learning/offline/shared.py +0 -0
synth_ai/learning/online/grpo.py +0 -0
synth_ai/learning/online/irft.py +0 -0
synth_ai/learning/prompts/banking77_injection_eval.py +0 -168
synth_ai/learning/prompts/gepa.py +0 -0
synth_ai/learning/prompts/hello_world_in_context_injection_ex.py +0 -213
synth_ai/learning/prompts/mipro.py +0 -289
synth_ai/learning/prompts/random_search.py +0 -246
synth_ai/learning/prompts/run_mipro_banking77.py +0 -172
synth_ai/learning/prompts/run_random_search_banking77.py +0 -324
synth_ai/lm/__init__.py +0 -51
synth_ai/lm/caching/constants.py +0 -6
synth_ai/lm/caching/dbs.py +0 -0
synth_ai/lm/caching/ephemeral.py +0 -102
synth_ai/lm/caching/handler.py +0 -137
synth_ai/lm/caching/initialize.py +0 -11
synth_ai/lm/caching/persistent.py +0 -114
synth_ai/lm/config.py +0 -110
synth_ai/lm/constants.py +0 -32
synth_ai/lm/core/__init__.py +0 -8
synth_ai/lm/core/all.py +0 -73
synth_ai/lm/core/exceptions.py +0 -7
synth_ai/lm/core/main.py +0 -319
synth_ai/lm/core/main_v3.py +0 -594
synth_ai/lm/core/synth_models.py +0 -48
synth_ai/lm/core/vendor_clients.py +0 -188
synth_ai/lm/cost/monitor.py +0 -1
synth_ai/lm/cost/statefulness.py +0 -1
synth_ai/lm/injection.py +0 -80
synth_ai/lm/overrides.py +0 -206
synth_ai/lm/provider_support/__init__.py +0 -8
synth_ai/lm/provider_support/anthropic.py +0 -972
synth_ai/lm/provider_support/openai.py +0 -1139
synth_ai/lm/provider_support/suppress_logging.py +0 -31
synth_ai/lm/structured_outputs/handler.py +0 -440
synth_ai/lm/structured_outputs/inject.py +0 -297
synth_ai/lm/structured_outputs/rehabilitate.py +0 -185
synth_ai/lm/tools/__init__.py +0 -3
synth_ai/lm/tools/base.py +0 -172
synth_ai/lm/unified_interface.py +0 -202
synth_ai/lm/vendors/base.py +0 -81
synth_ai/lm/vendors/core/anthropic_api.py +0 -387
synth_ai/lm/vendors/core/gemini_api.py +0 -292
synth_ai/lm/vendors/core/mistral_api.py +0 -322
synth_ai/lm/vendors/core/openai_api.py +0 -225
synth_ai/lm/vendors/core/synth_dev_api.py +0 -0
synth_ai/lm/vendors/local/ollama.py +0 -0
synth_ai/lm/vendors/openai_standard.py +0 -780
synth_ai/lm/vendors/openai_standard_responses.py +0 -256
synth_ai/lm/vendors/retries.py +0 -22
synth_ai/lm/vendors/supported/custom_endpoint.py +0 -417
synth_ai/lm/vendors/supported/deepseek.py +0 -69
synth_ai/lm/vendors/supported/grok.py +0 -75
synth_ai/lm/vendors/supported/groq.py +0 -16
synth_ai/lm/vendors/supported/ollama.py +0 -15
synth_ai/lm/vendors/supported/openrouter.py +0 -74
synth_ai/lm/vendors/supported/together.py +0 -11
synth_ai/lm/vendors/synth_client.py +0 -808
synth_ai/lm/warmup.py +0 -186
synth_ai/rl/secrets.py +0 -19
synth_ai/scripts/verify_rewards.py +0 -100
synth_ai/tracing/__init__.py +0 -30
synth_ai/tracing_v1/__init__.py +0 -33
synth_ai/tracing_v3/turso/manager.py +0 -760
synth_ai/v0/tracing/abstractions.py +0 -224
synth_ai/v0/tracing/base_client.py +0 -91
synth_ai/v0/tracing/client_manager.py +0 -131
synth_ai/v0/tracing/config.py +0 -142
synth_ai/v0/tracing/context.py +0 -146
synth_ai/v0/tracing/decorators.py +0 -682
synth_ai/v0/tracing/events/__init__.py +0 -0
synth_ai/v0/tracing/events/manage.py +0 -147
synth_ai/v0/tracing/events/scope.py +0 -86
synth_ai/v0/tracing/events/store.py +0 -228
synth_ai/v0/tracing/immediate_client.py +0 -151
synth_ai/v0/tracing/local.py +0 -18
synth_ai/v0/tracing/log_client_base.py +0 -73
synth_ai/v0/tracing/retry_queue.py +0 -186
synth_ai/v0/tracing/trackers.py +0 -515
synth_ai/v0/tracing/upload.py +0 -512
synth_ai/v0/tracing/utils.py +0 -9
synth_ai/v0/tracing_v1/__init__.py +0 -16
synth_ai/v0/tracing_v1/abstractions.py +0 -224
synth_ai/v0/tracing_v1/base_client.py +0 -91
synth_ai/v0/tracing_v1/client_manager.py +0 -131
synth_ai/v0/tracing_v1/config.py +0 -142
synth_ai/v0/tracing_v1/context.py +0 -146
synth_ai/v0/tracing_v1/decorators.py +0 -703
synth_ai/v0/tracing_v1/events/__init__.py +0 -0
synth_ai/v0/tracing_v1/events/manage.py +0 -147
synth_ai/v0/tracing_v1/events/scope.py +0 -86
synth_ai/v0/tracing_v1/events/store.py +0 -228
synth_ai/v0/tracing_v1/immediate_client.py +0 -151
synth_ai/v0/tracing_v1/local.py +0 -18
synth_ai/v0/tracing_v1/log_client_base.py +0 -73
synth_ai/v0/tracing_v1/retry_queue.py +0 -186
synth_ai/v0/tracing_v1/trackers.py +0 -515
synth_ai/v0/tracing_v1/upload.py +0 -527
synth_ai/v0/tracing_v1/utils.py +0 -9
synth_ai/zyk/__init__.py +0 -30
synth_ai-0.2.8.dev4.dist-info/METADATA +0 -129
synth_ai-0.2.8.dev4.dist-info/RECORD +0 -420
{synth_ai/lm/caching → examples/task_apps}/__init__.py +0 -0
{synth_ai/lm/cost → examples/task_apps/crafter}/__init__.py +0 -0
{synth_ai/lm/structured_outputs → examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server}/__init__.py +0 -0
{synth_ai/lm/vendors → examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests}/__init__.py +0 -0
{synth_ai/lm/vendors/core → examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils}/__init__.py +0 -0
{synth_ai/lm/vendors/local → examples/task_apps/math}/__init__.py +0 -0
{synth_ai/lm/vendors/supported → examples/workflows}/__init__.py +0 -0
{synth_ai/v0/tracing → examples/workflows/math_rl}/__init__.py +0 -0
/synth_ai/{compound/cais.py → cli/__main__.py} +0 -0
/synth_ai/{learning/filtering.py → py.typed} +0 -0
{synth_ai-0.2.8.dev4.dist-info → synth_ai-0.2.23.dev3.dist-info}/WHEEL +0 -0
{synth_ai-0.2.8.dev4.dist-info → synth_ai-0.2.23.dev3.dist-info}/licenses/LICENSE +0 -0

examples/rl/task_app/math_task_app.py ADDED Viewed

@@ -0,0 +1,111 @@
+"""Legacy entrypoint for the math single-step task app."""
+from __future__ import annotations
+import argparse
+from pathlib import Path
+from fastapi.exceptions import RequestValidationError
+from fastapi.responses import JSONResponse
+from starlette.requests import Request
+from synth_ai.task.auth import is_api_key_header_authorized, normalize_environment_api_key
+from synth_ai.task.server import create_task_app, run_task_app
+from .math_single_step import build_config
+def fastapi_app():
+    """Return a FastAPI application for hosting the math task app."""
+    app = create_task_app(build_config())
+    # Replace default health endpoints with auth-tolerant handlers.
+    filtered_routes = []
+    for route in app.router.routes:
+        path = getattr(route, "path", None)
+        methods = getattr(route, "methods", set()) or set()
+        if path in {"/health", "/health/rollout"} and "GET" in methods:
+            continue
+        filtered_routes.append(route)
+    app.router.routes = filtered_routes
+    def _log_env_key_prefix(source: str, env_key: str | None) -> str | None:
+        if not env_key:
+            return None
+        prefix = env_key[: max(1, len(env_key) // 2)]
+        print(f"[{source}] expected ENVIRONMENT_API_KEY prefix: {prefix}")
+        return prefix
+    @app.get("/health")
+    async def health(request: Request):
+        env_key = normalize_environment_api_key()
+        if not env_key:
+            return JSONResponse(
+                status_code=503,
+                content={"status": "unhealthy", "detail": "Missing ENVIRONMENT_API_KEY"},
+            )
+        if not is_api_key_header_authorized(request):
+            prefix = _log_env_key_prefix("health", env_key)
+            content = {"status": "healthy", "authorized": False}
+            if prefix:
+                content["expected_api_key_prefix"] = prefix
+            return JSONResponse(status_code=200, content=content)
+        return {"status": "healthy", "authorized": True}
+    @app.get("/health/rollout")
+    async def health_rollout(request: Request):
+        env_key = normalize_environment_api_key()
+        if not env_key:
+            return JSONResponse(
+                status_code=503,
+                content={"status": "unhealthy", "detail": "Missing ENVIRONMENT_API_KEY"},
+            )
+        if not is_api_key_header_authorized(request):
+            prefix = _log_env_key_prefix("health/rollout", env_key)
+            content = {"status": "healthy", "authorized": False}
+            if prefix:
+                content["expected_api_key_prefix"] = prefix
+            return JSONResponse(status_code=200, content=content)
+        return {"ok": True, "authorized": True}
+    @app.exception_handler(RequestValidationError)
+    async def _on_validation_error(request: Request, exc: RequestValidationError):
+        try:
+            hdr = request.headers
+            snapshot = {
+                "path": str(request.url.path),
+                "have_x_api_key": bool(hdr.get("x-api-key")),
+                "have_x_api_keys": bool(hdr.get("x-api-keys")),
+                "have_authorization": bool(hdr.get("authorization")),
+                "errors": exc.errors()[:5],
+            }
+            print("[422] validation", snapshot, flush=True)
+        except Exception:
+            pass
+        return JSONResponse(
+            status_code=422, content={"status": "invalid", "detail": exc.errors()[:5]}
+        )
+    return app
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Run the math single-step task app locally")
+    parser.add_argument("--host", default="0.0.0.0")
+    parser.add_argument("--port", type=int, default=8101)
+    parser.add_argument("--reload", action="store_true", help="Enable uvicorn autoreload")
+    parser.add_argument(
+        "--env-file",
+        action="append",
+        default=[],
+        help="Path to .env file to load (can be specified multiple times)",
+    )
+    args = parser.parse_args()
+    run_task_app(
+        build_config,
+        host=args.host,
+        port=args.port,
+        reload=args.reload,
+        env_files=args.env_file or [],
+    )

examples/run_crafter_demo.sh ADDED Viewed

@@ -0,0 +1,10 @@
+#!/bin/bash
+# Run a Crafter agent demo with Gemini
+# This script demonstrates a reactive agent in the Crafter environment
+echo "🚀 Starting Crafter agent demo with Gemini 1.5 Flash..."
+echo "Make sure the synth-ai service is running: uvx synth-ai deploy --runtime uvicorn"
+echo ""
+uv run python -m synth_ai.environments.examples.crafter_classic.agent_demos.test_crafter_react_agent --model gemini-1.5-flash

examples/sdk_prompt_learning_example.py ADDED Viewed

@@ -0,0 +1,55 @@
+"""Example: Running prompt learning jobs programmatically.
+This example shows how to use the SDK to run MIPRO or GEPA optimization
+in a Python script instead of via CLI.
+"""
+import os
+from synth_ai.api.train.prompt_learning import PromptLearningJob
+def main() -> None:
+    """Run a prompt learning job programmatically."""
+    # Initialize job from config
+    job = PromptLearningJob.from_config(
+        config_path="examples/blog_posts/gepa/configs/banking77_gepa_local.toml",
+        backend_url=os.environ.get("BACKEND_BASE_URL", "https://api.usesynth.ai"),
+        api_key=os.environ["SYNTH_API_KEY"],
+    )
+    # Submit job
+    print("Submitting job...")
+    job_id = job.submit()
+    print(f"Job submitted: {job_id}")
+    # Poll until complete with status callback
+    def on_status(status: dict) -> None:
+        print(f"Status: {status.get('status', 'unknown')}")
+        if 'best_score' in status:
+            print(f"Best score so far: {status['best_score']}")
+    print("Polling until complete...")
+    final_status = job.poll_until_complete(
+        timeout=3600.0,
+        interval=5.0,
+        on_status=on_status,
+    )
+    print(f"\nJob completed with status: {final_status.get('status')}")
+    # Get results
+    print("\nFetching results...")
+    results = job.get_results()
+    print(f"Best score: {results.get('best_score')}")
+    print(f"Top prompts: {len(results.get('top_prompts', []))}")
+    # Get best prompt text
+    best_prompt = job.get_best_prompt_text(rank=1)
+    if best_prompt:
+        print(f"\nBest prompt:\n{best_prompt}")
+if __name__ == "__main__":
+    main()

examples/sft/README.md ADDED Viewed

@@ -0,0 +1,139 @@
+### Supervised Fine-Tuning for Crafter
+This folder provides a minimal, reusable SFT workflow that pulls out the SFT step from `examples/warming_up_to_rl/` and focuses it on LoRA/QLoRA. We've also added guidance for running full finetuning (FFT) so you can compare adapters against end-to-end weight updates.
+It supports distilling Groq (or other vendor) rollouts into JSONL using tracing and then training a small base model like `Qwen/Qwen3-0.6B`.
+---
+### 0) Load environment from .env.dev (recommended)
+Use your dev env file so keys/URLs are sourced consistently:
+```bash
+# Example path; update to your actual dev env
+set -a && source /Users/joshpurtell/Documents/GitHub/monorepo/backend/.env.dev && set +a
+```
+This ensures `ENVIRONMENT_API_KEY`, `GROQ_API_KEY`, and (optionally) `BACKEND_BASE_URL` are available to the steps below.
+---
+### 1) Collect traces and export SFT JSONL
+You can generate traces with the Crafter task app and then export them to SFT JSONL using the existing exporter:
+```bash
+# Serve the task app locally with tracing enabled (example)
+uvx synth-ai deploy --runtime uvicorn grpo-crafter \
+  --trace traces/v3 \
+  --trace-db traces/v3/task_app_traces_<timestamp>.db \
+  --port 8001
+# Or run traced local rollouts to accumulate data
+uv run python examples/warming_up_to_rl/run_local_rollout_traced.py \
+  --episodes 50 --max-turns 10
+# Export SFT dataset from the trace DB
+uv run python examples/warming_up_to_rl/export_trace_sft.py \
+  --db traces/v3/task_app_traces_<timestamp>.db \
+  --min-unique 0 \
+  --output examples/sft/ft_data/crafter_sft.jsonl
+```
+Notes:
+- The exporter uses achievements and event rewards to filter high-signal steps. Combine `--min-unique`, `--min-outcome-reward`, `--event-reward`, and `--require-achievement` to control data quality.
+- You can restrict to sessions from certain providers/models with `--provider`/`--model`.
+- Use `--limit` while debugging to reduce dataset size quickly.
+---
+### 2a) Train LoRA (QLoRA) on Qwen/Qwen3-0.6B
+Use the standard CLI. Do not use a custom Python finetuning script. Point the CLI at your `.env.dev` so it picks up keys automatically:
+```bash
+uvx synth-ai train \
+  --type sft \
+  --config examples/sft/configs/crafter_lora_qwen0p6b.toml \
+  --dataset examples/sft/ft_data/crafter_sft.jsonl \
+  --env-file /Users/joshpurtell/Documents/GitHub/monorepo/backend/.env.dev
+```
+The config sets `training.use_qlora = true` and `hyperparameters.train_kind = "peft"` to request LoRA adapters.
+Experiment tips:
+- The backend currently defaults to a LoRA rank of 16. If you need other ranks, generate the payload with `--dry-run`, add `"lora_rank": <value>` (and optional `"lora_alpha"`, `"lora_dropout"`) under `hyperparameters`, and submit it via the API until the CLI exposes these knobs directly.
+- Duplicate the TOML and adjust `hyperparameters.warmup_ratio`, `learning_rate`, or `gradient_accumulation_steps` to keep the global batch size comparable across datasets.
+---
+### 2b) Train Full Finetune (FFT) on Qwen/Qwen3-0.6B
+Full finetuning updates all weights and uses a near-identical CLI flow with the LoRA toggle disabled. The helper config lives alongside the LoRA sample:
+```bash
+uvx synth-ai train \
+  --type sft \
+  --config examples/sft/configs/crafter_fft_qwen0p6b.toml \
+  --dataset examples/sft/ft_data/crafter_sft.jsonl \
+  --env-file /Users/joshpurtell/Documents/GitHub/monorepo/backend/.env.dev
+```
+Key differences vs LoRA:
+- `training.use_qlora = false` and `hyperparameters.train_kind = "fft"` request a full-weight update.
+- `per_device_batch` defaults to 1 to keep memory use comfortable on a single H100; raise gradually as you confirm headroom.
+- FFT runs slower per step. Consider trimming the dataset with `--examples` or the exporter filters for quick baselines.
+If you want the 4B Crafter FFT baseline from the RL examples, reuse `examples/warming_up_to_rl/configs/crafter_fft_4b.toml` with the same CLI command.
+---
+### 3) Evaluate the fine-tuned models
+After the job completes, list your fine-tuned models and evaluate them in the Crafter loop:
+```bash
+# List models
+uv run python - <<'PY'
+import asyncio
+import os
+from synth_ai.learning.client import LearningClient
+backend = os.getenv("BACKEND_BASE_URL", "https://agent-learning.onrender.com/api")
+api_key = os.getenv("SYNTH_API_KEY", "")
+async def main():
+    client = LearningClient(backend, api_key)
+    models = await client.list_fine_tuned_models()
+    for m in models:
+        print(m)
+asyncio.run(main())
+PY
+# Evaluate in the Crafter eval loop (example via warming_up_to_rl)
+TASK_APP_URL=http://localhost:8001 \
+uv run python examples/warming_up_to_rl/run_eval.py \
+  --toml examples/warming_up_to_rl/configs/eval_local_vllm.toml \
+  --model ft:YOUR_FT_MODEL_ID \
+  --use-rollout
+```
+---
+### 4) Plan comparison runs
+Keep runs comparable by adjusting one axis at a time and logging the settings in your experiment tracker (spreadsheet, weights & biases, etc.).
+- **LoRA rank sweeps:** start from `crafter_lora_qwen0p6b.toml`, clone it per rank (e.g., `r=4,8,16,64`). For now add the desired `lora_rank` in the job payload manually (see note above) and include it in the run name.
+- **Dataset size:** duplicate the exported JSONL and slice with `head -n`, or pass `--examples N` to the CLI for quick subsamples. Track the effective token count using the exporter logs.
+- **Data quality:** increase `--min-unique`, require specific achievements, or exclude low-reward sessions with `export_trace_sft.py`. Capture the filter tuple in your run metadata so evaluations stay reproducible.
+- **FFT vs LoRA:** run both configs on the same dataset/cardinality so differences reflect the training method rather than the data.
+For each sweep, use consistent evaluation seeds and write down throughput (tokens/sec) so you can weigh quality vs cost.
+---
+### Files
+- `configs/crafter_lora_qwen0p6b.toml`: LoRA/QLoRA SFT config for `Qwen/Qwen3-0.6B`.
+- `configs/crafter_fft_qwen0p6b.toml`: Full-finetune SFT config for `Qwen/Qwen3-0.6B`.
+- `ft_data/`: place your exported JSONL here (ignored by VCS).

examples/sft/configs/crafter_fft_qwen0p6b.toml ADDED Viewed

@@ -0,0 +1,49 @@
+[algorithm]
+type = "offline"
+method = "sft"
+variety = "fft"
+[job]
+model = "Qwen/Qwen3-0.6B"
+# Prefer passing --dataset at runtime for repeatability
+# data = "examples/sft/ft_data/crafter_sft.jsonl"
+[compute]
+gpu_type = "H100"
+gpu_count = 1
+nodes = 1
+[data]
+topology = {}
+# Optional validation set if you have one locally
+# validation_path = "examples/sft/ft_data/crafter_sft.val.jsonl"
+[training]
+mode = "sft_offline"
+use_qlora = false
+[training.validation]
+enabled = true
+evaluation_strategy = "steps"
+eval_steps = 50
+save_best_model_at_end = true
+metric_for_best_model = "val.loss"
+greater_is_better = false
+[hyperparameters]
+n_epochs = 1
+train_kind = "fft"
+per_device_batch = 1
+gradient_accumulation_steps = 32
+sequence_length = 4096
+learning_rate = 1e-5
+warmup_ratio = 0.03
+weight_decay = 0.01
+[hyperparameters.parallelism]
+use_deepspeed = true
+deepspeed_stage = 2
+fsdp = false
+bf16 = true
+fp16 = false
+activation_checkpointing = true

examples/sft/configs/crafter_lora_qwen0p6b.toml ADDED Viewed

@@ -0,0 +1,49 @@
+[algorithm]
+type = "offline"
+method = "sft"
+variety = "qlora"
+[job]
+model = "Qwen/Qwen3-0.6B"
+# Optionally set here, but prefer passing --dataset at runtime
+# data = "examples/sft/ft_data/crafter_sft.jsonl"
+[compute]
+gpu_type = "H100"
+gpu_count = 1
+nodes = 1
+[data]
+# Forwarded into metadata.effective_config
+topology = {}
+# Optional validation set if you have one locally
+# validation_path = "examples/sft/ft_data/crafter_sft.val.jsonl"
+[training]
+mode = "lora"
+use_qlora = true
+[training.validation]
+enabled = true
+evaluation_strategy = "steps"
+eval_steps = 50
+save_best_model_at_end = true
+metric_for_best_model = "val.loss"
+greater_is_better = false
+[hyperparameters]
+n_epochs = 1
+train_kind = "peft"
+per_device_batch = 2
+gradient_accumulation_steps = 32
+sequence_length = 4096
+learning_rate = 5e-6
+warmup_ratio = 0.03
+[hyperparameters.parallelism]
+use_deepspeed = true
+deepspeed_stage = 2
+fsdp = false
+bf16 = true
+fp16 = false
+activation_checkpointing = true

examples/sft/evaluate.py ADDED Viewed

@@ -0,0 +1,117 @@
+#!/usr/bin/env python3
+"""Evaluate a base or fine-tuned model on Crafter via the Task App rollout.
+This mirrors the minimal evaluation loop: call `/rollout` for a set of seeds
+and report outcome/step metrics. If tracing is enabled server-side, you can
+use the exported sqlite DB for further analysis.
+"""
+from __future__ import annotations
+import argparse
+import asyncio
+import os
+from contextlib import suppress
+from dataclasses import dataclass
+from typing import Any
+from synth_ai.task import (
+    RolloutEnvSpec,
+    RolloutPolicySpec,
+    RolloutRecordConfig,
+    RolloutRequest,
+    TaskAppClient,
+)
+@dataclass(slots=True)
+class EvalArgs:
+    base_url: str
+    api_key: str
+    model: str
+    inference_url: str
+    inference_api_key: str
+    seeds: list[int]
+    max_llm_calls: int
+    timeout: float
+def _ops(n: int) -> list[str]:
+    n = max(1, n)
+    ops: list[str] = []
+    for _ in range(n):
+        ops.extend(["agent", "env"])  # one LLM step followed by one env step
+    return ops
+def _request(seed: int, a: EvalArgs) -> RolloutRequest:
+    from synth_ai.task.contracts import RolloutMode
+    return RolloutRequest(
+        run_id=f"eval-{seed}",
+        env=RolloutEnvSpec(env_name="crafter", seed=seed, config={}),
+        policy=RolloutPolicySpec(
+            policy_name="crafter-react",
+            config={"model": a.model, "inference_url": a.inference_url, "api_key": a.inference_api_key},
+        ),
+        ops=_ops(a.max_llm_calls),
+        record=RolloutRecordConfig(trajectories=True, return_trace=False, trace_format="compact"),
+        mode=RolloutMode.EVAL,
+    )
+async def _eval_seed(client: TaskAppClient, seed: int, a: EvalArgs) -> dict[str, Any]:
+    resp = await client.rollout(_request(seed, a))
+    m = resp.metrics
+    return {"seed": seed, "num_steps": m.num_steps, "episode_returns": m.episode_returns, "outcome_score": m.outcome_score}
+async def main() -> None:
+    p = argparse.ArgumentParser(description=__doc__)
+    p.add_argument("--base-url", default=os.getenv("TASK_APP_URL", "http://localhost:8001"))
+    p.add_argument("--api-key", default=os.getenv("ENVIRONMENT_API_KEY"))
+    p.add_argument("--model", required=True, help="Base or ft:<id> to evaluate")
+    p.add_argument("--inference-url", default=os.getenv("INFERENCE_URL", "https://api.groq.com/openai"))
+    p.add_argument("--inference-api-key", default=os.getenv("GROQ_API_KEY"))
+    p.add_argument("--seeds", default="0,1,2,3,4,5,6,7,8,9")
+    p.add_argument("--max-llm-calls", type=int, default=10)
+    p.add_argument("--timeout", type=float, default=60.0)
+    args = p.parse_args()
+    seeds = [int(s) for s in str(args.seeds).split(",") if s.strip()]
+    a = EvalArgs(
+        base_url=str(args.base_url).strip(),
+        api_key=str(args.api_key or "").strip(),
+        model=str(args.model).strip(),
+        inference_url=str(args.inference_url).strip(),
+        inference_api_key=str(args.inference_api_key or "").strip(),
+        seeds=seeds,
+        max_llm_calls=int(args.max_llm_calls),
+        timeout=float(args.timeout),
+    )
+    if not a.api_key:
+        raise SystemExit("ENVIRONMENT_API_KEY is required")
+    if not a.inference_api_key:
+        raise SystemExit("Inference API key (e.g., GROQ_API_KEY) is required")
+    results: list[dict[str, Any]] = []
+    async with TaskAppClient(a.base_url, api_key=a.api_key, timeout=a.timeout) as client:
+        for seed in a.seeds:
+            r = await _eval_seed(client, seed, a)
+            results.append(r)
+            print(f"seed={seed} return={r.get('episode_returns')}")
+    # Simple aggregate
+    flat_returns: list[float] = []
+    for r in results:
+        ers = r.get("episode_returns") or []
+        if isinstance(ers, list) and ers:
+            with suppress(Exception):
+                flat_returns.append(float(ers[0]))
+    if flat_returns:
+        mean_ret = sum(flat_returns) / len(flat_returns)
+        print(f"mean_return={mean_ret:.3f} over {len(flat_returns)} episodes")
+if __name__ == "__main__":
+    asyncio.run(main())

examples/sft/export_dataset.py ADDED Viewed

@@ -0,0 +1,120 @@
+#!/usr/bin/env python3
+"""Export SFT JSONL from tracing_v3 sqlite using the shared exporter utilities.
+Thin wrapper over `examples/warming_up_to_rl/export_trace_sft.py` to keep the
+SFT workflow self-contained in this folder while reusing tested logic.
+"""
+from __future__ import annotations
+import argparse
+from pathlib import Path
+from examples.warming_up_to_rl.export_trace_sft import (
+    build_sft_dataset,
+    connect,
+    fetch_achievement_data,
+    fetch_event_reward_totals,
+    fetch_outcome_rewards,
+    fetch_session_models,
+    parse_event_filters,
+    write_jsonl,
+)
+from synth_ai.tracing_v3.constants import TRACE_DB_DIR, canonical_trace_db_name
+def main() -> None:
+    p = argparse.ArgumentParser(description=__doc__)
+    p.add_argument(
+        "--db",
+        type=Path,
+        default=TRACE_DB_DIR / canonical_trace_db_name(),
+    )
+    p.add_argument("--output", type=Path, default=Path("examples/sft/ft_data/crafter_sft.jsonl"))
+    p.add_argument("--model", action="append", dest="models")
+    p.add_argument("--provider", action="append", dest="providers")
+    p.add_argument("--min-unique", type=int, default=0)
+    p.add_argument("--max-unique", type=int, default=None)
+    p.add_argument("--exclude-achievement", action="append", dest="exclude_achievements")
+    p.add_argument("--require-achievement", action="append", dest="required_achievements")
+    p.add_argument("--min-outcome-reward", type=float, default=None)
+    p.add_argument("--max-outcome-reward", type=float, default=None)
+    p.add_argument("--event-reward", action="append", dest="event_reward_filters")
+    p.add_argument("--limit", type=int, default=None)
+    args = p.parse_args()
+    conn = connect(args.db)
+    try:
+        achievements_map, unique_counts, name_counts, size_counts, session_uniques, session_final = (
+            fetch_achievement_data(conn)
+        )
+        session_models = fetch_session_models(conn)
+        outcome_data = fetch_outcome_rewards(conn)
+        event_totals = fetch_event_reward_totals(conn)
+        event_filters = parse_event_filters(args.event_reward_filters)
+        allowed_models = set(args.models) if args.models else None
+        allowed_providers = set(args.providers) if args.providers else None
+        required_achievements = set(args.required_achievements or [])
+        excluded_achievements = set(args.exclude_achievements or [])
+        eligible: set[str] = set()
+        for session_id, (model_name, provider, _calls) in session_models.items():
+            if allowed_models and model_name not in allowed_models:
+                continue
+            if allowed_providers and (provider or "unknown") not in allowed_providers:
+                continue
+            session_unique = session_uniques.get(session_id, set())
+            adjusted_uniques = {a for a in session_unique if a not in excluded_achievements}
+            unique_count = len(adjusted_uniques)
+            if args.min_unique is not None and unique_count < args.min_unique:
+                continue
+            if args.max_unique is not None and unique_count > args.max_unique:
+                continue
+            outcome = outcome_data.get(session_id)
+            total_reward = outcome["total_reward"] if outcome else 0.0
+            final_achievements = (
+                outcome["achievements"] if outcome else session_final.get(session_id, set())
+            )
+            if args.min_outcome_reward is not None and total_reward < args.min_outcome_reward:
+                continue
+            if args.max_outcome_reward is not None and total_reward > args.max_outcome_reward:
+                continue
+            if required_achievements and not required_achievements.issubset(final_achievements):
+                continue
+            totals = event_totals.get(session_id, {})
+            meets_filters = True
+            for reward_type, min_total in event_filters:
+                total = totals.get(reward_type, {}).get("total", 0.0)
+                if total < min_total:
+                    meets_filters = False
+                    break
+            if not meets_filters:
+                continue
+            eligible.add(session_id)
+        if not eligible:
+            raise SystemExit("No sessions matched the provided filters.")
+        dataset = build_sft_dataset(
+            conn,
+            achievements_map,
+            eligible,
+            allowed_models=allowed_models,
+            limit=args.limit,
+        )
+        if not dataset:
+            raise SystemExit("No rollout steps matched the filters (after session selection).")
+        Path(args.output).parent.mkdir(parents=True, exist_ok=True)
+        write_jsonl(args.output, dataset)
+        print(f"Wrote {len(dataset)} examples -> {args.output}")
+    finally:
+        conn.close()
+if __name__ == "__main__":
+    main()

synth-ai 0.2.8.dev4__py3-none-any.whl → 0.2.23.dev3__py3-none-any.whl

synth-ai 0.2.8.dev4py3-none-any.whl → 0.2.23.dev3py3-none-any.whl