PyPI - synth-ai - Versions diffs - 0.2.9.dev0__py3-none-any.whl → 0.2.23.dev3__py3-none-any.whl - Mend

synth-ai 0.2.9.dev0py3-none-any.whl → 0.2.23.dev3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (890) hide show

examples/README.md +1 -0
examples/__init__.py +16 -0
examples/analyze_semantic_words.sh +17 -0
examples/baseline/banking77_baseline.py +243 -0
examples/baseline/banking77_pipeline_baseline.py +294 -0
examples/baseline/crafter_baseline.py +407 -0
examples/baseline/pokemon_red_baseline.py +326 -0
examples/baseline/simple_baseline.py +56 -0
examples/baseline/warming_up_to_rl_baseline.py +239 -0
examples/blog_posts/gepa/README.md +355 -0
examples/blog_posts/gepa/configs/banking77_gepa_local.toml +95 -0
examples/blog_posts/gepa/configs/banking77_gepa_test.toml +80 -0
examples/blog_posts/gepa/configs/banking77_mipro_local.toml +50 -0
examples/blog_posts/gepa/configs/banking77_pipeline_gepa_local.toml +101 -0
examples/blog_posts/gepa/configs/banking77_pipeline_gepa_test.toml +96 -0
examples/blog_posts/gepa/configs/hotpotqa_gepa_local.toml +57 -0
examples/blog_posts/gepa/configs/hotpotqa_gepa_qwen.toml +35 -0
examples/blog_posts/gepa/configs/hotpotqa_mipro_local.toml +51 -0
examples/blog_posts/gepa/configs/hover_gepa_local.toml +57 -0
examples/blog_posts/gepa/configs/hover_gepa_qwen.toml +35 -0
examples/blog_posts/gepa/configs/hover_mipro_local.toml +51 -0
examples/blog_posts/gepa/configs/ifbench_gepa_local.toml +57 -0
examples/blog_posts/gepa/configs/ifbench_gepa_qwen.toml +35 -0
examples/blog_posts/gepa/configs/ifbench_mipro_local.toml +51 -0
examples/blog_posts/gepa/configs/pupa_gepa_local.toml +58 -0
examples/blog_posts/gepa/configs/pupa_mipro_local.toml +52 -0
examples/blog_posts/gepa/deploy_banking77_task_app.sh +54 -0
examples/blog_posts/gepa/gepa_baseline.py +204 -0
examples/blog_posts/gepa/query_prompts_example.py +97 -0
examples/blog_posts/gepa/run_gepa_banking77.sh +112 -0
examples/blog_posts/gepa/run_gepa_banking77_pipeline.sh +163 -0
examples/blog_posts/gepa/task_apps.py +105 -0
examples/blog_posts/gepa/test_gepa_local.sh +67 -0
examples/blog_posts/gepa/verify_banking77_setup.sh +123 -0
examples/blog_posts/mipro/README.md +415 -0
examples/blog_posts/mipro/configs/banking77_mipro_local.toml +91 -0
examples/blog_posts/mipro/configs/banking77_mipro_test.toml +87 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_gemini_flash_lite_local.toml +98 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_gpt41mini_local.toml +96 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_local.toml +94 -0
examples/blog_posts/mipro/configs/banking77_pipeline_mipro_test.toml +170 -0
examples/blog_posts/mipro/deploy_banking77_pipeline_task_app.sh +59 -0
examples/blog_posts/mipro/deploy_banking77_task_app.sh +41 -0
examples/blog_posts/mipro/multi_step.md +79 -0
examples/blog_posts/mipro/run_mipro_banking77.sh +191 -0
examples/blog_posts/mipro/run_mipro_banking77_pipeline.sh +171 -0
examples/blog_posts/mipro/run_mipro_banking77_pipeline_gemini_flash_lite.sh +177 -0
examples/blog_posts/mipro/run_mipro_banking77_pipeline_gpt41mini.sh +173 -0
examples/blog_posts/mipro/verify_banking77_setup.sh +117 -0
examples/blog_posts/pokemon_vl/README.md +98 -0
examples/blog_posts/pokemon_vl/configs/eval_gpt5nano.toml +26 -0
examples/blog_posts/pokemon_vl/configs/eval_qwen3_vl.toml +27 -0
examples/blog_posts/pokemon_vl/configs/eval_rl_final.toml +24 -0
examples/blog_posts/pokemon_vl/configs/filter_high_reward.toml +10 -0
examples/blog_posts/pokemon_vl/configs/train_rl_from_sft.toml +43 -0
examples/blog_posts/pokemon_vl/configs/train_sft_qwen4b_vl.toml +40 -0
examples/blog_posts/pokemon_vl/extract_images.py +239 -0
examples/blog_posts/pokemon_vl/pokemon_vl_baseline.py +326 -0
examples/blog_posts/pokemon_vl/run_eval_extract_images.py +209 -0
examples/blog_posts/pokemon_vl/run_qwen_eval_extract_images.py +212 -0
examples/blog_posts/pokemon_vl/text_box_analysis.md +106 -0
examples/blog_posts/warming_up_to_rl/ARCHITECTURE.md +195 -0
examples/blog_posts/warming_up_to_rl/FINAL_TEST_RESULTS.md +127 -0
examples/blog_posts/warming_up_to_rl/INFERENCE_SUCCESS.md +132 -0
examples/blog_posts/warming_up_to_rl/README.md +158 -0
examples/blog_posts/warming_up_to_rl/SMOKE_TESTING.md +164 -0
examples/blog_posts/warming_up_to_rl/SMOKE_TEST_COMPLETE.md +253 -0
examples/blog_posts/warming_up_to_rl/configs/eval_baseline_qwen32b_10x20.toml +25 -0
examples/blog_posts/warming_up_to_rl/configs/eval_ft_qwen4b.toml +25 -0
examples/blog_posts/warming_up_to_rl/configs/eval_ft_qwen4b_10x20.toml +26 -0
examples/blog_posts/warming_up_to_rl/configs/eval_groq_qwen32b.toml +25 -0
examples/blog_posts/warming_up_to_rl/configs/eval_openai_gpt_oss_120b.toml +29 -0
examples/blog_posts/warming_up_to_rl/configs/filter_high_reward_dataset.toml +10 -0
examples/blog_posts/warming_up_to_rl/configs/smoke_test.toml +75 -0
examples/blog_posts/warming_up_to_rl/configs/train_rl_from_sft.toml +91 -0
examples/blog_posts/warming_up_to_rl/configs/train_sft_qwen4b.toml +40 -0
examples/blog_posts/warming_up_to_rl/warming_up_to_rl_baseline.py +187 -0
examples/crafter_debug_render.py +186 -0
examples/dev/qwen3_32b_qlora_4xh100.toml +45 -0
examples/gepa/banking77_pipeline_gepa.toml +96 -0
examples/gepa/multi_stage_gepa_example.toml +84 -0
examples/gepa/run_gepa_banking77_pipeline.sh +157 -0
examples/multi_step/SFT_README.md +147 -0
examples/multi_step/configs/README_verilog_rl.md +77 -0
examples/multi_step/configs/VERILOG_REWARDS.md +103 -0
examples/multi_step/configs/VERILOG_RL_CHECKLIST.md +196 -0
examples/multi_step/configs/crafter_eval_synth_qwen4b.toml +35 -0
examples/multi_step/configs/crafter_eval_text_only_groq_qwen32b.toml +36 -0
examples/multi_step/configs/crafter_rl_outcome.toml +75 -0
examples/multi_step/configs/crafter_rl_stepwise_hosted_judge.toml +145 -0
examples/multi_step/configs/crafter_rl_stepwise_shaped.toml +84 -0
examples/multi_step/configs/crafter_rl_stepwise_simple.toml +79 -0
examples/multi_step/configs/crafter_rl_stepwise_simple_NEW_FORMAT.toml +105 -0
examples/multi_step/configs/crafter_sft_qwen30b_lora.toml +62 -0
examples/multi_step/configs/crafter_synth_backend.md +40 -0
examples/multi_step/configs/verilog_eval_groq_qwen32b.toml +31 -0
examples/multi_step/configs/verilog_eval_synth_qwen8b.toml +33 -0
examples/multi_step/configs/verilog_rl_lora.toml +147 -0
examples/multi_step/convert_traces_to_sft.py +84 -0
examples/multi_step/crafter_rl_lora.md +70 -0
examples/multi_step/judges/crafter_backend_judge.py +220 -0
examples/multi_step/judges/verilog_backend_judge.py +234 -0
examples/multi_step/readme.md +48 -0
examples/multi_step/run_sft_qwen30b.sh +45 -0
examples/multi_step/sse_metrics_streaming_notes.md +357 -0
examples/multi_step/task_app_config_notes.md +494 -0
examples/multi_step/verilog_rl_lora.md +218 -0
examples/qwen_coder/README.md +102 -0
examples/qwen_coder/_shared.py +113 -0
examples/qwen_coder/configs/coder_lora_30b.toml +60 -0
examples/qwen_coder/configs/coder_lora_4b.toml +61 -0
examples/qwen_coder/configs/coder_lora_small.toml +57 -0
examples/qwen_coder/generate_dataset.py +98 -0
examples/qwen_coder/infer_ft_smoke.py +65 -0
examples/qwen_coder/infer_prod_proxy.py +73 -0
examples/qwen_coder/infer_via_synth.py +87 -0
examples/qwen_coder/scripts/infer_coder.sh +19 -0
examples/qwen_coder/scripts/train_coder_30b.sh +22 -0
examples/qwen_coder/sft_full_17b.py +103 -0
examples/qwen_coder/sft_lora_30b.py +110 -0
examples/qwen_coder/subset_jsonl.py +39 -0
examples/qwen_coder/todos.md +38 -0
examples/qwen_coder/validate_jsonl.py +60 -0
examples/qwen_vl/BUGS_AND_FIXES.md +232 -0
examples/qwen_vl/IMAGE_VALIDATION_COMPLETE.md +271 -0
examples/qwen_vl/IMAGE_VALIDATION_SUMMARY.md +260 -0
examples/qwen_vl/INFERENCE_SFT_TESTS.md +412 -0
examples/qwen_vl/NEXT_STEPS_2B.md +325 -0
examples/qwen_vl/QUICKSTART.md +327 -0
examples/qwen_vl/QUICKSTART_RL_VISION.md +110 -0
examples/qwen_vl/README.md +152 -0
examples/qwen_vl/RL_VISION_COMPLETE.md +475 -0
examples/qwen_vl/RL_VISION_TESTING.md +333 -0
examples/qwen_vl/SDK_VISION_INTEGRATION.md +328 -0
examples/qwen_vl/SETUP_COMPLETE.md +274 -0
examples/qwen_vl/VISION_TESTS_COMPLETE.md +489 -0
examples/qwen_vl/VLM_PIPELINE_COMPLETE.md +242 -0
examples/qwen_vl/__init__.py +2 -0
examples/qwen_vl/collect_data_via_cli.md +415 -0
examples/qwen_vl/collect_vision_traces.py +368 -0
examples/qwen_vl/configs/crafter_rl_vision_qwen3vl4b.toml +110 -0
examples/qwen_vl/configs/crafter_vlm_sft_example.toml +59 -0
examples/qwen_vl/configs/eval_gpt4o_mini_vision.toml +26 -0
examples/qwen_vl/configs/eval_gpt4o_vision_proper.toml +29 -0
examples/qwen_vl/configs/eval_gpt5nano_vision.toml +26 -0
examples/qwen_vl/configs/eval_qwen3vl_vision.toml +26 -0
examples/qwen_vl/configs/filter_qwen3vl_sft.toml +49 -0
examples/qwen_vl/configs/filter_vision_sft.toml +52 -0
examples/qwen_vl/configs/filter_vision_test.toml +8 -0
examples/qwen_vl/configs/sft_qwen3_vl_2b_test.toml +54 -0
examples/qwen_vl/crafter_gpt5nano_agent.py +308 -0
examples/qwen_vl/crafter_qwen_vl_agent.py +300 -0
examples/qwen_vl/run_vision_comparison.sh +61 -0
examples/qwen_vl/run_vision_sft_pipeline.sh +175 -0
examples/qwen_vl/test_image_validation.py +201 -0
examples/qwen_vl/test_sft_vision_data.py +110 -0
examples/rl/README.md +169 -0
examples/rl/configs/eval_base_qwen.toml +17 -0
examples/rl/configs/eval_rl_qwen.toml +13 -0
examples/rl/configs/rl_from_base_qwen.toml +62 -0
examples/rl/configs/rl_from_base_qwen17.toml +80 -0
examples/rl/configs/rl_from_ft_qwen.toml +37 -0
examples/rl/download_dataset.py +80 -0
examples/rl/run_eval.py +436 -0
examples/rl/run_rl_and_save.py +111 -0
examples/rl/task_app/README.md +21 -0
{synth_ai/task/apps → examples/rl/task_app}/math_single_step.py +188 -50
examples/rl/task_app/math_task_app.py +111 -0
examples/run_crafter_demo.sh +10 -0
examples/sdk_prompt_learning_example.py +55 -0
examples/sft/README.md +139 -0
examples/sft/configs/crafter_fft_qwen0p6b.toml +49 -0
examples/sft/configs/crafter_lora_qwen0p6b.toml +49 -0
examples/sft/evaluate.py +117 -0
examples/sft/export_dataset.py +120 -0
examples/sft/generate_traces.py +164 -0
examples/swe/__init__.py +12 -0
examples/swe/task_app/README.md +135 -0
examples/swe/task_app/__init__.py +2 -0
examples/swe/task_app/grpo_swe_mini.py +604 -0
examples/swe/task_app/grpo_swe_mini_task_app.py +124 -0
examples/swe/task_app/hosted/README.md +173 -0
examples/swe/task_app/hosted/__init__.py +5 -0
examples/swe/task_app/hosted/branching.py +143 -0
examples/swe/task_app/hosted/environment_routes.py +1289 -0
examples/swe/task_app/hosted/envs/__init__.py +1 -0
examples/swe/task_app/hosted/envs/crafter/__init__.py +6 -0
examples/swe/task_app/hosted/envs/crafter/app.py +1 -0
examples/swe/task_app/hosted/envs/crafter/environment.py +522 -0
examples/swe/task_app/hosted/envs/crafter/policy.py +478 -0
examples/swe/task_app/hosted/envs/crafter/react_agent.py +108 -0
examples/swe/task_app/hosted/envs/crafter/shared.py +305 -0
examples/swe/task_app/hosted/envs/crafter/tools.py +47 -0
examples/swe/task_app/hosted/envs/mini_swe/__init__.py +8 -0
examples/swe/task_app/hosted/envs/mini_swe/environment.py +1191 -0
examples/swe/task_app/hosted/envs/mini_swe/policy.py +355 -0
examples/swe/task_app/hosted/envs/mini_swe/shared.py +83 -0
examples/swe/task_app/hosted/envs/mini_swe/tools.py +96 -0
examples/swe/task_app/hosted/hosted_app.py +204 -0
examples/swe/task_app/hosted/inference/__init__.py +5 -0
examples/swe/task_app/hosted/inference/openai_client.py +584 -0
examples/swe/task_app/hosted/main.py +100 -0
examples/swe/task_app/hosted/policy_routes.py +1094 -0
examples/swe/task_app/hosted/registry.py +195 -0
examples/swe/task_app/hosted/rollout.py +1905 -0
examples/swe/task_app/hosted/storage/__init__.py +5 -0
examples/swe/task_app/hosted/storage/volume.py +211 -0
examples/swe/task_app/hosted/test_agents.py +161 -0
examples/swe/task_app/hosted/test_service.py +136 -0
examples/swe/task_app/hosted/utils.py +62 -0
examples/swe/task_app/morph_backend.py +178 -0
examples/task_apps/IMAGE_ONLY_EVAL_QUICKSTART.md +258 -0
examples/task_apps/TESTING.md +275 -0
examples/task_apps/banking77/__init__.py +6 -0
examples/task_apps/banking77/banking77_task_app.py +912 -0
examples/task_apps/banking77/deploy_wrapper.py +46 -0
examples/task_apps/banking77_pipeline/__init__.py +6 -0
examples/task_apps/banking77_pipeline/banking77_pipeline_task_app.py +489 -0
examples/task_apps/banking77_pipeline/deploy_wrapper.py +50 -0
examples/task_apps/crafter/CREATE_SFT_DATASET.md +286 -0
examples/task_apps/crafter/EVAL_IMAGE_ONLY_RESULTS.md +152 -0
examples/task_apps/crafter/FILTER_COMMAND_STATUS.md +187 -0
examples/task_apps/crafter/FILTER_COMMAND_SUCCESS.md +281 -0
examples/task_apps/crafter/QUERY_EXAMPLES.md +203 -0
examples/task_apps/crafter/README_IMAGE_ONLY_EVAL.md +316 -0
examples/task_apps/crafter/eval_image_only_gpt4o.toml +28 -0
examples/task_apps/crafter/eval_text_only_groq_llama.toml +36 -0
examples/task_apps/crafter/filter_sft_dataset.toml +16 -0
examples/task_apps/crafter/task_app/README.md +42 -0
examples/task_apps/crafter/task_app/__init__.py +5 -0
examples/task_apps/crafter/task_app/grpo_crafter.py +1055 -0
examples/task_apps/crafter/task_app/grpo_crafter_task_app.py +146 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/README.md +173 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/__init__.py +5 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/branching.py +143 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/environment_routes.py +1226 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/__init__.py +1 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/__init__.py +6 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/app.py +1 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/environment.py +532 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/policy.py +583 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/react_agent.py +122 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/shared.py +305 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/tools.py +47 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/hosted_app.py +253 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/__init__.py +5 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/openai_client.py +999 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/main.py +100 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/policy_routes.py +1252 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/registry.py +195 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/rollout.py +2233 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/storage/__init__.py +5 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/storage/volume.py +211 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/test_agents.py +161 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/test_service.py +136 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/utils.py +411 -0
examples/task_apps/dev/pokemon_emerald/__init__.py +2 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/README.md +811 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/__init__.py +120 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/action.py +160 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/memory.py +155 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/perception.py +69 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/planning.py +96 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/simple.py +1502 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/system_prompt.py +4 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/grab_map.py +68 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/manual.py +216 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/__init__.py +35 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/emerald_utils.py +631 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/emulator.py +1544 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/enums.py +1428 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/memory_reader.py +4848 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/types.py +41 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/utils.py +298 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pyproject.toml +95 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/run.py +204 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/app.py +2152 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/client.py +429 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/frame_server.py +155 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/README.md +78 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/run_tests.py +122 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_agent_direct.py +76 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_agent_prompts.py +413 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_battle_state_formatting.py +204 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_dialogue_detection.py +133 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_dialogue_detection_comprehensive.py +229 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_direct_agent_emulator.py +300 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_fps_adjustment_pytest.py +205 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_house_to_outside_direct.py +200 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_house_to_outside_transition.py +284 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_map_ground_truth_comparison.py +468 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_memory_map.py +575 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_server_map_validation.py +311 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_torchic_state.py +259 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/anticheat.py +372 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/checkpoint.py +296 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/error_handler.py +275 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/get_local_ip.py +22 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/helpers.py +44 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/llm_logger.py +514 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_formatter.py +415 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_stitcher.py +1763 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_stitcher_singleton.py +33 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_trimmer.py +106 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_visualizer.py +334 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/ocr_dialogue.py +1020 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/recording.py +188 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/state_formatter.py +1481 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/vlm.py +862 -0
examples/task_apps/dev/pokemon_emerald/modal_app.py +114 -0
examples/task_apps/dev/pokemon_emerald/task_app/README.md +81 -0
examples/task_apps/dev/pokemon_emerald/task_app/__init__.py +6 -0
examples/task_apps/dev/pokemon_emerald/task_app/pokemon_emerald.py +685 -0
examples/task_apps/enron/__init__.py +2 -0
examples/task_apps/enron/eval_groq_qwen32.toml +16 -0
examples/task_apps/enron/filter_sft.toml +5 -0
examples/task_apps/enron/task_app/README.md +14 -0
examples/task_apps/enron/task_app/__init__.py +1 -0
examples/task_apps/enron/task_app/grpo_enron.py +906 -0
examples/task_apps/enron/task_app/grpo_enron_task_app.py +146 -0
examples/task_apps/enron/tests/__init__.py +4 -0
examples/task_apps/enron/tests/conftest.py +115 -0
examples/task_apps/enron/tests/integration/__init__.py +4 -0
examples/task_apps/enron/tests/integration/test_enron_eval.py +179 -0
examples/task_apps/enron/tests/integration/test_enron_rollout.py +135 -0
examples/task_apps/enron/tests/unit/__init__.py +4 -0
examples/task_apps/enron/tests/unit/test_enron_environment.py +126 -0
examples/task_apps/gepa_benchmarks/__init__.py +7 -0
examples/task_apps/gepa_benchmarks/common.py +260 -0
examples/task_apps/gepa_benchmarks/hotpotqa_task_app.py +507 -0
examples/task_apps/gepa_benchmarks/hover_task_app.py +436 -0
examples/task_apps/gepa_benchmarks/ifbench_task_app.py +563 -0
examples/task_apps/gepa_benchmarks/pupa_task_app.py +460 -0
examples/task_apps/math/README.md +21 -0
examples/task_apps/math/math_single_step.py +1000 -0
examples/task_apps/math/math_task_app.py +115 -0
examples/task_apps/pokemon_battle/__init__.py +2 -0
examples/task_apps/pokemon_battle/modal_app.py +104 -0
examples/task_apps/pokemon_battle/task_app/README.md +68 -0
examples/task_apps/pokemon_battle/task_app/__init__.py +6 -0
examples/task_apps/pokemon_battle/task_app/pokemon_showdown.py +932 -0
examples/task_apps/pokemon_red/EVAL_IMAGE_ONLY_COMPLETE.md +283 -0
examples/task_apps/pokemon_red/EVAL_IMAGE_ONLY_STATUS.md +155 -0
examples/task_apps/pokemon_red/README.md +356 -0
examples/task_apps/pokemon_red/README_IMAGE_ONLY_EVAL.md +428 -0
examples/task_apps/pokemon_red/__init__.py +3 -0
examples/task_apps/pokemon_red/eval_image_only_gpt4o.toml +30 -0
examples/task_apps/pokemon_red/eval_pokemon_red_policy.py +224 -0
examples/task_apps/pokemon_red/pallet_town_rl_config.toml +75 -0
examples/task_apps/pokemon_red/task_app.py +1048 -0
examples/task_apps/pokemon_red/test_pallet_town_rewards.py +193 -0
examples/task_apps/sokoban/README.md +306 -0
examples/task_apps/sokoban/__init__.py +3 -0
examples/task_apps/sokoban/eval_groq_qwen32.toml +16 -0
examples/task_apps/sokoban/eval_openai_gpt5.toml +16 -0
examples/task_apps/sokoban/filter_sft.toml +5 -0
examples/task_apps/sokoban/task_app.py +1058 -0
examples/task_apps/sokoban/tests/__init__.py +4 -0
examples/task_apps/sokoban/tests/conftest.py +113 -0
examples/task_apps/sokoban/tests/integration/__init__.py +4 -0
examples/task_apps/sokoban/tests/integration/test_sokoban_eval.py +57 -0
examples/task_apps/sokoban/tests/integration/test_sokoban_rollout.py +198 -0
examples/task_apps/sokoban/tests/unit/__init__.py +4 -0
examples/task_apps/sokoban/tests/unit/test_sokoban_environment.py +114 -0
examples/task_apps/verilog/__init__.py +1 -0
examples/task_apps/verilog/eval_groq_qwen32b.toml +22 -0
examples/task_apps/verilog/filter_sft.toml +5 -0
examples/task_apps/verilog/task_app/README.md +12 -0
examples/task_apps/verilog/task_app/__init__.py +1 -0
examples/task_apps/verilog/task_app/grpo_verilog.py +1166 -0
examples/task_apps/verilog/task_app/grpo_verilog_task_app.py +145 -0
examples/task_apps/verilog/tests/__init__.py +4 -0
examples/task_apps/verilog/tests/conftest.py +115 -0
examples/task_apps/verilog/tests/integration/__init__.py +4 -0
examples/task_apps/verilog/tests/integration/test_verilog_eval.py +181 -0
examples/task_apps/verilog/tests/integration/test_verilog_rollout.py +55 -0
examples/task_apps/verilog/tests/unit/__init__.py +4 -0
examples/task_apps/verilog/tests/unit/test_verilog_scoring.py +118 -0
examples/tunnel_gepa_banking77/README.md +106 -0
examples/tunnel_gepa_banking77/banking77_gepa_tunnel.toml +95 -0
examples/tunnel_gepa_banking77/keep_tunnel_running.py +60 -0
examples/tunnel_gepa_banking77/run_gepa_with_tunnel.sh +226 -0
examples/vlm/PROPOSAL.md +53 -0
examples/vlm/README.md +68 -0
examples/vlm/configs/crafter_vlm_gpt4o.toml +49 -0
examples/vlm/crafter_image_only_agent.py +207 -0
examples/vlm/crafter_openai_vlm_agent.py +275 -0
examples/vlm/filter_image_rows.py +63 -0
examples/vlm/run_crafter_vlm_benchmark.py +316 -0
examples/warming_up_to_rl/_utils.py +92 -0
examples/warming_up_to_rl/analyze_trace_db.py +422 -0
examples/warming_up_to_rl/configs/crafter_fft.toml +53 -0
examples/warming_up_to_rl/configs/crafter_fft_4b.toml +54 -0
examples/warming_up_to_rl/configs/eval_fft_qwen4b.toml +22 -0
examples/warming_up_to_rl/configs/eval_groq_qwen32b.toml +15 -0
examples/warming_up_to_rl/configs/eval_modal_qwen4b.toml +24 -0
examples/warming_up_to_rl/configs/eval_stepwise_complex.toml +35 -0
examples/warming_up_to_rl/configs/eval_stepwise_consistent.toml +26 -0
examples/warming_up_to_rl/configs/eval_stepwise_per_achievement.toml +36 -0
examples/warming_up_to_rl/configs/eval_stepwise_simple.toml +32 -0
examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml +85 -0
examples/warming_up_to_rl/configs/rl_from_ft.toml +58 -0
examples/warming_up_to_rl/export_trace_sft.py +837 -0
examples/warming_up_to_rl/groq_test.py +97 -0
examples/warming_up_to_rl/manage_secrets.py +131 -0
examples/warming_up_to_rl/old/event_rewards.md +234 -0
examples/warming_up_to_rl/old/notes.md +73 -0
examples/warming_up_to_rl/readme.md +110 -0
examples/warming_up_to_rl/run_eval.py +736 -0
examples/warming_up_to_rl/run_fft_and_save.py +380 -0
examples/warming_up_to_rl/run_local_rollout.py +239 -0
examples/warming_up_to_rl/run_local_rollout_modal.py +248 -0
examples/warming_up_to_rl/run_local_rollout_parallel.py +405 -0
examples/warming_up_to_rl/run_local_rollout_traced.py +477 -0
examples/warming_up_to_rl/run_rl_and_save.py +124 -0
examples/warming_up_to_rl/run_rollout_remote.py +156 -0
examples/warming_up_to_rl/task_app/README.md +42 -0
examples/warming_up_to_rl/task_app/grpo_crafter.py +876 -0
examples/warming_up_to_rl/task_app/grpo_crafter_task_app.py +135 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/README.md +173 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/branching.py +143 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/environment_routes.py +1226 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/__init__.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/__init__.py +6 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/app.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/environment.py +522 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/policy.py +454 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/react_agent.py +108 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/shared.py +305 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/tools.py +47 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/hosted_app.py +253 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/openai_client.py +729 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/main.py +100 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/policy_routes.py +1114 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/registry.py +195 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/rollout.py +1891 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/volume.py +211 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_agents.py +161 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_service.py +137 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/utils.py +129 -0
examples/workflows/math_rl/configs/eval_base_qwen.toml +15 -0
examples/workflows/math_rl/configs/eval_rl_qwen.toml +11 -0
examples/workflows/math_rl/configs/rl_from_base_qwen.toml +62 -0
examples/workflows/math_rl/configs/rl_from_base_qwen17.toml +80 -0
examples/workflows/math_rl/configs/rl_from_ft_qwen.toml +35 -0
examples/workflows/math_rl/download_dataset.py +80 -0
examples/workflows/math_rl/run_eval.py +436 -0
examples/workflows/math_rl/run_rl_and_save.py +111 -0
synth_ai/__init__.py +47 -23
synth_ai/_utils/__init__.py +47 -0
synth_ai/_utils/base_url.py +10 -0
synth_ai/_utils/http.py +10 -0
synth_ai/_utils/prompts.py +10 -0
synth_ai/_utils/task_app_state.py +12 -0
synth_ai/_utils/user_config.py +10 -0
synth_ai/api/models/supported.py +514 -0
synth_ai/api/train/__init__.py +60 -2
synth_ai/api/train/builders.py +347 -39
synth_ai/api/train/cli.py +895 -160
synth_ai/api/train/config_finder.py +103 -25
synth_ai/api/train/configs/__init__.py +65 -0
synth_ai/api/train/configs/prompt_learning.py +496 -0
synth_ai/api/train/configs/rl.py +188 -0
synth_ai/api/train/configs/sft.py +99 -0
synth_ai/api/train/configs/shared.py +81 -0
synth_ai/api/train/env_resolver.py +70 -20
synth_ai/api/train/pollers.py +29 -4
synth_ai/api/train/prompt_learning.py +425 -0
synth_ai/api/train/sft.py +390 -0
synth_ai/api/train/supported_algos.py +147 -0
synth_ai/api/train/task_app.py +6 -4
synth_ai/api/train/utils.py +64 -52
synth_ai/api/train/validators.py +1117 -0
synth_ai/api/tunnel.py +49 -0
synth_ai/auth/credentials.py +94 -0
synth_ai/baseline/__init__.py +25 -0
synth_ai/baseline/config.py +209 -0
synth_ai/baseline/discovery.py +214 -0
synth_ai/baseline/execution.py +146 -0
synth_ai/cfgs.py +227 -0
synth_ai/cli/__init__.py +85 -63
synth_ai/cli/_modal_wrapper.py +31 -0
synth_ai/cli/_storage.py +20 -0
synth_ai/cli/_typer_patch.py +47 -0
synth_ai/cli/_validate_task_app.py +29 -0
synth_ai/cli/balance.py +16 -4
synth_ai/cli/calc.py +36 -21
synth_ai/cli/claude.py +70 -0
synth_ai/cli/codex.py +267 -0
synth_ai/cli/commands/__init__.py +18 -0
synth_ai/cli/commands/baseline/__init__.py +12 -0
synth_ai/cli/commands/baseline/core.py +637 -0
synth_ai/cli/commands/baseline/list.py +93 -0
synth_ai/cli/commands/demo/__init__.py +6 -0
synth_ai/cli/commands/demo/core.py +163 -0
synth_ai/cli/commands/eval/__init__.py +19 -0
synth_ai/cli/commands/eval/core.py +1112 -0
synth_ai/cli/commands/eval/errors.py +81 -0
synth_ai/cli/commands/eval/validation.py +133 -0
synth_ai/cli/commands/filter/__init__.py +12 -0
synth_ai/cli/commands/filter/core.py +424 -0
synth_ai/cli/commands/filter/errors.py +55 -0
synth_ai/cli/commands/filter/validation.py +77 -0
synth_ai/cli/commands/help/__init__.py +185 -0
synth_ai/cli/commands/help/core.py +72 -0
synth_ai/cli/commands/smoke/__init__.py +7 -0
synth_ai/cli/commands/smoke/core.py +1437 -0
synth_ai/cli/commands/status/__init__.py +66 -0
synth_ai/cli/commands/status/client.py +192 -0
synth_ai/cli/commands/status/config.py +92 -0
synth_ai/cli/commands/status/errors.py +20 -0
synth_ai/cli/commands/status/formatters.py +164 -0
synth_ai/cli/commands/status/subcommands/__init__.py +9 -0
synth_ai/cli/commands/status/subcommands/files.py +79 -0
synth_ai/cli/commands/status/subcommands/jobs.py +334 -0
synth_ai/cli/commands/status/subcommands/models.py +79 -0
synth_ai/cli/commands/status/subcommands/pricing.py +22 -0
synth_ai/cli/commands/status/subcommands/runs.py +81 -0
synth_ai/cli/commands/status/subcommands/session.py +183 -0
synth_ai/cli/commands/status/subcommands/summary.py +47 -0
synth_ai/cli/commands/status/subcommands/usage.py +203 -0
synth_ai/cli/commands/status/utils.py +114 -0
synth_ai/cli/commands/train/__init__.py +53 -0
synth_ai/cli/commands/train/core.py +21 -0
synth_ai/cli/commands/train/errors.py +117 -0
synth_ai/cli/commands/train/judge_schemas.py +200 -0
synth_ai/cli/commands/train/judge_validation.py +305 -0
synth_ai/cli/commands/train/validation.py +386 -0
synth_ai/cli/demo.py +32 -140
synth_ai/cli/deploy.py +233 -0
synth_ai/cli/eval/__init__.py +36 -0
synth_ai/cli/eval/core.py +5 -0
synth_ai/cli/eval/errors.py +31 -0
synth_ai/cli/eval/validation.py +5 -0
synth_ai/cli/filter/__init__.py +28 -0
synth_ai/cli/filter/core.py +5 -0
synth_ai/cli/filter/errors.py +23 -0
synth_ai/cli/filter/validation.py +5 -0
synth_ai/cli/legacy_root_backup.py +28 -22
synth_ai/cli/lib/__init__.py +10 -0
synth_ai/cli/lib/task_app_discovery.py +7 -0
synth_ai/cli/lib/task_app_env.py +518 -0
synth_ai/cli/mcp.py +34 -0
synth_ai/cli/modal_serve/__init__.py +12 -0
synth_ai/cli/modal_serve/core.py +14 -0
synth_ai/cli/modal_serve/errors.py +8 -0
synth_ai/cli/modal_serve/validation.py +11 -0
synth_ai/cli/opencode.py +256 -0
synth_ai/cli/recent.py +13 -7
synth_ai/cli/rl_demo.py +156 -116
synth_ai/cli/root.py +131 -132
synth_ai/cli/serve/__init__.py +12 -0
synth_ai/cli/serve/core.py +14 -0
synth_ai/cli/serve/errors.py +8 -0
synth_ai/cli/serve/validation.py +11 -0
synth_ai/cli/setup.py +49 -0
synth_ai/cli/status.py +7 -125
synth_ai/cli/task_app_deploy.py +7 -0
synth_ai/cli/task_app_list.py +25 -0
synth_ai/cli/task_app_modal_serve.py +11 -0
synth_ai/cli/task_app_serve.py +11 -0
synth_ai/cli/task_apps.py +2284 -257
synth_ai/cli/traces.py +9 -5
synth_ai/cli/train/__init__.py +12 -0
synth_ai/cli/train/core.py +21 -0
synth_ai/cli/train/errors.py +8 -0
synth_ai/cli/train/validation.py +24 -0
synth_ai/cli/train.py +5 -0
synth_ai/cli/turso.py +73 -0
synth_ai/cli/watch.py +13 -18
synth_ai/demos/__init__.py +10 -0
synth_ai/demos/core/__init__.py +28 -1
synth_ai/demos/core/cli.py +579 -291
synth_ai/demos/crafter/__init__.py +1 -0
synth_ai/demos/crafter/crafter_fft_4b.toml +55 -0
synth_ai/demos/crafter/grpo_crafter_task_app.py +185 -0
synth_ai/demos/crafter/rl_from_base_qwen4b.toml +74 -0
synth_ai/demos/demo_registry.py +176 -0
synth_ai/demos/demo_task_apps/__init__.py +3 -3
synth_ai/demos/demo_task_apps/core.py +64 -28
synth_ai/demos/demo_task_apps/crafter/__init__.py +1 -0
synth_ai/demos/demo_task_apps/crafter/configs/crafter_fft_4b.toml +53 -0
synth_ai/demos/demo_task_apps/crafter/configs/rl_from_base_qwen4b.toml +73 -0
synth_ai/demos/demo_task_apps/crafter/grpo_crafter_task_app.py +184 -0
synth_ai/demos/demo_task_apps/math/_common.py +1 -2
synth_ai/demos/demo_task_apps/math/app.py +2 -1
synth_ai/demos/demo_task_apps/math/deploy_modal.py +3 -6
synth_ai/demos/demo_task_apps/math/modal_task_app.py +185 -83
synth_ai/demos/demo_task_apps/math/task_app_entry.py +0 -2
synth_ai/demos/math/__init__.py +1 -0
synth_ai/demos/math/_common.py +16 -0
synth_ai/demos/math/app.py +38 -0
synth_ai/demos/math/config.toml +76 -0
synth_ai/demos/math/deploy_modal.py +54 -0
synth_ai/demos/math/modal_task_app.py +703 -0
synth_ai/demos/math/task_app_entry.py +51 -0
synth_ai/environments/environment/core.py +7 -1
synth_ai/environments/examples/bandit/engine.py +12 -5
synth_ai/environments/examples/bandit/environment.py +0 -1
synth_ai/environments/examples/bandit/taskset.py +4 -4
synth_ai/environments/examples/crafter_classic/engine_deterministic_patch.py +7 -4
synth_ai/environments/examples/crafter_classic/engine_serialization_patch_v3.py +9 -5
synth_ai/environments/examples/crafter_classic/environment.py +93 -2
synth_ai/environments/examples/crafter_classic/world_config_patch_simple.py +4 -3
synth_ai/environments/examples/enron/engine.py +7 -2
synth_ai/environments/examples/enron/environment.py +68 -0
synth_ai/environments/examples/red/engine.py +60 -12
synth_ai/environments/examples/red/engine_helpers/memory_map.py +7 -0
synth_ai/environments/examples/red/engine_helpers/reward_components.py +151 -179
synth_ai/environments/examples/red/engine_helpers/reward_library/pallet_town_progression.py +477 -0
synth_ai/environments/examples/red/engine_helpers/state_extraction.py +32 -0
synth_ai/environments/examples/red/environment.py +86 -0
synth_ai/environments/examples/red/trace_hooks_v3.py +168 -0
synth_ai/environments/examples/sokoban/taskset.py +116 -0
synth_ai/environments/examples/verilog/engine.py +104 -12
synth_ai/environments/examples/wordle/environment.py +0 -1
synth_ai/environments/reproducibility/tree.py +5 -6
synth_ai/environments/service/app.py +11 -12
synth_ai/environments/service/core_routes.py +10 -9
synth_ai/environments/stateful/engine.py +1 -1
synth_ai/environments/tasks/core.py +1 -0
synth_ai/environments/tasks/filters.py +5 -6
synth_ai/environments/tasks/utils.py +4 -5
synth_ai/evals/__init__.py +15 -0
synth_ai/evals/base.py +14 -5
synth_ai/evals/client.py +82 -0
synth_ai/evals/types.py +42 -0
synth_ai/http.py +8 -22
synth_ai/http_client.py +45 -12
synth_ai/inference/__init__.py +0 -2
synth_ai/inference/client.py +21 -7
synth_ai/jobs/client.py +129 -80
synth_ai/judge_schemas.py +127 -0
synth_ai/learning/__init__.py +51 -6
synth_ai/learning/algorithms.py +14 -0
synth_ai/learning/client.py +122 -30
synth_ai/learning/config.py +2 -40
synth_ai/learning/constants.py +0 -2
synth_ai/learning/ft_client.py +4 -56
synth_ai/learning/health.py +14 -8
synth_ai/learning/jobs.py +43 -47
synth_ai/learning/prompt_learning_client.py +276 -0
synth_ai/learning/prompt_learning_types.py +185 -0
synth_ai/{rl → learning/rl}/__init__.py +14 -5
synth_ai/learning/rl/client.py +269 -0
synth_ai/learning/rl/config.py +31 -0
synth_ai/{rl → learning/rl}/contracts.py +5 -10
synth_ai/{rl → learning/rl}/env_keys.py +45 -16
synth_ai/learning/rl/secrets.py +13 -0
synth_ai/learning/rl_client.py +2 -253
synth_ai/learning/sft/__init__.py +29 -0
synth_ai/learning/sft/client.py +68 -0
synth_ai/learning/sft/config.py +270 -0
synth_ai/learning/sft/data.py +698 -0
synth_ai/learning/sse.py +25 -26
synth_ai/learning/validators.py +29 -25
synth_ai/mcp/__init__.py +5 -0
synth_ai/mcp/__main__.py +8 -0
synth_ai/mcp/main.py +254 -0
synth_ai/mcp/setup.py +100 -0
synth_ai/modal.py +257 -0
synth_ai/pricing/__init__.py +3 -0
synth_ai/pricing/model_pricing.py +64 -0
synth_ai/session/__init__.py +75 -0
synth_ai/session/client.py +383 -0
synth_ai/session/constants.py +63 -0
synth_ai/session/exceptions.py +105 -0
synth_ai/session/manager.py +139 -0
synth_ai/session/models.py +89 -0
synth_ai/session/query.py +110 -0
synth_ai/spec/__init__.py +46 -0
synth_ai/spec/dataclasses.py +149 -0
synth_ai/spec/loader.py +144 -0
synth_ai/spec/serializer.py +199 -0
synth_ai/spec/validation.py +250 -0
synth_ai/streaming/__init__.py +29 -0
synth_ai/streaming/config.py +94 -0
synth_ai/streaming/handlers.py +589 -0
synth_ai/streaming/streamer.py +320 -0
synth_ai/streaming/types.py +95 -0
synth_ai/task/__init__.py +50 -30
synth_ai/task/apps/__init__.py +63 -19
synth_ai/task/auth.py +35 -23
synth_ai/task/client.py +15 -13
synth_ai/task/config.py +261 -0
synth_ai/task/contracts.py +165 -64
synth_ai/task/datasets.py +9 -6
synth_ai/task/errors.py +11 -10
synth_ai/task/health.py +17 -11
synth_ai/task/inference_api.py +101 -0
synth_ai/task/json.py +58 -24
synth_ai/task/proxy.py +59 -66
synth_ai/task/rubrics/__init__.py +55 -0
synth_ai/task/rubrics/loaders.py +156 -0
synth_ai/task/rubrics/models.py +57 -0
synth_ai/task/rubrics/scoring.py +116 -0
synth_ai/task/rubrics/strict.py +149 -0
synth_ai/task/rubrics.py +22 -15
synth_ai/task/server.py +65 -31
synth_ai/task/trace_correlation_helpers.py +328 -0
synth_ai/task/tracing_utils.py +44 -28
synth_ai/task/validators.py +449 -6
synth_ai/task/vendors.py +5 -7
synth_ai/tracing_v3/__init__.py +4 -0
synth_ai/tracing_v3/abstractions.py +21 -4
synth_ai/tracing_v3/config.py +167 -22
synth_ai/tracing_v3/constants.py +21 -0
synth_ai/tracing_v3/db_config.py +42 -29
synth_ai/tracing_v3/decorators.py +80 -45
synth_ai/tracing_v3/examples/basic_usage.py +15 -9
synth_ai/tracing_v3/hooks.py +6 -4
synth_ai/tracing_v3/llm_call_record_helpers.py +161 -61
synth_ai/tracing_v3/migration_helper.py +1 -2
synth_ai/tracing_v3/replica_sync.py +12 -7
synth_ai/tracing_v3/serialization.py +130 -0
synth_ai/tracing_v3/session_tracer.py +73 -16
synth_ai/tracing_v3/storage/base.py +89 -1
synth_ai/tracing_v3/storage/config.py +63 -16
synth_ai/tracing_v3/storage/factory.py +11 -9
synth_ai/tracing_v3/storage/utils.py +15 -11
synth_ai/tracing_v3/trace_utils.py +317 -0
synth_ai/tracing_v3/turso/__init__.py +8 -21
synth_ai/tracing_v3/turso/daemon.py +123 -15
synth_ai/tracing_v3/turso/models.py +5 -2
synth_ai/tracing_v3/turso/native_manager.py +1293 -0
synth_ai/tracing_v3/utils.py +5 -4
synth_ai/tunnel.py +143 -0
synth_ai/tunnel_deploy.py +278 -0
synth_ai/types.py +8 -0
synth_ai/urls.py +11 -0
synth_ai/utils/__init__.py +166 -0
synth_ai/utils/agents.py +74 -0
synth_ai/utils/apps.py +152 -0
synth_ai/utils/base_url.py +94 -0
synth_ai/utils/bin.py +39 -0
synth_ai/utils/claude.py +36 -0
synth_ai/utils/cli.py +284 -0
synth_ai/utils/config.py +81 -0
synth_ai/utils/env.py +346 -0
synth_ai/utils/errors.py +85 -0
synth_ai/utils/http.py +172 -0
synth_ai/utils/json.py +72 -0
synth_ai/utils/log_filter.py +99 -0
synth_ai/utils/logging.py +198 -0
synth_ai/utils/modal.py +299 -0
synth_ai/utils/paths.py +95 -0
synth_ai/utils/process.py +233 -0
synth_ai/utils/prompts.py +39 -0
synth_ai/utils/sqld.py +122 -0
synth_ai/utils/ssl.py +25 -0
synth_ai/utils/task_app_discovery.py +882 -0
synth_ai/utils/task_app_env.py +186 -0
synth_ai/utils/task_app_state.py +318 -0
synth_ai/utils/tunnel/__init__.py +12 -0
synth_ai/utils/tunnel/config.py +55 -0
synth_ai/utils/user_config.py +137 -0
synth_ai/uvicorn.py +77 -0
synth_ai-0.2.23.dev3.dist-info/METADATA +357 -0
synth_ai-0.2.23.dev3.dist-info/RECORD +983 -0
{synth_ai-0.2.9.dev0.dist-info → synth_ai-0.2.23.dev3.dist-info}/entry_points.txt +0 -1
{synth_ai-0.2.9.dev0.dist-info → synth_ai-0.2.23.dev3.dist-info}/top_level.txt +1 -0
synth_ai/cli/man.py +0 -106
synth_ai/core/experiment.py +0 -15
synth_ai/core/system.py +0 -15
synth_ai/demo_registry.py +0 -258
synth_ai/environments/examples/sokoban/units/astar_common.py +0 -95
synth_ai/experimental/synth_oss.py +0 -446
synth_ai/handshake.py +0 -107
synth_ai/install_sqld.sh +0 -40
synth_ai/learning/offline/dpo.py +0 -0
synth_ai/learning/offline/providers.py +0 -7
synth_ai/learning/offline/sft.py +0 -0
synth_ai/learning/offline/shared.py +0 -0
synth_ai/learning/online/grpo.py +0 -0
synth_ai/learning/online/irft.py +0 -0
synth_ai/learning/prompts/banking77_injection_eval.py +0 -168
synth_ai/learning/prompts/gepa.py +0 -0
synth_ai/learning/prompts/hello_world_in_context_injection_ex.py +0 -213
synth_ai/learning/prompts/mipro.py +0 -289
synth_ai/learning/prompts/random_search.py +0 -246
synth_ai/learning/prompts/run_mipro_banking77.py +0 -172
synth_ai/learning/prompts/run_random_search_banking77.py +0 -324
synth_ai/lm/__init__.py +0 -51
synth_ai/lm/caching/constants.py +0 -6
synth_ai/lm/caching/dbs.py +0 -0
synth_ai/lm/caching/ephemeral.py +0 -102
synth_ai/lm/caching/handler.py +0 -137
synth_ai/lm/caching/initialize.py +0 -11
synth_ai/lm/caching/persistent.py +0 -114
synth_ai/lm/config.py +0 -110
synth_ai/lm/constants.py +0 -32
synth_ai/lm/core/__init__.py +0 -8
synth_ai/lm/core/all.py +0 -73
synth_ai/lm/core/exceptions.py +0 -7
synth_ai/lm/core/main.py +0 -319
synth_ai/lm/core/main_v3.py +0 -594
synth_ai/lm/core/synth_models.py +0 -48
synth_ai/lm/core/vendor_clients.py +0 -188
synth_ai/lm/cost/monitor.py +0 -1
synth_ai/lm/cost/statefulness.py +0 -1
synth_ai/lm/injection.py +0 -80
synth_ai/lm/overrides.py +0 -206
synth_ai/lm/provider_support/__init__.py +0 -8
synth_ai/lm/provider_support/anthropic.py +0 -972
synth_ai/lm/provider_support/openai.py +0 -1139
synth_ai/lm/provider_support/suppress_logging.py +0 -31
synth_ai/lm/structured_outputs/handler.py +0 -440
synth_ai/lm/structured_outputs/inject.py +0 -297
synth_ai/lm/structured_outputs/rehabilitate.py +0 -185
synth_ai/lm/tools/__init__.py +0 -3
synth_ai/lm/tools/base.py +0 -172
synth_ai/lm/unified_interface.py +0 -202
synth_ai/lm/vendors/base.py +0 -81
synth_ai/lm/vendors/core/anthropic_api.py +0 -387
synth_ai/lm/vendors/core/gemini_api.py +0 -292
synth_ai/lm/vendors/core/mistral_api.py +0 -322
synth_ai/lm/vendors/core/openai_api.py +0 -225
synth_ai/lm/vendors/core/synth_dev_api.py +0 -0
synth_ai/lm/vendors/local/ollama.py +0 -0
synth_ai/lm/vendors/openai_standard.py +0 -780
synth_ai/lm/vendors/openai_standard_responses.py +0 -256
synth_ai/lm/vendors/retries.py +0 -22
synth_ai/lm/vendors/supported/custom_endpoint.py +0 -417
synth_ai/lm/vendors/supported/deepseek.py +0 -69
synth_ai/lm/vendors/supported/grok.py +0 -75
synth_ai/lm/vendors/supported/groq.py +0 -16
synth_ai/lm/vendors/supported/ollama.py +0 -15
synth_ai/lm/vendors/supported/openrouter.py +0 -74
synth_ai/lm/vendors/supported/together.py +0 -11
synth_ai/lm/vendors/synth_client.py +0 -808
synth_ai/lm/warmup.py +0 -186
synth_ai/rl/secrets.py +0 -19
synth_ai/scripts/verify_rewards.py +0 -100
synth_ai/task/apps/grpo_crafter.py +0 -438
synth_ai/tracing/__init__.py +0 -30
synth_ai/tracing_v1/__init__.py +0 -33
synth_ai/tracing_v3/turso/manager.py +0 -774
synth_ai/v0/tracing/abstractions.py +0 -224
synth_ai/v0/tracing/base_client.py +0 -91
synth_ai/v0/tracing/client_manager.py +0 -131
synth_ai/v0/tracing/config.py +0 -142
synth_ai/v0/tracing/context.py +0 -146
synth_ai/v0/tracing/decorators.py +0 -682
synth_ai/v0/tracing/events/__init__.py +0 -0
synth_ai/v0/tracing/events/manage.py +0 -147
synth_ai/v0/tracing/events/scope.py +0 -86
synth_ai/v0/tracing/events/store.py +0 -228
synth_ai/v0/tracing/immediate_client.py +0 -151
synth_ai/v0/tracing/local.py +0 -18
synth_ai/v0/tracing/log_client_base.py +0 -73
synth_ai/v0/tracing/retry_queue.py +0 -186
synth_ai/v0/tracing/trackers.py +0 -515
synth_ai/v0/tracing/upload.py +0 -512
synth_ai/v0/tracing/utils.py +0 -9
synth_ai/v0/tracing_v1/__init__.py +0 -16
synth_ai/v0/tracing_v1/abstractions.py +0 -224
synth_ai/v0/tracing_v1/base_client.py +0 -91
synth_ai/v0/tracing_v1/client_manager.py +0 -131
synth_ai/v0/tracing_v1/config.py +0 -142
synth_ai/v0/tracing_v1/context.py +0 -146
synth_ai/v0/tracing_v1/decorators.py +0 -703
synth_ai/v0/tracing_v1/events/__init__.py +0 -0
synth_ai/v0/tracing_v1/events/manage.py +0 -147
synth_ai/v0/tracing_v1/events/scope.py +0 -86
synth_ai/v0/tracing_v1/events/store.py +0 -228
synth_ai/v0/tracing_v1/immediate_client.py +0 -151
synth_ai/v0/tracing_v1/local.py +0 -18
synth_ai/v0/tracing_v1/log_client_base.py +0 -73
synth_ai/v0/tracing_v1/retry_queue.py +0 -186
synth_ai/v0/tracing_v1/trackers.py +0 -515
synth_ai/v0/tracing_v1/upload.py +0 -527
synth_ai/v0/tracing_v1/utils.py +0 -9
synth_ai/zyk/__init__.py +0 -30
synth_ai-0.2.9.dev0.dist-info/METADATA +0 -131
synth_ai-0.2.9.dev0.dist-info/RECORD +0 -444
{synth_ai/lm/caching → examples/task_apps}/__init__.py +0 -0
{synth_ai/lm/cost → examples/task_apps/crafter}/__init__.py +0 -0
{synth_ai/lm/structured_outputs → examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server}/__init__.py +0 -0
{synth_ai/lm/vendors → examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests}/__init__.py +0 -0
{synth_ai/lm/vendors/core → examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils}/__init__.py +0 -0
{synth_ai/lm/vendors/local → examples/task_apps/math}/__init__.py +0 -0
{synth_ai/lm/vendors/supported → examples/workflows}/__init__.py +0 -0
{synth_ai/v0/tracing → examples/workflows/math_rl}/__init__.py +0 -0
/synth_ai/{compound/cais.py → cli/__main__.py} +0 -0
/synth_ai/{learning/filtering.py → py.typed} +0 -0
{synth_ai-0.2.9.dev0.dist-info → synth_ai-0.2.23.dev3.dist-info}/WHEEL +0 -0
{synth_ai-0.2.9.dev0.dist-info → synth_ai-0.2.23.dev3.dist-info}/licenses/LICENSE +0 -0

examples/task_apps/pokemon_red/task_app.py ADDED Viewed

@@ -0,0 +1,1048 @@
+from __future__ import annotations
+import logging
+from typing import Any, Dict, Iterable, Mapping, Sequence
+from fastapi import HTTPException, Request
+import httpx
+from synth_ai.environments.examples.red.environment import PokemonRedEnvironment
+from synth_ai.environments.environment.tools import EnvToolCall
+from synth_ai.environments.examples.red.taskset import INSTANCE as RED_DEFAULT_INSTANCE
+from synth_ai.environments.examples.red.engine_helpers.reward_library.pallet_town_progression import (
+    PalletTownProgressionCompositeReward,
+)
+from synth_ai.task.apps import ModalDeploymentConfig, TaskAppEntry, register_task_app
+from synth_ai.task.contracts import (
+    RolloutMetrics,
+    RolloutRequest,
+    RolloutResponse,
+    RolloutStep,
+    RolloutTrajectory,
+    TaskInfo,
+)
+from synth_ai.task.server import ProxyConfig, TaskAppConfig
+from synth_ai.task.tracing_utils import (
+    build_tracer_factory,
+    resolve_sft_output_dir,
+    resolve_tracing_db_url,
+    tracing_env_enabled,
+)
+from synth_ai.tracing_v3.session_tracer import SessionTracer
+from synth_ai.tracing_v3.abstractions import EnvironmentEvent, TimeRecord
+from datetime import datetime, UTC
+logger = logging.getLogger(__name__)
+def _base_task_info() -> TaskInfo:
+    return TaskInfo(
+        task={"id": "pokemon_red", "name": "Pokémon Red", "version": "0.1.0"},
+        environment="pokemon_red",
+        action_space={
+            "type": "tool_call",
+            "tools": [
+                {
+                    "name": "press_button",
+                    "schema": {"button": "string", "frames": "int"},
+                },
+                {
+                    "name": "execute_sequence",
+                    "description": "Execute multiple button presses in sequence. More efficient than separate calls. Recommended: 5-10 actions per call.",
+                    "schema": {
+                        "type": "object",
+                        "properties": {
+                            "actions": {
+                                "type": "array",
+                                "items": {
+                                    "type": "object",
+                                    "properties": {
+                                        "button": {"type": "string", "enum": ["UP", "DOWN", "LEFT", "RIGHT", "A", "B", "START", "SELECT"]},
+                                        "frames": {"type": "integer", "minimum": 1, "maximum": 120}
+                                    },
+                                    "required": ["button", "frames"]
+                                },
+                                "minItems": 1,
+                                "maxItems": 20
+                            }
+                        },
+                        "required": ["actions"]
+                    },
+                }
+            ],
+            "max_calls": 1,
+        },
+        observation={
+            "summary": "GB memory-derived state with reward fields.",
+            "keys": [
+                "position",
+                "badges_earned",
+                "badges_bitfield",
+                "hp_status",
+                "party_level",
+                "party_xp",
+                "in_battle",
+                "step_count",
+                "reward_last_step",
+                "total_reward",
+                "terminated",
+            ],
+        },
+        dataset={"id": "pokemon_red_default", "name": "Pokémon Red Default", "version": "0.1.0"},
+        rubric={"version": "1", "criteria_count": 1, "source": "inline"},
+        inference={
+            "supports_proxy": True,
+            "tool": {"name": "press_button", "parallel_tool_calls": False},
+            "endpoints": {
+                "openai": "/proxy/v1/chat/completions",
+                "groq": "/proxy/groq/v1/chat/completions",
+            },
+        },
+        limits={"max_steps": 1000},
+    )
+def _describe_taskset() -> dict[str, Any]:
+    return {"id": "pokemon_red_default", "name": "Pokémon Red Default"}
+def _provide_task_instances(seeds: Sequence[int]) -> Iterable[TaskInfo]:
+    base = _base_task_info()
+    for s in seeds:
+        yield TaskInfo(
+            task=base.task,
+            environment=base.environment,
+            action_space=base.action_space,
+            observation={**base.observation, "seed": s},
+            dataset=base.dataset,
+            rubric=base.rubric,
+            inference=base.inference,
+            limits=base.limits,
+        )
+def _build_action_context(prev_state: dict[str, Any], current_state: dict[str, Any]) -> dict[str, Any]:
+    """Build action context dict with prev_ fields for reward calculation."""
+    return {
+        "prev_map_id": prev_state.get("map_id", 0),
+        "prev_player_x": prev_state.get("player_x", 0),
+        "prev_player_y": prev_state.get("player_y", 0),
+        "prev_party_count": prev_state.get("party_count", 0),
+        "prev_in_battle": prev_state.get("in_battle", False),
+        "prev_text_box_active": prev_state.get("text_box_active", False),
+        "prev_enemy_hp_current": prev_state.get("enemy_hp_current", 0),
+        "prev_enemy_hp_percentage": prev_state.get("enemy_hp_percentage", 0.0),
+        "prev_badges": prev_state.get("badges", 0),
+        "prev_party_level": prev_state.get("party_level", 0),
+        "prev_party_xp": prev_state.get("party_xp", 0),
+    }
+def _describe_milestone(current_state: dict[str, Any], prev_state: dict[str, Any], reward: float) -> str:
+    """Generate human-readable milestone description."""
+    descriptions = []
+    # Map transitions
+    prev_map = prev_state.get("map_id", -1)
+    curr_map = current_state.get("map_id", -1)
+    if prev_map != curr_map:
+        map_names = {0: "Pallet Town", 1: "Bedroom", 2: "House", 3: "Oak's Lab"}
+        descriptions.append(f"Moved from {map_names.get(prev_map, f'Map{prev_map}')} to {map_names.get(curr_map, f'Map{curr_map}')}")
+    # Party changes
+    prev_party = prev_state.get("party_count", 0)
+    curr_party = current_state.get("party_count", 0)
+    if curr_party > prev_party:
+        descriptions.append(f"Received Pokémon (party: {prev_party}→{curr_party})")
+    # Battle state
+    prev_battle = prev_state.get("in_battle", False)
+    curr_battle = current_state.get("in_battle", False)
+    if not prev_battle and curr_battle:
+        descriptions.append("Entered battle")
+    elif prev_battle and not curr_battle:
+        battle_outcome = current_state.get("battle_outcome", 0)
+        if battle_outcome == 1:
+            descriptions.append("Won battle")
+        elif battle_outcome == 2:
+            descriptions.append("Lost battle")
+    # HP damage
+    prev_enemy_hp = prev_state.get("enemy_hp_current", 0)
+    curr_enemy_hp = current_state.get("enemy_hp_current", 0)
+    if prev_enemy_hp > curr_enemy_hp > 0:
+        damage = prev_enemy_hp - curr_enemy_hp
+        descriptions.append(f"Dealt {damage} damage to enemy")
+    return " | ".join(descriptions) if descriptions else f"Progress (+{reward:.0f})"
+def _calculate_outcome_score(final_state: dict[str, Any], total_reward: float) -> float:
+    """Calculate outcome score based on final state and total reward."""
+    # Normalize reward to 0-1 scale (max expected is ~700)
+    reward_score = min(total_reward / 700.0, 1.0)
+    # Bonus for having Pokemon
+    has_pokemon = 1.0 if final_state.get("party_count", 0) > 0 else 0.0
+    # Bonus for being in Oak's lab or having left it
+    map_id = final_state.get("map_id", -1)
+    map_bonus = 0.5 if map_id in [0, 3] else 0.0  # Pallet Town or Oak's Lab
+    # Weighted combination
+    return (reward_score * 0.7) + (has_pokemon * 0.2) + (map_bonus * 0.1)
+async def rollout_executor(request: RolloutRequest, fastapi_request: Request) -> RolloutResponse:
+    # Initialize SessionTracer for this rollout
+    tracer_factory = getattr(fastapi_request.app.state, "session_tracer_factory", None)
+    tracer_instance: SessionTracer | None = None
+    if callable(tracer_factory):
+        try:
+            inst = tracer_factory()
+            tracer_instance = inst if isinstance(inst, SessionTracer) else None
+        except Exception as exc:
+            logger.debug(f"TRACER_FACTORY_FAIL: {exc}")
+    # Start tracing session
+    if tracer_instance is not None:
+        try:
+            await tracer_instance.initialize()
+            await tracer_instance.start_session(
+                session_id=request.run_id,
+                metadata={
+                    "run_id": request.run_id,
+                    "env_name": "pokemon_red",
+                    "policy_name": request.policy.policy_name or "default",
+                    "seed": request.env.seed,
+                }
+            )
+            logger.info(f"[pokemon_red] tracing enabled for run_id={request.run_id}")
+        except Exception as exc:
+            logger.warning(f"[pokemon_red] tracing init failed: {exc}")
+            tracer_instance = None
+    async def _call_inference(policy_cfg: Mapping[str, Any], observation: Mapping[str, Any]) -> Mapping[str, Any]:
+        # Check if vision mode is enabled
+        use_vision = bool(policy_cfg.get("use_vision", False))
+        image_only_mode = bool(policy_cfg.get("image_only_mode", False))
+        # Build user message content
+        if use_vision and "observation_image_data_url" in observation:
+            # Extract image data URL
+            image_data_url = observation["observation_image_data_url"]
+            # Build state summary (text observation)
+            state_summary = "State summary: " + str({
+                k: observation.get(k)
+                for k in observation.keys()
+                if k not in ["error", "observation_image_base64", "observation_image_data_url",
+                            "observation_image_format", "observation_image_width", "observation_image_height"]
+            })
+            # Image-only mode: only send image, no text
+            if image_only_mode:
+                user_content = [
+                    {"type": "image_url", "image_url": {"url": image_data_url}}
+                ]
+            else:
+                # Vision mode with text: send both text and image
+                user_content = [
+                    {"type": "text", "text": state_summary},
+                    {"type": "image_url", "image_url": {"url": image_data_url}}
+                ]
+        else:
+            # Text-only mode (default)
+            state_summary = "State summary: " + str({
+                k: observation.get(k) for k in observation.keys() if k != "error"
+            })
+            user_content = state_summary
+        messages = [
+            {
+                "role": "system",
+                "content": (
+                    "You are controlling Pokémon Red, a classic Game Boy game. You can see the game screen in the images provided. "
+                    "Your goal is to make progress in the game. "
+                    "IMPORTANT: Always use the 'execute_sequence' tool to submit 5-10 actions per call. "
+                    "Do not reason about which tool to use - execute_sequence is the only tool available. "
+                    "Choose appropriate button presses based on what you see in the game screen. "
+                    "Plan 5-10 actions ahead to play efficiently. "
+                    "CRITICAL: If stuck in a text box (text_box_active=True), try pressing B button first, then try A. "
+                    "Always respond with exactly one tool call containing 5-10 actions."
+                ),
+            },
+            {
+                "role": "user",
+                "content": user_content,
+            },
+        ]
+        payload = {
+            "model": policy_cfg.get("model") or "qwen-2.5-7b",
+            "messages": messages,
+            "tools": [
+                {
+                    "type": "function",
+                    "function": {
+                        "name": "execute_sequence",
+                        "description": "Execute multiple button presses in sequence. More efficient than separate calls. ALWAYS use this tool. Plan 5-10 actions ahead to play efficiently.",
+                        "parameters": {
+                            "type": "object",
+                            "properties": {
+                                "actions": {
+                                    "type": "array",
+                                    "items": {
+                                        "type": "object",
+                                        "properties": {
+                                            "button": {
+                                                "type": "string",
+                                                "enum": ["UP", "DOWN", "LEFT", "RIGHT", "A", "B", "START", "SELECT"],
+                                                "description": "Game Boy button to press"
+                                            },
+                                            "frames": {
+                                                "type": "integer",
+                                                "minimum": 1,
+                                                "maximum": 120,
+                                                "description": "Number of frames to hold the button (30 frames = 0.5 seconds)"
+                                            }
+                                        },
+                                        "required": ["button", "frames"]
+                                    },
+                                    "minItems": 5,
+                                    "maxItems": 10,
+                                    "description": "Sequence of 5-10 button presses to execute. Plan ahead to navigate efficiently."
+                                }
+                            },
+                            "required": ["actions"],
+                            "additionalProperties": False,
+                        },
+                    },
+                }
+            ],
+            "tool_choice": {"type": "function", "function": {"name": "execute_sequence"}},
+            "temperature": float(policy_cfg.get("temperature") or 0.0),
+            "top_p": float(policy_cfg.get("top_p") or 1.0),
+            "max_tokens": int(policy_cfg.get("max_tokens") or 500),
+        }
+        inference_url = str(policy_cfg.get("inference_url") or "").rstrip("/")
+        # Determine if this is an external URL or internal proxy
+        is_external = inference_url.startswith("http://") or inference_url.startswith("https://")
+        if not inference_url:
+            # Prefer built-in proxy endpoints from app if no external URL
+            provider = (policy_cfg.get("provider") or "").lower()
+            if provider == "groq":
+                inference_url = "/proxy/groq/v1/chat/completions"
+            else:
+                inference_url = "/proxy/v1/chat/completions"
+            is_external = False
+        elif is_external:
+            # Add /v1/chat/completions if using OpenAI directly
+            if "api.openai.com" in inference_url and not inference_url.endswith("/chat/completions"):
+                inference_url = inference_url + "/v1/chat/completions"
+        # Debug: print exact payload being sent
+        import json as _json_debug
+        print(f"\n{'='*80}")
+        print(f"[pokemon_red] INFERENCE REQUEST DEBUG")
+        print(f"{'='*80}")
+        print(f"Inference URL: {inference_url}")
+        print(f"Payload keys: {list(payload.keys())}")
+        print(f"Payload (formatted):")
+        print(_json_debug.dumps(payload, indent=2)[:2000])
+        print(f"{'='*80}\n")
+        if is_external:
+            # External API: use direct HTTP client with auth header
+            headers = {}
+            import os
+            if "api.openai.com" in inference_url:
+                api_key = os.getenv("OPENAI_API_KEY")
+                if api_key:
+                    headers["Authorization"] = f"Bearer {api_key}"
+            elif "modal.run" in inference_url or "synth" in inference_url.lower():
+                # Synth API: use SYNTH_API_KEY
+                api_key = os.getenv("SYNTH_API_KEY")
+                if api_key:
+                    headers["Authorization"] = f"Bearer {api_key}"
+                print(f"[pokemon_red] Using Synth API auth: {'Bearer ' + api_key[:10] + '...' if api_key else 'NONE'}")
+                # For 30B-A3B models, require H200 (A100 doesn't have enough memory)
+                model_id = payload.get("model", "")
+                if "30B-A3B" in model_id or "A3B" in model_id:
+                    headers["X-GPU-Preference"] = "H200"
+                    print(f"[pokemon_red] Setting X-GPU-Preference: H200 (required for A3B MoE)")
+            async with httpx.AsyncClient(timeout=httpx.Timeout(connect=30.0, read=1800.0, write=60.0, pool=60.0)) as client:  # 30 min read timeout for cold starts
+                resp = await client.post(inference_url, json=payload, headers=headers)
+        else:
+            # Internal proxy: use local base_url
+            async with httpx.AsyncClient(
+                base_url="http://127.0.0.1:" + str(fastapi_request.url.port or 8913),
+                timeout=httpx.Timeout(connect=30.0, read=1800.0, write=60.0, pool=60.0)  # 30 min read timeout for cold starts
+            ) as client:
+                resp = await client.post(inference_url, json=payload)
+        resp.raise_for_status()
+        data = resp.json()
+        # Record user message (system + user)
+        if tracer_instance is not None:
+            try:
+                print(f"[pokemon_red] Recording messages: tracer_instance={tracer_instance is not None}", flush=True)
+                # Record system message
+                await tracer_instance.record_message(
+                    content=messages[0].get("content", ""),
+                    message_type="system",
+                )
+                # Record user message
+                user_msg_content = messages[1].get("content", "")
+                if isinstance(user_msg_content, list):
+                    # For multimodal content, extract text summary
+                    text_parts = [item.get("text", "") for item in user_msg_content if item.get("type") == "text"]
+                    user_msg_content = " ".join(text_parts) if text_parts else str(user_msg_content)
+                await tracer_instance.record_message(
+                    content=user_msg_content,
+                    message_type="user",
+                )
+                print(f"[pokemon_red] Recorded user messages", flush=True)
+            except Exception as exc:
+                logger.debug(f"[pokemon_red] Failed to record user messages: {exc}")
+                print(f"[pokemon_red] ERROR recording user messages: {exc}", flush=True)
+        # Debug logging for tool calls
+        print(f"\n{'='*80}")
+        print(f"[pokemon_red] INFERENCE RESPONSE DEBUG")
+        print(f"{'='*80}")
+        print(f"Response status: {resp.status_code}")
+        print(f"Response keys: {list(data.keys())}")
+        choices = data.get("choices") or []
+        if choices:
+            message = choices[0].get("message") or {}
+            print(f"Message keys: {list(message.keys())}")
+            print(f"Message content preview: {str(message.get('content', ''))[:200]}")
+            print(f"Tool calls: {message.get('tool_calls', [])}")
+            print(f"Full message (formatted):")
+            print(_json_debug.dumps(message, indent=2)[:1500])
+        print(f"{'='*80}\n")
+        # Record assistant message/tool calls
+        if tracer_instance is not None:
+            try:
+                message = choices[0].get("message", {}) if choices else {}
+                tool_calls = message.get("tool_calls", [])
+                content = message.get("content", "")
+                if tool_calls:
+                    # Record tool calls as assistant message
+                    import json as _json_record
+                    await tracer_instance.record_message(
+                        content=_json_record.dumps(tool_calls) if tool_calls else (content or ""),
+                        message_type="assistant",
+                        metadata={"is_tool_call": True} if tool_calls else {},
+                    )
+                elif content:
+                    # Record text content as assistant message
+                    await tracer_instance.record_message(
+                        content=content,
+                        message_type="assistant",
+                    )
+            except Exception as exc:
+                logger.debug(f"[pokemon_red] Failed to record assistant message: {exc}")
+        # Extract first tool call
+        if not choices:
+            print("[pokemon_red] WARNING: No choices in inference response")
+            return {}
+        message = choices[0].get("message") or {}
+        raw_calls = message.get("tool_calls") or []
+        # If no structured tool_calls, try parsing XML tool calls from content
+        if not raw_calls:
+            content = message.get("content", "")
+            if content and "<tool_call>" in content:
+                import re as _re
+                import json as _json_parse
+                # Parse XML tool calls: <tool_call>{...}</tool_call>
+                xml_pattern = r'<tool_call>\s*({.*?})\s*</tool_call>'
+                matches = _re.findall(xml_pattern, content, _re.DOTALL)
+                if matches:
+                    print(f"[pokemon_red] Parsed {len(matches)} XML tool call(s) from content")
+                    try:
+                        tool_data = _json_parse.loads(matches[0])
+                        tool_name = tool_data.get("name", "")
+                        args = tool_data.get("arguments", {})
+                        print(f"[pokemon_red] Parsed tool: {tool_name}, args: {str(args)[:200]}")
+                        # Handle execute_sequence tool
+                        if tool_name == "execute_sequence":
+                            return {"actions": args.get("actions", [])}
+                        # Handle press_button tool (legacy single action)
+                        if tool_name == "press_button":
+                            return {"button": args.get("button"), "frames": int(args.get("frames") or 30)}
+                    except Exception as parse_err:
+                        print(f"[pokemon_red] Error parsing XML tool call: {parse_err}")
+        if not raw_calls:
+            print(f"[pokemon_red] WARNING: No tool_calls in response. Content: {message.get('content', '')[:200]}")
+            return {}
+        f = raw_calls[0].get("function") or {}
+        tool_name = f.get("name", "")
+        args = f.get("arguments")
+        import json as _json
+        try:
+            parsed_args = _json.loads(args) if isinstance(args, str) else dict(args or {})
+        except Exception:
+            parsed_args = {}
+        # Handle execute_sequence tool
+        if tool_name == "execute_sequence":
+            return {"actions": parsed_args.get("actions", [])}
+        # Handle press_button tool (legacy single action)
+        return {"button": parsed_args.get("button"), "frames": int(parsed_args.get("frames") or 30)}
+    # Initialize reward function
+    reward_fn = PalletTownProgressionCompositeReward()
+    env = PokemonRedEnvironment(RED_DEFAULT_INSTANCE)
+    obs0 = await env.initialize()
+    # Track cumulative stats
+    total_reward = 0.0
+    all_reward_components: list[dict[str, Any]] = []
+    milestone_events: list[dict[str, Any]] = []
+    steps: list[RolloutStep] = [
+        RolloutStep(obs=obs0, tool_calls=[], reward=0.0, done=False, info={"step_type": "initial"}),
+    ]
+    # Track previous state for reward calculation
+    prev_state = dict(obs0) if isinstance(obs0, Mapping) else {}
+    # Process all ops (explicit actions)
+    final_obs = obs0
+    for step_idx, op in enumerate(request.ops or []):
+        macro = None
+        if isinstance(op, dict):
+            macro = op.get("action") or op
+        if isinstance(macro, dict):
+            # Check if this is an execute_sequence call
+            if "actions" in macro:
+                # Handle execute_sequence: multiple actions in one call
+                actions_list = macro.get("actions", [])
+                sequence_reward = 0.0
+                sequence_tool_calls = []
+                for action_item in actions_list:
+                    button = action_item.get("button", "A")
+                    frames = int(action_item.get("frames", 1))
+                    obs1 = await env.step(EnvToolCall(tool="press_button", args={"button": button, "frames": frames}))
+                    current_state = dict(obs1) if isinstance(obs1, Mapping) else {}
+                    action_context = _build_action_context(prev_state, current_state)
+                    step_reward = await reward_fn.score(current_state, action_context)
+                    # Record environment event
+                    if tracer_instance is not None:
+                        try:
+                            event = EnvironmentEvent(
+                                system_instance_id="environment:pokemon_red",
+                                time_record=TimeRecord(event_time=datetime.now(UTC).timestamp()),
+                                reward=step_reward,
+                                terminated=False,
+                                truncated=False,
+                                system_state_before={"map_id": prev_state.get("map_id"), "position": f"({prev_state.get('player_x')},{prev_state.get('player_y')})"},
+                                system_state_after={"map_id": current_state.get("map_id"), "position": f"({current_state.get('player_x')},{current_state.get('player_y')})"},
+                                metadata={"step": step_idx + 1, "button": button, "run_id": request.run_id},
+                            )
+                            await tracer_instance.record_event(event)
+                        except Exception as exc:
+                            logger.debug(f"[pokemon_red] Failed to record environment event: {exc}")
+                    sequence_reward += step_reward
+                    sequence_tool_calls.append({"tool": "press_button", "args": {"button": button, "frames": frames}})
+                    if step_reward > 0:
+                        reward_component = {
+                            "step": step_idx + 1,
+                            "reward": step_reward,
+                            "button": button,
+                            "map_id": current_state.get("map_id"),
+                            "position": f"({current_state.get('player_x')},{current_state.get('player_y')})",
+                        }
+                        all_reward_components.append(reward_component)
+                        milestone_events.append({
+                            "type": "milestone",
+                            "step": step_idx + 1,
+                            "reward": step_reward,
+                            "description": _describe_milestone(current_state, prev_state, step_reward),
+                        })
+                    final_obs = obs1
+                    prev_state = current_state
+                total_reward += sequence_reward
+                step_info = {
+                    "step_type": "sequence",
+                    "step_idx": step_idx,
+                    "actions_count": len(actions_list),
+                    "cumulative_reward": total_reward,
+                }
+                if sequence_reward > 0:
+                    step_info["sequence_reward"] = sequence_reward
+                steps.append(
+                    RolloutStep(
+                        obs=final_obs,
+                        tool_calls=sequence_tool_calls,
+                        reward=sequence_reward,
+                        done=False,
+                        info=step_info,
+                    )
+                )
+            else:
+                # Handle single press_button call
+                button = macro.get("button") or "A"
+                frames = int(macro.get("frames") or 1)
+                obs1 = await env.step(EnvToolCall(tool="press_button", args={"button": button, "frames": frames}))
+                # Calculate step reward
+                current_state = dict(obs1) if isinstance(obs1, Mapping) else {}
+                action_context = _build_action_context(prev_state, current_state)
+                step_reward = await reward_fn.score(current_state, action_context)
+                # Record environment event
+                if tracer_instance is not None:
+                    try:
+                        event = EnvironmentEvent(
+                            system_instance_id="environment:pokemon_red",
+                            time_record=TimeRecord(event_time=datetime.now(UTC).timestamp()),
+                            reward=step_reward,
+                            terminated=False,
+                            truncated=False,
+                            system_state_before={"map_id": prev_state.get("map_id"), "position": f"({prev_state.get('player_x')},{prev_state.get('player_y')})"},
+                            system_state_after={"map_id": current_state.get("map_id"), "position": f"({current_state.get('player_x')},{current_state.get('player_y')})"},
+                            metadata={"step": step_idx + 1, "button": button, "run_id": request.run_id},
+                        )
+                        await tracer_instance.record_event(event)
+                    except Exception as exc:
+                        logger.debug(f"[pokemon_red] Failed to record environment event: {exc}")
+                total_reward += step_reward
+                # Track reward components if non-zero
+                step_info: dict[str, Any] = {"step_type": "action", "step_idx": step_idx}
+                if step_reward > 0:
+                    reward_component = {
+                        "step": step_idx + 1,
+                        "reward": step_reward,
+                        "button": button,
+                        "map_id": current_state.get("map_id"),
+                        "position": f"({current_state.get('player_x')},{current_state.get('player_y')})",
+                    }
+                    all_reward_components.append(reward_component)
+                    step_info["reward_component"] = reward_component
+                    # Track milestone events
+                    milestone_events.append({
+                        "type": "milestone",
+                        "step": step_idx + 1,
+                        "reward": step_reward,
+                        "description": _describe_milestone(current_state, prev_state, step_reward),
+                    })
+                step_info["cumulative_reward"] = total_reward
+                steps.append(
+                    RolloutStep(
+                        obs=obs1,
+                        tool_calls=[{"tool": "press_button", "args": {"button": button, "frames": frames}}],
+                        reward=step_reward,
+                        done=False,
+                        info=step_info,
+                    )
+                )
+                final_obs = obs1
+                prev_state = current_state
+        else:
+            # Attempt policy-driven step if policy.config present
+            policy_cfg = request.policy.config or {}
+            if policy_cfg:
+                print(f"[pokemon_red] Calling _call_inference: tracer_instance={tracer_instance is not None}", flush=True)
+                try:
+                    action = await _call_inference(policy_cfg, final_obs if isinstance(final_obs, Mapping) else {})
+                    # Handle execute_sequence from policy
+                    if "actions" in action:
+                        actions_list = action.get("actions", [])
+                        sequence_reward = 0.0
+                        sequence_tool_calls = []
+                        for action_item in actions_list:
+                            button = action_item.get("button", "A")
+                            frames = int(action_item.get("frames", 30))
+                            obs1 = await env.step(EnvToolCall(tool="press_button", args={"button": button, "frames": frames}))
+                            current_state = dict(obs1) if isinstance(obs1, Mapping) else {}
+                            action_context = _build_action_context(prev_state, current_state)
+                            step_reward = await reward_fn.score(current_state, action_context)
+                            # Record environment event
+                            if tracer_instance is not None:
+                                try:
+                                    event = EnvironmentEvent(
+                                        system_instance_id="environment:pokemon_red",
+                                        time_record=TimeRecord(event_time=datetime.now(UTC).timestamp()),
+                                        reward=step_reward,
+                                        terminated=False,
+                                        truncated=False,
+                                        system_state_before={"map_id": prev_state.get("map_id"), "position": f"({prev_state.get('player_x')},{prev_state.get('player_y')})"},
+                                        system_state_after={"map_id": current_state.get("map_id"), "position": f"({current_state.get('player_x')},{current_state.get('player_y')})"},
+                                        metadata={"step": step_idx + 1, "button": button, "run_id": request.run_id},
+                                    )
+                                    await tracer_instance.record_event(event)
+                                except Exception as exc:
+                                    logger.debug(f"[pokemon_red] Failed to record environment event: {exc}")
+                            sequence_reward += step_reward
+                            sequence_tool_calls.append({"tool": "press_button", "args": {"button": button, "frames": frames}})
+                            if step_reward > 0:
+                                reward_component = {
+                                    "step": step_idx + 1,
+                                    "reward": step_reward,
+                                    "button": button,
+                                    "map_id": current_state.get("map_id"),
+                                    "position": f"({current_state.get('player_x')},{current_state.get('player_y')})",
+                                }
+                                all_reward_components.append(reward_component)
+                                milestone_events.append({
+                                    "type": "milestone",
+                                    "step": step_idx + 1,
+                                    "reward": step_reward,
+                                    "description": _describe_milestone(current_state, prev_state, step_reward),
+                                })
+                            final_obs = obs1
+                            prev_state = current_state
+                        total_reward += sequence_reward
+                        step_info = {
+                            "step_type": "policy_sequence",
+                            "step_idx": step_idx,
+                            "actions_count": len(actions_list),
+                            "cumulative_reward": total_reward,
+                        }
+                        if sequence_reward > 0:
+                            step_info["sequence_reward"] = sequence_reward
+                        steps.append(
+                            RolloutStep(
+                                obs=final_obs,
+                                tool_calls=sequence_tool_calls,
+                                reward=sequence_reward,
+                                done=False,
+                                info=step_info,
+                            )
+                        )
+                    # Handle single button press from policy
+                    elif action.get("button"):
+                        obs1 = await env.step(EnvToolCall(tool="press_button", args=action))
+                        # Calculate step reward
+                        current_state = dict(obs1) if isinstance(obs1, Mapping) else {}
+                        action_context = _build_action_context(prev_state, current_state)
+                        step_reward = await reward_fn.score(current_state, action_context)
+                        total_reward += step_reward
+                        step_info_policy: dict[str, Any] = {
+                            "step_type": "policy",
+                            "step_idx": step_idx,
+                            "cumulative_reward": total_reward,
+                            "proxy": True,
+                        }
+                        if step_reward > 0:
+                            step_info_policy["reward_earned"] = step_reward
+                        steps.append(
+                            RolloutStep(
+                                obs=obs1,
+                                tool_calls=[{"tool": "press_button", "args": action}],
+                                reward=step_reward,
+                                done=False,
+                                info=step_info_policy,
+                            )
+                        )
+                        final_obs = obs1
+                        prev_state = current_state
+                except Exception:
+                    pass
+    # Calculate outcome score based on milestones achieved
+    final_state = dict(final_obs) if isinstance(final_obs, Mapping) else {}
+    outcome_score = _calculate_outcome_score(final_state, total_reward)
+    metrics = RolloutMetrics(
+        episode_returns=[total_reward],
+        mean_return=total_reward,
+        num_steps=len(steps),
+        num_episodes=1,
+        outcome_score=outcome_score,
+        details={
+            "total_reward": total_reward,
+            "reward_components": all_reward_components,
+            "milestone_events": milestone_events,
+            "final_map": final_state.get("map_id"),
+            "party_count": final_state.get("party_count", 0),
+            "badges": final_state.get("badges", 0),
+        },
+    )
+    # Extract inference_url from policy config
+    inference_url = (policy_cfg or {}).get("inference_url")
+    trajectory = RolloutTrajectory(
+        env_id="pokemon_red",
+        policy_id=request.policy.policy_id or "policy",
+        steps=steps,
+        final={"observation": final_obs, "reward": total_reward},
+        length=len(steps),
+        inference_url=inference_url,  # NEW: Required for trace correlation
+    )
+    # Record outcome rewards and end session
+    trace_payload = None
+    if tracer_instance is not None:
+        try:
+            # Count achievements (milestones)
+            achievements_count = len(milestone_events)
+            # Build metadata with all relevant info
+            reward_metadata = {
+                "run_id": request.run_id,
+                "env_name": "pokemon_red",
+                "final_map": final_state.get("map_id", -1),
+                "party_count": final_state.get("party_count", 0),
+                "badges": final_state.get("badges", 0),
+                "steps": len(steps),
+                "milestone_events": milestone_events,
+                "reward_components": all_reward_components,
+            }
+            # Record outcome reward to Turso
+            await tracer_instance.record_outcome_reward(
+                total_reward=int(total_reward),
+                achievements_count=achievements_count,
+                total_steps=len(steps),
+                reward_metadata=reward_metadata,
+            )
+            logger.info(f"[pokemon_red] recorded outcome: reward={total_reward}, achievements={achievements_count}")
+            # End session and get trace
+            session_trace = await tracer_instance.end_session()
+            # Build trace payload if requested - ALWAYS use full format when return_trace=True
+            # This ensures markov_blanket_message_history is always included
+            record_config = getattr(request, 'record', None)
+            print(f"[pokemon_red] TRACE DEBUG: record_config={record_config}, return_trace={getattr(record_config, 'return_trace', None) if record_config else None}, session_trace={session_trace is not None}", flush=True)
+            if session_trace:
+                print(f"[pokemon_red] TRACE DEBUG: IMMEDIATELY AFTER end_session: session_trace has {len(session_trace.markov_blanket_message_history)} messages, {len(session_trace.event_history)} events", flush=True)
+                print(f"[pokemon_red] TRACE DEBUG: session_trace.markov_blanket_message_history type: {type(session_trace.markov_blanket_message_history)}", flush=True)
+                if session_trace.markov_blanket_message_history:
+                    print(f"[pokemon_red] TRACE DEBUG: First message type: {type(session_trace.markov_blanket_message_history[0])}, content: {str(session_trace.markov_blanket_message_history[0].content)[:100]}", flush=True)
+                else:
+                    print(f"[pokemon_red] TRACE DEBUG: WARNING - markov_blanket_message_history is EMPTY RIGHT AFTER end_session!", flush=True)
+            if record_config and getattr(record_config, 'return_trace', False) and session_trace:
+                # Always return full trace with all messages and events (no compact format)
+                import dataclasses
+                trace_payload = session_trace.to_dict()
+                print(f"[pokemon_red] TRACE DEBUG: to_dict() returned keys: {list(trace_payload.keys())}", flush=True)
+                print(f"[pokemon_red] TRACE DEBUG: to_dict() markov_blanket_message_history length: {len(trace_payload.get('markov_blanket_message_history', []))}", flush=True)
+                # Always manually serialize messages and events to ensure they're included
+                # asdict() may not recursively serialize nested dataclasses correctly
+                from synth_ai.tracing_v3.abstractions import SessionEventMarkovBlanketMessage, BaseEvent
+                if session_trace.markov_blanket_message_history:
+                    print(f"[pokemon_red] TRACE DEBUG: Manually serializing {len(session_trace.markov_blanket_message_history)} messages", flush=True)
+                    trace_payload["markov_blanket_message_history"] = [
+                        dataclasses.asdict(msg) if isinstance(msg, SessionEventMarkovBlanketMessage) else (msg if isinstance(msg, dict) else str(msg))
+                        for msg in session_trace.markov_blanket_message_history
+                    ]
+                else:
+                    print(f"[pokemon_red] TRACE DEBUG: WARNING - session_trace.markov_blanket_message_history is EMPTY!", flush=True)
+                if session_trace.event_history:
+                    print(f"[pokemon_red] TRACE DEBUG: Manually serializing {len(session_trace.event_history)} events", flush=True)
+                    trace_payload["event_history"] = [
+                        dataclasses.asdict(evt) if isinstance(evt, BaseEvent) else (evt if isinstance(evt, dict) else str(evt))
+                        for evt in session_trace.event_history
+                    ]
+                else:
+                    print(f"[pokemon_red] TRACE DEBUG: WARNING - session_trace.event_history is EMPTY!", flush=True)
+                print(f"[pokemon_red] TRACE DEBUG: Final trace payload has {len(trace_payload.get('markov_blanket_message_history', []))} messages, {len(trace_payload.get('event_history', []))} events", flush=True)
+                print(f"[pokemon_red] TRACE DEBUG: Final trace payload keys: {list(trace_payload.keys())}", flush=True)
+            else:
+                print(f"[pokemon_red] TRACE DEBUG: SKIPPING trace payload build - record_config={record_config}, return_trace={getattr(record_config, 'return_trace', None) if record_config else None}, session_trace={session_trace is not None}", flush=True)
+        except Exception as exc:
+            logger.warning(f"[pokemon_red] tracing finalization failed: {exc}")
+            print(f"[pokemon_red] TRACE DEBUG EXCEPTION: {exc}", flush=True)
+            import traceback
+            print(f"[pokemon_red] TRACE DEBUG EXCEPTION TRACEBACK: {traceback.format_exc()}", flush=True)
+    # Fallback trace payload if no tracer but CLI needs it
+    if trace_payload is None:
+        record_config = getattr(request, 'record', None)
+        print(f"[pokemon_red] TRACE DEBUG: trace_payload is None, using fallback. record_config={record_config}, return_trace={getattr(record_config, 'return_trace', None) if record_config else None}", flush=True)
+        if record_config and getattr(record_config, 'return_trace', False):
+            trace_payload = {
+                "session_id": request.run_id,
+                "created_at": import_datetime().now().isoformat(),
+                "metadata": {
+                    "run_id": request.run_id,
+                    "env_name": "pokemon_red",
+                    "total_reward": int(total_reward),
+                    "final_map": final_state.get("map_id", -1),
+                    "party_count": final_state.get("party_count", 0),
+                    "badges": final_state.get("badges", 0),
+                    "steps": len(steps),
+                },
+                "num_timesteps": len(steps),
+                "num_events": len(steps),
+                "num_messages": len(steps) * 2,
+            }
+            print(f"[pokemon_red] TRACE DEBUG: Created fallback trace_payload with keys: {list(trace_payload.keys())}", flush=True)
+    print(f"[pokemon_red] TRACE DEBUG: About to return RolloutResponse with trace_payload={trace_payload is not None}, keys={list(trace_payload.keys()) if trace_payload else []}", flush=True)
+    if trace_payload:
+        import json as _json_final
+        markov_msgs = trace_payload.get('markov_blanket_message_history', [])
+        event_history = trace_payload.get('event_history', [])
+        print(f"[pokemon_red] TRACE DEBUG: trace_payload markov_blanket_message_history length: {len(markov_msgs)}", flush=True)
+        print(f"[pokemon_red] TRACE DEBUG: trace_payload event_history length: {len(event_history)}", flush=True)
+        if markov_msgs:
+            print(f"[pokemon_red] TRACE DEBUG: First markov message type: {type(markov_msgs[0]) if markov_msgs else None}", flush=True)
+            print(f"[pokemon_red] TRACE DEBUG: First markov message (first 500 chars): {_json_final.dumps(markov_msgs[0] if markov_msgs else {}, indent=2, default=str)[:500]}", flush=True)
+        else:
+            print(f"[pokemon_red] TRACE DEBUG: WARNING - markov_blanket_message_history is EMPTY in final trace_payload!", flush=True)
+    response = RolloutResponse(
+        run_id=request.run_id,
+        trajectories=[trajectory],
+        branches={},
+        metrics=metrics,
+        aborted=False,
+        ops_executed=len(request.ops or []),
+        trace=trace_payload,
+    )
+    # Final check: inspect what's actually in the response
+    if response.trace:
+        import json as _json_response
+        resp_markov = response.trace.get('markov_blanket_message_history', []) if isinstance(response.trace, dict) else []
+        print(f"[pokemon_red] TRACE DEBUG: Response.trace markov_blanket_message_history length: {len(resp_markov)}", flush=True)
+    return response
+def import_datetime():
+    """Helper to import datetime for trace timestamps."""
+    from datetime import datetime
+    return datetime
+def build_config() -> TaskAppConfig:
+    base_info = _base_task_info()
+    # Set up tracing
+    tracing_enabled = tracing_env_enabled()
+    tracing_db_url = resolve_tracing_db_url()
+    tracer_factory = build_tracer_factory(
+        SessionTracer, enabled=tracing_enabled, db_url=tracing_db_url
+    )
+    sft_output_dir = resolve_sft_output_dir()
+    app_state: dict[str, Any] = {
+        "tracing_enabled": tracing_enabled,
+    }
+    if tracer_factory is not None:
+        app_state["session_tracer_factory"] = tracer_factory
+    if sft_output_dir:
+        app_state["sft_output_dir"] = sft_output_dir
+    if tracing_enabled:
+        status_msg = f"[task:tracing] enabled (db={tracing_db_url or 'default'})"
+        logger.info(status_msg)
+        print(status_msg, flush=True)
+    return TaskAppConfig(
+        app_id="pokemon_red",
+        name="Pokémon Red Task App",
+        description="Expose Pokémon Red via Synth task framework (demo).",
+        base_task_info=base_info,
+        describe_taskset=_describe_taskset,
+        provide_task_instances=_provide_task_instances,
+        rollout=rollout_executor,
+        dataset_registry=None,
+        proxy=ProxyConfig(
+            enable_openai=True,
+            enable_groq=True,
+            system_hint=(
+                "You control Pokémon Red. Use 'execute_sequence' with 5-10 actions to play efficiently. "
+                "Plan ahead: navigate rooms, advance dialogue, battle strategically. "
+                "Example: {\"tool\": \"execute_sequence\", \"args\": {\"actions\": [{\"button\": \"DOWN\", \"frames\": 30}, ...]}}"
+            ),
+        ),
+        app_state=app_state,
+        require_api_key=False,
+        expose_debug_env=True,
+        cors_origins=["*"],
+    )
+register_task_app(
+    entry=TaskAppEntry(
+        app_id="pokemon_red",
+        description="Pokémon Red demo task app with vision support",
+        config_factory=build_config,
+        aliases=("pokemon_red_demo",),
+        env_files=(),
+        modal=ModalDeploymentConfig(
+            app_name="pokemon-red-vision-task-app",
+            python_version="3.11",
+            pip_packages=(
+                "fastapi>=0.100.0",
+                "uvicorn>=0.23.0",
+                "pydantic>=2.0.0",
+                "numpy>=1.24.0",
+                "aiohttp>=3.8.0",
+                "httpx>=0.24.0",
+                "python-dotenv>=1.0.1",
+                # Tracing/DB runtime deps
+                "sqlalchemy>=2.0.42",
+                "aiosqlite>=0.21.0",
+                "greenlet>=3.2.3",
+                # Pokemon Red environment
+                "pyboy>=2.0.0",
+                "pillow>=9.0.0",
+            ),
+            extra_local_dirs=(
+                # Mount repo root so local modules resolve when deployed on Modal
+                ("/Users/joshpurtell/Documents/GitHub/synth-ai", "/opt/synth_ai_repo"),
+                ("/Users/joshpurtell/Documents/GitHub/synth-ai/synth_ai", "/opt/synth_ai_repo/synth_ai"),
+                ("/Users/joshpurtell/Documents/GitHub/synth-ai/examples/task_apps/pokemon_red", "/opt/synth_ai_repo/examples/task_apps/pokemon_red"),
+            ),
+            secret_names=("openai-api-key", "groq-api-key"),
+            memory=16384,
+            cpu=4.0,
+            max_containers=10,
+        ),
+    )
+)

synth-ai 0.2.9.dev0__py3-none-any.whl → 0.2.23.dev3__py3-none-any.whl

synth-ai 0.2.9.dev0py3-none-any.whl → 0.2.23.dev3py3-none-any.whl