PyPI - vision-agent - Versions diffs - 1.0.4__py3-none-any.whl → 1.0.7__py3-none-any.whl - Mend

vision-agent 1.0.4py3-none-any.whl → 1.0.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

vision_agent/.sim_tools/df.csv +46 -47
vision_agent/.sim_tools/embs.npy +0 -0
vision_agent/agent/__init__.py +0 -16
vision_agent/agent/vision_agent_planner_prompts_v2.py +57 -58
vision_agent/agent/vision_agent_planner_v2.py +3 -2
vision_agent/configs/anthropic_config.py +29 -16
vision_agent/configs/config.py +14 -15
vision_agent/configs/openai_config.py +10 -10
vision_agent/lmm/lmm.py +2 -2
vision_agent/tools/__init__.py +0 -6
vision_agent/tools/meta_tools.py +1 -492
vision_agent/tools/planner_tools.py +13 -14
vision_agent/tools/tools.py +16 -27
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/METADATA +31 -3
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/RECORD +17 -24
vision_agent/agent/vision_agent.py +0 -605
vision_agent/agent/vision_agent_coder.py +0 -742
vision_agent/agent/vision_agent_coder_prompts.py +0 -290
vision_agent/agent/vision_agent_planner.py +0 -564
vision_agent/agent/vision_agent_planner_prompts.py +0 -199
vision_agent/agent/vision_agent_prompts.py +0 -312
vision_agent/configs/anthropic_openai_config.py +0 -164
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/LICENSE +0 -0
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/WHEEL +0 -0

vision_agent/configs/anthropic_config.py CHANGED Viewed

@@ -2,7 +2,7 @@ from typing import Type
 from pydantic import BaseModel, Field
-from vision_agent.lmm import LMM, AnthropicLMM
+from vision_agent.lmm import LMM, AnthropicLMM, OpenAILMM
 class Config(BaseModel):
@@ -10,7 +10,7 @@ class Config(BaseModel):
     agent: Type[LMM] = Field(default=AnthropicLMM)
     agent_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -20,18 +20,17 @@ class Config(BaseModel):
     planner: Type[LMM] = Field(default=AnthropicLMM)
     planner_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
     )
-    # for vision_agent_planner_v2
     summarizer: Type[LMM] = Field(default=AnthropicLMM)
     summarizer_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
-            "temperature": 0.0,
+            "model_name": "claude-3-7-sonnet-20250219",
+            "temperature": 1.0,  # o1 has fixed temperature
             "image_size": 768,
         }
     )
@@ -40,7 +39,7 @@ class Config(BaseModel):
     critic: Type[LMM] = Field(default=AnthropicLMM)
     critic_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -50,7 +49,7 @@ class Config(BaseModel):
     coder: Type[LMM] = Field(default=AnthropicLMM)
     coder_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -60,7 +59,7 @@ class Config(BaseModel):
     tester: Type[LMM] = Field(default=AnthropicLMM)
     tester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -70,7 +69,7 @@ class Config(BaseModel):
     debugger: Type[LMM] = Field(default=AnthropicLMM)
     debugger_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -80,7 +79,7 @@ class Config(BaseModel):
     tool_tester: Type[LMM] = Field(default=AnthropicLMM)
     tool_tester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -90,19 +89,30 @@ class Config(BaseModel):
     tool_chooser: Type[LMM] = Field(default=AnthropicLMM)
     tool_chooser_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 1.0,
             "image_size": 768,
         }
     )
+    # for get_tool_for_task
+    od_judge: Type[LMM] = Field(default=AnthropicLMM)
+    od_judge_kwargs: dict = Field(
+        default_factory=lambda: {
+            "model_name": "claude-3-7-sonnet-20250219",
+            "temperature": 0.0,
+            "image_size": 512,
+        }
+    )
     # for suggestions module
-    suggester: Type[LMM] = Field(default=AnthropicLMM)
+    suggester: Type[LMM] = Field(default=OpenAILMM)
     suggester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "o1",
             "temperature": 1.0,
-            "image_size": 768,
+            "image_detail": "high",
+            "image_size": 1024,
         }
     )
@@ -110,7 +120,7 @@ class Config(BaseModel):
     vqa: Type[LMM] = Field(default=AnthropicLMM)
     vqa_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -143,6 +153,9 @@ class Config(BaseModel):
     def create_tool_chooser(self) -> LMM:
         return self.tool_chooser(**self.tool_chooser_kwargs)
+    def create_od_judge(self) -> LMM:
+        return self.od_judge(**self.od_judge_kwargs)
     def create_suggester(self) -> LMM:
         return self.suggester(**self.suggester_kwargs)

vision_agent/configs/config.py CHANGED Viewed

@@ -2,7 +2,7 @@ from typing import Type
 from pydantic import BaseModel, Field
-from vision_agent.lmm import LMM, AnthropicLMM, OpenAILMM
+from vision_agent.lmm import LMM, AnthropicLMM, OpenAILMM, GoogleLMM
 class Config(BaseModel):
@@ -10,7 +10,7 @@ class Config(BaseModel):
     agent: Type[LMM] = Field(default=AnthropicLMM)
     agent_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -20,17 +20,16 @@ class Config(BaseModel):
     planner: Type[LMM] = Field(default=AnthropicLMM)
     planner_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
     )
-    # for vision_agent_planner_v2
-    summarizer: Type[LMM] = Field(default=OpenAILMM)
+    summarizer: Type[LMM] = Field(default=AnthropicLMM)
     summarizer_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "o1",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 1.0,  # o1 has fixed temperature
             "image_size": 768,
         }
@@ -40,7 +39,7 @@ class Config(BaseModel):
     critic: Type[LMM] = Field(default=AnthropicLMM)
     critic_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -50,7 +49,7 @@ class Config(BaseModel):
     coder: Type[LMM] = Field(default=AnthropicLMM)
     coder_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -60,7 +59,7 @@ class Config(BaseModel):
     tester: Type[LMM] = Field(default=AnthropicLMM)
     tester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -70,7 +69,7 @@ class Config(BaseModel):
     debugger: Type[LMM] = Field(default=AnthropicLMM)
     debugger_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -80,7 +79,7 @@ class Config(BaseModel):
     tool_tester: Type[LMM] = Field(default=AnthropicLMM)
     tool_tester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 768,
         }
@@ -90,7 +89,7 @@ class Config(BaseModel):
     tool_chooser: Type[LMM] = Field(default=AnthropicLMM)
     tool_chooser_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 1.0,
             "image_size": 768,
         }
@@ -100,7 +99,7 @@ class Config(BaseModel):
     od_judge: Type[LMM] = Field(default=AnthropicLMM)
     od_judge_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "claude-3-7-sonnet-20250219",
             "temperature": 0.0,
             "image_size": 512,
         }
@@ -118,10 +117,10 @@ class Config(BaseModel):
     )
     # for vqa module
-    vqa: Type[LMM] = Field(default=AnthropicLMM)
+    vqa: Type[LMM] = Field(default=GoogleLMM)
     vqa_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "claude-3-5-sonnet-20241022",
+            "model_name": "gemini-2.0-flash-exp",
             "temperature": 0.0,
             "image_size": 768,
         }

vision_agent/configs/openai_config.py CHANGED Viewed

@@ -10,7 +10,7 @@ class Config(BaseModel):
     agent: Type[LMM] = Field(default=OpenAILMM)
     agent_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -21,7 +21,7 @@ class Config(BaseModel):
     planner: Type[LMM] = Field(default=OpenAILMM)
     planner_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -42,7 +42,7 @@ class Config(BaseModel):
     critic: Type[LMM] = Field(default=OpenAILMM)
     critic_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -53,7 +53,7 @@ class Config(BaseModel):
     coder: Type[LMM] = Field(default=OpenAILMM)
     coder_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -64,7 +64,7 @@ class Config(BaseModel):
     tester: Type[LMM] = Field(default=OpenAILMM)
     tester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -75,7 +75,7 @@ class Config(BaseModel):
     debugger: Type[LMM] = Field(default=OpenAILMM)
     debugger_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -86,7 +86,7 @@ class Config(BaseModel):
     tool_tester: Type[LMM] = Field(default=OpenAILMM)
     tool_tester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",
@@ -97,7 +97,7 @@ class Config(BaseModel):
     tool_chooser: Type[LMM] = Field(default=OpenAILMM)
     tool_chooser_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 1.0,
             "image_size": 768,
             "image_detail": "low",
@@ -108,7 +108,7 @@ class Config(BaseModel):
     suggester: Type[LMM] = Field(default=OpenAILMM)
     suggester_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 1.0,
             "image_size": 768,
             "image_detail": "low",
@@ -119,7 +119,7 @@ class Config(BaseModel):
     vqa: Type[LMM] = Field(default=OpenAILMM)
     vqa_kwargs: dict = Field(
         default_factory=lambda: {
-            "model_name": "gpt-4o-2024-08-06",
+            "model_name": "gpt-4o-2024-11-20",
             "temperature": 0.0,
             "image_size": 768,
             "image_detail": "low",

vision_agent/lmm/lmm.py CHANGED Viewed

@@ -98,7 +98,7 @@ class OpenAILMM(LMM):
         for c in chat:
             fixed_c = {"role": c["role"]}
             fixed_c["content"] = [{"type": "text", "text": c["content"]}]  # type: ignore
-            if "media" in c:
+            if "media" in c and self.model_name != "o3-mini":
                 for media in c["media"]:
                     resize = kwargs["resize"] if "resize" in kwargs else self.image_size
                     image_detail = (
@@ -154,7 +154,7 @@ class OpenAILMM(LMM):
                 ],
             }
         ]
-        if media and len(media) > 0:
+        if media and len(media) > 0 and self.model_name != "o3-mini":
             for m in media:
                 resize = kwargs["resize"] if "resize" in kwargs else None
                 image_detail = (

vision_agent/tools/__init__.py CHANGED Viewed

@@ -1,13 +1,7 @@
 from typing import Callable, List, Optional
 from .meta_tools import (
-    create_code_artifact,
-    edit_code_artifact,
-    edit_vision_code,
-    generate_vision_code,
     get_tool_descriptions,
-    list_artifacts,
-    open_code_artifact,
     view_media_artifact,
 )
 from .planner_tools import judge_od_results

vision-agent 1.0.4__py3-none-any.whl → 1.0.7__py3-none-any.whl

vision-agent 1.0.4py3-none-any.whl → 1.0.7py3-none-any.whl