PyPI - vision-agent - Versions diffs - 1.0.4__py3-none-any.whl → 1.0.7__py3-none-any.whl - Mend

vision-agent 1.0.4py3-none-any.whl → 1.0.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

vision_agent/.sim_tools/df.csv +46 -47
vision_agent/.sim_tools/embs.npy +0 -0
vision_agent/agent/__init__.py +0 -16
vision_agent/agent/vision_agent_planner_prompts_v2.py +57 -58
vision_agent/agent/vision_agent_planner_v2.py +3 -2
vision_agent/configs/anthropic_config.py +29 -16
vision_agent/configs/config.py +14 -15
vision_agent/configs/openai_config.py +10 -10
vision_agent/lmm/lmm.py +2 -2
vision_agent/tools/__init__.py +0 -6
vision_agent/tools/meta_tools.py +1 -492
vision_agent/tools/planner_tools.py +13 -14
vision_agent/tools/tools.py +16 -27
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/METADATA +31 -3
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/RECORD +17 -24
vision_agent/agent/vision_agent.py +0 -605
vision_agent/agent/vision_agent_coder.py +0 -742
vision_agent/agent/vision_agent_coder_prompts.py +0 -290
vision_agent/agent/vision_agent_planner.py +0 -564
vision_agent/agent/vision_agent_planner_prompts.py +0 -199
vision_agent/agent/vision_agent_prompts.py +0 -312
vision_agent/configs/anthropic_openai_config.py +0 -164
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/LICENSE +0 -0
{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/WHEEL +0 -0

vision_agent/tools/tools.py CHANGED Viewed

@@ -1488,8 +1488,8 @@ def agentic_object_detection(
     """'agentic_object_detection' is a tool that can detect multiple objects given a
     text prompt such as object names or referring expressions on images. It's
     particularly good at detecting specific objects given detailed descriptive prompts
-    but runs slower. It returns a list of bounding boxes with normalized coordinates,
-    label names and associated probability scores.
+    but runs slower so not ideal for high counts. It returns a list of bounding boxes
+    with normalized coordinates, label names and associated confidence score of 1.0.
     Parameters:
         prompt (str): The prompt to ground to the image, only supports a single prompt
@@ -1533,8 +1533,9 @@ def agentic_sam2_instance_segmentation(
     """'agentic_sam2_instance_segmentation' is a tool that can detect multiple
     instances given a text prompt such as object names or referring expressions on
     images. It's particularly good at detecting specific objects given detailed
-    descriptive prompts but runs slower. It returns a list of bounding boxes with
-    normalized coordinates, label names, masks and associated probability scores.
+    descriptive prompts but runs slower so not ideal for high counts. It returns a list
+    of bounding boxes with normalized coordinates, label names, masks and associated
+    confidence score of 1.0.
     Parameters:
         prompt (str): The object that needs to be counted, only supports a single
@@ -1591,9 +1592,9 @@ def agentic_sam2_video_tracking(
     """'agentic_sam2_video_tracking' is a tool that can track and segment multiple
     objects in a video given a text prompt such as object names or referring
     expressions. It's particularly good at detecting specific objects given detailed
-    descriptive prompts but runs slower, and returns a list of bounding boxes, label
-    names, masks and associated probability scores and is useful for tracking and
-    counting without duplicating counts.
+    descriptive prompts but runs slower so not ideal for high counts. It returns a list
+    of bounding boxes, label names, masks and associated confidence score of 1.0 and is
+    useful for tracking and counting without duplicating counts.
     Parameters:
         prompt (str): The prompt to ground to the image, only supports a single prompt
@@ -2307,22 +2308,10 @@ def _qwenvl_activity_recognition(
     return [0.0] * len(segment)
-def _qwen2vl_activity_recognition(
-    segment: List[np.ndarray], prompt: str
-) -> List[float]:
-    return _qwenvl_activity_recognition(segment, prompt, model_name="qwen2vl")
-def _qwen25vl_activity_recognition(
-    segment: List[np.ndarray], prompt: str
-) -> List[float]:
-    return _qwenvl_activity_recognition(segment, prompt, model_name="qwen25vl")
 def activity_recognition(
     prompt: str,
     frames: List[np.ndarray],
-    model: str = "qwen2vl",
+    model: str = "qwen25vl",
     chunk_length_frames: int = 10,
 ) -> List[float]:
     """'activity_recognition' is a tool that can recognize activities in a video given a
@@ -2371,12 +2360,12 @@ def activity_recognition(
     elif model == "qwen2vl":
         def _apply_activity_recognition(segment: List[np.ndarray]) -> List[float]:
-            return _qwen2vl_activity_recognition(segment, prompt)
+            return _qwenvl_activity_recognition(segment, prompt, model_name="qwen2vl")
     elif model == "qwen25vl":
         def _apply_activity_recognition(segment: List[np.ndarray]) -> List[float]:
-            return _qwen25vl_activity_recognition(segment, prompt)
+            return _qwenvl_activity_recognition(segment, prompt, model_name="qwen25vl")
     else:
         raise ValueError(f"Invalid model: {model}")
@@ -3488,9 +3477,9 @@ def _plot_counting(
 FUNCTION_TOOLS = [
-    owlv2_object_detection,
-    owlv2_sam2_instance_segmentation,
-    owlv2_sam2_video_tracking,
+    glee_object_detection,
+    glee_sam2_instance_segmentation,
+    glee_sam2_video_tracking,
     countgd_object_detection,
     countgd_sam2_instance_segmentation,
     countgd_sam2_video_tracking,
@@ -3502,8 +3491,8 @@ FUNCTION_TOOLS = [
     document_extraction,
     document_qa,
     ocr,
-    qwen2_vl_images_vqa,
-    qwen2_vl_video_vqa,
+    qwen25_vl_images_vqa,
+    qwen25_vl_video_vqa,
     activity_recognition,
     depth_anything_v2,
     generate_pose_image,

{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: vision-agent
-Version: 1.0.4
+Version: 1.0.7
 Summary: Toolset for Vision Agent
 Author: Landing AI
 Author-email: dev@landing.ai
@@ -65,10 +65,10 @@ pip install vision-agent
 ```bash
 export ANTHROPIC_API_KEY="your-api-key"
-export OPENAI_API_KEY="your-api-key"
+export GEMINI_API_KEY="your-api-key"
 ```
-> **_NOTE:_** We found using both Anthropic Claude-3.5 and OpenAI o1 to be provide the best performance for VisionAgent. If you want to use a different LLM provider or only one, see 'Using Other LLM Providers' below.
+> **_NOTE:_** We found using both Anthropic Claude-3.7 and Gemini-2.0-Flash-Exp to be provide the best performance for VisionAgent. If you want to use a different LLM provider or only one, see 'Using Other LLM Providers' below.
 You will also need to set your VisionAgent API key to be able to authenticate when using the hosted vision tools that we provide through our APIs. Currently, the APIs are free to use so you will only need to get it from [here](https://va.landing.ai/account/api-key).
@@ -147,5 +147,33 @@ directory. For example to change to Anthropic simply just run:
 cp vision_agent/configs/anthropic_config.py vision_agent/configs/config.py
 ```
+You can also modify the existing `config.py` file yourself to use a different LLM
+provider, for example if you wanted to change the planner from Anthropic inside
+`config.py` to OpenAI you would replace this code:
+```python
+    planner: Type[LMM] = Field(default=AnthropicLMM)
+    planner_kwargs: dict = Field(
+        default_factory=lambda: {
+            "model_name": "claude-3-7-sonnet-20250219",
+            "temperature": 0.0,
+            "image_size": 768,
+        }
+    )
+```
+with this code:
+```python
+    planner: Type[LMM] = Field(default=OpenAILMM)
+    planner_kwargs: dict = Field(
+        default_factory=lambda: {
+            "model_name": "gpt-4o-2024-11-20",
+            "temperature": 0.0,
+            "image_size": 768,
+            "image_detail": "low",
+        }
+    )
+```
 > **_NOTE:_** VisionAgent moves fast and we are constantly updating and changing the library. If you have any questions or need help, please reach out to us on our discord channel.

{vision_agent-1.0.4.dist-info → vision_agent-1.0.7.dist-info}/RECORD RENAMED Viewed

@@ -1,43 +1,36 @@
-vision_agent/.sim_tools/df.csv,sha256=mIr1iubLDqGsL3K3ab6bmh6PtLvmOpvnaIX28lxdV6c,40706
-vision_agent/.sim_tools/embs.npy,sha256=pZZMFMg0rkIAOpMOjN7gjD58hPK07c2ylfQ9YST8xFA,245888
+vision_agent/.sim_tools/df.csv,sha256=jCyBDlLxI9_yAxzLZcoN2BPpveF1yh29AlfdSAGTZ4A,40842
+vision_agent/.sim_tools/embs.npy,sha256=QN8Ojc0Mv4_OS6WA4elvBhXTDHcpx2g1pLxsGqk4IQU,245888
 vision_agent/__init__.py,sha256=EAb4-f9iyuEYkBrX4ag1syM8Syx8118_t0R6_C34M9w,57
 vision_agent/agent/README.md,sha256=3XSPG_VO7-6y6P8COvcgSSonWj5uvfgvfmOkBpfKK8Q,5527
-vision_agent/agent/__init__.py,sha256=M8CffavdIh8Zh-skznLHIaQkYGCGK7vk4dq1FaVkbs4,617
+vision_agent/agent/__init__.py,sha256=_-nGLHhRTLViXxBSb9D4OwLTqk9HXKPEkTBkvK8c7OU,206
 vision_agent/agent/agent.py,sha256=o1Zuhl6h2R7uVwvUur0Aj38kak8U08plfeFWPst_ErM,1576
-vision_agent/agent/vision_agent.py,sha256=lLNIapK7lhbGSPdF2RLIh7wBNZMGiM60kFaLXkgXV8g,23465
-vision_agent/agent/vision_agent_coder.py,sha256=SQy83t3b2vXFiYV4ynlT-g7AkUIP8zy03culkAuHMHA,27353
-vision_agent/agent/vision_agent_coder_prompts.py,sha256=D4RJxTWoxpl-WtYRvHNxaLSdWVHsdYb0jJIQ2ZCGU0A,12277
 vision_agent/agent/vision_agent_coder_prompts_v2.py,sha256=53b_DhQtffX5wxLuCbNQ83AJhB0P_3wEnuKr-v5bx-o,4866
 vision_agent/agent/vision_agent_coder_v2.py,sha256=ELc_J8Q4NKPs7YETu3a9O0Vk1zN3k6QfHBgu0M0IWGk,17450
-vision_agent/agent/vision_agent_planner.py,sha256=8LeUsxUlGuQMqCdJ6jHXOe6RpKpzLtMW1AaJlfuIfzw,18680
-vision_agent/agent/vision_agent_planner_prompts.py,sha256=rYRdJthc-sQN57VgCBKrF09Sd73BSxcBdjNe6C4WNZ8,6837
-vision_agent/agent/vision_agent_planner_prompts_v2.py,sha256=TiiF5BGnFVraFlQnDaeRU67927LvszvpcMUOgVgo0ps,35843
-vision_agent/agent/vision_agent_planner_v2.py,sha256=FuvTDe1mfznh4lkDGUyXa6yip8zQV5TDSxUG5zrsWc0,22010
-vision_agent/agent/vision_agent_prompts.py,sha256=KaJwYPUP7_GvQsCPPs6Fdawmi3AQWmWajBUuzj7gTG4,13812
+vision_agent/agent/vision_agent_planner_prompts_v2.py,sha256=YARVphHKLMNUqCeOsrManvgecl77RP1g51vtt7JpdWk,35937
+vision_agent/agent/vision_agent_planner_v2.py,sha256=Aww_BJhTFKZ5XjYe8FW57z2Gwp2se0vg1t1DKLGRAyQ,22050
 vision_agent/agent/vision_agent_prompts_v2.py,sha256=OnHmmteAj8__2spEXNcckApQvEpkK_JIZd_SWzEyg9c,4230
 vision_agent/agent/vision_agent_v2.py,sha256=iPW6DowH7wCFIA5vb1SdSLfZFWbn_oSC7Xa8uO8KIJI,11675
 vision_agent/clients/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 vision_agent/clients/http.py,sha256=k883i6M_4nl7zwwHSI-yP5sAgQZIDPM1nrKD6YFJ3Xs,2009
 vision_agent/configs/__init__.py,sha256=Iu75-w9_nlPmnB_qKA7nYaaaHf7xtTrDmK8N4v2WV34,27
-vision_agent/configs/anthropic_config.py,sha256=T1UuESgiY8913A6wA42P7-cg8FTk9-LkJpyywo7OnIQ,4298
-vision_agent/configs/anthropic_openai_config.py,sha256=rUz5zca4Pn5dTUwJXiJzRDYua5PWizApCKI3y0zOvhc,4699
-vision_agent/configs/config.py,sha256=rUz5zca4Pn5dTUwJXiJzRDYua5PWizApCKI3y0zOvhc,4699
-vision_agent/configs/openai_config.py,sha256=v2_AIY89d7LKWn4uqA2G047U2IdmnqZrGH2Iww9gRIw,4498
+vision_agent/configs/anthropic_config.py,sha256=FBW3PsrZn4gJXhr-v1GGayuJuBPafzDz2Q4vyI_rBzA,4692
+vision_agent/configs/config.py,sha256=FjpYViBJHMizgoZ3dp7T4Lbhbh1MHHstaG7icVdVsrU,4694
+vision_agent/configs/openai_config.py,sha256=Bw7ElBYmBcaZttyRBoNpcy3uTkqg5qADk8LP0wse2NQ,4498
 vision_agent/fonts/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 vision_agent/fonts/default_font_ch_en.ttf,sha256=1YM0Z3XqLDjSNbF7ihQFSAIUdjF9m1rtHiNC_6QosTE,1594400
 vision_agent/lmm/__init__.py,sha256=4qX2lmGnKWHeKftXueEi9xj_ieK2nQh_ipHf72nKGFk,84
-vision_agent/lmm/lmm.py,sha256=XYp1frrqQ-6q-0y2IWwM8-EIH5UrFZ21SAhkcM32J9w,19355
+vision_agent/lmm/lmm.py,sha256=utGJMeGEKImqHrY0q9kGu0uK3owG8wKyDustwrDrLto,19421
 vision_agent/models/__init__.py,sha256=eIP0pD5dYog8zUA7uuTmUxCF6SIutbLRLRE0cmuCJgQ,326
 vision_agent/models/agent_types.py,sha256=vBZ9-ns5lHDdFMO7ulCGGeZ6OwRo3gK4O3vN0814IWc,3064
 vision_agent/models/lmm_types.py,sha256=v04h-NjbczHOIN8UWa1vvO5-1BDuZ4JQhD2mge1cXmw,305
 vision_agent/models/tools_types.py,sha256=8hYf2OZhI58gvf65KGaeGkt4EQ56nwLFqIQDPHioOBc,2339
 vision_agent/sim/__init__.py,sha256=Aouz6HEPPTYcLxR5_0fTYCL1OvPKAH1RMWAF90QXAlA,135
 vision_agent/sim/sim.py,sha256=8y060Ck7qOFJDw9k9Vl2xQYbLkNaTd6lP1YzbcwkkXc,9944
-vision_agent/tools/__init__.py,sha256=H7FWx0OXGVIjrSOTpNH-YwE4LBuOfThZTG-SHFpo_Z8,2576
-vision_agent/tools/meta_tools.py,sha256=DNRXHX9nZ1GBeqeLiq87sBshoe0aiZeYasETbG-9neI,24053
-vision_agent/tools/planner_tools.py,sha256=mlpUODpsN9sg-OKdsBm-6maK3eA97FUgAWm1etfgx4E,19553
+vision_agent/tools/__init__.py,sha256=H8M5v--cANBiOWvAfUJNj9cq9PKm_DjRrG1MeNRWpHs,2434
+vision_agent/tools/meta_tools.py,sha256=9iJilpGYEiXW0nYPTYAWHa7l23wGN8IM5KbE7mWDOT0,6798
+vision_agent/tools/planner_tools.py,sha256=iQWtTgXdomn0IWrbmvXXM-y8Q_RSEOxyP04HIRLrgWI,19576
 vision_agent/tools/prompts.py,sha256=V1z4YJLXZuUl_iZ5rY0M5hHc_2tmMEUKr0WocXKGt4E,1430
-vision_agent/tools/tools.py,sha256=-jBrykNYPinRpDXnBsnzlSgJ_hbZClzCp3pkzWjTUxs,122098
+vision_agent/tools/tools.py,sha256=4gwL8EFMwm6l0MujftJ8G8BO2z8Dh_a4FPjy_xUmYqs,121889
 vision_agent/utils/__init__.py,sha256=mANUs_84VL-3gpZbXryvV2mWU623eWnRlJCSUHtMjuw,122
 vision_agent/utils/agent.py,sha256=2ifTP5QElItnr4YHOJR6L5P1PUzV0GhChTTqVxuVyQg,15153
 vision_agent/utils/exceptions.py,sha256=zis8smCbdEylBVZBTVfEUfAh7Rb7cWV3MSPambu6FsQ,1837
@@ -47,7 +40,7 @@ vision_agent/utils/tools.py,sha256=_XGcF-Zd527BWNkGopBZeJ4j5ehreAkNsKQSBFrlvjw,8
 vision_agent/utils/tools_doc.py,sha256=yFue6KSXoa_Z1ngCdBEc4SdPZOWF1rVLeaHu02I8Wis,2523
 vision_agent/utils/video.py,sha256=rjsQ1sKKisaQ6AVjJz0zd_G4g-ovRweS_rs4JEhenoI,5340
 vision_agent/utils/video_tracking.py,sha256=DZLFpNCuzuPJQzbQoVNcp-m4dKxgiKdCNM5QTh_zURE,12245
-vision_agent-1.0.4.dist-info/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
-vision_agent-1.0.4.dist-info/METADATA,sha256=-m5UEp_BinJMo7IQqv63frcNGAQ9dUICs8bGnpZD_Ac,5940
-vision_agent-1.0.4.dist-info/WHEEL,sha256=7Z8_27uaHI_UZAc4Uox4PpBhQ9Y5_modZXWMxtUi4NU,88
-vision_agent-1.0.4.dist-info/RECORD,,
+vision_agent-1.0.7.dist-info/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
+vision_agent-1.0.7.dist-info/METADATA,sha256=aQSPKBzRC6Ai7_kZWAn72h2EsYpDVEHMcDAWCV2H-ho,6746
+vision_agent-1.0.7.dist-info/WHEEL,sha256=7Z8_27uaHI_UZAc4Uox4PpBhQ9Y5_modZXWMxtUi4NU,88
+vision_agent-1.0.7.dist-info/RECORD,,

vision-agent 1.0.4__py3-none-any.whl → 1.0.7__py3-none-any.whl

vision-agent 1.0.4py3-none-any.whl → 1.0.7py3-none-any.whl