PyPI - droidrun - Versions diffs - 0.3.8__tar.gz → 0.3.9__tar.gz - Mend

droidrun 0.3.8tar.gz → 0.3.9tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (101) hide show

{droidrun-0.3.8 → droidrun-0.3.9}/.gitignore RENAMED Viewed

@@ -23,7 +23,4 @@ patch_apis.py
 .git
 .arize-phoenix
-uv.lock
 todo.txt

droidrun-0.3.9/.python-version ADDED Viewed

	@@ -0,0 +1 @@
1	+ 3.13.7

{droidrun-0.3.8 → droidrun-0.3.9}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: droidrun
-Version: 0.3.8
+Version: 0.3.9
 Summary: A framework for controlling Android devices through LLM agents
 Project-URL: Homepage, https://github.com/droidrun/droidrun
 Project-URL: Bug Tracker, https://github.com/droidrun/droidrun/issues
@@ -16,6 +16,8 @@ Classifier: License :: OSI Approved :: MIT License
 Classifier: Programming Language :: Python :: 3
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Classifier: Programming Language :: Python :: 3.13
 Classifier: Topic :: Communications :: Chat
 Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Classifier: Topic :: Software Development :: Libraries :: Application Frameworks
@@ -28,13 +30,14 @@ Classifier: Topic :: Utilities
 Requires-Python: >=3.11
 Requires-Dist: adbutils>=2.10.2
 Requires-Dist: apkutils==2.0.0
-Requires-Dist: llama-index==0.13.6
-Requires-Dist: posthog>=6.7.4
-Requires-Dist: pydantic>=2.11.7
+Requires-Dist: llama-index-llms-google-genai>=0.6.2
+Requires-Dist: llama-index==0.14.4
+Requires-Dist: posthog>=6.7.6
+Requires-Dist: pydantic>=2.11.10
 Requires-Dist: rich>=14.1.0
 Provides-Extra: anthropic
 Requires-Dist: anthropic>=0.67.0; extra == 'anthropic'
-Requires-Dist: llama-index-llms-anthropic>=0.8.6; extra == 'anthropic'
+Requires-Dist: llama-index-llms-anthropic<0.9.0,>=0.8.6; extra == 'anthropic'
 Provides-Extra: deepseek
 Requires-Dist: llama-index-llms-deepseek>=0.2.1; extra == 'deepseek'
 Provides-Extra: dev
@@ -88,7 +91,7 @@ DroidRun is a powerful framework for controlling Android and iOS devices through
 ## 📦 Installation
 ```bash
-pip install droidrun[google,anthropic,openai,deepseek,ollama,dev]
+pip install 'droidrun[google,anthropic,openai,deepseek,ollama,dev]'
 ```
 ## 🚀 Quickstart

{droidrun-0.3.8 → droidrun-0.3.9}/README.md RENAMED Viewed

@@ -33,7 +33,7 @@ DroidRun is a powerful framework for controlling Android and iOS devices through
 ## 📦 Installation
 ```bash
-pip install droidrun[google,anthropic,openai,deepseek,ollama,dev]
+pip install 'droidrun[google,anthropic,openai,deepseek,ollama,dev]'
 ```
 ## 🚀 Quickstart

{droidrun-0.3.8 → droidrun-0.3.9}/docs/docs.json RENAMED Viewed

@@ -14,7 +14,7 @@
         "tab": "Framework",
         "versions": [
           {
-            "version": "0.3.6",
+            "version": "0.3.8",
             "groups": [
               {
                 "group": "Introduction",

{droidrun-0.3.8 → droidrun-0.3.9}/docs/v3/guides/cli.mdx RENAMED Viewed

@@ -13,7 +13,7 @@ DroidRun lets you control Android devices using natural language and LLM agents.
 <Steps>
     <Step title="Install DroidRun and its dependencies. Choose which ever provider you'd like to use.">
        ```sh
-       pip install droidrun[google,anthropic,openai,deepseek,ollama,dev]
+       pip install 'droidrun[google,anthropic,openai,deepseek,ollama,dev]'
        ```
     </Step>
     <Step title="Ensure your Android device is connected and the DroidRun Portal is installed">

{droidrun-0.3.8 → droidrun-0.3.9}/docs/v3/guides/gemini.mdx RENAMED Viewed

@@ -32,7 +32,7 @@ Make sure you've set up and enabled the Droidrun Portal.
 ## 2. Install Required Python Packages
 ```sh
-pip install droidrun[google]
+pip install 'droidrun[google]'
 ```
 ## 3. Example: Using Droidrun with Gemini LLM

{droidrun-0.3.8 → droidrun-0.3.9}/docs/v3/guides/ollama.mdx RENAMED Viewed

@@ -47,7 +47,7 @@ ollama pull llama4
 Make sure you have the required Python packages:
 ```sh
-pip install droidrun[ollama]
+pip install 'droidrun[ollama]'
 ```
 ## 3. Example: Using Droidrun with Ollama LLM

{droidrun-0.3.8 → droidrun-0.3.9}/docs/v3/guides/openailike.mdx RENAMED Viewed

@@ -36,7 +36,7 @@ Get your API key for the provider you've choosen
 ## 2. Install the required Python packages:
 ```sh
-pip install droidrun[openai]
+pip install 'droidrun[openai]'
 ```
 ## 3. Example: Using Droidrun with OpenAI-like LLM

{droidrun-0.3.8 → droidrun-0.3.9}/docs/v3/overview.mdx RENAMED Viewed

@@ -29,7 +29,7 @@ DroidRun empowers you to automate sophisticated mobile workflows through intelli
 <Card icon="mobile" title="Physical Device" href="/v3/quickstart" arrow>
  - Connect your own physical Android device for direct automation
 </Card>
-<Card icon="cloud" title="Cloud Environment" href="https://droidrun.ai/cloud">
+<Card icon="cloud" title="Cloud Environment" href="https://cloud.droidrun.ai">
  - Access our managed cloud environment for instant mobile app automation without any setup.
 </Card>
 </CardGroup>

{droidrun-0.3.8 → droidrun-0.3.9}/docs/v3/quickstart.mdx RENAMED Viewed

@@ -28,7 +28,7 @@ Before installing DroidRun, ensure you have:
 ### Install from PyPI
 Choose which ever provider you'd like to use. If you encounter dependency resolution issues use [`uv`](https://docs.astral.sh/uv/getting-started/installation/).
 ```bash
-pip install droidrun[google,anthropic,openai,deepseek,ollama,dev]
+pip install 'droidrun[google,anthropic,openai,deepseek,ollama,dev]'
 ```
 ### Setup the Portal APK

{droidrun-0.3.8 → droidrun-0.3.9}/droidrun/agent/codeact/codeact_agent.py RENAMED Viewed

@@ -18,7 +18,8 @@ from droidrun.agent.codeact.events import (
     TaskThinkingEvent,
     EpisodicMemoryEvent,
 )
-from droidrun.agent.common.events import ScreenshotEvent, RecordUIStateEvent
+from droidrun.agent.common.constants import LLM_HISTORY_LIMIT
+from droidrun.agent.common.events import RecordUIStateEvent, ScreenshotEvent
 from droidrun.agent.usage import get_usage_from_response
 from droidrun.agent.utils import chat_utils
 from droidrun.agent.utils.executer import SimpleCodeExecutor
@@ -109,7 +110,8 @@ class CodeActAgent(Workflow):
         """Prepare chat history from user input."""
         logger.info("💬 Preparing chat for task execution...")
-        self.chat_memory: Memory = await ctx.get(
+        self.chat_memory: Memory = await ctx.store.get(
             "chat_memory", default=Memory.from_defaults()
         )
@@ -135,7 +137,7 @@ class CodeActAgent(Workflow):
         await self.chat_memory.aput(self.user_message)
-        await ctx.set("chat_memory", self.chat_memory)
+        await ctx.store.set("chat_memory", self.chat_memory)
         input_messages = self.chat_memory.get_all()
         return TaskInputEvent(input=input_messages)
@@ -162,7 +164,7 @@ class CodeActAgent(Workflow):
         model = self.llm.class_name()
         if "remember" in self.tool_list and self.remembered_info:
-            await ctx.set("remembered_info", self.remembered_info)
+            await ctx.store.set("remembered_info", self.remembered_info)
             chat_history = await chat_utils.add_memory_block(self.remembered_info, chat_history)
         for context in self.required_context:
@@ -171,7 +173,7 @@ class CodeActAgent(Workflow):
                 screenshot = (self.tools.take_screenshot())[1]
                 ctx.write_event_to_stream(ScreenshotEvent(screenshot=screenshot))
-                await ctx.set("screenshot", screenshot)
+                await ctx.store.set("screenshot", screenshot)
                 if model == "DeepSeek":
                     logger.warning(
                         "[yellow]DeepSeek doesnt support images. Disabling screenshots[/]"
@@ -182,7 +184,7 @@ class CodeActAgent(Workflow):
             if context == "ui_state":
                 try:
                     state = self.tools.get_state()
-                    await ctx.set("ui_state", state["a11y_tree"])
+                    await ctx.store.set("ui_state", state["a11y_tree"])
                     ctx.write_event_to_stream(RecordUIStateEvent(ui_state=state["a11y_tree"]))
                     chat_history = await chat_utils.add_ui_text_block(
                         state["a11y_tree"], chat_history
@@ -320,7 +322,7 @@ class CodeActAgent(Workflow):
     async def finalize(self, ev: TaskEndEvent, ctx: Context) -> StopEvent:
         """Finalize the workflow."""
         self.tools.finished = False
-        await ctx.set("chat_memory", self.chat_memory)
+        await ctx.store.set("chat_memory", self.chat_memory)
         # Add final state observation to episodic memory
         if self.vision:
@@ -347,14 +349,15 @@ class CodeActAgent(Workflow):
         self, ctx: Context, chat_history: List[ChatMessage]
     ) -> ChatResponse | None:
         logger.debug("🔍 Getting LLM response...")
-        messages_to_send = [self.system_prompt] + chat_history
+        limited_history = self._limit_history(chat_history)
+        messages_to_send = [self.system_prompt] + limited_history
         messages_to_send = [chat_utils.message_copy(msg) for msg in messages_to_send]
         try:
             response = await self.llm.achat(messages=messages_to_send)
             logger.debug("🔍 Received LLM response.")
             filtered_chat_history = []
-            for msg in chat_history:
+            for msg in limited_history:
                 filtered_msg = chat_utils.message_copy(msg)
                 if hasattr(filtered_msg, "blocks") and filtered_msg.blocks:
                     filtered_msg.blocks = [
@@ -379,9 +382,10 @@ class CodeActAgent(Workflow):
                 chat_history=chat_history_str,
                 response=response_str,
                 timestamp=time.time(),
-                screenshot=(await ctx.get("screenshot", None))
+                screenshot=(await ctx.store.get("screenshot", None))
             )
             self.episodic_memory.steps.append(step)
             assert hasattr(
@@ -403,12 +407,46 @@ class CodeActAgent(Workflow):
                     time.sleep(40)
                 logger.debug("🔍 Retrying call to LLM...")
                 response = await self.llm.achat(messages=messages_to_send)
+            elif (
+                self.llm.class_name() == "Anthropic_LLM"
+                and "overloaded_error" in str(e)
+            ):
+                # Use exponential backoff for Anthropic errors
+                if not hasattr(self, '_anthropic_retry_count'):
+                    self._anthropic_retry_count = 0
+                self._anthropic_retry_count += 1
+                seconds = min(2 ** self._anthropic_retry_count, 60)  # Cap at 60 seconds
+                logger.error(f"Anthropic overload error. Retrying in {seconds} seconds... (attempt {self._anthropic_retry_count})")
+                time.sleep(seconds)
+                logger.debug("🔍 Retrying call to LLM...")
+                response = await self.llm.achat(messages=messages_to_send)
+                self._anthropic_retry_count = 0  # Reset on success
             else:
                 logger.error(f"Could not get an answer from LLM: {repr(e)}")
                 raise e
         logger.debug("  - Received response from LLM.")
         return response
+    def _limit_history(
+        self, chat_history: List[ChatMessage]
+    ) -> List[ChatMessage]:
+        if LLM_HISTORY_LIMIT <= 0:
+            return chat_history
+        max_messages = LLM_HISTORY_LIMIT * 2
+        if len(chat_history) <= max_messages:
+            return chat_history
+        preserved_head: List[ChatMessage] = []
+        if chat_history and chat_history[0].role == "user":
+            preserved_head = [chat_history[0]]
+        tail = chat_history[-max_messages:]
+        if preserved_head and preserved_head[0] in tail:
+            preserved_head = []
+        return preserved_head + tail
     async def _add_final_state_observation(self, ctx: Context) -> None:
         """Add the current UI state and screenshot as the final observation step."""
         try:

droidrun-0.3.9/droidrun/agent/common/constants.py ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ """Max number of recent conversation steps to include in LLM prompt"""
2	+ LLM_HISTORY_LIMIT = 20

{droidrun-0.3.8 → droidrun-0.3.9}/droidrun/agent/common/events.py RENAMED Viewed

@@ -48,4 +48,4 @@ class StartAppEvent(MacroEvent):
     activity: str = None
 class RecordUIStateEvent(Event):
-    ui_state: list[Dict[str, Any]]
+    ui_state: list[Dict[str, Any]]

{droidrun-0.3.8 → droidrun-0.3.9}/droidrun/agent/droid/droid_agent.py RENAMED Viewed

@@ -165,7 +165,6 @@ class DroidAgent(Workflow):
                 timeout=timeout,
                 debug=debug,
             )
-            self.add_workflows(planner_agent=self.planner_agent)
             self.max_codeact_steps = 5
             if self.reflection:
@@ -335,7 +334,6 @@ class DroidAgent(Workflow):
         self,
         ctx: Context,
         ev: ReasoningLogicEvent,
-        planner_agent: Workflow = MockWorkflow(),
     ) -> FinalizeEvent | CodeActExecuteEvent:
         try:
             if self.step_counter >= self.max_steps:
@@ -352,7 +350,7 @@ class DroidAgent(Workflow):
             self.step_counter += 1
             if ev.reflection:
-                handler = planner_agent.run(
+                handler = self.planner_agent.run(
                     remembered_info=self.tools_instance.memory, reflection=ev.reflection
                 )
             else:
@@ -365,7 +363,7 @@ class DroidAgent(Workflow):
                 logger.debug(f"Planning step {self.step_counter}/{self.max_steps}")
-                handler = planner_agent.run(
+                handler = self.planner_agent.run(
                     remembered_info=self.tools_instance.memory, reflection=None
                 )

{droidrun-0.3.8 → droidrun-0.3.9}/droidrun/agent/planner/planner_agent.py RENAMED Viewed

@@ -18,7 +18,8 @@ from droidrun.agent.utils.executer import SimpleCodeExecutor
 from droidrun.agent.utils import chat_utils
 from droidrun.agent.context.task_manager import TaskManager
 from droidrun.tools import Tools
-from droidrun.agent.common.events import ScreenshotEvent, RecordUIStateEvent
+from droidrun.agent.common.constants import LLM_HISTORY_LIMIT
+from droidrun.agent.common.events import RecordUIStateEvent, ScreenshotEvent
 from droidrun.agent.planner.events import (
     PlanInputEvent,
     PlanCreatedEvent,
@@ -97,7 +98,7 @@ class PlannerAgent(Workflow):
     async def prepare_chat(self, ctx: Context, ev: StartEvent) -> PlanInputEvent:
         logger.info("💬 Preparing planning session...")
-        self.chat_memory: Memory = await ctx.get(
+        self.chat_memory: Memory = await ctx.store.get(
             "chat_memory", default=Memory.from_defaults()
         )
         await self.chat_memory.aput(self.user_message)
@@ -134,19 +135,19 @@ class PlannerAgent(Workflow):
         if self.vision:
             screenshot = (self.tools_instance.take_screenshot())[1]
             ctx.write_event_to_stream(ScreenshotEvent(screenshot=screenshot))
-            await ctx.set("screenshot", screenshot)
+            await ctx.store.set("screenshot", screenshot)
         try:
             state = self.tools_instance.get_state()
-            await ctx.set("ui_state", state["a11y_tree"])
-            await ctx.set("phone_state", state["phone_state"])
+            await ctx.store.set("ui_state", state["a11y_tree"])
+            await ctx.store.set("phone_state", state["phone_state"])
             ctx.write_event_to_stream(RecordUIStateEvent(ui_state=state["a11y_tree"]))
         except Exception as e:
             logger.warning(f"⚠️ Error retrieving state from the connected device. Is the Accessibility Service enabled?")
-        await ctx.set("remembered_info", self.remembered_info)
-        await ctx.set("reflection", self.reflection)
+        await ctx.store.set("remembered_info", self.remembered_info)
+        await ctx.store.set("reflection", self.reflection)
         response = await self._get_llm_response(ctx, chat_history)
         try:
@@ -237,7 +238,7 @@ wrap your code inside this:
     @step
     async def finalize(self, ev: PlanCreatedEvent, ctx: Context) -> StopEvent:
         """Finalize the workflow."""
-        await ctx.set("chat_memory", self.chat_memory)
+        await ctx.store.set("chat_memory", self.chat_memory)
         result = {}
         result.update(
@@ -263,7 +264,7 @@ wrap your code inside this:
                     )
                 else:
                     chat_history = await chat_utils.add_screenshot_image_block(
-                        await ctx.get("screenshot"), chat_history
+                        await ctx.store.get("screenshot"), chat_history
                     )
@@ -275,18 +276,19 @@ wrap your code inside this:
                 chat_history,
             )
-            remembered_info = await ctx.get("remembered_info", default=None)
+            remembered_info = await ctx.store.get("remembered_info", default=None)
             if remembered_info:
                 chat_history = await chat_utils.add_memory_block(remembered_info, chat_history)
-            reflection = await ctx.get("reflection", None)
+            reflection = await ctx.store.get("reflection", None)
             if reflection:
                 chat_history = await chat_utils.add_reflection_summary(reflection, chat_history)
-            chat_history = await chat_utils.add_phone_state_block(await ctx.get("phone_state"), chat_history)
-            chat_history = await chat_utils.add_ui_text_block(await ctx.get("ui_state"), chat_history)
+            chat_history = await chat_utils.add_phone_state_block(await ctx.store.get("phone_state"), chat_history)
+            chat_history = await chat_utils.add_ui_text_block(await ctx.store.get("ui_state"), chat_history)
-            messages_to_send = [self.system_message] + chat_history
+            limited_history = self._limit_history(chat_history)
+            messages_to_send = [self.system_message] + limited_history
             messages_to_send = [
                 chat_utils.message_copy(msg) for msg in messages_to_send
             ]
@@ -302,3 +304,23 @@ wrap your code inside this:
         except Exception as e:
             logger.error(f"Could not get an answer from LLM: {repr(e)}")
             raise e
+    def _limit_history(
+        self, chat_history: List[ChatMessage]
+    ) -> List[ChatMessage]:
+        if LLM_HISTORY_LIMIT <= 0:
+            return chat_history
+        max_messages = LLM_HISTORY_LIMIT * 2
+        if len(chat_history) <= max_messages:
+            return chat_history
+        preserved_head: List[ChatMessage] = []
+        if chat_history and chat_history[0].role == "user":
+            preserved_head = [chat_history[0]]
+        tail = chat_history[-max_messages:]
+        if preserved_head and preserved_head[0] in tail:
+            preserved_head = []
+        return preserved_head + tail

{droidrun-0.3.8 → droidrun-0.3.9}/droidrun/agent/usage.py RENAMED Viewed

@@ -12,7 +12,9 @@ logger = logging.getLogger("droidrun")
 SUPPORTED_PROVIDERS = [
     "Gemini",
     "GoogleGenAI",
+    "GenAI",
     "OpenAI",
+    "openai_llm",
     "Anthropic",
     "Ollama",
     "DeepSeek",
@@ -32,14 +34,14 @@ def get_usage_from_response(provider: str, chat_rsp: ChatResponse) -> UsageResul
     print(f"rsp: {rsp.__class__.__name__}")
-    if provider == "Gemini" or provider == "GoogleGenAI":
+    if provider == "Gemini" or provider == "GoogleGenAI" or provider == "GenAI":
         return UsageResult(
             request_tokens=rsp["usage_metadata"]["prompt_token_count"],
             response_tokens=rsp["usage_metadata"]["candidates_token_count"],
             total_tokens=rsp["usage_metadata"]["total_token_count"],
             requests=1,
         )
-    elif provider == "OpenAI":
+    elif provider == "OpenAI" or provider == "openai_llm":
         from openai.types import CompletionUsage as OpenAIUsage
         usage: OpenAIUsage = rsp.usage

{droidrun-0.3.8 → droidrun-0.3.9}/droidrun/agent/utils/executer.py RENAMED Viewed

@@ -98,7 +98,7 @@ class SimpleCodeExecutor:
             str: Output from the execution, including print statements.
         """
         # Update UI elements before execution
-        self.globals['ui_state'] = await ctx.get("ui_state", None)
+        self.globals['ui_state'] = await ctx.store.get("ui_state", None)
         self.globals['step_screenshots'] = []
         self.globals['step_ui_states'] = []

{droidrun-0.3.8 → droidrun-0.3.9}/pyproject.toml RENAMED Viewed

@@ -1,15 +1,16 @@
 [project]
 name = "droidrun"
-version = "0.3.8"
+version = "0.3.9"
 description = "A framework for controlling Android devices through LLM agents"
 authors = [{ name = "Niels Schmidt", email = "niels.schmidt@droidrun.ai" }]
 dependencies = [
     "adbutils>=2.10.2",
     # dependency of adbutils[apk]
     "apkutils==2.0.0",
-    "llama-index==0.13.6",
-    "posthog>=6.7.4",
-    "pydantic>=2.11.7",
+    "llama-index==0.14.4",
+    "llama-index-llms-google-genai>=0.6.2",
+    "posthog>=6.7.6",
+    "pydantic>=2.11.10",
     "rich>=14.1.0",
 ]
 requires-python = ">=3.11"
@@ -24,6 +25,8 @@ classifiers = [
     "Programming Language :: Python :: 3",
     "Programming Language :: Python :: 3.10",
     "Programming Language :: Python :: 3.11",
+    "Programming Language :: Python :: 3.12",
+    "Programming Language :: Python :: 3.13",
     "Topic :: Software Development :: Libraries :: Python Modules",
     "Topic :: Software Development :: Testing",
     "Topic :: Scientific/Engineering :: Artificial Intelligence",
@@ -43,7 +46,7 @@ Documentation = "https://docs.droidrun.ai/"
 [project.optional-dependencies]
 anthropic = [
     "anthropic>=0.67.0",
-    "llama-index-llms-anthropic>=0.8.6",
+    "llama-index-llms-anthropic>=0.8.6,<0.9.0",
 ]
 openai = [
     "openai>=1.99.1",

droidrun 0.3.8__tar.gz → 0.3.9__tar.gz

droidrun 0.3.8tar.gz → 0.3.9tar.gz