PyPI - optexity-browser-use - Versions diffs - 0.9.5__py3-none-any.whl - Mend

optexity-browser-use 0.9.5__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (147) hide show

browser_use/__init__.py +157 -0
browser_use/actor/__init__.py +11 -0
browser_use/actor/element.py +1175 -0
browser_use/actor/mouse.py +134 -0
browser_use/actor/page.py +561 -0
browser_use/actor/playground/flights.py +41 -0
browser_use/actor/playground/mixed_automation.py +54 -0
browser_use/actor/playground/playground.py +236 -0
browser_use/actor/utils.py +176 -0
browser_use/agent/cloud_events.py +282 -0
browser_use/agent/gif.py +424 -0
browser_use/agent/judge.py +170 -0
browser_use/agent/message_manager/service.py +473 -0
browser_use/agent/message_manager/utils.py +52 -0
browser_use/agent/message_manager/views.py +98 -0
browser_use/agent/prompts.py +413 -0
browser_use/agent/service.py +2316 -0
browser_use/agent/system_prompt.md +185 -0
browser_use/agent/system_prompt_flash.md +10 -0
browser_use/agent/system_prompt_no_thinking.md +183 -0
browser_use/agent/views.py +743 -0
browser_use/browser/__init__.py +41 -0
browser_use/browser/cloud/cloud.py +203 -0
browser_use/browser/cloud/views.py +89 -0
browser_use/browser/events.py +578 -0
browser_use/browser/profile.py +1158 -0
browser_use/browser/python_highlights.py +548 -0
browser_use/browser/session.py +3225 -0
browser_use/browser/session_manager.py +399 -0
browser_use/browser/video_recorder.py +162 -0
browser_use/browser/views.py +200 -0
browser_use/browser/watchdog_base.py +260 -0
browser_use/browser/watchdogs/__init__.py +0 -0
browser_use/browser/watchdogs/aboutblank_watchdog.py +253 -0
browser_use/browser/watchdogs/crash_watchdog.py +335 -0
browser_use/browser/watchdogs/default_action_watchdog.py +2729 -0
browser_use/browser/watchdogs/dom_watchdog.py +817 -0
browser_use/browser/watchdogs/downloads_watchdog.py +1277 -0
browser_use/browser/watchdogs/local_browser_watchdog.py +461 -0
browser_use/browser/watchdogs/permissions_watchdog.py +43 -0
browser_use/browser/watchdogs/popups_watchdog.py +143 -0
browser_use/browser/watchdogs/recording_watchdog.py +126 -0
browser_use/browser/watchdogs/screenshot_watchdog.py +62 -0
browser_use/browser/watchdogs/security_watchdog.py +280 -0
browser_use/browser/watchdogs/storage_state_watchdog.py +335 -0
browser_use/cli.py +2359 -0
browser_use/code_use/__init__.py +16 -0
browser_use/code_use/formatting.py +192 -0
browser_use/code_use/namespace.py +665 -0
browser_use/code_use/notebook_export.py +276 -0
browser_use/code_use/service.py +1340 -0
browser_use/code_use/system_prompt.md +574 -0
browser_use/code_use/utils.py +150 -0
browser_use/code_use/views.py +171 -0
browser_use/config.py +505 -0
browser_use/controller/__init__.py +3 -0
browser_use/dom/enhanced_snapshot.py +161 -0
browser_use/dom/markdown_extractor.py +169 -0
browser_use/dom/playground/extraction.py +312 -0
browser_use/dom/playground/multi_act.py +32 -0
browser_use/dom/serializer/clickable_elements.py +200 -0
browser_use/dom/serializer/code_use_serializer.py +287 -0
browser_use/dom/serializer/eval_serializer.py +478 -0
browser_use/dom/serializer/html_serializer.py +212 -0
browser_use/dom/serializer/paint_order.py +197 -0
browser_use/dom/serializer/serializer.py +1170 -0
browser_use/dom/service.py +825 -0
browser_use/dom/utils.py +129 -0
browser_use/dom/views.py +906 -0
browser_use/exceptions.py +5 -0
browser_use/filesystem/__init__.py +0 -0
browser_use/filesystem/file_system.py +619 -0
browser_use/init_cmd.py +376 -0
browser_use/integrations/gmail/__init__.py +24 -0
browser_use/integrations/gmail/actions.py +115 -0
browser_use/integrations/gmail/service.py +225 -0
browser_use/llm/__init__.py +155 -0
browser_use/llm/anthropic/chat.py +242 -0
browser_use/llm/anthropic/serializer.py +312 -0
browser_use/llm/aws/__init__.py +36 -0
browser_use/llm/aws/chat_anthropic.py +242 -0
browser_use/llm/aws/chat_bedrock.py +289 -0
browser_use/llm/aws/serializer.py +257 -0
browser_use/llm/azure/chat.py +91 -0
browser_use/llm/base.py +57 -0
browser_use/llm/browser_use/__init__.py +3 -0
browser_use/llm/browser_use/chat.py +201 -0
browser_use/llm/cerebras/chat.py +193 -0
browser_use/llm/cerebras/serializer.py +109 -0
browser_use/llm/deepseek/chat.py +212 -0
browser_use/llm/deepseek/serializer.py +109 -0
browser_use/llm/exceptions.py +29 -0
browser_use/llm/google/__init__.py +3 -0
browser_use/llm/google/chat.py +542 -0
browser_use/llm/google/serializer.py +120 -0
browser_use/llm/groq/chat.py +229 -0
browser_use/llm/groq/parser.py +158 -0
browser_use/llm/groq/serializer.py +159 -0
browser_use/llm/messages.py +238 -0
browser_use/llm/models.py +271 -0
browser_use/llm/oci_raw/__init__.py +10 -0
browser_use/llm/oci_raw/chat.py +443 -0
browser_use/llm/oci_raw/serializer.py +229 -0
browser_use/llm/ollama/chat.py +97 -0
browser_use/llm/ollama/serializer.py +143 -0
browser_use/llm/openai/chat.py +264 -0
browser_use/llm/openai/like.py +15 -0
browser_use/llm/openai/serializer.py +165 -0
browser_use/llm/openrouter/chat.py +211 -0
browser_use/llm/openrouter/serializer.py +26 -0
browser_use/llm/schema.py +176 -0
browser_use/llm/views.py +48 -0
browser_use/logging_config.py +330 -0
browser_use/mcp/__init__.py +18 -0
browser_use/mcp/__main__.py +12 -0
browser_use/mcp/client.py +544 -0
browser_use/mcp/controller.py +264 -0
browser_use/mcp/server.py +1114 -0
browser_use/observability.py +204 -0
browser_use/py.typed +0 -0
browser_use/sandbox/__init__.py +41 -0
browser_use/sandbox/sandbox.py +637 -0
browser_use/sandbox/views.py +132 -0
browser_use/screenshots/__init__.py +1 -0
browser_use/screenshots/service.py +52 -0
browser_use/sync/__init__.py +6 -0
browser_use/sync/auth.py +357 -0
browser_use/sync/service.py +161 -0
browser_use/telemetry/__init__.py +51 -0
browser_use/telemetry/service.py +112 -0
browser_use/telemetry/views.py +101 -0
browser_use/tokens/__init__.py +0 -0
browser_use/tokens/custom_pricing.py +24 -0
browser_use/tokens/mappings.py +4 -0
browser_use/tokens/service.py +580 -0
browser_use/tokens/views.py +108 -0
browser_use/tools/registry/service.py +572 -0
browser_use/tools/registry/views.py +174 -0
browser_use/tools/service.py +1675 -0
browser_use/tools/utils.py +82 -0
browser_use/tools/views.py +100 -0
browser_use/utils.py +670 -0
optexity_browser_use-0.9.5.dist-info/METADATA +344 -0
optexity_browser_use-0.9.5.dist-info/RECORD +147 -0
optexity_browser_use-0.9.5.dist-info/WHEEL +4 -0
optexity_browser_use-0.9.5.dist-info/entry_points.txt +3 -0
optexity_browser_use-0.9.5.dist-info/licenses/LICENSE +21 -0

browser_use/agent/message_manager/views.py ADDED Viewed

@@ -0,0 +1,98 @@
+from __future__ import annotations
+from typing import TYPE_CHECKING, Any
+from pydantic import BaseModel, ConfigDict, Field
+from browser_use.llm.messages import (
+	BaseMessage,
+)
+if TYPE_CHECKING:
+	pass
+class HistoryItem(BaseModel):
+	"""Represents a single agent history item with its data and string representation"""
+	step_number: int | None = None
+	evaluation_previous_goal: str | None = None
+	memory: str | None = None
+	next_goal: str | None = None
+	action_results: str | None = None
+	error: str | None = None
+	system_message: str | None = None
+	model_config = ConfigDict(arbitrary_types_allowed=True)
+	def model_post_init(self, __context) -> None:
+		"""Validate that error and system_message are not both provided"""
+		if self.error is not None and self.system_message is not None:
+			raise ValueError('Cannot have both error and system_message at the same time')
+	def to_string(self) -> str:
+		"""Get string representation of the history item"""
+		step_str = 'step' if self.step_number is not None else 'step_unknown'
+		if self.error:
+			return f"""<{step_str}>
+{self.error}"""
+		elif self.system_message:
+			return self.system_message
+		else:
+			content_parts = []
+			# Only include evaluation_previous_goal if it's not None/empty
+			if self.evaluation_previous_goal:
+				content_parts.append(f'{self.evaluation_previous_goal}')
+			# Always include memory
+			if self.memory:
+				content_parts.append(f'{self.memory}')
+			# Only include next_goal if it's not None/empty
+			if self.next_goal:
+				content_parts.append(f'{self.next_goal}')
+			if self.action_results:
+				content_parts.append(self.action_results)
+			content = '\n'.join(content_parts)
+			return f"""<{step_str}>
+{content}"""
+class MessageHistory(BaseModel):
+	"""History of messages"""
+	system_message: BaseMessage | None = None
+	state_message: BaseMessage | None = None
+	context_messages: list[BaseMessage] = Field(default_factory=list)
+	model_config = ConfigDict(arbitrary_types_allowed=True)
+	def get_messages(self) -> list[BaseMessage]:
+		"""Get all messages in the correct order: system -> state -> contextual"""
+		messages = []
+		if self.system_message:
+			messages.append(self.system_message)
+		if self.state_message:
+			messages.append(self.state_message)
+		messages.extend(self.context_messages)
+		return messages
+class MessageManagerState(BaseModel):
+	"""Holds the state for MessageManager"""
+	history: MessageHistory = Field(default_factory=MessageHistory)
+	tool_id: int = 1
+	agent_history_items: list[HistoryItem] = Field(
+		default_factory=lambda: [HistoryItem(step_number=0, system_message='Agent initialized')]
+	)
+	read_state_description: str = ''
+	# Images to include in the next state message (cleared after each step)
+	read_state_images: list[dict[str, Any]] = Field(default_factory=list)
+	model_config = ConfigDict(arbitrary_types_allowed=True)

browser_use/agent/prompts.py ADDED Viewed

@@ -0,0 +1,413 @@
+import importlib.resources
+from datetime import datetime
+from typing import TYPE_CHECKING, Literal, Optional
+from browser_use.dom.views import NodeType, SimplifiedNode
+from browser_use.llm.messages import ContentPartImageParam, ContentPartTextParam, ImageURL, SystemMessage, UserMessage
+from browser_use.observability import observe_debug
+from browser_use.utils import is_new_tab_page
+if TYPE_CHECKING:
+	from browser_use.agent.views import AgentStepInfo
+	from browser_use.browser.views import BrowserStateSummary
+	from browser_use.filesystem.file_system import FileSystem
+class SystemPrompt:
+	def __init__(
+		self,
+		max_actions_per_step: int = 10,
+		override_system_message: str | None = None,
+		extend_system_message: str | None = None,
+		use_thinking: bool = True,
+		flash_mode: bool = False,
+	):
+		self.max_actions_per_step = max_actions_per_step
+		self.use_thinking = use_thinking
+		self.flash_mode = flash_mode
+		prompt = ''
+		if override_system_message is not None:
+			prompt = override_system_message
+		else:
+			self._load_prompt_template()
+			prompt = self.prompt_template.format(max_actions=self.max_actions_per_step)
+		if extend_system_message:
+			prompt += f'\n{extend_system_message}'
+		self.system_message = SystemMessage(content=prompt, cache=True)
+	def _load_prompt_template(self) -> None:
+		"""Load the prompt template from the markdown file."""
+		try:
+			# Choose the appropriate template based on flash_mode and use_thinking settings
+			if self.flash_mode:
+				template_filename = 'system_prompt_flash.md'
+			elif self.use_thinking:
+				template_filename = 'system_prompt.md'
+			else:
+				template_filename = 'system_prompt_no_thinking.md'
+			# This works both in development and when installed as a package
+			with importlib.resources.files('browser_use.agent').joinpath(template_filename).open('r', encoding='utf-8') as f:
+				self.prompt_template = f.read()
+		except Exception as e:
+			raise RuntimeError(f'Failed to load system prompt template: {e}')
+	def get_system_message(self) -> SystemMessage:
+		"""
+		Get the system prompt for the agent.
+		Returns:
+		    SystemMessage: Formatted system prompt
+		"""
+		return self.system_message
+class AgentMessagePrompt:
+	vision_detail_level: Literal['auto', 'low', 'high']
+	def __init__(
+		self,
+		browser_state_summary: 'BrowserStateSummary',
+		file_system: 'FileSystem',
+		agent_history_description: str | None = None,
+		read_state_description: str | None = None,
+		task: str | None = None,
+		include_attributes: list[str] | None = None,
+		step_info: Optional['AgentStepInfo'] = None,
+		page_filtered_actions: str | None = None,
+		max_clickable_elements_length: int = 40000,
+		sensitive_data: str | None = None,
+		available_file_paths: list[str] | None = None,
+		screenshots: list[str] | None = None,
+		vision_detail_level: Literal['auto', 'low', 'high'] = 'auto',
+		include_recent_events: bool = False,
+		sample_images: list[ContentPartTextParam | ContentPartImageParam] | None = None,
+		read_state_images: list[dict] | None = None,
+	):
+		self.browser_state: 'BrowserStateSummary' = browser_state_summary
+		self.file_system: 'FileSystem | None' = file_system
+		self.agent_history_description: str | None = agent_history_description
+		self.read_state_description: str | None = read_state_description
+		self.task: str | None = task
+		self.include_attributes = include_attributes
+		self.step_info = step_info
+		self.page_filtered_actions: str | None = page_filtered_actions
+		self.max_clickable_elements_length: int = max_clickable_elements_length
+		self.sensitive_data: str | None = sensitive_data
+		self.available_file_paths: list[str] | None = available_file_paths
+		self.screenshots = screenshots or []
+		self.vision_detail_level = vision_detail_level
+		self.include_recent_events = include_recent_events
+		self.sample_images = sample_images or []
+		self.read_state_images = read_state_images or []
+		assert self.browser_state
+	def _extract_page_statistics(self) -> dict[str, int]:
+		"""Extract high-level page statistics from DOM tree for LLM context"""
+		stats = {
+			'links': 0,
+			'iframes': 0,
+			'shadow_open': 0,
+			'shadow_closed': 0,
+			'scroll_containers': 0,
+			'images': 0,
+			'interactive_elements': 0,
+			'total_elements': 0,
+		}
+		if not self.browser_state.dom_state or not self.browser_state.dom_state._root:
+			return stats
+		def traverse_node(node: SimplifiedNode) -> None:
+			"""Recursively traverse simplified DOM tree to count elements"""
+			if not node or not node.original_node:
+				return
+			original = node.original_node
+			stats['total_elements'] += 1
+			# Count by node type and tag
+			if original.node_type == NodeType.ELEMENT_NODE:
+				tag = original.tag_name.lower() if original.tag_name else ''
+				if tag == 'a':
+					stats['links'] += 1
+				elif tag in ('iframe', 'frame'):
+					stats['iframes'] += 1
+				elif tag == 'img':
+					stats['images'] += 1
+				# Check if scrollable
+				if original.is_actually_scrollable:
+					stats['scroll_containers'] += 1
+				# Check if interactive
+				if node.is_interactive:
+					stats['interactive_elements'] += 1
+				# Check if this element hosts shadow DOM
+				if node.is_shadow_host:
+					# Check if any shadow children are closed
+					has_closed_shadow = any(
+						child.original_node.node_type == NodeType.DOCUMENT_FRAGMENT_NODE
+						and child.original_node.shadow_root_type
+						and child.original_node.shadow_root_type.lower() == 'closed'
+						for child in node.children
+					)
+					if has_closed_shadow:
+						stats['shadow_closed'] += 1
+					else:
+						stats['shadow_open'] += 1
+			elif original.node_type == NodeType.DOCUMENT_FRAGMENT_NODE:
+				# Shadow DOM fragment - these are the actual shadow roots
+				# But don't double-count since we count them at the host level above
+				pass
+			# Traverse children
+			for child in node.children:
+				traverse_node(child)
+		traverse_node(self.browser_state.dom_state._root)
+		return stats
+	@observe_debug(ignore_input=True, ignore_output=True, name='_get_browser_state_description')
+	def _get_browser_state_description(self) -> str:
+		# Extract page statistics first
+		page_stats = self._extract_page_statistics()
+		# Format statistics for LLM
+		stats_text = '<page_stats>'
+		if page_stats['total_elements'] < 10:
+			stats_text += 'Page appears empty (SPA not loaded?) - '
+		stats_text += f'{page_stats["links"]} links, {page_stats["interactive_elements"]} interactive, '
+		stats_text += f'{page_stats["iframes"]} iframes, {page_stats["scroll_containers"]} scroll containers'
+		if page_stats['shadow_open'] > 0 or page_stats['shadow_closed'] > 0:
+			stats_text += f', {page_stats["shadow_open"]} shadow(open), {page_stats["shadow_closed"]} shadow(closed)'
+		if page_stats['images'] > 0:
+			stats_text += f', {page_stats["images"]} images'
+		stats_text += f', {page_stats["total_elements"]} total elements'
+		stats_text += '</page_stats>\n'
+		elements_text = self.browser_state.dom_state.llm_representation(include_attributes=self.include_attributes)
+		if len(elements_text) > self.max_clickable_elements_length:
+			elements_text = elements_text[: self.max_clickable_elements_length]
+			truncated_text = f' (truncated to {self.max_clickable_elements_length} characters)'
+		else:
+			truncated_text = ''
+		has_content_above = False
+		has_content_below = False
+		# Enhanced page information for the model
+		page_info_text = ''
+		if self.browser_state.page_info:
+			pi = self.browser_state.page_info
+			# Compute page statistics dynamically
+			pages_above = pi.pixels_above / pi.viewport_height if pi.viewport_height > 0 else 0
+			pages_below = pi.pixels_below / pi.viewport_height if pi.viewport_height > 0 else 0
+			has_content_above = pages_above > 0
+			has_content_below = pages_below > 0
+			total_pages = pi.page_height / pi.viewport_height if pi.viewport_height > 0 else 0
+			current_page_position = pi.scroll_y / max(pi.page_height - pi.viewport_height, 1)
+			page_info_text = '<page_info>'
+			page_info_text += f'{pages_above:.1f} pages above, '
+			page_info_text += f'{pages_below:.1f} pages below, '
+			page_info_text += f'{total_pages:.1f} total pages'
+			page_info_text += '</page_info>\n'
+			# , at {current_page_position:.0%} of page
+		if elements_text != '':
+			if has_content_above:
+				if self.browser_state.page_info:
+					pi = self.browser_state.page_info
+					pages_above = pi.pixels_above / pi.viewport_height if pi.viewport_height > 0 else 0
+					elements_text = f'... {pages_above:.1f} pages above ...\n{elements_text}'
+			else:
+				elements_text = f'[Start of page]\n{elements_text}'
+			if has_content_below:
+				if self.browser_state.page_info:
+					pi = self.browser_state.page_info
+					pages_below = pi.pixels_below / pi.viewport_height if pi.viewport_height > 0 else 0
+					elements_text = f'{elements_text}\n... {pages_below:.1f} pages below ...'
+			else:
+				elements_text = f'{elements_text}\n[End of page]'
+		else:
+			elements_text = 'empty page'
+		tabs_text = ''
+		current_tab_candidates = []
+		# Find tabs that match both URL and title to identify current tab more reliably
+		for tab in self.browser_state.tabs:
+			if tab.url == self.browser_state.url and tab.title == self.browser_state.title:
+				current_tab_candidates.append(tab.target_id)
+		# If we have exactly one match, mark it as current
+		# Otherwise, don't mark any tab as current to avoid confusion
+		current_target_id = current_tab_candidates[0] if len(current_tab_candidates) == 1 else None
+		for tab in self.browser_state.tabs:
+			tabs_text += f'Tab {tab.target_id[-4:]}: {tab.url} - {tab.title[:30]}\n'
+		current_tab_text = f'Current tab: {current_target_id[-4:]}' if current_target_id is not None else ''
+		# Check if current page is a PDF viewer and add appropriate message
+		pdf_message = ''
+		if self.browser_state.is_pdf_viewer:
+			pdf_message = (
+				'PDF viewer cannot be rendered. In this page, DO NOT use the extract action as PDF content cannot be rendered. '
+			)
+			pdf_message += (
+				'Use the read_file action on the downloaded PDF in available_file_paths to read the full text content.\n\n'
+			)
+		# Add recent events if available and requested
+		recent_events_text = ''
+		if self.include_recent_events and self.browser_state.recent_events:
+			recent_events_text = f'Recent browser events: {self.browser_state.recent_events}\n'
+		# Add closed popup messages if any
+		closed_popups_text = ''
+		if self.browser_state.closed_popup_messages:
+			closed_popups_text = 'Auto-closed JavaScript dialogs:\n'
+			for popup_msg in self.browser_state.closed_popup_messages:
+				closed_popups_text += f'  - {popup_msg}\n'
+			closed_popups_text += '\n'
+		browser_state = f"""{stats_text}{current_tab_text}
+Available tabs:
+{tabs_text}
+{page_info_text}
+{recent_events_text}{closed_popups_text}{pdf_message}Interactive elements{truncated_text}:
+{elements_text}
+"""
+		return browser_state
+	def _get_agent_state_description(self) -> str:
+		if self.step_info:
+			step_info_description = f'Step{self.step_info.step_number + 1} maximum:{self.step_info.max_steps}\n'
+		else:
+			step_info_description = ''
+		time_str = datetime.now().strftime('%Y-%m-%d')
+		step_info_description += f'Today:{time_str}'
+		_todo_contents = self.file_system.get_todo_contents() if self.file_system else ''
+		if not len(_todo_contents):
+			_todo_contents = '[empty todo.md, fill it when applicable]'
+		agent_state = f"""
+<user_request>
+{self.task}
+</user_request>
+<file_system>
+{self.file_system.describe() if self.file_system else 'No file system available'}
+</file_system>
+<todo_contents>
+{_todo_contents}
+</todo_contents>
+"""
+		if self.sensitive_data:
+			agent_state += f'<sensitive_data>{self.sensitive_data}</sensitive_data>\n'
+		agent_state += f'<step_info>{step_info_description}</step_info>\n'
+		if self.available_file_paths:
+			available_file_paths_text = '\n'.join(self.available_file_paths)
+			agent_state += f'<available_file_paths>{available_file_paths_text}\nUse with absolute paths</available_file_paths>\n'
+		return agent_state
+	@observe_debug(ignore_input=True, ignore_output=True, name='get_user_message')
+	def get_user_message(self, use_vision: bool = True) -> UserMessage:
+		"""Get complete state as a single cached message"""
+		# Don't pass screenshot to model if page is a new tab page, step is 0, and there's only one tab
+		if (
+			is_new_tab_page(self.browser_state.url)
+			and self.step_info is not None
+			and self.step_info.step_number == 0
+			and len(self.browser_state.tabs) == 1
+		):
+			use_vision = False
+		# Build complete state description
+		state_description = (
+			'<agent_history>\n'
+			+ (self.agent_history_description.strip('\n') if self.agent_history_description else '')
+			+ '\n</agent_history>\n\n'
+		)
+		state_description += '<agent_state>\n' + self._get_agent_state_description().strip('\n') + '\n</agent_state>\n'
+		state_description += '<browser_state>\n' + self._get_browser_state_description().strip('\n') + '\n</browser_state>\n'
+		# Only add read_state if it has content
+		read_state_description = self.read_state_description.strip('\n').strip() if self.read_state_description else ''
+		if read_state_description:
+			state_description += '<read_state>\n' + read_state_description + '\n</read_state>\n'
+		if self.page_filtered_actions:
+			state_description += '<page_specific_actions>\n'
+			state_description += self.page_filtered_actions + '\n'
+			state_description += '</page_specific_actions>\n'
+		# Check if we have images to include (from read_file action)
+		has_images = bool(self.read_state_images)
+		if (use_vision is True and self.screenshots) or has_images:
+			# Start with text description
+			content_parts: list[ContentPartTextParam | ContentPartImageParam] = [ContentPartTextParam(text=state_description)]
+			# Add sample images
+			content_parts.extend(self.sample_images)
+			# Add screenshots with labels
+			for i, screenshot in enumerate(self.screenshots):
+				if i == len(self.screenshots) - 1:
+					label = 'Current screenshot:'
+				else:
+					# Use simple, accurate labeling since we don't have actual step timing info
+					label = 'Previous screenshot:'
+				# Add label as text content
+				content_parts.append(ContentPartTextParam(text=label))
+				# Add the screenshot
+				content_parts.append(
+					ContentPartImageParam(
+						image_url=ImageURL(
+							url=f'data:image/jpeg;base64,{screenshot}',
+							media_type='image/jpeg',
+							detail=self.vision_detail_level,
+						),
+					)
+				)
+			# Add read_state images (from read_file action) before screenshots
+			for img_data in self.read_state_images:
+				img_name = img_data.get('name', 'unknown')
+				img_base64 = img_data.get('data', '')
+				if not img_base64:
+					continue
+				# Detect image format from name
+				if img_name.lower().endswith('.png'):
+					media_type = 'image/png'
+				else:
+					media_type = 'image/jpeg'
+				# Add label
+				content_parts.append(ContentPartTextParam(text=f'Image from file: {img_name}'))
+				# Add the image
+				content_parts.append(
+					ContentPartImageParam(
+						image_url=ImageURL(
+							url=f'data:{media_type};base64,{img_base64}',
+							media_type=media_type,
+							detail=self.vision_detail_level,
+						),
+					)
+				)
+			return UserMessage(content=content_parts, cache=True)
+		return UserMessage(content=state_description, cache=True)