npm - @minded-ai/mindedjs - Versions diffs - 1.0.0-ec2-beta-6 → 1.0.0-ec2-beta-8 - Mend

@minded-ai/mindedjs 1.0.0-ec2-beta-6 → 1.0.0-ec2-beta-8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/dist/browserTask/executeBrowserTask.py +26 -40
package/package.json +1 -1
package/src/browserTask/executeBrowserTask.py +26 -40

package/dist/browserTask/executeBrowserTask.py CHANGED Viewed

@@ -1,15 +1,8 @@
 """
 Browser Task Executor with Screenshot Capture Support
-This script runs browser automation tasks using browser-use and automatically captures
-screenshots at the end of each step, uploading them to S3.
-Environment Variables for Screenshots:
-- SCREENSHOT_S3_BUCKET: S3 bucket name (default: 'global-development-agentsforce')
-- SCREENSHOT_S3_PREFIX: S3 key prefix (default: 'browser-use-runs-screenshots/')
-- AWS_REGION: AWS region for S3 (default: 'us-east-1')
-AWS credentials should be configured via standard AWS SDK methods.
+This script runs browser automation tasks using browser-use and can capture
+screenshots at the end of each step, uploading them to S3 when configured.
 """
 import asyncio
@@ -81,8 +74,10 @@ class ScreenshotCapture:
         # Track step counter
         self.step_counter = 0
-        logger.info(f"📸 Screenshot capture initialized - S3: s3://{self.s3_bucket}/{self.s3_prefix}")
-        logger.info(f"   Session ID: {self.session_id}, Region: {self.aws_region}")
+        logger.info(f"📸 Screenshot capture ENABLED - will capture at end of each step")
+        logger.info(f"   S3 destination: s3://{self.s3_bucket}/{self.s3_prefix}")
+        logger.info(f"   Session ID: {self.session_id}")
+        logger.info(f"   AWS Region: {self.aws_region}")
     async def capture_screenshot(self, agent: Any) -> None:
         """Capture screenshot at step end and upload to S3"""
@@ -90,62 +85,45 @@ class ScreenshotCapture:
             # Get current page
             page = await agent.browser_session.get_current_page()
-            # Get current URL for context - use page.url() method or fallback
+            # Get current URL for logging (browser-use might use method instead of property)
             try:
-                # Try as property first
                 current_url = page.url if hasattr(page, 'url') else page.url()
             except:
-                # Fallback if URL is not accessible
                 current_url = "unknown"
-            logger.info(f"📸 Taking step_end screenshot at: {current_url}")
             # Update step counter
             step_number = self.step_counter
             self.step_counter += 1
+            logger.info(f"📸 Capturing screenshot #{step_number} at: {current_url}")
             # Take screenshot - browser-use takes viewport by default
             screenshot_data = await page.screenshot()
-            # Ensure we have bytes - browser-use might return different format
+            # Ensure we have bytes - browser-use might return base64 string or bytes
             if isinstance(screenshot_data, bytes):
                 screenshot_bytes = screenshot_data
             elif isinstance(screenshot_data, str):
-                # If it's base64 encoded string
+                # If it's base64 encoded string, decode it
                 screenshot_bytes = base64.b64decode(screenshot_data)
             else:
                 # Try to get bytes from whatever format it is
                 screenshot_bytes = bytes(screenshot_data)
-            logger.debug(f"Screenshot data type: {type(screenshot_data)}, size: {len(screenshot_bytes)} bytes")
             # Generate filename with metadata
             timestamp = datetime.now().strftime("%Y%m%d_%H%M%S_%f")[:-3]
             filename = f"{self.session_id}/step_{step_number:04d}_{timestamp}.png"
-            # Optional: Save to temp file for debugging (like Lambda does)
-            if os.getenv('DEBUG_SCREENSHOTS') == 'true':
-                temp_dir = Path("/tmp/screenshots")
-                temp_dir.mkdir(exist_ok=True, parents=True)
-                temp_path = temp_dir / f"step_{step_number:04d}_{timestamp}.png"
-                with open(temp_path, "wb") as f:
-                    f.write(screenshot_bytes)
-                logger.debug(f"💾 Debug: Saved screenshot to: {temp_path}")
             # Upload to S3
             s3_key = f"{self.s3_prefix}{filename}"
             try:
-                # Verify we have valid PNG data before uploading
+                # Verify we have valid data before uploading
                 if not screenshot_bytes or len(screenshot_bytes) == 0:
                     logger.error(f"❌ Screenshot bytes are empty!")
                     return
-                # Check for PNG header (89 50 4E 47 = PNG signature)
-                if len(screenshot_bytes) > 4 and screenshot_bytes[:4] != b'\x89PNG':
-                    logger.warning(f"⚠️ Screenshot may not be valid PNG format. First 4 bytes: {screenshot_bytes[:4].hex()}")
-                # Upload with KMS encryption if required by bucket (matching Lambda implementation)
+                # Upload to S3 with KMS encryption
                 self.s3_client.put_object(
                     Bucket=self.s3_bucket,
                     Key=s3_key,
@@ -153,18 +131,20 @@ class ScreenshotCapture:
                     ContentType='image/png',
                     ServerSideEncryption='aws:kms',
                     Tagging='retention=30d'
-                    # Using bucket's default KMS key
                 )
                 s3_url = f"s3://{self.s3_bucket}/{s3_key}"
-                logger.info(f"✅ Screenshot uploaded: {s3_url} (size: {len(screenshot_bytes)} bytes)")
+                logger.info(f"✅ Screenshot uploaded: {s3_url} (step {step_number}, size: {len(screenshot_bytes)} bytes)")
             except self.ClientError as e:
-                logger.error(f"❌ Failed to upload screenshot to S3: {str(e)}")
+                logger.error(f"❌ Failed to upload screenshot #{step_number} to S3")
+                logger.error(f"   Error: {str(e)}")
+                logger.error(f"   Bucket: {self.s3_bucket}, Key: {s3_key}")
                 # Continue execution even if screenshot upload fails
         except Exception as e:
-            logger.error(f"❌ Error capturing screenshot: {str(e)}")
+            step_num = getattr(self, 'step_counter', 'unknown')
+            logger.error(f"❌ Error capturing screenshot #{step_num}: {str(e)}")
             # Don't raise - continue execution
@@ -215,7 +195,11 @@ async def main(session_id: str, cdp_url: str, task: str, output_schema_json: Opt
   on_step_end_hook = None
   if screenshot_config and screenshot_config.get('enabled', False):
-    logger.info("📸 Screenshot capture enabled (captures at step end)")
+    logger.info("-" * 50)
+    logger.info("🎯 Initializing screenshot capture for browser task")
+    logger.info(f"   Session: {session_id}")
+    logger.info("-" * 50)
     # Add session_id to config
     screenshot_config['session_id'] = session_id
     screenshot_capture = ScreenshotCapture(screenshot_config)
@@ -225,6 +209,8 @@ async def main(session_id: str, cdp_url: str, task: str, output_schema_json: Opt
       await screenshot_capture.capture_screenshot(agent)
     on_step_end_hook = on_step_end
+  else:
+    logger.info("📷 Screenshot capture is DISABLED for this browser task")
   output_schema = None
   if output_schema_json:

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@minded-ai/mindedjs",
-  "version": "1.0.0-ec2-beta-6",
+  "version": "1.0.0-ec2-beta-8",
   "description": "MindedJS is a TypeScript library for building agents.",
   "main": "dist/index.js",
   "types": "dist/index.d.ts",

package/src/browserTask/executeBrowserTask.py CHANGED Viewed

@@ -1,15 +1,8 @@
 """
 Browser Task Executor with Screenshot Capture Support
-This script runs browser automation tasks using browser-use and automatically captures
-screenshots at the end of each step, uploading them to S3.
-Environment Variables for Screenshots:
-- SCREENSHOT_S3_BUCKET: S3 bucket name (default: 'global-development-agentsforce')
-- SCREENSHOT_S3_PREFIX: S3 key prefix (default: 'browser-use-runs-screenshots/')
-- AWS_REGION: AWS region for S3 (default: 'us-east-1')
-AWS credentials should be configured via standard AWS SDK methods.
+This script runs browser automation tasks using browser-use and can capture
+screenshots at the end of each step, uploading them to S3 when configured.
 """
 import asyncio
@@ -81,8 +74,10 @@ class ScreenshotCapture:
         # Track step counter
         self.step_counter = 0
-        logger.info(f"📸 Screenshot capture initialized - S3: s3://{self.s3_bucket}/{self.s3_prefix}")
-        logger.info(f"   Session ID: {self.session_id}, Region: {self.aws_region}")
+        logger.info(f"📸 Screenshot capture ENABLED - will capture at end of each step")
+        logger.info(f"   S3 destination: s3://{self.s3_bucket}/{self.s3_prefix}")
+        logger.info(f"   Session ID: {self.session_id}")
+        logger.info(f"   AWS Region: {self.aws_region}")
     async def capture_screenshot(self, agent: Any) -> None:
         """Capture screenshot at step end and upload to S3"""
@@ -90,62 +85,45 @@ class ScreenshotCapture:
             # Get current page
             page = await agent.browser_session.get_current_page()
-            # Get current URL for context - use page.url() method or fallback
+            # Get current URL for logging (browser-use might use method instead of property)
             try:
-                # Try as property first
                 current_url = page.url if hasattr(page, 'url') else page.url()
             except:
-                # Fallback if URL is not accessible
                 current_url = "unknown"
-            logger.info(f"📸 Taking step_end screenshot at: {current_url}")
             # Update step counter
             step_number = self.step_counter
             self.step_counter += 1
+            logger.info(f"📸 Capturing screenshot #{step_number} at: {current_url}")
             # Take screenshot - browser-use takes viewport by default
             screenshot_data = await page.screenshot()
-            # Ensure we have bytes - browser-use might return different format
+            # Ensure we have bytes - browser-use might return base64 string or bytes
             if isinstance(screenshot_data, bytes):
                 screenshot_bytes = screenshot_data
             elif isinstance(screenshot_data, str):
-                # If it's base64 encoded string
+                # If it's base64 encoded string, decode it
                 screenshot_bytes = base64.b64decode(screenshot_data)
             else:
                 # Try to get bytes from whatever format it is
                 screenshot_bytes = bytes(screenshot_data)
-            logger.debug(f"Screenshot data type: {type(screenshot_data)}, size: {len(screenshot_bytes)} bytes")
             # Generate filename with metadata
             timestamp = datetime.now().strftime("%Y%m%d_%H%M%S_%f")[:-3]
             filename = f"{self.session_id}/step_{step_number:04d}_{timestamp}.png"
-            # Optional: Save to temp file for debugging (like Lambda does)
-            if os.getenv('DEBUG_SCREENSHOTS') == 'true':
-                temp_dir = Path("/tmp/screenshots")
-                temp_dir.mkdir(exist_ok=True, parents=True)
-                temp_path = temp_dir / f"step_{step_number:04d}_{timestamp}.png"
-                with open(temp_path, "wb") as f:
-                    f.write(screenshot_bytes)
-                logger.debug(f"💾 Debug: Saved screenshot to: {temp_path}")
             # Upload to S3
             s3_key = f"{self.s3_prefix}{filename}"
             try:
-                # Verify we have valid PNG data before uploading
+                # Verify we have valid data before uploading
                 if not screenshot_bytes or len(screenshot_bytes) == 0:
                     logger.error(f"❌ Screenshot bytes are empty!")
                     return
-                # Check for PNG header (89 50 4E 47 = PNG signature)
-                if len(screenshot_bytes) > 4 and screenshot_bytes[:4] != b'\x89PNG':
-                    logger.warning(f"⚠️ Screenshot may not be valid PNG format. First 4 bytes: {screenshot_bytes[:4].hex()}")
-                # Upload with KMS encryption if required by bucket (matching Lambda implementation)
+                # Upload to S3 with KMS encryption
                 self.s3_client.put_object(
                     Bucket=self.s3_bucket,
                     Key=s3_key,
@@ -153,18 +131,20 @@ class ScreenshotCapture:
                     ContentType='image/png',
                     ServerSideEncryption='aws:kms',
                     Tagging='retention=30d'
-                    # Using bucket's default KMS key
                 )
                 s3_url = f"s3://{self.s3_bucket}/{s3_key}"
-                logger.info(f"✅ Screenshot uploaded: {s3_url} (size: {len(screenshot_bytes)} bytes)")
+                logger.info(f"✅ Screenshot uploaded: {s3_url} (step {step_number}, size: {len(screenshot_bytes)} bytes)")
             except self.ClientError as e:
-                logger.error(f"❌ Failed to upload screenshot to S3: {str(e)}")
+                logger.error(f"❌ Failed to upload screenshot #{step_number} to S3")
+                logger.error(f"   Error: {str(e)}")
+                logger.error(f"   Bucket: {self.s3_bucket}, Key: {s3_key}")
                 # Continue execution even if screenshot upload fails
         except Exception as e:
-            logger.error(f"❌ Error capturing screenshot: {str(e)}")
+            step_num = getattr(self, 'step_counter', 'unknown')
+            logger.error(f"❌ Error capturing screenshot #{step_num}: {str(e)}")
             # Don't raise - continue execution
@@ -215,7 +195,11 @@ async def main(session_id: str, cdp_url: str, task: str, output_schema_json: Opt
   on_step_end_hook = None
   if screenshot_config and screenshot_config.get('enabled', False):
-    logger.info("📸 Screenshot capture enabled (captures at step end)")
+    logger.info("-" * 50)
+    logger.info("🎯 Initializing screenshot capture for browser task")
+    logger.info(f"   Session: {session_id}")
+    logger.info("-" * 50)
     # Add session_id to config
     screenshot_config['session_id'] = session_id
     screenshot_capture = ScreenshotCapture(screenshot_config)
@@ -225,6 +209,8 @@ async def main(session_id: str, cdp_url: str, task: str, output_schema_json: Opt
       await screenshot_capture.capture_screenshot(agent)
     on_step_end_hook = on_step_end
+  else:
+    logger.info("📷 Screenshot capture is DISABLED for this browser task")
   output_schema = None
   if output_schema_json: