npm - @minded-ai/mindedjs - Versions diffs - 1.0.0-ec2-beta-5 → 1.0.0-ec2-beta-6 - Mend

@minded-ai/mindedjs 1.0.0-ec2-beta-5 → 1.0.0-ec2-beta-6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/dist/browserTask/executeBrowserTask.py +35 -3
package/package.json +1 -1
package/src/browserTask/executeBrowserTask.py +35 -3

package/dist/browserTask/executeBrowserTask.py CHANGED Viewed

@@ -22,6 +22,7 @@ from browser_use.llm import ChatOpenAI
 import os
 import sys
 import logging
+import base64
 from datetime import datetime
 from pathlib import Path
 from dotenv import load_dotenv
@@ -104,17 +105,47 @@ class ScreenshotCapture:
             self.step_counter += 1
             # Take screenshot - browser-use takes viewport by default
-            screenshot_bytes = await page.screenshot()
+            screenshot_data = await page.screenshot()
+            # Ensure we have bytes - browser-use might return different format
+            if isinstance(screenshot_data, bytes):
+                screenshot_bytes = screenshot_data
+            elif isinstance(screenshot_data, str):
+                # If it's base64 encoded string
+                screenshot_bytes = base64.b64decode(screenshot_data)
+            else:
+                # Try to get bytes from whatever format it is
+                screenshot_bytes = bytes(screenshot_data)
+            logger.debug(f"Screenshot data type: {type(screenshot_data)}, size: {len(screenshot_bytes)} bytes")
             # Generate filename with metadata
             timestamp = datetime.now().strftime("%Y%m%d_%H%M%S_%f")[:-3]
             filename = f"{self.session_id}/step_{step_number:04d}_{timestamp}.png"
+            # Optional: Save to temp file for debugging (like Lambda does)
+            if os.getenv('DEBUG_SCREENSHOTS') == 'true':
+                temp_dir = Path("/tmp/screenshots")
+                temp_dir.mkdir(exist_ok=True, parents=True)
+                temp_path = temp_dir / f"step_{step_number:04d}_{timestamp}.png"
+                with open(temp_path, "wb") as f:
+                    f.write(screenshot_bytes)
+                logger.debug(f"💾 Debug: Saved screenshot to: {temp_path}")
             # Upload to S3
             s3_key = f"{self.s3_prefix}{filename}"
             try:
-                # Upload with KMS encryption if required by bucket
+                # Verify we have valid PNG data before uploading
+                if not screenshot_bytes or len(screenshot_bytes) == 0:
+                    logger.error(f"❌ Screenshot bytes are empty!")
+                    return
+                # Check for PNG header (89 50 4E 47 = PNG signature)
+                if len(screenshot_bytes) > 4 and screenshot_bytes[:4] != b'\x89PNG':
+                    logger.warning(f"⚠️ Screenshot may not be valid PNG format. First 4 bytes: {screenshot_bytes[:4].hex()}")
+                # Upload with KMS encryption if required by bucket (matching Lambda implementation)
                 self.s3_client.put_object(
                     Bucket=self.s3_bucket,
                     Key=s3_key,
@@ -122,10 +153,11 @@ class ScreenshotCapture:
                     ContentType='image/png',
                     ServerSideEncryption='aws:kms',
                     Tagging='retention=30d'
+                    # Using bucket's default KMS key
                 )
                 s3_url = f"s3://{self.s3_bucket}/{s3_key}"
-                logger.info(f"✅ Screenshot uploaded: {s3_url}")
+                logger.info(f"✅ Screenshot uploaded: {s3_url} (size: {len(screenshot_bytes)} bytes)")
             except self.ClientError as e:
                 logger.error(f"❌ Failed to upload screenshot to S3: {str(e)}")

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@minded-ai/mindedjs",
-  "version": "1.0.0-ec2-beta-5",
+  "version": "1.0.0-ec2-beta-6",
   "description": "MindedJS is a TypeScript library for building agents.",
   "main": "dist/index.js",
   "types": "dist/index.d.ts",

package/src/browserTask/executeBrowserTask.py CHANGED Viewed

@@ -22,6 +22,7 @@ from browser_use.llm import ChatOpenAI
 import os
 import sys
 import logging
+import base64
 from datetime import datetime
 from pathlib import Path
 from dotenv import load_dotenv
@@ -104,17 +105,47 @@ class ScreenshotCapture:
             self.step_counter += 1
             # Take screenshot - browser-use takes viewport by default
-            screenshot_bytes = await page.screenshot()
+            screenshot_data = await page.screenshot()
+            # Ensure we have bytes - browser-use might return different format
+            if isinstance(screenshot_data, bytes):
+                screenshot_bytes = screenshot_data
+            elif isinstance(screenshot_data, str):
+                # If it's base64 encoded string
+                screenshot_bytes = base64.b64decode(screenshot_data)
+            else:
+                # Try to get bytes from whatever format it is
+                screenshot_bytes = bytes(screenshot_data)
+            logger.debug(f"Screenshot data type: {type(screenshot_data)}, size: {len(screenshot_bytes)} bytes")
             # Generate filename with metadata
             timestamp = datetime.now().strftime("%Y%m%d_%H%M%S_%f")[:-3]
             filename = f"{self.session_id}/step_{step_number:04d}_{timestamp}.png"
+            # Optional: Save to temp file for debugging (like Lambda does)
+            if os.getenv('DEBUG_SCREENSHOTS') == 'true':
+                temp_dir = Path("/tmp/screenshots")
+                temp_dir.mkdir(exist_ok=True, parents=True)
+                temp_path = temp_dir / f"step_{step_number:04d}_{timestamp}.png"
+                with open(temp_path, "wb") as f:
+                    f.write(screenshot_bytes)
+                logger.debug(f"💾 Debug: Saved screenshot to: {temp_path}")
             # Upload to S3
             s3_key = f"{self.s3_prefix}{filename}"
             try:
-                # Upload with KMS encryption if required by bucket
+                # Verify we have valid PNG data before uploading
+                if not screenshot_bytes or len(screenshot_bytes) == 0:
+                    logger.error(f"❌ Screenshot bytes are empty!")
+                    return
+                # Check for PNG header (89 50 4E 47 = PNG signature)
+                if len(screenshot_bytes) > 4 and screenshot_bytes[:4] != b'\x89PNG':
+                    logger.warning(f"⚠️ Screenshot may not be valid PNG format. First 4 bytes: {screenshot_bytes[:4].hex()}")
+                # Upload with KMS encryption if required by bucket (matching Lambda implementation)
                 self.s3_client.put_object(
                     Bucket=self.s3_bucket,
                     Key=s3_key,
@@ -122,10 +153,11 @@ class ScreenshotCapture:
                     ContentType='image/png',
                     ServerSideEncryption='aws:kms',
                     Tagging='retention=30d'
+                    # Using bucket's default KMS key
                 )
                 s3_url = f"s3://{self.s3_bucket}/{s3_key}"
-                logger.info(f"✅ Screenshot uploaded: {s3_url}")
+                logger.info(f"✅ Screenshot uploaded: {s3_url} (size: {len(screenshot_bytes)} bytes)")
             except self.ClientError as e:
                 logger.error(f"❌ Failed to upload screenshot to S3: {str(e)}")