PyPI - spiderforce4ai - Versions diffs - 1.4__py3-none-any.whl → 1.6__py3-none-any.whl - Mend

spiderforce4ai 1.4py3-none-any.whl → 1.6py3-none-any.whl

Files changed (6) hide show

spiderforce4ai/__init__.py CHANGED Viewed

@@ -22,6 +22,30 @@ from multiprocessing import Pool
 console = Console()
+def extract_metadata_headers(markdown: str) -> str:
+    """Extract metadata and headers from markdown content."""
+    lines = markdown.split('\n')
+    extracted = []
+    in_metadata = False
+    for line in lines:
+        # Check for metadata block
+        if line.strip() == '---':
+            in_metadata = not in_metadata
+            extracted.append(line)
+            continue
+        # Include metadata
+        if in_metadata:
+            extracted.append(line)
+            continue
+        # Include headers (lines starting with #)
+        if line.strip().startswith('#'):
+            extracted.append(line)
+    return '\n'.join(extracted)
 def slugify(url: str) -> str:
     """Convert URL to a valid filename."""
     parsed = urlparse(url)
@@ -61,6 +85,8 @@ class CrawlConfig:
     webhook_payload_template: Optional[str] = None  # Optional custom webhook payload template
     save_reports: bool = False  # Whether to save crawl reports
     report_file: Optional[Path] = None  # Optional report file location (used only if save_reports is True)
+    combine_to_one_markdown: Optional[str] = None  # 'full' or 'metadata_headers' to combine all pages into one file
+    combined_markdown_file: Optional[Path] = None  # Optional path for combined markdown file
     def __post_init__(self):
         # Initialize empty lists/dicts for None values
@@ -72,12 +98,21 @@ class CrawlConfig:
         self.output_dir = Path(self.output_dir)
         self.output_dir.mkdir(parents=True, exist_ok=True)
-        # Only setup report file if save_reports is True
+        # Setup report file if save_reports is True
         if self.save_reports:
             if self.report_file is None:
                 self.report_file = self.output_dir / "crawl_report.json"
             else:
                 self.report_file = Path(self.report_file)
+        # Setup combined markdown file if needed
+        if self.combine_to_one_markdown:
+            if self.combined_markdown_file is None:
+                self.combined_markdown_file = self.output_dir / "combined_content.md"
+            else:
+                self.combined_markdown_file = Path(self.combined_markdown_file)
+            # Create or clear the combined file
+            self.combined_markdown_file.write_text('')
     def to_dict(self) -> Dict:
         """Convert config to dictionary for API requests."""
@@ -158,9 +193,19 @@ def _process_url_parallel(args: Tuple[str, str, CrawlConfig]) -> CrawlResult:
         # Save markdown if output directory is configured
         if config.output_dir:
-            filepath = config.output_dir / f"{slugify(url)}.md"
-            with open(filepath, 'w', encoding='utf-8') as f:
-                f.write(markdown)
+            # Save individual file if not combining or if combining in full mode
+            if not config.combine_to_one_markdown or config.combine_to_one_markdown == 'full':
+                filepath = config.output_dir / f"{slugify(url)}.md"
+                with open(filepath, 'w', encoding='utf-8') as f:
+                    f.write(markdown)
+            # Handle combined markdown file
+            if config.combine_to_one_markdown:
+                content = markdown if config.combine_to_one_markdown == 'full' else extract_metadata_headers(markdown)
+                combined_content = f"\n----PAGE----\n{url}\n\n{content}\n----PAGE END----\n"
+                with open(config.combined_markdown_file, 'a', encoding='utf-8') as f:
+                    f.write(combined_content)
         result = CrawlResult(
             url=url,
@@ -209,12 +254,21 @@ class SpiderForce4AI:
             await self.session.close()
     async def _save_markdown(self, url: str, markdown: str, output_dir: Path):
-        """Save markdown content to file."""
-        filename = f"{slugify(url)}.md"
-        filepath = output_dir / filename
-        async with aiofiles.open(filepath, 'w', encoding='utf-8') as f:
-            await f.write(markdown)
-        return filepath
+        """Save markdown content to file and/or append to combined file."""
+        # Save individual file if not combining or if combining in full mode
+        if not self.config.combine_to_one_markdown or self.config.combine_to_one_markdown == 'full':
+            filename = f"{slugify(url)}.md"
+            filepath = output_dir / filename
+            async with aiofiles.open(filepath, 'w', encoding='utf-8') as f:
+                await f.write(markdown)
+        # Handle combined markdown file
+        if self.config.combine_to_one_markdown:
+            content = markdown if self.config.combine_to_one_markdown == 'full' else extract_metadata_headers(markdown)
+            combined_content = f"\n----PAGE----\n{url}\n\n{content}\n----PAGE END----\n"
+            async with aiofiles.open(self.config.combined_markdown_file, 'a', encoding='utf-8') as f:
+                await f.write(combined_content)
@@ -296,17 +350,25 @@ class SpiderForce4AI:
                 results.append(result)
-            # Save report if enabled
-            if config.save_reports:
-                self._save_report_sync(results, config)
-                print(f"\nReport saved to: {config.report_file}")
-            # Print summary
+            # Calculate statistics
             successful = len([r for r in results if r.status == "success"])
             failed = len([r for r in results if r.status == "failed"])
+            # Print summary
             print(f"\nParallel processing completed:")
             print(f"✓ Successful: {successful}")
             print(f"✗ Failed: {failed}")
+            # Save report if enabled
+            if config.save_reports and config.report_file:
+                self._retry_stats = {
+                    "initial_failures": failed,
+                    "failure_ratio": (failed / len(urls)) * 100,
+                    "retry_successful": 0,  # No retries in server parallel mode
+                    "retry_failed": failed
+                }
+                self._save_report_sync(results, config)
+                console.print(f"📊 Report saved to: {config.report_file}")
             return results

{spiderforce4ai-1.4.dist-info → spiderforce4ai-1.6.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 1.4
+Version: 1.6
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz

spiderforce4ai-1.6.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,5 @@
+spiderforce4ai/__init__.py,sha256=yNyBz8-HjENlAZ1NSy072Ir71T68xulTRj19Yxr1aEQ,33573
+spiderforce4ai-1.6.dist-info/METADATA,sha256=pelYvJYMzC8W-P2ORQNWwP2Fyc5KshnzQ6edoYEYZQU,7183
+spiderforce4ai-1.6.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
+spiderforce4ai-1.6.dist-info/top_level.txt,sha256=Kth7A21Js7DCp0j5XBBi-FE45SCLouZkeNZU__Yr9Yk,15
+spiderforce4ai-1.6.dist-info/RECORD,,

spiderforce4ai-1.4.dist-info/RECORD DELETED Viewed

@@ -1,5 +0,0 @@
-spiderforce4ai/__init__.py,sha256=7EMEEfFY3WLq58-vnK1Yhcb1trF2ZXU-Ny3licz45Yk,30585
-spiderforce4ai-1.4.dist-info/METADATA,sha256=7GRBz_bTtXOQ2N-gHRPJFEWW8mmOB_1gwrJCf-el8LM,7183
-spiderforce4ai-1.4.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
-spiderforce4ai-1.4.dist-info/top_level.txt,sha256=Kth7A21Js7DCp0j5XBBi-FE45SCLouZkeNZU__Yr9Yk,15
-spiderforce4ai-1.4.dist-info/RECORD,,

{spiderforce4ai-1.4.dist-info → spiderforce4ai-1.6.dist-info}/WHEEL RENAMED Viewed

File without changes

{spiderforce4ai-1.4.dist-info → spiderforce4ai-1.6.dist-info}/top_level.txt RENAMED Viewed

File without changes

spiderforce4ai 1.4__py3-none-any.whl → 1.6__py3-none-any.whl

spiderforce4ai 1.4py3-none-any.whl → 1.6py3-none-any.whl