PyPI - spiderforce4ai - Versions diffs - 2.4.2__tar.gz → 2.4.3__tar.gz - Mend

spiderforce4ai 2.4.2tar.gz → 2.4.3tar.gz

Files changed (14) hide show

{spiderforce4ai-2.4.2 → spiderforce4ai-2.4.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 2.4.2
+Version: 2.4.3
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service with LLM post-processing
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz

{spiderforce4ai-2.4.2 → spiderforce4ai-2.4.3}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "spiderforce4ai"
-version = "2.4.2"
+version = "2.4.3"
 description = "Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service with LLM post-processing"
 readme = "README.md"
 authors = [

{spiderforce4ai-2.4.2 → spiderforce4ai-2.4.3}/setup.py RENAMED Viewed

@@ -7,7 +7,7 @@ with open("README.md", encoding="utf-8") as f:
 setup(
     name="spiderforce4ai",
-    version="2.4.2",
+    version="2.4.3",
     author="Piotr Tamulewicz",
     author_email="pt@petertam.pro",
     description="Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service with LLM post-processing",

{spiderforce4ai-2.4.2 → spiderforce4ai-2.4.3}/spiderforce4ai/__init__.py RENAMED Viewed

@@ -312,28 +312,6 @@ def _process_url_parallel(args: Tuple[str, str, CrawlConfig]) -> CrawlResult:
             config=config.to_dict()
         )
-        # Handle post-extraction if configured
-        if config.post_extraction_agent:
-            try:
-                post_config = PostExtractionConfig(
-                    model=config.post_extraction_agent["model"],
-                    messages=config.post_extraction_agent["messages"],
-                    api_key=config.post_extraction_agent["api_key"],
-                    max_tokens=config.post_extraction_agent.get("max_tokens", 1000),
-                    temperature=config.post_extraction_agent.get("temperature", 0.7),
-                    base_url=config.post_extraction_agent.get("base_url"),
-                    combine_output=bool(config.post_extraction_agent_save_to_file),
-                    output_file=config.post_extraction_agent_save_to_file,
-                    custom_transform_function=config.post_agent_transformer_function
-                )
-                agent = PostExtractionAgent(post_config)
-                extraction_result = asyncio.run(agent.process_content(url, markdown))
-                if extraction_result:
-                    result.extraction_result = extraction_result
-            except Exception as e:
-                console.print(f"[red]Error in post-extraction processing for {url}: {str(e)}[/red]")
         # Send webhook for successful result
         _send_webhook_sync(result, config)
@@ -733,13 +711,48 @@ class SpiderForce4AI:
                 TextColumn("({task.completed}/{task.total})"),
             ) as progress:
                 task = progress.add_task("[cyan]Crawling URLs...", total=len(urls))
                 for result in pool.imap_unordered(_process_url_parallel, process_args):
                     results.append(result)
                     progress.update(task, advance=1)
                     status = "✓" if result.status == "success" else "✗"
                     progress.description = f"[cyan]Last: {status} {result.url}"
+        # Process LLM requests sequentially after all crawling is complete
+        if config.post_extraction_agent:
+            console.print("\n[cyan]Starting post-extraction processing...[/cyan]")
+            successful_results = [r for r in results if r.status == "success"]
+            with Progress(
+                SpinnerColumn(),
+                TextColumn("[progress.description]{task.description}"),
+                BarColumn(),
+                TaskProgressColumn(),
+            ) as progress:
+                llm_task = progress.add_task("[cyan]Post-extraction processing...", total=len(successful_results))
+                post_config = PostExtractionConfig(
+                    model=config.post_extraction_agent["model"],
+                    messages=config.post_extraction_agent["messages"],
+                    api_key=config.post_extraction_agent["api_key"],
+                    max_tokens=config.post_extraction_agent.get("max_tokens", 1000),
+                    temperature=config.post_extraction_agent.get("temperature", 0.7),
+                    base_url=config.post_extraction_agent.get("base_url"),
+                    combine_output=bool(config.post_extraction_agent_save_to_file),
+                    output_file=config.post_extraction_agent_save_to_file,
+                    custom_transform_function=config.post_agent_transformer_function
+                )
+                agent = PostExtractionAgent(post_config)
+                for result in successful_results:
+                    try:
+                        result.extraction_result = asyncio.run(agent.process_content(result.url, result.markdown))
+                        progress.update(llm_task, advance=1)
+                    except Exception as e:
+                        console.print(f"[red]Error in post-extraction processing for {result.url}: {str(e)}[/red]")
+                        time.sleep(1)  # Add delay after error
+                    time.sleep(0.5)  # Rate limiting between requests
         # Calculate statistics and handle retries
         failed_results = [r for r in results if r.status == "failed"]
         initial_failed = len(failed_results)
@@ -831,31 +844,44 @@ class SpiderForce4AI:
                 if result.status == "success" and config.output_dir and result.markdown:
                     _save_markdown_sync(result.url, result.markdown, config)
-                # Handle post-extraction if configured
-                if config.post_extraction_agent and result.status == "success":
-                    try:
-                        post_config = PostExtractionConfig(
-                            model=config.post_extraction_agent["model"],
-                            messages=config.post_extraction_agent["messages"],
-                            api_key=config.post_extraction_agent["api_key"],
-                            max_tokens=config.post_extraction_agent.get("max_tokens", 1000),
-                            temperature=config.post_extraction_agent.get("temperature", 0.7),
-                            base_url=config.post_extraction_agent.get("base_url"),
-                            combine_output=bool(config.post_extraction_agent_save_to_file),
-                            output_file=config.post_extraction_agent_save_to_file,
-                            custom_transform_function=config.post_agent_transformer_function
-                        )
-                        agent = PostExtractionAgent(post_config)
-                        extraction_result = asyncio.run(agent.process_content(result.url, result.markdown))
-                        if extraction_result:
-                            result.extraction_result = extraction_result
-                    except Exception as e:
-                        console.print(f"[red]Error in post-extraction processing for {result.url}: {str(e)}[/red]")
                 # Send webhook if configured
                 _send_webhook_sync(result, config)
                 results.append(result)
+            # Process LLM requests sequentially after all crawling is complete
+            if config.post_extraction_agent:
+                console.print("\n[cyan]Starting post-extraction processing...[/cyan]")
+                successful_results = [r for r in results if r.status == "success"]
+                with Progress(
+                    SpinnerColumn(),
+                    TextColumn("[progress.description]{task.description}"),
+                    BarColumn(),
+                    TaskProgressColumn(),
+                ) as progress:
+                    llm_task = progress.add_task("[cyan]Post-extraction processing...", total=len(successful_results))
+                    post_config = PostExtractionConfig(
+                        model=config.post_extraction_agent["model"],
+                        messages=config.post_extraction_agent["messages"],
+                        api_key=config.post_extraction_agent["api_key"],
+                        max_tokens=config.post_extraction_agent.get("max_tokens", 1000),
+                        temperature=config.post_extraction_agent.get("temperature", 0.7),
+                        base_url=config.post_extraction_agent.get("base_url"),
+                        combine_output=bool(config.post_extraction_agent_save_to_file),
+                        output_file=config.post_extraction_agent_save_to_file,
+                        custom_transform_function=config.post_agent_transformer_function
+                    )
+                    agent = PostExtractionAgent(post_config)
+                    for result in successful_results:
+                        try:
+                            result.extraction_result = asyncio.run(agent.process_content(result.url, result.markdown))
+                            progress.update(llm_task, advance=1)
+                        except Exception as e:
+                            console.print(f"[red]Error in post-extraction processing for {result.url}: {str(e)}[/red]")
+                            time.sleep(1)  # Add delay after error
+                        time.sleep(0.5)  # Rate limiting between requests
             # Calculate statistics
             successful = len([r for r in results if r.status == "success"])

{spiderforce4ai-2.4.2 → spiderforce4ai-2.4.3}/spiderforce4ai.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 2.4.2
+Version: 2.4.3
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service with LLM post-processing
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz