PyPI - spiderforce4ai - Versions diffs - 0.1.9__tar.gz → 1.1__tar.gz - Mend

spiderforce4ai 0.1.9tar.gz → 1.1tar.gz

Files changed (11) hide show

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 0.1.9
+Version: 1.1
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "spiderforce4ai"
-version = "0.1.9"
+version = "1.1"
 description = "Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service"
 readme = "README.md"
 authors = [{name = "Piotr Tamulewicz", email = "pt@petertam.pro"}]

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
     name="spiderforce4ai",
-    version="0.1.9",
+    version="1.1",
     author="Piotr Tamulewicz",
     author_email="pt@petertam.pro",
     description="Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service",

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/spiderforce4ai/__init__.py RENAMED Viewed

@@ -445,7 +445,11 @@ class SpiderForce4AI:
         if not failed_results:
             return []
-        console.print("\n[yellow]Retrying failed URLs...[/yellow]")
+        failed_count = len(failed_results)
+        total_count = len([r for r in self.crawl_results])
+        failure_ratio = (failed_count / total_count) * 100
+        console.print(f"\n[yellow]Retrying failed URLs: {failed_count} ({failure_ratio:.1f}% failed)[/yellow]")
         retry_results = []
         # Create a new progress bar if one wasn't provided
@@ -519,24 +523,41 @@ class SpiderForce4AI:
             # Identify failed URLs
             failed_results = [r for r in initial_results if r.status == "failed"]
-            # Retry failed URLs
+            # Calculate initial failure ratio
+            initial_failed = len(failed_results)
+            total_urls = len(urls)
+            failure_ratio = (initial_failed / total_urls) * 100
+            # Retry failed URLs if ratio is acceptable
             if failed_results:
-                retry_results = await self._retry_failed_urls(failed_results, config, progress)
-                # Replace failed results with retry results
-                results = [r for r in initial_results if r.status == "success"] + retry_results
+                if failure_ratio > 20:
+                    console.print(f"\n[red]Failure ratio too high ({failure_ratio:.1f}%) - aborting retry due to possible server overload[/red]")
+                    results = initial_results
+                else:
+                    retry_results = await self._retry_failed_urls(failed_results, config, progress)
+                    # Replace failed results with retry results
+                    results = [r for r in initial_results if r.status == "success"] + retry_results
             else:
                 results = initial_results
             # Save final report
             await self._save_report(config)
-            # Print final summary
-            successful = len([r for r in results if r.status == "success"])
-            failed = len([r for r in results if r.status == "failed"])
-            console.print(f"\n[green]Final crawling results:[/green]")
-            console.print(f"✓ Successful: {successful}")
-            console.print(f"✗ Failed: {failed}")
+            # Calculate final statistics
+            final_successful = len([r for r in results if r.status == "success"])
+            final_failed = len([r for r in results if r.status == "failed"])
+            # Print detailed summary
+            console.print(f"\n[green]Crawling Summary:[/green]")
+            console.print(f"Total URLs processed: {total_urls}")
+            console.print(f"Initial failures: {initial_failed} ({failure_ratio:.1f}%)")
+            console.print(f"Final results:")
+            console.print(f"  ✓ Successful: {final_successful}")
+            console.print(f"  ✗ Failed: {final_failed}")
+            if initial_failed > 0:
+                retry_successful = initial_failed - final_failed
+                console.print(f"Retry success rate: {retry_successful}/{initial_failed} ({(retry_successful/initial_failed)*100:.1f}%)")
             if config.report_file:
                 console.print(f"📊 Report saved to: {config.report_file}")
@@ -624,25 +645,44 @@ class SpiderForce4AI:
             self._save_report_sync(results, config)
             print(f"\nReport saved to: {config.report_file}")
-        # Identify failed URLs and retry them
+        # Calculate initial failure statistics
         failed_results = [r for r in results if r.status == "failed"]
-        if failed_results:
-            console.print("\n[yellow]Retrying failed URLs...[/yellow]")
-            for result in failed_results:
-                new_result = _process_url_parallel((result.url, self.base_url, config))
-                if new_result.status == "success":
-                    console.print(f"[green]✓ Retry successful: {result.url}[/green]")
-                    # Replace the failed result with the successful retry
-                    results[results.index(result)] = new_result
-                else:
-                    console.print(f"[red]✗ Retry failed: {result.url} - {new_result.error}[/red]")
+        initial_failed = len(failed_results)
+        total_urls = len(urls)
+        failure_ratio = (initial_failed / total_urls) * 100
-        # Print final summary
-        successful = len([r for r in results if r.status == "success"])
-        failed = len([r for r in results if r.status == "failed"])
-        console.print(f"\n[green]Final crawling results:[/green]")
-        console.print(f"✓ Successful: {successful}")
-        console.print(f"✗ Failed: {failed}")
+        # Retry failed URLs if ratio is acceptable
+        if failed_results:
+            if failure_ratio > 20:
+                console.print(f"\n[red]Failure ratio too high ({failure_ratio:.1f}%) - aborting retry due to possible server overload[/red]")
+            else:
+                failed_count = len(failed_results)
+                failure_ratio = (failed_count / total_urls) * 100
+                console.print(f"\n[yellow]Retrying failed URLs: {failed_count} ({failure_ratio:.1f}% failed)[/yellow]")
+                for result in failed_results:
+                    new_result = _process_url_parallel((result.url, self.base_url, config))
+                    if new_result.status == "success":
+                        console.print(f"[green]✓ Retry successful: {result.url}[/green]")
+                        # Replace the failed result with the successful retry
+                        results[results.index(result)] = new_result
+                    else:
+                        console.print(f"[red]✗ Retry failed: {result.url} - {new_result.error}[/red]")
+        # Calculate final statistics
+        final_successful = len([r for r in results if r.status == "success"])
+        final_failed = len([r for r in results if r.status == "failed"])
+        # Print detailed summary
+        console.print(f"\n[green]Crawling Summary:[/green]")
+        console.print(f"Total URLs processed: {total_urls}")
+        console.print(f"Initial failures: {initial_failed} ({failure_ratio:.1f}%)")
+        console.print(f"Final results:")
+        console.print(f"  ✓ Successful: {final_successful}")
+        console.print(f"  ✗ Failed: {final_failed}")
+        if initial_failed > 0:
+            retry_successful = initial_failed - final_failed
+            console.print(f"Retry success rate: {retry_successful}/{initial_failed} ({(retry_successful/initial_failed)*100:.1f}%)")
         return results

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/spiderforce4ai.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 0.1.9
+Version: 1.1
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/README.md RENAMED Viewed

File without changes

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/setup.cfg RENAMED Viewed

File without changes

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/spiderforce4ai.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/spiderforce4ai.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/spiderforce4ai.egg-info/requires.txt RENAMED Viewed

File without changes

{spiderforce4ai-0.1.9 → spiderforce4ai-1.1}/spiderforce4ai.egg-info/top_level.txt RENAMED Viewed

File without changes

spiderforce4ai 0.1.9__tar.gz → 1.1__tar.gz

spiderforce4ai 0.1.9tar.gz → 1.1tar.gz