PyPI - spiderforce4ai - Versions diffs - 1.2__tar.gz → 1.4__tar.gz - Mend

spiderforce4ai 1.2tar.gz → 1.4tar.gz

Files changed (11) hide show

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 1.2
+Version: 1.4
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "spiderforce4ai"
-version = "1.2"
+version = "1.4"
 description = "Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service"
 readme = "README.md"
 authors = [{name = "Piotr Tamulewicz", email = "pt@petertam.pro"}]

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/setup.py RENAMED Viewed

@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
 setup(
     name="spiderforce4ai",
-    version="1.2",
+    version="1.4",
     author="Piotr Tamulewicz",
     author_email="pt@petertam.pro",
     description="Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service",

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/spiderforce4ai/__init__.py RENAMED Viewed

@@ -350,17 +350,23 @@ class SpiderForce4AI:
     def _save_report_sync(self, results: List[CrawlResult], config: CrawlConfig) -> None:
         """Save crawl report synchronously."""
+        # Separate successful and failed results
+        successful_results = [r for r in results if r.status == "success"]
+        failed_results = [r for r in results if r.status == "failed"]
+        # Create report with only final state
         report = {
             "timestamp": datetime.now().isoformat(),
             "config": config.to_dict(),
             "results": {
-                "successful": [asdict(r) for r in results if r.status == "success"],
-                "failed": [asdict(r) for r in results if r.status == "failed"]
+                "successful": [asdict(r) for r in successful_results],
+                "failed": [asdict(r) for r in failed_results]  # Only truly failed URLs after retries
             },
             "summary": {
                 "total": len(results),
-                "successful": len([r for r in results if r.status == "success"]),
-                "failed": len([r for r in results if r.status == "failed"])
+                "successful": len(successful_results),
+                "failed": len(failed_results),
+                "retry_info": getattr(self, '_retry_stats', {})  # Include retry statistics if available
             }
         }
@@ -372,17 +378,22 @@ class SpiderForce4AI:
         if not config.report_file:
             return
+        # Separate successful and failed results
+        successful_results = [r for r in self.crawl_results if r.status == "success"]
+        failed_results = [r for r in self.crawl_results if r.status == "failed"]
         report = {
             "timestamp": datetime.now().isoformat(),
             "config": config.to_dict(),
             "results": {
-                "successful": [asdict(r) for r in self.crawl_results if r.status == "success"],
-                "failed": [asdict(r) for r in self.crawl_results if r.status == "failed"]
+                "successful": [asdict(r) for r in successful_results],
+                "failed": [asdict(r) for r in failed_results]  # Only truly failed URLs after retries
             },
             "summary": {
                 "total": len(self.crawl_results),
-                "successful": len([r for r in self.crawl_results if r.status == "success"]),
-                "failed": len([r for r in self.crawl_results if r.status == "failed"])
+                "successful": len(successful_results),
+                "failed": len(failed_results),
+                "retry_info": getattr(self, '_retry_stats', {})  # Include retry statistics if available
             }
         }
@@ -545,10 +556,7 @@ class SpiderForce4AI:
             else:
                 results = initial_results
-            # Save final report
-            await self._save_report(config)
-            # Calculate final statistics
+            # Calculate final statistics before saving report
             final_successful = len([r for r in results if r.status == "success"])
             final_failed = len([r for r in results if r.status == "failed"])
@@ -564,7 +572,15 @@ class SpiderForce4AI:
                 retry_successful = initial_failed - final_failed
                 console.print(f"Retry success rate: {retry_successful}/{initial_failed} ({(retry_successful/initial_failed)*100:.1f}%)")
-            if config.report_file:
+            # Save final report after all retries are complete
+            if config.save_reports:
+                self._retry_stats = {
+                    "initial_failures": initial_failed,
+                    "failure_ratio": failure_ratio,
+                    "retry_successful": retry_successful if initial_failed > 0 else 0,
+                    "retry_failed": final_failed
+                }
+                await self._save_report(config)
                 console.print(f"📊 Report saved to: {config.report_file}")
             return results
@@ -645,11 +661,6 @@ class SpiderForce4AI:
                     status = "✓" if result.status == "success" else "✗"
                     progress.description = f"Last: {status} {result.url}"
-        # Save final report
-        if config.report_file:
-            self._save_report_sync(results, config)
-            print(f"\nReport saved to: {config.report_file}")
         # Calculate initial failure statistics
         failed_results = [r for r in results if r.status == "failed"]
         initial_failed = len(failed_results)
@@ -704,6 +715,17 @@ class SpiderForce4AI:
             retry_successful = initial_failed - final_failed
             console.print(f"Retry success rate: {retry_successful}/{initial_failed} ({(retry_successful/initial_failed)*100:.1f}%)")
+        # Save final report after all retries are complete
+        if config.save_reports:
+            self._retry_stats = {
+                "initial_failures": initial_failed,
+                "failure_ratio": failure_ratio,
+                "retry_successful": retry_successful if initial_failed > 0 else 0,
+                "retry_failed": final_failed
+            }
+            self._save_report_sync(results, config)
+            console.print(f"📊 Report saved to: {config.report_file}")
         return results
     async def __aenter__(self):

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/spiderforce4ai.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: spiderforce4ai
-Version: 1.2
+Version: 1.4
 Summary: Python wrapper for SpiderForce4AI HTML-to-Markdown conversion service
 Home-page: https://petertam.pro
 Author: Piotr Tamulewicz

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/README.md RENAMED Viewed

File without changes

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/setup.cfg RENAMED Viewed

File without changes

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/spiderforce4ai.egg-info/SOURCES.txt RENAMED Viewed

File without changes

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/spiderforce4ai.egg-info/dependency_links.txt RENAMED Viewed

File without changes

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/spiderforce4ai.egg-info/requires.txt RENAMED Viewed

File without changes

{spiderforce4ai-1.2 → spiderforce4ai-1.4}/spiderforce4ai.egg-info/top_level.txt RENAMED Viewed

File without changes

spiderforce4ai 1.2__tar.gz → 1.4__tar.gz

spiderforce4ai 1.2tar.gz → 1.4tar.gz