PyPI - firecrawl - Versions diffs - 4.12.0__py3-none-any.whl - Mend

firecrawl 4.12.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (92) hide show

firecrawl/__init__.py +87 -0
firecrawl/__tests__/e2e/v2/aio/conftest.py +62 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_batch_scrape.py +69 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_crawl.py +189 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_extract.py +39 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_map.py +41 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_scrape.py +138 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_search.py +249 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_usage.py +42 -0
firecrawl/__tests__/e2e/v2/aio/test_aio_watcher.py +43 -0
firecrawl/__tests__/e2e/v2/conftest.py +73 -0
firecrawl/__tests__/e2e/v2/test_async.py +73 -0
firecrawl/__tests__/e2e/v2/test_batch_scrape.py +106 -0
firecrawl/__tests__/e2e/v2/test_crawl.py +278 -0
firecrawl/__tests__/e2e/v2/test_extract.py +55 -0
firecrawl/__tests__/e2e/v2/test_map.py +61 -0
firecrawl/__tests__/e2e/v2/test_scrape.py +191 -0
firecrawl/__tests__/e2e/v2/test_search.py +270 -0
firecrawl/__tests__/e2e/v2/test_usage.py +26 -0
firecrawl/__tests__/e2e/v2/test_watcher.py +65 -0
firecrawl/__tests__/unit/test_recursive_schema_v1.py +1209 -0
firecrawl/__tests__/unit/v2/methods/aio/test_aio_crawl_params.py +12 -0
firecrawl/__tests__/unit/v2/methods/aio/test_aio_crawl_request_preparation.py +79 -0
firecrawl/__tests__/unit/v2/methods/aio/test_aio_crawl_validation.py +12 -0
firecrawl/__tests__/unit/v2/methods/aio/test_aio_map_request_preparation.py +20 -0
firecrawl/__tests__/unit/v2/methods/aio/test_aio_scrape_request_preparation.py +50 -0
firecrawl/__tests__/unit/v2/methods/aio/test_aio_search_request_preparation.py +64 -0
firecrawl/__tests__/unit/v2/methods/aio/test_batch_request_preparation_async.py +28 -0
firecrawl/__tests__/unit/v2/methods/aio/test_ensure_async.py +117 -0
firecrawl/__tests__/unit/v2/methods/test_agent.py +367 -0
firecrawl/__tests__/unit/v2/methods/test_agent_request_preparation.py +226 -0
firecrawl/__tests__/unit/v2/methods/test_batch_request_preparation.py +90 -0
firecrawl/__tests__/unit/v2/methods/test_branding.py +214 -0
firecrawl/__tests__/unit/v2/methods/test_crawl_params.py +70 -0
firecrawl/__tests__/unit/v2/methods/test_crawl_request_preparation.py +240 -0
firecrawl/__tests__/unit/v2/methods/test_crawl_validation.py +107 -0
firecrawl/__tests__/unit/v2/methods/test_map_request_preparation.py +54 -0
firecrawl/__tests__/unit/v2/methods/test_pagination.py +671 -0
firecrawl/__tests__/unit/v2/methods/test_scrape_request_preparation.py +109 -0
firecrawl/__tests__/unit/v2/methods/test_search_request_preparation.py +169 -0
firecrawl/__tests__/unit/v2/methods/test_search_validation.py +236 -0
firecrawl/__tests__/unit/v2/methods/test_usage_types.py +18 -0
firecrawl/__tests__/unit/v2/methods/test_webhook.py +123 -0
firecrawl/__tests__/unit/v2/utils/test_metadata_extras.py +94 -0
firecrawl/__tests__/unit/v2/utils/test_metadata_extras_multivalue.py +22 -0
firecrawl/__tests__/unit/v2/utils/test_recursive_schema.py +1133 -0
firecrawl/__tests__/unit/v2/utils/test_validation.py +311 -0
firecrawl/__tests__/unit/v2/watcher/test_ws_watcher.py +332 -0
firecrawl/client.py +281 -0
firecrawl/firecrawl.backup.py +4635 -0
firecrawl/types.py +167 -0
firecrawl/v1/__init__.py +14 -0
firecrawl/v1/client.py +5164 -0
firecrawl/v2/__init__.py +4 -0
firecrawl/v2/client.py +967 -0
firecrawl/v2/client_async.py +408 -0
firecrawl/v2/methods/agent.py +144 -0
firecrawl/v2/methods/aio/__init__.py +1 -0
firecrawl/v2/methods/aio/agent.py +137 -0
firecrawl/v2/methods/aio/batch.py +188 -0
firecrawl/v2/methods/aio/crawl.py +351 -0
firecrawl/v2/methods/aio/extract.py +133 -0
firecrawl/v2/methods/aio/map.py +65 -0
firecrawl/v2/methods/aio/scrape.py +33 -0
firecrawl/v2/methods/aio/search.py +176 -0
firecrawl/v2/methods/aio/usage.py +89 -0
firecrawl/v2/methods/batch.py +499 -0
firecrawl/v2/methods/crawl.py +592 -0
firecrawl/v2/methods/extract.py +161 -0
firecrawl/v2/methods/map.py +83 -0
firecrawl/v2/methods/scrape.py +64 -0
firecrawl/v2/methods/search.py +215 -0
firecrawl/v2/methods/usage.py +84 -0
firecrawl/v2/types.py +1143 -0
firecrawl/v2/utils/__init__.py +9 -0
firecrawl/v2/utils/error_handler.py +107 -0
firecrawl/v2/utils/get_version.py +15 -0
firecrawl/v2/utils/http_client.py +178 -0
firecrawl/v2/utils/http_client_async.py +69 -0
firecrawl/v2/utils/normalize.py +125 -0
firecrawl/v2/utils/validation.py +692 -0
firecrawl/v2/watcher.py +301 -0
firecrawl/v2/watcher_async.py +243 -0
firecrawl-4.12.0.dist-info/METADATA +234 -0
firecrawl-4.12.0.dist-info/RECORD +92 -0
firecrawl-4.12.0.dist-info/WHEEL +5 -0
firecrawl-4.12.0.dist-info/licenses/LICENSE +21 -0
firecrawl-4.12.0.dist-info/top_level.txt +2 -0
tests/test_agent_integration.py +277 -0
tests/test_api_key_handling.py +44 -0
tests/test_change_tracking.py +98 -0
tests/test_timeout_conversion.py +117 -0

firecrawl/v2/methods/aio/map.py ADDED Viewed

@@ -0,0 +1,65 @@
+from typing import Optional, Dict, Any
+from ...types import MapOptions, MapData, LinkResult
+from ...utils.http_client_async import AsyncHttpClient
+from ...utils.error_handler import handle_response_error
+def _prepare_map_request(url: str, options: Optional[MapOptions] = None) -> Dict[str, Any]:
+    if not url or not url.strip():
+        raise ValueError("URL cannot be empty")
+    payload: Dict[str, Any] = {"url": url.strip()}
+    if options is not None:
+        data: Dict[str, Any] = {}
+        if getattr(options, "sitemap", None) is not None:
+            data["sitemap"] = options.sitemap
+        if options.search is not None:
+            data["search"] = options.search
+        if options.include_subdomains is not None:
+            data["includeSubdomains"] = options.include_subdomains
+        if options.ignore_query_parameters is not None:
+            data["ignoreQueryParameters"] = options.ignore_query_parameters
+        if options.limit is not None:
+            data["limit"] = options.limit
+        if options.timeout is not None:
+            data["timeout"] = options.timeout
+        if options.integration is not None:
+            data["integration"] = options.integration.strip()
+        if options.location is not None:
+            data["location"] = options.location.model_dump(exclude_none=True)
+        payload.update(data)
+    return payload
+async def map(client: AsyncHttpClient, url: str, options: Optional[MapOptions] = None) -> MapData:
+    request_data = _prepare_map_request(url, options)
+    response = await client.post("/v2/map", request_data)
+    if response.status_code >= 400:
+        handle_response_error(response, "map")
+    body = response.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error occurred"))
+    # data = body.get("data", {})
+    # result_links: list[LinkResult] = []
+    # for item in data.get("links", []):
+    #     if isinstance(item, dict):
+    #         result_links.append(
+    #             LinkResult(
+    #                 url=item.get("url", ""),
+    #                 title=item.get("title"),
+    #                 description=item.get("description"),
+    #             )
+    #         )
+    #     elif isinstance(item, str):
+    #         result_links.append(LinkResult(url=item))
+    result_links: list[LinkResult] = []
+    for item in body.get("links", []):
+        if isinstance(item, dict):
+            result_links.append(LinkResult(url=item.get("url", ""), title=item.get("title"), description=item.get("description")))
+        elif isinstance(item, str):
+            result_links.append(LinkResult(url=item))
+    return MapData(links=result_links)

firecrawl/v2/methods/aio/scrape.py ADDED Viewed

@@ -0,0 +1,33 @@
+from typing import Optional, Dict, Any
+from ...types import ScrapeOptions, Document
+from ...utils.normalize import normalize_document_input
+from ...utils.error_handler import handle_response_error
+from ...utils.validation import prepare_scrape_options, validate_scrape_options
+from ...utils.http_client_async import AsyncHttpClient
+async def _prepare_scrape_request(url: str, options: Optional[ScrapeOptions] = None) -> Dict[str, Any]:
+    if not url or not url.strip():
+        raise ValueError("URL cannot be empty")
+    payload: Dict[str, Any] = {"url": url.strip()}
+    if options is not None:
+        validated = validate_scrape_options(options)
+        if validated is not None:
+            opts = prepare_scrape_options(validated)
+            if opts:
+                payload.update(opts)
+    return payload
+async def scrape(client: AsyncHttpClient, url: str, options: Optional[ScrapeOptions] = None) -> Document:
+    payload = await _prepare_scrape_request(url, options)
+    response = await client.post("/v2/scrape", payload)
+    if response.status_code >= 400:
+        handle_response_error(response, "scrape")
+    body = response.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error occurred"))
+    document_data = body.get("data", {})
+    normalized = normalize_document_input(document_data)
+    return Document(**normalized)

firecrawl/v2/methods/aio/search.py ADDED Viewed

@@ -0,0 +1,176 @@
+import re
+from typing import Dict, Any, Union, List, TypeVar, Type
+from ...types import (
+    SearchRequest,
+    SearchData,
+    Document,
+    SearchResultWeb,
+    SearchResultNews,
+    SearchResultImages,
+)
+from ...utils.http_client_async import AsyncHttpClient
+from ...utils.error_handler import handle_response_error
+from ...utils.normalize import normalize_document_input
+from ...utils.validation import validate_scrape_options, prepare_scrape_options
+T = TypeVar("T")
+async def search(
+    client: AsyncHttpClient,
+    request: SearchRequest
+) -> SearchData:
+    """
+    Async search for documents.
+    Args:
+        client: Async HTTP client instance
+        request: Search request
+    Returns:
+        SearchData with search results grouped by source type
+    Raises:
+        FirecrawlError: If the search operation fails
+    """
+    request_data = _prepare_search_request(request)
+    try:
+        response = await client.post("/v2/search", request_data)
+        if response.status_code != 200:
+            handle_response_error(response, "search")
+        response_data = response.json()
+        if not response_data.get("success"):
+            handle_response_error(response, "search")
+        data = response_data.get("data", {}) or {}
+        out = SearchData()
+        if "web" in data:
+            out.web = _transform_array(data["web"], SearchResultWeb)
+        if "news" in data:
+            out.news = _transform_array(data["news"], SearchResultNews)
+        if "images" in data:
+            out.images = _transform_array(data["images"], SearchResultImages)
+        return out
+    except Exception as err:
+        if hasattr(err, "response"):
+            handle_response_error(getattr(err, "response"), "search")
+        raise err
+def _transform_array(arr: List[Any], result_type: Type[T]) -> List[Union[T, Document]]:
+    """
+    Transforms an array of items into a list of result_type or Document.
+    If the item dict contains any of the special keys, it is treated as a Document.
+    Otherwise, it is treated as result_type.
+    If the item is not a dict, it is wrapped as result_type with url=item.
+    """
+    results: List[Union[T, Document]] = []
+    for item in arr:
+        if item and isinstance(item, dict):
+            if (
+                "markdown" in item or
+                "html" in item or
+                "rawHtml" in item or
+                "links" in item or
+                "screenshot" in item or
+                "changeTracking" in item or
+                "summary" in item or
+                "json" in item
+            ):
+                results.append(Document(**normalize_document_input(item)))
+            else:
+                results.append(result_type(**item))
+        else:
+            results.append(result_type(url=item))
+    return results
+def _validate_search_request(request: SearchRequest) -> SearchRequest:
+    """
+    Validate and normalize search request.
+    Args:
+        request: Search request to validate
+    Returns:
+        Validated request
+    Raises:
+        ValueError: If request is invalid
+    """
+    if not request.query or not request.query.strip():
+        raise ValueError("Query cannot be empty")
+    if request.limit is not None:
+        if request.limit <= 0:
+            raise ValueError("Limit must be positive")
+        if request.limit > 100:
+            raise ValueError("Limit cannot exceed 100")
+    if request.timeout is not None:
+        if request.timeout <= 0:
+            raise ValueError("Timeout must be positive")
+        if request.timeout > 300000:
+            raise ValueError("Timeout cannot exceed 300000ms (5 minutes)")
+    if request.sources is not None:
+        valid_sources = {"web", "news", "images"}
+        for source in request.sources:
+            if isinstance(source, str):
+                if source not in valid_sources:
+                    raise ValueError(f"Invalid source type: {source}. Valid types: {valid_sources}")
+            elif hasattr(source, 'type'):
+                if source.type not in valid_sources:
+                    raise ValueError(f"Invalid source type: {source.type}. Valid types: {valid_sources}")
+    if request.location is not None:
+        if not isinstance(request.location, str) or len(request.location.strip()) == 0:
+            raise ValueError("Location must be a non-empty string")
+    if request.tbs is not None:
+        valid_tbs_values = {
+            "qdr:h", "qdr:d", "qdr:w", "qdr:m", "qdr:y",
+            "d", "w", "m", "y"
+        }
+        if request.tbs in valid_tbs_values:
+            pass
+        elif request.tbs.startswith("cdr:"):
+            custom_date_pattern = r"^cdr:1,cd_min:\d{1,2}/\d{1,2}/\d{4},cd_max:\d{1,2}/\d{1,2}/\d{4}$"
+            if not re.match(custom_date_pattern, request.tbs):
+                raise ValueError(f"Invalid custom date range format: {request.tbs}. Expected format: cdr:1,cd_min:MM/DD/YYYY,cd_max:MM/DD/YYYY")
+        else:
+            raise ValueError(f"Invalid tbs value: {request.tbs}. Valid values: {valid_tbs_values} or custom date range format: cdr:1,cd_min:MM/DD/YYYY,cd_max:MM/DD/YYYY")
+    if request.scrape_options is not None:
+        validate_scrape_options(request.scrape_options)
+    return request
+def _prepare_search_request(request: SearchRequest) -> Dict[str, Any]:
+    """
+    Prepare a search request payload.
+    Args:
+        request: Search request
+    Returns:
+        Request payload dictionary
+    """
+    validated_request = _validate_search_request(request)
+    data = validated_request.model_dump(exclude_none=True, by_alias=True)
+    if "limit" not in data and validated_request.limit is not None:
+        data["limit"] = validated_request.limit
+    if "timeout" not in data and validated_request.timeout is not None:
+        data["timeout"] = validated_request.timeout
+    if validated_request.ignore_invalid_urls is not None:
+        data["ignoreInvalidURLs"] = validated_request.ignore_invalid_urls
+        data.pop("ignore_invalid_urls", None)
+    if validated_request.scrape_options is not None:
+        scrape_data = prepare_scrape_options(validated_request.scrape_options)
+        if scrape_data:
+            data["scrapeOptions"] = scrape_data
+        data.pop("scrape_options", None)
+    if (v := getattr(validated_request, "integration", None)) is not None and str(v).strip():
+        data["integration"] = str(validated_request.integration).strip()
+    return data

firecrawl/v2/methods/aio/usage.py ADDED Viewed

@@ -0,0 +1,89 @@
+from ...utils.http_client_async import AsyncHttpClient
+from ...utils.error_handler import handle_response_error
+from ...types import ConcurrencyCheck, CreditUsage, TokenUsage, CreditUsageHistoricalResponse, TokenUsageHistoricalResponse, QueueStatusResponse
+async def get_concurrency(client: AsyncHttpClient) -> ConcurrencyCheck:
+    resp = await client.get("/v2/concurrency-check")
+    if resp.status_code >= 400:
+        handle_response_error(resp, "get concurrency")
+    body = resp.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error"))
+    data = body.get("data", body)
+    return ConcurrencyCheck(
+        concurrency=data.get("concurrency"),
+        max_concurrency=data.get("maxConcurrency", data.get("max_concurrency")),
+    )
+async def get_credit_usage(client: AsyncHttpClient) -> CreditUsage:
+    resp = await client.get("/v2/team/credit-usage")
+    if resp.status_code >= 400:
+        handle_response_error(resp, "get credit usage")
+    body = resp.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error"))
+    data = body.get("data", body)
+    return CreditUsage(
+        remaining_credits=data.get("remainingCredits", data.get("remaining_credits", 0)),
+        plan_credits=data.get("planCredits", data.get("plan_credits")),
+        billing_period_start=data.get("billingPeriodStart", data.get("billing_period_start")),
+        billing_period_end=data.get("billingPeriodEnd", data.get("billing_period_end")),
+    )
+async def get_token_usage(client: AsyncHttpClient) -> TokenUsage:
+    resp = await client.get("/v2/team/token-usage")
+    if resp.status_code >= 400:
+        handle_response_error(resp, "get token usage")
+    body = resp.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error"))
+    data = body.get("data", body)
+    return TokenUsage(
+        remaining_tokens=data.get("remainingTokens", data.get("remaining_tokens", 0)),
+        plan_tokens=data.get("planTokens", data.get("plan_tokens")),
+        billing_period_start=data.get("billingPeriodStart", data.get("billing_period_start")),
+        billing_period_end=data.get("billingPeriodEnd", data.get("billing_period_end")),
+    )
+async def get_queue_status(client: AsyncHttpClient) -> QueueStatusResponse:
+    resp = await client.get("/v2/team/queue-status")
+    if resp.status_code >= 400:
+        handle_response_error(resp, "get queue status")
+    body = resp.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error"))
+    data = body.get("data", body)
+    return QueueStatusResponse(
+        jobs_in_queue=data.get("jobsInQueue", 0),
+        active_jobs_in_queue=data.get("activeJobsInQueue", 0),
+        waiting_jobs_in_queue=data.get("waitingJobsInQueue", 0),
+        max_concurrency=data.get("maxConcurrency", 0),
+        most_recent_success=data.get("mostRecentSuccess", None),
+    )
+async def get_credit_usage_historical(client: AsyncHttpClient, by_api_key: bool = False) -> CreditUsageHistoricalResponse:
+    query = "?byApiKey=true" if by_api_key else ""
+    resp = await client.get(f"/v2/team/credit-usage/historical{query}")
+    if resp.status_code >= 400:
+        handle_response_error(resp, "get credit usage historical")
+    body = resp.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error"))
+    return CreditUsageHistoricalResponse(**body)
+async def get_token_usage_historical(client: AsyncHttpClient, by_api_key: bool = False) -> TokenUsageHistoricalResponse:
+    query = "?byApiKey=true" if by_api_key else ""
+    resp = await client.get(f"/v2/team/token-usage/historical{query}")
+    if resp.status_code >= 400:
+        handle_response_error(resp, "get token usage historical")
+    body = resp.json()
+    if not body.get("success"):
+        raise Exception(body.get("error", "Unknown error"))
+    return TokenUsageHistoricalResponse(**body)