PyPI - omniload - Versions diffs - 0.0.0__py3-none-any.whl - Mend

omniload 0.0.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (239) hide show

omniload/__init__.py +13 -0
omniload/conftest.py +73 -0
omniload/main.py +809 -0
omniload/main_test.py +6468 -0
omniload/src/adjust/__init__.py +108 -0
omniload/src/adjust/adjust_helpers.py +122 -0
omniload/src/adjust/adjust_helpers_test.py +15 -0
omniload/src/airtable/__init__.py +84 -0
omniload/src/allium/__init__.py +128 -0
omniload/src/anthropic/__init__.py +277 -0
omniload/src/anthropic/helpers.py +525 -0
omniload/src/anthropic/helpers_test.py +522 -0
omniload/src/applovin/__init__.py +316 -0
omniload/src/applovin_max/__init__.py +117 -0
omniload/src/appsflyer/__init__.py +325 -0
omniload/src/appsflyer/client.py +110 -0
omniload/src/appsflyer/client_test.py +56 -0
omniload/src/appstore/__init__.py +142 -0
omniload/src/appstore/client.py +126 -0
omniload/src/appstore/errors.py +15 -0
omniload/src/appstore/models.py +117 -0
omniload/src/appstore/resources.py +179 -0
omniload/src/arrow/__init__.py +81 -0
omniload/src/asana_source/__init__.py +281 -0
omniload/src/asana_source/helpers.py +30 -0
omniload/src/asana_source/settings.py +158 -0
omniload/src/attio/__init__.py +102 -0
omniload/src/attio/helpers.py +65 -0
omniload/src/blob.py +95 -0
omniload/src/blob_test.py +36 -0
omniload/src/bruin/__init__.py +76 -0
omniload/src/chess/__init__.py +180 -0
omniload/src/chess/helpers.py +35 -0
omniload/src/chess/settings.py +18 -0
omniload/src/clickup/__init__.py +85 -0
omniload/src/clickup/helpers.py +47 -0
omniload/src/collector/spinner.py +43 -0
omniload/src/couchbase_source/__init__.py +118 -0
omniload/src/couchbase_source/helpers.py +135 -0
omniload/src/couchbase_source/helpers_test.py +170 -0
omniload/src/cursor/__init__.py +83 -0
omniload/src/cursor/helpers.py +188 -0
omniload/src/customer_io/__init__.py +486 -0
omniload/src/customer_io/helpers.py +530 -0
omniload/src/destinations.py +982 -0
omniload/src/destinations_test.py +227 -0
omniload/src/docebo/__init__.py +589 -0
omniload/src/docebo/client.py +435 -0
omniload/src/docebo/helpers.py +97 -0
omniload/src/docebo/helpers_test.py +190 -0
omniload/src/dune/__init__.py +104 -0
omniload/src/dune/helpers.py +108 -0
omniload/src/dynamodb/__init__.py +86 -0
omniload/src/elasticsearch/__init__.py +80 -0
omniload/src/elasticsearch/helpers.py +141 -0
omniload/src/errors.py +26 -0
omniload/src/facebook_ads/__init__.py +403 -0
omniload/src/facebook_ads/exceptions.py +19 -0
omniload/src/facebook_ads/helpers.py +296 -0
omniload/src/facebook_ads/helpers_test.py +208 -0
omniload/src/facebook_ads/settings.py +224 -0
omniload/src/facebook_ads/utils.py +53 -0
omniload/src/factory.py +305 -0
omniload/src/factory_test.py +13 -0
omniload/src/filesystem/__init__.py +133 -0
omniload/src/filesystem/helpers.py +114 -0
omniload/src/filesystem/readers.py +187 -0
omniload/src/filters.py +62 -0
omniload/src/fireflies/__init__.py +151 -0
omniload/src/fireflies/helpers.py +753 -0
omniload/src/fireflies/helpers_test.py +515 -0
omniload/src/fluxx/__init__.py +10013 -0
omniload/src/fluxx/helpers.py +233 -0
omniload/src/fluxx/helpers_test.py +287 -0
omniload/src/frankfurter/__init__.py +157 -0
omniload/src/frankfurter/helpers.py +48 -0
omniload/src/freshdesk/__init__.py +103 -0
omniload/src/freshdesk/freshdesk_client.py +151 -0
omniload/src/freshdesk/settings.py +23 -0
omniload/src/fundraiseup/__init__.py +95 -0
omniload/src/fundraiseup/client.py +81 -0
omniload/src/fundraiseup/client_test.py +463 -0
omniload/src/github/__init__.py +202 -0
omniload/src/github/helpers.py +207 -0
omniload/src/github/queries.py +129 -0
omniload/src/github/settings.py +24 -0
omniload/src/google_ads/__init__.py +198 -0
omniload/src/google_ads/field.py +17 -0
omniload/src/google_ads/metrics.py +254 -0
omniload/src/google_ads/predicates.py +37 -0
omniload/src/google_ads/reports.py +411 -0
omniload/src/google_ads/reports_test.py +212 -0
omniload/src/google_ads/test_google_ads.py +184 -0
omniload/src/google_analytics/__init__.py +144 -0
omniload/src/google_analytics/helpers.py +312 -0
omniload/src/google_analytics/helpers_test.py +78 -0
omniload/src/google_sheets/__init__.py +166 -0
omniload/src/google_sheets/helpers/__init__.py +15 -0
omniload/src/google_sheets/helpers/api_calls.py +160 -0
omniload/src/google_sheets/helpers/data_processing.py +316 -0
omniload/src/gorgias/__init__.py +595 -0
omniload/src/gorgias/helpers.py +166 -0
omniload/src/gorgias/helpers_test.py +45 -0
omniload/src/hostaway/__init__.py +302 -0
omniload/src/hostaway/client.py +288 -0
omniload/src/http/__init__.py +38 -0
omniload/src/http/readers.py +146 -0
omniload/src/http_client.py +24 -0
omniload/src/hubspot/__init__.py +800 -0
omniload/src/hubspot/helpers.py +417 -0
omniload/src/hubspot/settings.py +329 -0
omniload/src/indeed/__init__.py +153 -0
omniload/src/indeed/helpers.py +228 -0
omniload/src/influxdb/__init__.py +46 -0
omniload/src/influxdb/client.py +34 -0
omniload/src/intercom/__init__.py +142 -0
omniload/src/intercom/helpers.py +674 -0
omniload/src/intercom/helpers_test.py +249 -0
omniload/src/intercom/settings.py +279 -0
omniload/src/isoc_pulse/__init__.py +159 -0
omniload/src/jira_source/__init__.py +377 -0
omniload/src/jira_source/helpers.py +510 -0
omniload/src/jira_source/settings.py +184 -0
omniload/src/kafka/__init__.py +120 -0
omniload/src/kafka/helpers.py +241 -0
omniload/src/kinesis/__init__.py +153 -0
omniload/src/kinesis/helpers.py +96 -0
omniload/src/klaviyo/__init__.py +237 -0
omniload/src/klaviyo/client.py +212 -0
omniload/src/klaviyo/helpers.py +19 -0
omniload/src/klaviyo/helpers_test.py +36 -0
omniload/src/linear/__init__.py +634 -0
omniload/src/linear/helpers.py +111 -0
omniload/src/linkedin_ads/__init__.py +266 -0
omniload/src/linkedin_ads/dimension_time_enum.py +17 -0
omniload/src/linkedin_ads/helpers.py +246 -0
omniload/src/linkedin_ads/helpers_test.py +141 -0
omniload/src/loader.py +69 -0
omniload/src/loader_test.py +73 -0
omniload/src/mailchimp/__init__.py +126 -0
omniload/src/mailchimp/helpers.py +226 -0
omniload/src/mailchimp/helpers_test.py +303 -0
omniload/src/mailchimp/settings.py +164 -0
omniload/src/masking.py +344 -0
omniload/src/masking_test.py +386 -0
omniload/src/mixpanel/__init__.py +62 -0
omniload/src/mixpanel/client.py +104 -0
omniload/src/monday/__init__.py +246 -0
omniload/src/monday/helpers.py +392 -0
omniload/src/monday/settings.py +325 -0
omniload/src/mongodb/__init__.py +281 -0
omniload/src/mongodb/helpers.py +975 -0
omniload/src/mongodb/helpers_test.py +455 -0
omniload/src/notion/__init__.py +69 -0
omniload/src/notion/helpers/__init__.py +14 -0
omniload/src/notion/helpers/client.py +178 -0
omniload/src/notion/helpers/database.py +92 -0
omniload/src/notion/settings.py +17 -0
omniload/src/partition.py +32 -0
omniload/src/personio/__init__.py +345 -0
omniload/src/personio/helpers.py +100 -0
omniload/src/phantombuster/__init__.py +65 -0
omniload/src/phantombuster/client.py +87 -0
omniload/src/pinterest/__init__.py +82 -0
omniload/src/pipedrive/__init__.py +212 -0
omniload/src/pipedrive/helpers/__init__.py +37 -0
omniload/src/pipedrive/helpers/custom_fields_munger.py +116 -0
omniload/src/pipedrive/helpers/pages.py +129 -0
omniload/src/pipedrive/settings.py +41 -0
omniload/src/pipedrive/typing.py +17 -0
omniload/src/plusvibeai/__init__.py +335 -0
omniload/src/plusvibeai/helpers.py +544 -0
omniload/src/plusvibeai/settings.py +252 -0
omniload/src/primer/__init__.py +45 -0
omniload/src/primer/helpers.py +79 -0
omniload/src/primer/helpers_test.py +81 -0
omniload/src/quickbooks/__init__.py +117 -0
omniload/src/reddit_ads/__init__.py +183 -0
omniload/src/reddit_ads/helpers.py +232 -0
omniload/src/reddit_ads/helpers_test.py +181 -0
omniload/src/resource.py +40 -0
omniload/src/revenuecat/__init__.py +83 -0
omniload/src/revenuecat/helpers.py +237 -0
omniload/src/revenuecat/helpers_test.py +158 -0
omniload/src/salesforce/__init__.py +170 -0
omniload/src/salesforce/helpers.py +78 -0
omniload/src/shopify/__init__.py +1953 -0
omniload/src/shopify/exceptions.py +17 -0
omniload/src/shopify/helpers.py +202 -0
omniload/src/shopify/helpers_test.py +49 -0
omniload/src/shopify/settings.py +19 -0
omniload/src/slack/__init__.py +290 -0
omniload/src/slack/helpers.py +218 -0
omniload/src/slack/settings.py +36 -0
omniload/src/smartsheets/__init__.py +82 -0
omniload/src/smartsheets/test_smartsheets.py +133 -0
omniload/src/snapchat_ads/__init__.py +455 -0
omniload/src/snapchat_ads/client.py +72 -0
omniload/src/snapchat_ads/helpers.py +630 -0
omniload/src/snapchat_ads/helpers_test.py +248 -0
omniload/src/snapchat_ads/settings.py +130 -0
omniload/src/socrata_source/__init__.py +83 -0
omniload/src/socrata_source/helpers.py +85 -0
omniload/src/socrata_source/settings.py +8 -0
omniload/src/solidgate/__init__.py +219 -0
omniload/src/solidgate/helpers.py +154 -0
omniload/src/sources.py +5408 -0
omniload/src/sources_test.py +290 -0
omniload/src/sql_database/__init__.py +0 -0
omniload/src/sql_database/callbacks.py +66 -0
omniload/src/stripe_analytics/__init__.py +183 -0
omniload/src/stripe_analytics/helpers.py +386 -0
omniload/src/stripe_analytics/helpers_test.py +130 -0
omniload/src/stripe_analytics/settings.py +80 -0
omniload/src/table_definition.py +15 -0
omniload/src/tiktok_ads/__init__.py +150 -0
omniload/src/tiktok_ads/tiktok_helpers.py +130 -0
omniload/src/tiktok_ads/tiktok_helpers_test.py +56 -0
omniload/src/time.py +11 -0
omniload/src/trustpilot/__init__.py +48 -0
omniload/src/trustpilot/client.py +48 -0
omniload/src/wise/__init__.py +68 -0
omniload/src/wise/client.py +63 -0
omniload/src/zendesk/__init__.py +480 -0
omniload/src/zendesk/helpers/__init__.py +39 -0
omniload/src/zendesk/helpers/api_helpers.py +119 -0
omniload/src/zendesk/helpers/credentials.py +68 -0
omniload/src/zendesk/helpers/talk_api.py +132 -0
omniload/src/zendesk/settings.py +71 -0
omniload/src/zoom/__init__.py +99 -0
omniload/src/zoom/helpers.py +102 -0
omniload-0.0.0.dist-info/METADATA +243 -0
omniload-0.0.0.dist-info/RECORD +239 -0
omniload-0.0.0.dist-info/WHEEL +5 -0
omniload-0.0.0.dist-info/entry_points.txt +2 -0
omniload-0.0.0.dist-info/licenses/LICENSE.Apache-2.0 +176 -0
omniload-0.0.0.dist-info/licenses/LICENSE.md +21 -0
omniload-0.0.0.dist-info/licenses/NOTICE +35 -0
omniload-0.0.0.dist-info/top_level.txt +1 -0

omniload/src/hostaway/client.py ADDED Viewed

@@ -0,0 +1,288 @@
+from typing import Callable, Iterable, Optional
+import pendulum
+from dlt.sources.helpers.requests import Client
+class HostawayClient:
+    BASE_URL = "https://api.hostaway.com"
+    def __init__(self, api_key: str) -> None:
+        self.session = Client(raise_for_status=False).session
+        self.session.headers.update({"Authorization": f"Bearer {api_key}"})
+    def _fetch_single(self, url: str, params: Optional[dict] = None) -> Iterable[dict]:
+        response = self.session.get(url, params=params, timeout=30)
+        response.raise_for_status()
+        response_data = response.json()
+        if isinstance(response_data, dict) and "result" in response_data:
+            items = response_data["result"]
+        elif isinstance(response_data, list):
+            items = response_data
+        else:
+            items = []
+        if isinstance(items, list):
+            for item in items:
+                yield item
+        elif isinstance(items, dict):
+            yield items
+    def _paginate(
+        self,
+        url: str,
+        params: Optional[dict] = None,
+        limit: int = 100,
+        process_item: Optional[Callable[[dict], dict]] = None,
+    ) -> Iterable[dict]:
+        offset = 0
+        if params is None:
+            params = {}
+        while True:
+            page_params = {**params, "limit": limit, "offset": offset}
+            response = self.session.get(url, params=page_params, timeout=30)
+            response.raise_for_status()
+            response_data = response.json()
+            if isinstance(response_data, dict) and "result" in response_data:
+                items = response_data["result"]
+            elif isinstance(response_data, list):
+                items = response_data
+            else:
+                items = []
+            if not items or (isinstance(items, list) and len(items) == 0):
+                break
+            if isinstance(items, list):
+                for item in items:
+                    if process_item:
+                        item = process_item(item)
+                    yield item
+            elif isinstance(items, dict):
+                if process_item:
+                    items = process_item(items)
+                yield items
+            if isinstance(items, list) and len(items) < limit:
+                break
+            elif isinstance(items, dict):
+                break
+            offset += limit
+    def fetch_listings(
+        self,
+        start_time: pendulum.DateTime,
+        end_time: pendulum.DateTime,
+    ) -> Iterable[dict]:
+        def process_listing(listing: dict) -> dict:
+            if "latestActivityOn" in listing and listing["latestActivityOn"]:
+                try:
+                    listing["latestActivityOn"] = pendulum.parse(
+                        listing["latestActivityOn"]
+                    )
+                except Exception:
+                    listing["latestActivityOn"] = pendulum.datetime(
+                        1970, 1, 1, tz="UTC"
+                    )
+            else:
+                listing["latestActivityOn"] = pendulum.datetime(1970, 1, 1, tz="UTC")
+            return listing
+        url = f"{self.BASE_URL}/v1/listings"
+        for listing in self._paginate(url, process_item=process_listing):
+            if start_time <= listing["latestActivityOn"] <= end_time:
+                yield listing
+    def fetch_listing_fee_settings(
+        self,
+        listing_id,
+        start_time: pendulum.DateTime,
+        end_time: pendulum.DateTime,
+    ) -> Iterable[dict]:
+        def process_fee(fee: dict) -> dict:
+            if "updatedOn" in fee and fee["updatedOn"]:
+                try:
+                    fee["updatedOn"] = pendulum.parse(fee["updatedOn"])
+                except Exception:
+                    fee["updatedOn"] = pendulum.datetime(1970, 1, 1, tz="UTC")
+            else:
+                fee["updatedOn"] = pendulum.datetime(1970, 1, 1, tz="UTC")
+            return fee
+        url = f"{self.BASE_URL}/v1/listingFeeSettings/{str(listing_id)}"
+        for fee in self._paginate(url, process_item=process_fee):
+            if start_time <= fee["updatedOn"] <= end_time:
+                yield fee
+    def fetch_all_listing_fee_settings(
+        self,
+        start_time: pendulum.DateTime,
+        end_time: pendulum.DateTime,
+    ) -> Iterable[dict]:
+        for listing in self.fetch_listings(start_time, end_time):
+            listing_id = listing.get("id")
+            if listing_id:
+                try:
+                    yield from self.fetch_listing_fee_settings(
+                        listing_id, start_time, end_time
+                    )
+                except Exception:
+                    continue
+    def fetch_listing_agreement(
+        self,
+        listing_id,
+    ) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/listingAgreement/{str(listing_id)}"
+        yield from self._paginate(url)
+    def fetch_listing_pricing_settings(
+        self,
+        listing_id,
+    ) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/listing/pricingSettings/{str(listing_id)}"
+        yield from self._paginate(url)
+    def fetch_all_listing_pricing_settings(
+        self,
+        start_time: pendulum.DateTime,
+        end_time: pendulum.DateTime,
+    ) -> Iterable[dict]:
+        for listing in self.fetch_listings(start_time, end_time):
+            listing_id = listing.get("id")
+            if listing_id:
+                try:
+                    yield from self.fetch_listing_pricing_settings(listing_id)
+                except Exception:
+                    continue
+    def fetch_all_listing_agreements(
+        self,
+        start_time: pendulum.DateTime,
+        end_time: pendulum.DateTime,
+    ) -> Iterable[dict]:
+        for listing in self.fetch_listings(start_time, end_time):
+            listing_id = listing.get("id")
+            if listing_id:
+                try:
+                    yield from self.fetch_listing_agreement(listing_id)
+                except Exception:
+                    continue
+    def fetch_cancellation_policies(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/cancellationPolicies"
+        yield from self._fetch_single(url)
+    def fetch_cancellation_policies_airbnb(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/cancellationPolicies/airbnb"
+        yield from self._fetch_single(url)
+    def fetch_cancellation_policies_marriott(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/cancellationPolicies/marriott"
+        yield from self._fetch_single(url)
+    def fetch_cancellation_policies_vrbo(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/cancellationPolicies/vrbo"
+        yield from self._fetch_single(url)
+    def fetch_reservations(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/reservations"
+        yield from self._paginate(url)
+    def fetch_finance_field(self, reservation_id) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/financeField/{str(reservation_id)}"
+        yield from self._fetch_single(url)
+    def fetch_all_finance_fields(self) -> Iterable[dict]:
+        for reservation in self.fetch_reservations():
+            reservation_id = reservation.get("id")
+            if reservation_id:
+                try:
+                    yield from self.fetch_finance_field(reservation_id)
+                except Exception:
+                    continue
+    def fetch_reservation_payment_methods(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/reservations/paymentMethods"
+        yield from self._fetch_single(url)
+    def fetch_reservation_rental_agreement(self, reservation_id) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/reservations/{str(reservation_id)}/rentalAgreement"
+        try:
+            yield from self._fetch_single(url)
+        except Exception:
+            return
+    def fetch_all_reservation_rental_agreements(self) -> Iterable[dict]:
+        for reservation in self.fetch_reservations():
+            reservation_id = reservation.get("id")
+            if reservation_id:
+                try:
+                    yield from self.fetch_reservation_rental_agreement(reservation_id)
+                except Exception:
+                    continue
+    def fetch_listing_calendar(self, listing_id) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/listings/{str(listing_id)}/calendar"
+        yield from self._fetch_single(url)
+    def fetch_all_listing_calendars(
+        self,
+        start_time: pendulum.DateTime,
+        end_time: pendulum.DateTime,
+    ) -> Iterable[dict]:
+        for listing in self.fetch_listings(start_time, end_time):
+            listing_id = listing.get("id")
+            if listing_id:
+                try:
+                    yield from self.fetch_listing_calendar(listing_id)
+                except Exception:
+                    continue
+    def fetch_conversations(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/conversations"
+        yield from self._paginate(url)
+    def fetch_message_templates(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/messageTemplates"
+        yield from self._fetch_single(url)
+    def fetch_bed_types(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/bedTypes"
+        yield from self._fetch_single(url)
+    def fetch_property_types(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/propertyTypes"
+        yield from self._fetch_single(url)
+    def fetch_countries(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/countries"
+        yield from self._fetch_single(url)
+    def fetch_account_tax_settings(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/accountTaxSettings"
+        yield from self._fetch_single(url)
+    def fetch_user_groups(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/userGroups"
+        yield from self._fetch_single(url)
+    def fetch_guest_payment_charges(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/guestPayments/charges"
+        yield from self._paginate(url)
+    def fetch_coupons(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/coupons"
+        yield from self._fetch_single(url)
+    def fetch_webhook_reservations(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/webhooks/reservations"
+        yield from self._fetch_single(url)
+    def fetch_tasks(self) -> Iterable[dict]:
+        url = f"{self.BASE_URL}/v1/tasks"
+        yield from self._fetch_single(url)

omniload/src/http/__init__.py ADDED Viewed

@@ -0,0 +1,38 @@
+"""HTTP source for reading CSV, JSON, and Parquet files from public URLs"""
+from typing import Any, Optional
+import dlt
+from dlt.sources import DltResource
+from .readers import HttpReader
+@dlt.source
+def http_source(
+    url: str,
+    file_format: Optional[str] = None,
+    column_names: Optional[list[str]] = None,
+    **kwargs: Any,
+) -> DltResource:
+    """Source for reading files from HTTP URLs.
+    Supports CSV, JSON, Parquet, and CSV without headers file formats.
+    Args:
+        url (str): The HTTP(S) URL to the file
+        file_format (str, optional): File format ('csv', 'csv_headless', 'json', 'parquet').
+            If not provided, will be inferred from URL extension.
+        column_names (list[str], optional): Column names for csv_headless format.
+            If not provided for csv_headless, columns will be named unknown_col_0, unknown_col_1, etc.
+        **kwargs: Additional arguments passed to the reader functions
+    Returns:
+        DltResource: A dlt resource that yields the file data
+    """
+    reader = HttpReader(url, file_format, column_names)
+    return dlt.resource(
+        reader.read_file(**kwargs),
+        name="http_data",
+    )

omniload/src/http/readers.py ADDED Viewed

@@ -0,0 +1,146 @@
+"""Readers for HTTP file sources"""
+import io
+from typing import Any, Iterator, Optional
+from urllib.parse import urlparse
+import requests
+from dlt.sources import TDataItems
+class HttpReader:
+    """Reader for HTTP-based file sources"""
+    def __init__(
+        self,
+        url: str,
+        file_format: Optional[str] = None,
+        column_names: Optional[list[str]] = None,
+    ):
+        self.url = url
+        self.file_format = file_format or self._infer_format(url)
+        self.column_names = column_names
+        if self.file_format not in ["csv", "csv_headless", "json", "parquet"]:
+            raise ValueError(
+                f"Unsupported file format: {self.file_format}. "
+                "Supported formats: csv, csv_headless, json, parquet"
+            )
+    def _infer_format(self, url: str) -> str:
+        """Infer file format from URL extension"""
+        parsed = urlparse(url)
+        path = parsed.path.lower()
+        if path.endswith(".csv"):
+            return "csv"
+        elif path.endswith(".json") or path.endswith(".jsonl"):
+            return "json"
+        elif path.endswith(".parquet"):
+            return "parquet"
+        else:
+            raise ValueError(
+                f"Cannot infer file format from URL: {url}. "
+                "Please specify file_format parameter."
+            )
+    def _download_file(self) -> bytes:
+        """Download file from URL"""
+        response = requests.get(self.url, stream=True, timeout=30)
+        response.raise_for_status()
+        return response.content
+    def read_file(self, **kwargs: Any) -> Iterator[TDataItems]:
+        """Read file and yield data in chunks"""
+        content = self._download_file()
+        if self.file_format == "csv":
+            yield from self._read_csv(content, **kwargs)
+        elif self.file_format == "csv_headless":
+            yield from self._read_csv_headless(content, **kwargs)
+        elif self.file_format == "json":
+            yield from self._read_json(content, **kwargs)
+        elif self.file_format == "parquet":
+            yield from self._read_parquet(content, **kwargs)
+    def _read_csv(
+        self, content: bytes, chunksize: int = 10000, **pandas_kwargs: Any
+    ) -> Iterator[TDataItems]:
+        """Read CSV file with Pandas chunk by chunk"""
+        import pandas as pd  # type: ignore
+        kwargs = {**{"header": "infer", "chunksize": chunksize}, **pandas_kwargs}
+        file_obj = io.BytesIO(content)
+        for df in pd.read_csv(file_obj, **kwargs):
+            yield df.to_dict(orient="records")
+    def _read_csv_headless(
+        self, content: bytes, chunksize: int = 10000, **pandas_kwargs: Any
+    ) -> Iterator[TDataItems]:
+        """Read CSV file without headers, using provided column names or generating them"""
+        import pandas as pd  # type: ignore
+        # Determine column names
+        if self.column_names:
+            names = self.column_names
+        else:
+            # Use pandas to count columns reliably (handles quoted commas)
+            first_row = pd.read_csv(io.BytesIO(content), header=None, nrows=1)
+            num_columns = len(first_row.columns)
+            names = [f"unknown_col_{i}" for i in range(num_columns)]
+        kwargs = {
+            **{"header": None, "names": names, "chunksize": chunksize},
+            **pandas_kwargs,
+        }
+        file_obj = io.BytesIO(content)
+        for df in pd.read_csv(file_obj, **kwargs):
+            yield df.to_dict(orient="records")
+    def _read_json(
+        self, content: bytes, chunksize: int = 1000, **kwargs: Any
+    ) -> Iterator[TDataItems]:
+        """Read JSON or JSONL file"""
+        from dlt.common import json
+        file_obj = io.BytesIO(content)
+        text = file_obj.read().decode("utf-8")
+        # Try to detect if it's JSONL format (one JSON object per line)
+        lines = text.strip().split("\n")
+        if len(lines) > 1:
+            # Likely JSONL format
+            lines_chunk = []
+            for line in lines:
+                if line.strip():
+                    lines_chunk.append(json.loads(line))
+                    if len(lines_chunk) >= chunksize:
+                        yield lines_chunk
+                        lines_chunk = []
+            if lines_chunk:
+                yield lines_chunk
+        else:
+            # Single JSON object or array
+            data = json.loads(text)
+            if isinstance(data, list):
+                # Chunk the list
+                for i in range(0, len(data), chunksize):
+                    yield data[i : i + chunksize]
+            else:
+                # Single object
+                yield [data]
+    def _read_parquet(
+        self, content: bytes, chunksize: int = 10000, **kwargs: Any
+    ) -> Iterator[TDataItems]:
+        """Read Parquet file"""
+        from pyarrow import parquet as pq  # type: ignore
+        file_obj = io.BytesIO(content)
+        parquet_file = pq.ParquetFile(file_obj)
+        for batch in parquet_file.iter_batches(batch_size=chunksize):
+            yield batch.to_pylist()

omniload/src/http_client.py ADDED Viewed

@@ -0,0 +1,24 @@
+import requests
+from dlt.sources.helpers.requests import Client
+def create_client(retry_status_codes: list[int] | None = None) -> requests.Session:
+    if retry_status_codes is None:
+        retry_status_codes = [502]
+    return Client(
+        raise_for_status=False,
+        retry_condition=retry_on_status_code(retry_status_codes),
+        request_max_attempts=12,
+        request_backoff_factor=10,
+    ).session
+def retry_on_status_code(retry_status_codes: list[int]):
+    def retry_on_limit(
+        response: requests.Response | None, exception: BaseException | None
+    ) -> bool:
+        if response is None:
+            return False
+        return response.status_code in retry_status_codes
+    return retry_on_limit