PyPI - ingestr - Versions diffs - 0.12.5__py3-none-any.whl → 0.12.7__py3-none-any.whl - Mend

ingestr 0.12.5py3-none-any.whl → 0.12.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of ingestr might be problematic. Click here for more details.

Files changed (30) hide show

ingestr/main.py +1 -1
ingestr/src/appstore/__init__.py +137 -0
ingestr/src/appstore/client.py +126 -0
ingestr/src/appstore/errors.py +15 -0
ingestr/src/appstore/models.py +117 -0
ingestr/src/appstore/resources.py +179 -0
ingestr/src/asana_source/__init__.py +4 -1
ingestr/src/errors.py +10 -0
ingestr/src/facebook_ads/__init__.py +4 -1
ingestr/src/factory.py +2 -0
ingestr/src/filesystem/__init__.py +3 -1
ingestr/src/github/__init__.py +7 -3
ingestr/src/google_analytics/__init__.py +57 -21
ingestr/src/google_analytics/{helpers/data_processing.py → helpers.py} +29 -33
ingestr/src/gorgias/__init__.py +12 -4
ingestr/src/hubspot/__init__.py +8 -1
ingestr/src/klaviyo/_init_.py +78 -13
ingestr/src/shopify/__init__.py +14 -0
ingestr/src/slack/__init__.py +4 -0
ingestr/src/sources.py +99 -10
ingestr/src/stripe_analytics/__init__.py +4 -1
ingestr/src/tiktok_ads/__init__.py +6 -1
ingestr/src/version.py +1 -1
ingestr/src/zendesk/__init__.py +6 -0
{ingestr-0.12.5.dist-info → ingestr-0.12.7.dist-info}/METADATA +3 -1
{ingestr-0.12.5.dist-info → ingestr-0.12.7.dist-info}/RECORD +29 -24
ingestr/src/google_analytics/helpers/__init__.py +0 -70
{ingestr-0.12.5.dist-info → ingestr-0.12.7.dist-info}/WHEEL +0 -0
{ingestr-0.12.5.dist-info → ingestr-0.12.7.dist-info}/entry_points.txt +0 -0
{ingestr-0.12.5.dist-info → ingestr-0.12.7.dist-info}/licenses/LICENSE.md +0 -0

ingestr/src/google_analytics/__init__.py CHANGED Viewed

@@ -2,26 +2,32 @@
 Defines all the sources and resources needed for Google Analytics V4
 """
-from typing import List, Optional, Union
+from typing import Iterator, List, Optional, Union
 import dlt
-from dlt.common.typing import DictStrAny
-from dlt.sources import DltResource
+from dlt.common import pendulum
+from dlt.common.typing import DictStrAny, TDataItem
+from dlt.extract import DltResource
 from dlt.sources.credentials import GcpOAuthCredentials, GcpServiceAccountCredentials
 from google.analytics.data_v1beta import BetaAnalyticsDataClient
+from google.analytics.data_v1beta.types import (
+    Dimension,
+    Metric,
+)
-from .helpers import basic_report
+from .helpers import get_report
 @dlt.source(max_table_nesting=0)
 def google_analytics(
-    datetime: str,
+    datetime_dimension: str,
     credentials: Union[
         GcpOAuthCredentials, GcpServiceAccountCredentials
     ] = dlt.secrets.value,
     property_id: int = dlt.config.value,
     queries: List[DictStrAny] = dlt.config.value,
-    start_date: Optional[str] = "2015-08-14",
+    start_date: Optional[pendulum.DateTime] = pendulum.datetime(2024, 1, 1),
+    end_date: Optional[pendulum.DateTime] = None,
     rows_per_page: int = 10000,
 ) -> List[DltResource]:
     try:
@@ -50,21 +56,51 @@ def google_analytics(
     # always add "date" to dimensions so we are able to track the last day of a report
     dimensions = query["dimensions"]
-    resource_name = query["resource_name"]
-    res = dlt.resource(
-        basic_report, name="basic_report", merge_key=datetime, write_disposition="merge"
-    )(
-        client=client,
-        rows_per_page=rows_per_page,
-        property_id=property_id,
-        dimensions=dimensions,
-        metrics=query["metrics"],
-        resource_name=resource_name,
-        start_date=start_date,
-        last_date=dlt.sources.incremental(
-            datetime
-        ),  # pass empty primary key to avoid unique checks, a primary key defined by the resource will be used
+    @dlt.resource(
+        name="basic_report",
+        merge_key=datetime_dimension,
+        write_disposition="merge",
     )
+    def basic_report(
+        incremental=dlt.sources.incremental(
+            datetime_dimension,
+            initial_value=start_date,
+            end_value=end_date,
+            range_end="closed",
+            range_start="closed",
+        ),
+    ) -> Iterator[TDataItem]:
+        start_date = incremental.last_value
+        end_date = incremental.end_value
+        if start_date is None:
+            start_date = pendulum.datetime(2024, 1, 1)
+        if end_date is None:
+            end_date = pendulum.yesterday()
+        yield from get_report(
+            client=client,
+            property_id=property_id,
+            dimension_list=[Dimension(name=dimension) for dimension in dimensions],
+            metric_list=[Metric(name=metric) for metric in query["metrics"]],
+            per_page=rows_per_page,
+            start_date=start_date,
+            end_date=end_date,
+        )
+    # res = dlt.resource(
+    #     basic_report, name="basic_report", merge_key=datetime_dimension, write_disposition="merge"
+    # )(
+    #     client=client,
+    #     rows_per_page=rows_per_page,
+    #     property_id=property_id,
+    #     dimensions=dimensions,
+    #     metrics=query["metrics"],
+    #     resource_name=resource_name,
+    #     last_date=dlt.sources.incremental(
+    #         datetime_dimension,
+    #         initial_value=start_date,
+    #         end_value=end_date,
+    #     ),
+    # )
-    return [res]
+    return [basic_report]

ingestr/src/google_analytics/{helpers/data_processing.py → helpers.py} RENAMED Viewed

@@ -57,9 +57,9 @@ def get_report(
     property_id: int,
     dimension_list: List[Dimension],
     metric_list: List[Metric],
-    limit: int,
-    start_date: str,
-    end_date: str,
+    per_page: int,
+    start_date: pendulum.DateTime,
+    end_date: pendulum.DateTime,
 ) -> Iterator[TDataItem]:
     """
     Gets all the possible pages of reports with the given query parameters.
@@ -79,30 +79,36 @@ def get_report(
         Generator of all rows of data in the report.
     """
-    request = RunReportRequest(
-        property=f"properties/{property_id}",
-        dimensions=dimension_list,
-        metrics=metric_list,
-        limit=limit,
-        date_ranges=[DateRange(start_date=start_date, end_date=end_date)],
+    print(
+        "fetching for daterange", start_date.to_date_string(), end_date.to_date_string()
     )
-    # process request
-    response = client.run_report(request)
-    processed_response_generator = process_report(response=response)
-    yield from processed_response_generator
+    offset = 0
+    while True:
+        request = RunReportRequest(
+            property=f"properties/{property_id}",
+            dimensions=dimension_list,
+            metrics=metric_list,
+            limit=per_page,
+            offset=offset,
+            date_ranges=[
+                DateRange(
+                    start_date=start_date.to_date_string(),
+                    end_date=end_date.to_date_string(),
+                )
+            ],
+        )
+        # process request
+        response = client.run_report(request)
+        processed_response_generator = process_report(response=response)
+        # import pdb; pdb.set_trace()
+        yield from processed_response_generator
+        offset += per_page
+        if len(response.rows) < per_page or offset > 1000000:
+            break
-def process_report(response: RunReportResponse) -> Iterator[TDataItems]:
-    """
-    Receives a single page for a report response, processes it, and returns a generator for every row of data in the report page.
-    Args:
-        response: The API response for a single page of the report.
-    Yields:
-        Generator of dictionaries for every row of the report page.
-    """
+def process_report(response: RunReportResponse) -> Iterator[TDataItems]:
     metrics_headers = [header.name for header in response.metric_headers]
     dimensions_headers = [header.name for header in response.dimension_headers]
@@ -156,16 +162,6 @@ def process_metric_value(metric_type: MetricType, value: str) -> Union[str, int,
 def _resolve_dimension_value(dimension_name: str, dimension_value: str) -> Any:
-    """
-    Helper function that receives a dimension's name and value and converts it to a datetime object if needed.
-    Args:
-        dimension_name: Name of the dimension.
-        dimension_value: Value of the dimension.
-    Returns:
-        The value of the dimension with the correct data type.
-    """
     if dimension_name == "date":
         return pendulum.from_format(dimension_value, "YYYYMMDD", tz="UTC")
     elif dimension_name == "dateHour":

ingestr/src/gorgias/__init__.py CHANGED Viewed

@@ -116,7 +116,9 @@ def gorgias_source(
         },
     )
     def customers(
-        updated_datetime=dlt.sources.incremental("updated_datetime", start_date_obj),
+        updated_datetime=dlt.sources.incremental(
+            "updated_datetime", start_date_obj, range_end="closed", range_start="closed"
+        ),
     ) -> Iterable[TDataItem]:
         """
         The resource for customers on your Gorgias domain, supports incremental loading and pagination.
@@ -290,7 +292,9 @@ def gorgias_source(
         },
     )
     def tickets(
-        updated_datetime=dlt.sources.incremental("updated_datetime", start_date_obj),
+        updated_datetime=dlt.sources.incremental(
+            "updated_datetime", start_date_obj, range_end="closed", range_start="closed"
+        ),
     ) -> Iterable[TDataItem]:
         """
         The resource for tickets on your Gorgias domain, supports incremental loading and pagination.
@@ -481,7 +485,9 @@ def gorgias_source(
         },
     )
     def ticket_messages(
-        updated_datetime=dlt.sources.incremental("updated_datetime", start_date_obj),
+        updated_datetime=dlt.sources.incremental(
+            "updated_datetime", start_date_obj, range_end="closed", range_start="closed"
+        ),
     ) -> Iterable[TDataItem]:
         """
         The resource for ticket messages on your Gorgias domain, supports incremental loading and pagination.
@@ -566,7 +572,9 @@ def gorgias_source(
         },
     )
     def satisfaction_surveys(
-        updated_datetime=dlt.sources.incremental("updated_datetime", start_date_obj),
+        updated_datetime=dlt.sources.incremental(
+            "updated_datetime", start_date_obj, range_end="closed", range_start="closed"
+        ),
     ) -> Iterable[TDataItem]:
         """
         The resource for satisfaction surveys on your Gorgias domain, supports incremental loading and pagination.

ingestr/src/hubspot/__init__.py CHANGED Viewed

@@ -278,4 +278,11 @@ def hubspot_events_for_objects(
         write_disposition="append",
         selected=True,
         table_name=lambda e: name + "_" + str(e["eventType"]),
-    )(dlt.sources.incremental("occurredAt", initial_value=start_date.isoformat()))
+    )(
+        dlt.sources.incremental(
+            "occurredAt",
+            initial_value=start_date.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        )
+    )

ingestr/src/klaviyo/_init_.py CHANGED Viewed

@@ -33,7 +33,12 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="append", primary_key="id", parallelized=True)
     def events(
-        datetime=dlt.sources.incremental("datetime", start_date_obj.isoformat()),
+        datetime=dlt.sources.incremental(
+            "datetime",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(datetime.start_value), pendulum.now()
@@ -44,7 +49,12 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="merge", primary_key="id", parallelized=True)
     def profiles(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(updated.start_value), pendulum.now()
@@ -55,7 +65,12 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="merge", primary_key="id", parallelized=True)
     def campaigns(
-        updated_at=dlt.sources.incremental("updated_at", start_date_obj.isoformat()),
+        updated_at=dlt.sources.incremental(
+            "updated_at",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(updated_at.start_value), pendulum.now()
@@ -69,7 +84,12 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="merge", primary_key="id")
     def metrics(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         yield from client.fetch_metrics(create_client(), updated.start_value)
@@ -83,7 +103,12 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="merge", primary_key="id", name="catalog-variants")
     def catalog_variants(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         yield from client.fetch_catalog_variant(create_client(), updated.start_value)
@@ -91,19 +116,34 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
         write_disposition="merge", primary_key="id", name="catalog-categories"
     )
     def catalog_categories(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         yield from client.fetch_catalog_categories(create_client(), updated.start_value)
     @dlt.resource(write_disposition="merge", primary_key="id", name="catalog-items")
     def catalog_items(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         yield from client.fetch_catalog_item(create_client(), updated.start_value)
     @dlt.resource(write_disposition="append", primary_key="id", parallelized=True)
     def forms(
-        updated_at=dlt.sources.incremental("updated_at", start_date_obj.isoformat()),
+        updated_at=dlt.sources.incremental(
+            "updated_at",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(updated_at.start_value), pendulum.now()
@@ -114,13 +154,23 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="merge", primary_key="id")
     def lists(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         yield from client.fetch_lists(create_client(), updated.start_value)
     @dlt.resource(write_disposition="append", primary_key="id", parallelized=True)
     def images(
-        updated_at=dlt.sources.incremental("updated_at", start_date_obj.isoformat()),
+        updated_at=dlt.sources.incremental(
+            "updated_at",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(updated_at.start_value), pendulum.now()
@@ -130,13 +180,23 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="merge", primary_key="id")
     def segments(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         yield from client.fetch_segments(create_client(), updated.start_value)
     @dlt.resource(write_disposition="append", primary_key="id", parallelized=True)
     def flows(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(updated.start_value), pendulum.now()
@@ -146,7 +206,12 @@ def klaviyo_source(api_key: str, start_date: TAnyDateTime) -> Iterable[DltResour
     @dlt.resource(write_disposition="append", primary_key="id", parallelized=True)
     def templates(
-        updated=dlt.sources.incremental("updated", start_date_obj.isoformat()),
+        updated=dlt.sources.incremental(
+            "updated",
+            start_date_obj.isoformat(),
+            range_end="closed",
+            range_start="closed",
+        ),
     ) -> Iterable[TDataItem]:
         intervals = split_date_range(
             pendulum.parse(updated.start_value), pendulum.now()

ingestr/src/shopify/__init__.py CHANGED Viewed

@@ -158,6 +158,8 @@ def shopify_source(
             initial_value=start_date_obj,
             end_value=end_date_obj,
             allow_external_schedulers=True,
+            range_end="closed",
+            range_start="closed",
         ),
         created_at_min: pendulum.DateTime = created_at_min_obj,
         items_per_page: int = items_per_page,
@@ -606,6 +608,8 @@ def shopify_source(
             initial_value=start_date_obj,
             end_value=end_date_obj,
             allow_external_schedulers=True,
+            range_end="closed",
+            range_start="closed",
         ),
         created_at_min: pendulum.DateTime = created_at_min_obj,
         items_per_page: int = items_per_page,
@@ -640,6 +644,8 @@ def shopify_source(
             initial_value=start_date_obj,
             end_value=end_date_obj,
             allow_external_schedulers=True,
+            range_end="closed",
+            range_start="closed",
         ),
         created_at_min: pendulum.DateTime = created_at_min_obj,
         items_per_page: int = items_per_page,
@@ -671,6 +677,8 @@ def shopify_source(
             "created_at",
             initial_value=start_date_obj,
             end_value=end_date_obj,
+            range_end="closed",
+            range_start="closed",
         ),
         items_per_page: int = items_per_page,
     ) -> Iterable[TDataItem]:
@@ -689,6 +697,8 @@ def shopify_source(
             "updated_at",
             initial_value=start_date_obj,
             end_value=end_date_obj,
+            range_end="closed",
+            range_start="closed",
         ),
         items_per_page: int = items_per_page,
     ) -> Iterable[TDataItem]:
@@ -730,6 +740,8 @@ def shopify_source(
             initial_value=start_date_obj,
             end_value=end_date_obj,
             allow_external_schedulers=True,
+            range_end="closed",
+            range_start="closed",
         ),
         items_per_page: int = items_per_page,
     ) -> Iterable[TDataItem]:
@@ -1807,6 +1819,8 @@ query discountNodes($after: String, $query: String, $first: Int)  {
             "updatedAt",
             initial_value=start_date_obj,
             end_value=end_date_obj,
+            range_end="closed",
+            range_start="closed",
         ),
         items_per_page: int = items_per_page,
     ) -> Iterable[TDataItem]:

ingestr/src/slack/__init__.py CHANGED Viewed

@@ -175,6 +175,8 @@ def slack_source(
             initial_value=start_dt,
             end_value=end_dt,
             allow_external_schedulers=True,
+            range_end="closed",
+            range_start="closed",
         ),
     ) -> Iterable[TDataItem]:
         """
@@ -198,6 +200,8 @@ def slack_source(
             initial_value=start_dt,
             end_value=end_dt,
             allow_external_schedulers=True,
+            range_end="closed",
+            range_start="closed",
         ),
     ) -> Iterable[TDataItem]:
         """Yield all messages for a given channel as a DLT resource. Keep blocks column without normalization.

ingestr/src/sources.py CHANGED Viewed

@@ -3,7 +3,7 @@ import csv
 import json
 import os
 import re
-from datetime import date, datetime
+from datetime import date, datetime, timedelta
 from typing import (
     Any,
     Callable,
@@ -46,10 +46,16 @@ from ingestr.src.adjust import REQUIRED_CUSTOM_DIMENSIONS, adjust_source
 from ingestr.src.adjust.adjust_helpers import parse_filters
 from ingestr.src.airtable import airtable_source
 from ingestr.src.appsflyer._init_ import appsflyer_source
+from ingestr.src.appstore import app_store
+from ingestr.src.appstore.client import AppStoreConnectClient
 from ingestr.src.arrow import memory_mapped_arrow
 from ingestr.src.asana_source import asana_source
 from ingestr.src.chess import source
 from ingestr.src.dynamodb import dynamodb
+from ingestr.src.errors import (
+    MissingValueError,
+    UnsupportedResourceError,
+)
 from ingestr.src.facebook_ads import facebook_ads_source, facebook_insights_source
 from ingestr.src.filesystem import readers
 from ingestr.src.filters import table_adapter_exclude_columns
@@ -240,6 +246,8 @@ class ArrowMemoryMappedSource:
                 kwargs.get("incremental_key", ""),
                 initial_value=start_value,
                 end_value=end_value,
+                range_end="closed",
+                range_start="closed",
             )
         file_path = uri.split("://")[1]
@@ -285,6 +293,8 @@ class MongoDbSource:
                 kwargs.get("incremental_key", ""),
                 initial_value=start_value,
                 end_value=end_value,
+                range_end="closed",
+                range_start="closed",
             )
         table_instance = self.table_builder(
@@ -353,6 +363,8 @@ class LocalCsvSource:
                 kwargs.get("incremental_key", ""),
                 initial_value=kwargs.get("interval_start"),
                 end_value=kwargs.get("interval_end"),
+                range_end="closed",
+                range_start="closed",
             )
         )
@@ -1311,6 +1323,8 @@ class DynamoDBSource:
                 incremental_key.strip(),
                 initial_value=isotime(kwargs.get("interval_start")),
                 end_value=isotime(kwargs.get("interval_end")),
+                range_end="closed",
+                range_start="closed",
             )
         return dynamodb(table, creds, incremental)
@@ -1336,11 +1350,6 @@ class GoogleAnalyticsSource:
         if not property_id:
             raise ValueError("property_id is required to connect to Google Analytics")
-        interval_start = kwargs.get("interval_start")
-        start_date = (
-            interval_start.strftime("%Y-%m-%d") if interval_start else "2015-08-14"
-        )
         fields = table.split(":")
         if len(fields) != 3:
             raise ValueError(
@@ -1364,10 +1373,19 @@ class GoogleAnalyticsSource:
             {"resource_name": "custom", "dimensions": dimensions, "metrics": metrics}
         ]
+        start_date = pendulum.now().subtract(days=30).start_of("day")
+        if kwargs.get("interval_start") is not None:
+            start_date = pendulum.instance(kwargs.get("interval_start"))  # type: ignore
+        end_date = pendulum.now()
+        if kwargs.get("interval_end") is not None:
+            end_date = pendulum.instance(kwargs.get("interval_end"))  # type: ignore
         return google_analytics(
             property_id=property_id[0],
             start_date=start_date,
-            datetime=datetime,
+            end_date=end_date,
+            datetime_dimension=datetime,
             queries=queries,
             credentials=credentials,
         ).with_resources("basic_report")
@@ -1398,9 +1416,7 @@ class GitHubSource:
                 "repo variable is required to retrieve data for a specific repository from GitHub."
             )
-        access_token = source_fields.get("access_token", [None])[0]
-        if not access_token and table not in ["repo_events"]:
-            raise ValueError("access_token is required to connect with GitHub")
+        access_token = source_fields.get("access_token", [""])[0]
         if table in ["issues", "pull_requests"]:
             return github_reactions(
@@ -1414,3 +1430,76 @@ class GitHubSource:
             raise ValueError(
                 f"Resource '{table}' is not supported for GitHub source yet, if you are interested in it please create a GitHub issue at https://github.com/bruin-data/ingestr"
             )
+class AppleAppStoreSource:
+    def handles_incrementality(self) -> bool:
+        return True
+    def init_client(
+        self,
+        key_id: str,
+        issuer_id: str,
+        key_path: Optional[List[str]],
+        key_base64: Optional[List[str]],
+    ):
+        key = None
+        if key_path is not None:
+            with open(key_path[0]) as f:
+                key = f.read()
+        else:
+            key = base64.b64decode(key_base64[0]).decode()  # type: ignore
+        return AppStoreConnectClient(key.encode(), key_id, issuer_id)
+    def dlt_source(self, uri: str, table: str, **kwargs):
+        if kwargs.get("incremental_key"):
+            raise ValueError(
+                "App Store takes care of incrementality on its own, you should not provide incremental_key"
+            )
+        parsed_uri = urlparse(uri)
+        params = parse_qs(parsed_uri.query)
+        key_id = params.get("key_id")
+        if key_id is None:
+            raise MissingValueError("key_id", "App Store")
+        key_path = params.get("key_path")
+        key_base64 = params.get("key_base64")
+        key_available = any(
+            map(
+                lambda x: x is not None,
+                [key_path, key_base64],
+            )
+        )
+        if key_available is False:
+            raise MissingValueError("key_path or key_base64", "App Store")
+        issuer_id = params.get("issuer_id")
+        if issuer_id is None:
+            raise MissingValueError("issuer_id", "App Store")
+        client = self.init_client(key_id[0], issuer_id[0], key_path, key_base64)
+        app_ids = params.get("app_id")
+        if ":" in table:
+            intended_table, app_ids_override = table.split(":", maxsplit=1)
+            app_ids = app_ids_override.split(",")
+            table = intended_table
+        if app_ids is None:
+            raise MissingValueError("app_id", "App Store")
+        src = app_store(
+            client,
+            app_ids,
+            start_date=kwargs.get(
+                "interval_start", datetime.now() - timedelta(days=30)
+            ),
+            end_date=kwargs.get("interval_end"),
+        )
+        if table not in src.resources:
+            raise UnsupportedResourceError(table, "AppStore")
+        return src.with_resources(table)

ingestr 0.12.5__py3-none-any.whl → 0.12.7__py3-none-any.whl

Potentially problematic release.

ingestr 0.12.5py3-none-any.whl → 0.12.7py3-none-any.whl