PyPI - deltacat - Versions diffs - 0.2.11__py3-none-any.whl → 1.0.1__py3-none-any.whl - Mend

deltacat 0.2.11py3-none-any.whl → 1.0.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

deltacat/__init__.py +1 -1
deltacat/aws/s3u.py +250 -111
deltacat/catalog/default_catalog_impl/__init__.py +369 -0
deltacat/compute/compactor_v2/compaction_session.py +175 -152
deltacat/compute/compactor_v2/model/hash_bucket_input.py +6 -0
deltacat/compute/compactor_v2/model/merge_file_group.py +213 -0
deltacat/compute/compactor_v2/model/merge_input.py +8 -24
deltacat/compute/compactor_v2/model/merge_result.py +1 -0
deltacat/compute/compactor_v2/steps/hash_bucket.py +4 -56
deltacat/compute/compactor_v2/steps/merge.py +106 -171
deltacat/compute/compactor_v2/utils/delta.py +97 -0
deltacat/compute/compactor_v2/utils/merge.py +126 -0
deltacat/compute/compactor_v2/utils/task_options.py +16 -4
deltacat/compute/merge_on_read/__init__.py +4 -0
deltacat/compute/merge_on_read/daft.py +40 -0
deltacat/compute/merge_on_read/model/__init__.py +0 -0
deltacat/compute/merge_on_read/model/merge_on_read_params.py +66 -0
deltacat/compute/merge_on_read/utils/__init__.py +0 -0
deltacat/compute/merge_on_read/utils/delta.py +42 -0
deltacat/storage/interface.py +10 -2
deltacat/storage/model/types.py +3 -11
deltacat/tests/catalog/__init__.py +0 -0
deltacat/tests/catalog/test_default_catalog_impl.py +98 -0
deltacat/tests/compute/compact_partition_test_cases.py +126 -1
deltacat/tests/compute/test_compact_partition_incremental.py +4 -1
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +9 -2
deltacat/tests/local_deltacat_storage/__init__.py +19 -2
deltacat/tests/test_utils/pyarrow.py +33 -14
deltacat/tests/utils/test_daft.py +42 -2
deltacat/types/media.py +5 -0
deltacat/types/tables.py +7 -1
deltacat/utils/daft.py +84 -14
{deltacat-0.2.11.dist-info → deltacat-1.0.1.dist-info}/METADATA +2 -2
{deltacat-0.2.11.dist-info → deltacat-1.0.1.dist-info}/RECORD +37 -25
{deltacat-0.2.11.dist-info → deltacat-1.0.1.dist-info}/LICENSE +0 -0
{deltacat-0.2.11.dist-info → deltacat-1.0.1.dist-info}/WHEEL +0 -0
{deltacat-0.2.11.dist-info → deltacat-1.0.1.dist-info}/top_level.txt +0 -0

deltacat/compute/compactor_v2/utils/merge.py ADDED Viewed

@@ -0,0 +1,126 @@
+import logging
+from deltacat.compute.compactor.model.compact_partition_params import (
+    CompactPartitionParams,
+)
+from deltacat.compute.compactor_v2.model.merge_file_group import (
+    LocalMergeFileGroupsProvider,
+)
+from deltacat.compute.compactor_v2.model.merge_input import MergeInput
+import pyarrow as pa
+from deltacat import logs
+from typing import List, Optional
+from deltacat.types.media import DELIMITED_TEXT_CONTENT_TYPES
+from deltacat.compute.compactor.model.materialize_result import MaterializeResult
+from deltacat.compute.compactor.model.pyarrow_write_result import PyArrowWriteResult
+from deltacat.compute.compactor import (
+    RoundCompletionInfo,
+    DeltaAnnotated,
+)
+from deltacat.types.tables import TABLE_CLASS_TO_SIZE_FUNC
+from deltacat.utils.performance import timed_invocation
+from deltacat.storage import (
+    Partition,
+)
+logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+def materialize(
+    input: MergeInput,
+    task_index: int,
+    compacted_tables: List[pa.Table],
+) -> MaterializeResult:
+    compacted_table = pa.concat_tables(compacted_tables)
+    if input.compacted_file_content_type in DELIMITED_TEXT_CONTENT_TYPES:
+        # TODO (rkenmi): Investigate if we still need to convert this table to pandas DataFrame
+        # TODO (pdames): compare performance to pandas-native materialize path
+        df = compacted_table.to_pandas(split_blocks=True, self_destruct=True)
+        compacted_table = df
+    delta, stage_delta_time = timed_invocation(
+        input.deltacat_storage.stage_delta,
+        compacted_table,
+        input.write_to_partition,
+        max_records_per_entry=input.max_records_per_output_file,
+        content_type=input.compacted_file_content_type,
+        s3_table_writer_kwargs=input.s3_table_writer_kwargs,
+        **input.deltacat_storage_kwargs,
+    )
+    compacted_table_size = TABLE_CLASS_TO_SIZE_FUNC[type(compacted_table)](
+        compacted_table
+    )
+    logger.debug(
+        f"Time taken for materialize task"
+        f" to upload {len(compacted_table)} records"
+        f" of size {compacted_table_size} is: {stage_delta_time}s"
+    )
+    manifest = delta.manifest
+    manifest_records = manifest.meta.record_count
+    assert manifest_records == len(compacted_table), (
+        f"Unexpected Error: Materialized delta manifest record count "
+        f"({manifest_records}) does not equal compacted table record count "
+        f"({len(compacted_table)})"
+    )
+    materialize_result = MaterializeResult.of(
+        delta=delta,
+        task_index=task_index,
+        # TODO (pdames): Generalize WriteResult to contain in-memory-table-type
+        #  and in-memory-table-bytes instead of tight coupling to paBytes
+        pyarrow_write_result=PyArrowWriteResult.of(
+            len(manifest.entries),
+            TABLE_CLASS_TO_SIZE_FUNC[type(compacted_table)](compacted_table),
+            manifest.meta.content_length,
+            len(compacted_table),
+        ),
+    )
+    logger.info(f"Materialize result: {materialize_result}")
+    return materialize_result
+def generate_local_merge_input(
+    params: CompactPartitionParams,
+    annotated_deltas: List[DeltaAnnotated],
+    compacted_partition: Partition,
+    round_completion_info: Optional[RoundCompletionInfo],
+):
+    """
+    Generates a merge input for local deltas that do not reside in the Ray object store and
+    have not been subject to the hash bucketing process.
+    Args:
+        params: parameters for compacting a partition
+        annotated_deltas: a list of annotated deltas
+        compacted_partition: the compacted partition to write to
+        round_completion_info: keeps track of high watermarks and other metadata from previous compaction rounds
+    Returns:
+        A MergeInput object
+    """
+    return MergeInput.of(
+        merge_file_groups_provider=LocalMergeFileGroupsProvider(
+            annotated_deltas,
+            read_kwargs_provider=params.read_kwargs_provider,
+            deltacat_storage=params.deltacat_storage,
+            deltacat_storage_kwargs=params.deltacat_storage_kwargs,
+        ),
+        write_to_partition=compacted_partition,
+        compacted_file_content_type=params.compacted_file_content_type,
+        primary_keys=params.primary_keys,
+        sort_keys=params.sort_keys,
+        drop_duplicates=params.drop_duplicates,
+        max_records_per_output_file=params.records_per_compacted_file,
+        enable_profiler=params.enable_profiler,
+        metrics_config=params.metrics_config,
+        s3_table_writer_kwargs=params.s3_table_writer_kwargs,
+        read_kwargs_provider=params.read_kwargs_provider,
+        round_completion_info=round_completion_info,
+        object_store=params.object_store,
+        deltacat_storage=params.deltacat_storage,
+        deltacat_storage_kwargs=params.deltacat_storage_kwargs,
+    )

deltacat/compute/compactor_v2/utils/task_options.py CHANGED Viewed

@@ -170,14 +170,24 @@ def hash_bucket_resource_options_provider(
             else:
                 total_pk_size += pk_size
-    # total size + pk size + pk hash column + hash bucket index column
+    # total size + pk size + pyarrow-to-numpy conversion + pk hash column + hashlib inefficiency + hash bucket index column
     # Refer to hash_bucket step for more details.
-    total_memory = size_bytes + total_pk_size + num_rows * 20 + num_rows * 4
+    total_memory = (
+        size_bytes
+        + total_pk_size
+        + total_pk_size
+        + num_rows * 20
+        + num_rows * 20
+        + num_rows * 4
+    )
     debug_memory_params["size_bytes"] = size_bytes
     debug_memory_params["num_rows"] = num_rows
     debug_memory_params["total_pk_size"] = total_pk_size
     debug_memory_params["total_memory"] = total_memory
+    debug_memory_params["previous_inflation"] = previous_inflation
+    debug_memory_params["average_record_size_bytes"] = average_record_size_bytes
     # Consider buffer
     total_memory = total_memory * (1 + TOTAL_MEMORY_BUFFER_PERCENTAGE / 100.0)
     debug_memory_params["total_memory_with_buffer"] = total_memory
@@ -269,11 +279,13 @@ def merge_resource_options_provider(
                     else:
                         pk_size_bytes += pk_size
-    # total data downloaded + primary key hash column + primary key column
-    # + dict size for merge + incremental index array size
+    # total data downloaded + primary key hash column + pyarrow-to-numpy conversion
+    # + primary key column + hashlib inefficiency + dict size for merge + incremental index array size
     total_memory = (
         data_size
         + pk_size_bytes
+        + pk_size_bytes
+        + num_rows * 20
         + num_rows * 20
         + num_rows * 20
         + incremental_index_array_size

deltacat/compute/merge_on_read/__init__.py ADDED Viewed

@@ -0,0 +1,4 @@
+from deltacat.types.media import DistributedDatasetType
+from deltacat.compute.merge_on_read.daft import merge as daft_merge
+MERGE_FUNC_BY_DISTRIBUTED_DATASET_TYPE = {DistributedDatasetType.DAFT.value: daft_merge}

deltacat/compute/merge_on_read/daft.py ADDED Viewed

@@ -0,0 +1,40 @@
+import logging
+from deltacat.compute.merge_on_read.model.merge_on_read_params import MergeOnReadParams
+from deltacat.storage.model.types import DistributedDataset
+from deltacat.types.media import TableType, DistributedDatasetType
+from deltacat.compute.merge_on_read.utils.delta import create_df_from_all_deltas
+from deltacat import logs
+logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+def merge(params: MergeOnReadParams, **kwargs) -> DistributedDataset:
+    """
+    Merges the given deltas and returns the result as distributed dataframe.
+    It reads the deltas into the Daft dataframe and leverages operations supported
+    by Daft to perform an efficient merge using Ray cluster.
+    TODO(raghumdani): Perform actual merge.
+    """
+    delta_dfs = create_df_from_all_deltas(
+        deltas=params.deltas,
+        table_type=TableType.PYARROW,
+        distributed_dataset_type=DistributedDatasetType.DAFT,
+        reader_kwargs=params.reader_kwargs,
+        deltacat_storage=params.deltacat_storage,
+        deltacat_storage_kwargs=params.deltacat_storage_kwargs,
+        **kwargs,
+    )
+    logger.info(f"Merging {len(delta_dfs)} delta dfs...")
+    # TODO: This code should be optimized from daft side
+    result = None
+    for df in delta_dfs:
+        if result is None:
+            result = df
+        else:
+            result = result.concat(df)
+    return result

deltacat/compute/merge_on_read/model/__init__.py ADDED Viewed

File without changes

deltacat/compute/merge_on_read/model/merge_on_read_params.py ADDED Viewed

@@ -0,0 +1,66 @@
+from __future__ import annotations
+from typing import Optional, Dict, List, Union, Any
+from deltacat.storage import (
+    Delta,
+    DeltaLocator,
+    interface as unimplemented_deltacat_storage,
+)
+class MergeOnReadParams(dict):
+    """
+    This class represents the parameters passed to compact_partition (deltacat/compute/compactor/compaction_session.py)
+    """
+    @staticmethod
+    def of(params: Optional[Dict]) -> MergeOnReadParams:
+        params = {} if params is None else params
+        result = MergeOnReadParams(params)
+        assert result.deltas is not None, "deltas is a required arg"
+        result.deltacat_storage = params.get(
+            "deltacat_storage", unimplemented_deltacat_storage
+        )
+        result.reader_kwargs = params.get("reader_kwargs", {})
+        result.deltacat_storage_kwargs = params.get("deltacat_storage_kwargs", {})
+        return result
+    @property
+    def deltas(self) -> List[Union[Delta, DeltaLocator]]:
+        """
+        The list of deltas to compact in-memory.
+        """
+        return self["deltas"]
+    @deltas.setter
+    def deltas(self, to_set: List[Union[Delta, DeltaLocator]]) -> None:
+        self["deltas"] = to_set
+    @property
+    def reader_kwargs(self) -> Dict[Any, Any]:
+        """
+        The key word arguments to be passed to the reader.
+        """
+        return self["reader_kwargs"]
+    @reader_kwargs.setter
+    def reader_kwargs(self, kwargs: Dict[Any, Any]) -> None:
+        self["reader_kwargs"] = kwargs
+    @property
+    def deltacat_storage(self) -> unimplemented_deltacat_storage:
+        return self["deltacat_storage"]
+    @deltacat_storage.setter
+    def deltacat_storage(self, storage: unimplemented_deltacat_storage) -> None:
+        self["deltacat_storage"] = storage
+    @property
+    def deltacat_storage_kwargs(self) -> dict:
+        return self["deltacat_storage_kwargs"]
+    @deltacat_storage_kwargs.setter
+    def deltacat_storage_kwargs(self, kwargs: dict) -> None:
+        self["deltacat_storage_kwargs"] = kwargs

deltacat/compute/merge_on_read/utils/__init__.py ADDED Viewed

File without changes

deltacat/compute/merge_on_read/utils/delta.py ADDED Viewed

@@ -0,0 +1,42 @@
+from typing import List, Dict, Any, Optional, Union
+from deltacat.storage.model.delta import Delta, DeltaLocator
+from deltacat.storage.model.types import DistributedDataset
+from deltacat.storage import (
+    interface as unimplemented_deltacat_storage,
+)
+from deltacat.types.media import TableType, StorageType, DistributedDatasetType
+def create_df_from_all_deltas(
+    deltas: List[Union[Delta, DeltaLocator]],
+    table_type: TableType,
+    distributed_dataset_type: DistributedDatasetType,
+    reader_kwargs: Optional[Dict[Any, Any]] = None,
+    deltacat_storage=unimplemented_deltacat_storage,
+    deltacat_storage_kwargs: Optional[Dict[Any, Any]] = None,
+    *args,
+    **kwargs
+) -> List[DistributedDataset]:  # type: ignore
+    """
+    This method creates a distributed dataset for each delta and returns their references.
+    """
+    if reader_kwargs is None:
+        reader_kwargs = {}
+    if deltacat_storage_kwargs is None:
+        deltacat_storage_kwargs = {}
+    df_list = []
+    for delta in deltas:
+        df = deltacat_storage.download_delta(
+            delta_like=delta,
+            table_type=table_type,
+            distributed_dataset_type=distributed_dataset_type,
+            storage_type=StorageType.DISTRIBUTED,
+            **reader_kwargs,
+            **deltacat_storage_kwargs
+        )
+        df_list.append(df)
+    return df_list

deltacat/storage/interface.py CHANGED Viewed

@@ -23,7 +23,12 @@ from deltacat.storage import (
     SortKey,
     PartitionLocator,
 )
-from deltacat.types.media import ContentType, StorageType, TableType
+from deltacat.types.media import (
+    ContentType,
+    StorageType,
+    TableType,
+    DistributedDatasetType,
+)
 from deltacat.utils.common import ReadKwargsProvider
@@ -178,9 +183,10 @@ def download_delta(
     columns: Optional[List[str]] = None,
     file_reader_kwargs_provider: Optional[ReadKwargsProvider] = None,
     ray_options_provider: Callable[[int, Any], Dict[str, Any]] = None,
+    distributed_dataset_type: DistributedDatasetType = DistributedDatasetType.RAY_DATASET,
     *args,
     **kwargs
-) -> Union[LocalDataset, DistributedDataset]:
+) -> Union[LocalDataset, DistributedDataset]:  # type: ignore
     """
     Download the given delta or delta locator into either a list of
     tables resident in the local node's memory, or into a dataset distributed
@@ -205,6 +211,8 @@ def download_delta_manifest_entry(
     given delta or delta locator. If a delta is provided with a non-empty
     manifest, then the entry is downloaded from this manifest. Otherwise, the
     manifest is first retrieved then the given entry index downloaded.
+    NOTE: The entry will be downloaded in the current node's memory.
     """
     raise NotImplementedError("download_delta_manifest_entry not implemented")

deltacat/storage/model/types.py CHANGED Viewed

@@ -1,24 +1,16 @@
 from enum import Enum
-from typing import List, Union, Any
+from typing import List, Union
 from pyarrow.parquet import ParquetFile
 import numpy as np
 import pandas as pd
 import pyarrow as pa
-import pkg_resources
-from ray.data._internal.arrow_block import ArrowRow
 from ray.data.dataset import Dataset
+from daft import DataFrame as DaftDataFrame
 LocalTable = Union[pa.Table, pd.DataFrame, np.ndarray, ParquetFile]
 LocalDataset = List[LocalTable]
-# Starting Ray 2.5.0, Dataset follows a strict mode (https://docs.ray.io/en/latest/data/faq.html#migrating-to-strict-mode),
-# and generic annotation is removed. So add a version checker to determine whether to use the old or new definition.
-ray_version = pkg_resources.parse_version(pkg_resources.get_distribution("ray").version)
-change_version = pkg_resources.parse_version("2.5.0")
-if ray_version < change_version:
-    DistributedDataset = Dataset[Union[ArrowRow, np.ndarray, Any]]
-else:
-    DistributedDataset = Dataset
+DistributedDataset = Union[Dataset, DaftDataFrame]
 class DeltaType(str, Enum):

deltacat/tests/catalog/__init__.py ADDED Viewed

File without changes

deltacat/tests/catalog/test_default_catalog_impl.py ADDED Viewed

@@ -0,0 +1,98 @@
+import unittest
+import sqlite3
+import ray
+import os
+import deltacat.tests.local_deltacat_storage as ds
+from deltacat.utils.common import current_time_ms
+from deltacat.tests.test_utils.pyarrow import (
+    create_delta_from_csv_file,
+    commit_delta_to_partition,
+)
+from deltacat.types.media import DistributedDatasetType, ContentType
+from deltacat.catalog import default_catalog_impl as dc
+class TestReadTable(unittest.TestCase):
+    READ_TABLE_NAMESPACE = "catalog_read_table_namespace"
+    LOCAL_CATALOG_NAME = "local_catalog"
+    DB_FILE_PATH = f"{current_time_ms()}.db"
+    SAMPLE_FILE_PATH = "deltacat/tests/catalog/data/sample_table.csv"
+    @classmethod
+    def setUpClass(cls):
+        ray.init(local_mode=True, ignore_reinit_error=True)
+        con = sqlite3.connect(cls.DB_FILE_PATH)
+        cur = con.cursor()
+        cls.kwargs = {
+            ds.SQLITE_CON_ARG: con,
+            ds.SQLITE_CUR_ARG: cur,
+            "supported_content_types": [ContentType.CSV],
+        }
+        cls.deltacat_storage_kwargs = {ds.DB_FILE_PATH_ARG: cls.DB_FILE_PATH}
+        super().setUpClass()
+    @classmethod
+    def doClassCleanups(cls) -> None:
+        os.remove(cls.DB_FILE_PATH)
+    def test_daft_distributed_read_sanity(self):
+        # setup
+        READ_TABLE_TABLE_NAME = "test_read_table"
+        create_delta_from_csv_file(
+            self.READ_TABLE_NAMESPACE,
+            [self.SAMPLE_FILE_PATH],
+            table_name=READ_TABLE_TABLE_NAME,
+            **self.kwargs,
+        )
+        dc.initialize(ds=ds)
+        df = dc.read_table(
+            table=READ_TABLE_TABLE_NAME,
+            namespace=self.READ_TABLE_NAMESPACE,
+            catalog=self.LOCAL_CATALOG_NAME,
+            distributed_dataset_type=DistributedDatasetType.DAFT,
+            deltacat_storage_kwargs=self.kwargs,
+        )
+        # verify
+        self.assertEqual(df.count_rows(), 6)
+        self.assertEqual(df.column_names, ["pk", "value"])
+    def test_daft_distributed_read_multiple_deltas(self):
+        # setup
+        READ_TABLE_TABLE_NAME = "test_read_table_2"
+        delta = create_delta_from_csv_file(
+            self.READ_TABLE_NAMESPACE,
+            [self.SAMPLE_FILE_PATH],
+            table_name=READ_TABLE_TABLE_NAME,
+            **self.kwargs,
+        )
+        partition = ds.get_partition(
+            delta.stream_locator, delta.partition_values, **self.kwargs
+        )
+        commit_delta_to_partition(
+            partition=partition, file_paths=[self.SAMPLE_FILE_PATH], **self.kwargs
+        )
+        # action
+        dc.initialize(ds=ds)
+        df = dc.read_table(
+            table=READ_TABLE_TABLE_NAME,
+            namespace=self.READ_TABLE_NAMESPACE,
+            catalog=self.LOCAL_CATALOG_NAME,
+            distributed_dataset_type=DistributedDatasetType.DAFT,
+            merge_on_read=False,
+            deltacat_storage_kwargs=self.kwargs,
+        )
+        # verify
+        self.assertEqual(
+            df.count_rows(),
+            12,
+            "we expect twice as many" " columns as merge on read is disabled",
+        )
+        self.assertEqual(df.column_names, ["pk", "value"])

deltacat/tests/compute/compact_partition_test_cases.py CHANGED Viewed

@@ -442,6 +442,33 @@ INCREMENTAL_TEST_CASES: Dict[str, IncrementalCompactionTestCaseParams] = {
         drop_duplicates=True,
         skip_enabled_compact_partition_drivers=None,
     ),
+    "12-incremental-decimal-single-hash-bucket": IncrementalCompactionTestCaseParams(
+        primary_keys={"pk_col_1"},
+        sort_keys=[SortKey.of(key_name="sk_col_1")],
+        partition_keys=ZERO_VALUED_PARTITION_KEYS_PARAM,
+        partition_values=ZERO_VALUED_PARTITION_VALUES_PARAM,
+        input_deltas=pa.Table.from_arrays(
+            [
+                pa.array([0.1] * 4 + [0.2] * 4 + [0.3] * 4 + [0.4] * 4 + [0.5] * 4),
+                pa.array([i for i in range(20)]),
+            ],
+            names=["pk_col_1", "sk_col_1"],
+        ),
+        input_deltas_delta_type=DeltaType.UPSERT,
+        expected_terminal_compact_partition_result=pa.Table.from_arrays(
+            [
+                pa.array([0.1, 0.2, 0.3, 0.4, 0.5]),
+                pa.array([3, 7, 11, 15, 19]),
+            ],
+            names=["pk_col_1", "sk_col_1"],
+        ),
+        do_create_placement_group=False,
+        records_per_compacted_file=DEFAULT_MAX_RECORDS_PER_FILE,
+        hash_bucket_count=1,
+        read_kwargs_provider=None,
+        drop_duplicates=True,
+        skip_enabled_compact_partition_drivers=None,
+    ),
 }
 REBASE_THEN_INCREMENTAL_TEST_CASES = {
@@ -1091,6 +1118,104 @@ REBASE_THEN_INCREMENTAL_TEST_CASES = {
         skip_enabled_compact_partition_drivers=[CompactorVersion.V1],
     ),
     "14-rebase-then-empty-incremental-delta": RebaseThenIncrementalCompactionTestCaseParams(
+        primary_keys={"pk_col_1"},
+        sort_keys=[
+            SortKey.of(key_name="sk_col_1"),
+            SortKey.of(key_name="sk_col_2"),
+        ],
+        partition_keys=[PartitionKey.of("region_id", PartitionKeyType.INT)],
+        partition_values=["1"],
+        input_deltas=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(0, 10)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(10, 20)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        input_deltas_delta_type=DeltaType.UPSERT,
+        rebase_expected_compact_partition_result=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(0, 10)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(10, 20)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        incremental_deltas=None,
+        incremental_deltas_delta_type=DeltaType.UPSERT,
+        expected_terminal_compact_partition_result=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(0, 10)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(10, 20)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        do_create_placement_group=False,
+        records_per_compacted_file=DEFAULT_MAX_RECORDS_PER_FILE,
+        hash_bucket_count=3,
+        read_kwargs_provider=None,
+        drop_duplicates=True,
+        skip_enabled_compact_partition_drivers=None,
+    ),
+    "15-rebase-then-incremental-hash-bucket-single": RebaseThenIncrementalCompactionTestCaseParams(
+        primary_keys={"pk_col_1"},
+        sort_keys=[
+            SortKey.of(key_name="sk_col_1"),
+            SortKey.of(key_name="sk_col_2"),
+        ],
+        partition_keys=[PartitionKey.of("region_id", PartitionKeyType.INT)],
+        partition_values=["1"],
+        input_deltas=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(0, 10)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(10, 20)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        input_deltas_delta_type=DeltaType.UPSERT,
+        rebase_expected_compact_partition_result=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(0, 10)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(10, 20)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        incremental_deltas=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(20, 30)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(40, 50)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        incremental_deltas_delta_type=DeltaType.UPSERT,
+        expected_terminal_compact_partition_result=pa.Table.from_arrays(
+            [
+                pa.array([str(i) for i in range(10)]),
+                pa.array([i for i in range(20, 30)]),
+                pa.array(["foo"] * 10),
+                pa.array([i / 10 for i in range(40, 50)]),
+            ],
+            names=["pk_col_1", "sk_col_1", "sk_col_2", "col_1"],
+        ),
+        do_create_placement_group=False,
+        records_per_compacted_file=DEFAULT_MAX_RECORDS_PER_FILE,
+        hash_bucket_count=1,
+        read_kwargs_provider=None,
+        drop_duplicates=True,
+        skip_enabled_compact_partition_drivers=None,
+    ),
+    "16-rebase-then-empty-incremental-delta-hash-bucket-single": RebaseThenIncrementalCompactionTestCaseParams(
         primary_keys={"pk_col_1"},
         sort_keys=[
             SortKey.of(key_name="sk_col_1"),
@@ -1137,9 +1262,9 @@ REBASE_THEN_INCREMENTAL_TEST_CASES = {
     ),
 }
 INCREMENTAL_TEST_CASES = with_compactor_version_func_test_param(INCREMENTAL_TEST_CASES)
 REBASE_THEN_INCREMENTAL_TEST_CASES = with_compactor_version_func_test_param(
     REBASE_THEN_INCREMENTAL_TEST_CASES
 )

deltacat/tests/compute/test_compact_partition_incremental.py CHANGED Viewed

@@ -7,6 +7,7 @@ from typing import Any, Callable, Dict, List, Optional, Set
 from boto3.resources.base import ServiceResource
 import pyarrow as pa
 from pytest_benchmark.fixture import BenchmarkFixture
+from deltacat.types.media import StorageType
 from deltacat.tests.compute.test_util_common import (
     get_rcf,
@@ -269,7 +270,9 @@ def test_compact_partition_incremental(
         **compaction_audit_obj
     )
-    tables = ds.download_delta(compacted_delta_locator, **ds_mock_kwargs)
+    tables = ds.download_delta(
+        compacted_delta_locator, storage_type=StorageType.LOCAL, **ds_mock_kwargs
+    )
     actual_compacted_table = pa.concat_tables(tables)
     sorting_cols: List[Any] = [(val, "ascending") for val in primary_keys]
     # the compacted table may contain multiple files and chunks

deltacat 0.2.11__py3-none-any.whl → 1.0.1__py3-none-any.whl

deltacat 0.2.11py3-none-any.whl → 1.0.1py3-none-any.whl