PyPI - deltacat - Versions diffs - 2.0.0b11__py3-none-any.whl → 2.0.0b12__py3-none-any.whl - Mend

deltacat 2.0.0b11py3-none-any.whl → 2.0.0b12py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (194) hide show

deltacat/__init__.py +78 -3
deltacat/api.py +122 -67
deltacat/aws/constants.py +0 -23
deltacat/aws/s3u.py +4 -631
deltacat/benchmarking/conftest.py +0 -18
deltacat/catalog/__init__.py +2 -0
deltacat/catalog/delegate.py +445 -63
deltacat/catalog/interface.py +188 -62
deltacat/catalog/main/impl.py +2417 -271
deltacat/catalog/model/catalog.py +49 -10
deltacat/catalog/model/properties.py +38 -0
deltacat/compute/compactor/compaction_session.py +97 -75
deltacat/compute/compactor/model/compact_partition_params.py +75 -30
deltacat/compute/compactor/model/compaction_session_audit_info.py +17 -0
deltacat/compute/compactor/model/round_completion_info.py +16 -6
deltacat/compute/compactor/repartition_session.py +8 -21
deltacat/compute/compactor/steps/hash_bucket.py +5 -5
deltacat/compute/compactor/steps/materialize.py +9 -7
deltacat/compute/compactor/steps/repartition.py +12 -11
deltacat/compute/compactor/utils/io.py +6 -5
deltacat/compute/compactor/utils/round_completion_reader.py +117 -0
deltacat/compute/compactor/utils/system_columns.py +3 -1
deltacat/compute/compactor_v2/compaction_session.py +17 -14
deltacat/compute/compactor_v2/constants.py +30 -1
deltacat/compute/compactor_v2/model/evaluate_compaction_result.py +0 -1
deltacat/compute/compactor_v2/model/hash_bucket_input.py +9 -3
deltacat/compute/compactor_v2/model/merge_file_group.py +5 -2
deltacat/compute/compactor_v2/model/merge_input.py +33 -8
deltacat/compute/compactor_v2/private/compaction_utils.py +167 -68
deltacat/compute/compactor_v2/steps/hash_bucket.py +5 -2
deltacat/compute/compactor_v2/steps/merge.py +267 -55
deltacat/compute/compactor_v2/utils/content_type_params.py +34 -6
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/delta.py +5 -3
deltacat/compute/compactor_v2/utils/io.py +11 -4
deltacat/compute/compactor_v2/utils/merge.py +15 -2
deltacat/compute/compactor_v2/utils/primary_key_index.py +28 -4
deltacat/compute/compactor_v2/utils/task_options.py +45 -33
deltacat/compute/converter/converter_session.py +145 -32
deltacat/compute/converter/model/convert_input.py +26 -19
deltacat/compute/converter/model/convert_input_files.py +33 -16
deltacat/compute/converter/model/convert_result.py +35 -16
deltacat/compute/converter/model/converter_session_params.py +24 -21
deltacat/compute/converter/pyiceberg/catalog.py +21 -18
deltacat/compute/converter/pyiceberg/overrides.py +18 -9
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +148 -100
deltacat/compute/converter/steps/convert.py +157 -50
deltacat/compute/converter/steps/dedupe.py +24 -11
deltacat/compute/converter/utils/convert_task_options.py +27 -12
deltacat/compute/converter/utils/converter_session_utils.py +126 -60
deltacat/compute/converter/utils/iceberg_columns.py +8 -8
deltacat/compute/converter/utils/io.py +101 -12
deltacat/compute/converter/utils/s3u.py +33 -27
deltacat/compute/janitor.py +205 -0
deltacat/compute/jobs/client.py +19 -8
deltacat/compute/resource_estimation/delta.py +38 -6
deltacat/compute/resource_estimation/model.py +8 -0
deltacat/constants.py +44 -0
deltacat/docs/autogen/schema/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/generate_type_mappings.py +687 -0
deltacat/docs/autogen/schema/inference/parse_json_type_mappings.py +673 -0
deltacat/examples/compactor/__init__.py +0 -0
deltacat/examples/compactor/aws/__init__.py +1 -0
deltacat/examples/compactor/bootstrap.py +863 -0
deltacat/examples/compactor/compactor.py +373 -0
deltacat/examples/compactor/explorer.py +473 -0
deltacat/examples/compactor/gcp/__init__.py +1 -0
deltacat/examples/compactor/job_runner.py +439 -0
deltacat/examples/compactor/utils/__init__.py +1 -0
deltacat/examples/compactor/utils/common.py +261 -0
deltacat/examples/experimental/iceberg/converter/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/app.py +226 -0
deltacat/examples/experimental/iceberg/converter/beam/main.py +133 -0
deltacat/examples/experimental/iceberg/converter/beam/test_workflow.py +113 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/__init__.py +3 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/common.py +174 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py +263 -0
deltacat/exceptions.py +66 -4
deltacat/experimental/catalog/iceberg/impl.py +2 -2
deltacat/experimental/compatibility/__init__.py +0 -0
deltacat/experimental/compatibility/backfill_locator_to_id_mappings.py +201 -0
deltacat/experimental/converter_agent/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/managed.py +173 -0
deltacat/experimental/converter_agent/table_monitor.py +479 -0
deltacat/experimental/storage/iceberg/iceberg_scan_planner.py +105 -4
deltacat/experimental/storage/iceberg/impl.py +5 -3
deltacat/experimental/storage/iceberg/model.py +7 -3
deltacat/experimental/storage/iceberg/visitor.py +119 -0
deltacat/experimental/storage/rivulet/dataset.py +0 -3
deltacat/experimental/storage/rivulet/metastore/delta.py +0 -2
deltacat/experimental/storage/rivulet/reader/dataset_metastore.py +3 -2
deltacat/io/datasource/deltacat_datasource.py +0 -1
deltacat/storage/__init__.py +20 -2
deltacat/storage/interface.py +54 -32
deltacat/storage/main/impl.py +1494 -541
deltacat/storage/model/delta.py +27 -3
deltacat/storage/model/locator.py +6 -12
deltacat/storage/model/manifest.py +182 -6
deltacat/storage/model/metafile.py +151 -78
deltacat/storage/model/namespace.py +8 -1
deltacat/storage/model/partition.py +117 -42
deltacat/storage/model/schema.py +2427 -159
deltacat/storage/model/sort_key.py +40 -0
deltacat/storage/model/stream.py +9 -2
deltacat/storage/model/table.py +12 -1
deltacat/storage/model/table_version.py +11 -0
deltacat/storage/model/transaction.py +1184 -208
deltacat/storage/model/transform.py +81 -2
deltacat/storage/model/types.py +48 -26
deltacat/tests/_io/test_cloudpickle_bug_fix.py +8 -4
deltacat/tests/aws/test_s3u.py +2 -31
deltacat/tests/catalog/main/test_catalog_impl_table_operations.py +1606 -70
deltacat/tests/catalog/test_catalogs.py +54 -11
deltacat/tests/catalog/test_default_catalog_impl.py +12152 -71
deltacat/tests/compute/compact_partition_test_cases.py +35 -8
deltacat/tests/compute/compactor/steps/test_repartition.py +12 -12
deltacat/tests/compute/compactor/utils/test_io.py +124 -120
deltacat/tests/compute/compactor/utils/test_round_completion_reader.py +254 -0
deltacat/tests/compute/compactor_v2/test_compaction_session.py +423 -312
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +266 -0
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +45 -0
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +270 -1
deltacat/tests/compute/conftest.py +8 -44
deltacat/tests/compute/converter/test_convert_session.py +675 -490
deltacat/tests/compute/converter/utils.py +15 -6
deltacat/tests/compute/resource_estimation/test_delta.py +145 -79
deltacat/tests/compute/test_compact_partition_incremental.py +103 -70
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +89 -66
deltacat/tests/compute/test_compact_partition_params.py +13 -8
deltacat/tests/compute/test_compact_partition_rebase.py +77 -62
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +263 -193
deltacat/tests/compute/test_janitor.py +236 -0
deltacat/tests/compute/test_util_common.py +716 -43
deltacat/tests/compute/test_util_constant.py +0 -1
deltacat/tests/{storage/conftest.py → conftest.py} +1 -1
deltacat/tests/experimental/__init__.py +1 -0
deltacat/tests/experimental/compatibility/__init__.py +1 -0
deltacat/tests/experimental/compatibility/test_backfill_locator_to_id_mappings.py +582 -0
deltacat/tests/storage/main/test_main_storage.py +6900 -95
deltacat/tests/storage/model/test_metafile_io.py +78 -173
deltacat/tests/storage/model/test_partition_scheme.py +85 -0
deltacat/tests/storage/model/test_schema.py +171 -0
deltacat/tests/storage/model/test_schema_update.py +1925 -0
deltacat/tests/storage/model/test_sort_scheme.py +90 -0
deltacat/tests/storage/model/test_transaction.py +393 -48
deltacat/tests/storage/model/test_transaction_history.py +886 -0
deltacat/tests/test_deltacat_api.py +988 -4
deltacat/tests/test_exceptions.py +9 -5
deltacat/tests/test_utils/pyarrow.py +52 -21
deltacat/tests/test_utils/storage.py +23 -34
deltacat/tests/types/__init__.py +0 -0
deltacat/tests/types/test_tables.py +104 -0
deltacat/tests/utils/exceptions.py +22 -0
deltacat/tests/utils/main_deltacat_storage_mock.py +31 -0
deltacat/tests/utils/ray_utils/test_dataset.py +123 -5
deltacat/tests/utils/test_daft.py +121 -31
deltacat/tests/utils/test_numpy.py +1193 -0
deltacat/tests/utils/test_pandas.py +1106 -0
deltacat/tests/utils/test_polars.py +1040 -0
deltacat/tests/utils/test_pyarrow.py +1370 -89
deltacat/types/media.py +221 -11
deltacat/types/tables.py +2329 -59
deltacat/utils/arguments.py +33 -1
deltacat/utils/daft.py +411 -150
deltacat/utils/filesystem.py +100 -0
deltacat/utils/metafile_locator.py +2 -1
deltacat/utils/numpy.py +118 -26
deltacat/utils/pandas.py +577 -48
deltacat/utils/polars.py +658 -27
deltacat/utils/pyarrow.py +1258 -213
deltacat/utils/ray_utils/dataset.py +101 -10
deltacat/utils/reader_compatibility_mapping.py +3083 -0
deltacat/utils/url.py +56 -15
deltacat-2.0.0b12.dist-info/METADATA +1163 -0
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info}/RECORD +183 -145
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info}/WHEEL +1 -1
deltacat/compute/compactor/utils/round_completion_file.py +0 -97
deltacat/compute/merge_on_read/__init__.py +0 -4
deltacat/compute/merge_on_read/daft.py +0 -40
deltacat/compute/merge_on_read/model/merge_on_read_params.py +0 -66
deltacat/compute/merge_on_read/utils/delta.py +0 -42
deltacat/tests/compute/compactor/utils/test_round_completion_file.py +0 -231
deltacat/tests/compute/test_util_create_table_deltas_repo.py +0 -388
deltacat/tests/local_deltacat_storage/__init__.py +0 -1236
deltacat/tests/local_deltacat_storage/exceptions.py +0 -10
deltacat/utils/s3fs.py +0 -21
deltacat-2.0.0b11.dist-info/METADATA +0 -67
/deltacat/{compute/merge_on_read/model → docs}/__init__.py +0 -0
/deltacat/{compute/merge_on_read/utils → docs/autogen}/__init__.py +0 -0
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info/licenses}/LICENSE +0 -0
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info}/top_level.txt +0 -0

deltacat/compute/compactor_v2/utils/io.py CHANGED Viewed

@@ -3,7 +3,7 @@ import functools
 from deltacat.storage import (
     PartitionLocator,
     Delta,
-    interface as unimplemented_deltacat_storage,
+    metastore,
 )
 from deltacat import logs
 from deltacat.compute.compactor.utils import io as io_v1
@@ -38,7 +38,7 @@ def discover_deltas(
     rebase_source_partition_locator: Optional[PartitionLocator] = None,
     rebase_source_partition_high_watermark: Optional[int] = None,
     rcf_high_watermark: Optional[int] = None,
-    deltacat_storage=unimplemented_deltacat_storage,
+    deltacat_storage=metastore,
     deltacat_storage_kwargs: Optional[Dict[str, Any]] = {},
     list_deltas_kwargs: Optional[Dict[str, Any]] = {},
 ) -> List[Delta]:
@@ -67,6 +67,11 @@ def discover_deltas(
         f"Length of input deltas from delta source table is {len(delta_source_incremental_deltas)}"
         f" from ({previous_compacted_high_watermark}, {last_stream_position_to_compact}]"
     )
+    logger.info(f"DEBUG: source_partition_locator = {source_partition_locator}")
+    logger.info(
+        f"DEBUG: source_partition_locator.partition_id = {getattr(source_partition_locator, 'partition_id', 'NO_PARTITION_ID')}"
+    )
+    logger.info(f"DEBUG: total input deltas found = {len(result)}")
     if rebase_source_partition_locator:
         previous_compacted_deltas = io_v1._discover_deltas(
@@ -93,7 +98,8 @@ def create_uniform_input_deltas(
     hash_bucket_count: int,
     compaction_audit: CompactionSessionAuditInfo,
     compact_partition_params: CompactPartitionParams,
-    deltacat_storage=unimplemented_deltacat_storage,
+    all_column_names: List[str],
+    deltacat_storage=metastore,
     deltacat_storage_kwargs: Optional[Dict[str, Any]] = {},
 ) -> List[DeltaAnnotated]:
@@ -101,7 +107,6 @@ def create_uniform_input_deltas(
     delta_manifest_entries_count = 0
     estimated_da_bytes = 0
     input_da_list = []
     for delta in input_deltas:
         if (
             compact_partition_params.enable_input_split
@@ -114,10 +119,12 @@ def create_uniform_input_deltas(
             )
             append_content_type_params(
                 delta=delta,
+                all_column_names=all_column_names,
                 deltacat_storage=deltacat_storage,
                 deltacat_storage_kwargs=deltacat_storage_kwargs,
                 task_max_parallelism=compact_partition_params.task_max_parallelism,
                 max_parquet_meta_size_bytes=compact_partition_params.max_parquet_meta_size_bytes,
+                file_reader_kwargs_provider=compact_partition_params.read_kwargs_provider,
             )
         manifest_entries = delta.manifest.entries

deltacat/compute/compactor_v2/utils/merge.py CHANGED Viewed

@@ -23,6 +23,7 @@ from deltacat.types.tables import TABLE_CLASS_TO_SIZE_FUNC
 from deltacat.utils.performance import timed_invocation
 from deltacat.storage import (
+    DeltaType,
     Partition,
 )
 from deltacat.compute.compactor_v2.deletes.delete_strategy import (
@@ -47,13 +48,21 @@ def materialize(
         # TODO (pdames): compare performance to pandas-native materialize path
         df = compacted_table.to_pandas(split_blocks=True, self_destruct=True)
         compacted_table = df
+    # Extract schema from table_writer_kwargs to pass as direct parameter
+    # This ensures schema_id is properly set in the manifest
+    schema = None
+    if input.table_writer_kwargs and "schema" in input.table_writer_kwargs:
+        schema = input.table_writer_kwargs["schema"]
     delta, stage_delta_time = timed_invocation(
         input.deltacat_storage.stage_delta,
         compacted_table,
         input.write_to_partition,
+        delta_type=DeltaType.APPEND,  # Compaction always produces APPEND deltas
         max_records_per_entry=input.max_records_per_output_file,
         content_type=input.compacted_file_content_type,
-        s3_table_writer_kwargs=input.s3_table_writer_kwargs,
+        schema=schema,  # Pass schema as direct parameter for schema_id extraction
+        table_writer_kwargs=input.table_writer_kwargs,
         **input.deltacat_storage_kwargs,
     )
     compacted_table_size = TABLE_CLASS_TO_SIZE_FUNC[type(compacted_table)](
@@ -112,6 +121,7 @@ def generate_local_merge_input(
     return MergeInput.of(
         merge_file_groups_provider=LocalMergeFileGroupsProvider(
             annotated_deltas,
+            all_column_names=params.all_column_names,
             read_kwargs_provider=params.read_kwargs_provider,
             deltacat_storage=params.deltacat_storage,
             deltacat_storage_kwargs=params.deltacat_storage_kwargs,
@@ -119,12 +129,13 @@ def generate_local_merge_input(
         write_to_partition=compacted_partition,
         compacted_file_content_type=params.compacted_file_content_type,
         primary_keys=params.primary_keys,
+        all_column_names=params.all_column_names,
         sort_keys=params.sort_keys,
         drop_duplicates=params.drop_duplicates,
         max_records_per_output_file=params.records_per_compacted_file,
         enable_profiler=params.enable_profiler,
         metrics_config=params.metrics_config,
-        s3_table_writer_kwargs=params.s3_table_writer_kwargs,
+        table_writer_kwargs=params.table_writer_kwargs,
         read_kwargs_provider=params.read_kwargs_provider,
         round_completion_info=round_completion_info,
         object_store=params.object_store,
@@ -133,4 +144,6 @@ def generate_local_merge_input(
         delete_strategy=delete_strategy,
         delete_file_envelopes=delete_file_envelopes,
         disable_copy_by_reference=params.disable_copy_by_reference,
+        hash_bucket_count=params.hash_bucket_count,
+        original_fields=params.original_fields,
     )

deltacat/compute/compactor_v2/utils/primary_key_index.py CHANGED Viewed

@@ -10,6 +10,7 @@ from deltacat.compute.compactor_v2.constants import (
     TOTAL_BYTES_IN_SHA1_HASH,
     PK_DELIMITER,
     MAX_SIZE_OF_RECORD_BATCH_IN_GIB,
+    SHA1_HASHING_FOR_MEMORY_OPTIMIZATION_DISABLED,
 )
 import time
 from deltacat.compute.compactor.model.delta_file_envelope import DeltaFileEnvelope
@@ -48,6 +49,13 @@ def _is_sha1_desired(hash_columns: List[pa.Array]) -> bool:
         f"Found total length of hash column={total_len} and total_size={total_size}"
     )
+    if SHA1_HASHING_FOR_MEMORY_OPTIMIZATION_DISABLED:
+        logger.info(
+            f"SHA1_HASHING_FOR_MEMORY_OPTIMIZATION_DISABLED is True. "
+            f"Returning False for is_sha1_desired"
+        )
+        return False
     return total_size > TOTAL_BYTES_IN_SHA1_HASH * total_len
@@ -70,13 +78,25 @@ def _append_table_by_hash_bucket(
         f"Grouping a pki table of length {len(pki_table)} took {groupby_latency}s"
     )
+    hb_pk_grouped_by = hb_pk_grouped_by.sort_by(sc._HASH_BUCKET_IDX_COLUMN_NAME)
     group_count_array = hb_pk_grouped_by[f"{sc._HASH_BUCKET_IDX_COLUMN_NAME}_count"]
     hb_group_array = hb_pk_grouped_by[sc._HASH_BUCKET_IDX_COLUMN_NAME]
     result_len = 0
     for i, group_count in enumerate(group_count_array):
         hb_idx = hb_group_array[i].as_py()
-        pyarrow_table = hb_pk_table.slice(offset=result_len, length=group_count.as_py())
+        group_count_py = group_count.as_py()
+        pyarrow_table = hb_pk_table.slice(offset=result_len, length=group_count_py)
+        assert group_count_py == len(
+            pyarrow_table
+        ), f"Group count {group_count_py} not equal to {len(pyarrow_table)}"
+        all_buckets = pc.unique(pyarrow_table[sc._HASH_BUCKET_IDX_COLUMN_NAME])
+        assert (
+            len(all_buckets) == 1
+        ), f"Only one hash bucket is allowed but found {len(all_buckets)}"
+        assert (
+            all_buckets[0].as_py() == hb_idx
+        ), f"Hash bucket not equal, {all_buckets[0]} and {hb_idx}"
         pyarrow_table = pyarrow_table.drop(
             [sc._HASH_BUCKET_IDX_COLUMN_NAME, sc._PK_HASH_STRING_COLUMN_NAME]
         )
@@ -108,9 +128,10 @@ def _optimized_group_record_batches_by_hash_bucket(
     record_batches = []
     result_len = 0
     for record_batch in table_batches:
-        current_bytes += record_batch.nbytes
-        record_batches.append(record_batch)
-        if current_bytes >= MAX_SIZE_OF_RECORD_BATCH_IN_GIB:
+        if (
+            record_batches
+            and current_bytes + record_batch.nbytes >= MAX_SIZE_OF_RECORD_BATCH_IN_GIB
+        ):
             logger.info(
                 f"Total number of record batches without exceeding {MAX_SIZE_OF_RECORD_BATCH_IN_GIB} "
                 f"is {len(record_batches)} and size {current_bytes}"
@@ -128,6 +149,9 @@ def _optimized_group_record_batches_by_hash_bucket(
             current_bytes = 0
             record_batches.clear()
+        current_bytes += record_batch.nbytes
+        record_batches.append(record_batch)
     if record_batches:
         appended_len, append_latency = timed_invocation(
             _append_table_by_hash_bucket,

deltacat/compute/compactor_v2/utils/task_options.py CHANGED Viewed

@@ -1,12 +1,17 @@
 import logging
 from typing import Dict, Optional, List, Tuple, Any
 from deltacat import logs
+from deltacat.constants import PYARROW_INFLATION_MULTIPLIER
+from deltacat.compute.compactor_v2.constants import (
+    AVERAGE_RECORD_SIZE_BYTES as DEFAULT_AVERAGE_RECORD_SIZE_BYTES,
+)
 from deltacat.compute.compactor_v2.model.merge_file_group import (
     LocalMergeFileGroupsProvider,
 )
 from deltacat.storage import (
     Manifest,
-    interface as unimplemented_deltacat_storage,
+    ManifestEntry,
+    metastore,
 )
 from deltacat.compute.compactor.model.delta_annotated import DeltaAnnotated
 from deltacat.compute.compactor.model.round_completion_info import RoundCompletionInfo
@@ -72,8 +77,6 @@ def _get_merge_task_options(
     round_completion_info: Optional[RoundCompletionInfo] = None,
     compacted_delta_manifest: Optional[Manifest] = None,
     primary_keys: Optional[List[str]] = None,
-    deltacat_storage=unimplemented_deltacat_storage,
-    deltacat_storage_kwargs: Optional[Dict] = {},
     memory_logs_enabled: Optional[bool] = None,
 ) -> Dict[str, Any]:
     if (
@@ -81,16 +84,27 @@ def _get_merge_task_options(
         and compacted_delta_manifest
         and round_completion_info.hb_index_to_entry_range
     ):
-        previous_inflation = (
-            round_completion_info.compacted_pyarrow_write_result.pyarrow_bytes
-            / round_completion_info.compacted_pyarrow_write_result.file_bytes
+        logger.debug_conditional(
+            f"[Merge task {index}]: Using previous compaction rounds to calculate merge memory: {round_completion_info.compacted_pyarrow_write_result}",
+            memory_logs_enabled,
+        )
+        previous_inflation: float = (
+            (
+                round_completion_info.compacted_pyarrow_write_result.pyarrow_bytes
+                / round_completion_info.compacted_pyarrow_write_result.file_bytes
+            )
+            if round_completion_info.compacted_pyarrow_write_result.file_bytes
+            else PYARROW_INFLATION_MULTIPLIER
         )
         debug_memory_params["previous_inflation"] = previous_inflation
-        average_record_size = (
-            round_completion_info.compacted_pyarrow_write_result.pyarrow_bytes
-            / round_completion_info.compacted_pyarrow_write_result.records
+        average_record_size: float = (
+            (
+                round_completion_info.compacted_pyarrow_write_result.pyarrow_bytes
+                / round_completion_info.compacted_pyarrow_write_result.records
+            )
+            if round_completion_info.compacted_pyarrow_write_result.records
+            else DEFAULT_AVERAGE_RECORD_SIZE_BYTES
         )
         debug_memory_params["average_record_size"] = average_record_size
@@ -106,31 +120,36 @@ def _get_merge_task_options(
                 str(hb_idx)
             ]
             for entry_index in range(entry_start, entry_end):
-                entry = compacted_delta_manifest.entries[entry_index]
-                current_entry_size = estimate_manifest_entry_size_bytes(
-                    entry=entry,
-                    operation_type=OperationType.PYARROW_DOWNLOAD,
-                    estimate_resources_params=estimate_resources_params,
+                entry: ManifestEntry = compacted_delta_manifest.entries[entry_index]
+                current_entry_size: float = (
+                    estimate_manifest_entry_size_bytes(
+                        entry=entry,
+                        operation_type=OperationType.PYARROW_DOWNLOAD,
+                        estimate_resources_params=estimate_resources_params,
+                    )
+                    or 0.0
                 )
-                current_entry_rows = estimate_manifest_entry_num_rows(
-                    entry=entry,
-                    operation_type=OperationType.PYARROW_DOWNLOAD,
-                    estimate_resources_params=estimate_resources_params,
+                current_entry_rows: int = (
+                    estimate_manifest_entry_num_rows(
+                        entry=entry,
+                        operation_type=OperationType.PYARROW_DOWNLOAD,
+                        estimate_resources_params=estimate_resources_params,
+                    )
+                    or 0
                 )
+                # NOTE: We can treat the current_entry_size and current_entry_rows as 0 as a None estimated entry size implies a 0 value
                 data_size += current_entry_size
                 num_rows += current_entry_rows
                 if primary_keys:
-                    pk_size = estimate_manifest_entry_column_size_bytes(
+                    pk_size: Optional[
+                        float
+                    ] = estimate_manifest_entry_column_size_bytes(
                         entry=entry,
                         columns=primary_keys,
                         operation_type=OperationType.PYARROW_DOWNLOAD,
                         estimate_resources_params=estimate_resources_params,
                     )
-                    if pk_size is None:
+                    if not pk_size:
                         pk_size_bytes += current_entry_size
                     else:
                         pk_size_bytes += pk_size
@@ -159,7 +178,6 @@ def _get_merge_task_options(
         f"[Merge task {index}]: Params used for calculating merge memory: {debug_memory_params}",
         memory_logs_enabled,
     )
     return _get_task_options(0.01, total_memory, ray_custom_resources)
@@ -255,8 +273,6 @@ def merge_resource_options_provider(
     compacted_delta_manifest: Optional[Manifest] = None,
     ray_custom_resources: Optional[Dict] = None,
     primary_keys: Optional[List[str]] = None,
-    deltacat_storage=unimplemented_deltacat_storage,
-    deltacat_storage_kwargs: Optional[Dict] = {},
     memory_logs_enabled: Optional[bool] = None,
     **kwargs,
 ) -> Dict:
@@ -286,8 +302,6 @@ def merge_resource_options_provider(
         round_completion_info=round_completion_info,
         compacted_delta_manifest=compacted_delta_manifest,
         primary_keys=primary_keys,
-        deltacat_storage=deltacat_storage,
-        deltacat_storage_kwargs=deltacat_storage_kwargs,
         memory_logs_enabled=memory_logs_enabled,
         estimate_resources_params=estimate_resources_params,
     )
@@ -302,7 +316,7 @@ def local_merge_resource_options_provider(
     compacted_delta_manifest: Optional[Manifest] = None,
     ray_custom_resources: Optional[Dict] = None,
     primary_keys: Optional[List[str]] = None,
-    deltacat_storage=unimplemented_deltacat_storage,
+    deltacat_storage=metastore,
     deltacat_storage_kwargs: Optional[Dict] = {},
     memory_logs_enabled: Optional[bool] = None,
     **kwargs,
@@ -328,8 +342,6 @@ def local_merge_resource_options_provider(
         round_completion_info=round_completion_info,
         compacted_delta_manifest=compacted_delta_manifest,
         primary_keys=primary_keys,
-        deltacat_storage=deltacat_storage,
-        deltacat_storage_kwargs=deltacat_storage_kwargs,
         memory_logs_enabled=memory_logs_enabled,
         estimate_resources_params=estimate_resources_params,
     )

deltacat/compute/converter/converter_session.py CHANGED Viewed

@@ -1,3 +1,4 @@
+from deltacat.constants import DEFAULT_NAMESPACE
 from deltacat.utils.ray_utils.concurrency import (
     invoke_parallel,
     task_resource_options_provider,
@@ -12,8 +13,7 @@ from deltacat import logs
 from deltacat.compute.converter.model.converter_session_params import (
     ConverterSessionParams,
 )
+from typing import Dict, List, Any, Callable
 from deltacat.compute.converter.constants import DEFAULT_MAX_PARALLEL_DATA_FILE_DOWNLOAD
 from deltacat.compute.converter.steps.convert import convert
 from deltacat.compute.converter.model.convert_input import ConvertInput
@@ -31,30 +31,80 @@ from deltacat.compute.converter.pyiceberg.catalog import load_table
 from deltacat.compute.converter.utils.converter_session_utils import (
     group_all_files_to_each_bucket,
 )
+from deltacat.compute.converter.model.convert_result import ConvertResult
+from deltacat.compute.converter.utils.converter_session_utils import (
+    _get_snapshot_action_description,
+    _determine_snapshot_type,
+    SnapshotType,
+)
+from pyiceberg.manifest import DataFile
+from pyiceberg.table.metadata import TableMetadata
 logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
-def converter_session(params: ConverterSessionParams, **kwargs):
+def converter_session(params: ConverterSessionParams, **kwargs: Any) -> TableMetadata:
     """
-    Convert equality delete to position delete.
-    Compute and memory heavy work from downloading equality delete table and compute position deletes
-    will be executed on Ray remote tasks.
+    Convert equality deletes to position deletes with option to enforce primary key uniqueness.
+    This function processes Iceberg table files to convert equality delete files to position delete files.
+    It can optionally enforce primary key uniqueness by keeping only the latest version of each
+    primary key across all data files.
+    **Memory Requirements:**
+    - Minimum 512MB of free memory is required to run the converter
+    **Process Overview:**
+    1. Fetches all bucket files (data files, equality deletes, position deletes)
+    2. Groups files by bucket for parallel processing
+    3. Converts equality deletes to position deletes using Ray parallel tasks
+    4. Enforces primary key uniqueness if enabled
+    5. Commits appropriate snapshot (append, replace, or delete) to the Iceberg table
+    Args:
+        params: ConverterSessionParams containing all configuration parameters
+            - catalog: Iceberg catalog instance
+            - iceberg_table_name: Name of the target Iceberg table
+            - enforce_primary_key_uniqueness: Whether to enforce PK uniqueness
+            - iceberg_warehouse_bucket_name: S3 bucket for Iceberg warehouse
+            - iceberg_namespace: Iceberg namespace
+            - merge_keys: Optional list of merge key fields (uses table identifier fields if not provided)
+            - compact_previous_position_delete_files: Whether to compact existing position delete files
+            - task_max_parallelism: Maximum number of parallel Ray tasks
+            - s3_client_kwargs: Additional S3 client configuration
+            - s3_file_system: S3 file system instance
+            - location_provider_prefix_override: Optional prefix override for file locations
+            - position_delete_for_multiple_data_files: Whether to generate position deletes for multiple data files
+        **kwargs: Additional keyword arguments (currently unused)
+    Raises:
+        Exception: If snapshot commitment fails or other critical errors occur
     """
     catalog = params.catalog
     table_name = params.iceberg_table_name
-    iceberg_table = load_table(catalog, table_name)
+    if "." not in table_name:
+        iceberg_namespace = params.iceberg_namespace or DEFAULT_NAMESPACE
+        table_name = params.iceberg_table_name
+        table_identifier = f"{iceberg_namespace}.{table_name}"
+    else:
+        table_identifier = table_name
+        identifier_parts = table_identifier.split(".")
+        iceberg_namespace = identifier_parts[0]
+        table_name = identifier_parts[1]
+    iceberg_table = load_table(catalog, table_identifier)
     enforce_primary_key_uniqueness = params.enforce_primary_key_uniqueness
     iceberg_warehouse_bucket_name = params.iceberg_warehouse_bucket_name
-    iceberg_namespace = params.iceberg_namespace
     merge_keys = params.merge_keys
     compact_previous_position_delete_files = (
         params.compact_previous_position_delete_files
     )
     task_max_parallelism = params.task_max_parallelism
     s3_client_kwargs = params.s3_client_kwargs
-    s3_file_system = params.s3_file_system
+    s3_file_system = params.filesystem
     location_provider_prefix_override = params.location_provider_prefix_override
     position_delete_for_multiple_data_files = (
         params.position_delete_for_multiple_data_files
@@ -86,7 +136,7 @@ def converter_session(params: ConverterSessionParams, **kwargs):
     else:
         identifier_fields = merge_keys
-    convert_options_provider = functools.partial(
+    convert_options_provider: Callable = functools.partial(
         task_resource_options_provider,
         resource_amount_provider=convert_resource_options_provider,
     )
@@ -98,7 +148,8 @@ def converter_session(params: ConverterSessionParams, **kwargs):
     #  Note that approach 2 will ideally require shared object store to avoid download equality delete files * number of child tasks times.
     max_parallel_data_file_download = DEFAULT_MAX_PARALLEL_DATA_FILE_DOWNLOAD
-    def convert_input_provider(index, item):
+    def convert_input_provider(index: int, item: Any) -> Dict[str, ConvertInput]:
+        task_opts = convert_options_provider(index, item)
         return {
             "convert_input": ConvertInput.of(
                 convert_input_files=item,
@@ -112,7 +163,8 @@ def converter_session(params: ConverterSessionParams, **kwargs):
                 position_delete_for_multiple_data_files=position_delete_for_multiple_data_files,
                 max_parallel_data_file_download=max_parallel_data_file_download,
                 s3_client_kwargs=s3_client_kwargs,
-                s3_file_system=s3_file_system,
+                filesystem=s3_file_system,
+                task_memory=task_opts["memory"],
             )
         }
@@ -127,10 +179,10 @@ def converter_session(params: ConverterSessionParams, **kwargs):
         kwargs_provider=convert_input_provider,
     )
-    to_be_deleted_files_list = []
+    to_be_deleted_files_list: List[List[DataFile]] = []
     logger.info(f"Finished invoking {len(convert_tasks_pending)} convert tasks.")
-    convert_results = ray.get(convert_tasks_pending)
+    convert_results: List[ConvertResult] = ray.get(convert_tasks_pending)
     logger.info(f"Got {len(convert_tasks_pending)} convert tasks.")
     total_position_delete_record_count = sum(
@@ -153,8 +205,36 @@ def converter_session(params: ConverterSessionParams, **kwargs):
         convert_result.position_delete_on_disk_sizes
         for convert_result in convert_results
     )
+    total_input_data_files_on_disk_size = sum(
+        convert_result.input_data_files_on_disk_size
+        for convert_result in convert_results
+    )
+    # Calculate memory usage statistics
+    max_peak_memory_usage = max(
+        convert_result.peak_memory_usage_bytes for convert_result in convert_results
+    )
+    avg_memory_usage_percentage = sum(
+        convert_result.memory_usage_percentage for convert_result in convert_results
+    ) / len(convert_results)
+    max_memory_usage_percentage = max(
+        convert_result.memory_usage_percentage for convert_result in convert_results
+    )
+    logger.info(
+        f"Aggregated stats for {table_identifier}: "
+        f"total position delete record count: {total_position_delete_record_count}, "
+        f"total input data file record count: {total_input_data_file_record_count}, "
+        f"total data file hash columns in memory sizes: {total_data_file_hash_columns_in_memory_sizes}, "
+        f"total position delete file in memory sizes: {total_position_delete_file_in_memory_sizes}, "
+        f"total position delete file on disk sizes: {total_position_delete_on_disk_sizes}, "
+        f"total input data files on disk size: {total_input_data_files_on_disk_size}, "
+        f"max peak memory usage: {max_peak_memory_usage} bytes, "
+        f"average memory usage percentage: {avg_memory_usage_percentage:.2f}%, "
+        f"max memory usage percentage: {max_memory_usage_percentage:.2f}%"
+    )
-    to_be_added_files_list = []
+    to_be_added_files_list: List[DataFile] = []
     for convert_result in convert_results:
         to_be_added_files = convert_result.to_be_added_files
         to_be_deleted_files = convert_result.to_be_deleted_files
@@ -162,24 +242,57 @@ def converter_session(params: ConverterSessionParams, **kwargs):
         to_be_deleted_files_list.extend(to_be_deleted_files.values())
         to_be_added_files_list.extend(to_be_added_files)
-    if not to_be_deleted_files_list and to_be_added_files_list:
-        commit_append_snapshot(
-            iceberg_table=iceberg_table,
-            new_position_delete_files=to_be_added_files_list,
-        )
-    else:
-        commit_replace_snapshot(
-            iceberg_table=iceberg_table,
-            to_be_deleted_files_list=to_be_deleted_files_list,
-            new_position_delete_files=to_be_added_files_list,
+    logger.info(f"To be deleted files list length: {len(to_be_deleted_files_list)}")
+    logger.info(f"To be added files list length: {len(to_be_added_files_list)}")
+    # Determine snapshot type and commit
+    snapshot_type = _determine_snapshot_type(
+        to_be_deleted_files_list, to_be_added_files_list
+    )
+    if snapshot_type == SnapshotType.NONE:
+        logger.info(
+            _get_snapshot_action_description(
+                snapshot_type, to_be_deleted_files_list, to_be_added_files_list
+            )
         )
+        return
     logger.info(
-        f"Aggregated stats for {table_name}: "
-        f"total position delete record count: {total_position_delete_record_count}, "
-        f"total input data file record_count: {total_input_data_file_record_count}, "
-        f"total data file hash columns in memory sizes: {total_data_file_hash_columns_in_memory_sizes}, "
-        f"total position delete file in memory sizes: {total_position_delete_file_in_memory_sizes}, "
-        f"total position delete file on disk sizes: {total_position_delete_on_disk_sizes}."
+        f"Snapshot action: {_get_snapshot_action_description(snapshot_type, to_be_deleted_files_list, to_be_added_files_list)}"
     )
-    logger.info(f"Committed new Iceberg snapshot.")
+    try:
+        if snapshot_type == SnapshotType.APPEND:
+            logger.info(f"Committing append snapshot for {table_identifier}.")
+            updated_table_metadata = commit_append_snapshot(
+                iceberg_table=iceberg_table,
+                new_position_delete_files=to_be_added_files_list,
+            )
+        elif snapshot_type == SnapshotType.REPLACE:
+            logger.info(f"Committing replace snapshot for {table_identifier}.")
+            updated_table_metadata = commit_replace_snapshot(
+                iceberg_table=iceberg_table,
+                to_be_deleted_files=to_be_deleted_files_list,
+                new_position_delete_files=to_be_added_files_list,
+            )
+        elif snapshot_type == SnapshotType.DELETE:
+            logger.info(f"Committing delete snapshot for {table_identifier}.")
+            updated_table_metadata = commit_replace_snapshot(
+                iceberg_table=iceberg_table,
+                to_be_deleted_files=to_be_deleted_files_list,
+                new_position_delete_files=[],  # No new files to add
+            )
+        else:
+            logger.warning(f"Unexpected snapshot type: {snapshot_type}")
+            return
+        logger.info(
+            f"Committed new Iceberg snapshot for {table_identifier}: {updated_table_metadata.current_snapshot_id}"
+        )
+        # Return the updated table metadata with the new snapshot
+        return updated_table_metadata
+    except Exception as e:
+        logger.error(f"Failed to commit snapshot for {table_identifier}: {str(e)}")
+        raise

deltacat 2.0.0b11__py3-none-any.whl → 2.0.0b12__py3-none-any.whl

deltacat 2.0.0b11py3-none-any.whl → 2.0.0b12py3-none-any.whl