PyPI - deltacat - Versions diffs - 1.1.35__py3-none-any.whl → 2.0__py3-none-any.whl - Mend

deltacat 1.1.35py3-none-any.whl → 2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (235) hide show

deltacat/__init__.py +42 -3
deltacat/annotations.py +36 -0
deltacat/api.py +168 -0
deltacat/aws/s3u.py +4 -4
deltacat/benchmarking/benchmark_engine.py +82 -0
deltacat/benchmarking/benchmark_report.py +86 -0
deltacat/benchmarking/benchmark_suite.py +11 -0
deltacat/benchmarking/conftest.py +21 -0
deltacat/benchmarking/data/random_row_generator.py +94 -0
deltacat/benchmarking/data/row_generator.py +10 -0
deltacat/benchmarking/test_benchmark_pipeline.py +106 -0
deltacat/catalog/__init__.py +14 -0
deltacat/catalog/delegate.py +199 -106
deltacat/catalog/iceberg/__init__.py +4 -0
deltacat/catalog/iceberg/iceberg_catalog_config.py +26 -0
deltacat/catalog/iceberg/impl.py +368 -0
deltacat/catalog/iceberg/overrides.py +74 -0
deltacat/catalog/interface.py +273 -76
deltacat/catalog/main/impl.py +720 -0
deltacat/catalog/model/catalog.py +227 -20
deltacat/catalog/model/properties.py +116 -0
deltacat/catalog/model/table_definition.py +32 -1
deltacat/compute/compactor/model/compaction_session_audit_info.py +7 -3
deltacat/compute/compactor/model/delta_annotated.py +3 -3
deltacat/compute/compactor/model/delta_file_envelope.py +3 -1
deltacat/compute/compactor/model/delta_file_locator.py +3 -1
deltacat/compute/compactor/model/round_completion_info.py +5 -5
deltacat/compute/compactor/model/table_object_store.py +3 -2
deltacat/compute/compactor/repartition_session.py +1 -1
deltacat/compute/compactor/steps/dedupe.py +11 -4
deltacat/compute/compactor/steps/hash_bucket.py +1 -1
deltacat/compute/compactor/steps/materialize.py +6 -2
deltacat/compute/compactor/utils/io.py +1 -1
deltacat/compute/compactor/utils/sort_key.py +9 -2
deltacat/compute/compactor_v2/compaction_session.py +2 -3
deltacat/compute/compactor_v2/constants.py +1 -30
deltacat/compute/compactor_v2/deletes/utils.py +3 -3
deltacat/compute/compactor_v2/model/merge_input.py +1 -1
deltacat/compute/compactor_v2/private/compaction_utils.py +5 -5
deltacat/compute/compactor_v2/steps/merge.py +11 -80
deltacat/compute/compactor_v2/utils/content_type_params.py +0 -17
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/io.py +1 -1
deltacat/compute/compactor_v2/utils/primary_key_index.py +3 -15
deltacat/compute/compactor_v2/utils/task_options.py +23 -43
deltacat/compute/converter/constants.py +4 -0
deltacat/compute/converter/converter_session.py +143 -0
deltacat/compute/converter/model/convert_input.py +69 -0
deltacat/compute/converter/model/convert_input_files.py +61 -0
deltacat/compute/converter/model/converter_session_params.py +99 -0
deltacat/compute/converter/pyiceberg/__init__.py +0 -0
deltacat/compute/converter/pyiceberg/catalog.py +75 -0
deltacat/compute/converter/pyiceberg/overrides.py +135 -0
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +251 -0
deltacat/compute/converter/steps/__init__.py +0 -0
deltacat/compute/converter/steps/convert.py +211 -0
deltacat/compute/converter/steps/dedupe.py +60 -0
deltacat/compute/converter/utils/__init__.py +0 -0
deltacat/compute/converter/utils/convert_task_options.py +88 -0
deltacat/compute/converter/utils/converter_session_utils.py +109 -0
deltacat/compute/converter/utils/iceberg_columns.py +82 -0
deltacat/compute/converter/utils/io.py +43 -0
deltacat/compute/converter/utils/s3u.py +133 -0
deltacat/compute/resource_estimation/delta.py +1 -19
deltacat/constants.py +47 -1
deltacat/env.py +51 -0
deltacat/examples/__init__.py +0 -0
deltacat/examples/basic_logging.py +101 -0
deltacat/examples/common/__init__.py +0 -0
deltacat/examples/common/fixtures.py +15 -0
deltacat/examples/hello_world.py +27 -0
deltacat/examples/iceberg/__init__.py +0 -0
deltacat/examples/iceberg/iceberg_bucket_writer.py +139 -0
deltacat/examples/iceberg/iceberg_reader.py +149 -0
deltacat/exceptions.py +51 -9
deltacat/logs.py +4 -1
deltacat/storage/__init__.py +118 -28
deltacat/storage/iceberg/__init__.py +0 -0
deltacat/storage/iceberg/iceberg_scan_planner.py +28 -0
deltacat/storage/iceberg/impl.py +737 -0
deltacat/storage/iceberg/model.py +709 -0
deltacat/storage/interface.py +217 -134
deltacat/storage/main/__init__.py +0 -0
deltacat/storage/main/impl.py +2077 -0
deltacat/storage/model/delta.py +118 -71
deltacat/storage/model/interop.py +24 -0
deltacat/storage/model/list_result.py +8 -0
deltacat/storage/model/locator.py +93 -3
deltacat/{aws/redshift → storage}/model/manifest.py +122 -98
deltacat/storage/model/metafile.py +1316 -0
deltacat/storage/model/namespace.py +34 -18
deltacat/storage/model/partition.py +362 -37
deltacat/storage/model/scan/__init__.py +0 -0
deltacat/storage/model/scan/push_down.py +19 -0
deltacat/storage/model/scan/scan_plan.py +10 -0
deltacat/storage/model/scan/scan_task.py +34 -0
deltacat/storage/model/schema.py +892 -0
deltacat/storage/model/shard.py +47 -0
deltacat/storage/model/sort_key.py +170 -13
deltacat/storage/model/stream.py +208 -80
deltacat/storage/model/table.py +123 -29
deltacat/storage/model/table_version.py +322 -46
deltacat/storage/model/transaction.py +757 -0
deltacat/storage/model/transform.py +198 -61
deltacat/storage/model/types.py +111 -13
deltacat/storage/rivulet/__init__.py +11 -0
deltacat/storage/rivulet/arrow/__init__.py +0 -0
deltacat/storage/rivulet/arrow/serializer.py +75 -0
deltacat/storage/rivulet/dataset.py +744 -0
deltacat/storage/rivulet/dataset_executor.py +87 -0
deltacat/storage/rivulet/feather/__init__.py +5 -0
deltacat/storage/rivulet/feather/file_reader.py +136 -0
deltacat/storage/rivulet/feather/serializer.py +35 -0
deltacat/storage/rivulet/fs/__init__.py +0 -0
deltacat/storage/rivulet/fs/file_provider.py +105 -0
deltacat/storage/rivulet/fs/file_store.py +130 -0
deltacat/storage/rivulet/fs/input_file.py +76 -0
deltacat/storage/rivulet/fs/output_file.py +86 -0
deltacat/storage/rivulet/logical_plan.py +105 -0
deltacat/storage/rivulet/metastore/__init__.py +0 -0
deltacat/storage/rivulet/metastore/delta.py +190 -0
deltacat/storage/rivulet/metastore/json_sst.py +105 -0
deltacat/storage/rivulet/metastore/sst.py +82 -0
deltacat/storage/rivulet/metastore/sst_interval_tree.py +260 -0
deltacat/storage/rivulet/mvp/Table.py +101 -0
deltacat/storage/rivulet/mvp/__init__.py +5 -0
deltacat/storage/rivulet/parquet/__init__.py +5 -0
deltacat/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/storage/rivulet/parquet/file_reader.py +127 -0
deltacat/storage/rivulet/parquet/serializer.py +37 -0
deltacat/storage/rivulet/reader/__init__.py +0 -0
deltacat/storage/rivulet/reader/block_scanner.py +378 -0
deltacat/storage/rivulet/reader/data_reader.py +136 -0
deltacat/storage/rivulet/reader/data_scan.py +63 -0
deltacat/storage/rivulet/reader/dataset_metastore.py +178 -0
deltacat/storage/rivulet/reader/dataset_reader.py +156 -0
deltacat/storage/rivulet/reader/pyarrow_data_reader.py +121 -0
deltacat/storage/rivulet/reader/query_expression.py +99 -0
deltacat/storage/rivulet/reader/reader_type_registrar.py +84 -0
deltacat/storage/rivulet/schema/__init__.py +0 -0
deltacat/storage/rivulet/schema/datatype.py +128 -0
deltacat/storage/rivulet/schema/schema.py +251 -0
deltacat/storage/rivulet/serializer.py +40 -0
deltacat/storage/rivulet/serializer_factory.py +42 -0
deltacat/storage/rivulet/writer/__init__.py +0 -0
deltacat/storage/rivulet/writer/dataset_writer.py +29 -0
deltacat/storage/rivulet/writer/memtable_dataset_writer.py +294 -0
deltacat/tests/_io/__init__.py +1 -0
deltacat/tests/catalog/test_catalogs.py +324 -0
deltacat/tests/catalog/test_default_catalog_impl.py +16 -8
deltacat/tests/compute/compact_partition_multiple_rounds_test_cases.py +21 -21
deltacat/tests/compute/compact_partition_rebase_test_cases.py +6 -6
deltacat/tests/compute/compact_partition_rebase_then_incremental_test_cases.py +56 -56
deltacat/tests/compute/compact_partition_test_cases.py +19 -53
deltacat/tests/compute/compactor/steps/test_repartition.py +2 -2
deltacat/tests/compute/compactor/utils/test_io.py +6 -8
deltacat/tests/compute/compactor_v2/test_compaction_session.py +0 -466
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +1 -273
deltacat/tests/compute/conftest.py +75 -0
deltacat/tests/compute/converter/__init__.py +0 -0
deltacat/tests/compute/converter/conftest.py +80 -0
deltacat/tests/compute/converter/test_convert_session.py +478 -0
deltacat/tests/compute/converter/utils.py +123 -0
deltacat/tests/compute/resource_estimation/test_delta.py +0 -16
deltacat/tests/compute/test_compact_partition_incremental.py +2 -42
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +5 -46
deltacat/tests/compute/test_compact_partition_params.py +3 -3
deltacat/tests/compute/test_compact_partition_rebase.py +1 -46
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +5 -46
deltacat/tests/compute/test_util_common.py +19 -12
deltacat/tests/compute/test_util_create_table_deltas_repo.py +13 -22
deltacat/tests/local_deltacat_storage/__init__.py +76 -103
deltacat/tests/storage/__init__.py +0 -0
deltacat/tests/storage/conftest.py +25 -0
deltacat/tests/storage/main/__init__.py +0 -0
deltacat/tests/storage/main/test_main_storage.py +1399 -0
deltacat/tests/storage/model/__init__.py +0 -0
deltacat/tests/storage/model/test_delete_parameters.py +21 -0
deltacat/tests/storage/model/test_metafile_io.py +2535 -0
deltacat/tests/storage/model/test_schema.py +308 -0
deltacat/tests/storage/model/test_shard.py +22 -0
deltacat/tests/storage/model/test_table_version.py +110 -0
deltacat/tests/storage/model/test_transaction.py +308 -0
deltacat/tests/storage/rivulet/__init__.py +0 -0
deltacat/tests/storage/rivulet/conftest.py +149 -0
deltacat/tests/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/storage/rivulet/fs/test_file_location_provider.py +93 -0
deltacat/tests/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/storage/rivulet/schema/test_schema.py +241 -0
deltacat/tests/storage/rivulet/test_dataset.py +406 -0
deltacat/tests/storage/rivulet/test_manifest.py +67 -0
deltacat/tests/storage/rivulet/test_sst_interval_tree.py +232 -0
deltacat/tests/storage/rivulet/test_utils.py +122 -0
deltacat/tests/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/storage/rivulet/writer/test_dataset_write_then_read.py +341 -0
deltacat/tests/storage/rivulet/writer/test_dataset_writer.py +79 -0
deltacat/tests/storage/rivulet/writer/test_memtable_dataset_writer.py +75 -0
deltacat/tests/test_deltacat_api.py +39 -0
deltacat/tests/test_utils/filesystem.py +14 -0
deltacat/tests/test_utils/message_pack_utils.py +54 -0
deltacat/tests/test_utils/pyarrow.py +8 -15
deltacat/tests/test_utils/storage.py +266 -3
deltacat/tests/utils/test_daft.py +3 -3
deltacat/tests/utils/test_pyarrow.py +0 -432
deltacat/types/partial_download.py +1 -1
deltacat/types/tables.py +1 -1
deltacat/utils/export.py +59 -0
deltacat/utils/filesystem.py +320 -0
deltacat/utils/metafile_locator.py +73 -0
deltacat/utils/pyarrow.py +36 -183
deltacat-2.0.dist-info/METADATA +65 -0
deltacat-2.0.dist-info/RECORD +347 -0
deltacat/aws/redshift/__init__.py +0 -19
deltacat/catalog/default_catalog_impl/__init__.py +0 -369
deltacat/io/dataset.py +0 -73
deltacat/io/read_api.py +0 -143
deltacat/storage/model/delete_parameters.py +0 -40
deltacat/storage/model/partition_spec.py +0 -71
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +0 -253
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +0 -45
deltacat-1.1.35.dist-info/METADATA +0 -64
deltacat-1.1.35.dist-info/RECORD +0 -219
/deltacat/{aws/redshift/model → benchmarking/data}/__init__.py +0 -0
/deltacat/{io/aws → catalog/main}/__init__.py +0 -0
/deltacat/{io/aws/redshift → compute/converter}/__init__.py +0 -0
/deltacat/{tests/io → compute/converter/model}/__init__.py +0 -0
/deltacat/tests/{io → _io}/test_cloudpickle_bug_fix.py +0 -0
/deltacat/tests/{io → _io}/test_file_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_memcached_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_ray_plasma_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_redis_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_s3_object_store.py +0 -0
{deltacat-1.1.35.dist-info → deltacat-2.0.dist-info}/LICENSE +0 -0
{deltacat-1.1.35.dist-info → deltacat-2.0.dist-info}/WHEEL +0 -0
{deltacat-1.1.35.dist-info → deltacat-2.0.dist-info}/top_level.txt +0 -0

deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py ADDED Viewed

@@ -0,0 +1,251 @@
+from typing import Optional, List
+import uuid
+from pyiceberg.table.snapshots import (
+    Operation,
+)
+from pyiceberg.manifest import (
+    DataFileContent,
+    ManifestContent,
+    ManifestEntry,
+    ManifestEntryStatus,
+    ManifestFile,
+    write_manifest,
+)
+import itertools
+from pyiceberg.utils.concurrent import ExecutorFactory
+from pyiceberg.table.update.snapshot import UpdateSnapshot, _SnapshotProducer
+class _ReplaceFiles(_SnapshotProducer["_ReplaceFiles"]):
+    """Overwrites data from the table. This will produce an OVERWRITE snapshot.
+    Data and delete files were added and removed in a logical overwrite operation.
+    """
+    def _existing_manifests(self) -> List[ManifestFile]:
+        """Determine if there are any existing manifest files."""
+        existing_files = []
+        snapshot = self._transaction.table_metadata.current_snapshot()
+        if snapshot:
+            for manifest_file in snapshot.manifests(io=self._io):
+                entries = manifest_file.fetch_manifest_entry(
+                    io=self._io, discard_deleted=True
+                )
+                found_deleted_data_files = [
+                    entry.data_file
+                    for entry in entries
+                    if entry.data_file in self._deleted_data_files
+                ]
+                if len(found_deleted_data_files) == 0:
+                    existing_files.append(manifest_file)
+                else:
+                    # We have to replace the manifest file without the deleted data files
+                    if any(
+                        entry.data_file not in found_deleted_data_files
+                        for entry in entries
+                    ):
+                        with write_manifest(
+                            format_version=self._transaction.table_metadata.format_version,
+                            spec=self._transaction.table_metadata.specs()[
+                                manifest_file.partition_spec_id
+                            ],
+                            schema=self._transaction.table_metadata.schema(),
+                            output_file=self.new_manifest_output(),
+                            snapshot_id=self._snapshot_id,
+                        ) as writer:
+                            [
+                                writer.add_entry(
+                                    ManifestEntry(
+                                        status=ManifestEntryStatus.EXISTING,
+                                        snapshot_id=entry.snapshot_id,
+                                        sequence_number=entry.sequence_number,
+                                        file_sequence_number=entry.file_sequence_number,
+                                        data_file=entry.data_file,
+                                    )
+                                )
+                                for entry in entries
+                                if entry.data_file not in found_deleted_data_files
+                            ]
+                        existing_files.append(writer.to_manifest_file())
+        return existing_files
+    def _deleted_entries(self) -> List[ManifestEntry]:
+        """To determine if we need to record any deleted entries.
+        With a full overwrite all the entries are considered deleted.
+        With partial overwrites we have to use the predicate to evaluate
+        which entries are affected.
+        """
+        if self._parent_snapshot_id is not None:
+            previous_snapshot = self._transaction.table_metadata.snapshot_by_id(
+                self._parent_snapshot_id
+            )
+            if previous_snapshot is None:
+                # This should never happen since you cannot overwrite an empty table
+                raise ValueError(
+                    f"Could not find the previous snapshot: {self._parent_snapshot_id}"
+                )
+            executor = ExecutorFactory.get_or_create()
+            def _get_entries(manifest: ManifestFile) -> List[ManifestEntry]:
+                return [
+                    ManifestEntry(
+                        status=ManifestEntryStatus.DELETED,
+                        snapshot_id=entry.snapshot_id,
+                        sequence_number=entry.sequence_number,
+                        file_sequence_number=entry.file_sequence_number,
+                        data_file=entry.data_file,
+                    )
+                    for entry in manifest.fetch_manifest_entry(
+                        self._io, discard_deleted=True
+                    )
+                    if entry.data_file.content == DataFileContent.DATA
+                    and entry.data_file in self._deleted_data_files
+                ]
+            list_of_entries = executor.map(
+                _get_entries, previous_snapshot.manifests(self._io)
+            )
+            return list(itertools.chain(*list_of_entries))
+        else:
+            return []
+def replace(
+    self,
+    commit_uuid: Optional[uuid.UUID] = None,
+    using_starting_sequence: Optional[bool] = False,
+) -> _ReplaceFiles:
+    return _ReplaceFiles(
+        commit_uuid=commit_uuid,
+        operation=Operation.REPLACE
+        if self._transaction.table_metadata.current_snapshot() is not None
+        else Operation.APPEND,
+        transaction=self._transaction,
+        io=self._io,
+        snapshot_properties=self._snapshot_properties,
+        using_starting_sequence=using_starting_sequence,
+    )
+UpdateSnapshot.replace = replace
+def commit_replace_snapshot(
+    iceberg_table, to_be_deleted_files_list, new_position_delete_files
+):
+    tx = iceberg_table.transaction()
+    snapshot_properties = {}
+    commit_uuid = uuid.uuid4()
+    update_snapshot = tx.update_snapshot(snapshot_properties=snapshot_properties)
+    replace_snapshot = replace(
+        self=update_snapshot, commit_uuid=commit_uuid, using_starting_sequence=False
+    )
+    for to_be_deleted_file in to_be_deleted_files_list:
+        replace_snapshot.append_data_file(to_be_deleted_file)
+    for to_be_added_file in new_position_delete_files:
+        replace_snapshot.delete_data_file(to_be_added_file)
+    replace_snapshot._commit()
+    tx.commit_transaction()
+def append_delete_files_override(update_snapshot):
+    commit_uuid = uuid.uuid4()
+    return _AppendDeleteFilesOverride(
+        commit_uuid=commit_uuid,
+        operation=Operation.APPEND,
+        transaction=update_snapshot._transaction,
+        io=update_snapshot._io,
+        snapshot_properties=update_snapshot._snapshot_properties,
+    )
+class _AppendDeleteFilesOverride(_SnapshotProducer):
+    def _manifests(self):
+        def _write_added_manifest():
+            if self._added_data_files:
+                with write_manifest(
+                    format_version=self._transaction.table_metadata.format_version,
+                    spec=self._transaction.table_metadata.spec(),
+                    schema=self._transaction.table_metadata.schema(),
+                    output_file=self.new_manifest_output(),
+                    snapshot_id=self._snapshot_id,
+                ) as writer:
+                    for data_file in self._added_data_files:
+                        writer.add(
+                            ManifestEntry(
+                                status=ManifestEntryStatus.ADDED,
+                                snapshot_id=self._snapshot_id,
+                                sequence_number=None,
+                                file_sequence_number=None,
+                                data_file=data_file,
+                            )
+                        )
+                        writer.content = self.writer_content
+                return [writer.to_manifest_file()]
+            else:
+                return []
+        executor = ExecutorFactory.get_or_create()
+        added_manifests = executor.submit(_write_added_manifest)
+        existing_manifests = executor.submit(self._existing_manifests)
+        return self._process_manifests(
+            added_manifests.result() + existing_manifests.result()
+        )
+    def writer_content(self):
+        return ManifestContent.DELETES
+    def _existing_manifests(self) -> List[ManifestFile]:
+        """To determine if there are any existing manifest files.
+        A fast append will add another ManifestFile to the ManifestList.
+        All the existing manifest files are considered existing.
+        """
+        existing_manifests = []
+        if self._parent_snapshot_id is not None:
+            previous_snapshot = self._transaction.table_metadata.snapshot_by_id(
+                self._parent_snapshot_id
+            )
+            if previous_snapshot is None:
+                raise ValueError(
+                    f"Snapshot could not be found: {self._parent_snapshot_id}"
+                )
+            for manifest in previous_snapshot.manifests(io=self._io):
+                if (
+                    manifest.has_added_files()
+                    or manifest.has_existing_files()
+                    or manifest.added_snapshot_id == self._snapshot_id
+                ):
+                    existing_manifests.append(manifest)
+        return existing_manifests
+    def _deleted_entries(self) -> List[ManifestEntry]:
+        """To determine if we need to record any deleted manifest entries.
+        In case of an append, nothing is deleted.
+        """
+        return []
+def commit_append_snapshot(iceberg_table, new_position_delete_files):
+    with iceberg_table.transaction() as tx:
+        if iceberg_table.metadata.name_mapping() is None:
+            tx.set_properties(
+                **{
+                    "schema.name-mapping.default": tx.table_metadata.schema().name_mapping.model_dump_json()
+                }
+            )
+        with append_delete_files_override(tx.update_snapshot()) as append_snapshot:
+            if new_position_delete_files:
+                for data_file in new_position_delete_files:
+                    append_snapshot.append_data_file(data_file)

deltacat/compute/converter/steps/__init__.py ADDED Viewed

File without changes

deltacat/compute/converter/steps/convert.py ADDED Viewed

@@ -0,0 +1,211 @@
+import pyarrow.compute as pc
+import deltacat.compute.converter.utils.iceberg_columns as sc
+import pyarrow as pa
+from collections import defaultdict
+import ray
+import logging
+from deltacat.compute.converter.model.convert_input import ConvertInput
+from deltacat.compute.converter.steps.dedupe import dedupe_data_files
+from deltacat.compute.converter.utils.s3u import upload_table_with_retry
+from deltacat.compute.converter.utils.io import (
+    download_data_table_and_append_iceberg_columns,
+)
+from deltacat.compute.converter.utils.converter_session_utils import (
+    partition_value_record_to_partition_value_string,
+)
+from deltacat import logs
+logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+@ray.remote
+def convert(convert_input: ConvertInput):
+    convert_input_files = convert_input.convert_input_files
+    convert_task_index = convert_input.convert_task_index
+    iceberg_table_warehouse_prefix = convert_input.iceberg_table_warehouse_prefix
+    identifier_fields = convert_input.identifier_fields
+    compact_small_files = convert_input.compact_small_files
+    position_delete_for_multiple_data_files = (
+        convert_input.position_delete_for_multiple_data_files
+    )
+    max_parallel_data_file_download = convert_input.max_parallel_data_file_download
+    s3_file_system = convert_input.s3_file_system
+    if not position_delete_for_multiple_data_files:
+        raise NotImplementedError(
+            f"Distributed file level position delete compute is not supported yet"
+        )
+    if compact_small_files:
+        raise NotImplementedError(f"Compact previous position delete not supported yet")
+    logger.info(f"Starting convert task index: {convert_task_index}")
+    applicable_data_files = convert_input_files.applicable_data_files
+    applicable_equality_delete_files = (
+        convert_input_files.applicable_equality_delete_files
+    )
+    all_data_files_for_this_bucket = convert_input_files.all_data_files_for_dedupe
+    partition_value_str = partition_value_record_to_partition_value_string(
+        convert_input_files.partition_value
+    )
+    partition_value = convert_input_files.partition_value
+    iceberg_table_warehouse_prefix_with_partition = (
+        f"{iceberg_table_warehouse_prefix}/{partition_value_str}"
+    )
+    enforce_primary_key_uniqueness = convert_input.enforce_primary_key_uniqueness
+    total_pos_delete_table = []
+    if applicable_equality_delete_files:
+        (
+            pos_delete_after_converting_equality_delete
+        ) = compute_pos_delete_with_limited_parallelism(
+            data_files_list=applicable_data_files,
+            identifier_columns=identifier_fields,
+            equality_delete_files_list=applicable_equality_delete_files,
+            iceberg_table_warehouse_prefix_with_partition=iceberg_table_warehouse_prefix_with_partition,
+            max_parallel_data_file_download=max_parallel_data_file_download,
+            s3_file_system=s3_file_system,
+        )
+        if pos_delete_after_converting_equality_delete:
+            total_pos_delete_table.append(pos_delete_after_converting_equality_delete)
+    if enforce_primary_key_uniqueness:
+        data_files_to_dedupe = get_additional_applicable_data_files(
+            all_data_files=all_data_files_for_this_bucket,
+            data_files_downloaded=applicable_data_files,
+        )
+        pos_delete_after_dedupe = dedupe_data_files(
+            data_file_to_dedupe=data_files_to_dedupe,
+            identify_column_name_concatenated=identifier_fields[0],
+            identifier_columns=identifier_fields,
+            merge_sort_column=sc._ORDERED_RECORD_IDX_COLUMN_NAME,
+        )
+        total_pos_delete_table.append(pos_delete_after_dedupe)
+    total_pos_delete = pa.concat_tables(total_pos_delete_table)
+    to_be_added_files_list = upload_table_with_retry(
+        table=total_pos_delete,
+        s3_url_prefix=iceberg_table_warehouse_prefix_with_partition,
+        s3_table_writer_kwargs={},
+        s3_file_system=s3_file_system,
+    )
+    to_be_delete_files_dict = defaultdict()
+    if applicable_equality_delete_files:
+        to_be_delete_files_dict[partition_value] = [
+            equality_delete_file[1]
+            for equality_delete_file in applicable_equality_delete_files
+        ]
+    to_be_added_files_dict = defaultdict()
+    to_be_added_files_dict[partition_value] = to_be_added_files_list
+    return (to_be_delete_files_dict, to_be_added_files_dict)
+def get_additional_applicable_data_files(all_data_files, data_files_downloaded):
+    data_file_to_dedupe = all_data_files
+    if data_files_downloaded:
+        data_file_to_dedupe = list(set(all_data_files) - set(data_files_downloaded))
+    return data_file_to_dedupe
+def filter_rows_to_be_deleted(
+    equality_delete_table, data_file_table, identifier_columns
+):
+    identifier_column = identifier_columns[0]
+    if equality_delete_table and data_file_table:
+        equality_deletes = pc.is_in(
+            data_file_table[identifier_column],
+            equality_delete_table[identifier_column],
+        )
+        position_delete_table = data_file_table.filter(equality_deletes)
+        logger.info(f"positional_delete_table:{position_delete_table.to_pydict()}")
+        logger.info(f"data_file_table:{data_file_table.to_pydict()}")
+        logger.info(
+            f"length_pos_delete_table, {len(position_delete_table)}, length_data_table:{len(data_file_table)}"
+        )
+    return position_delete_table
+def compute_pos_delete_converting_equality_deletes(
+    equality_delete_table,
+    data_file_table,
+    identifier_columns,
+    iceberg_table_warehouse_prefix_with_partition,
+    s3_file_system,
+):
+    new_position_delete_table = filter_rows_to_be_deleted(
+        data_file_table=data_file_table,
+        equality_delete_table=equality_delete_table,
+        identifier_columns=identifier_columns,
+    )
+    if new_position_delete_table:
+        logger.info(
+            f"Length of position delete table after converting from equality deletes:{len(new_position_delete_table)}"
+        )
+    else:
+        return None
+    return new_position_delete_table
+def download_bucketed_table(data_files, equality_delete_files):
+    from deltacat.utils.pyarrow import s3_file_to_table
+    compacted_table = s3_file_to_table(
+        [data_file.file_path for data_file in data_files]
+    )
+    equality_delete_table = s3_file_to_table(
+        [eq_file.file_path for eq_file in equality_delete_files]
+    )
+    return compacted_table, equality_delete_table
+def compute_pos_delete_with_limited_parallelism(
+    data_files_list,
+    identifier_columns,
+    equality_delete_files_list,
+    iceberg_table_warehouse_prefix_with_partition,
+    max_parallel_data_file_download,
+    s3_file_system,
+):
+    for data_files, equality_delete_files in zip(
+        data_files_list, equality_delete_files_list
+    ):
+        data_table_total = []
+        for data_file in data_files:
+            data_table = download_data_table_and_append_iceberg_columns(
+                data_files=data_file[1],
+                columns_to_download=identifier_columns,
+                additional_columns_to_append=[
+                    sc._FILE_PATH_COLUMN_NAME,
+                    sc._ORDERED_RECORD_IDX_COLUMN_NAME,
+                ],
+                sequence_number=data_file[0],
+            )
+            data_table_total.append(data_table)
+        data_table_total = pa.concat_tables(data_table_total)
+        equality_delete_table_total = []
+        for equality_delete in equality_delete_files:
+            equality_delete_table = download_data_table_and_append_iceberg_columns(
+                data_files=equality_delete[1],
+                columns_to_download=identifier_columns,
+            )
+            equality_delete_table_total.append(equality_delete_table)
+        equality_delete_table_total = pa.concat_tables(equality_delete_table_total)
+    new_pos_delete_table = compute_pos_delete_converting_equality_deletes(
+        equality_delete_table=equality_delete_table_total,
+        data_file_table=data_table_total,
+        iceberg_table_warehouse_prefix_with_partition=iceberg_table_warehouse_prefix_with_partition,
+        identifier_columns=identifier_columns,
+        s3_file_system=s3_file_system,
+    )
+    if not new_pos_delete_table:
+        logger.info("No records deleted based on equality delete converstion")
+    logger.info(
+        f"Number of records to delete based on equality delete convertion:{len(new_pos_delete_table)}"
+    )
+    return new_pos_delete_table

deltacat/compute/converter/steps/dedupe.py ADDED Viewed

@@ -0,0 +1,60 @@
+import pyarrow as pa
+import pyarrow.compute as pc
+import deltacat.compute.converter.utils.iceberg_columns as sc
+from deltacat.compute.converter.utils.io import (
+    download_data_table_and_append_iceberg_columns,
+)
+def dedupe_data_files(
+    data_file_to_dedupe,
+    identify_column_name_concatenated,
+    identifier_columns,
+    merge_sort_column,
+):
+    data_file_table = []
+    # Sort data files by file sequence number first
+    data_file_to_dedupe = sorted(data_file_to_dedupe, key=lambda f: f[0])
+    for file_tuple in data_file_to_dedupe:
+        sequence_number = file_tuple[0]
+        data_file = file_tuple[1]
+        data_file_to_dedupe_table = download_data_table_and_append_iceberg_columns(
+            file=data_file,
+            columns_to_download=identifier_columns,
+            additional_columns_to_append=[
+                sc._FILE_PATH_COLUMN_NAME,
+                sc._ORDERED_RECORD_IDX_COLUMN_NAME,
+            ],
+            sequence_number=sequence_number,
+        )
+        data_file_table.append(data_file_to_dedupe_table)
+    final_data_to_dedupe = pa.concat_tables(data_file_table)
+    record_idx_iterator = iter(range(len(final_data_to_dedupe)))
+    # Append global record index to used as aggregate column
+    final_data_to_dedupe = sc.append_global_record_idx_column(
+        final_data_to_dedupe, record_idx_iterator
+    )
+    final_data_table_indices = final_data_to_dedupe.group_by(
+        identify_column_name_concatenated, use_threads=False
+    ).aggregate([(sc._GLOBAL_RECORD_IDX_COLUMN_NAME, "max")])
+    pos_delete_indices = pc.invert(
+        pc.is_in(
+            final_data_to_dedupe[sc._GLOBAL_RECORD_IDX_COLUMN_NAME],
+            value_set=final_data_table_indices[
+                f"{sc._GLOBAL_RECORD_IDX_COLUMN_NAME}_max"
+            ],
+        )
+    )
+    final_data_table_to_delete = final_data_to_dedupe.filter(pos_delete_indices)
+    final_data_table_to_delete = final_data_table_to_delete.drop(
+        [identify_column_name_concatenated, sc._GLOBAL_RECORD_IDX_COLUMN_NAME]
+    )
+    return final_data_table_to_delete

deltacat/compute/converter/utils/__init__.py ADDED Viewed

File without changes

deltacat/compute/converter/utils/convert_task_options.py ADDED Viewed

@@ -0,0 +1,88 @@
+from typing import Optional, Dict
+from deltacat.exceptions import RetryableError
+AVERAGE_FILE_PATH_COLUMN_SIZE_BYTES = 80
+AVERAGE_POS_COLUMN_SIZE_BYTES = 4
+XXHASH_BYTE_PER_RECORD = 8
+MEMORY_BUFFER_RATE = 1.2
+def estimate_fixed_hash_columns(hash_value_size_bytes_per_record, total_record_count):
+    return hash_value_size_bytes_per_record * total_record_count
+def get_total_record_from_iceberg_files(iceberg_files_list):
+    total_record_count = 0
+    for iceberg_files in iceberg_files_list:
+        total_record_count += sum(file.record_count for file in iceberg_files)
+    return total_record_count
+def estimate_iceberg_pos_delete_additional_columns(
+    include_columns, num_of_record_count
+):
+    total_additional_columns_sizes = 0
+    if "file_path" in include_columns:
+        total_additional_columns_sizes += (
+            AVERAGE_FILE_PATH_COLUMN_SIZE_BYTES * num_of_record_count
+        )
+    elif "pos" in include_columns:
+        total_additional_columns_sizes += (
+            AVERAGE_POS_COLUMN_SIZE_BYTES * num_of_record_count
+        )
+    return total_additional_columns_sizes
+def estimate_convert_remote_option_resources(data_files, equality_delete_files):
+    data_file_record_count = get_total_record_from_iceberg_files(data_files)
+    equality_delete_record_count = get_total_record_from_iceberg_files(
+        equality_delete_files
+    )
+    hash_column_sizes = estimate_fixed_hash_columns(
+        XXHASH_BYTE_PER_RECORD, data_file_record_count + equality_delete_record_count
+    )
+    pos_delete_sizes = estimate_iceberg_pos_delete_additional_columns(
+        ["file_path", "pos"], data_file_record_count + equality_delete_record_count
+    )
+    total_memory_required = hash_column_sizes + pos_delete_sizes
+    return total_memory_required * MEMORY_BUFFER_RATE
+def _get_task_options(
+    memory: float,
+    ray_custom_resources: Optional[Dict] = None,
+    scheduling_strategy: str = "SPREAD",
+) -> Dict:
+    # NOTE: With DEFAULT scheduling strategy in Ray 2.20.0, autoscaler does
+    # not spin up enough nodes fast and hence we see only approximately
+    # 20 tasks get scheduled out of 100 tasks in queue. Hence, we use SPREAD
+    # which is also ideal for merge and hash bucket tasks.
+    # https://docs.ray.io/en/latest/ray-core/scheduling/index.html
+    task_opts = {
+        "memory": memory,
+        "scheduling_strategy": scheduling_strategy,
+    }
+    if ray_custom_resources:
+        task_opts["resources"] = ray_custom_resources
+    task_opts["max_retries"] = 3
+    # List of possible botocore exceptions are available at
+    # https://github.com/boto/botocore/blob/develop/botocore/exceptions.py
+    task_opts["retry_exceptions"] = [RetryableError]
+    return task_opts
+def convert_resource_options_provider(index, files_for_each_bucket):
+    (
+        data_files_list,
+        equality_delete_files_list,
+        position_delete_files_list,
+    ) = files_for_each_bucket[1]
+    memory_requirement = estimate_convert_remote_option_resources(
+        data_files_list, equality_delete_files_list
+    )
+    return _get_task_options(memory=memory_requirement)

deltacat 1.1.35__py3-none-any.whl → 2.0__py3-none-any.whl

deltacat 1.1.35py3-none-any.whl → 2.0py3-none-any.whl