PyPI - deltacat - Versions diffs - 2.0__py3-none-any.whl → 2.0.0__py3-none-any.whl - Mend

deltacat 2.0py3-none-any.whl → 2.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (324) hide show

deltacat/__init__.py +117 -18
deltacat/api.py +536 -126
deltacat/aws/constants.py +0 -23
deltacat/aws/s3u.py +4 -631
deltacat/benchmarking/benchmark_engine.py +4 -2
deltacat/benchmarking/conftest.py +1 -19
deltacat/benchmarking/test_benchmark_pipeline.py +6 -4
deltacat/catalog/__init__.py +64 -5
deltacat/catalog/delegate.py +445 -63
deltacat/catalog/interface.py +188 -62
deltacat/catalog/main/impl.py +2444 -282
deltacat/catalog/model/catalog.py +208 -113
deltacat/catalog/model/properties.py +63 -24
deltacat/compute/__init__.py +14 -0
deltacat/compute/compactor/compaction_session.py +97 -75
deltacat/compute/compactor/model/compact_partition_params.py +75 -30
deltacat/compute/compactor/model/compaction_session_audit_info.py +17 -0
deltacat/compute/compactor/model/round_completion_info.py +16 -6
deltacat/compute/compactor/repartition_session.py +8 -21
deltacat/compute/compactor/steps/hash_bucket.py +5 -5
deltacat/compute/compactor/steps/materialize.py +9 -7
deltacat/compute/compactor/steps/repartition.py +12 -11
deltacat/compute/compactor/utils/io.py +6 -5
deltacat/compute/compactor/utils/round_completion_reader.py +117 -0
deltacat/compute/compactor/utils/system_columns.py +3 -1
deltacat/compute/compactor_v2/compaction_session.py +17 -14
deltacat/compute/compactor_v2/constants.py +30 -1
deltacat/compute/compactor_v2/model/evaluate_compaction_result.py +0 -1
deltacat/compute/compactor_v2/model/hash_bucket_input.py +9 -3
deltacat/compute/compactor_v2/model/merge_file_group.py +5 -2
deltacat/compute/compactor_v2/model/merge_input.py +33 -8
deltacat/compute/compactor_v2/private/compaction_utils.py +167 -68
deltacat/compute/compactor_v2/steps/hash_bucket.py +5 -2
deltacat/compute/compactor_v2/steps/merge.py +267 -55
deltacat/compute/compactor_v2/utils/content_type_params.py +34 -6
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/delta.py +5 -3
deltacat/compute/compactor_v2/utils/io.py +11 -4
deltacat/compute/compactor_v2/utils/merge.py +15 -2
deltacat/compute/compactor_v2/utils/primary_key_index.py +28 -4
deltacat/compute/compactor_v2/utils/task_options.py +45 -33
deltacat/compute/converter/constants.py +5 -0
deltacat/compute/converter/converter_session.py +207 -52
deltacat/compute/converter/model/convert_input.py +43 -16
deltacat/compute/converter/model/convert_input_files.py +33 -16
deltacat/compute/converter/model/convert_result.py +80 -0
deltacat/compute/converter/model/converter_session_params.py +64 -19
deltacat/compute/converter/pyiceberg/catalog.py +21 -18
deltacat/compute/converter/pyiceberg/overrides.py +193 -65
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +148 -100
deltacat/compute/converter/steps/convert.py +230 -75
deltacat/compute/converter/steps/dedupe.py +46 -12
deltacat/compute/converter/utils/convert_task_options.py +66 -22
deltacat/compute/converter/utils/converter_session_utils.py +126 -60
deltacat/compute/converter/utils/iceberg_columns.py +13 -8
deltacat/compute/converter/utils/io.py +173 -13
deltacat/compute/converter/utils/s3u.py +42 -27
deltacat/compute/janitor.py +205 -0
deltacat/compute/jobs/client.py +417 -0
deltacat/compute/resource_estimation/delta.py +38 -6
deltacat/compute/resource_estimation/model.py +8 -0
deltacat/constants.py +49 -6
deltacat/docs/autogen/schema/inference/generate_type_mappings.py +687 -0
deltacat/docs/autogen/schema/inference/parse_json_type_mappings.py +673 -0
deltacat/env.py +10 -0
deltacat/examples/basic_logging.py +6 -6
deltacat/examples/compactor/aws/__init__.py +1 -0
deltacat/examples/compactor/bootstrap.py +863 -0
deltacat/examples/compactor/compactor.py +373 -0
deltacat/examples/compactor/explorer.py +473 -0
deltacat/examples/compactor/gcp/__init__.py +1 -0
deltacat/examples/compactor/job_runner.py +439 -0
deltacat/examples/compactor/utils/__init__.py +1 -0
deltacat/examples/compactor/utils/common.py +261 -0
deltacat/examples/experimental/iceberg/converter/beam/app.py +226 -0
deltacat/examples/experimental/iceberg/converter/beam/main.py +133 -0
deltacat/examples/experimental/iceberg/converter/beam/test_workflow.py +113 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/__init__.py +3 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/common.py +174 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py +263 -0
deltacat/examples/{iceberg → experimental/iceberg}/iceberg_bucket_writer.py +66 -21
deltacat/examples/{iceberg → experimental/iceberg}/iceberg_reader.py +2 -4
deltacat/examples/hello_world.py +4 -2
deltacat/examples/indexer/indexer.py +163 -0
deltacat/examples/indexer/job_runner.py +198 -0
deltacat/exceptions.py +66 -4
deltacat/experimental/catalog/iceberg/__init__.py +6 -0
deltacat/{catalog → experimental/catalog}/iceberg/iceberg_catalog_config.py +1 -1
deltacat/{catalog → experimental/catalog}/iceberg/impl.py +43 -12
deltacat/{catalog → experimental/catalog}/iceberg/overrides.py +12 -14
deltacat/experimental/compatibility/backfill_locator_to_id_mappings.py +201 -0
deltacat/experimental/converter_agent/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/managed.py +173 -0
deltacat/experimental/converter_agent/table_monitor.py +479 -0
deltacat/experimental/daft/__init__.py +4 -0
deltacat/experimental/daft/daft_catalog.py +229 -0
deltacat/experimental/storage/__init__.py +0 -0
deltacat/experimental/storage/iceberg/__init__.py +0 -0
deltacat/experimental/storage/iceberg/iceberg_scan_planner.py +129 -0
deltacat/{storage → experimental/storage}/iceberg/impl.py +6 -4
deltacat/{storage → experimental/storage}/iceberg/model.py +7 -3
deltacat/experimental/storage/iceberg/visitor.py +119 -0
deltacat/experimental/storage/rivulet/__init__.py +11 -0
deltacat/experimental/storage/rivulet/arrow/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/arrow/serializer.py +7 -4
deltacat/{storage → experimental/storage}/rivulet/dataset.py +13 -12
deltacat/{storage → experimental/storage}/rivulet/dataset_executor.py +12 -20
deltacat/experimental/storage/rivulet/feather/__init__.py +7 -0
deltacat/{storage → experimental/storage}/rivulet/feather/file_reader.py +7 -5
deltacat/{storage → experimental/storage}/rivulet/feather/serializer.py +4 -4
deltacat/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/fs/file_provider.py +3 -3
deltacat/{storage → experimental/storage}/rivulet/fs/file_store.py +2 -2
deltacat/{storage → experimental/storage}/rivulet/fs/output_file.py +1 -1
deltacat/{storage → experimental/storage}/rivulet/logical_plan.py +4 -4
deltacat/experimental/storage/rivulet/metastore/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/metastore/delta.py +1 -3
deltacat/{storage → experimental/storage}/rivulet/metastore/json_sst.py +3 -3
deltacat/{storage → experimental/storage}/rivulet/metastore/sst.py +2 -2
deltacat/{storage → experimental/storage}/rivulet/metastore/sst_interval_tree.py +3 -3
deltacat/experimental/storage/rivulet/parquet/__init__.py +7 -0
deltacat/experimental/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/parquet/file_reader.py +7 -5
deltacat/{storage → experimental/storage}/rivulet/parquet/serializer.py +4 -4
deltacat/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/reader/block_scanner.py +20 -9
deltacat/{storage → experimental/storage}/rivulet/reader/data_reader.py +3 -3
deltacat/{storage → experimental/storage}/rivulet/reader/data_scan.py +5 -3
deltacat/{storage → experimental/storage}/rivulet/reader/dataset_metastore.py +7 -6
deltacat/{storage → experimental/storage}/rivulet/reader/dataset_reader.py +8 -6
deltacat/{storage → experimental/storage}/rivulet/reader/pyarrow_data_reader.py +4 -1
deltacat/{storage → experimental/storage}/rivulet/reader/reader_type_registrar.py +4 -4
deltacat/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/schema/schema.py +1 -1
deltacat/{storage → experimental/storage}/rivulet/serializer.py +1 -1
deltacat/{storage → experimental/storage}/rivulet/serializer_factory.py +9 -5
deltacat/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/experimental/storage/rivulet/shard/range_shard.py +129 -0
deltacat/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/writer/memtable_dataset_writer.py +20 -9
deltacat/io/__init__.py +13 -0
deltacat/io/dataset/__init__.py +0 -0
deltacat/io/dataset/deltacat_dataset.py +91 -0
deltacat/io/datasink/__init__.py +0 -0
deltacat/io/datasink/deltacat_datasink.py +207 -0
deltacat/io/datasource/__init__.py +0 -0
deltacat/io/datasource/deltacat_datasource.py +579 -0
deltacat/io/reader/__init__.py +0 -0
deltacat/io/reader/deltacat_read_api.py +172 -0
deltacat/storage/__init__.py +22 -2
deltacat/storage/interface.py +54 -32
deltacat/storage/main/impl.py +1494 -541
deltacat/storage/model/delta.py +27 -3
deltacat/storage/model/expression/__init__.py +47 -0
deltacat/storage/model/expression/expression.py +656 -0
deltacat/storage/model/expression/visitor.py +248 -0
deltacat/storage/model/locator.py +6 -12
deltacat/storage/model/manifest.py +231 -6
deltacat/storage/model/metafile.py +224 -119
deltacat/storage/model/namespace.py +8 -1
deltacat/storage/model/partition.py +117 -42
deltacat/storage/model/scan/push_down.py +32 -5
deltacat/storage/model/schema.py +2427 -159
deltacat/storage/model/shard.py +6 -2
deltacat/storage/model/sort_key.py +40 -0
deltacat/storage/model/stream.py +9 -2
deltacat/storage/model/table.py +12 -1
deltacat/storage/model/table_version.py +11 -0
deltacat/storage/model/transaction.py +1184 -208
deltacat/storage/model/transform.py +81 -2
deltacat/storage/model/types.py +53 -29
deltacat/storage/util/__init__.py +0 -0
deltacat/storage/util/scan_planner.py +26 -0
deltacat/tests/_io/reader/__init__.py +0 -0
deltacat/tests/_io/reader/test_deltacat_read_api.py +0 -0
deltacat/tests/_io/test_cloudpickle_bug_fix.py +8 -4
deltacat/tests/aws/test_s3u.py +2 -31
deltacat/tests/catalog/data/__init__.py +0 -0
deltacat/tests/catalog/main/__init__.py +0 -0
deltacat/tests/catalog/main/test_catalog_impl_namespace_operations.py +130 -0
deltacat/tests/catalog/main/test_catalog_impl_table_operations.py +1972 -0
deltacat/tests/catalog/model/__init__.py +0 -0
deltacat/tests/catalog/model/test_table_definition.py +16 -0
deltacat/tests/catalog/test_catalogs.py +103 -106
deltacat/tests/catalog/test_default_catalog_impl.py +12152 -72
deltacat/tests/compute/compact_partition_test_cases.py +35 -8
deltacat/tests/compute/compactor/steps/test_repartition.py +12 -12
deltacat/tests/compute/compactor/utils/test_io.py +124 -120
deltacat/tests/compute/compactor/utils/test_round_completion_reader.py +254 -0
deltacat/tests/compute/compactor_v2/test_compaction_session.py +423 -312
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +266 -0
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +45 -0
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +270 -1
deltacat/tests/compute/conftest.py +8 -44
deltacat/tests/compute/converter/test_convert_session.py +697 -349
deltacat/tests/compute/converter/utils.py +15 -6
deltacat/tests/compute/resource_estimation/test_delta.py +145 -79
deltacat/tests/compute/test_compact_partition_incremental.py +103 -70
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +89 -66
deltacat/tests/compute/test_compact_partition_params.py +13 -8
deltacat/tests/compute/test_compact_partition_rebase.py +77 -62
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +263 -193
deltacat/tests/compute/test_janitor.py +236 -0
deltacat/tests/compute/test_util_common.py +716 -43
deltacat/tests/compute/test_util_constant.py +0 -1
deltacat/tests/{storage/conftest.py → conftest.py} +1 -1
deltacat/tests/daft/__init__.py +0 -0
deltacat/tests/daft/test_model.py +97 -0
deltacat/tests/experimental/__init__.py +1 -0
deltacat/tests/experimental/catalog/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/test_iceberg_catalog.py +71 -0
deltacat/tests/experimental/compatibility/__init__.py +1 -0
deltacat/tests/experimental/compatibility/test_backfill_locator_to_id_mappings.py +582 -0
deltacat/tests/experimental/daft/__init__.py +0 -0
deltacat/tests/experimental/daft/test_deltacat_daft_integration.py +136 -0
deltacat/tests/experimental/storage/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/conftest.py +3 -3
deltacat/tests/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/fs/test_file_location_provider.py +3 -2
deltacat/tests/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/reader/query_expression.py +80 -0
deltacat/tests/experimental/storage/rivulet/reader/test_data_scan.py +119 -0
deltacat/tests/experimental/storage/rivulet/reader/test_dataset_metastore.py +71 -0
deltacat/tests/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/schema/test_schema.py +1 -1
deltacat/tests/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/shard/test_range_shard.py +162 -0
deltacat/tests/{storage → experimental/storage}/rivulet/test_dataset.py +6 -4
deltacat/tests/{storage → experimental/storage}/rivulet/test_manifest.py +5 -5
deltacat/tests/{storage → experimental/storage}/rivulet/test_sst_interval_tree.py +5 -5
deltacat/tests/{storage → experimental/storage}/rivulet/test_utils.py +8 -6
deltacat/tests/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/writer/test_dataset_write_then_read.py +11 -9
deltacat/tests/{storage → experimental/storage}/rivulet/writer/test_dataset_writer.py +2 -2
deltacat/tests/{storage → experimental/storage}/rivulet/writer/test_memtable_dataset_writer.py +7 -7
deltacat/tests/storage/main/test_main_storage.py +6900 -95
deltacat/tests/storage/model/test_expression.py +327 -0
deltacat/tests/storage/model/test_manifest.py +129 -0
deltacat/tests/storage/model/test_metafile_io.py +78 -173
deltacat/tests/storage/model/test_partition_scheme.py +85 -0
deltacat/tests/storage/model/test_schema.py +171 -0
deltacat/tests/storage/model/test_schema_update.py +1925 -0
deltacat/tests/storage/model/test_shard.py +3 -1
deltacat/tests/storage/model/test_sort_scheme.py +90 -0
deltacat/tests/storage/model/test_transaction.py +393 -48
deltacat/tests/storage/model/test_transaction_history.py +886 -0
deltacat/tests/test_deltacat_api.py +1036 -11
deltacat/tests/test_exceptions.py +9 -5
deltacat/tests/test_utils/pyarrow.py +52 -21
deltacat/tests/test_utils/storage.py +23 -34
deltacat/tests/types/__init__.py +0 -0
deltacat/tests/types/test_tables.py +104 -0
deltacat/tests/utils/exceptions.py +22 -0
deltacat/tests/utils/main_deltacat_storage_mock.py +31 -0
deltacat/tests/utils/ray_utils/test_dataset.py +123 -5
deltacat/tests/utils/test_daft.py +121 -31
deltacat/tests/utils/test_numpy.py +1193 -0
deltacat/tests/utils/test_pandas.py +1106 -0
deltacat/tests/utils/test_polars.py +1040 -0
deltacat/tests/utils/test_pyarrow.py +1370 -89
deltacat/types/media.py +345 -37
deltacat/types/tables.py +2344 -46
deltacat/utils/arguments.py +33 -1
deltacat/utils/daft.py +824 -40
deltacat/utils/export.py +3 -1
deltacat/utils/filesystem.py +139 -9
deltacat/utils/metafile_locator.py +2 -1
deltacat/utils/numpy.py +118 -26
deltacat/utils/pandas.py +577 -48
deltacat/utils/polars.py +759 -0
deltacat/utils/pyarrow.py +1373 -192
deltacat/utils/ray_utils/concurrency.py +1 -1
deltacat/utils/ray_utils/dataset.py +101 -10
deltacat/utils/ray_utils/runtime.py +56 -4
deltacat/utils/reader_compatibility_mapping.py +3083 -0
deltacat/utils/url.py +1325 -0
deltacat-2.0.0.dist-info/METADATA +1163 -0
deltacat-2.0.0.dist-info/RECORD +439 -0
{deltacat-2.0.dist-info → deltacat-2.0.0.dist-info}/WHEEL +1 -1
deltacat/catalog/iceberg/__init__.py +0 -4
deltacat/compute/compactor/utils/round_completion_file.py +0 -97
deltacat/compute/merge_on_read/__init__.py +0 -4
deltacat/compute/merge_on_read/daft.py +0 -40
deltacat/compute/merge_on_read/model/merge_on_read_params.py +0 -66
deltacat/compute/merge_on_read/utils/delta.py +0 -42
deltacat/examples/common/fixtures.py +0 -15
deltacat/storage/iceberg/iceberg_scan_planner.py +0 -28
deltacat/storage/rivulet/__init__.py +0 -11
deltacat/storage/rivulet/feather/__init__.py +0 -5
deltacat/storage/rivulet/parquet/__init__.py +0 -5
deltacat/tests/compute/compactor/utils/test_round_completion_file.py +0 -231
deltacat/tests/compute/test_util_create_table_deltas_repo.py +0 -388
deltacat/tests/local_deltacat_storage/__init__.py +0 -1235
deltacat/tests/local_deltacat_storage/exceptions.py +0 -10
deltacat/utils/s3fs.py +0 -21
deltacat-2.0.dist-info/METADATA +0 -65
deltacat-2.0.dist-info/RECORD +0 -347
/deltacat/compute/{merge_on_read/model → jobs}/__init__.py +0 -0
/deltacat/{compute/merge_on_read/utils → docs}/__init__.py +0 -0
/deltacat/{examples/common → docs/autogen}/__init__.py +0 -0
/deltacat/{examples/iceberg → docs/autogen/schema}/__init__.py +0 -0
/deltacat/{storage/iceberg → docs/autogen/schema/inference}/__init__.py +0 -0
/deltacat/{storage/rivulet/arrow → examples/compactor}/__init__.py +0 -0
/deltacat/{storage/rivulet/fs → examples/experimental}/__init__.py +0 -0
/deltacat/{storage/rivulet/metastore → examples/experimental/iceberg}/__init__.py +0 -0
/deltacat/{storage/rivulet/reader → examples/experimental/iceberg/converter}/__init__.py +0 -0
/deltacat/{storage/rivulet/schema → examples/experimental/iceberg/converter/beam}/__init__.py +0 -0
/deltacat/{storage/rivulet/writer → examples/indexer}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet → examples/indexer/aws}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet/fs → examples/indexer/gcp}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet/schema → experimental}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet/writer → experimental/catalog}/__init__.py +0 -0
/deltacat/{storage/rivulet/parquet/data_reader.py → experimental/compatibility/__init__.py} +0 -0
/deltacat/{storage → experimental/storage}/rivulet/fs/input_file.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/mvp/Table.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/mvp/__init__.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/reader/query_expression.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/schema/datatype.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/writer/dataset_writer.py +0 -0
{deltacat-2.0.dist-info → deltacat-2.0.0.dist-info/licenses}/LICENSE +0 -0
{deltacat-2.0.dist-info → deltacat-2.0.0.dist-info}/top_level.txt +0 -0

deltacat/compute/converter/model/converter_session_params.py CHANGED Viewed

@@ -1,6 +1,11 @@
 from __future__ import annotations
-from typing import Optional, Dict
-from deltacat.compute.converter.constants import DEFAULT_CONVERTER_TASK_MAX_PARALLELISM
+from typing import Optional, Dict, Any, List
+from deltacat.compute.converter.constants import (
+    DEFAULT_CONVERTER_TASK_MAX_PARALLELISM,
+)
+from deltacat.constants import DEFAULT_NAMESPACE
+from fsspec import AbstractFileSystem
+from pyiceberg.catalog import Catalog
 class ConverterSessionParams(dict):
@@ -9,7 +14,7 @@ class ConverterSessionParams(dict):
     """
     @staticmethod
-    def of(params: Optional[Dict]) -> ConverterSessionParams:
+    def of(params: Optional[Dict[str, Any]]) -> ConverterSessionParams:
         params = {} if params is None else params
         assert params.get("catalog") is not None, "catalog is a required arg"
         assert (
@@ -18,15 +23,15 @@ class ConverterSessionParams(dict):
         assert (
             params.get("iceberg_warehouse_bucket_name") is not None
         ), "iceberg_warehouse_bucket_name is a required arg"
-        assert (
-            params.get("iceberg_namespace") is not None
-        ), "iceberg_namespace is a required arg"
         result = ConverterSessionParams(params)
+        result.iceberg_namespace = params.get("iceberg_namespace", DEFAULT_NAMESPACE)
         result.enforce_primary_key_uniqueness = params.get(
             "enforce_primary_key_uniqueness", False
         )
-        result.compact_small_files = params.get("compact_small_files", False)
+        result.compact_previous_position_delete_files = params.get(
+            "compact_previous_position_delete_files", False
+        )
         # For Iceberg v3 spec, option to produce delete vector that can establish 1:1 mapping with data files.
         result.position_delete_for_multiple_data_files = params.get(
@@ -36,10 +41,14 @@ class ConverterSessionParams(dict):
             "task_max_parallelism", DEFAULT_CONVERTER_TASK_MAX_PARALLELISM
         )
         result.merge_keys = params.get("merge_keys", None)
+        result.s3_client_kwargs = params.get("s3_client_kwargs", {})
+        result.filesystem = params.get("filesystem", None)
+        result.s3_prefix_override = params.get("s3_prefix_override", None)
         return result
     @property
-    def catalog(self):
+    def catalog(self) -> Catalog:
         return self["catalog"]
     @property
@@ -54,21 +63,31 @@ class ConverterSessionParams(dict):
     def iceberg_namespace(self) -> str:
         return self["iceberg_namespace"]
+    @iceberg_namespace.setter
+    def iceberg_namespace(self, iceberg_namespace: str) -> None:
+        self["iceberg_namespace"] = iceberg_namespace
     @property
     def enforce_primary_key_uniqueness(self) -> bool:
         return self["enforce_primary_key_uniqueness"]
     @enforce_primary_key_uniqueness.setter
-    def enforce_primary_key_uniqueness(self, enforce_primary_key_uniqueness) -> None:
+    def enforce_primary_key_uniqueness(
+        self, enforce_primary_key_uniqueness: bool
+    ) -> None:
         self["enforce_primary_key_uniqueness"] = enforce_primary_key_uniqueness
     @property
-    def compact_small_files(self) -> bool:
-        return self["compact_small_files"]
+    def compact_previous_position_delete_files(self) -> bool:
+        return self["compact_previous_position_delete_files"]
-    @compact_small_files.setter
-    def compact_small_files(self, compact_small_files) -> None:
-        self["compact_small_files"] = compact_small_files
+    @compact_previous_position_delete_files.setter
+    def compact_previous_position_delete_files(
+        self, compact_previous_position_delete_files: bool
+    ) -> None:
+        self[
+            "compact_previous_position_delete_files"
+        ] = compact_previous_position_delete_files
     @property
     def position_delete_for_multiple_data_files(self) -> bool:
@@ -76,24 +95,50 @@ class ConverterSessionParams(dict):
     @position_delete_for_multiple_data_files.setter
     def position_delete_for_multiple_data_files(
-        self, position_delete_for_multiple_data_files
+        self, position_delete_for_multiple_data_files: bool
     ) -> None:
         self[
             "position_delete_for_multiple_data_files"
         ] = position_delete_for_multiple_data_files
     @property
-    def task_max_parallelism(self) -> str:
+    def task_max_parallelism(self) -> int:
         return self["task_max_parallelism"]
     @task_max_parallelism.setter
-    def task_max_parallelism(self, task_max_parallelism) -> None:
+    def task_max_parallelism(self, task_max_parallelism: int) -> None:
         self["task_max_parallelism"] = task_max_parallelism
     @property
-    def merge_keys(self) -> str:
+    def merge_keys(self) -> Optional[List[str]]:
         return self["merge_keys"]
     @merge_keys.setter
-    def merge_keys(self, merge_keys) -> None:
+    def merge_keys(self, merge_keys: Optional[List[str]]) -> None:
         self["merge_keys"] = merge_keys
+    @property
+    def s3_client_kwargs(self) -> Dict[str, Any]:
+        return self["s3_client_kwargs"]
+    @s3_client_kwargs.setter
+    def s3_client_kwargs(self, s3_client_kwargs: Dict[str, Any]) -> None:
+        self["s3_client_kwargs"] = s3_client_kwargs
+    @property
+    def filesystem(self) -> Optional[AbstractFileSystem]:
+        return self["filesystem"]
+    @filesystem.setter
+    def filesystem(self, filesystem: Optional[AbstractFileSystem]) -> None:
+        self["filesystem"] = filesystem
+    @property
+    def location_provider_prefix_override(self) -> Optional[str]:
+        return self["location_provider_prefix_override"]
+    @location_provider_prefix_override.setter
+    def location_provider_prefix_override(
+        self, location_provider_prefix_override: Optional[str]
+    ) -> None:
+        self["location_provider_prefix_override"] = location_provider_prefix_override

deltacat/compute/converter/pyiceberg/catalog.py CHANGED Viewed

@@ -1,8 +1,15 @@
-from typing import Optional
-def load_catalog(iceberg_catalog_name, iceberg_catalog_properties):
-    catalog = load_catalog(
+from typing import Optional, Dict, Any
+from pyiceberg.table import Table
+from pyiceberg.catalog import Catalog, load_catalog as pyiceberg_load_catalog
+from botocore.credentials import Credentials
+import boto3
+from boto3.session import Session
+def load_catalog(
+    iceberg_catalog_name: str, iceberg_catalog_properties: Dict[str, Any]
+) -> Catalog:
+    catalog = pyiceberg_load_catalog(
         name=iceberg_catalog_name,
         **iceberg_catalog_properties,
     )
@@ -23,25 +30,21 @@ def get_s3_path(
     return result_path
-def get_bucket_name():
-    return "metadata-py4j-zyiqin1"
+def get_bucket_name() -> str:
+    return "test-bucket"
-def get_s3_prefix():
+def get_s3_prefix() -> str:
     return get_s3_path(get_bucket_name())
-def get_credential():
-    import boto3
-    boto3_session = boto3.Session()
-    credentials = boto3_session.get_credentials()
+def get_credential() -> Credentials:
+    boto3_session: Session = boto3.Session()
+    credentials: Credentials = boto3_session.get_credentials()
     return credentials
-def get_glue_catalog():
-    from pyiceberg.catalog import load_catalog
+def get_glue_catalog() -> Catalog:
     credential = get_credential()
     # Credentials are refreshable, so accessing your access key / secret key
     # separately can lead to a race condition. Use this to get an actual matched
@@ -51,7 +54,7 @@ def get_glue_catalog():
     secret_access_key = credential.secret_key
     session_token = credential.token
     s3_path = get_s3_prefix()
-    glue_catalog = load_catalog(
+    glue_catalog = pyiceberg_load_catalog(
         "glue",
         **{
             "warehouse": s3_path,
@@ -70,6 +73,6 @@ def get_glue_catalog():
     return glue_catalog
-def load_table(catalog, table_name):
+def load_table(catalog: Catalog, table_name: str) -> Table:
     loaded_table = catalog.load_table(table_name)
     return loaded_table

deltacat/compute/converter/pyiceberg/overrides.py CHANGED Viewed

@@ -1,69 +1,210 @@
 from collections import defaultdict
 import logging
 from deltacat import logs
+import pyarrow
 import pyarrow.parquet as pq
+from pyiceberg.io.pyarrow import (
+    parquet_path_to_id_mapping,
+    StatisticsCollector,
+    MetricModeTypes,
+    DataFileStatistics,
+    MetricsMode,
+    StatsAggregator,
+)
+from typing import Dict, List, Set, Any, Tuple
+from deltacat.compute.converter.utils.iceberg_columns import (
+    ICEBERG_RESERVED_FIELD_ID_FOR_FILE_PATH_COLUMN,
+    ICEBERG_RESERVED_FIELD_ID_FOR_POS_COLUMN,
+)
+from pyiceberg.io.pyarrow import (
+    compute_statistics_plan,
+)
+from pyiceberg.manifest import (
+    DataFile,
+    DataFileContent,
+    FileFormat,
+)
+from pyiceberg.table import _min_sequence_number, _open_manifest, Table
+from pyiceberg.utils.concurrent import ExecutorFactory
+from itertools import chain
+from pyiceberg.typedef import (
+    KeyDefaultDict,
+)
+from pyiceberg.schema import Schema
+from pyiceberg.io import FileIO
+from deltacat.compute.converter.model.convert_input_files import (
+    DataFileList,
+)
 logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
-def parquet_files_dict_to_iceberg_data_files(io, table_metadata, files_dict_list):
-    from pyiceberg.io.pyarrow import (
-        _check_pyarrow_schema_compatible,
-        data_file_statistics_from_parquet_metadata,
-        compute_statistics_plan,
-        parquet_path_to_id_mapping,
-    )
-    from pyiceberg.manifest import (
-        DataFile,
-        DataFileContent,
-        FileFormat,
+def parquet_path_to_id_mapping_override(schema: Schema) -> Dict[str, int]:
+    res = parquet_path_to_id_mapping(schema)
+    # Override here to insert position delete reserved column field IDs
+    res["file_path"] = ICEBERG_RESERVED_FIELD_ID_FOR_FILE_PATH_COLUMN
+    res["pos"] = ICEBERG_RESERVED_FIELD_ID_FOR_POS_COLUMN
+    return res
+def data_file_statistics_from_parquet_metadata(
+    parquet_metadata: pq.FileMetaData,
+    stats_columns: Dict[int, StatisticsCollector],
+    parquet_column_mapping: Dict[str, int],
+) -> DataFileStatistics:
+    """
+    Overrides original Pyiceberg function: Compute and return DataFileStatistics that includes the following.
+    - record_count
+    - column_sizes
+    - value_counts
+    - null_value_counts
+    - nan_value_counts
+    - column_aggregates
+    - split_offsets
+    Args:
+        parquet_metadata (pyarrow.parquet.FileMetaData): A pyarrow metadata object.
+        stats_columns (Dict[int, StatisticsCollector]): The statistics gathering plan. It is required to
+            set the mode for column metrics collection
+        parquet_column_mapping (Dict[str, int]): The mapping of the parquet file name to the field ID
+    """
+    column_sizes: Dict[int, int] = {}
+    value_counts: Dict[int, int] = {}
+    split_offsets: List[int] = []
+    null_value_counts: Dict[int, int] = {}
+    nan_value_counts: Dict[int, int] = {}
+    col_aggs = {}
+    invalidate_col: Set[int] = set()
+    for r in range(parquet_metadata.num_row_groups):
+        # References:
+        # https://github.com/apache/iceberg/blob/fc381a81a1fdb8f51a0637ca27cd30673bd7aad3/parquet/src/main/java/org/apache/iceberg/parquet/ParquetUtil.java#L232
+        # https://github.com/apache/parquet-mr/blob/ac29db4611f86a07cc6877b416aa4b183e09b353/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/metadata/ColumnChunkMetaData.java#L184
+        row_group = parquet_metadata.row_group(r)
+        data_offset = row_group.column(0).data_page_offset
+        dictionary_offset = row_group.column(0).dictionary_page_offset
+        if row_group.column(0).has_dictionary_page and dictionary_offset < data_offset:
+            split_offsets.append(dictionary_offset)
+        else:
+            split_offsets.append(data_offset)
+        for pos in range(parquet_metadata.num_columns):
+            column = row_group.column(pos)
+            field_id = parquet_column_mapping[column.path_in_schema]
+            if field_id in stats_columns:
+                stats_col = stats_columns[field_id]
+                column_sizes.setdefault(field_id, 0)
+                column_sizes[field_id] += column.total_compressed_size
+                if stats_col.mode == MetricsMode(MetricModeTypes.NONE):
+                    continue
+                value_counts[field_id] = (
+                    value_counts.get(field_id, 0) + column.num_values
+                )
+                if column.is_stats_set:
+                    try:
+                        statistics = column.statistics
+                        if statistics.has_null_count:
+                            null_value_counts[field_id] = (
+                                null_value_counts.get(field_id, 0)
+                                + statistics.null_count
+                            )
+                        if stats_col.mode == MetricsMode(MetricModeTypes.COUNTS):
+                            continue
+                        if field_id not in col_aggs:
+                            col_aggs[field_id] = StatsAggregator(
+                                stats_col.iceberg_type,
+                                statistics.physical_type,
+                                stats_col.mode.length,
+                            )
+                        col_aggs[field_id].update_min(statistics.min)
+                        col_aggs[field_id].update_max(statistics.max)
+                    except pyarrow.lib.ArrowNotImplementedError as e:
+                        invalidate_col.add(field_id)
+                        logger.warning(e)
+            else:
+                # Note: Removed original adding columns without stats to invalid column logic here
+                logger.warning(
+                    "PyArrow statistics missing for column %d when writing file", pos
+                )
+    split_offsets.sort()
+    for field_id in invalidate_col:
+        del col_aggs[field_id]
+        del null_value_counts[field_id]
+    return DataFileStatistics(
+        record_count=parquet_metadata.num_rows,
+        column_sizes=column_sizes,
+        value_counts=value_counts,
+        null_value_counts=null_value_counts,
+        nan_value_counts=nan_value_counts,
+        column_aggregates=col_aggs,
+        split_offsets=split_offsets,
     )
-    data_file_content_type = DataFileContent.POSITION_DELETES
+def parquet_files_dict_to_iceberg_data_files(
+    io: FileIO,
+    table_metadata: Any,
+    files_dict: Dict[Any, List[str]],
+    file_content_type: DataFileContent,
+) -> List[DataFile]:
     iceberg_files = []
     schema = table_metadata.schema()
-    for files_dict in files_dict_list:
-        for partition_value, file_paths in files_dict.items():
-            for file_path in file_paths:
-                input_file = io.new_input(file_path)
-                with input_file.open() as input_stream:
-                    parquet_metadata = pq.read_metadata(input_stream)
-                _check_pyarrow_schema_compatible(
-                    schema, parquet_metadata.schema.to_arrow_schema()
-                )
+    for partition_value, file_paths in files_dict.items():
+        for file_path in file_paths:
+            input_file = io.new_input(file_path)
+            with input_file.open() as input_stream:
+                parquet_metadata = pq.read_metadata(input_stream)
-                statistics = data_file_statistics_from_parquet_metadata(
-                    parquet_metadata=parquet_metadata,
-                    stats_columns=compute_statistics_plan(
-                        schema, table_metadata.properties
-                    ),
-                    parquet_column_mapping=parquet_path_to_id_mapping(schema),
-                )
+            # Removed _check_pyarrow_schema_compatible() here since reserved columns does not comply to all rules.
-                data_file = DataFile(
-                    content=data_file_content_type,
-                    file_path=file_path,
-                    file_format=FileFormat.PARQUET,
-                    partition=partition_value,
-                    # partition=Record(**{"pk": "111", "bucket": 2}),
-                    file_size_in_bytes=len(input_file),
-                    sort_order_id=None,
-                    spec_id=table_metadata.default_spec_id,
-                    equality_ids=None,
-                    key_metadata=None,
-                    **statistics.to_serialized_dict(),
-                )
-                iceberg_files.append(data_file)
+            statistics = data_file_statistics_from_parquet_metadata(
+                parquet_metadata=parquet_metadata,
+                stats_columns=compute_statistics_plan(
+                    schema, table_metadata.properties
+                ),
+                parquet_column_mapping=parquet_path_to_id_mapping_override(schema),
+            )
+            data_file = DataFile(
+                content=file_content_type,
+                file_path=file_path,
+                file_format=FileFormat.PARQUET,
+                partition=partition_value,
+                file_size_in_bytes=len(input_file),
+                sort_order_id=None,
+                spec_id=table_metadata.default_spec_id,
+                equality_ids=None,
+                key_metadata=None,
+                **statistics.to_serialized_dict(),
+            )
+            iceberg_files.append(data_file)
     return iceberg_files
-def fetch_all_bucket_files(table):
+def fetch_all_bucket_files(
+    table: Table,
+) -> Tuple[Dict[Any, DataFileList], Dict[Any, DataFileList], Dict[Any, DataFileList]]:
     # step 1: filter manifests using partition summaries
     # the filter depends on the partition spec used to write the manifest file, so create a cache of filters for each spec id
-    from pyiceberg.typedef import (
-        KeyDefaultDict,
-    )
     data_scan = table.scan()
     snapshot = data_scan.snapshot()
     if not snapshot:
@@ -78,23 +219,8 @@ def fetch_all_bucket_files(table):
     # step 2: filter the data files in each manifest
     # this filter depends on the partition spec used to write the manifest file
-    from pyiceberg.expressions.visitors import _InclusiveMetricsEvaluator
-    from pyiceberg.types import (
-        strtobool,
-    )
-    from pyiceberg.table import _min_sequence_number, _open_manifest
-    from pyiceberg.utils.concurrent import ExecutorFactory
-    from itertools import chain
-    from pyiceberg.manifest import DataFileContent
     partition_evaluators = KeyDefaultDict(data_scan._build_partition_evaluator)
-    metrics_evaluator = _InclusiveMetricsEvaluator(
-        data_scan.table_metadata.schema(),
-        data_scan.row_filter,
-        data_scan.case_sensitive,
-        strtobool(data_scan.options.get("include_empty_files", "false")),
-    ).eval
+    residual_evaluators = KeyDefaultDict(data_scan._build_residual_evaluator)
     min_sequence_number = _min_sequence_number(manifests)
     # {"bucket_index": List[DataFile]}
@@ -111,7 +237,8 @@ def fetch_all_bucket_files(table):
                     data_scan.io,
                     manifest,
                     partition_evaluators[manifest.partition_spec_id],
-                    metrics_evaluator,
+                    residual_evaluators[manifest.partition_spec_id],
+                    data_scan._build_metrics_evaluator(),
                 )
                 for manifest in manifests
                 if data_scan._check_sequence_number(min_sequence_number, manifest)
@@ -122,9 +249,10 @@ def fetch_all_bucket_files(table):
         file_sequence_number = manifest_entry.sequence_number
         data_file_tuple = (file_sequence_number, data_file)
         partition_value = data_file.partition
         if data_file.content == DataFileContent.DATA:
             data_entries[partition_value].append(data_file_tuple)
-        if data_file.content == DataFileContent.POSITION_DELETES:
+        elif data_file.content == DataFileContent.POSITION_DELETES:
             positional_delete_entries[partition_value].append(data_file_tuple)
         elif data_file.content == DataFileContent.EQUALITY_DELETES:
             equality_data_entries[partition_value].append(data_file_tuple)

deltacat 2.0__py3-none-any.whl → 2.0.0__py3-none-any.whl

deltacat 2.0py3-none-any.whl → 2.0.0py3-none-any.whl