PyPI - deltacat - Versions diffs - 1.1.38__py3-none-any.whl → 2.0.0__py3-none-any.whl - Mend

deltacat 1.1.38py3-none-any.whl → 2.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (367) hide show

deltacat/__init__.py +150 -12
deltacat/annotations.py +36 -0
deltacat/api.py +578 -0
deltacat/aws/constants.py +0 -23
deltacat/aws/s3u.py +4 -631
deltacat/benchmarking/benchmark_engine.py +84 -0
deltacat/benchmarking/benchmark_report.py +86 -0
deltacat/benchmarking/benchmark_suite.py +11 -0
deltacat/benchmarking/conftest.py +22 -19
deltacat/benchmarking/data/random_row_generator.py +94 -0
deltacat/benchmarking/data/row_generator.py +10 -0
deltacat/benchmarking/test_benchmark_pipeline.py +108 -0
deltacat/catalog/__init__.py +73 -0
deltacat/catalog/delegate.py +615 -140
deltacat/catalog/interface.py +404 -81
deltacat/catalog/main/impl.py +2882 -0
deltacat/catalog/model/catalog.py +348 -46
deltacat/catalog/model/properties.py +155 -0
deltacat/catalog/model/table_definition.py +32 -1
deltacat/compute/__init__.py +14 -0
deltacat/compute/compactor/compaction_session.py +97 -75
deltacat/compute/compactor/model/compact_partition_params.py +75 -30
deltacat/compute/compactor/model/compaction_session_audit_info.py +23 -30
deltacat/compute/compactor/model/delta_annotated.py +3 -3
deltacat/compute/compactor/model/delta_file_envelope.py +3 -1
deltacat/compute/compactor/model/delta_file_locator.py +3 -1
deltacat/compute/compactor/model/round_completion_info.py +19 -9
deltacat/compute/compactor/model/table_object_store.py +3 -2
deltacat/compute/compactor/repartition_session.py +9 -22
deltacat/compute/compactor/steps/dedupe.py +11 -4
deltacat/compute/compactor/steps/hash_bucket.py +6 -6
deltacat/compute/compactor/steps/materialize.py +15 -9
deltacat/compute/compactor/steps/repartition.py +12 -11
deltacat/compute/compactor/utils/io.py +7 -6
deltacat/compute/compactor/utils/round_completion_reader.py +117 -0
deltacat/compute/compactor/utils/sort_key.py +9 -2
deltacat/compute/compactor/utils/system_columns.py +3 -1
deltacat/compute/compactor_v2/compaction_session.py +13 -14
deltacat/compute/compactor_v2/deletes/utils.py +3 -3
deltacat/compute/compactor_v2/model/evaluate_compaction_result.py +0 -1
deltacat/compute/compactor_v2/model/hash_bucket_input.py +9 -3
deltacat/compute/compactor_v2/model/merge_file_group.py +5 -2
deltacat/compute/compactor_v2/model/merge_input.py +28 -9
deltacat/compute/compactor_v2/private/compaction_utils.py +171 -73
deltacat/compute/compactor_v2/steps/hash_bucket.py +5 -2
deltacat/compute/compactor_v2/steps/merge.py +156 -53
deltacat/compute/compactor_v2/utils/content_type_params.py +17 -6
deltacat/compute/compactor_v2/utils/delta.py +5 -3
deltacat/compute/compactor_v2/utils/io.py +10 -3
deltacat/compute/compactor_v2/utils/merge.py +14 -2
deltacat/compute/compactor_v2/utils/task_options.py +2 -10
deltacat/compute/converter/constants.py +9 -0
deltacat/compute/converter/converter_session.py +298 -0
deltacat/compute/converter/model/convert_input.py +96 -0
deltacat/compute/converter/model/convert_input_files.py +78 -0
deltacat/compute/converter/model/convert_result.py +80 -0
deltacat/compute/converter/model/converter_session_params.py +144 -0
deltacat/compute/converter/pyiceberg/catalog.py +78 -0
deltacat/compute/converter/pyiceberg/overrides.py +263 -0
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +299 -0
deltacat/compute/converter/steps/convert.py +366 -0
deltacat/compute/converter/steps/dedupe.py +94 -0
deltacat/compute/converter/utils/__init__.py +0 -0
deltacat/compute/converter/utils/convert_task_options.py +132 -0
deltacat/compute/converter/utils/converter_session_utils.py +175 -0
deltacat/compute/converter/utils/iceberg_columns.py +87 -0
deltacat/compute/converter/utils/io.py +203 -0
deltacat/compute/converter/utils/s3u.py +148 -0
deltacat/compute/janitor.py +205 -0
deltacat/compute/jobs/__init__.py +0 -0
deltacat/compute/jobs/client.py +417 -0
deltacat/compute/resource_estimation/delta.py +11 -1
deltacat/constants.py +90 -1
deltacat/docs/__init__.py +0 -0
deltacat/docs/autogen/__init__.py +0 -0
deltacat/docs/autogen/schema/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/generate_type_mappings.py +687 -0
deltacat/docs/autogen/schema/inference/parse_json_type_mappings.py +673 -0
deltacat/env.py +61 -0
deltacat/examples/__init__.py +0 -0
deltacat/examples/basic_logging.py +101 -0
deltacat/examples/compactor/__init__.py +0 -0
deltacat/examples/compactor/aws/__init__.py +1 -0
deltacat/examples/compactor/bootstrap.py +863 -0
deltacat/examples/compactor/compactor.py +373 -0
deltacat/examples/compactor/explorer.py +473 -0
deltacat/examples/compactor/gcp/__init__.py +1 -0
deltacat/examples/compactor/job_runner.py +439 -0
deltacat/examples/compactor/utils/__init__.py +1 -0
deltacat/examples/compactor/utils/common.py +261 -0
deltacat/examples/experimental/__init__.py +0 -0
deltacat/examples/experimental/iceberg/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/app.py +226 -0
deltacat/examples/experimental/iceberg/converter/beam/main.py +133 -0
deltacat/examples/experimental/iceberg/converter/beam/test_workflow.py +113 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/__init__.py +3 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/common.py +174 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py +263 -0
deltacat/examples/experimental/iceberg/iceberg_bucket_writer.py +184 -0
deltacat/examples/experimental/iceberg/iceberg_reader.py +147 -0
deltacat/examples/hello_world.py +29 -0
deltacat/examples/indexer/__init__.py +0 -0
deltacat/examples/indexer/aws/__init__.py +0 -0
deltacat/examples/indexer/gcp/__init__.py +0 -0
deltacat/examples/indexer/indexer.py +163 -0
deltacat/examples/indexer/job_runner.py +198 -0
deltacat/exceptions.py +116 -12
deltacat/experimental/__init__.py +0 -0
deltacat/experimental/catalog/__init__.py +0 -0
deltacat/experimental/catalog/iceberg/__init__.py +6 -0
deltacat/experimental/catalog/iceberg/iceberg_catalog_config.py +26 -0
deltacat/experimental/catalog/iceberg/impl.py +399 -0
deltacat/experimental/catalog/iceberg/overrides.py +72 -0
deltacat/experimental/compatibility/__init__.py +0 -0
deltacat/experimental/compatibility/backfill_locator_to_id_mappings.py +201 -0
deltacat/experimental/converter_agent/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/managed.py +173 -0
deltacat/experimental/converter_agent/table_monitor.py +479 -0
deltacat/experimental/daft/__init__.py +4 -0
deltacat/experimental/daft/daft_catalog.py +229 -0
deltacat/experimental/storage/__init__.py +0 -0
deltacat/experimental/storage/iceberg/__init__.py +0 -0
deltacat/experimental/storage/iceberg/iceberg_scan_planner.py +129 -0
deltacat/experimental/storage/iceberg/impl.py +739 -0
deltacat/experimental/storage/iceberg/model.py +713 -0
deltacat/experimental/storage/iceberg/visitor.py +119 -0
deltacat/experimental/storage/rivulet/__init__.py +11 -0
deltacat/experimental/storage/rivulet/arrow/__init__.py +0 -0
deltacat/experimental/storage/rivulet/arrow/serializer.py +78 -0
deltacat/experimental/storage/rivulet/dataset.py +745 -0
deltacat/experimental/storage/rivulet/dataset_executor.py +79 -0
deltacat/experimental/storage/rivulet/feather/__init__.py +7 -0
deltacat/experimental/storage/rivulet/feather/file_reader.py +138 -0
deltacat/experimental/storage/rivulet/feather/serializer.py +35 -0
deltacat/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/experimental/storage/rivulet/fs/file_provider.py +105 -0
deltacat/experimental/storage/rivulet/fs/file_store.py +130 -0
deltacat/experimental/storage/rivulet/fs/input_file.py +76 -0
deltacat/experimental/storage/rivulet/fs/output_file.py +86 -0
deltacat/experimental/storage/rivulet/logical_plan.py +105 -0
deltacat/experimental/storage/rivulet/metastore/__init__.py +0 -0
deltacat/experimental/storage/rivulet/metastore/delta.py +188 -0
deltacat/experimental/storage/rivulet/metastore/json_sst.py +105 -0
deltacat/experimental/storage/rivulet/metastore/sst.py +82 -0
deltacat/experimental/storage/rivulet/metastore/sst_interval_tree.py +260 -0
deltacat/experimental/storage/rivulet/mvp/Table.py +101 -0
deltacat/experimental/storage/rivulet/mvp/__init__.py +5 -0
deltacat/experimental/storage/rivulet/parquet/__init__.py +7 -0
deltacat/experimental/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/experimental/storage/rivulet/parquet/file_reader.py +129 -0
deltacat/experimental/storage/rivulet/parquet/serializer.py +37 -0
deltacat/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/experimental/storage/rivulet/reader/block_scanner.py +389 -0
deltacat/experimental/storage/rivulet/reader/data_reader.py +136 -0
deltacat/experimental/storage/rivulet/reader/data_scan.py +65 -0
deltacat/experimental/storage/rivulet/reader/dataset_metastore.py +179 -0
deltacat/experimental/storage/rivulet/reader/dataset_reader.py +158 -0
deltacat/experimental/storage/rivulet/reader/pyarrow_data_reader.py +124 -0
deltacat/experimental/storage/rivulet/reader/query_expression.py +99 -0
deltacat/experimental/storage/rivulet/reader/reader_type_registrar.py +84 -0
deltacat/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/experimental/storage/rivulet/schema/datatype.py +128 -0
deltacat/experimental/storage/rivulet/schema/schema.py +251 -0
deltacat/experimental/storage/rivulet/serializer.py +40 -0
deltacat/experimental/storage/rivulet/serializer_factory.py +46 -0
deltacat/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/experimental/storage/rivulet/shard/range_shard.py +129 -0
deltacat/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/experimental/storage/rivulet/writer/dataset_writer.py +29 -0
deltacat/experimental/storage/rivulet/writer/memtable_dataset_writer.py +305 -0
deltacat/io/__init__.py +13 -0
deltacat/io/dataset/__init__.py +0 -0
deltacat/io/dataset/deltacat_dataset.py +91 -0
deltacat/io/datasink/__init__.py +0 -0
deltacat/io/datasink/deltacat_datasink.py +207 -0
deltacat/io/datasource/__init__.py +0 -0
deltacat/io/datasource/deltacat_datasource.py +579 -0
deltacat/io/reader/__init__.py +0 -0
deltacat/io/reader/deltacat_read_api.py +172 -0
deltacat/logs.py +4 -1
deltacat/storage/__init__.py +138 -28
deltacat/storage/interface.py +260 -155
deltacat/storage/main/__init__.py +0 -0
deltacat/storage/main/impl.py +3030 -0
deltacat/storage/model/delta.py +142 -71
deltacat/storage/model/expression/__init__.py +47 -0
deltacat/storage/model/expression/expression.py +656 -0
deltacat/storage/model/expression/visitor.py +248 -0
deltacat/storage/model/interop.py +24 -0
deltacat/storage/model/list_result.py +8 -0
deltacat/storage/model/locator.py +93 -9
deltacat/storage/model/manifest.py +643 -0
deltacat/storage/model/metafile.py +1421 -0
deltacat/storage/model/namespace.py +41 -18
deltacat/storage/model/partition.py +443 -43
deltacat/storage/model/scan/__init__.py +0 -0
deltacat/storage/model/scan/push_down.py +46 -0
deltacat/storage/model/scan/scan_plan.py +10 -0
deltacat/storage/model/scan/scan_task.py +34 -0
deltacat/storage/model/schema.py +3160 -0
deltacat/storage/model/shard.py +51 -0
deltacat/storage/model/sort_key.py +210 -13
deltacat/storage/model/stream.py +215 -80
deltacat/storage/model/table.py +134 -29
deltacat/storage/model/table_version.py +333 -46
deltacat/storage/model/transaction.py +1733 -0
deltacat/storage/model/transform.py +274 -58
deltacat/storage/model/types.py +138 -16
deltacat/storage/util/__init__.py +0 -0
deltacat/storage/util/scan_planner.py +26 -0
deltacat/tests/_io/__init__.py +1 -0
deltacat/tests/_io/reader/__init__.py +0 -0
deltacat/tests/_io/reader/test_deltacat_read_api.py +0 -0
deltacat/tests/{io → _io}/test_cloudpickle_bug_fix.py +8 -4
deltacat/tests/aws/test_s3u.py +2 -31
deltacat/tests/catalog/data/__init__.py +0 -0
deltacat/tests/catalog/main/__init__.py +0 -0
deltacat/tests/catalog/main/test_catalog_impl_namespace_operations.py +130 -0
deltacat/tests/catalog/main/test_catalog_impl_table_operations.py +1972 -0
deltacat/tests/catalog/model/__init__.py +0 -0
deltacat/tests/catalog/model/test_table_definition.py +16 -0
deltacat/tests/catalog/test_catalogs.py +321 -0
deltacat/tests/catalog/test_default_catalog_impl.py +12154 -66
deltacat/tests/compute/compact_partition_multiple_rounds_test_cases.py +21 -21
deltacat/tests/compute/compact_partition_rebase_test_cases.py +6 -6
deltacat/tests/compute/compact_partition_rebase_then_incremental_test_cases.py +56 -56
deltacat/tests/compute/compact_partition_test_cases.py +23 -30
deltacat/tests/compute/compactor/steps/test_repartition.py +14 -14
deltacat/tests/compute/compactor/utils/test_io.py +125 -123
deltacat/tests/compute/compactor/utils/test_round_completion_reader.py +254 -0
deltacat/tests/compute/compactor_v2/test_compaction_session.py +387 -830
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +70 -57
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +0 -3
deltacat/tests/compute/conftest.py +39 -0
deltacat/tests/compute/converter/__init__.py +0 -0
deltacat/tests/compute/converter/conftest.py +80 -0
deltacat/tests/compute/converter/test_convert_session.py +826 -0
deltacat/tests/compute/converter/utils.py +132 -0
deltacat/tests/compute/resource_estimation/test_delta.py +88 -104
deltacat/tests/compute/test_compact_partition_incremental.py +91 -98
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +79 -97
deltacat/tests/compute/test_compact_partition_params.py +16 -11
deltacat/tests/compute/test_compact_partition_rebase.py +63 -93
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +249 -220
deltacat/tests/compute/test_janitor.py +236 -0
deltacat/tests/compute/test_util_common.py +726 -46
deltacat/tests/compute/test_util_constant.py +0 -1
deltacat/tests/conftest.py +25 -0
deltacat/tests/daft/__init__.py +0 -0
deltacat/tests/daft/test_model.py +97 -0
deltacat/tests/experimental/__init__.py +1 -0
deltacat/tests/experimental/catalog/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/test_iceberg_catalog.py +71 -0
deltacat/tests/experimental/compatibility/__init__.py +1 -0
deltacat/tests/experimental/compatibility/test_backfill_locator_to_id_mappings.py +582 -0
deltacat/tests/experimental/daft/__init__.py +0 -0
deltacat/tests/experimental/daft/test_deltacat_daft_integration.py +136 -0
deltacat/tests/experimental/storage/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/conftest.py +149 -0
deltacat/tests/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/fs/test_file_location_provider.py +94 -0
deltacat/tests/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/reader/query_expression.py +80 -0
deltacat/tests/experimental/storage/rivulet/reader/test_data_scan.py +119 -0
deltacat/tests/experimental/storage/rivulet/reader/test_dataset_metastore.py +71 -0
deltacat/tests/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/schema/test_schema.py +241 -0
deltacat/tests/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/shard/test_range_shard.py +162 -0
deltacat/tests/experimental/storage/rivulet/test_dataset.py +408 -0
deltacat/tests/experimental/storage/rivulet/test_manifest.py +67 -0
deltacat/tests/experimental/storage/rivulet/test_sst_interval_tree.py +232 -0
deltacat/tests/experimental/storage/rivulet/test_utils.py +124 -0
deltacat/tests/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/writer/test_dataset_write_then_read.py +343 -0
deltacat/tests/experimental/storage/rivulet/writer/test_dataset_writer.py +79 -0
deltacat/tests/experimental/storage/rivulet/writer/test_memtable_dataset_writer.py +75 -0
deltacat/tests/storage/__init__.py +0 -0
deltacat/tests/storage/main/__init__.py +0 -0
deltacat/tests/storage/main/test_main_storage.py +8204 -0
deltacat/tests/storage/model/__init__.py +0 -0
deltacat/tests/storage/model/test_delete_parameters.py +21 -0
deltacat/tests/storage/model/test_expression.py +327 -0
deltacat/tests/storage/model/test_manifest.py +129 -0
deltacat/tests/storage/model/test_metafile_io.py +2440 -0
deltacat/tests/storage/model/test_partition_scheme.py +85 -0
deltacat/tests/storage/model/test_schema.py +479 -0
deltacat/tests/storage/model/test_schema_update.py +1925 -0
deltacat/tests/storage/model/test_shard.py +24 -0
deltacat/tests/storage/model/test_sort_scheme.py +90 -0
deltacat/tests/storage/model/test_table_version.py +110 -0
deltacat/tests/storage/model/test_transaction.py +653 -0
deltacat/tests/storage/model/test_transaction_history.py +886 -0
deltacat/tests/test_deltacat_api.py +1064 -0
deltacat/tests/test_exceptions.py +9 -5
deltacat/tests/test_utils/filesystem.py +14 -0
deltacat/tests/test_utils/message_pack_utils.py +54 -0
deltacat/tests/test_utils/pyarrow.py +50 -26
deltacat/tests/test_utils/storage.py +256 -4
deltacat/tests/types/__init__.py +0 -0
deltacat/tests/types/test_tables.py +104 -0
deltacat/tests/utils/exceptions.py +22 -0
deltacat/tests/utils/main_deltacat_storage_mock.py +31 -0
deltacat/tests/utils/ray_utils/test_dataset.py +123 -5
deltacat/tests/utils/test_daft.py +124 -34
deltacat/tests/utils/test_numpy.py +1193 -0
deltacat/tests/utils/test_pandas.py +1106 -0
deltacat/tests/utils/test_polars.py +1040 -0
deltacat/tests/utils/test_pyarrow.py +1107 -258
deltacat/types/media.py +345 -37
deltacat/types/partial_download.py +1 -1
deltacat/types/tables.py +2345 -47
deltacat/utils/arguments.py +33 -1
deltacat/utils/daft.py +824 -40
deltacat/utils/export.py +61 -0
deltacat/utils/filesystem.py +450 -0
deltacat/utils/metafile_locator.py +74 -0
deltacat/utils/numpy.py +118 -26
deltacat/utils/pandas.py +577 -48
deltacat/utils/polars.py +759 -0
deltacat/utils/pyarrow.py +1212 -178
deltacat/utils/ray_utils/concurrency.py +1 -1
deltacat/utils/ray_utils/dataset.py +101 -10
deltacat/utils/ray_utils/runtime.py +56 -4
deltacat/utils/reader_compatibility_mapping.py +3083 -0
deltacat/utils/url.py +1325 -0
deltacat-2.0.0.dist-info/METADATA +1163 -0
deltacat-2.0.0.dist-info/RECORD +439 -0
{deltacat-1.1.38.dist-info → deltacat-2.0.0.dist-info}/WHEEL +1 -1
deltacat/aws/redshift/__init__.py +0 -19
deltacat/aws/redshift/model/manifest.py +0 -394
deltacat/catalog/default_catalog_impl/__init__.py +0 -369
deltacat/compute/compactor/utils/round_completion_file.py +0 -97
deltacat/compute/merge_on_read/__init__.py +0 -4
deltacat/compute/merge_on_read/daft.py +0 -40
deltacat/compute/merge_on_read/model/merge_on_read_params.py +0 -66
deltacat/compute/merge_on_read/utils/delta.py +0 -42
deltacat/io/dataset.py +0 -73
deltacat/io/read_api.py +0 -143
deltacat/storage/model/delete_parameters.py +0 -40
deltacat/storage/model/partition_spec.py +0 -71
deltacat/tests/compute/compactor/utils/test_round_completion_file.py +0 -231
deltacat/tests/compute/test_util_create_table_deltas_repo.py +0 -397
deltacat/tests/local_deltacat_storage/__init__.py +0 -1262
deltacat/tests/local_deltacat_storage/exceptions.py +0 -10
deltacat/utils/s3fs.py +0 -21
deltacat-1.1.38.dist-info/METADATA +0 -64
deltacat-1.1.38.dist-info/RECORD +0 -219
/deltacat/{aws/redshift/model → benchmarking/data}/__init__.py +0 -0
/deltacat/{compute/merge_on_read/model → catalog/main}/__init__.py +0 -0
/deltacat/compute/{merge_on_read/utils → converter}/__init__.py +0 -0
/deltacat/{io/aws → compute/converter/model}/__init__.py +0 -0
/deltacat/{io/aws/redshift → compute/converter/pyiceberg}/__init__.py +0 -0
/deltacat/{tests/io → compute/converter/steps}/__init__.py +0 -0
/deltacat/tests/{io → _io}/test_file_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_memcached_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_ray_plasma_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_redis_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_s3_object_store.py +0 -0
{deltacat-1.1.38.dist-info → deltacat-2.0.0.dist-info/licenses}/LICENSE +0 -0
{deltacat-1.1.38.dist-info → deltacat-2.0.0.dist-info}/top_level.txt +0 -0

deltacat/compute/converter/model/converter_session_params.py ADDED Viewed

@@ -0,0 +1,144 @@
+from __future__ import annotations
+from typing import Optional, Dict, Any, List
+from deltacat.compute.converter.constants import (
+    DEFAULT_CONVERTER_TASK_MAX_PARALLELISM,
+)
+from deltacat.constants import DEFAULT_NAMESPACE
+from fsspec import AbstractFileSystem
+from pyiceberg.catalog import Catalog
+class ConverterSessionParams(dict):
+    """
+    This class represents the parameters passed to convert_ (deltacat/compute/compactor/compaction_session.py)
+    """
+    @staticmethod
+    def of(params: Optional[Dict[str, Any]]) -> ConverterSessionParams:
+        params = {} if params is None else params
+        assert params.get("catalog") is not None, "catalog is a required arg"
+        assert (
+            params.get("iceberg_table_name") is not None
+        ), "iceberg_table_name is a required arg"
+        assert (
+            params.get("iceberg_warehouse_bucket_name") is not None
+        ), "iceberg_warehouse_bucket_name is a required arg"
+        result = ConverterSessionParams(params)
+        result.iceberg_namespace = params.get("iceberg_namespace", DEFAULT_NAMESPACE)
+        result.enforce_primary_key_uniqueness = params.get(
+            "enforce_primary_key_uniqueness", False
+        )
+        result.compact_previous_position_delete_files = params.get(
+            "compact_previous_position_delete_files", False
+        )
+        # For Iceberg v3 spec, option to produce delete vector that can establish 1:1 mapping with data files.
+        result.position_delete_for_multiple_data_files = params.get(
+            "position_delete_for_multiple_data_files", True
+        )
+        result.task_max_parallelism = params.get(
+            "task_max_parallelism", DEFAULT_CONVERTER_TASK_MAX_PARALLELISM
+        )
+        result.merge_keys = params.get("merge_keys", None)
+        result.s3_client_kwargs = params.get("s3_client_kwargs", {})
+        result.filesystem = params.get("filesystem", None)
+        result.s3_prefix_override = params.get("s3_prefix_override", None)
+        return result
+    @property
+    def catalog(self) -> Catalog:
+        return self["catalog"]
+    @property
+    def iceberg_table_name(self) -> str:
+        return self["iceberg_table_name"]
+    @property
+    def iceberg_warehouse_bucket_name(self) -> str:
+        return self["iceberg_warehouse_bucket_name"]
+    @property
+    def iceberg_namespace(self) -> str:
+        return self["iceberg_namespace"]
+    @iceberg_namespace.setter
+    def iceberg_namespace(self, iceberg_namespace: str) -> None:
+        self["iceberg_namespace"] = iceberg_namespace
+    @property
+    def enforce_primary_key_uniqueness(self) -> bool:
+        return self["enforce_primary_key_uniqueness"]
+    @enforce_primary_key_uniqueness.setter
+    def enforce_primary_key_uniqueness(
+        self, enforce_primary_key_uniqueness: bool
+    ) -> None:
+        self["enforce_primary_key_uniqueness"] = enforce_primary_key_uniqueness
+    @property
+    def compact_previous_position_delete_files(self) -> bool:
+        return self["compact_previous_position_delete_files"]
+    @compact_previous_position_delete_files.setter
+    def compact_previous_position_delete_files(
+        self, compact_previous_position_delete_files: bool
+    ) -> None:
+        self[
+            "compact_previous_position_delete_files"
+        ] = compact_previous_position_delete_files
+    @property
+    def position_delete_for_multiple_data_files(self) -> bool:
+        return self["position_delete_for_multiple_data_files"]
+    @position_delete_for_multiple_data_files.setter
+    def position_delete_for_multiple_data_files(
+        self, position_delete_for_multiple_data_files: bool
+    ) -> None:
+        self[
+            "position_delete_for_multiple_data_files"
+        ] = position_delete_for_multiple_data_files
+    @property
+    def task_max_parallelism(self) -> int:
+        return self["task_max_parallelism"]
+    @task_max_parallelism.setter
+    def task_max_parallelism(self, task_max_parallelism: int) -> None:
+        self["task_max_parallelism"] = task_max_parallelism
+    @property
+    def merge_keys(self) -> Optional[List[str]]:
+        return self["merge_keys"]
+    @merge_keys.setter
+    def merge_keys(self, merge_keys: Optional[List[str]]) -> None:
+        self["merge_keys"] = merge_keys
+    @property
+    def s3_client_kwargs(self) -> Dict[str, Any]:
+        return self["s3_client_kwargs"]
+    @s3_client_kwargs.setter
+    def s3_client_kwargs(self, s3_client_kwargs: Dict[str, Any]) -> None:
+        self["s3_client_kwargs"] = s3_client_kwargs
+    @property
+    def filesystem(self) -> Optional[AbstractFileSystem]:
+        return self["filesystem"]
+    @filesystem.setter
+    def filesystem(self, filesystem: Optional[AbstractFileSystem]) -> None:
+        self["filesystem"] = filesystem
+    @property
+    def location_provider_prefix_override(self) -> Optional[str]:
+        return self["location_provider_prefix_override"]
+    @location_provider_prefix_override.setter
+    def location_provider_prefix_override(
+        self, location_provider_prefix_override: Optional[str]
+    ) -> None:
+        self["location_provider_prefix_override"] = location_provider_prefix_override

deltacat/compute/converter/pyiceberg/catalog.py ADDED Viewed

@@ -0,0 +1,78 @@
+from typing import Optional, Dict, Any
+from pyiceberg.table import Table
+from pyiceberg.catalog import Catalog, load_catalog as pyiceberg_load_catalog
+from botocore.credentials import Credentials
+import boto3
+from boto3.session import Session
+def load_catalog(
+    iceberg_catalog_name: str, iceberg_catalog_properties: Dict[str, Any]
+) -> Catalog:
+    catalog = pyiceberg_load_catalog(
+        name=iceberg_catalog_name,
+        **iceberg_catalog_properties,
+    )
+    return catalog
+def get_s3_path(
+    bucket_name: str,
+    database_name: Optional[str] = None,
+    table_name: Optional[str] = None,
+) -> str:
+    result_path = f"s3://{bucket_name}"
+    if database_name is not None:
+        result_path += f"/{database_name}.db"
+    if table_name is not None:
+        result_path += f"/{table_name}"
+    return result_path
+def get_bucket_name() -> str:
+    return "test-bucket"
+def get_s3_prefix() -> str:
+    return get_s3_path(get_bucket_name())
+def get_credential() -> Credentials:
+    boto3_session: Session = boto3.Session()
+    credentials: Credentials = boto3_session.get_credentials()
+    return credentials
+def get_glue_catalog() -> Catalog:
+    credential = get_credential()
+    # Credentials are refreshable, so accessing your access key / secret key
+    # separately can lead to a race condition. Use this to get an actual matched
+    # set.
+    credential = credential.get_frozen_credentials()
+    access_key_id = credential.access_key
+    secret_access_key = credential.secret_key
+    session_token = credential.token
+    s3_path = get_s3_prefix()
+    glue_catalog = pyiceberg_load_catalog(
+        "glue",
+        **{
+            "warehouse": s3_path,
+            "type": "glue",
+            "aws_access_key_id": access_key_id,
+            "aws_secret_access_key": secret_access_key,
+            "aws_session_token": session_token,
+            "region_name": "us-east-1",
+            "s3.access-key-id": access_key_id,
+            "s3.secret-access-key": secret_access_key,
+            "s3.session-token": session_token,
+            "s3.region": "us-east-1",
+        },
+    )
+    return glue_catalog
+def load_table(catalog: Catalog, table_name: str) -> Table:
+    loaded_table = catalog.load_table(table_name)
+    return loaded_table

deltacat/compute/converter/pyiceberg/overrides.py ADDED Viewed

@@ -0,0 +1,263 @@
+from collections import defaultdict
+import logging
+from deltacat import logs
+import pyarrow
+import pyarrow.parquet as pq
+from pyiceberg.io.pyarrow import (
+    parquet_path_to_id_mapping,
+    StatisticsCollector,
+    MetricModeTypes,
+    DataFileStatistics,
+    MetricsMode,
+    StatsAggregator,
+)
+from typing import Dict, List, Set, Any, Tuple
+from deltacat.compute.converter.utils.iceberg_columns import (
+    ICEBERG_RESERVED_FIELD_ID_FOR_FILE_PATH_COLUMN,
+    ICEBERG_RESERVED_FIELD_ID_FOR_POS_COLUMN,
+)
+from pyiceberg.io.pyarrow import (
+    compute_statistics_plan,
+)
+from pyiceberg.manifest import (
+    DataFile,
+    DataFileContent,
+    FileFormat,
+)
+from pyiceberg.table import _min_sequence_number, _open_manifest, Table
+from pyiceberg.utils.concurrent import ExecutorFactory
+from itertools import chain
+from pyiceberg.typedef import (
+    KeyDefaultDict,
+)
+from pyiceberg.schema import Schema
+from pyiceberg.io import FileIO
+from deltacat.compute.converter.model.convert_input_files import (
+    DataFileList,
+)
+logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+def parquet_path_to_id_mapping_override(schema: Schema) -> Dict[str, int]:
+    res = parquet_path_to_id_mapping(schema)
+    # Override here to insert position delete reserved column field IDs
+    res["file_path"] = ICEBERG_RESERVED_FIELD_ID_FOR_FILE_PATH_COLUMN
+    res["pos"] = ICEBERG_RESERVED_FIELD_ID_FOR_POS_COLUMN
+    return res
+def data_file_statistics_from_parquet_metadata(
+    parquet_metadata: pq.FileMetaData,
+    stats_columns: Dict[int, StatisticsCollector],
+    parquet_column_mapping: Dict[str, int],
+) -> DataFileStatistics:
+    """
+    Overrides original Pyiceberg function: Compute and return DataFileStatistics that includes the following.
+    - record_count
+    - column_sizes
+    - value_counts
+    - null_value_counts
+    - nan_value_counts
+    - column_aggregates
+    - split_offsets
+    Args:
+        parquet_metadata (pyarrow.parquet.FileMetaData): A pyarrow metadata object.
+        stats_columns (Dict[int, StatisticsCollector]): The statistics gathering plan. It is required to
+            set the mode for column metrics collection
+        parquet_column_mapping (Dict[str, int]): The mapping of the parquet file name to the field ID
+    """
+    column_sizes: Dict[int, int] = {}
+    value_counts: Dict[int, int] = {}
+    split_offsets: List[int] = []
+    null_value_counts: Dict[int, int] = {}
+    nan_value_counts: Dict[int, int] = {}
+    col_aggs = {}
+    invalidate_col: Set[int] = set()
+    for r in range(parquet_metadata.num_row_groups):
+        # References:
+        # https://github.com/apache/iceberg/blob/fc381a81a1fdb8f51a0637ca27cd30673bd7aad3/parquet/src/main/java/org/apache/iceberg/parquet/ParquetUtil.java#L232
+        # https://github.com/apache/parquet-mr/blob/ac29db4611f86a07cc6877b416aa4b183e09b353/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/metadata/ColumnChunkMetaData.java#L184
+        row_group = parquet_metadata.row_group(r)
+        data_offset = row_group.column(0).data_page_offset
+        dictionary_offset = row_group.column(0).dictionary_page_offset
+        if row_group.column(0).has_dictionary_page and dictionary_offset < data_offset:
+            split_offsets.append(dictionary_offset)
+        else:
+            split_offsets.append(data_offset)
+        for pos in range(parquet_metadata.num_columns):
+            column = row_group.column(pos)
+            field_id = parquet_column_mapping[column.path_in_schema]
+            if field_id in stats_columns:
+                stats_col = stats_columns[field_id]
+                column_sizes.setdefault(field_id, 0)
+                column_sizes[field_id] += column.total_compressed_size
+                if stats_col.mode == MetricsMode(MetricModeTypes.NONE):
+                    continue
+                value_counts[field_id] = (
+                    value_counts.get(field_id, 0) + column.num_values
+                )
+                if column.is_stats_set:
+                    try:
+                        statistics = column.statistics
+                        if statistics.has_null_count:
+                            null_value_counts[field_id] = (
+                                null_value_counts.get(field_id, 0)
+                                + statistics.null_count
+                            )
+                        if stats_col.mode == MetricsMode(MetricModeTypes.COUNTS):
+                            continue
+                        if field_id not in col_aggs:
+                            col_aggs[field_id] = StatsAggregator(
+                                stats_col.iceberg_type,
+                                statistics.physical_type,
+                                stats_col.mode.length,
+                            )
+                        col_aggs[field_id].update_min(statistics.min)
+                        col_aggs[field_id].update_max(statistics.max)
+                    except pyarrow.lib.ArrowNotImplementedError as e:
+                        invalidate_col.add(field_id)
+                        logger.warning(e)
+            else:
+                # Note: Removed original adding columns without stats to invalid column logic here
+                logger.warning(
+                    "PyArrow statistics missing for column %d when writing file", pos
+                )
+    split_offsets.sort()
+    for field_id in invalidate_col:
+        del col_aggs[field_id]
+        del null_value_counts[field_id]
+    return DataFileStatistics(
+        record_count=parquet_metadata.num_rows,
+        column_sizes=column_sizes,
+        value_counts=value_counts,
+        null_value_counts=null_value_counts,
+        nan_value_counts=nan_value_counts,
+        column_aggregates=col_aggs,
+        split_offsets=split_offsets,
+    )
+def parquet_files_dict_to_iceberg_data_files(
+    io: FileIO,
+    table_metadata: Any,
+    files_dict: Dict[Any, List[str]],
+    file_content_type: DataFileContent,
+) -> List[DataFile]:
+    iceberg_files = []
+    schema = table_metadata.schema()
+    for partition_value, file_paths in files_dict.items():
+        for file_path in file_paths:
+            input_file = io.new_input(file_path)
+            with input_file.open() as input_stream:
+                parquet_metadata = pq.read_metadata(input_stream)
+            # Removed _check_pyarrow_schema_compatible() here since reserved columns does not comply to all rules.
+            statistics = data_file_statistics_from_parquet_metadata(
+                parquet_metadata=parquet_metadata,
+                stats_columns=compute_statistics_plan(
+                    schema, table_metadata.properties
+                ),
+                parquet_column_mapping=parquet_path_to_id_mapping_override(schema),
+            )
+            data_file = DataFile(
+                content=file_content_type,
+                file_path=file_path,
+                file_format=FileFormat.PARQUET,
+                partition=partition_value,
+                file_size_in_bytes=len(input_file),
+                sort_order_id=None,
+                spec_id=table_metadata.default_spec_id,
+                equality_ids=None,
+                key_metadata=None,
+                **statistics.to_serialized_dict(),
+            )
+            iceberg_files.append(data_file)
+    return iceberg_files
+def fetch_all_bucket_files(
+    table: Table,
+) -> Tuple[Dict[Any, DataFileList], Dict[Any, DataFileList], Dict[Any, DataFileList]]:
+    # step 1: filter manifests using partition summaries
+    # the filter depends on the partition spec used to write the manifest file, so create a cache of filters for each spec id
+    data_scan = table.scan()
+    snapshot = data_scan.snapshot()
+    if not snapshot:
+        return iter([])
+    manifest_evaluators = KeyDefaultDict(data_scan._build_manifest_evaluator)
+    manifests = [
+        manifest_file
+        for manifest_file in snapshot.manifests(data_scan.io)
+        if manifest_evaluators[manifest_file.partition_spec_id](manifest_file)
+    ]
+    # step 2: filter the data files in each manifest
+    # this filter depends on the partition spec used to write the manifest file
+    partition_evaluators = KeyDefaultDict(data_scan._build_partition_evaluator)
+    residual_evaluators = KeyDefaultDict(data_scan._build_residual_evaluator)
+    min_sequence_number = _min_sequence_number(manifests)
+    # {"bucket_index": List[DataFile]}
+    data_entries = defaultdict(list)
+    equality_data_entries = defaultdict(list)
+    positional_delete_entries = defaultdict(list)
+    executor = ExecutorFactory.get_or_create()
+    for manifest_entry in chain(
+        *executor.map(
+            lambda args: _open_manifest(*args),
+            [
+                (
+                    data_scan.io,
+                    manifest,
+                    partition_evaluators[manifest.partition_spec_id],
+                    residual_evaluators[manifest.partition_spec_id],
+                    data_scan._build_metrics_evaluator(),
+                )
+                for manifest in manifests
+                if data_scan._check_sequence_number(min_sequence_number, manifest)
+            ],
+        )
+    ):
+        data_file = manifest_entry.data_file
+        file_sequence_number = manifest_entry.sequence_number
+        data_file_tuple = (file_sequence_number, data_file)
+        partition_value = data_file.partition
+        if data_file.content == DataFileContent.DATA:
+            data_entries[partition_value].append(data_file_tuple)
+        elif data_file.content == DataFileContent.POSITION_DELETES:
+            positional_delete_entries[partition_value].append(data_file_tuple)
+        elif data_file.content == DataFileContent.EQUALITY_DELETES:
+            equality_data_entries[partition_value].append(data_file_tuple)
+        else:
+            logger.warning(
+                f"Unknown DataFileContent ({data_file.content}): {manifest_entry}"
+            )
+    return data_entries, equality_data_entries, positional_delete_entries

deltacat 1.1.38__py3-none-any.whl → 2.0.0__py3-none-any.whl

deltacat 1.1.38py3-none-any.whl → 2.0.0py3-none-any.whl