PyPI - deltacat - Versions diffs - 1.1.36__py3-none-any.whl → 2.0__py3-none-any.whl - Mend

deltacat 1.1.36py3-none-any.whl → 2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (236) hide show

deltacat/__init__.py +42 -3
deltacat/annotations.py +36 -0
deltacat/api.py +168 -0
deltacat/aws/s3u.py +4 -4
deltacat/benchmarking/benchmark_engine.py +82 -0
deltacat/benchmarking/benchmark_report.py +86 -0
deltacat/benchmarking/benchmark_suite.py +11 -0
deltacat/benchmarking/conftest.py +21 -0
deltacat/benchmarking/data/random_row_generator.py +94 -0
deltacat/benchmarking/data/row_generator.py +10 -0
deltacat/benchmarking/test_benchmark_pipeline.py +106 -0
deltacat/catalog/__init__.py +14 -0
deltacat/catalog/delegate.py +199 -106
deltacat/catalog/iceberg/__init__.py +4 -0
deltacat/catalog/iceberg/iceberg_catalog_config.py +26 -0
deltacat/catalog/iceberg/impl.py +368 -0
deltacat/catalog/iceberg/overrides.py +74 -0
deltacat/catalog/interface.py +273 -76
deltacat/catalog/main/impl.py +720 -0
deltacat/catalog/model/catalog.py +227 -20
deltacat/catalog/model/properties.py +116 -0
deltacat/catalog/model/table_definition.py +32 -1
deltacat/compute/compactor/model/compaction_session_audit_info.py +7 -3
deltacat/compute/compactor/model/delta_annotated.py +3 -3
deltacat/compute/compactor/model/delta_file_envelope.py +3 -1
deltacat/compute/compactor/model/delta_file_locator.py +3 -1
deltacat/compute/compactor/model/round_completion_info.py +5 -5
deltacat/compute/compactor/model/table_object_store.py +3 -2
deltacat/compute/compactor/repartition_session.py +1 -1
deltacat/compute/compactor/steps/dedupe.py +11 -4
deltacat/compute/compactor/steps/hash_bucket.py +1 -1
deltacat/compute/compactor/steps/materialize.py +6 -2
deltacat/compute/compactor/utils/io.py +1 -1
deltacat/compute/compactor/utils/sort_key.py +9 -2
deltacat/compute/compactor_v2/compaction_session.py +5 -9
deltacat/compute/compactor_v2/constants.py +1 -30
deltacat/compute/compactor_v2/deletes/utils.py +3 -3
deltacat/compute/compactor_v2/model/merge_input.py +1 -7
deltacat/compute/compactor_v2/private/compaction_utils.py +5 -6
deltacat/compute/compactor_v2/steps/merge.py +17 -126
deltacat/compute/compactor_v2/utils/content_type_params.py +0 -17
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/io.py +1 -1
deltacat/compute/compactor_v2/utils/merge.py +0 -1
deltacat/compute/compactor_v2/utils/primary_key_index.py +3 -15
deltacat/compute/compactor_v2/utils/task_options.py +23 -43
deltacat/compute/converter/constants.py +4 -0
deltacat/compute/converter/converter_session.py +143 -0
deltacat/compute/converter/model/convert_input.py +69 -0
deltacat/compute/converter/model/convert_input_files.py +61 -0
deltacat/compute/converter/model/converter_session_params.py +99 -0
deltacat/compute/converter/pyiceberg/__init__.py +0 -0
deltacat/compute/converter/pyiceberg/catalog.py +75 -0
deltacat/compute/converter/pyiceberg/overrides.py +135 -0
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +251 -0
deltacat/compute/converter/steps/__init__.py +0 -0
deltacat/compute/converter/steps/convert.py +211 -0
deltacat/compute/converter/steps/dedupe.py +60 -0
deltacat/compute/converter/utils/__init__.py +0 -0
deltacat/compute/converter/utils/convert_task_options.py +88 -0
deltacat/compute/converter/utils/converter_session_utils.py +109 -0
deltacat/compute/converter/utils/iceberg_columns.py +82 -0
deltacat/compute/converter/utils/io.py +43 -0
deltacat/compute/converter/utils/s3u.py +133 -0
deltacat/compute/resource_estimation/delta.py +1 -19
deltacat/constants.py +47 -1
deltacat/env.py +51 -0
deltacat/examples/__init__.py +0 -0
deltacat/examples/basic_logging.py +101 -0
deltacat/examples/common/__init__.py +0 -0
deltacat/examples/common/fixtures.py +15 -0
deltacat/examples/hello_world.py +27 -0
deltacat/examples/iceberg/__init__.py +0 -0
deltacat/examples/iceberg/iceberg_bucket_writer.py +139 -0
deltacat/examples/iceberg/iceberg_reader.py +149 -0
deltacat/exceptions.py +51 -9
deltacat/logs.py +4 -1
deltacat/storage/__init__.py +118 -28
deltacat/storage/iceberg/__init__.py +0 -0
deltacat/storage/iceberg/iceberg_scan_planner.py +28 -0
deltacat/storage/iceberg/impl.py +737 -0
deltacat/storage/iceberg/model.py +709 -0
deltacat/storage/interface.py +217 -134
deltacat/storage/main/__init__.py +0 -0
deltacat/storage/main/impl.py +2077 -0
deltacat/storage/model/delta.py +118 -71
deltacat/storage/model/interop.py +24 -0
deltacat/storage/model/list_result.py +8 -0
deltacat/storage/model/locator.py +93 -3
deltacat/{aws/redshift → storage}/model/manifest.py +122 -98
deltacat/storage/model/metafile.py +1316 -0
deltacat/storage/model/namespace.py +34 -18
deltacat/storage/model/partition.py +362 -37
deltacat/storage/model/scan/__init__.py +0 -0
deltacat/storage/model/scan/push_down.py +19 -0
deltacat/storage/model/scan/scan_plan.py +10 -0
deltacat/storage/model/scan/scan_task.py +34 -0
deltacat/storage/model/schema.py +892 -0
deltacat/storage/model/shard.py +47 -0
deltacat/storage/model/sort_key.py +170 -13
deltacat/storage/model/stream.py +208 -80
deltacat/storage/model/table.py +123 -29
deltacat/storage/model/table_version.py +322 -46
deltacat/storage/model/transaction.py +757 -0
deltacat/storage/model/transform.py +198 -61
deltacat/storage/model/types.py +111 -13
deltacat/storage/rivulet/__init__.py +11 -0
deltacat/storage/rivulet/arrow/__init__.py +0 -0
deltacat/storage/rivulet/arrow/serializer.py +75 -0
deltacat/storage/rivulet/dataset.py +744 -0
deltacat/storage/rivulet/dataset_executor.py +87 -0
deltacat/storage/rivulet/feather/__init__.py +5 -0
deltacat/storage/rivulet/feather/file_reader.py +136 -0
deltacat/storage/rivulet/feather/serializer.py +35 -0
deltacat/storage/rivulet/fs/__init__.py +0 -0
deltacat/storage/rivulet/fs/file_provider.py +105 -0
deltacat/storage/rivulet/fs/file_store.py +130 -0
deltacat/storage/rivulet/fs/input_file.py +76 -0
deltacat/storage/rivulet/fs/output_file.py +86 -0
deltacat/storage/rivulet/logical_plan.py +105 -0
deltacat/storage/rivulet/metastore/__init__.py +0 -0
deltacat/storage/rivulet/metastore/delta.py +190 -0
deltacat/storage/rivulet/metastore/json_sst.py +105 -0
deltacat/storage/rivulet/metastore/sst.py +82 -0
deltacat/storage/rivulet/metastore/sst_interval_tree.py +260 -0
deltacat/storage/rivulet/mvp/Table.py +101 -0
deltacat/storage/rivulet/mvp/__init__.py +5 -0
deltacat/storage/rivulet/parquet/__init__.py +5 -0
deltacat/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/storage/rivulet/parquet/file_reader.py +127 -0
deltacat/storage/rivulet/parquet/serializer.py +37 -0
deltacat/storage/rivulet/reader/__init__.py +0 -0
deltacat/storage/rivulet/reader/block_scanner.py +378 -0
deltacat/storage/rivulet/reader/data_reader.py +136 -0
deltacat/storage/rivulet/reader/data_scan.py +63 -0
deltacat/storage/rivulet/reader/dataset_metastore.py +178 -0
deltacat/storage/rivulet/reader/dataset_reader.py +156 -0
deltacat/storage/rivulet/reader/pyarrow_data_reader.py +121 -0
deltacat/storage/rivulet/reader/query_expression.py +99 -0
deltacat/storage/rivulet/reader/reader_type_registrar.py +84 -0
deltacat/storage/rivulet/schema/__init__.py +0 -0
deltacat/storage/rivulet/schema/datatype.py +128 -0
deltacat/storage/rivulet/schema/schema.py +251 -0
deltacat/storage/rivulet/serializer.py +40 -0
deltacat/storage/rivulet/serializer_factory.py +42 -0
deltacat/storage/rivulet/writer/__init__.py +0 -0
deltacat/storage/rivulet/writer/dataset_writer.py +29 -0
deltacat/storage/rivulet/writer/memtable_dataset_writer.py +294 -0
deltacat/tests/_io/__init__.py +1 -0
deltacat/tests/catalog/test_catalogs.py +324 -0
deltacat/tests/catalog/test_default_catalog_impl.py +16 -8
deltacat/tests/compute/compact_partition_multiple_rounds_test_cases.py +21 -21
deltacat/tests/compute/compact_partition_rebase_test_cases.py +6 -6
deltacat/tests/compute/compact_partition_rebase_then_incremental_test_cases.py +56 -56
deltacat/tests/compute/compact_partition_test_cases.py +19 -53
deltacat/tests/compute/compactor/steps/test_repartition.py +2 -2
deltacat/tests/compute/compactor/utils/test_io.py +6 -8
deltacat/tests/compute/compactor_v2/test_compaction_session.py +0 -466
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +1 -273
deltacat/tests/compute/conftest.py +75 -0
deltacat/tests/compute/converter/__init__.py +0 -0
deltacat/tests/compute/converter/conftest.py +80 -0
deltacat/tests/compute/converter/test_convert_session.py +478 -0
deltacat/tests/compute/converter/utils.py +123 -0
deltacat/tests/compute/resource_estimation/test_delta.py +0 -16
deltacat/tests/compute/test_compact_partition_incremental.py +2 -42
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +5 -46
deltacat/tests/compute/test_compact_partition_params.py +3 -3
deltacat/tests/compute/test_compact_partition_rebase.py +1 -46
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +5 -46
deltacat/tests/compute/test_util_common.py +19 -12
deltacat/tests/compute/test_util_create_table_deltas_repo.py +13 -22
deltacat/tests/local_deltacat_storage/__init__.py +76 -103
deltacat/tests/storage/__init__.py +0 -0
deltacat/tests/storage/conftest.py +25 -0
deltacat/tests/storage/main/__init__.py +0 -0
deltacat/tests/storage/main/test_main_storage.py +1399 -0
deltacat/tests/storage/model/__init__.py +0 -0
deltacat/tests/storage/model/test_delete_parameters.py +21 -0
deltacat/tests/storage/model/test_metafile_io.py +2535 -0
deltacat/tests/storage/model/test_schema.py +308 -0
deltacat/tests/storage/model/test_shard.py +22 -0
deltacat/tests/storage/model/test_table_version.py +110 -0
deltacat/tests/storage/model/test_transaction.py +308 -0
deltacat/tests/storage/rivulet/__init__.py +0 -0
deltacat/tests/storage/rivulet/conftest.py +149 -0
deltacat/tests/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/storage/rivulet/fs/test_file_location_provider.py +93 -0
deltacat/tests/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/storage/rivulet/schema/test_schema.py +241 -0
deltacat/tests/storage/rivulet/test_dataset.py +406 -0
deltacat/tests/storage/rivulet/test_manifest.py +67 -0
deltacat/tests/storage/rivulet/test_sst_interval_tree.py +232 -0
deltacat/tests/storage/rivulet/test_utils.py +122 -0
deltacat/tests/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/storage/rivulet/writer/test_dataset_write_then_read.py +341 -0
deltacat/tests/storage/rivulet/writer/test_dataset_writer.py +79 -0
deltacat/tests/storage/rivulet/writer/test_memtable_dataset_writer.py +75 -0
deltacat/tests/test_deltacat_api.py +39 -0
deltacat/tests/test_utils/filesystem.py +14 -0
deltacat/tests/test_utils/message_pack_utils.py +54 -0
deltacat/tests/test_utils/pyarrow.py +8 -15
deltacat/tests/test_utils/storage.py +266 -3
deltacat/tests/utils/test_daft.py +3 -3
deltacat/tests/utils/test_pyarrow.py +0 -432
deltacat/types/partial_download.py +1 -1
deltacat/types/tables.py +1 -1
deltacat/utils/export.py +59 -0
deltacat/utils/filesystem.py +320 -0
deltacat/utils/metafile_locator.py +73 -0
deltacat/utils/pyarrow.py +36 -183
deltacat-2.0.dist-info/METADATA +65 -0
deltacat-2.0.dist-info/RECORD +347 -0
deltacat/aws/redshift/__init__.py +0 -19
deltacat/catalog/default_catalog_impl/__init__.py +0 -369
deltacat/io/dataset.py +0 -73
deltacat/io/read_api.py +0 -143
deltacat/storage/model/delete_parameters.py +0 -40
deltacat/storage/model/partition_spec.py +0 -71
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +0 -253
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +0 -45
deltacat-1.1.36.dist-info/METADATA +0 -64
deltacat-1.1.36.dist-info/RECORD +0 -219
/deltacat/{aws/redshift/model → benchmarking/data}/__init__.py +0 -0
/deltacat/{io/aws → catalog/main}/__init__.py +0 -0
/deltacat/{io/aws/redshift → compute/converter}/__init__.py +0 -0
/deltacat/{tests/io → compute/converter/model}/__init__.py +0 -0
/deltacat/tests/{io → _io}/test_cloudpickle_bug_fix.py +0 -0
/deltacat/tests/{io → _io}/test_file_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_memcached_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_ray_plasma_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_redis_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_s3_object_store.py +0 -0
{deltacat-1.1.36.dist-info → deltacat-2.0.dist-info}/LICENSE +0 -0
{deltacat-1.1.36.dist-info → deltacat-2.0.dist-info}/WHEEL +0 -0
{deltacat-1.1.36.dist-info → deltacat-2.0.dist-info}/top_level.txt +0 -0

deltacat/tests/compute/converter/test_convert_session.py ADDED Viewed

@@ -0,0 +1,478 @@
+import pytest
+import ray
+from typing import List
+from pyiceberg.catalog.rest import RestCatalog
+from pyiceberg.expressions import EqualTo
+from pyiceberg.schema import Schema
+from pyiceberg.types import (
+    NestedField,
+    StringType,
+    LongType,
+)
+from pyiceberg.partitioning import PartitionSpec, PartitionField
+from pyiceberg.transforms import IdentityTransform
+import pyarrow as pa
+from deltacat.compute.converter.steps.convert import convert
+from deltacat.compute.converter.model.convert_input import ConvertInput
+from deltacat.compute.converter.pyiceberg.overrides import (
+    fetch_all_bucket_files,
+    parquet_files_dict_to_iceberg_data_files,
+)
+from collections import defaultdict
+from deltacat.compute.converter.utils.converter_session_utils import (
+    group_all_files_to_each_bucket,
+)
+from deltacat.tests.compute.converter.utils import (
+    get_s3_file_system,
+    drop_table_if_exists,
+)
+from deltacat.compute.converter.pyiceberg.update_snapshot_overrides import (
+    commit_append_snapshot,
+)
+def run_spark_commands(spark, sqls: List[str]) -> None:
+    for sql in sqls:
+        spark.sql(sql)
+@pytest.mark.integration
+def test_pyiceberg_spark_setup_sanity(spark, session_catalog: RestCatalog) -> None:
+    """
+    This Test was copied over from Pyiceberg integ test: https://github.com/apache/iceberg-python/blob/main/tests/integration/test_deletes.py#L62
+    First sanity check to ensure all integration with Pyiceberg and Spark are working as expected.
+    """
+    identifier = "default.table_partitioned_delete"
+    run_spark_commands(
+        spark,
+        [
+            f"DROP TABLE IF EXISTS {identifier}",
+            f"""
+            CREATE TABLE {identifier} (
+                number_partitioned  int,
+                number              int
+            )
+            USING iceberg
+            PARTITIONED BY (number_partitioned)
+            TBLPROPERTIES('format-version' = 2)
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (10, 20), (10, 30)
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (11, 20), (11, 30)
+        """,
+        ],
+    )
+    tbl = session_catalog.load_table(identifier)
+    tbl.delete(EqualTo("number_partitioned", 10))
+    # No overwrite operation
+    assert [snapshot.summary.operation.value for snapshot in tbl.snapshots()] == [
+        "append",
+        "append",
+        "delete",
+    ]
+    assert tbl.scan().to_arrow().to_pydict() == {
+        "number_partitioned": [11, 11],
+        "number": [20, 30],
+    }
+@pytest.mark.integration
+def test_spark_position_delete_production_sanity(
+    spark, session_catalog: RestCatalog
+) -> None:
+    """
+    Sanity test to ensure Spark position delete production is successful with `merge-on-read` spec V2.
+    Table has two partition levels. 1. BucketTransform on primary key
+    """
+    identifier = "default.table_spark_position_delete_production_sanity"
+    run_spark_commands(
+        spark,
+        [
+            f"DROP TABLE IF EXISTS {identifier}",
+            f"""
+            CREATE TABLE {identifier} (
+                number_partitioned INT,
+                primary_key STRING
+            )
+            USING iceberg
+            PARTITIONED BY (bucket(3, primary_key), number_partitioned)
+            TBLPROPERTIES(
+                'format-version' = 2,
+                'write.delete.mode'='merge-on-read',
+                'write.update.mode'='merge-on-read',
+                'write.merge.mode'='merge-on-read'
+            )
+            """,
+            f"""
+            INSERT INTO {identifier} VALUES (0, 'pk1'), (0, 'pk2'), (0, 'pk3')
+            """,
+            f"""
+            INSERT INTO {identifier} VALUES (1, 'pk1'), (1, 'pk2'), (1, 'pk3')
+            """,
+        ],
+    )
+    run_spark_commands(
+        spark,
+        [
+            f"""
+                DELETE FROM {identifier} WHERE primary_key in ("pk1")
+            """,
+        ],
+    )
+    tbl = session_catalog.load_table(identifier)
+    tbl.refresh()
+    assert [snapshot.summary.operation.value for snapshot in tbl.snapshots()] == [
+        "append",
+        "append",
+        "delete",
+    ]
+    assert tbl.scan().to_arrow().to_pydict() == {
+        "number_partitioned": [1, 1, 0, 0],
+        "primary_key": ["pk2", "pk3", "pk2", "pk3"],
+    }
+@pytest.mark.integration
+def test_converter_drop_duplicates_success(
+    spark, session_catalog: RestCatalog, setup_ray_cluster, mocker
+) -> None:
+    """
+    Test for convert compute remote function happy case. Download file results are mocked.
+    """
+    # 1. Create Iceberg table
+    namespace = "default"
+    table_name = "table_converter_ray_pos_delete_drop_duplicates_compute"
+    identifier = f"{namespace}.{table_name}"
+    schema = Schema(
+        NestedField(
+            field_id=1, name="number_partitioned", field_type=LongType(), required=False
+        ),
+        NestedField(
+            field_id=2, name="primary_key", field_type=StringType(), required=False
+        ),
+        # Explicitly define "file_path" and "pos" for assertion of deterministic record after dedupe
+        NestedField(
+            field_id=2147483546,
+            name="file_path",
+            field_type=StringType(),
+            required=False,
+        ),
+        NestedField(
+            field_id=2147483545, name="pos", field_type=LongType(), required=False
+        ),
+        schema_id=0,
+    )
+    partition_field_identity = PartitionField(
+        source_id=1,
+        field_id=101,
+        transform=IdentityTransform(),
+        name="number_partitioned",
+    )
+    partition_spec = PartitionSpec(partition_field_identity)
+    properties = dict()
+    properties["write.format.default"] = "parquet"
+    properties["write.delete.mode"] = "merge-on-read"
+    properties["write.update.mode"] = "merge-on-read"
+    properties["write.merge.mode"] = "merge-on-read"
+    properties["format-version"] = "2"
+    drop_table_if_exists(identifier, session_catalog)
+    session_catalog.create_table(
+        identifier,
+        schema=schema,
+        partition_spec=partition_spec,
+        properties=properties,
+    )
+    # 2. Use Spark to generate initial data files
+    tbl = session_catalog.load_table(identifier)
+    tbl.refresh()
+    run_spark_commands(
+        spark,
+        [
+            f"""
+            INSERT INTO {identifier} VALUES (0, "pk1", "path1", 1), (0, "pk2", "path2", 2), (0, "pk3", "path3", 3)
+            """
+        ],
+    )
+    run_spark_commands(
+        spark,
+        [
+            f"""
+                INSERT INTO {identifier} VALUES (0, "pk1", "path1", 4), (0, "pk2", "path2", 5), (0, "pk3", "path3", 6)
+                """
+        ],
+    )
+    run_spark_commands(
+        spark,
+        [
+            f"""
+                INSERT INTO {identifier} VALUES (0, "pk4", "path4", 7), (0, "pk2", "path2", 8), (0, "pk3", "path3", 9)
+                """
+        ],
+    )
+    tbl = session_catalog.load_table(identifier)
+    # 3. Use convert.remote() function to compute position deletes
+    data_file_dict, equality_delete_dict, pos_delete_dict = fetch_all_bucket_files(tbl)
+    convert_input_files_for_all_buckets = group_all_files_to_each_bucket(
+        data_file_dict=data_file_dict,
+        equality_delete_dict=equality_delete_dict,
+        pos_delete_dict=pos_delete_dict,
+    )
+    s3_file_system = get_s3_file_system()
+    for i, one_bucket_files in enumerate(convert_input_files_for_all_buckets):
+        convert_input = ConvertInput.of(
+            convert_input_files=one_bucket_files,
+            convert_task_index=i,
+            iceberg_table_warehouse_prefix="warehouse/default",
+            identifier_fields=["primary_key"],
+            compact_small_files=False,
+            enforce_primary_key_uniqueness=True,
+            position_delete_for_multiple_data_files=True,
+            max_parallel_data_file_download=10,
+            s3_file_system=s3_file_system,
+        )
+    number_partitioned_array_1 = pa.array([0, 0, 0], type=pa.int32())
+    primary_key_array_1 = pa.array(["pk1", "pk2", "pk3"])
+    names = ["number_partitioned", "primary_key"]
+    data_table_1 = pa.Table.from_arrays(
+        [number_partitioned_array_1, primary_key_array_1], names=names
+    )
+    number_partitioned_array_2 = pa.array([0, 0, 0], type=pa.int32())
+    primary_key_array_2 = pa.array(["pk1", "pk2", "pk3"])
+    names = ["number_partitioned", "primary_key"]
+    data_table_2 = pa.Table.from_arrays(
+        [number_partitioned_array_2, primary_key_array_2], names=names
+    )
+    number_partitioned_array_3 = pa.array([0, 0, 0], type=pa.int32())
+    primary_key_array_3 = pa.array(["pk4", "pk2", "pk3"])
+    names = ["number_partitioned", "primary_key"]
+    data_table_3 = pa.Table.from_arrays(
+        [number_partitioned_array_3, primary_key_array_3], names=names
+    )
+    download_data_mock = mocker.patch(
+        "deltacat.compute.converter.utils.io.download_parquet_with_daft_hash_applied"
+    )
+    download_data_mock.side_effect = (data_table_1, data_table_2, data_table_3)
+    convert_ref = convert.remote(convert_input)
+    to_be_deleted_files_list = []
+    to_be_added_files_dict_list = []
+    convert_result = ray.get(convert_ref)
+    partition_value = convert_input.convert_input_files.partition_value
+    if convert_result[0]:
+        to_be_deleted_files_list.extend(convert_result[0].values())
+    file_location = convert_result[1][partition_value][0]
+    to_be_added_files = f"s3://{file_location}"
+    to_be_added_files_dict = defaultdict()
+    to_be_added_files_dict[partition_value] = [to_be_added_files]
+    to_be_added_files_dict_list.append(to_be_added_files_dict)
+    # 4. Commit position delete, delete equality deletes from table
+    new_position_delete_files = parquet_files_dict_to_iceberg_data_files(
+        io=tbl.io,
+        table_metadata=tbl.metadata,
+        files_dict_list=to_be_added_files_dict_list,
+    )
+    commit_append_snapshot(
+        iceberg_table=tbl,
+        new_position_delete_files=new_position_delete_files,
+    )
+    tbl.refresh()
+    # 5. Only primary key 2 and 3 should exist in table, as primary key 1 is deleted.
+    pyiceberg_scan_table_rows = tbl.scan().to_arrow().to_pydict()
+    # Only one unique record for each pk exists
+    all_pk = sorted(pyiceberg_scan_table_rows["primary_key"])
+    assert all_pk == ["pk1", "pk2", "pk3", "pk4"]
+    # Expected unique record to keep for each pk
+    expected_pk_to_pos_mapping = {"pk1": 4, "pk2": 8, "pk3": 9, "pk4": 7}
+    for pk, pos in zip(
+        pyiceberg_scan_table_rows["primary_key"], pyiceberg_scan_table_rows["pos"]
+    ):
+        assert pos == expected_pk_to_pos_mapping[pk]
+@pytest.mark.integration
+def test_converter_pos_delete_read_by_spark_success(
+    spark, session_catalog: RestCatalog, setup_ray_cluster, mocker
+) -> None:
+    """
+    Test for convert compute remote function happy case. Download file results are mocked.
+    """
+    # 1. Create Iceberg table
+    namespace = "default"
+    table_name = "table_converter_ray_pos_delete_read_by_spark_success"
+    identifier = f"{namespace}.{table_name}"
+    schema = Schema(
+        NestedField(
+            field_id=1, name="number_partitioned", field_type=LongType(), required=False
+        ),
+        NestedField(
+            field_id=2, name="primary_key", field_type=StringType(), required=False
+        ),
+        schema_id=0,
+    )
+    partition_field_identity = PartitionField(
+        source_id=1,
+        field_id=101,
+        transform=IdentityTransform(),
+        name="number_partitioned",
+    )
+    partition_spec = PartitionSpec(partition_field_identity)
+    properties = dict()
+    properties["write.format.default"] = "parquet"
+    properties["write.delete.mode"] = "merge-on-read"
+    properties["write.update.mode"] = "merge-on-read"
+    properties["write.merge.mode"] = "merge-on-read"
+    properties["format-version"] = "2"
+    drop_table_if_exists(identifier, session_catalog)
+    session_catalog.create_table(
+        identifier,
+        schema=schema,
+        partition_spec=partition_spec,
+        properties=properties,
+    )
+    # 2. Use Spark to generate initial data files
+    tbl = session_catalog.load_table(identifier)
+    run_spark_commands(
+        spark,
+        [
+            f"""
+               INSERT INTO {identifier} VALUES (0, "pk1"), (0, "pk2"), (0, "pk3")
+               """
+        ],
+    )
+    run_spark_commands(
+        spark,
+        [
+            f"""
+                   INSERT INTO {identifier} VALUES (0, "pk1"), (0, "pk2"), (0, "pk3")
+                   """
+        ],
+    )
+    run_spark_commands(
+        spark,
+        [
+            f"""
+                   INSERT INTO {identifier} VALUES (0, "pk4"), (0, "pk2"), (0, "pk3")
+                   """
+        ],
+    )
+    tbl.refresh()
+    # 3. Use convert.remote() function to compute position deletes
+    data_file_dict, equality_delete_dict, pos_delete_dict = fetch_all_bucket_files(tbl)
+    convert_input_files_for_all_buckets = group_all_files_to_each_bucket(
+        data_file_dict=data_file_dict,
+        equality_delete_dict=equality_delete_dict,
+        pos_delete_dict=pos_delete_dict,
+    )
+    s3_file_system = get_s3_file_system()
+    for i, one_bucket_files in enumerate(convert_input_files_for_all_buckets):
+        convert_input = ConvertInput.of(
+            convert_input_files=one_bucket_files,
+            convert_task_index=i,
+            iceberg_table_warehouse_prefix="warehouse/default",
+            identifier_fields=["primary_key"],
+            compact_small_files=False,
+            enforce_primary_key_uniqueness=True,
+            position_delete_for_multiple_data_files=True,
+            max_parallel_data_file_download=10,
+            s3_file_system=s3_file_system,
+        )
+    primary_key_array_1 = pa.array(["pk1", "pk2", "pk3"])
+    names = ["primary_key"]
+    data_table_1 = pa.Table.from_arrays([primary_key_array_1], names=names)
+    primary_key_array_2 = pa.array(["pk1", "pk2", "pk3"])
+    names = ["primary_key"]
+    data_table_2 = pa.Table.from_arrays([primary_key_array_2], names=names)
+    primary_key_array_3 = pa.array(["pk4", "pk2", "pk3"])
+    names = ["primary_key"]
+    data_table_3 = pa.Table.from_arrays([primary_key_array_3], names=names)
+    download_data_mock = mocker.patch(
+        "deltacat.compute.converter.utils.io.download_parquet_with_daft_hash_applied"
+    )
+    download_data_mock.side_effect = (data_table_1, data_table_2, data_table_3)
+    convert_ref = convert.remote(convert_input)
+    to_be_deleted_files_list = []
+    to_be_added_files_dict_list = []
+    convert_result = ray.get(convert_ref)
+    partition_value = convert_input.convert_input_files.partition_value
+    if convert_result[0]:
+        to_be_deleted_files_list.extend(convert_result[0].values())
+    file_location = convert_result[1][partition_value][0]
+    to_be_added_files = f"s3://{file_location}"
+    to_be_added_files_dict = defaultdict()
+    to_be_added_files_dict[partition_value] = [to_be_added_files]
+    to_be_added_files_dict_list.append(to_be_added_files_dict)
+    # 4. Commit position delete, delete equality deletes from table
+    new_position_delete_files = parquet_files_dict_to_iceberg_data_files(
+        io=tbl.io,
+        table_metadata=tbl.metadata,
+        files_dict_list=to_be_added_files_dict_list,
+    )
+    commit_append_snapshot(
+        iceberg_table=tbl,
+        new_position_delete_files=new_position_delete_files,
+    )
+    tbl.refresh()
+    # 5. Result assertion: Spark read table contains unique primary key
+    spark_read_pos_delete = spark.sql(f"select * from {identifier}").collect()
+    all_pk = [
+        spark_read_pos_delete[row_idx][1]
+        for row_idx in range(len(spark_read_pos_delete))
+    ]
+    all_pk_sorted = sorted(all_pk)
+    assert all_pk_sorted == ["pk1", "pk2", "pk3", "pk4"]

deltacat/tests/compute/converter/utils.py ADDED Viewed

@@ -0,0 +1,123 @@
+import uuid
+import logging
+from pyiceberg.exceptions import NoSuchTableError
+from deltacat import logs
+logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+def get_s3_file_system():
+    import pyarrow
+    return pyarrow.fs.S3FileSystem(
+        access_key="admin",
+        secret_key="password",
+        endpoint_override="http://localhost:9000",
+    )
+    #        'region="us-east-1", proxy_options={'scheme': 'http', 'host': 'localhost',
+    # 'port': 9000, 'username': 'admin',
+    # 'password': 'password'})
+def write_equality_data_table(
+    file_link_prefix, table, partition_value, equality_delete_table
+):
+    import pyarrow.parquet as pq
+    uuid_path = uuid.uuid4()
+    deletes_file_path = f"{file_link_prefix}/{uuid_path}_deletes.parquet"
+    file_system = get_s3_file_system()
+    pq.write_table(equality_delete_table, deletes_file_path, filesystem=file_system)
+    return f"s3://{deletes_file_path}"
+def add_equality_data_files(file_paths, table, partition_value):
+    with table.transaction() as tx:
+        if table.metadata.name_mapping() is None:
+            tx.set_properties(
+                **{
+                    "schema.name-mapping.default": table.metadata.schema().name_mapping.model_dump_json()
+                }
+            )
+        with tx.update_snapshot().fast_append() as update_snapshot:
+            data_files = parquet_files_to_equality_data_files(
+                table_metadata=table.metadata,
+                file_paths=file_paths,
+                io=table.io,
+                partition_value=partition_value,
+            )
+            for data_file in data_files:
+                update_snapshot.append_data_file(data_file)
+def parquet_files_to_equality_data_files(
+    io, table_metadata, file_paths, partition_value
+):
+    from pyiceberg.io.pyarrow import (
+        _check_pyarrow_schema_compatible,
+        data_file_statistics_from_parquet_metadata,
+        compute_statistics_plan,
+        parquet_path_to_id_mapping,
+    )
+    from pyiceberg.manifest import (
+        DataFile,
+        DataFileContent,
+        FileFormat,
+    )
+    import pyarrow.parquet as pq
+    for file_path in file_paths:
+        input_file = io.new_input(file_path)
+        with input_file.open() as input_stream:
+            parquet_metadata = pq.read_metadata(input_stream)
+        schema = table_metadata.schema()
+        _check_pyarrow_schema_compatible(
+            schema, parquet_metadata.schema.to_arrow_schema()
+        )
+        statistics = data_file_statistics_from_parquet_metadata(
+            parquet_metadata=parquet_metadata,
+            stats_columns=compute_statistics_plan(schema, table_metadata.properties),
+            parquet_column_mapping=parquet_path_to_id_mapping(schema),
+        )
+        data_file = DataFile(
+            content=DataFileContent.EQUALITY_DELETES,
+            file_path=file_path,
+            file_format=FileFormat.PARQUET,
+            partition=partition_value,
+            file_size_in_bytes=len(input_file),
+            sort_order_id=None,
+            spec_id=table_metadata.default_spec_id,
+            equality_ids=None,
+            key_metadata=None,
+            **statistics.to_serialized_dict(),
+        )
+        yield data_file
+def commit_equality_delete_to_table(
+    table, file_link_prefix, partition_value, equality_delete_table
+):
+    data_files = [
+        write_equality_data_table(
+            table=table,
+            file_link_prefix=file_link_prefix,
+            partition_value=partition_value,
+            equality_delete_table=equality_delete_table,
+        )
+    ]
+    add_equality_data_files(
+        file_paths=data_files, partition_value=partition_value, table=table
+    )
+    return data_files
+def drop_table_if_exists(table, catalog):
+    try:
+        catalog.drop_table(table)
+    except NoSuchTableError:
+        logger.warning(f"table:{table} doesn't exist, not dropping table.")

deltacat/tests/compute/resource_estimation/test_delta.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import deltacat.tests.local_deltacat_storage as ds
 from deltacat.types.media import ContentType
-import os
 import pytest
 from deltacat.storage import Delta
 from deltacat.compute.resource_estimation.delta import (
@@ -21,21 +20,6 @@ Function scoped fixtures
 """
-@pytest.fixture(scope="function")
-def local_deltacat_storage_kwargs():
-    DATABASE_FILE_PATH_KEY, DATABASE_FILE_PATH_VALUE = (
-        "db_file_path",
-        "deltacat/tests/local_deltacat_storage/db_test.sqlite",
-    )
-    # see deltacat/tests/local_deltacat_storage/README.md for documentation
-    kwargs_for_local_deltacat_storage = {
-        DATABASE_FILE_PATH_KEY: DATABASE_FILE_PATH_VALUE,
-    }
-    yield kwargs_for_local_deltacat_storage
-    if os.path.exists(DATABASE_FILE_PATH_VALUE):
-        os.remove(DATABASE_FILE_PATH_VALUE)
 @pytest.fixture(scope="function")
 def parquet_delta_with_manifest(local_deltacat_storage_kwargs):
     """

deltacat 1.1.36__py3-none-any.whl → 2.0__py3-none-any.whl

deltacat 1.1.36py3-none-any.whl → 2.0py3-none-any.whl