PyPI - deltacat - Versions diffs - 2.0__py3-none-any.whl → 2.0.0__py3-none-any.whl - Mend

deltacat 2.0py3-none-any.whl → 2.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (324) hide show

deltacat/__init__.py +117 -18
deltacat/api.py +536 -126
deltacat/aws/constants.py +0 -23
deltacat/aws/s3u.py +4 -631
deltacat/benchmarking/benchmark_engine.py +4 -2
deltacat/benchmarking/conftest.py +1 -19
deltacat/benchmarking/test_benchmark_pipeline.py +6 -4
deltacat/catalog/__init__.py +64 -5
deltacat/catalog/delegate.py +445 -63
deltacat/catalog/interface.py +188 -62
deltacat/catalog/main/impl.py +2444 -282
deltacat/catalog/model/catalog.py +208 -113
deltacat/catalog/model/properties.py +63 -24
deltacat/compute/__init__.py +14 -0
deltacat/compute/compactor/compaction_session.py +97 -75
deltacat/compute/compactor/model/compact_partition_params.py +75 -30
deltacat/compute/compactor/model/compaction_session_audit_info.py +17 -0
deltacat/compute/compactor/model/round_completion_info.py +16 -6
deltacat/compute/compactor/repartition_session.py +8 -21
deltacat/compute/compactor/steps/hash_bucket.py +5 -5
deltacat/compute/compactor/steps/materialize.py +9 -7
deltacat/compute/compactor/steps/repartition.py +12 -11
deltacat/compute/compactor/utils/io.py +6 -5
deltacat/compute/compactor/utils/round_completion_reader.py +117 -0
deltacat/compute/compactor/utils/system_columns.py +3 -1
deltacat/compute/compactor_v2/compaction_session.py +17 -14
deltacat/compute/compactor_v2/constants.py +30 -1
deltacat/compute/compactor_v2/model/evaluate_compaction_result.py +0 -1
deltacat/compute/compactor_v2/model/hash_bucket_input.py +9 -3
deltacat/compute/compactor_v2/model/merge_file_group.py +5 -2
deltacat/compute/compactor_v2/model/merge_input.py +33 -8
deltacat/compute/compactor_v2/private/compaction_utils.py +167 -68
deltacat/compute/compactor_v2/steps/hash_bucket.py +5 -2
deltacat/compute/compactor_v2/steps/merge.py +267 -55
deltacat/compute/compactor_v2/utils/content_type_params.py +34 -6
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/delta.py +5 -3
deltacat/compute/compactor_v2/utils/io.py +11 -4
deltacat/compute/compactor_v2/utils/merge.py +15 -2
deltacat/compute/compactor_v2/utils/primary_key_index.py +28 -4
deltacat/compute/compactor_v2/utils/task_options.py +45 -33
deltacat/compute/converter/constants.py +5 -0
deltacat/compute/converter/converter_session.py +207 -52
deltacat/compute/converter/model/convert_input.py +43 -16
deltacat/compute/converter/model/convert_input_files.py +33 -16
deltacat/compute/converter/model/convert_result.py +80 -0
deltacat/compute/converter/model/converter_session_params.py +64 -19
deltacat/compute/converter/pyiceberg/catalog.py +21 -18
deltacat/compute/converter/pyiceberg/overrides.py +193 -65
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +148 -100
deltacat/compute/converter/steps/convert.py +230 -75
deltacat/compute/converter/steps/dedupe.py +46 -12
deltacat/compute/converter/utils/convert_task_options.py +66 -22
deltacat/compute/converter/utils/converter_session_utils.py +126 -60
deltacat/compute/converter/utils/iceberg_columns.py +13 -8
deltacat/compute/converter/utils/io.py +173 -13
deltacat/compute/converter/utils/s3u.py +42 -27
deltacat/compute/janitor.py +205 -0
deltacat/compute/jobs/client.py +417 -0
deltacat/compute/resource_estimation/delta.py +38 -6
deltacat/compute/resource_estimation/model.py +8 -0
deltacat/constants.py +49 -6
deltacat/docs/autogen/schema/inference/generate_type_mappings.py +687 -0
deltacat/docs/autogen/schema/inference/parse_json_type_mappings.py +673 -0
deltacat/env.py +10 -0
deltacat/examples/basic_logging.py +6 -6
deltacat/examples/compactor/aws/__init__.py +1 -0
deltacat/examples/compactor/bootstrap.py +863 -0
deltacat/examples/compactor/compactor.py +373 -0
deltacat/examples/compactor/explorer.py +473 -0
deltacat/examples/compactor/gcp/__init__.py +1 -0
deltacat/examples/compactor/job_runner.py +439 -0
deltacat/examples/compactor/utils/__init__.py +1 -0
deltacat/examples/compactor/utils/common.py +261 -0
deltacat/examples/experimental/iceberg/converter/beam/app.py +226 -0
deltacat/examples/experimental/iceberg/converter/beam/main.py +133 -0
deltacat/examples/experimental/iceberg/converter/beam/test_workflow.py +113 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/__init__.py +3 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/common.py +174 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py +263 -0
deltacat/examples/{iceberg → experimental/iceberg}/iceberg_bucket_writer.py +66 -21
deltacat/examples/{iceberg → experimental/iceberg}/iceberg_reader.py +2 -4
deltacat/examples/hello_world.py +4 -2
deltacat/examples/indexer/indexer.py +163 -0
deltacat/examples/indexer/job_runner.py +198 -0
deltacat/exceptions.py +66 -4
deltacat/experimental/catalog/iceberg/__init__.py +6 -0
deltacat/{catalog → experimental/catalog}/iceberg/iceberg_catalog_config.py +1 -1
deltacat/{catalog → experimental/catalog}/iceberg/impl.py +43 -12
deltacat/{catalog → experimental/catalog}/iceberg/overrides.py +12 -14
deltacat/experimental/compatibility/backfill_locator_to_id_mappings.py +201 -0
deltacat/experimental/converter_agent/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/managed.py +173 -0
deltacat/experimental/converter_agent/table_monitor.py +479 -0
deltacat/experimental/daft/__init__.py +4 -0
deltacat/experimental/daft/daft_catalog.py +229 -0
deltacat/experimental/storage/__init__.py +0 -0
deltacat/experimental/storage/iceberg/__init__.py +0 -0
deltacat/experimental/storage/iceberg/iceberg_scan_planner.py +129 -0
deltacat/{storage → experimental/storage}/iceberg/impl.py +6 -4
deltacat/{storage → experimental/storage}/iceberg/model.py +7 -3
deltacat/experimental/storage/iceberg/visitor.py +119 -0
deltacat/experimental/storage/rivulet/__init__.py +11 -0
deltacat/experimental/storage/rivulet/arrow/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/arrow/serializer.py +7 -4
deltacat/{storage → experimental/storage}/rivulet/dataset.py +13 -12
deltacat/{storage → experimental/storage}/rivulet/dataset_executor.py +12 -20
deltacat/experimental/storage/rivulet/feather/__init__.py +7 -0
deltacat/{storage → experimental/storage}/rivulet/feather/file_reader.py +7 -5
deltacat/{storage → experimental/storage}/rivulet/feather/serializer.py +4 -4
deltacat/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/fs/file_provider.py +3 -3
deltacat/{storage → experimental/storage}/rivulet/fs/file_store.py +2 -2
deltacat/{storage → experimental/storage}/rivulet/fs/output_file.py +1 -1
deltacat/{storage → experimental/storage}/rivulet/logical_plan.py +4 -4
deltacat/experimental/storage/rivulet/metastore/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/metastore/delta.py +1 -3
deltacat/{storage → experimental/storage}/rivulet/metastore/json_sst.py +3 -3
deltacat/{storage → experimental/storage}/rivulet/metastore/sst.py +2 -2
deltacat/{storage → experimental/storage}/rivulet/metastore/sst_interval_tree.py +3 -3
deltacat/experimental/storage/rivulet/parquet/__init__.py +7 -0
deltacat/experimental/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/parquet/file_reader.py +7 -5
deltacat/{storage → experimental/storage}/rivulet/parquet/serializer.py +4 -4
deltacat/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/reader/block_scanner.py +20 -9
deltacat/{storage → experimental/storage}/rivulet/reader/data_reader.py +3 -3
deltacat/{storage → experimental/storage}/rivulet/reader/data_scan.py +5 -3
deltacat/{storage → experimental/storage}/rivulet/reader/dataset_metastore.py +7 -6
deltacat/{storage → experimental/storage}/rivulet/reader/dataset_reader.py +8 -6
deltacat/{storage → experimental/storage}/rivulet/reader/pyarrow_data_reader.py +4 -1
deltacat/{storage → experimental/storage}/rivulet/reader/reader_type_registrar.py +4 -4
deltacat/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/schema/schema.py +1 -1
deltacat/{storage → experimental/storage}/rivulet/serializer.py +1 -1
deltacat/{storage → experimental/storage}/rivulet/serializer_factory.py +9 -5
deltacat/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/experimental/storage/rivulet/shard/range_shard.py +129 -0
deltacat/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/{storage → experimental/storage}/rivulet/writer/memtable_dataset_writer.py +20 -9
deltacat/io/__init__.py +13 -0
deltacat/io/dataset/__init__.py +0 -0
deltacat/io/dataset/deltacat_dataset.py +91 -0
deltacat/io/datasink/__init__.py +0 -0
deltacat/io/datasink/deltacat_datasink.py +207 -0
deltacat/io/datasource/__init__.py +0 -0
deltacat/io/datasource/deltacat_datasource.py +579 -0
deltacat/io/reader/__init__.py +0 -0
deltacat/io/reader/deltacat_read_api.py +172 -0
deltacat/storage/__init__.py +22 -2
deltacat/storage/interface.py +54 -32
deltacat/storage/main/impl.py +1494 -541
deltacat/storage/model/delta.py +27 -3
deltacat/storage/model/expression/__init__.py +47 -0
deltacat/storage/model/expression/expression.py +656 -0
deltacat/storage/model/expression/visitor.py +248 -0
deltacat/storage/model/locator.py +6 -12
deltacat/storage/model/manifest.py +231 -6
deltacat/storage/model/metafile.py +224 -119
deltacat/storage/model/namespace.py +8 -1
deltacat/storage/model/partition.py +117 -42
deltacat/storage/model/scan/push_down.py +32 -5
deltacat/storage/model/schema.py +2427 -159
deltacat/storage/model/shard.py +6 -2
deltacat/storage/model/sort_key.py +40 -0
deltacat/storage/model/stream.py +9 -2
deltacat/storage/model/table.py +12 -1
deltacat/storage/model/table_version.py +11 -0
deltacat/storage/model/transaction.py +1184 -208
deltacat/storage/model/transform.py +81 -2
deltacat/storage/model/types.py +53 -29
deltacat/storage/util/__init__.py +0 -0
deltacat/storage/util/scan_planner.py +26 -0
deltacat/tests/_io/reader/__init__.py +0 -0
deltacat/tests/_io/reader/test_deltacat_read_api.py +0 -0
deltacat/tests/_io/test_cloudpickle_bug_fix.py +8 -4
deltacat/tests/aws/test_s3u.py +2 -31
deltacat/tests/catalog/data/__init__.py +0 -0
deltacat/tests/catalog/main/__init__.py +0 -0
deltacat/tests/catalog/main/test_catalog_impl_namespace_operations.py +130 -0
deltacat/tests/catalog/main/test_catalog_impl_table_operations.py +1972 -0
deltacat/tests/catalog/model/__init__.py +0 -0
deltacat/tests/catalog/model/test_table_definition.py +16 -0
deltacat/tests/catalog/test_catalogs.py +103 -106
deltacat/tests/catalog/test_default_catalog_impl.py +12152 -72
deltacat/tests/compute/compact_partition_test_cases.py +35 -8
deltacat/tests/compute/compactor/steps/test_repartition.py +12 -12
deltacat/tests/compute/compactor/utils/test_io.py +124 -120
deltacat/tests/compute/compactor/utils/test_round_completion_reader.py +254 -0
deltacat/tests/compute/compactor_v2/test_compaction_session.py +423 -312
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +266 -0
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +45 -0
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +270 -1
deltacat/tests/compute/conftest.py +8 -44
deltacat/tests/compute/converter/test_convert_session.py +697 -349
deltacat/tests/compute/converter/utils.py +15 -6
deltacat/tests/compute/resource_estimation/test_delta.py +145 -79
deltacat/tests/compute/test_compact_partition_incremental.py +103 -70
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +89 -66
deltacat/tests/compute/test_compact_partition_params.py +13 -8
deltacat/tests/compute/test_compact_partition_rebase.py +77 -62
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +263 -193
deltacat/tests/compute/test_janitor.py +236 -0
deltacat/tests/compute/test_util_common.py +716 -43
deltacat/tests/compute/test_util_constant.py +0 -1
deltacat/tests/{storage/conftest.py → conftest.py} +1 -1
deltacat/tests/daft/__init__.py +0 -0
deltacat/tests/daft/test_model.py +97 -0
deltacat/tests/experimental/__init__.py +1 -0
deltacat/tests/experimental/catalog/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/test_iceberg_catalog.py +71 -0
deltacat/tests/experimental/compatibility/__init__.py +1 -0
deltacat/tests/experimental/compatibility/test_backfill_locator_to_id_mappings.py +582 -0
deltacat/tests/experimental/daft/__init__.py +0 -0
deltacat/tests/experimental/daft/test_deltacat_daft_integration.py +136 -0
deltacat/tests/experimental/storage/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/conftest.py +3 -3
deltacat/tests/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/fs/test_file_location_provider.py +3 -2
deltacat/tests/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/reader/query_expression.py +80 -0
deltacat/tests/experimental/storage/rivulet/reader/test_data_scan.py +119 -0
deltacat/tests/experimental/storage/rivulet/reader/test_dataset_metastore.py +71 -0
deltacat/tests/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/schema/test_schema.py +1 -1
deltacat/tests/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/shard/test_range_shard.py +162 -0
deltacat/tests/{storage → experimental/storage}/rivulet/test_dataset.py +6 -4
deltacat/tests/{storage → experimental/storage}/rivulet/test_manifest.py +5 -5
deltacat/tests/{storage → experimental/storage}/rivulet/test_sst_interval_tree.py +5 -5
deltacat/tests/{storage → experimental/storage}/rivulet/test_utils.py +8 -6
deltacat/tests/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/{storage → experimental/storage}/rivulet/writer/test_dataset_write_then_read.py +11 -9
deltacat/tests/{storage → experimental/storage}/rivulet/writer/test_dataset_writer.py +2 -2
deltacat/tests/{storage → experimental/storage}/rivulet/writer/test_memtable_dataset_writer.py +7 -7
deltacat/tests/storage/main/test_main_storage.py +6900 -95
deltacat/tests/storage/model/test_expression.py +327 -0
deltacat/tests/storage/model/test_manifest.py +129 -0
deltacat/tests/storage/model/test_metafile_io.py +78 -173
deltacat/tests/storage/model/test_partition_scheme.py +85 -0
deltacat/tests/storage/model/test_schema.py +171 -0
deltacat/tests/storage/model/test_schema_update.py +1925 -0
deltacat/tests/storage/model/test_shard.py +3 -1
deltacat/tests/storage/model/test_sort_scheme.py +90 -0
deltacat/tests/storage/model/test_transaction.py +393 -48
deltacat/tests/storage/model/test_transaction_history.py +886 -0
deltacat/tests/test_deltacat_api.py +1036 -11
deltacat/tests/test_exceptions.py +9 -5
deltacat/tests/test_utils/pyarrow.py +52 -21
deltacat/tests/test_utils/storage.py +23 -34
deltacat/tests/types/__init__.py +0 -0
deltacat/tests/types/test_tables.py +104 -0
deltacat/tests/utils/exceptions.py +22 -0
deltacat/tests/utils/main_deltacat_storage_mock.py +31 -0
deltacat/tests/utils/ray_utils/test_dataset.py +123 -5
deltacat/tests/utils/test_daft.py +121 -31
deltacat/tests/utils/test_numpy.py +1193 -0
deltacat/tests/utils/test_pandas.py +1106 -0
deltacat/tests/utils/test_polars.py +1040 -0
deltacat/tests/utils/test_pyarrow.py +1370 -89
deltacat/types/media.py +345 -37
deltacat/types/tables.py +2344 -46
deltacat/utils/arguments.py +33 -1
deltacat/utils/daft.py +824 -40
deltacat/utils/export.py +3 -1
deltacat/utils/filesystem.py +139 -9
deltacat/utils/metafile_locator.py +2 -1
deltacat/utils/numpy.py +118 -26
deltacat/utils/pandas.py +577 -48
deltacat/utils/polars.py +759 -0
deltacat/utils/pyarrow.py +1373 -192
deltacat/utils/ray_utils/concurrency.py +1 -1
deltacat/utils/ray_utils/dataset.py +101 -10
deltacat/utils/ray_utils/runtime.py +56 -4
deltacat/utils/reader_compatibility_mapping.py +3083 -0
deltacat/utils/url.py +1325 -0
deltacat-2.0.0.dist-info/METADATA +1163 -0
deltacat-2.0.0.dist-info/RECORD +439 -0
{deltacat-2.0.dist-info → deltacat-2.0.0.dist-info}/WHEEL +1 -1
deltacat/catalog/iceberg/__init__.py +0 -4
deltacat/compute/compactor/utils/round_completion_file.py +0 -97
deltacat/compute/merge_on_read/__init__.py +0 -4
deltacat/compute/merge_on_read/daft.py +0 -40
deltacat/compute/merge_on_read/model/merge_on_read_params.py +0 -66
deltacat/compute/merge_on_read/utils/delta.py +0 -42
deltacat/examples/common/fixtures.py +0 -15
deltacat/storage/iceberg/iceberg_scan_planner.py +0 -28
deltacat/storage/rivulet/__init__.py +0 -11
deltacat/storage/rivulet/feather/__init__.py +0 -5
deltacat/storage/rivulet/parquet/__init__.py +0 -5
deltacat/tests/compute/compactor/utils/test_round_completion_file.py +0 -231
deltacat/tests/compute/test_util_create_table_deltas_repo.py +0 -388
deltacat/tests/local_deltacat_storage/__init__.py +0 -1235
deltacat/tests/local_deltacat_storage/exceptions.py +0 -10
deltacat/utils/s3fs.py +0 -21
deltacat-2.0.dist-info/METADATA +0 -65
deltacat-2.0.dist-info/RECORD +0 -347
/deltacat/compute/{merge_on_read/model → jobs}/__init__.py +0 -0
/deltacat/{compute/merge_on_read/utils → docs}/__init__.py +0 -0
/deltacat/{examples/common → docs/autogen}/__init__.py +0 -0
/deltacat/{examples/iceberg → docs/autogen/schema}/__init__.py +0 -0
/deltacat/{storage/iceberg → docs/autogen/schema/inference}/__init__.py +0 -0
/deltacat/{storage/rivulet/arrow → examples/compactor}/__init__.py +0 -0
/deltacat/{storage/rivulet/fs → examples/experimental}/__init__.py +0 -0
/deltacat/{storage/rivulet/metastore → examples/experimental/iceberg}/__init__.py +0 -0
/deltacat/{storage/rivulet/reader → examples/experimental/iceberg/converter}/__init__.py +0 -0
/deltacat/{storage/rivulet/schema → examples/experimental/iceberg/converter/beam}/__init__.py +0 -0
/deltacat/{storage/rivulet/writer → examples/indexer}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet → examples/indexer/aws}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet/fs → examples/indexer/gcp}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet/schema → experimental}/__init__.py +0 -0
/deltacat/{tests/storage/rivulet/writer → experimental/catalog}/__init__.py +0 -0
/deltacat/{storage/rivulet/parquet/data_reader.py → experimental/compatibility/__init__.py} +0 -0
/deltacat/{storage → experimental/storage}/rivulet/fs/input_file.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/mvp/Table.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/mvp/__init__.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/reader/query_expression.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/schema/datatype.py +0 -0
/deltacat/{storage → experimental/storage}/rivulet/writer/dataset_writer.py +0 -0
{deltacat-2.0.dist-info → deltacat-2.0.0.dist-info/licenses}/LICENSE +0 -0
{deltacat-2.0.dist-info → deltacat-2.0.0.dist-info}/top_level.txt +0 -0

deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py ADDED Viewed

@@ -0,0 +1,263 @@
+"""
+Spark SQL utilities for Iceberg table operations.
+This module provides Beam DoFn classes that use Spark SQL to work with Iceberg tables,
+"""
+import os
+import apache_beam as beam
+from apache_beam import Row
+class SparkSQLIcebergRead(beam.DoFn):
+    """
+    Custom Beam DoFn that uses Spark SQL to read Iceberg tables.
+    """
+    def __init__(
+        self,
+        table_name: str,
+        catalog_uri: str = "http://localhost:8181",
+        warehouse: str = "warehouse/",
+    ):
+        """
+        Initialize the Spark SQL reader.
+        Args:
+            table_name: Name of the Iceberg table
+            catalog_uri: URI of the Iceberg REST catalog
+            warehouse: Warehouse path
+        """
+        self.table_name = table_name
+        self.catalog_uri = catalog_uri
+        self.warehouse = warehouse
+        self.spark = None
+    def setup(self):
+        """Set up Spark session (called once per worker)."""
+        try:
+            from pyspark.sql import SparkSession
+            import importlib.metadata
+            # Get Spark version for dependency resolution
+            try:
+                spark_version = ".".join(
+                    importlib.metadata.version("pyspark").split(".")[:2]
+                )
+            except Exception:
+                spark_version = "3.5"  # Default fallback
+            scala_version = "2.12"
+            iceberg_version = "1.6.0"
+            print(f"🔧 Setting up Spark session for reading {self.table_name}")
+            print(f"   - Spark version: {spark_version}")
+            print(f"   - Iceberg version: {iceberg_version}")
+            # Set Spark packages for Iceberg runtime
+            os.environ["PYSPARK_SUBMIT_ARGS"] = (
+                f"--packages org.apache.iceberg:iceberg-spark-runtime-{spark_version}_{scala_version}:{iceberg_version} "
+                f"pyspark-shell"
+            )
+            # Create Spark session with Iceberg REST catalog configuration
+            self.spark = (
+                SparkSession.builder.appName(f"DeltaCAT Read - {self.table_name}")
+                .config("spark.sql.session.timeZone", "UTC")
+                .config(
+                    "spark.serializer", "org.apache.spark.serializer.KryoSerializer"
+                )
+                .config(
+                    "spark.sql.extensions",
+                    "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
+                )
+                # Configure REST catalog
+                .config(
+                    "spark.sql.catalog.rest", "org.apache.iceberg.spark.SparkCatalog"
+                )
+                .config("spark.sql.catalog.rest.type", "rest")
+                .config("spark.sql.catalog.rest.uri", self.catalog_uri)
+                .config("spark.sql.catalog.rest.warehouse", self.warehouse)
+                # Set REST as default catalog
+                .config("spark.sql.defaultCatalog", "rest")
+                # Local mode configuration (within Beam workers)
+                .config("spark.master", "local[1]")  # Single thread per worker
+                .config("spark.sql.adaptive.enabled", "true")
+                # Networking binding
+                .config("spark.driver.bindAddress", "127.0.0.1")
+                .config("spark.driver.host", "127.0.0.1")
+                .config("spark.ui.enabled", "false")
+                .config("spark.sql.adaptive.coalescePartitions.enabled", "false")
+                .getOrCreate()
+            )
+            print(f"✅ Spark session created successfully")
+        except Exception as e:
+            print(f"❌ Failed to set up Spark session: {e}")
+            raise
+    def teardown(self):
+        """Clean up Spark session (called once per worker)."""
+        if self.spark:
+            try:
+                self.spark.stop()
+                print("✅ Spark session stopped")
+            except Exception as e:
+                print(f"⚠️ Error stopping Spark session: {e}")
+    def process(self, element):
+        """
+        Process element (read from Iceberg table using Spark SQL).
+        Args:
+            element: Input element (not used, just triggers the read)
+        Yields:
+            Records from the Iceberg table
+        """
+        try:
+            if not self.spark:
+                raise RuntimeError("Spark session not initialized")
+            print(f"📖 Reading table {self.table_name} using Spark SQL")
+            # Read from Iceberg table using Spark SQL
+            df = self.spark.sql(f"SELECT * FROM {self.table_name}")
+            # Collect all records
+            records = df.collect()
+            print(f"📊 Successfully read {len(records)} records from {self.table_name}")
+            # Convert Spark rows to Beam Row objects and yield
+            for row in records:
+                row_dict = row.asDict()
+                # Convert to Beam Row for consistency with write mode
+                beam_row = Row(**row_dict)
+                yield beam_row
+        except Exception as e:
+            print(f"❌ Failed to read from table {self.table_name}: {e}")
+            raise
+class SparkSQLIcebergRewrite(beam.DoFn):
+    """
+    Custom Beam DoFn that uses Spark SQL to rewrite Iceberg table data files.
+    This uses Spark's rewrite_data_files procedure to materialize positional deletes
+    by rewriting data files. The result is a "clean" table without positional deletes.
+    """
+    def __init__(self, catalog_uri, warehouse_path, table_name):
+        self.catalog_uri = catalog_uri
+        self.warehouse_path = warehouse_path
+        self.table_name = table_name
+    def setup(self):
+        """Initialize Spark session for rewrite operations."""
+        try:
+            from pyspark.sql import SparkSession
+            import importlib.metadata
+            print(f"🔧 Setting up Spark session for rewriting {self.table_name}")
+            # Detect Spark version for appropriate Iceberg runtime
+            spark_version = importlib.metadata.version("pyspark")
+            major_minor = ".".join(spark_version.split(".")[:2])
+            print(f"   - Spark version: {major_minor}")
+            print(f"   - Iceberg version: 1.6.0")
+            # Configure Spark with Iceberg
+            self.spark = (
+                SparkSession.builder.appName("IcebergRewrite")
+                .config(
+                    "spark.jars.packages",
+                    f"org.apache.iceberg:iceberg-spark-runtime-{major_minor}_2.12:1.6.0",
+                )
+                .config(
+                    "spark.sql.extensions",
+                    "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
+                )
+                .config(
+                    "spark.sql.catalog.spark_catalog",
+                    "org.apache.iceberg.spark.SparkSessionCatalog",
+                )
+                .config("spark.sql.catalog.spark_catalog.type", "rest")
+                .config("spark.sql.catalog.spark_catalog.uri", self.catalog_uri)
+                .config(
+                    "spark.sql.catalog.spark_catalog.warehouse", self.warehouse_path
+                )
+                .config("spark.driver.bindAddress", "127.0.0.1")
+                .config("spark.driver.host", "127.0.0.1")
+                .config("spark.ui.enabled", "false")
+                .getOrCreate()
+            )
+            print("✅ Spark session created successfully")
+        except ImportError as e:
+            raise RuntimeError(
+                f"PySpark is required for rewrite mode. Install with: pip install pyspark"
+            ) from e
+        except Exception as e:
+            raise RuntimeError(f"Failed to create Spark session: {e}") from e
+    def process(self, element):
+        """Rewrite table data files to materialize positional deletes."""
+        try:
+            print(
+                f"📋 Rewriting table {self.table_name} to materialize positional deletes"
+            )
+            # Use Spark's rewrite_data_files procedure with delete_file_threshold=1
+            # This forces rewrite even when there's only 1 positional delete file
+            rewrite_sql = f"""
+            CALL spark_catalog.system.rewrite_data_files(
+                table => '{self.table_name}',
+                options => map('delete-file-threshold', '1')
+            )
+            """
+            print(f"🔄 Executing rewrite procedure with delete_file_threshold=1...")
+            print(f"   SQL: {rewrite_sql.strip()}")
+            print(
+                f"   Rationale: Forces rewrite even with single positional delete file"
+            )
+            result = self.spark.sql(rewrite_sql)
+            # Collect results to see what was rewritten
+            rewrite_result = result.collect()[0]
+            print(f"📊 Rewrite result: {rewrite_result}")
+            # Check if we actually rewrote anything
+            if rewrite_result.rewritten_data_files_count > 0:
+                print(
+                    f"✅ Successfully rewrote {rewrite_result.rewritten_data_files_count} data files"
+                )
+                print(
+                    f"   - Added {rewrite_result.added_data_files_count} new data files"
+                )
+                print(f"   - Rewrote {rewrite_result.rewritten_bytes_count} bytes")
+                print(f"   - Positional deletes have been materialized!")
+            else:
+                print(f"⚠️  No files were rewritten (rewritten_data_files_count=0)")
+                print(f"   - This may indicate no positional deletes exist")
+                print(f"   - Or the table may already be in optimal state")
+            yield f"Rewrite completed for {self.table_name}"
+        except Exception as e:
+            print(f"❌ Error during rewrite: {e}")
+            import traceback
+            traceback.print_exc()
+            yield f"Rewrite failed for {self.table_name}: {e}"
+    def teardown(self):
+        """Clean up Spark session."""
+        if hasattr(self, "spark"):
+            print("✅ Spark session stopped")
+            self.spark.stop()

deltacat/examples/{iceberg → experimental/iceberg}/iceberg_bucket_writer.py RENAMED Viewed

@@ -1,14 +1,16 @@
 import os
 import logging
+import uuid
 import daft
+from pyiceberg.catalog import CatalogType
 import deltacat as dc
 from deltacat import logs
 from deltacat import IcebergCatalog
-from deltacat.examples.common.fixtures import (
-    store_cli_args_in_os_environ,
-)
+from deltacat.experimental.catalog.iceberg import IcebergCatalogConfig
+from env import store_cli_args_in_os_environ
 from pyiceberg.schema import (
     Schema,
@@ -19,7 +21,7 @@ from pyiceberg.schema import (
 from pyiceberg.partitioning import PartitionSpec, PartitionField
 from pyiceberg.transforms import BucketTransform
-from deltacat.storage.iceberg.model import (
+from deltacat.experimental.storage.iceberg.model import (
     SchemaMapper,
     PartitionSchemeMapper,
 )
@@ -30,6 +32,24 @@ driver_logger = logs.configure_application_logger(logging.getLogger(__name__))
 def run(warehouse="s3://my-bucket/my/key/prefix", **kwargs):
+    """
+    This is an e2e example that
+        1. creates a DeltaCAT Table (backed by an Iceberg Table) in Glue
+        2. writes data into the DeltaCAT Table
+        3. reads data from the DeltaCAT Table using Daft
+    To run the script:
+        1. prepare an AWS Account
+            1. prepare a S3 location where the data will be written to, which will be used in Step 3.
+            2. prepare an IAM Role that has access to the S3 location and Glue
+        2. retrieve the IAM Role AWS Credential and cache locally in ~/.aws/credentials
+        3. run below command to execute the example
+        ```
+        make venv && source venv/bin/activate
+        python -m deltacat.examples.iceberg.iceberg_bucket_writer --warehouse=s3://<YOUR_S3_LOCATION>
+        ```
+    """
     # create any runtime environment required to run the example
     runtime_env = create_ray_runtime_environment()
@@ -38,6 +58,7 @@ def run(warehouse="s3://my-bucket/my/key/prefix", **kwargs):
     # Only the `iceberg` data catalog is provided so it will become the default.
     # If initializing multiple catalogs, use the `default_catalog_name` param
     # to specify which catalog should be the default.
     dc.init(
         catalogs={
             # the name of the DeltaCAT catalog is "iceberg"
@@ -49,11 +70,13 @@ def run(warehouse="s3://my-bucket/my/key/prefix", **kwargs):
                 name="example-iceberg-catalog",
                 # for additional properties see:
                 # https://py.iceberg.apache.org/configuration/
-                properties={
-                    "type": "glue",
-                    "region_name": "us-east-1",
-                    "warehouse": warehouse,
-                },
+                config=IcebergCatalogConfig(
+                    type=CatalogType.GLUE,
+                    properties={
+                        "warehouse": warehouse,
+                        "region_name": "us-east-1",
+                    },
+                ),
             )
         },
         # pass the runtime environment into ray.init()
@@ -89,10 +112,10 @@ def run(warehouse="s3://my-bucket/my/key/prefix", **kwargs):
         }
     )
-    # write to a table named `test_namespace.test_table_bucketed`
+    # write to a table named `test_namespace.test_table_bucketed-<SUFFIX>`
     # we don't need to specify which catalog to create this table in since
     # only the "iceberg" catalog is available
-    table_name = "test_table_bucketed"
+    table_name = f"test_table_bucketed-{uuid.uuid4().hex[:8]}"
     namespace = "test_namespace"
     print(f"Creating Glue Table: {namespace}.{table_name}")
     dc.write_to_table(
@@ -106,9 +129,40 @@ def run(warehouse="s3://my-bucket/my/key/prefix", **kwargs):
     )
     print(f"Getting Glue Table: {namespace}.{table_name}")
-    table_definition = dc.get_table(table_name, namespace)
+    table_definition = dc.get_table(name=table_name, namespace=namespace)
     print(f"Retrieved Glue Table: {table_definition}")
+    # Read Data from DeltaCAT Table (backed by Iceberg) using Daft
+    daft_dataframe = dc.read_table(table=table_name, namespace=namespace)
+    daft_dataframe.where(df["bid"] > 200.0).show()
+    # Expected result:
+    # ╭────────┬─────────┬─────────╮
+    # │ symbol ┆ bid     ┆ ask     │
+    # │ ---    ┆ ---     ┆ ---     │
+    # │ Utf8   ┆ Float64 ┆ Float64 │
+    # ╞════════╪═════════╪═════════╡
+    # │ meta   ┆ 392.03  ┆ 392.09  │
+    # ├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌┤
+    # │ msft   ┆ 403.25  ┆ 403.27  │
+    # ╰────────┴─────────┴─────────╯
+    daft_dataframe.select("symbol").show()
+    # Expected result:
+    # ╭────────╮
+    # │ symbol │
+    # │ ---    │
+    # │ Utf8   │
+    # ╞════════╡
+    # │ meta   │
+    # ├╌╌╌╌╌╌╌╌┤
+    # │ amzn   │
+    # ├╌╌╌╌╌╌╌╌┤
+    # │ goog   │
+    # ├╌╌╌╌╌╌╌╌┤
+    # │ msft   │
+    # ╰────────╯
 if __name__ == "__main__":
     example_script_args = [
@@ -121,15 +175,6 @@ if __name__ == "__main__":
                 "type": str,
             },
         ),
-        (
-            [
-                "--STAGE",
-            ],
-            {
-                "help": "Example runtime environment stage (e.g. dev, alpha, beta, prod).",
-                "type": str,
-            },
-        ),
     ]
     # store any CLI args in the runtime environment

deltacat/examples/{iceberg → experimental/iceberg}/iceberg_reader.py RENAMED Viewed

@@ -4,9 +4,7 @@ import deltacat as dc
 from deltacat import logs
 from deltacat import IcebergCatalog
-from deltacat.examples.common.fixtures import (
-    store_cli_args_in_os_environ,
-)
+from env import store_cli_args_in_os_environ
 from pyiceberg.schema import (
     Schema,
@@ -22,7 +20,7 @@ from pyiceberg.transforms import DayTransform, IdentityTransform
 from pyiceberg.table.sorting import SortField, SortOrder
 from deltacat.exceptions import TableAlreadyExistsError
-from deltacat.storage.iceberg.model import (
+from deltacat.experimental.storage.iceberg.model import (
     SchemaMapper,
     PartitionSchemeMapper,
     SortSchemeMapper,

deltacat/examples/hello_world.py CHANGED Viewed

@@ -1,12 +1,10 @@
 import ray
 import deltacat
 import daft
-import pyiceberg
 def print_package_version_info():
     print(f"DeltaCAT Version: {deltacat.__version__}")
-    print(f"PyIceberg Version: {pyiceberg.__version__}")
     print(f"Ray Version: {ray.__version__}")
     print(f"Daft Version: {daft.__version__}")
@@ -24,4 +22,8 @@ def run():
 if __name__ == "__main__":
+    # initialize deltacat
+    deltacat.init()
+    # run the example
     run()

deltacat/examples/indexer/indexer.py ADDED Viewed

@@ -0,0 +1,163 @@
+import argparse
+from datetime import datetime
+import ray
+import deltacat
+import daft
+import pyarrow as pa
+import pandas as pd
+import polars as pl
+import numpy as np
+from deltacat import DeltaCatUrl
+def print_package_version_info() -> None:
+    print(f"DeltaCAT Version: {deltacat.__version__}")
+    print(f"Ray Version: {ray.__version__}")
+    print(f"Daft Version: {daft.__version__}")
+    print(f"NumPy Version: {np.__version__}")
+    print(f"PyArrow Version: {pa.__version__}")
+    print(f"Polars Version: {pl.__version__}")
+    print(f"Pandas Version: {pd.__version__}")
+def json_path_to_regex(path: str):
+    if not path:
+        raise ValueError("Path cannot be empty")
+    parts = path.split("/")
+    leaf_key = parts.pop()
+    regex = r""
+    for part in parts:
+        if part.strip():  # discard leading and/or redundant separators
+            regex += rf'"{part}"\s*:\s*[{{\[].*?'
+    regex += rf'"{leaf_key}"\s*:\s*"(?<{leaf_key}>.*?)"'
+    return regex
+def run(
+    source: str,
+    dest: str,
+) -> None:
+    # print package version info
+    print_package_version_info()
+    # run a synchronous copy from the source to the destination
+    deltacat.copy(
+        DeltaCatUrl(source),
+        DeltaCatUrl(dest),
+        # reader arguments to pass to the default reader (polars)
+        # for the given text-based datasource, it accepts the same
+        # arguments as polars.read_csv except for `source`, `n_threads`
+        # `new_columns`, `separator`, `has_header`, `quote_char`, and
+        # `infer_schema`.
+        reader_args={
+            "low_memory": True,  # try to use less memory (++stability, --perf)
+            "batch_size": 1024,  # text line count read into a buffer at once
+            "use_pyarrow": True,  # use the native pyarrow reader
+        },
+        # writer arguments to pass to the default writer (polars)
+        # for the given parquet-based datasink, it generally accepts the same
+        # arguments as polars.DataFrame.write_{dest-type} except for `file`
+        writer_args={
+            "compression": "lz4",  # faster compression & decompression
+            # "compression": "zstd",  # better compression ratio
+            # "compression": "snappy",  # compatible w/ older Parquet readers
+        },
+        # Transforms to run against the default polars dataframe read.
+        # By default, each transform takes a polars dataframe `df` as input
+        # and produces a polars dataframe as output. All transforms listed
+        # are run in order (i.e., the dataframe output from transform[0]
+        # is the dataframe input to transform[1]).
+        #
+        # See:
+        # https://docs.pola.rs/api/python/stable/reference/dataframe/index.html
+        # https://docs.pola.rs/api/python/stable/reference/expressions/index.html
+        transforms=[
+            lambda df, src: df.rename(
+                {"text": "utf8_body"},
+            ),
+            lambda df, src: df.with_columns(
+                pl.col("utf8_body").hash().alias("utf8_body_hash"),
+                pl.lit(datetime.utcnow()).dt.datetime().alias("processing_time"),
+                pl.lit(src.url_path).alias("source_file_path"),
+            ),
+        ],
+    )
+if __name__ == "__main__":
+    """
+    Example 1: Run this script locally using Ray:
+    $ python indexer.py \
+    $   --source 'text+s3://openalex-mag-format/data_dump_v1/2022-07-08/nlp/PaperAbstractsInvertedIndex.txt_part31' \
+    $   --dest 'parquet+s3://deltacat-example-output/openalex/PaperAbstractsInvertedIndex.part31.parquet'
+    Example 2: Submit this script as a local Ray job using a local job client:
+    >>> from deltacat import local_job_client
+    >>> client = local_job_client()
+    >>> # read the source file as line-delimited text
+    >>> src = "text+s3://openalex-mag-format/data_dump_v1/2022-07-08/nlp/PaperAbstractsInvertedIndex.txt_part31"
+    >>> # write to the destination file using the default DeltaCAT Parquet writer (i.e., polars.DataFrame.write_parquet)
+    >>> dst = "parquet+s3://deltacat-example-output/openalex/PaperAbstractsInvertedIndex.part31.parquet"
+    >>> try:
+    >>>   job_run_result = client.run_job(
+    >>>       # Entrypoint shell command to run the indexer job
+    >>>       entrypoint=f"python indexer.py --source '{src}' --dest '{dst}'",
+    >>>       # Path to the local directory that contains the indexer.py file
+    >>>       runtime_env={"working_dir": "./deltacat/examples/indexer.py"},
+    >>>   )
+    >>>   print(f"Job ID {job_run_result.job_id} terminal state: {job_run_result.job_status}")
+    >>>   print(f"Job ID {job_run_result.job_id} logs: ")
+    >>>   print(job_run_result.job_logs)
+    >>> except RuntimeError as e:
+    >>>     print(f"Job Run Failed: {e}")
+    >>> except TimeoutError as e:
+    >>>     print(f"Job Run Timed Out: {e}")
+    Example 3: Submit this script as a remote Ray job using a remote job client:
+    >>> from deltacat import job_client
+    >>> # use `deltacat.yaml` from the current working directory as the ray cluster launcher config file
+    >>> # automatically launches the cluster if it doesn't exist or has died
+    >>> # automatically forwards the ray cluster's dashboard for viewing in a web browser @ http://localhost:8265
+    >>> client = job_client()
+    >>> # ... follow the same steps as above to submit a synchronous indexer job ...
+    >>>
+    >>> # OR use an explicit cluster launcher config file path
+    >>> client = job_client("/Users/pdames/workspace/deltacat.yaml")
+    >>> # ... follow the same steps as above to submit a synchronous indexer job ...
+    """
+    script_args = [
+        (
+            [
+                "--source",
+            ],
+            {
+                "help": "Source DeltaCAT URL to index.",
+                "type": str,
+            },
+        ),
+        (
+            [
+                "--dest",
+            ],
+            {
+                "help": "Destination DeltaCAT URL to index.",
+                "type": str,
+            },
+        ),
+    ]
+    # parse CLI input arguments
+    parser = argparse.ArgumentParser()
+    for args, kwargs in script_args:
+        parser.add_argument(*args, **kwargs)
+    args = parser.parse_args()
+    print(f"Command Line Arguments: {args}")
+    # initialize deltacat
+    deltacat.init()
+    # run the example using the parsed arguments
+    run(**vars(args))

deltacat 2.0__py3-none-any.whl → 2.0.0__py3-none-any.whl

deltacat 2.0py3-none-any.whl → 2.0.0py3-none-any.whl