PyPI - deltacat - Versions diffs - 1.1.35__py3-none-any.whl → 2.0__py3-none-any.whl - Mend

deltacat 1.1.35py3-none-any.whl → 2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (235) hide show

deltacat/__init__.py +42 -3
deltacat/annotations.py +36 -0
deltacat/api.py +168 -0
deltacat/aws/s3u.py +4 -4
deltacat/benchmarking/benchmark_engine.py +82 -0
deltacat/benchmarking/benchmark_report.py +86 -0
deltacat/benchmarking/benchmark_suite.py +11 -0
deltacat/benchmarking/conftest.py +21 -0
deltacat/benchmarking/data/random_row_generator.py +94 -0
deltacat/benchmarking/data/row_generator.py +10 -0
deltacat/benchmarking/test_benchmark_pipeline.py +106 -0
deltacat/catalog/__init__.py +14 -0
deltacat/catalog/delegate.py +199 -106
deltacat/catalog/iceberg/__init__.py +4 -0
deltacat/catalog/iceberg/iceberg_catalog_config.py +26 -0
deltacat/catalog/iceberg/impl.py +368 -0
deltacat/catalog/iceberg/overrides.py +74 -0
deltacat/catalog/interface.py +273 -76
deltacat/catalog/main/impl.py +720 -0
deltacat/catalog/model/catalog.py +227 -20
deltacat/catalog/model/properties.py +116 -0
deltacat/catalog/model/table_definition.py +32 -1
deltacat/compute/compactor/model/compaction_session_audit_info.py +7 -3
deltacat/compute/compactor/model/delta_annotated.py +3 -3
deltacat/compute/compactor/model/delta_file_envelope.py +3 -1
deltacat/compute/compactor/model/delta_file_locator.py +3 -1
deltacat/compute/compactor/model/round_completion_info.py +5 -5
deltacat/compute/compactor/model/table_object_store.py +3 -2
deltacat/compute/compactor/repartition_session.py +1 -1
deltacat/compute/compactor/steps/dedupe.py +11 -4
deltacat/compute/compactor/steps/hash_bucket.py +1 -1
deltacat/compute/compactor/steps/materialize.py +6 -2
deltacat/compute/compactor/utils/io.py +1 -1
deltacat/compute/compactor/utils/sort_key.py +9 -2
deltacat/compute/compactor_v2/compaction_session.py +2 -3
deltacat/compute/compactor_v2/constants.py +1 -30
deltacat/compute/compactor_v2/deletes/utils.py +3 -3
deltacat/compute/compactor_v2/model/merge_input.py +1 -1
deltacat/compute/compactor_v2/private/compaction_utils.py +5 -5
deltacat/compute/compactor_v2/steps/merge.py +11 -80
deltacat/compute/compactor_v2/utils/content_type_params.py +0 -17
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/io.py +1 -1
deltacat/compute/compactor_v2/utils/primary_key_index.py +3 -15
deltacat/compute/compactor_v2/utils/task_options.py +23 -43
deltacat/compute/converter/constants.py +4 -0
deltacat/compute/converter/converter_session.py +143 -0
deltacat/compute/converter/model/convert_input.py +69 -0
deltacat/compute/converter/model/convert_input_files.py +61 -0
deltacat/compute/converter/model/converter_session_params.py +99 -0
deltacat/compute/converter/pyiceberg/__init__.py +0 -0
deltacat/compute/converter/pyiceberg/catalog.py +75 -0
deltacat/compute/converter/pyiceberg/overrides.py +135 -0
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +251 -0
deltacat/compute/converter/steps/__init__.py +0 -0
deltacat/compute/converter/steps/convert.py +211 -0
deltacat/compute/converter/steps/dedupe.py +60 -0
deltacat/compute/converter/utils/__init__.py +0 -0
deltacat/compute/converter/utils/convert_task_options.py +88 -0
deltacat/compute/converter/utils/converter_session_utils.py +109 -0
deltacat/compute/converter/utils/iceberg_columns.py +82 -0
deltacat/compute/converter/utils/io.py +43 -0
deltacat/compute/converter/utils/s3u.py +133 -0
deltacat/compute/resource_estimation/delta.py +1 -19
deltacat/constants.py +47 -1
deltacat/env.py +51 -0
deltacat/examples/__init__.py +0 -0
deltacat/examples/basic_logging.py +101 -0
deltacat/examples/common/__init__.py +0 -0
deltacat/examples/common/fixtures.py +15 -0
deltacat/examples/hello_world.py +27 -0
deltacat/examples/iceberg/__init__.py +0 -0
deltacat/examples/iceberg/iceberg_bucket_writer.py +139 -0
deltacat/examples/iceberg/iceberg_reader.py +149 -0
deltacat/exceptions.py +51 -9
deltacat/logs.py +4 -1
deltacat/storage/__init__.py +118 -28
deltacat/storage/iceberg/__init__.py +0 -0
deltacat/storage/iceberg/iceberg_scan_planner.py +28 -0
deltacat/storage/iceberg/impl.py +737 -0
deltacat/storage/iceberg/model.py +709 -0
deltacat/storage/interface.py +217 -134
deltacat/storage/main/__init__.py +0 -0
deltacat/storage/main/impl.py +2077 -0
deltacat/storage/model/delta.py +118 -71
deltacat/storage/model/interop.py +24 -0
deltacat/storage/model/list_result.py +8 -0
deltacat/storage/model/locator.py +93 -3
deltacat/{aws/redshift → storage}/model/manifest.py +122 -98
deltacat/storage/model/metafile.py +1316 -0
deltacat/storage/model/namespace.py +34 -18
deltacat/storage/model/partition.py +362 -37
deltacat/storage/model/scan/__init__.py +0 -0
deltacat/storage/model/scan/push_down.py +19 -0
deltacat/storage/model/scan/scan_plan.py +10 -0
deltacat/storage/model/scan/scan_task.py +34 -0
deltacat/storage/model/schema.py +892 -0
deltacat/storage/model/shard.py +47 -0
deltacat/storage/model/sort_key.py +170 -13
deltacat/storage/model/stream.py +208 -80
deltacat/storage/model/table.py +123 -29
deltacat/storage/model/table_version.py +322 -46
deltacat/storage/model/transaction.py +757 -0
deltacat/storage/model/transform.py +198 -61
deltacat/storage/model/types.py +111 -13
deltacat/storage/rivulet/__init__.py +11 -0
deltacat/storage/rivulet/arrow/__init__.py +0 -0
deltacat/storage/rivulet/arrow/serializer.py +75 -0
deltacat/storage/rivulet/dataset.py +744 -0
deltacat/storage/rivulet/dataset_executor.py +87 -0
deltacat/storage/rivulet/feather/__init__.py +5 -0
deltacat/storage/rivulet/feather/file_reader.py +136 -0
deltacat/storage/rivulet/feather/serializer.py +35 -0
deltacat/storage/rivulet/fs/__init__.py +0 -0
deltacat/storage/rivulet/fs/file_provider.py +105 -0
deltacat/storage/rivulet/fs/file_store.py +130 -0
deltacat/storage/rivulet/fs/input_file.py +76 -0
deltacat/storage/rivulet/fs/output_file.py +86 -0
deltacat/storage/rivulet/logical_plan.py +105 -0
deltacat/storage/rivulet/metastore/__init__.py +0 -0
deltacat/storage/rivulet/metastore/delta.py +190 -0
deltacat/storage/rivulet/metastore/json_sst.py +105 -0
deltacat/storage/rivulet/metastore/sst.py +82 -0
deltacat/storage/rivulet/metastore/sst_interval_tree.py +260 -0
deltacat/storage/rivulet/mvp/Table.py +101 -0
deltacat/storage/rivulet/mvp/__init__.py +5 -0
deltacat/storage/rivulet/parquet/__init__.py +5 -0
deltacat/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/storage/rivulet/parquet/file_reader.py +127 -0
deltacat/storage/rivulet/parquet/serializer.py +37 -0
deltacat/storage/rivulet/reader/__init__.py +0 -0
deltacat/storage/rivulet/reader/block_scanner.py +378 -0
deltacat/storage/rivulet/reader/data_reader.py +136 -0
deltacat/storage/rivulet/reader/data_scan.py +63 -0
deltacat/storage/rivulet/reader/dataset_metastore.py +178 -0
deltacat/storage/rivulet/reader/dataset_reader.py +156 -0
deltacat/storage/rivulet/reader/pyarrow_data_reader.py +121 -0
deltacat/storage/rivulet/reader/query_expression.py +99 -0
deltacat/storage/rivulet/reader/reader_type_registrar.py +84 -0
deltacat/storage/rivulet/schema/__init__.py +0 -0
deltacat/storage/rivulet/schema/datatype.py +128 -0
deltacat/storage/rivulet/schema/schema.py +251 -0
deltacat/storage/rivulet/serializer.py +40 -0
deltacat/storage/rivulet/serializer_factory.py +42 -0
deltacat/storage/rivulet/writer/__init__.py +0 -0
deltacat/storage/rivulet/writer/dataset_writer.py +29 -0
deltacat/storage/rivulet/writer/memtable_dataset_writer.py +294 -0
deltacat/tests/_io/__init__.py +1 -0
deltacat/tests/catalog/test_catalogs.py +324 -0
deltacat/tests/catalog/test_default_catalog_impl.py +16 -8
deltacat/tests/compute/compact_partition_multiple_rounds_test_cases.py +21 -21
deltacat/tests/compute/compact_partition_rebase_test_cases.py +6 -6
deltacat/tests/compute/compact_partition_rebase_then_incremental_test_cases.py +56 -56
deltacat/tests/compute/compact_partition_test_cases.py +19 -53
deltacat/tests/compute/compactor/steps/test_repartition.py +2 -2
deltacat/tests/compute/compactor/utils/test_io.py +6 -8
deltacat/tests/compute/compactor_v2/test_compaction_session.py +0 -466
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +1 -273
deltacat/tests/compute/conftest.py +75 -0
deltacat/tests/compute/converter/__init__.py +0 -0
deltacat/tests/compute/converter/conftest.py +80 -0
deltacat/tests/compute/converter/test_convert_session.py +478 -0
deltacat/tests/compute/converter/utils.py +123 -0
deltacat/tests/compute/resource_estimation/test_delta.py +0 -16
deltacat/tests/compute/test_compact_partition_incremental.py +2 -42
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +5 -46
deltacat/tests/compute/test_compact_partition_params.py +3 -3
deltacat/tests/compute/test_compact_partition_rebase.py +1 -46
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +5 -46
deltacat/tests/compute/test_util_common.py +19 -12
deltacat/tests/compute/test_util_create_table_deltas_repo.py +13 -22
deltacat/tests/local_deltacat_storage/__init__.py +76 -103
deltacat/tests/storage/__init__.py +0 -0
deltacat/tests/storage/conftest.py +25 -0
deltacat/tests/storage/main/__init__.py +0 -0
deltacat/tests/storage/main/test_main_storage.py +1399 -0
deltacat/tests/storage/model/__init__.py +0 -0
deltacat/tests/storage/model/test_delete_parameters.py +21 -0
deltacat/tests/storage/model/test_metafile_io.py +2535 -0
deltacat/tests/storage/model/test_schema.py +308 -0
deltacat/tests/storage/model/test_shard.py +22 -0
deltacat/tests/storage/model/test_table_version.py +110 -0
deltacat/tests/storage/model/test_transaction.py +308 -0
deltacat/tests/storage/rivulet/__init__.py +0 -0
deltacat/tests/storage/rivulet/conftest.py +149 -0
deltacat/tests/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/storage/rivulet/fs/test_file_location_provider.py +93 -0
deltacat/tests/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/storage/rivulet/schema/test_schema.py +241 -0
deltacat/tests/storage/rivulet/test_dataset.py +406 -0
deltacat/tests/storage/rivulet/test_manifest.py +67 -0
deltacat/tests/storage/rivulet/test_sst_interval_tree.py +232 -0
deltacat/tests/storage/rivulet/test_utils.py +122 -0
deltacat/tests/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/storage/rivulet/writer/test_dataset_write_then_read.py +341 -0
deltacat/tests/storage/rivulet/writer/test_dataset_writer.py +79 -0
deltacat/tests/storage/rivulet/writer/test_memtable_dataset_writer.py +75 -0
deltacat/tests/test_deltacat_api.py +39 -0
deltacat/tests/test_utils/filesystem.py +14 -0
deltacat/tests/test_utils/message_pack_utils.py +54 -0
deltacat/tests/test_utils/pyarrow.py +8 -15
deltacat/tests/test_utils/storage.py +266 -3
deltacat/tests/utils/test_daft.py +3 -3
deltacat/tests/utils/test_pyarrow.py +0 -432
deltacat/types/partial_download.py +1 -1
deltacat/types/tables.py +1 -1
deltacat/utils/export.py +59 -0
deltacat/utils/filesystem.py +320 -0
deltacat/utils/metafile_locator.py +73 -0
deltacat/utils/pyarrow.py +36 -183
deltacat-2.0.dist-info/METADATA +65 -0
deltacat-2.0.dist-info/RECORD +347 -0
deltacat/aws/redshift/__init__.py +0 -19
deltacat/catalog/default_catalog_impl/__init__.py +0 -369
deltacat/io/dataset.py +0 -73
deltacat/io/read_api.py +0 -143
deltacat/storage/model/delete_parameters.py +0 -40
deltacat/storage/model/partition_spec.py +0 -71
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +0 -253
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +0 -45
deltacat-1.1.35.dist-info/METADATA +0 -64
deltacat-1.1.35.dist-info/RECORD +0 -219
/deltacat/{aws/redshift/model → benchmarking/data}/__init__.py +0 -0
/deltacat/{io/aws → catalog/main}/__init__.py +0 -0
/deltacat/{io/aws/redshift → compute/converter}/__init__.py +0 -0
/deltacat/{tests/io → compute/converter/model}/__init__.py +0 -0
/deltacat/tests/{io → _io}/test_cloudpickle_bug_fix.py +0 -0
/deltacat/tests/{io → _io}/test_file_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_memcached_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_ray_plasma_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_redis_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_s3_object_store.py +0 -0
{deltacat-1.1.35.dist-info → deltacat-2.0.dist-info}/LICENSE +0 -0
{deltacat-1.1.35.dist-info → deltacat-2.0.dist-info}/WHEEL +0 -0
{deltacat-1.1.35.dist-info → deltacat-2.0.dist-info}/top_level.txt +0 -0

deltacat/tests/utils/test_pyarrow.py CHANGED Viewed

@@ -2,33 +2,20 @@ from unittest import TestCase
 from deltacat.utils.pyarrow import (
     s3_partial_parquet_file_to_table,
     pyarrow_read_csv,
-    ContentTypeValidationError,
     content_type_to_reader_kwargs,
     _add_column_kwargs,
-    logger,
     s3_file_to_table,
-    s3_file_to_parquet,
     ReadKwargsProviderPyArrowSchemaOverride,
     RAISE_ON_EMPTY_CSV_KWARG,
-    RAISE_ON_DECIMAL_OVERFLOW,
-    OVERRIDE_CONTENT_ENCODING_FOR_PARQUET_KWARG,
 )
-import decimal
 from deltacat.types.media import ContentEncoding, ContentType
 from deltacat.types.partial_download import PartialParquetParameters
 from pyarrow.parquet import ParquetFile
 import pyarrow as pa
 PARQUET_FILE_PATH = "deltacat/tests/utils/data/test_file.parquet"
-PARQUET_GZIP_COMPRESSED_FILE_PATH = "deltacat/tests/utils/data/test_file.parquet.gz"
 EMPTY_UTSV_PATH = "deltacat/tests/utils/data/empty.csv"
 NON_EMPTY_VALID_UTSV_PATH = "deltacat/tests/utils/data/non_empty_valid.csv"
-OVERFLOWING_DECIMAL_PRECISION_UTSV_PATH = (
-    "deltacat/tests/utils/data/overflowing_decimal_precision.csv"
-)
-OVERFLOWING_DECIMAL_SCALE_UTSV_PATH = (
-    "deltacat/tests/utils/data/overflowing_decimal_scale.csv"
-)
 GZIP_COMPRESSED_FILE_UTSV_PATH = "deltacat/tests/utils/data/non_empty_compressed.gz"
 BZ2_COMPRESSED_FILE_UTSV_PATH = "deltacat/tests/utils/data/non_empty_compressed.bz2"
@@ -420,253 +407,6 @@ class TestReadCSV(TestCase):
             ),
         )
-    def test_read_csv_when_decimal_precision_overflows_and_raise_kwarg_specified(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(4, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        self.assertRaises(
-            pa.lib.ArrowInvalid,
-            lambda: pyarrow_read_csv(
-                OVERFLOWING_DECIMAL_PRECISION_UTSV_PATH,
-                **{**kwargs, RAISE_ON_DECIMAL_OVERFLOW: True},
-            ),
-        )
-    def test_read_csv_when_decimal_precision_overflows_sanity(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(4, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        self.assertRaises(
-            pa.lib.ArrowInvalid,
-            lambda: pyarrow_read_csv(OVERFLOWING_DECIMAL_PRECISION_UTSV_PATH, **kwargs),
-        )
-    def test_read_csv_when_decimal_scale_overflows_and_raise_kwarg_specified(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(20, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        self.assertRaises(
-            pa.lib.ArrowInvalid,
-            lambda: pyarrow_read_csv(
-                OVERFLOWING_DECIMAL_SCALE_UTSV_PATH,
-                **{**kwargs, RAISE_ON_DECIMAL_OVERFLOW: True},
-            ),
-        )
-    def test_read_csv_when_decimal_scale_overflows_sanity(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(20, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        result = pyarrow_read_csv(OVERFLOWING_DECIMAL_SCALE_UTSV_PATH, **kwargs)
-        self.assertEqual(len(result), 3)
-        self.assertEqual(
-            result[1][0].as_py(), decimal.Decimal("322236.66")
-        )  # rounding decimal
-        self.assertEqual(result[1][1].as_py(), decimal.Decimal("32.33"))  # not rounded
-        self.assertEqual(len(result.column_names), 2)
-        result_schema = result.schema
-        self.assertEqual(result_schema.field(0).type, "string")
-        self.assertEqual(result_schema.field(1).type, pa.decimal128(20, 2))
-    def test_read_csv_when_decimal_scale_overflows_and_negative_scale(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(20, -2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        result = pyarrow_read_csv(OVERFLOWING_DECIMAL_SCALE_UTSV_PATH, **kwargs)
-        self.assertEqual(len(result), 3)
-        self.assertEqual(
-            result[1][0].as_py(),
-            decimal.Decimal("322200"),  # consequence of negative scale
-        )  # rounding decimal
-        self.assertEqual(result[1][1].as_py(), decimal.Decimal("00"))
-        self.assertEqual(len(result.column_names), 2)
-        result_schema = result.schema
-        self.assertEqual(result_schema.field(0).type, "string")
-        self.assertEqual(result_schema.field(1).type, pa.decimal128(20, -2))
-    def test_read_csv_when_decimal_scale_overflows_with_decimal256(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal256(20, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        result = pyarrow_read_csv(OVERFLOWING_DECIMAL_SCALE_UTSV_PATH, **kwargs)
-        self.assertEqual(len(result), 3)
-        self.assertEqual(
-            result[1][0].as_py(), decimal.Decimal("322236.66")
-        )  # rounding decimal
-        self.assertEqual(result[1][1].as_py(), decimal.Decimal("32.33"))  # not rounded
-        self.assertEqual(len(result.column_names), 2)
-        result_schema = result.schema
-        self.assertEqual(result_schema.field(0).type, "string")
-        self.assertEqual(result_schema.field(1).type, pa.decimal256(20, 2))
-    def test_read_csv_when_decimal_scale_overflows_with_decimal256_and_raise_on_overflow(
-        self,
-    ):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal256(20, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        self.assertRaises(
-            pa.lib.ArrowNotImplementedError,
-            lambda: pyarrow_read_csv(
-                OVERFLOWING_DECIMAL_SCALE_UTSV_PATH,
-                **{**kwargs, RAISE_ON_DECIMAL_OVERFLOW: True},
-            ),
-        )
-    def test_read_csv_when_decimal_scale_overflows_without_any_schema_then_infers(self):
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=None)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        result = pyarrow_read_csv(OVERFLOWING_DECIMAL_SCALE_UTSV_PATH, **kwargs)
-        # The default behavior of pyarrow is to invalid skip rows
-        self.assertEqual(len(result), 2)
-        self.assertEqual(result[1][0].as_py(), 32.33)  # rounding decimal
-        self.assertEqual(result[1][1].as_py(), 0.4)  # not rounded
-        self.assertEqual(len(result.column_names), 2)
-        result_schema = result.schema
-        self.assertEqual(result_schema.field(0).type, "string")
-        self.assertEqual(result_schema.field(1).type, pa.float64())
-    def test_read_csv_when_decimal_scale_and_precision_overflow_and_raise_on_overflow(
-        self,
-    ):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(5, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        self.assertRaises(
-            pa.lib.ArrowInvalid,
-            lambda: pyarrow_read_csv(OVERFLOWING_DECIMAL_SCALE_UTSV_PATH, **kwargs),
-        )
-    def test_read_csv_when_decimal_scale_overflow_and_file_like_obj_passed(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("decimal_value", pa.decimal128(15, 2))]
-        )
-        kwargs = content_type_to_reader_kwargs(ContentType.UNESCAPED_TSV.value)
-        _add_column_kwargs(
-            ContentType.UNESCAPED_TSV.value,
-            ["is_active", "decimal_value"],
-            ["is_active", "decimal_value"],
-            kwargs,
-        )
-        read_kwargs_provider = ReadKwargsProviderPyArrowSchemaOverride(schema=schema)
-        kwargs = read_kwargs_provider(ContentType.UNESCAPED_TSV.value, kwargs)
-        with open(OVERFLOWING_DECIMAL_SCALE_UTSV_PATH, "rb") as file:
-            result = pyarrow_read_csv(file, **kwargs)
-            self.assertEqual(len(result), 3)
-            self.assertEqual(
-                result[1][0].as_py(), decimal.Decimal("322236.66")
-            )  # rounding decimal
-            self.assertEqual(
-                result[1][1].as_py(), decimal.Decimal("32.33")
-            )  # not rounded
-            self.assertEqual(len(result.column_names), 2)
-            result_schema = result.schema
-            self.assertEqual(result_schema.field(0).type, "string")
-            self.assertEqual(result_schema.field(1).type, pa.decimal128(15, 2))
 class TestS3FileToTable(TestCase):
     def test_s3_file_to_table_identity_sanity(self):
@@ -794,175 +534,3 @@ class TestS3FileToTable(TestCase):
             self.assertEqual(field.name, schema.field(index).name)
         self.assertEqual(result.schema.field(1).type, "string")
-    def test_s3_file_to_table_when_parquet_gzip(self):
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            **kwargs,
-        }
-        result = s3_file_to_table(
-            PARQUET_GZIP_COMPRESSED_FILE_PATH,
-            ContentType.PARQUET.value,
-            ContentEncoding.GZIP.value,
-            ["n_legs", "animal"],
-            ["n_legs"],
-            pa_read_func_kwargs_provider=pa_kwargs_provider,
-        )
-        self.assertEqual(len(result), 6)
-        self.assertEqual(len(result.column_names), 1)
-        schema = result.schema
-        schema_index = schema.get_field_index("n_legs")
-        self.assertEqual(schema.field(schema_index).type, "int64")
-    def test_s3_file_to_table_when_utsv_gzip_and_content_type_overridden(self):
-        schema = pa.schema(
-            [("is_active", pa.string()), ("ship_datetime_utc", pa.timestamp("us"))]
-        )
-        # OVERRIDE_CONTENT_ENCODING_FOR_PARQUET_KWARG has no effect on uTSV files
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            **kwargs,
-        }
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            OVERRIDE_CONTENT_ENCODING_FOR_PARQUET_KWARG: ContentEncoding.IDENTITY.value,
-            **kwargs,
-        }
-        result = s3_file_to_table(
-            GZIP_COMPRESSED_FILE_UTSV_PATH,
-            ContentType.UNESCAPED_TSV.value,
-            ContentEncoding.GZIP.value,
-            ["is_active", "ship_datetime_utc"],
-            None,
-            pa_read_func_kwargs_provider=pa_kwargs_provider,
-        )
-        self.assertEqual(len(result), 3)
-        self.assertEqual(len(result.column_names), 2)
-        result_schema = result.schema
-        for index, field in enumerate(result_schema):
-            self.assertEqual(field.name, schema.field(index).name)
-        self.assertEqual(result.schema.field(0).type, "string")
-    def test_s3_file_to_table_when_parquet_gzip_and_encoding_overridden(self):
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            OVERRIDE_CONTENT_ENCODING_FOR_PARQUET_KWARG: ContentEncoding.IDENTITY.value,
-            **kwargs,
-        }
-        result = s3_file_to_table(
-            PARQUET_FILE_PATH,
-            ContentType.PARQUET.value,
-            ContentEncoding.GZIP.value,
-            ["n_legs", "animal"],
-            ["n_legs"],
-            pa_read_func_kwargs_provider=pa_kwargs_provider,
-        )
-        self.assertEqual(len(result), 6)
-        self.assertEqual(len(result.column_names), 1)
-        schema = result.schema
-        schema_index = schema.get_field_index("n_legs")
-        self.assertEqual(schema.field(schema_index).type, "int64")
-class TestS3FileToParquet(TestCase):
-    def test_s3_file_to_parquet_sanity(self):
-        test_s3_url = PARQUET_FILE_PATH
-        test_content_type = ContentType.PARQUET.value
-        test_content_encoding = ContentEncoding.IDENTITY.value
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            **kwargs,
-        }
-        with self.assertLogs(logger=logger.name, level="DEBUG") as cm:
-            result_parquet_file: ParquetFile = s3_file_to_parquet(
-                test_s3_url,
-                test_content_type,
-                test_content_encoding,
-                ["n_legs", "animal"],
-                ["n_legs"],
-                pa_read_func_kwargs_provider=pa_kwargs_provider,
-            )
-        log_message_log_args = cm.records[0].getMessage()
-        log_message_presanitize_kwargs = cm.records[1].getMessage()
-        self.assertIn(
-            f"Reading {test_s3_url} to PyArrow ParquetFile. Content type: {test_content_type}. Encoding: {test_content_encoding}",
-            log_message_log_args,
-        )
-        self.assertIn("{'reader_type': 'pyarrow'}", log_message_presanitize_kwargs)
-        for index, field in enumerate(result_parquet_file.schema_arrow):
-            self.assertEqual(
-                field.name, result_parquet_file.schema_arrow.field(index).name
-            )
-        self.assertEqual(result_parquet_file.schema_arrow.field(0).type, "int64")
-    def test_s3_file_to_parquet_when_parquet_gzip_encoding_and_overridden_returns_success(
-        self,
-    ):
-        test_s3_url = PARQUET_FILE_PATH
-        test_content_type = ContentType.PARQUET.value
-        test_content_encoding = ContentEncoding.GZIP.value
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            OVERRIDE_CONTENT_ENCODING_FOR_PARQUET_KWARG: ContentEncoding.IDENTITY.value,
-            **kwargs,
-        }
-        with self.assertLogs(logger=logger.name, level="DEBUG") as cm:
-            result_parquet_file: ParquetFile = s3_file_to_parquet(
-                test_s3_url,
-                test_content_type,
-                test_content_encoding,
-                ["n_legs", "animal"],
-                ["n_legs"],
-                pa_read_func_kwargs_provider=pa_kwargs_provider,
-            )
-        log_message_log_args = cm.records[0].getMessage()
-        log_message_log_new_content_encoding = cm.records[1].getMessage()
-        log_message_presanitize_kwargs = cm.records[2].getMessage()
-        self.assertIn(
-            f"Reading {test_s3_url} to PyArrow ParquetFile. Content type: {test_content_type}. Encoding: {test_content_encoding}",
-            log_message_log_args,
-        )
-        self.assertIn(
-            f"Overriding {test_s3_url} content encoding from {ContentEncoding.GZIP.value} to {ContentEncoding.IDENTITY.value}",
-            log_message_log_new_content_encoding,
-        )
-        self.assertIn("{'reader_type': 'pyarrow'}", log_message_presanitize_kwargs)
-        for index, field in enumerate(result_parquet_file.schema_arrow):
-            self.assertEqual(
-                field.name, result_parquet_file.schema_arrow.field(index).name
-            )
-        self.assertEqual(result_parquet_file.schema_arrow.field(0).type, "int64")
-    def test_s3_file_to_parquet_when_parquet_gzip_encoding_not_overridden_throws_error(
-        self,
-    ):
-        test_s3_url = PARQUET_FILE_PATH
-        test_content_type = ContentType.PARQUET.value
-        test_content_encoding = ContentEncoding.GZIP.value
-        pa_kwargs_provider = lambda content_type, kwargs: {
-            "reader_type": "pyarrow",
-            **kwargs,
-        }
-        with self.assertRaises(ContentTypeValidationError):
-            with self.assertLogs(logger=logger.name, level="DEBUG") as cm:
-                s3_file_to_parquet(
-                    test_s3_url,
-                    test_content_type,
-                    test_content_encoding,
-                    ["n_legs", "animal"],
-                    ["n_legs"],
-                    pa_read_func_kwargs_provider=pa_kwargs_provider,
-                )
-        log_message_log_args = cm.records[0].getMessage()
-        self.assertIn(
-            f"Reading {test_s3_url} to PyArrow ParquetFile. Content type: {test_content_type}. Encoding: {test_content_encoding}",
-            log_message_log_args,
-        )

deltacat/types/partial_download.py CHANGED Viewed

@@ -63,7 +63,7 @@ class PartialParquetParameters(PartialFileDownloadParams):
         return self["row_groups_to_download"]
     @property
-    def num_row_groups(self) -> List[int]:
+    def num_row_groups(self) -> int:
         return self["num_row_groups"]
     @property

deltacat/types/tables.py CHANGED Viewed

@@ -89,7 +89,7 @@ class TableWriteMode(str, Enum):
     Enum controlling how a given dataset will be written to a table.
     AUTO: CREATE if the table doesn't exist, APPEND if the table exists
-    without primary keys, and MERGE if the table exists with primary keys.
+    without merge keys, and MERGE if the table exists with merge keys.
     CREATE: Create the table if it doesn't exist, throw an error if it does.
     APPEND: Append to the table if it exists, throw an error if it doesn't.
     REPLACE: Replace existing table contents with the data to write.

deltacat/utils/export.py ADDED Viewed

@@ -0,0 +1,59 @@
+import logging
+import json
+import pyarrow as pa
+import pyarrow.parquet
+import pyarrow.feather
+from typing import Callable, Dict
+from deltacat.storage.rivulet.reader.query_expression import QueryExpression
+from deltacat import logs
+logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+def export_parquet(dataset, file_uri: str, query: QueryExpression = QueryExpression()):
+    records = dataset.scan(query).to_arrow()
+    table = pa.Table.from_batches(records)
+    pyarrow.parquet.write_table(table, file_uri)
+def export_feather(dataset, file_uri: str, query: QueryExpression = QueryExpression()):
+    records = dataset.scan(query).to_arrow()
+    table = pa.Table.from_batches(records)
+    pyarrow.feather.write_feather(table, file_uri)
+def export_json(dataset, file_uri: str, query: QueryExpression = QueryExpression()):
+    with open(file_uri, "w") as f:
+        for batch in dataset.scan(query).to_pydict():
+            json.dump(batch, f, indent=2)
+            f.write("\n")
+def export_dataset(dataset, file_uri: str, format: str = "parquet", query=None):
+    """
+    Export the dataset to a file.
+    TODO: Make this pluggable for custom formats.
+    Args:
+        dataset: The dataset to export.
+        file_uri: The URI to write the dataset to.
+        format: The format to write the dataset in. Options are [parquet, feather, json].
+        query: QueryExpression to filter the dataset before exporting.
+    """
+    # Supported format handlers
+    export_handlers: Dict[str, Callable] = {
+        "parquet": export_parquet,
+        "feather": export_feather,
+        "json": export_json,
+    }
+    if format not in export_handlers:
+        raise ValueError(
+            f"Unsupported format: {format}. Supported formats are {list(export_handlers.keys())}"
+        )
+    export_handlers[format](dataset, file_uri, query or QueryExpression())
+    logger.info(f"Dataset exported to {file_uri} in {format} format.")

deltacat 1.1.35__py3-none-any.whl → 2.0__py3-none-any.whl

deltacat 1.1.35py3-none-any.whl → 2.0py3-none-any.whl