PyPI - deltacat - Versions diffs - 2.0.0b11__py3-none-any.whl → 2.0.0b12__py3-none-any.whl - Mend

deltacat 2.0.0b11py3-none-any.whl → 2.0.0b12py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (194) hide show

deltacat/__init__.py +78 -3
deltacat/api.py +122 -67
deltacat/aws/constants.py +0 -23
deltacat/aws/s3u.py +4 -631
deltacat/benchmarking/conftest.py +0 -18
deltacat/catalog/__init__.py +2 -0
deltacat/catalog/delegate.py +445 -63
deltacat/catalog/interface.py +188 -62
deltacat/catalog/main/impl.py +2417 -271
deltacat/catalog/model/catalog.py +49 -10
deltacat/catalog/model/properties.py +38 -0
deltacat/compute/compactor/compaction_session.py +97 -75
deltacat/compute/compactor/model/compact_partition_params.py +75 -30
deltacat/compute/compactor/model/compaction_session_audit_info.py +17 -0
deltacat/compute/compactor/model/round_completion_info.py +16 -6
deltacat/compute/compactor/repartition_session.py +8 -21
deltacat/compute/compactor/steps/hash_bucket.py +5 -5
deltacat/compute/compactor/steps/materialize.py +9 -7
deltacat/compute/compactor/steps/repartition.py +12 -11
deltacat/compute/compactor/utils/io.py +6 -5
deltacat/compute/compactor/utils/round_completion_reader.py +117 -0
deltacat/compute/compactor/utils/system_columns.py +3 -1
deltacat/compute/compactor_v2/compaction_session.py +17 -14
deltacat/compute/compactor_v2/constants.py +30 -1
deltacat/compute/compactor_v2/model/evaluate_compaction_result.py +0 -1
deltacat/compute/compactor_v2/model/hash_bucket_input.py +9 -3
deltacat/compute/compactor_v2/model/merge_file_group.py +5 -2
deltacat/compute/compactor_v2/model/merge_input.py +33 -8
deltacat/compute/compactor_v2/private/compaction_utils.py +167 -68
deltacat/compute/compactor_v2/steps/hash_bucket.py +5 -2
deltacat/compute/compactor_v2/steps/merge.py +267 -55
deltacat/compute/compactor_v2/utils/content_type_params.py +34 -6
deltacat/compute/compactor_v2/utils/dedupe.py +1 -1
deltacat/compute/compactor_v2/utils/delta.py +5 -3
deltacat/compute/compactor_v2/utils/io.py +11 -4
deltacat/compute/compactor_v2/utils/merge.py +15 -2
deltacat/compute/compactor_v2/utils/primary_key_index.py +28 -4
deltacat/compute/compactor_v2/utils/task_options.py +45 -33
deltacat/compute/converter/converter_session.py +145 -32
deltacat/compute/converter/model/convert_input.py +26 -19
deltacat/compute/converter/model/convert_input_files.py +33 -16
deltacat/compute/converter/model/convert_result.py +35 -16
deltacat/compute/converter/model/converter_session_params.py +24 -21
deltacat/compute/converter/pyiceberg/catalog.py +21 -18
deltacat/compute/converter/pyiceberg/overrides.py +18 -9
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +148 -100
deltacat/compute/converter/steps/convert.py +157 -50
deltacat/compute/converter/steps/dedupe.py +24 -11
deltacat/compute/converter/utils/convert_task_options.py +27 -12
deltacat/compute/converter/utils/converter_session_utils.py +126 -60
deltacat/compute/converter/utils/iceberg_columns.py +8 -8
deltacat/compute/converter/utils/io.py +101 -12
deltacat/compute/converter/utils/s3u.py +33 -27
deltacat/compute/janitor.py +205 -0
deltacat/compute/jobs/client.py +19 -8
deltacat/compute/resource_estimation/delta.py +38 -6
deltacat/compute/resource_estimation/model.py +8 -0
deltacat/constants.py +44 -0
deltacat/docs/autogen/schema/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/generate_type_mappings.py +687 -0
deltacat/docs/autogen/schema/inference/parse_json_type_mappings.py +673 -0
deltacat/examples/compactor/__init__.py +0 -0
deltacat/examples/compactor/aws/__init__.py +1 -0
deltacat/examples/compactor/bootstrap.py +863 -0
deltacat/examples/compactor/compactor.py +373 -0
deltacat/examples/compactor/explorer.py +473 -0
deltacat/examples/compactor/gcp/__init__.py +1 -0
deltacat/examples/compactor/job_runner.py +439 -0
deltacat/examples/compactor/utils/__init__.py +1 -0
deltacat/examples/compactor/utils/common.py +261 -0
deltacat/examples/experimental/iceberg/converter/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/app.py +226 -0
deltacat/examples/experimental/iceberg/converter/beam/main.py +133 -0
deltacat/examples/experimental/iceberg/converter/beam/test_workflow.py +113 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/__init__.py +3 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/common.py +174 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py +263 -0
deltacat/exceptions.py +66 -4
deltacat/experimental/catalog/iceberg/impl.py +2 -2
deltacat/experimental/compatibility/__init__.py +0 -0
deltacat/experimental/compatibility/backfill_locator_to_id_mappings.py +201 -0
deltacat/experimental/converter_agent/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/managed.py +173 -0
deltacat/experimental/converter_agent/table_monitor.py +479 -0
deltacat/experimental/storage/iceberg/iceberg_scan_planner.py +105 -4
deltacat/experimental/storage/iceberg/impl.py +5 -3
deltacat/experimental/storage/iceberg/model.py +7 -3
deltacat/experimental/storage/iceberg/visitor.py +119 -0
deltacat/experimental/storage/rivulet/dataset.py +0 -3
deltacat/experimental/storage/rivulet/metastore/delta.py +0 -2
deltacat/experimental/storage/rivulet/reader/dataset_metastore.py +3 -2
deltacat/io/datasource/deltacat_datasource.py +0 -1
deltacat/storage/__init__.py +20 -2
deltacat/storage/interface.py +54 -32
deltacat/storage/main/impl.py +1494 -541
deltacat/storage/model/delta.py +27 -3
deltacat/storage/model/locator.py +6 -12
deltacat/storage/model/manifest.py +182 -6
deltacat/storage/model/metafile.py +151 -78
deltacat/storage/model/namespace.py +8 -1
deltacat/storage/model/partition.py +117 -42
deltacat/storage/model/schema.py +2427 -159
deltacat/storage/model/sort_key.py +40 -0
deltacat/storage/model/stream.py +9 -2
deltacat/storage/model/table.py +12 -1
deltacat/storage/model/table_version.py +11 -0
deltacat/storage/model/transaction.py +1184 -208
deltacat/storage/model/transform.py +81 -2
deltacat/storage/model/types.py +48 -26
deltacat/tests/_io/test_cloudpickle_bug_fix.py +8 -4
deltacat/tests/aws/test_s3u.py +2 -31
deltacat/tests/catalog/main/test_catalog_impl_table_operations.py +1606 -70
deltacat/tests/catalog/test_catalogs.py +54 -11
deltacat/tests/catalog/test_default_catalog_impl.py +12152 -71
deltacat/tests/compute/compact_partition_test_cases.py +35 -8
deltacat/tests/compute/compactor/steps/test_repartition.py +12 -12
deltacat/tests/compute/compactor/utils/test_io.py +124 -120
deltacat/tests/compute/compactor/utils/test_round_completion_reader.py +254 -0
deltacat/tests/compute/compactor_v2/test_compaction_session.py +423 -312
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +266 -0
deltacat/tests/compute/compactor_v2/utils/test_primary_key_index.py +45 -0
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +270 -1
deltacat/tests/compute/conftest.py +8 -44
deltacat/tests/compute/converter/test_convert_session.py +675 -490
deltacat/tests/compute/converter/utils.py +15 -6
deltacat/tests/compute/resource_estimation/test_delta.py +145 -79
deltacat/tests/compute/test_compact_partition_incremental.py +103 -70
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +89 -66
deltacat/tests/compute/test_compact_partition_params.py +13 -8
deltacat/tests/compute/test_compact_partition_rebase.py +77 -62
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +263 -193
deltacat/tests/compute/test_janitor.py +236 -0
deltacat/tests/compute/test_util_common.py +716 -43
deltacat/tests/compute/test_util_constant.py +0 -1
deltacat/tests/{storage/conftest.py → conftest.py} +1 -1
deltacat/tests/experimental/__init__.py +1 -0
deltacat/tests/experimental/compatibility/__init__.py +1 -0
deltacat/tests/experimental/compatibility/test_backfill_locator_to_id_mappings.py +582 -0
deltacat/tests/storage/main/test_main_storage.py +6900 -95
deltacat/tests/storage/model/test_metafile_io.py +78 -173
deltacat/tests/storage/model/test_partition_scheme.py +85 -0
deltacat/tests/storage/model/test_schema.py +171 -0
deltacat/tests/storage/model/test_schema_update.py +1925 -0
deltacat/tests/storage/model/test_sort_scheme.py +90 -0
deltacat/tests/storage/model/test_transaction.py +393 -48
deltacat/tests/storage/model/test_transaction_history.py +886 -0
deltacat/tests/test_deltacat_api.py +988 -4
deltacat/tests/test_exceptions.py +9 -5
deltacat/tests/test_utils/pyarrow.py +52 -21
deltacat/tests/test_utils/storage.py +23 -34
deltacat/tests/types/__init__.py +0 -0
deltacat/tests/types/test_tables.py +104 -0
deltacat/tests/utils/exceptions.py +22 -0
deltacat/tests/utils/main_deltacat_storage_mock.py +31 -0
deltacat/tests/utils/ray_utils/test_dataset.py +123 -5
deltacat/tests/utils/test_daft.py +121 -31
deltacat/tests/utils/test_numpy.py +1193 -0
deltacat/tests/utils/test_pandas.py +1106 -0
deltacat/tests/utils/test_polars.py +1040 -0
deltacat/tests/utils/test_pyarrow.py +1370 -89
deltacat/types/media.py +221 -11
deltacat/types/tables.py +2329 -59
deltacat/utils/arguments.py +33 -1
deltacat/utils/daft.py +411 -150
deltacat/utils/filesystem.py +100 -0
deltacat/utils/metafile_locator.py +2 -1
deltacat/utils/numpy.py +118 -26
deltacat/utils/pandas.py +577 -48
deltacat/utils/polars.py +658 -27
deltacat/utils/pyarrow.py +1258 -213
deltacat/utils/ray_utils/dataset.py +101 -10
deltacat/utils/reader_compatibility_mapping.py +3083 -0
deltacat/utils/url.py +56 -15
deltacat-2.0.0b12.dist-info/METADATA +1163 -0
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info}/RECORD +183 -145
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info}/WHEEL +1 -1
deltacat/compute/compactor/utils/round_completion_file.py +0 -97
deltacat/compute/merge_on_read/__init__.py +0 -4
deltacat/compute/merge_on_read/daft.py +0 -40
deltacat/compute/merge_on_read/model/merge_on_read_params.py +0 -66
deltacat/compute/merge_on_read/utils/delta.py +0 -42
deltacat/tests/compute/compactor/utils/test_round_completion_file.py +0 -231
deltacat/tests/compute/test_util_create_table_deltas_repo.py +0 -388
deltacat/tests/local_deltacat_storage/__init__.py +0 -1236
deltacat/tests/local_deltacat_storage/exceptions.py +0 -10
deltacat/utils/s3fs.py +0 -21
deltacat-2.0.0b11.dist-info/METADATA +0 -67
/deltacat/{compute/merge_on_read/model → docs}/__init__.py +0 -0
/deltacat/{compute/merge_on_read/utils → docs/autogen}/__init__.py +0 -0
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info/licenses}/LICENSE +0 -0
{deltacat-2.0.0b11.dist-info → deltacat-2.0.0b12.dist-info}/top_level.txt +0 -0

deltacat/utils/polars.py CHANGED Viewed

@@ -1,58 +1,156 @@
 import logging
-from typing import Optional, List, Dict, Callable, Union
+import bz2
+import gzip
+from functools import partial
+from typing import Optional, List, Dict, Callable, Union, Iterable, Any
 import polars as pl
+import pyarrow as pa
+import pyarrow.fs as pafs
 from fsspec import AbstractFileSystem
 from ray.data.datasource import FilenameProvider
 from deltacat import logs
+from deltacat.utils.filesystem import resolve_path_and_filesystem
+from deltacat.utils.common import ContentTypeKwargsProvider, ReadKwargsProvider
+from deltacat.utils.performance import timed_invocation
-from deltacat.types.media import ContentType
+from deltacat.types.media import (
+    ContentType,
+    ContentEncoding,
+    DELIMITED_TEXT_CONTENT_TYPES,
+    TABULAR_CONTENT_TYPES,
+)
+from deltacat.types.partial_download import PartialFileDownloadParams
 logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+# Encoding to file initialization function mapping
+ENCODING_TO_FILE_INIT: Dict[str, Callable] = {
+    ContentEncoding.GZIP.value: partial(gzip.open, mode="rb"),
+    ContentEncoding.BZIP2.value: partial(bz2.open, mode="rb"),
+    ContentEncoding.IDENTITY.value: lambda file_path: file_path,
+}
 def write_json(
     table: pl.DataFrame,
     path: str,
     *,
-    filesystem: Optional[AbstractFileSystem] = None,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
     fs_open_kwargs: Dict[str, any] = {},
     **write_kwargs,
 ) -> None:
-    if not filesystem:
-        table.write_ndjson(path, **write_kwargs)
+    # Check if the path already indicates compression to avoid double compression
+    should_compress = path.endswith(".gz")
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            if should_compress:
+                # Path ends with .gz, PyArrow filesystem automatically compresses
+                table.write_ndjson(f, **write_kwargs)
+            else:
+                # No compression indicated, write uncompressed
+                table.write_ndjson(f, **write_kwargs)
     else:
         with filesystem.open(path, "wb", **fs_open_kwargs) as f:
-            table.write_ndjson(f, **write_kwargs)
+            if should_compress:
+                # For fsspec filesystems, we need to apply compression explicitly
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    table.write_ndjson(out, **write_kwargs)
+            else:
+                # No compression indicated, write uncompressed
+                table.write_ndjson(f, **write_kwargs)
+def content_type_to_writer_kwargs(content_type: str) -> Dict[str, any]:
+    """
+    Returns writer kwargs for the given content type when writing with polars.
+    """
+    if content_type == ContentType.UNESCAPED_TSV.value:
+        return {
+            "separator": "\t",
+            "include_header": False,
+            "null_value": "",
+            "quote_style": "never",  # Equivalent to QUOTE_NONE in pandas
+        }
+    if content_type == ContentType.TSV.value:
+        return {
+            "separator": "\t",
+            "include_header": False,
+            "quote_style": "necessary",
+        }
+    if content_type == ContentType.CSV.value:
+        return {
+            "separator": ",",
+            "include_header": False,
+            "quote_style": "necessary",
+        }
+    if content_type == ContentType.PSV.value:
+        return {
+            "separator": "|",
+            "include_header": False,
+            "quote_style": "necessary",
+        }
+    if content_type in {
+        ContentType.PARQUET.value,
+        ContentType.FEATHER.value,
+        ContentType.JSON.value,
+        ContentType.AVRO.value,
+        ContentType.ORC.value,
+    }:
+        return {}
+    raise ValueError(f"Unsupported content type: {content_type}")
 def write_csv(
     table: pl.DataFrame,
     path: str,
     *,
-    filesystem: Optional[AbstractFileSystem] = None,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
     fs_open_kwargs: Dict[str, any] = {},
-    **write_kwargs,
+    **kwargs,
 ) -> None:
-    if not filesystem:
-        table.write_csv(path, **write_kwargs)
+    """
+    Write a polars DataFrame to a CSV file (or other delimited text format).
+    """
+    # Check if the path already indicates compression to avoid double compression
+    should_compress = path.endswith(".gz")
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            if should_compress:
+                # Path ends with .gz, PyArrow filesystem automatically compresses
+                table.write_csv(f, **kwargs)
+            else:
+                # No compression indicated, write uncompressed
+                table.write_csv(f, **kwargs)
     else:
         with filesystem.open(path, "wb", **fs_open_kwargs) as f:
-            table.write_csv(f, **write_kwargs)
+            if should_compress:
+                # For fsspec filesystems, we need to apply compression explicitly
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    table.write_csv(out, **kwargs)
+            else:
+                # No compression indicated, write uncompressed
+                table.write_csv(f, **kwargs)
 def write_avro(
     table: pl.DataFrame,
     path: str,
     *,
-    filesystem: Optional[AbstractFileSystem] = None,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
     fs_open_kwargs: Dict[str, any] = {},
     **write_kwargs,
 ) -> None:
-    if not filesystem:
-        table.write_avro(path, **write_kwargs)
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            table.write_avro(f, **write_kwargs)
     else:
         with filesystem.open(path, "wb", **fs_open_kwargs) as f:
             table.write_avro(f, **write_kwargs)
@@ -62,25 +160,75 @@ def write_parquet(
     table: pl.DataFrame,
     path: str,
     *,
-    filesystem: Optional[AbstractFileSystem] = None,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
     fs_open_kwargs: Dict[str, any] = {},
     **write_kwargs,
 ) -> None:
-    if not filesystem:
-        table.write_parquet(path, **write_kwargs)
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            table.write_parquet(f, **write_kwargs)
     else:
         with filesystem.open(path, "wb", **fs_open_kwargs) as f:
             table.write_parquet(f, **write_kwargs)
+def write_feather(
+    table: pl.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
+) -> None:
+    """
+    Write a polars DataFrame to a Feather file.
+    """
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            table.write_ipc(f, **kwargs)
+    else:
+        with filesystem.open(path, "wb", **fs_open_kwargs) as f:
+            table.write_ipc(f, **kwargs)
+def write_orc(
+    table: pl.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **write_kwargs,
+) -> None:
+    """
+    Write a polars DataFrame to an ORC file by delegating to PyArrow implementation.
+    """
+    from deltacat.utils.pyarrow import write_orc as pyarrow_write_orc
+    # Convert polars DataFrame to PyArrow Table
+    pa_table = table.to_arrow()
+    # Delegate to PyArrow write_orc implementation
+    pyarrow_write_orc(
+        pa_table,
+        path,
+        filesystem=filesystem,
+        fs_open_kwargs=fs_open_kwargs,
+        **write_kwargs,
+    )
 CONTENT_TYPE_TO_PL_WRITE_FUNC: Dict[str, Callable] = {
-    # TODO (pdames): add support for other delimited text content types as
-    #  pyarrow adds support for custom delimiters, escaping, and None value
-    #  representations to pyarrow.csv.WriteOptions.
-    ContentType.AVRO.value: write_avro,
+    ContentType.UNESCAPED_TSV.value: write_csv,
+    ContentType.TSV.value: write_csv,
     ContentType.CSV.value: write_csv,
+    ContentType.PSV.value: write_csv,
     ContentType.PARQUET.value: write_parquet,
+    ContentType.FEATHER.value: write_feather,
     ContentType.JSON.value: write_json,
+    ContentType.AVRO.value: write_avro,
+    ContentType.ORC.value: write_orc,
 }
@@ -108,21 +256,504 @@ def dataframe_size(table: pl.DataFrame) -> int:
 def dataframe_to_file(
     table: pl.DataFrame,
     base_path: str,
-    file_system: Optional[AbstractFileSystem],
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]],
     block_path_provider: Union[Callable, FilenameProvider],
     content_type: str = ContentType.PARQUET.value,
+    schema: Optional[pa.Schema] = None,
     **kwargs,
 ) -> None:
     """
-    Writes the given Pyarrow Table to a file.
+    Writes the given Polars DataFrame to a file.
     """
     writer = CONTENT_TYPE_TO_PL_WRITE_FUNC.get(content_type)
+    writer_kwargs = content_type_to_writer_kwargs(content_type)
+    writer_kwargs.update(kwargs)
     if not writer:
         raise NotImplementedError(
-            f"Pyarrow writer for content type '{content_type}' not "
+            f"Polars writer for content type '{content_type}' not "
             f"implemented. Known content types: "
-            f"{CONTENT_TYPE_TO_PL_WRITE_FUNC.keys}"
+            f"{CONTENT_TYPE_TO_PL_WRITE_FUNC.keys()}"
         )
     path = block_path_provider(base_path)
-    logger.debug(f"Writing table: {table} with kwargs: {kwargs} to path: {path}")
-    writer(table, path, filesystem=file_system, **kwargs)
+    logger.debug(f"Writing table: {table} with kwargs: {writer_kwargs} to path: {path}")
+    writer(table, path, filesystem=filesystem, **writer_kwargs)
+def write_table(
+    table: pl.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_type: str = ContentType.PARQUET.value,
+    **kwargs,
+) -> None:
+    """
+    Write a polars DataFrame to a file in the specified format.
+    """
+    writer = CONTENT_TYPE_TO_PL_WRITE_FUNC.get(content_type)
+    writer_kwargs = content_type_to_writer_kwargs(content_type)
+    writer_kwargs.update(kwargs)
+    if not writer:
+        raise NotImplementedError(
+            f"Polars writer for content type '{content_type}' not "
+            f"implemented. Known content types: "
+            f"{CONTENT_TYPE_TO_PL_WRITE_FUNC.keys()}"
+        )
+    writer(
+        table,
+        path,
+        filesystem=filesystem,
+        fs_open_kwargs=fs_open_kwargs,
+        **writer_kwargs,
+    )
+CONTENT_TYPE_TO_PL_READ_FUNC: Dict[str, Callable] = {
+    ContentType.UNESCAPED_TSV.value: pl.read_csv,
+    ContentType.TSV.value: pl.read_csv,
+    ContentType.CSV.value: pl.read_csv,
+    ContentType.PSV.value: pl.read_csv,
+    ContentType.PARQUET.value: pl.read_parquet,
+    ContentType.FEATHER.value: pl.read_ipc,
+    ContentType.JSON.value: pl.read_ndjson,
+    ContentType.AVRO.value: pl.read_avro,
+}
+class ReadKwargsProviderPolarsStringTypes(ContentTypeKwargsProvider):
+    """ReadKwargsProvider impl that reads columns of delimited text files
+    as UTF-8 strings (i.e. disables type inference). Useful for ensuring
+    lossless reads of UTF-8 delimited text datasets and improving read
+    performance in cases where type casting is not required."""
+    def __init__(self, include_columns: Optional[Iterable[str]] = None):
+        self.include_columns = include_columns
+    def _get_kwargs(self, content_type: str, kwargs: Dict[str, Any]) -> Dict[str, Any]:
+        if content_type in DELIMITED_TEXT_CONTENT_TYPES:
+            include_columns = (
+                self.include_columns if self.include_columns else kwargs.get("columns")
+            )
+            if not include_columns:
+                # read all columns as strings - disable schema inference
+                kwargs["infer_schema"] = False
+            else:
+                # read only the included columns as strings
+                kwargs["schema_overrides"] = {
+                    column_name: pl.Utf8 for column_name in include_columns
+                }
+        return kwargs
+def content_type_to_reader_kwargs(content_type: str) -> Dict[str, Any]:
+    if content_type == ContentType.UNESCAPED_TSV.value:
+        return {
+            "separator": "\t",
+            "has_header": False,
+            "null_values": [""],
+            "quote_char": None,
+        }
+    if content_type == ContentType.TSV.value:
+        return {"separator": "\t", "has_header": False}
+    if content_type == ContentType.CSV.value:
+        return {"separator": ",", "has_header": False}
+    if content_type == ContentType.PSV.value:
+        return {"separator": "|", "has_header": False}
+    if content_type in {
+        ContentType.PARQUET.value,
+        ContentType.FEATHER.value,
+        ContentType.ORC.value,
+        ContentType.JSON.value,
+        ContentType.AVRO.value,
+    }:
+        return {}
+    raise ValueError(f"Unsupported content type: {content_type}")
+def _add_column_kwargs(
+    content_type: str,
+    column_names: Optional[List[str]],
+    include_columns: Optional[List[str]],
+    kwargs: Dict[str, Any],
+):
+    if content_type in DELIMITED_TEXT_CONTENT_TYPES:
+        if column_names:
+            kwargs["new_columns"] = column_names
+        if include_columns:
+            kwargs["columns"] = include_columns
+    else:
+        if content_type in TABULAR_CONTENT_TYPES:
+            if include_columns:
+                kwargs["columns"] = include_columns
+        else:
+            if include_columns:
+                logger.warning(
+                    f"Ignoring request to include columns {include_columns} "
+                    f"for non-tabular content type {content_type}"
+                )
+def concat_dataframes(dataframes: List[pl.DataFrame]) -> Optional[pl.DataFrame]:
+    if dataframes is None or not len(dataframes):
+        return None
+    if len(dataframes) == 1:
+        return next(iter(dataframes))
+    return pl.concat(dataframes)
+def append_column_to_table(
+    table: pl.DataFrame,
+    column_name: str,
+    column_value: Any,
+) -> pl.DataFrame:
+    return table.with_columns(pl.lit(column_value).alias(column_name))
+def select_columns(
+    table: pl.DataFrame,
+    column_names: List[str],
+) -> pl.DataFrame:
+    return table.select(column_names)
+def file_to_dataframe(
+    path: str,
+    content_type: str,
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    column_names: Optional[List[str]] = None,
+    include_columns: Optional[List[str]] = None,
+    pl_read_func_kwargs_provider: Optional[ReadKwargsProvider] = None,
+    partial_file_download_params: Optional[PartialFileDownloadParams] = None,
+    fs_open_kwargs: Dict[str, Any] = {},
+    **kwargs,
+) -> pl.DataFrame:
+    """
+    Read a file into a Polars DataFrame using any filesystem.
+    Args:
+        path: The file path to read
+        content_type: The content type of the file (e.g., ContentType.CSV.value)
+        content_encoding: The content encoding (default: IDENTITY)
+        filesystem: The filesystem to use (if None, will be inferred from path)
+        column_names: Optional column names to assign
+        include_columns: Optional columns to include in the result
+        pl_read_func_kwargs_provider: Optional kwargs provider for customization
+        fs_open_kwargs: Optional kwargs for filesystem open operations
+        **kwargs: Additional kwargs passed to the reader function
+    Returns:
+        pl.DataFrame: The loaded DataFrame
+    """
+    logger.debug(
+        f"Reading {path} to Polars. Content type: {content_type}. "
+        f"Encoding: {content_encoding}"
+    )
+    pl_read_func = CONTENT_TYPE_TO_READ_FN.get(content_type)
+    if not pl_read_func:
+        raise NotImplementedError(
+            f"Polars reader for content type '{content_type}' not "
+            f"implemented. Known content types: "
+            f"{list(CONTENT_TYPE_TO_READ_FN.keys())}"
+        )
+    reader_kwargs = content_type_to_reader_kwargs(content_type)
+    _add_column_kwargs(content_type, column_names, include_columns, reader_kwargs)
+    # Merge with provided kwargs
+    reader_kwargs.update(kwargs)
+    if pl_read_func_kwargs_provider:
+        reader_kwargs = pl_read_func_kwargs_provider(content_type, reader_kwargs)
+    logger.debug(f"Reading {path} via {pl_read_func} with kwargs: {reader_kwargs}")
+    dataframe, latency = timed_invocation(
+        pl_read_func,
+        path,
+        filesystem=filesystem,
+        fs_open_kwargs=fs_open_kwargs,
+        content_encoding=content_encoding,
+        **reader_kwargs,
+    )
+    logger.debug(f"Time to read {path} into Polars DataFrame: {latency}s")
+    return dataframe
+def read_csv(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pl.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        if content_encoding == ContentEncoding.IDENTITY.value:
+            with filesystem.open_input_stream(path, **fs_open_kwargs) as f:
+                return pl.read_csv(f, **read_kwargs)
+        else:
+            # For compressed files with PyArrow, we need to be careful because PyArrow
+            # may auto-decompress some formats. Try to read directly first.
+            try:
+                with filesystem.open_input_stream(path, **fs_open_kwargs) as f:
+                    # Try reading as if it's already decompressed by PyArrow
+                    return pl.read_csv(f, **read_kwargs)
+            except Exception:
+                # If that fails, try manual decompression
+                with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f) as input_file:
+                        content = input_file.read()
+                        if isinstance(content, str):
+                            content = content.encode("utf-8")
+                        return pl.read_csv(content, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_csv(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    if isinstance(content, str):
+                        content = content.encode("utf-8")
+                    return pl.read_csv(content, **read_kwargs)
+def read_parquet(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pl.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_parquet(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    return pl.read_parquet(content, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_parquet(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    return pl.read_parquet(content, **read_kwargs)
+def read_ipc(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pl.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_ipc(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    return pl.read_ipc(content, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_ipc(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    return pl.read_ipc(content, **read_kwargs)
+def read_ndjson(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pl.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        if content_encoding == ContentEncoding.IDENTITY.value:
+            with filesystem.open_input_stream(path, **fs_open_kwargs) as f:
+                return pl.read_ndjson(f, **read_kwargs)
+        else:
+            # For compressed files with PyArrow, we need to be careful because PyArrow
+            # may auto-decompress some formats. Try to read directly first.
+            try:
+                with filesystem.open_input_stream(path, **fs_open_kwargs) as f:
+                    # Try reading as if it's already decompressed by PyArrow
+                    return pl.read_ndjson(f, **read_kwargs)
+            except Exception:
+                # If that fails, try manual decompression
+                with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f) as input_file:
+                        content = input_file.read()
+                        if isinstance(content, str):
+                            content = content.encode("utf-8")
+                        return pl.read_ndjson(content, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_ndjson(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    if isinstance(content, str):
+                        content = content.encode("utf-8")
+                    return pl.read_ndjson(content, **read_kwargs)
+def read_avro(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pl.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_avro(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    return pl.read_avro(content, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                return pl.read_avro(f, **read_kwargs)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content as bytes and pass to polars
+                    content = input_file.read()
+                    return pl.read_avro(content, **read_kwargs)
+def read_orc(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pl.DataFrame:
+    """
+    Read an ORC file using pandas and convert to polars since polars doesn't have native ORC support.
+    """
+    import pandas as pd
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                pd_df = pd.read_orc(f, **read_kwargs)
+                return pl.from_pandas(pd_df)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content and pass to pandas
+                    content = input_file.read()
+                    import io
+                    pd_df = pd.read_orc(io.BytesIO(content), **read_kwargs)
+                    return pl.from_pandas(pd_df)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            if content_encoding == ContentEncoding.IDENTITY.value:
+                pd_df = pd.read_orc(f, **read_kwargs)
+                return pl.from_pandas(pd_df)
+            else:
+                input_file_init = ENCODING_TO_FILE_INIT.get(
+                    content_encoding, lambda x: x
+                )
+                with input_file_init(f) as input_file:
+                    # Read decompressed content and pass to pandas
+                    content = input_file.read()
+                    import io
+                    pd_df = pd.read_orc(io.BytesIO(content), **read_kwargs)
+                    return pl.from_pandas(pd_df)
+# New mapping for encoding-aware reader functions used by file_to_dataframe
+CONTENT_TYPE_TO_READ_FN: Dict[str, Callable] = {
+    ContentType.UNESCAPED_TSV.value: read_csv,
+    ContentType.TSV.value: read_csv,
+    ContentType.CSV.value: read_csv,
+    ContentType.PSV.value: read_csv,
+    ContentType.PARQUET.value: read_parquet,
+    ContentType.FEATHER.value: read_ipc,
+    ContentType.JSON.value: read_ndjson,
+    ContentType.AVRO.value: read_avro,
+    ContentType.ORC.value: read_orc,
+}

deltacat 2.0.0b11__py3-none-any.whl → 2.0.0b12__py3-none-any.whl

deltacat 2.0.0b11py3-none-any.whl → 2.0.0b12py3-none-any.whl