PyPI - deltacat - Versions diffs - 1.1.38__py3-none-any.whl → 2.0.0__py3-none-any.whl - Mend

deltacat 1.1.38py3-none-any.whl → 2.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (367) hide show

deltacat/__init__.py +150 -12
deltacat/annotations.py +36 -0
deltacat/api.py +578 -0
deltacat/aws/constants.py +0 -23
deltacat/aws/s3u.py +4 -631
deltacat/benchmarking/benchmark_engine.py +84 -0
deltacat/benchmarking/benchmark_report.py +86 -0
deltacat/benchmarking/benchmark_suite.py +11 -0
deltacat/benchmarking/conftest.py +22 -19
deltacat/benchmarking/data/random_row_generator.py +94 -0
deltacat/benchmarking/data/row_generator.py +10 -0
deltacat/benchmarking/test_benchmark_pipeline.py +108 -0
deltacat/catalog/__init__.py +73 -0
deltacat/catalog/delegate.py +615 -140
deltacat/catalog/interface.py +404 -81
deltacat/catalog/main/impl.py +2882 -0
deltacat/catalog/model/catalog.py +348 -46
deltacat/catalog/model/properties.py +155 -0
deltacat/catalog/model/table_definition.py +32 -1
deltacat/compute/__init__.py +14 -0
deltacat/compute/compactor/compaction_session.py +97 -75
deltacat/compute/compactor/model/compact_partition_params.py +75 -30
deltacat/compute/compactor/model/compaction_session_audit_info.py +23 -30
deltacat/compute/compactor/model/delta_annotated.py +3 -3
deltacat/compute/compactor/model/delta_file_envelope.py +3 -1
deltacat/compute/compactor/model/delta_file_locator.py +3 -1
deltacat/compute/compactor/model/round_completion_info.py +19 -9
deltacat/compute/compactor/model/table_object_store.py +3 -2
deltacat/compute/compactor/repartition_session.py +9 -22
deltacat/compute/compactor/steps/dedupe.py +11 -4
deltacat/compute/compactor/steps/hash_bucket.py +6 -6
deltacat/compute/compactor/steps/materialize.py +15 -9
deltacat/compute/compactor/steps/repartition.py +12 -11
deltacat/compute/compactor/utils/io.py +7 -6
deltacat/compute/compactor/utils/round_completion_reader.py +117 -0
deltacat/compute/compactor/utils/sort_key.py +9 -2
deltacat/compute/compactor/utils/system_columns.py +3 -1
deltacat/compute/compactor_v2/compaction_session.py +13 -14
deltacat/compute/compactor_v2/deletes/utils.py +3 -3
deltacat/compute/compactor_v2/model/evaluate_compaction_result.py +0 -1
deltacat/compute/compactor_v2/model/hash_bucket_input.py +9 -3
deltacat/compute/compactor_v2/model/merge_file_group.py +5 -2
deltacat/compute/compactor_v2/model/merge_input.py +28 -9
deltacat/compute/compactor_v2/private/compaction_utils.py +171 -73
deltacat/compute/compactor_v2/steps/hash_bucket.py +5 -2
deltacat/compute/compactor_v2/steps/merge.py +156 -53
deltacat/compute/compactor_v2/utils/content_type_params.py +17 -6
deltacat/compute/compactor_v2/utils/delta.py +5 -3
deltacat/compute/compactor_v2/utils/io.py +10 -3
deltacat/compute/compactor_v2/utils/merge.py +14 -2
deltacat/compute/compactor_v2/utils/task_options.py +2 -10
deltacat/compute/converter/constants.py +9 -0
deltacat/compute/converter/converter_session.py +298 -0
deltacat/compute/converter/model/convert_input.py +96 -0
deltacat/compute/converter/model/convert_input_files.py +78 -0
deltacat/compute/converter/model/convert_result.py +80 -0
deltacat/compute/converter/model/converter_session_params.py +144 -0
deltacat/compute/converter/pyiceberg/catalog.py +78 -0
deltacat/compute/converter/pyiceberg/overrides.py +263 -0
deltacat/compute/converter/pyiceberg/update_snapshot_overrides.py +299 -0
deltacat/compute/converter/steps/convert.py +366 -0
deltacat/compute/converter/steps/dedupe.py +94 -0
deltacat/compute/converter/utils/__init__.py +0 -0
deltacat/compute/converter/utils/convert_task_options.py +132 -0
deltacat/compute/converter/utils/converter_session_utils.py +175 -0
deltacat/compute/converter/utils/iceberg_columns.py +87 -0
deltacat/compute/converter/utils/io.py +203 -0
deltacat/compute/converter/utils/s3u.py +148 -0
deltacat/compute/janitor.py +205 -0
deltacat/compute/jobs/__init__.py +0 -0
deltacat/compute/jobs/client.py +417 -0
deltacat/compute/resource_estimation/delta.py +11 -1
deltacat/constants.py +90 -1
deltacat/docs/__init__.py +0 -0
deltacat/docs/autogen/__init__.py +0 -0
deltacat/docs/autogen/schema/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/__init__.py +0 -0
deltacat/docs/autogen/schema/inference/generate_type_mappings.py +687 -0
deltacat/docs/autogen/schema/inference/parse_json_type_mappings.py +673 -0
deltacat/env.py +61 -0
deltacat/examples/__init__.py +0 -0
deltacat/examples/basic_logging.py +101 -0
deltacat/examples/compactor/__init__.py +0 -0
deltacat/examples/compactor/aws/__init__.py +1 -0
deltacat/examples/compactor/bootstrap.py +863 -0
deltacat/examples/compactor/compactor.py +373 -0
deltacat/examples/compactor/explorer.py +473 -0
deltacat/examples/compactor/gcp/__init__.py +1 -0
deltacat/examples/compactor/job_runner.py +439 -0
deltacat/examples/compactor/utils/__init__.py +1 -0
deltacat/examples/compactor/utils/common.py +261 -0
deltacat/examples/experimental/__init__.py +0 -0
deltacat/examples/experimental/iceberg/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/__init__.py +0 -0
deltacat/examples/experimental/iceberg/converter/beam/app.py +226 -0
deltacat/examples/experimental/iceberg/converter/beam/main.py +133 -0
deltacat/examples/experimental/iceberg/converter/beam/test_workflow.py +113 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/__init__.py +3 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/common.py +174 -0
deltacat/examples/experimental/iceberg/converter/beam/utils/spark.py +263 -0
deltacat/examples/experimental/iceberg/iceberg_bucket_writer.py +184 -0
deltacat/examples/experimental/iceberg/iceberg_reader.py +147 -0
deltacat/examples/hello_world.py +29 -0
deltacat/examples/indexer/__init__.py +0 -0
deltacat/examples/indexer/aws/__init__.py +0 -0
deltacat/examples/indexer/gcp/__init__.py +0 -0
deltacat/examples/indexer/indexer.py +163 -0
deltacat/examples/indexer/job_runner.py +198 -0
deltacat/exceptions.py +116 -12
deltacat/experimental/__init__.py +0 -0
deltacat/experimental/catalog/__init__.py +0 -0
deltacat/experimental/catalog/iceberg/__init__.py +6 -0
deltacat/experimental/catalog/iceberg/iceberg_catalog_config.py +26 -0
deltacat/experimental/catalog/iceberg/impl.py +399 -0
deltacat/experimental/catalog/iceberg/overrides.py +72 -0
deltacat/experimental/compatibility/__init__.py +0 -0
deltacat/experimental/compatibility/backfill_locator_to_id_mappings.py +201 -0
deltacat/experimental/converter_agent/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/__init__.py +0 -0
deltacat/experimental/converter_agent/beam/managed.py +173 -0
deltacat/experimental/converter_agent/table_monitor.py +479 -0
deltacat/experimental/daft/__init__.py +4 -0
deltacat/experimental/daft/daft_catalog.py +229 -0
deltacat/experimental/storage/__init__.py +0 -0
deltacat/experimental/storage/iceberg/__init__.py +0 -0
deltacat/experimental/storage/iceberg/iceberg_scan_planner.py +129 -0
deltacat/experimental/storage/iceberg/impl.py +739 -0
deltacat/experimental/storage/iceberg/model.py +713 -0
deltacat/experimental/storage/iceberg/visitor.py +119 -0
deltacat/experimental/storage/rivulet/__init__.py +11 -0
deltacat/experimental/storage/rivulet/arrow/__init__.py +0 -0
deltacat/experimental/storage/rivulet/arrow/serializer.py +78 -0
deltacat/experimental/storage/rivulet/dataset.py +745 -0
deltacat/experimental/storage/rivulet/dataset_executor.py +79 -0
deltacat/experimental/storage/rivulet/feather/__init__.py +7 -0
deltacat/experimental/storage/rivulet/feather/file_reader.py +138 -0
deltacat/experimental/storage/rivulet/feather/serializer.py +35 -0
deltacat/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/experimental/storage/rivulet/fs/file_provider.py +105 -0
deltacat/experimental/storage/rivulet/fs/file_store.py +130 -0
deltacat/experimental/storage/rivulet/fs/input_file.py +76 -0
deltacat/experimental/storage/rivulet/fs/output_file.py +86 -0
deltacat/experimental/storage/rivulet/logical_plan.py +105 -0
deltacat/experimental/storage/rivulet/metastore/__init__.py +0 -0
deltacat/experimental/storage/rivulet/metastore/delta.py +188 -0
deltacat/experimental/storage/rivulet/metastore/json_sst.py +105 -0
deltacat/experimental/storage/rivulet/metastore/sst.py +82 -0
deltacat/experimental/storage/rivulet/metastore/sst_interval_tree.py +260 -0
deltacat/experimental/storage/rivulet/mvp/Table.py +101 -0
deltacat/experimental/storage/rivulet/mvp/__init__.py +5 -0
deltacat/experimental/storage/rivulet/parquet/__init__.py +7 -0
deltacat/experimental/storage/rivulet/parquet/data_reader.py +0 -0
deltacat/experimental/storage/rivulet/parquet/file_reader.py +129 -0
deltacat/experimental/storage/rivulet/parquet/serializer.py +37 -0
deltacat/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/experimental/storage/rivulet/reader/block_scanner.py +389 -0
deltacat/experimental/storage/rivulet/reader/data_reader.py +136 -0
deltacat/experimental/storage/rivulet/reader/data_scan.py +65 -0
deltacat/experimental/storage/rivulet/reader/dataset_metastore.py +179 -0
deltacat/experimental/storage/rivulet/reader/dataset_reader.py +158 -0
deltacat/experimental/storage/rivulet/reader/pyarrow_data_reader.py +124 -0
deltacat/experimental/storage/rivulet/reader/query_expression.py +99 -0
deltacat/experimental/storage/rivulet/reader/reader_type_registrar.py +84 -0
deltacat/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/experimental/storage/rivulet/schema/datatype.py +128 -0
deltacat/experimental/storage/rivulet/schema/schema.py +251 -0
deltacat/experimental/storage/rivulet/serializer.py +40 -0
deltacat/experimental/storage/rivulet/serializer_factory.py +46 -0
deltacat/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/experimental/storage/rivulet/shard/range_shard.py +129 -0
deltacat/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/experimental/storage/rivulet/writer/dataset_writer.py +29 -0
deltacat/experimental/storage/rivulet/writer/memtable_dataset_writer.py +305 -0
deltacat/io/__init__.py +13 -0
deltacat/io/dataset/__init__.py +0 -0
deltacat/io/dataset/deltacat_dataset.py +91 -0
deltacat/io/datasink/__init__.py +0 -0
deltacat/io/datasink/deltacat_datasink.py +207 -0
deltacat/io/datasource/__init__.py +0 -0
deltacat/io/datasource/deltacat_datasource.py +579 -0
deltacat/io/reader/__init__.py +0 -0
deltacat/io/reader/deltacat_read_api.py +172 -0
deltacat/logs.py +4 -1
deltacat/storage/__init__.py +138 -28
deltacat/storage/interface.py +260 -155
deltacat/storage/main/__init__.py +0 -0
deltacat/storage/main/impl.py +3030 -0
deltacat/storage/model/delta.py +142 -71
deltacat/storage/model/expression/__init__.py +47 -0
deltacat/storage/model/expression/expression.py +656 -0
deltacat/storage/model/expression/visitor.py +248 -0
deltacat/storage/model/interop.py +24 -0
deltacat/storage/model/list_result.py +8 -0
deltacat/storage/model/locator.py +93 -9
deltacat/storage/model/manifest.py +643 -0
deltacat/storage/model/metafile.py +1421 -0
deltacat/storage/model/namespace.py +41 -18
deltacat/storage/model/partition.py +443 -43
deltacat/storage/model/scan/__init__.py +0 -0
deltacat/storage/model/scan/push_down.py +46 -0
deltacat/storage/model/scan/scan_plan.py +10 -0
deltacat/storage/model/scan/scan_task.py +34 -0
deltacat/storage/model/schema.py +3160 -0
deltacat/storage/model/shard.py +51 -0
deltacat/storage/model/sort_key.py +210 -13
deltacat/storage/model/stream.py +215 -80
deltacat/storage/model/table.py +134 -29
deltacat/storage/model/table_version.py +333 -46
deltacat/storage/model/transaction.py +1733 -0
deltacat/storage/model/transform.py +274 -58
deltacat/storage/model/types.py +138 -16
deltacat/storage/util/__init__.py +0 -0
deltacat/storage/util/scan_planner.py +26 -0
deltacat/tests/_io/__init__.py +1 -0
deltacat/tests/_io/reader/__init__.py +0 -0
deltacat/tests/_io/reader/test_deltacat_read_api.py +0 -0
deltacat/tests/{io → _io}/test_cloudpickle_bug_fix.py +8 -4
deltacat/tests/aws/test_s3u.py +2 -31
deltacat/tests/catalog/data/__init__.py +0 -0
deltacat/tests/catalog/main/__init__.py +0 -0
deltacat/tests/catalog/main/test_catalog_impl_namespace_operations.py +130 -0
deltacat/tests/catalog/main/test_catalog_impl_table_operations.py +1972 -0
deltacat/tests/catalog/model/__init__.py +0 -0
deltacat/tests/catalog/model/test_table_definition.py +16 -0
deltacat/tests/catalog/test_catalogs.py +321 -0
deltacat/tests/catalog/test_default_catalog_impl.py +12154 -66
deltacat/tests/compute/compact_partition_multiple_rounds_test_cases.py +21 -21
deltacat/tests/compute/compact_partition_rebase_test_cases.py +6 -6
deltacat/tests/compute/compact_partition_rebase_then_incremental_test_cases.py +56 -56
deltacat/tests/compute/compact_partition_test_cases.py +23 -30
deltacat/tests/compute/compactor/steps/test_repartition.py +14 -14
deltacat/tests/compute/compactor/utils/test_io.py +125 -123
deltacat/tests/compute/compactor/utils/test_round_completion_reader.py +254 -0
deltacat/tests/compute/compactor_v2/test_compaction_session.py +387 -830
deltacat/tests/compute/compactor_v2/utils/test_content_type_params.py +70 -57
deltacat/tests/compute/compactor_v2/utils/test_task_options.py +0 -3
deltacat/tests/compute/conftest.py +39 -0
deltacat/tests/compute/converter/__init__.py +0 -0
deltacat/tests/compute/converter/conftest.py +80 -0
deltacat/tests/compute/converter/test_convert_session.py +826 -0
deltacat/tests/compute/converter/utils.py +132 -0
deltacat/tests/compute/resource_estimation/test_delta.py +88 -104
deltacat/tests/compute/test_compact_partition_incremental.py +91 -98
deltacat/tests/compute/test_compact_partition_multiple_rounds.py +79 -97
deltacat/tests/compute/test_compact_partition_params.py +16 -11
deltacat/tests/compute/test_compact_partition_rebase.py +63 -93
deltacat/tests/compute/test_compact_partition_rebase_then_incremental.py +249 -220
deltacat/tests/compute/test_janitor.py +236 -0
deltacat/tests/compute/test_util_common.py +726 -46
deltacat/tests/compute/test_util_constant.py +0 -1
deltacat/tests/conftest.py +25 -0
deltacat/tests/daft/__init__.py +0 -0
deltacat/tests/daft/test_model.py +97 -0
deltacat/tests/experimental/__init__.py +1 -0
deltacat/tests/experimental/catalog/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/__init__.py +0 -0
deltacat/tests/experimental/catalog/iceberg/test_iceberg_catalog.py +71 -0
deltacat/tests/experimental/compatibility/__init__.py +1 -0
deltacat/tests/experimental/compatibility/test_backfill_locator_to_id_mappings.py +582 -0
deltacat/tests/experimental/daft/__init__.py +0 -0
deltacat/tests/experimental/daft/test_deltacat_daft_integration.py +136 -0
deltacat/tests/experimental/storage/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/conftest.py +149 -0
deltacat/tests/experimental/storage/rivulet/fs/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/fs/test_file_location_provider.py +94 -0
deltacat/tests/experimental/storage/rivulet/reader/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/reader/query_expression.py +80 -0
deltacat/tests/experimental/storage/rivulet/reader/test_data_scan.py +119 -0
deltacat/tests/experimental/storage/rivulet/reader/test_dataset_metastore.py +71 -0
deltacat/tests/experimental/storage/rivulet/schema/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/schema/test_schema.py +241 -0
deltacat/tests/experimental/storage/rivulet/shard/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/shard/test_range_shard.py +162 -0
deltacat/tests/experimental/storage/rivulet/test_dataset.py +408 -0
deltacat/tests/experimental/storage/rivulet/test_manifest.py +67 -0
deltacat/tests/experimental/storage/rivulet/test_sst_interval_tree.py +232 -0
deltacat/tests/experimental/storage/rivulet/test_utils.py +124 -0
deltacat/tests/experimental/storage/rivulet/writer/__init__.py +0 -0
deltacat/tests/experimental/storage/rivulet/writer/test_dataset_write_then_read.py +343 -0
deltacat/tests/experimental/storage/rivulet/writer/test_dataset_writer.py +79 -0
deltacat/tests/experimental/storage/rivulet/writer/test_memtable_dataset_writer.py +75 -0
deltacat/tests/storage/__init__.py +0 -0
deltacat/tests/storage/main/__init__.py +0 -0
deltacat/tests/storage/main/test_main_storage.py +8204 -0
deltacat/tests/storage/model/__init__.py +0 -0
deltacat/tests/storage/model/test_delete_parameters.py +21 -0
deltacat/tests/storage/model/test_expression.py +327 -0
deltacat/tests/storage/model/test_manifest.py +129 -0
deltacat/tests/storage/model/test_metafile_io.py +2440 -0
deltacat/tests/storage/model/test_partition_scheme.py +85 -0
deltacat/tests/storage/model/test_schema.py +479 -0
deltacat/tests/storage/model/test_schema_update.py +1925 -0
deltacat/tests/storage/model/test_shard.py +24 -0
deltacat/tests/storage/model/test_sort_scheme.py +90 -0
deltacat/tests/storage/model/test_table_version.py +110 -0
deltacat/tests/storage/model/test_transaction.py +653 -0
deltacat/tests/storage/model/test_transaction_history.py +886 -0
deltacat/tests/test_deltacat_api.py +1064 -0
deltacat/tests/test_exceptions.py +9 -5
deltacat/tests/test_utils/filesystem.py +14 -0
deltacat/tests/test_utils/message_pack_utils.py +54 -0
deltacat/tests/test_utils/pyarrow.py +50 -26
deltacat/tests/test_utils/storage.py +256 -4
deltacat/tests/types/__init__.py +0 -0
deltacat/tests/types/test_tables.py +104 -0
deltacat/tests/utils/exceptions.py +22 -0
deltacat/tests/utils/main_deltacat_storage_mock.py +31 -0
deltacat/tests/utils/ray_utils/test_dataset.py +123 -5
deltacat/tests/utils/test_daft.py +124 -34
deltacat/tests/utils/test_numpy.py +1193 -0
deltacat/tests/utils/test_pandas.py +1106 -0
deltacat/tests/utils/test_polars.py +1040 -0
deltacat/tests/utils/test_pyarrow.py +1107 -258
deltacat/types/media.py +345 -37
deltacat/types/partial_download.py +1 -1
deltacat/types/tables.py +2345 -47
deltacat/utils/arguments.py +33 -1
deltacat/utils/daft.py +824 -40
deltacat/utils/export.py +61 -0
deltacat/utils/filesystem.py +450 -0
deltacat/utils/metafile_locator.py +74 -0
deltacat/utils/numpy.py +118 -26
deltacat/utils/pandas.py +577 -48
deltacat/utils/polars.py +759 -0
deltacat/utils/pyarrow.py +1212 -178
deltacat/utils/ray_utils/concurrency.py +1 -1
deltacat/utils/ray_utils/dataset.py +101 -10
deltacat/utils/ray_utils/runtime.py +56 -4
deltacat/utils/reader_compatibility_mapping.py +3083 -0
deltacat/utils/url.py +1325 -0
deltacat-2.0.0.dist-info/METADATA +1163 -0
deltacat-2.0.0.dist-info/RECORD +439 -0
{deltacat-1.1.38.dist-info → deltacat-2.0.0.dist-info}/WHEEL +1 -1
deltacat/aws/redshift/__init__.py +0 -19
deltacat/aws/redshift/model/manifest.py +0 -394
deltacat/catalog/default_catalog_impl/__init__.py +0 -369
deltacat/compute/compactor/utils/round_completion_file.py +0 -97
deltacat/compute/merge_on_read/__init__.py +0 -4
deltacat/compute/merge_on_read/daft.py +0 -40
deltacat/compute/merge_on_read/model/merge_on_read_params.py +0 -66
deltacat/compute/merge_on_read/utils/delta.py +0 -42
deltacat/io/dataset.py +0 -73
deltacat/io/read_api.py +0 -143
deltacat/storage/model/delete_parameters.py +0 -40
deltacat/storage/model/partition_spec.py +0 -71
deltacat/tests/compute/compactor/utils/test_round_completion_file.py +0 -231
deltacat/tests/compute/test_util_create_table_deltas_repo.py +0 -397
deltacat/tests/local_deltacat_storage/__init__.py +0 -1262
deltacat/tests/local_deltacat_storage/exceptions.py +0 -10
deltacat/utils/s3fs.py +0 -21
deltacat-1.1.38.dist-info/METADATA +0 -64
deltacat-1.1.38.dist-info/RECORD +0 -219
/deltacat/{aws/redshift/model → benchmarking/data}/__init__.py +0 -0
/deltacat/{compute/merge_on_read/model → catalog/main}/__init__.py +0 -0
/deltacat/compute/{merge_on_read/utils → converter}/__init__.py +0 -0
/deltacat/{io/aws → compute/converter/model}/__init__.py +0 -0
/deltacat/{io/aws/redshift → compute/converter/pyiceberg}/__init__.py +0 -0
/deltacat/{tests/io → compute/converter/steps}/__init__.py +0 -0
/deltacat/tests/{io → _io}/test_file_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_memcached_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_ray_plasma_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_redis_object_store.py +0 -0
/deltacat/tests/{io → _io}/test_s3_object_store.py +0 -0
{deltacat-1.1.38.dist-info → deltacat-2.0.0.dist-info/licenses}/LICENSE +0 -0
{deltacat-1.1.38.dist-info → deltacat-2.0.0.dist-info}/top_level.txt +0 -0

deltacat/utils/pandas.py CHANGED Viewed

@@ -1,27 +1,305 @@
 import csv
-import io
 import logging
 import math
+import bz2
+import gzip
+from functools import partial
 from typing import Any, Callable, Dict, Iterable, List, Optional, Union
 import pandas as pd
 import pyarrow as pa
+import pyarrow.fs as pafs
 from fsspec import AbstractFileSystem
 from ray.data.datasource import FilenameProvider
 from deltacat import logs
 from deltacat.types.media import (
     DELIMITED_TEXT_CONTENT_TYPES,
-    EXPLICIT_COMPRESSION_CONTENT_TYPES,
     TABULAR_CONTENT_TYPES,
     ContentEncoding,
     ContentType,
 )
 from deltacat.utils.common import ContentTypeKwargsProvider, ReadKwargsProvider
 from deltacat.utils.performance import timed_invocation
+from deltacat.utils.filesystem import resolve_path_and_filesystem
+from deltacat.types.partial_download import PartialFileDownloadParams
 logger = logs.configure_deltacat_logger(logging.getLogger(__name__))
+# Encoding to file initialization function mapping
+ENCODING_TO_FILE_INIT: Dict[str, Callable] = {
+    ContentEncoding.GZIP.value: partial(gzip.open, mode="rb"),
+    ContentEncoding.BZIP2.value: partial(bz2.open, mode="rb"),
+    ContentEncoding.IDENTITY.value: lambda file_path: file_path,
+}
+def read_csv(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pd.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_stream(path, **fs_open_kwargs) as f:
+            # Handle compression with smart detection for PyArrow auto-decompression
+            if content_encoding in [
+                ContentEncoding.GZIP.value,
+                ContentEncoding.BZIP2.value,
+            ]:
+                try:
+                    # First try to read as if already decompressed by PyArrow
+                    return pd.read_csv(f, **read_kwargs)
+                except (
+                    gzip.BadGzipFile,
+                    OSError,
+                    UnicodeDecodeError,
+                    pd.errors.EmptyDataError,
+                    Exception,
+                ):
+                    # If that fails, we need to reopen the file since the stream may be closed/corrupted
+                    pass
+                # Reopen and try manual decompression
+                with filesystem.open_input_stream(path, **fs_open_kwargs) as f_retry:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f_retry) as input_file:
+                        return pd.read_csv(input_file, **read_kwargs)
+            else:
+                return pd.read_csv(f, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            input_file_init = ENCODING_TO_FILE_INIT.get(content_encoding, lambda x: x)
+            with input_file_init(f) as input_file:
+                return pd.read_csv(input_file, **read_kwargs)
+def read_parquet(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pd.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression with smart detection for PyArrow auto-decompression
+            if content_encoding in [
+                ContentEncoding.GZIP.value,
+                ContentEncoding.BZIP2.value,
+            ]:
+                try:
+                    # First try to read as if already decompressed by PyArrow
+                    return pd.read_parquet(f, **read_kwargs)
+                except (gzip.BadGzipFile, OSError, pa.ArrowInvalid, Exception):
+                    # If that fails, we need to reopen the file
+                    pass
+                # Reopen and try manual decompression
+                with filesystem.open_input_file(path, **fs_open_kwargs) as f_retry:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f_retry) as input_file:
+                        return pd.read_parquet(input_file, **read_kwargs)
+            else:
+                return pd.read_parquet(f, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            input_file_init = ENCODING_TO_FILE_INIT.get(content_encoding, lambda x: x)
+            with input_file_init(f) as input_file:
+                return pd.read_parquet(input_file, **read_kwargs)
+def read_feather(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pd.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression with smart detection for PyArrow auto-decompression
+            if content_encoding in [
+                ContentEncoding.GZIP.value,
+                ContentEncoding.BZIP2.value,
+            ]:
+                try:
+                    # First try to read as if already decompressed by PyArrow
+                    return pd.read_feather(f, **read_kwargs)
+                except (gzip.BadGzipFile, OSError, pa.ArrowInvalid, Exception):
+                    # If that fails, we need to reopen the file
+                    pass
+                # Reopen and try manual decompression
+                with filesystem.open_input_file(path, **fs_open_kwargs) as f_retry:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f_retry) as input_file:
+                        return pd.read_feather(input_file, **read_kwargs)
+            else:
+                return pd.read_feather(f, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            input_file_init = ENCODING_TO_FILE_INIT.get(content_encoding, lambda x: x)
+            with input_file_init(f) as input_file:
+                return pd.read_feather(input_file, **read_kwargs)
+def read_orc(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pd.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression with smart detection for PyArrow auto-decompression
+            if content_encoding in [
+                ContentEncoding.GZIP.value,
+                ContentEncoding.BZIP2.value,
+            ]:
+                try:
+                    # First try to read as if already decompressed by PyArrow
+                    return pd.read_orc(f, **read_kwargs)
+                except (gzip.BadGzipFile, OSError, pa.ArrowInvalid, Exception):
+                    # If that fails, we need to reopen the file
+                    pass
+                # Reopen and try manual decompression
+                with filesystem.open_input_file(path, **fs_open_kwargs) as f_retry:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f_retry) as input_file:
+                        return pd.read_orc(input_file, **read_kwargs)
+            else:
+                return pd.read_orc(f, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            input_file_init = ENCODING_TO_FILE_INIT.get(content_encoding, lambda x: x)
+            with input_file_init(f) as input_file:
+                return pd.read_orc(input_file, **read_kwargs)
+def read_json(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pd.DataFrame:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_stream(path, **fs_open_kwargs) as f:
+            # Handle compression with smart detection for PyArrow auto-decompression
+            if content_encoding in [
+                ContentEncoding.GZIP.value,
+                ContentEncoding.BZIP2.value,
+            ]:
+                try:
+                    # First try to read as if already decompressed by PyArrow
+                    return pd.read_json(f, **read_kwargs)
+                except (
+                    gzip.BadGzipFile,
+                    OSError,
+                    UnicodeDecodeError,
+                    ValueError,
+                    Exception,
+                ):
+                    # If that fails, we need to reopen the file
+                    pass
+                # Reopen and try manual decompression
+                with filesystem.open_input_stream(path, **fs_open_kwargs) as f_retry:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f_retry) as input_file:
+                        return pd.read_json(input_file, **read_kwargs)
+            else:
+                return pd.read_json(f, **read_kwargs)
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            input_file_init = ENCODING_TO_FILE_INIT.get(content_encoding, lambda x: x)
+            with input_file_init(f) as input_file:
+                return pd.read_json(input_file, **read_kwargs)
+def read_avro(
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    **read_kwargs,
+) -> pd.DataFrame:
+    """
+    Read an Avro file using polars and convert to pandas.
+    """
+    import polars as pl
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path)
+        with filesystem.open_input_file(path, **fs_open_kwargs) as f:
+            # Handle compression with smart detection for PyArrow auto-decompression
+            if content_encoding in [
+                ContentEncoding.GZIP.value,
+                ContentEncoding.BZIP2.value,
+            ]:
+                try:
+                    # First try to read as if already decompressed by PyArrow
+                    pl_df = pl.read_avro(f, **read_kwargs)
+                    return pl_df.to_pandas()
+                except (gzip.BadGzipFile, OSError, Exception):
+                    # If that fails, we need to reopen the file
+                    pass
+                # Reopen and try manual decompression
+                with filesystem.open_input_file(path, **fs_open_kwargs) as f_retry:
+                    input_file_init = ENCODING_TO_FILE_INIT.get(
+                        content_encoding, lambda x: x
+                    )
+                    with input_file_init(f_retry) as input_file:
+                        pl_df = pl.read_avro(input_file, **read_kwargs)
+                        return pl_df.to_pandas()
+            else:
+                pl_df = pl.read_avro(f, **read_kwargs)
+                return pl_df.to_pandas()
+    else:
+        # fsspec AbstractFileSystem
+        with filesystem.open(path, "rb", **fs_open_kwargs) as f:
+            # Handle compression
+            input_file_init = ENCODING_TO_FILE_INIT.get(content_encoding, lambda x: x)
+            with input_file_init(f) as input_file:
+                pl_df = pl.read_avro(input_file, **read_kwargs)
+                return pl_df.to_pandas()
 CONTENT_TYPE_TO_PD_READ_FUNC: Dict[str, Callable] = {
     ContentType.UNESCAPED_TSV.value: pd.read_csv,
@@ -32,6 +310,21 @@ CONTENT_TYPE_TO_PD_READ_FUNC: Dict[str, Callable] = {
     ContentType.FEATHER.value: pd.read_feather,
     ContentType.ORC.value: pd.read_orc,
     ContentType.JSON.value: pd.read_json,
+    ContentType.AVRO.value: read_avro,
+}
+# New mapping for encoding-aware reader functions used by file_to_dataframe
+CONTENT_TYPE_TO_READ_FN: Dict[str, Callable] = {
+    ContentType.UNESCAPED_TSV.value: read_csv,
+    ContentType.TSV.value: read_csv,
+    ContentType.CSV.value: read_csv,
+    ContentType.PSV.value: read_csv,
+    ContentType.PARQUET.value: read_parquet,
+    ContentType.FEATHER.value: read_feather,
+    ContentType.ORC.value: read_orc,
+    ContentType.JSON.value: read_json,
+    ContentType.AVRO.value: read_avro,
 }
@@ -67,6 +360,7 @@ def content_type_to_reader_kwargs(content_type: str) -> Dict[str, Any]:
             "header": None,
             "na_values": [""],
             "keep_default_na": False,
+            "quoting": csv.QUOTE_NONE,
         }
     if content_type == ContentType.TSV.value:
         return {"sep": "\t", "header": None}
@@ -74,11 +368,13 @@ def content_type_to_reader_kwargs(content_type: str) -> Dict[str, Any]:
         return {"sep": ",", "header": None}
     if content_type == ContentType.PSV.value:
         return {"sep": "|", "header": None}
+    if content_type == ContentType.JSON.value:
+        return {"lines": True}  # Support NDJSON format
     if content_type in {
         ContentType.PARQUET.value,
         ContentType.FEATHER.value,
         ContentType.ORC.value,
-        ContentType.JSON.value,
+        ContentType.AVRO.value,
     }:
         return {}
     raise ValueError(f"Unsupported content type: {content_type}")
@@ -92,7 +388,8 @@ ENCODING_TO_PD_COMPRESSION: Dict[str, str] = {
 def slice_dataframe(
-    dataframe: pd.DataFrame, max_len: Optional[int]
+    dataframe: pd.DataFrame,
+    max_len: Optional[int],
 ) -> List[pd.DataFrame]:
     """
     Iteratively create dataframe slices.
@@ -114,6 +411,22 @@ def concat_dataframes(dataframes: List[pd.DataFrame]) -> Optional[pd.DataFrame]:
     return pd.concat(dataframes, axis=0, copy=False)
+def append_column_to_dataframe(
+    dataframe: pd.DataFrame,
+    column_name: str,
+    column_value: Any,
+) -> pd.DataFrame:
+    dataframe[column_name] = column_value
+    return dataframe
+def select_columns(
+    dataframe: pd.DataFrame,
+    column_names: List[str],
+) -> pd.DataFrame:
+    return dataframe[column_names]
 def _add_column_kwargs(
     content_type: str,
     column_names: Optional[List[str]],
@@ -135,38 +448,68 @@ def _add_column_kwargs(
                 )
-def s3_file_to_dataframe(
-    s3_url: str,
+def file_to_dataframe(
+    path: str,
     content_type: str,
-    content_encoding: str,
+    content_encoding: str = ContentEncoding.IDENTITY.value,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
     column_names: Optional[List[str]] = None,
     include_columns: Optional[List[str]] = None,
     pd_read_func_kwargs_provider: Optional[ReadKwargsProvider] = None,
-    **s3_client_kwargs,
+    partial_file_download_params: Optional[PartialFileDownloadParams] = None,
+    fs_open_kwargs: Dict[str, Any] = {},
+    **kwargs,
 ) -> pd.DataFrame:
-    from deltacat.aws import s3u as s3_utils
+    """
+    Read a file into a Pandas DataFrame using any filesystem.
+    Args:
+        path: The file path to read
+        content_type: The content type of the file (e.g., ContentType.CSV.value)
+        content_encoding: The content encoding (default: IDENTITY)
+        filesystem: The filesystem to use (if None, will be inferred from path)
+        column_names: Optional column names to assign
+        include_columns: Optional columns to include in the result
+        pd_read_func_kwargs_provider: Optional kwargs provider for customization
+        fs_open_kwargs: Optional kwargs for filesystem open operations
+        **kwargs: Additional kwargs passed to the reader function
+    Returns:
+        pd.DataFrame: The loaded DataFrame
+    """
     logger.debug(
-        f"Reading {s3_url} to Pandas. Content type: {content_type}. "
+        f"Reading {path} to Pandas. Content type: {content_type}. "
         f"Encoding: {content_encoding}"
     )
-    s3_obj = s3_utils.get_object_at_url(s3_url, **s3_client_kwargs)
-    logger.debug(f"Read S3 object from {s3_url}: {s3_obj}")
-    pd_read_func = CONTENT_TYPE_TO_PD_READ_FUNC[content_type]
-    args = [io.BytesIO(s3_obj["Body"].read())]
-    kwargs = content_type_to_reader_kwargs(content_type)
-    _add_column_kwargs(content_type, column_names, include_columns, kwargs)
-    if content_type in EXPLICIT_COMPRESSION_CONTENT_TYPES:
-        kwargs["compression"] = ENCODING_TO_PD_COMPRESSION.get(
-            content_encoding, "infer"
+    pd_read_func = CONTENT_TYPE_TO_READ_FN.get(content_type)
+    if not pd_read_func:
+        raise NotImplementedError(
+            f"Pandas reader for content type '{content_type}' not "
+            f"implemented. Known content types: "
+            f"{list(CONTENT_TYPE_TO_READ_FN.keys())}"
         )
+    reader_kwargs = content_type_to_reader_kwargs(content_type)
+    _add_column_kwargs(content_type, column_names, include_columns, reader_kwargs)
+    # Merge with provided kwargs
+    reader_kwargs.update(kwargs)
     if pd_read_func_kwargs_provider:
-        kwargs = pd_read_func_kwargs_provider(content_type, kwargs)
-    logger.debug(f"Reading {s3_url} via {pd_read_func} with kwargs: {kwargs}")
-    dataframe, latency = timed_invocation(pd_read_func, *args, **kwargs)
-    logger.debug(f"Time to read {s3_url} into Pandas Dataframe: {latency}s")
+        reader_kwargs = pd_read_func_kwargs_provider(content_type, reader_kwargs)
+    logger.debug(f"Reading {path} via {pd_read_func} with kwargs: {reader_kwargs}")
+    dataframe, latency = timed_invocation(
+        pd_read_func,
+        path,
+        filesystem=filesystem,
+        fs_open_kwargs=fs_open_kwargs,
+        content_encoding=content_encoding,
+        **reader_kwargs,
+    )
+    logger.debug(f"Time to read {path} into Pandas DataFrame: {latency}s")
     return dataframe
@@ -176,35 +519,210 @@ def dataframe_size(dataframe: pd.DataFrame) -> int:
 def write_csv(
-    dataframe: pd.DataFrame, path: str, *, filesystem: AbstractFileSystem, **kwargs
+    dataframe: pd.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
 ) -> None:
-    with filesystem.open(path, "wb") as f:
-        # TODO (pdames): Add support for client-specified compression types.
-        with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
-            dataframe.to_csv(out, **kwargs)
+    # TODO (pdames): Add support for client-specified compression types.
+    if kwargs.get("header") is None:
+        kwargs["header"] = False
+    # Check if the path already indicates compression to avoid double compression
+    should_compress = path.endswith(".gz")
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            if should_compress:
+                # Path ends with .gz, PyArrow filesystem automatically compresses, no need for additional compression
+                dataframe.to_csv(f, **kwargs)
+            else:
+                # No compression indicated, apply explicit compression
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    dataframe.to_csv(out, **kwargs)
+    else:
+        with filesystem.open(path, "wb", **fs_open_kwargs) as f:
+            if should_compress:
+                # For fsspec filesystems, we need to apply compression explicitly
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    dataframe.to_csv(out, **kwargs)
+            else:
+                # No compression indicated, apply explicit compression
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    dataframe.to_csv(out, **kwargs)
+def _preprocess_dataframe_for_parquet(dataframe: pd.DataFrame) -> pd.DataFrame:
+    """
+    Preprocess DataFrame to convert PyArrow types to native Python types for parquet compatibility.
+    This handles the case where from_pyarrow() creates pandas DataFrames with PyArrow array objects
+    that cannot be serialized by pandas.to_parquet().
+    """
+    # Check if any columns contain PyArrow arrays
+    needs_conversion = False
+    for col in dataframe.columns:
+        if dataframe[col].dtype == object:
+            # Check if the column contains PyArrow arrays
+            sample_val = dataframe[col].iloc[0] if len(dataframe) > 0 else None
+            if (
+                sample_val is not None
+                and hasattr(sample_val, "__class__")
+                and "pyarrow" in str(type(sample_val))
+            ):
+                needs_conversion = True
+                break
+    if not needs_conversion:
+        return dataframe
+    # Create a copy and convert PyArrow types
+    df_copy = dataframe.copy()
+    for col in df_copy.columns:
+        if df_copy[col].dtype == object and len(df_copy) > 0:
+            sample_val = df_copy[col].iloc[0]
+            # Convert PyArrow arrays to Python lists
+            if hasattr(sample_val, "__class__") and "pyarrow" in str(type(sample_val)):
+                try:
+                    if hasattr(sample_val, "to_pylist"):
+                        # PyArrow array - convert to Python list
+                        df_copy[col] = df_copy[col].apply(
+                            lambda x: x.to_pylist() if hasattr(x, "to_pylist") else x
+                        )
+                    elif hasattr(sample_val, "as_py"):
+                        # PyArrow scalar - convert to Python value
+                        df_copy[col] = df_copy[col].apply(
+                            lambda x: x.as_py() if hasattr(x, "as_py") else x
+                        )
+                except Exception as e:
+                    logger.warning(
+                        f"Could not convert PyArrow column {col}: {e}. Keeping original values."
+                    )
+    return df_copy
 def write_parquet(
-    dataframe: pd.DataFrame, path: str, *, filesystem: AbstractFileSystem, **kwargs
+    dataframe: pd.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
 ) -> None:
-    with filesystem.open(path, "wb") as f:
-        dataframe.to_parquet(f, **kwargs)
+    # Preprocess DataFrame to handle PyArrow types
+    processed_df = _preprocess_dataframe_for_parquet(dataframe)
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            processed_df.to_parquet(f, **kwargs)
+    else:
+        with filesystem.open(path, "wb", **fs_open_kwargs) as f:
+            processed_df.to_parquet(f, **kwargs)
+def write_orc(
+    dataframe: pd.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
+) -> None:
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            dataframe.to_orc(f, **kwargs)
+    else:
+        with filesystem.open(path, "wb", **fs_open_kwargs) as f:
+            dataframe.to_orc(f, **kwargs)
 def write_feather(
-    dataframe: pd.DataFrame, path: str, *, filesystem: AbstractFileSystem, **kwargs
+    dataframe: pd.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
 ) -> None:
-    with filesystem.open(path, "wb") as f:
-        dataframe.to_feather(f, **kwargs)
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            dataframe.to_feather(f, **kwargs)
+    else:
+        with filesystem.open(path, "wb", **fs_open_kwargs) as f:
+            dataframe.to_feather(f, **kwargs)
 def write_json(
-    dataframe: pd.DataFrame, path: str, *, filesystem: AbstractFileSystem, **kwargs
+    dataframe: pd.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
+) -> None:
+    # Check if the path already indicates compression to avoid double compression
+    should_compress = path.endswith(".gz")
+    if not filesystem or isinstance(filesystem, pafs.FileSystem):
+        path, filesystem = resolve_path_and_filesystem(path, filesystem)
+        with filesystem.open_output_stream(path, **fs_open_kwargs) as f:
+            if should_compress:
+                # Path ends with .gz, PyArrow filesystem automatically compresses, no need for additional compression
+                dataframe.to_json(f, **kwargs)
+            else:
+                # No compression indicated, apply explicit compression
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    dataframe.to_json(out, **kwargs)
+    else:
+        with filesystem.open(path, "wb", **fs_open_kwargs) as f:
+            if should_compress:
+                # For fsspec filesystems, we need to apply compression explicitly
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    dataframe.to_json(out, **kwargs)
+            else:
+                # No compression indicated, apply explicit compression
+                with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
+                    dataframe.to_json(out, **kwargs)
+def write_avro(
+    dataframe: pd.DataFrame,
+    path: str,
+    *,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]] = None,
+    fs_open_kwargs: Dict[str, any] = {},
+    **kwargs,
 ) -> None:
-    with filesystem.open(path, "wb") as f:
-        # TODO (pdames): Add support for client-specified compression types.
-        with pa.CompressedOutputStream(f, ContentEncoding.GZIP.value) as out:
-            dataframe.to_json(out, **kwargs)
+    """
+    Write a pandas DataFrame to an AVRO file by delegating to polars implementation.
+    """
+    import polars as pl
+    from deltacat.utils.polars import write_avro as polars_write_avro
+    # Convert pandas DataFrame to polars
+    include_index = kwargs.pop("index", False)
+    pl_df = pl.from_pandas(dataframe, include_index=include_index)
+    # Remove pandas-specific kwargs before passing to polars
+    polars_kwargs = {k: v for k, v in kwargs.items() if k not in ["index"]}
+    # Delegate to polars write_avro implementation
+    polars_write_avro(
+        pl_df,
+        path,
+        filesystem=filesystem,
+        fs_open_kwargs=fs_open_kwargs,
+        **polars_kwargs,
+    )
 CONTENT_TYPE_TO_PD_WRITE_FUNC: Dict[str, Callable] = {
@@ -215,6 +733,8 @@ CONTENT_TYPE_TO_PD_WRITE_FUNC: Dict[str, Callable] = {
     ContentType.PARQUET.value: write_parquet,
     ContentType.FEATHER.value: write_feather,
     ContentType.JSON.value: write_json,
+    ContentType.AVRO.value: write_avro,
+    ContentType.ORC.value: write_orc,
 }
@@ -224,7 +744,7 @@ def content_type_to_writer_kwargs(content_type: str) -> Dict[str, Any]:
             "sep": "\t",
             "header": False,
             "na_rep": [""],
-            "line_terminator": "\n",
+            "lineterminator": "\n",
             "quoting": csv.QUOTE_NONE,
             "index": False,
         }
@@ -232,28 +752,36 @@ def content_type_to_writer_kwargs(content_type: str) -> Dict[str, Any]:
         return {
             "sep": "\t",
             "header": False,
-            "line_terminator": "\n",
+            "lineterminator": "\n",
+            "quoting": csv.QUOTE_MINIMAL,
             "index": False,
         }
     if content_type == ContentType.CSV.value:
         return {
             "sep": ",",
             "header": False,
-            "line_terminator": "\n",
+            "index": False,
+            "lineterminator": "\n",
+            "quoting": csv.QUOTE_MINIMAL,
             "index": False,
         }
     if content_type == ContentType.PSV.value:
         return {
             "sep": "|",
             "header": False,
-            "line_terminator": "\n",
             "index": False,
+            "lineterminator": "\n",
+            "quoting": csv.QUOTE_MINIMAL,
         }
     if content_type == ContentType.PARQUET.value:
         return {"index": False}
     if content_type == ContentType.FEATHER.value:
         return {}
     if content_type == ContentType.JSON.value:
+        return {"index": False, "orient": "records", "lines": True}
+    if content_type == ContentType.AVRO.value:
+        return {"index": False}
+    if content_type == ContentType.ORC.value:
         return {"index": False}
     raise ValueError(f"Unsupported content type: {content_type}")
@@ -261,9 +789,10 @@ def content_type_to_writer_kwargs(content_type: str) -> Dict[str, Any]:
 def dataframe_to_file(
     dataframe: pd.DataFrame,
     base_path: str,
-    file_system: AbstractFileSystem,
+    filesystem: Optional[Union[AbstractFileSystem, pafs.FileSystem]],
     block_path_provider: Union[Callable, FilenameProvider],
     content_type: str = ContentType.PARQUET.value,
+    schema: Optional[pa.Schema] = None,
     **kwargs,
 ) -> None:
     """
@@ -279,4 +808,4 @@ def dataframe_to_file(
             f"{CONTENT_TYPE_TO_PD_WRITE_FUNC.keys}"
         )
     path = block_path_provider(base_path)
-    writer(dataframe, path, filesystem=file_system, **writer_kwargs)
+    writer(dataframe, path, filesystem=filesystem, **writer_kwargs)

deltacat 1.1.38__py3-none-any.whl → 2.0.0__py3-none-any.whl

deltacat 1.1.38py3-none-any.whl → 2.0.0py3-none-any.whl