PyPI - duckrun - Versions diffs - 0.2.19.dev0__tar.gz → 0.2.19.dev1__tar.gz - Mend

duckrun 0.2.19.dev0tar.gz → 0.2.19.dev1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

{duckrun-0.2.19.dev0 → duckrun-0.2.19.dev1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: duckrun
-Version: 0.2.19.dev0
+Version: 0.2.19.dev1
 Summary: Helper library for Fabric Python using duckdb, arrow and delta_rs (orchestration, queries, etc.)
 Author: mim
 License: MIT

{duckrun-0.2.19.dev0 → duckrun-0.2.19.dev1}/duckrun/stats.py RENAMED Viewed

@@ -290,25 +290,16 @@ def get_stats(duckrun_instance, source: str = None, detailed = False):
             else:
                 # Get parquet metadata and create temp table with compression info
                 if detailed == True:
-                    # Detailed mode: Include row group level statistics
+                    # Detailed mode: Include ALL parquet_metadata columns
                     con.execute(f'''
                         CREATE OR REPLACE TEMP TABLE tbl_{idx} AS
                         SELECT
                             '{schema_name}' as schema,
                             '{tbl}' as tbl,
-                            pm.file_name,
-                            pm.row_group_id,
-                            pm.row_group_num_rows,
-                            pm.row_group_num_columns,
-                            pm.row_group_bytes,
                             {vorder} as vorder,
-                            pm.compression,
-                            pm.total_compressed_size,
-                            pm.total_uncompressed_size,
-                            ROUND(pm.total_compressed_size::DOUBLE / NULLIF(pm.total_uncompressed_size, 0), 4) as compression_ratio,
+                            pm.*,
                             '{timestamp}' as timestamp
                         FROM parquet_metadata({delta}) pm
-                        WHERE pm.column_id = 0  -- Only include first column to avoid duplication per column
                     ''')
                 else:
                     # Aggregated mode: Original summary statistics
@@ -377,25 +368,16 @@ def get_stats(duckrun_instance, source: str = None, detailed = False):
                     # Use parquet_file_metadata to get actual parquet stats with compression
                     if detailed == True:
-                        # Detailed mode: Include row group level statistics
+                        # Detailed mode: Include ALL parquet_metadata columns
                         con.execute(f'''
                             CREATE OR REPLACE TEMP TABLE tbl_{idx} AS
                             SELECT
                                 '{schema_name}' as schema,
                                 '{tbl}' as tbl,
-                                pm.file_name,
-                                pm.row_group_id,
-                                pm.row_group_num_rows,
-                                pm.row_group_num_columns,
-                                pm.row_group_bytes,
                                 false as vorder,
-                                pm.compression,
-                                pm.total_compressed_size,
-                                pm.total_uncompressed_size,
-                                ROUND(pm.total_compressed_size::DOUBLE / NULLIF(pm.total_uncompressed_size, 0), 4) as compression_ratio,
+                                pm.*,
                                 '{timestamp}' as timestamp
                             FROM parquet_metadata({filenames}) pm
-                            WHERE pm.column_id = 0  -- Only include first column to avoid duplication per column
                         ''')
                     else:
                         # Aggregated mode: Original summary statistics
@@ -431,9 +413,7 @@ def get_stats(duckrun_instance, source: str = None, detailed = False):
         print("⚠️  No tables could be processed successfully")
         import pandas as pd
         if detailed == True:
-            return pd.DataFrame(columns=['schema', 'tbl', 'file_name', 'row_group_id', 'row_group_num_rows',
-                                         'row_group_num_columns', 'row_group_bytes', 'vorder', 'compression',
-                                         'total_compressed_size', 'total_uncompressed_size', 'compression_ratio', 'timestamp'])
+            return pd.DataFrame(columns=['schema', 'tbl', 'vorder', 'timestamp'])
         else:
             return pd.DataFrame(columns=['schema', 'tbl', 'total_rows', 'num_files', 'num_row_group',
                                          'average_row_group', 'file_size_MB', 'vorder', 'compression', 'timestamp'])
@@ -444,25 +424,12 @@ def get_stats(duckrun_instance, source: str = None, detailed = False):
     # Generate final summary based on detailed flag
     if detailed == True:
-        # Detailed mode: Return row group level data without aggregation
+        # Detailed mode: Return ALL parquet_metadata columns
         final_result = con.execute(f'''
-            SELECT
-                schema,
-                tbl,
-                file_name,
-                row_group_id,
-                row_group_num_rows,
-                row_group_num_columns,
-                row_group_bytes,
-                vorder,
-                compression,
-                total_compressed_size,
-                total_uncompressed_size,
-                compression_ratio,
-                timestamp
+            SELECT *
             FROM ({union_query})
             WHERE tbl IS NOT NULL
-            ORDER BY schema, tbl, file_name, row_group_id
+            ORDER BY schema, tbl, file_name, row_group_id, column_id
         ''').df()
     else:
         # Aggregated mode: Original summary statistics

{duckrun-0.2.19.dev0 → duckrun-0.2.19.dev1}/duckrun.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: duckrun
-Version: 0.2.19.dev0
+Version: 0.2.19.dev1
 Summary: Helper library for Fabric Python using duckdb, arrow and delta_rs (orchestration, queries, etc.)
 Author: mim
 License: MIT

{duckrun-0.2.19.dev0 → duckrun-0.2.19.dev1}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "duckrun"
-version = "0.2.19.dev0"
+version = "0.2.19.dev1"
 description = "Helper library for Fabric Python using duckdb, arrow and delta_rs (orchestration, queries, etc.)"
 readme = "README.md"
 license = {text = "MIT"}