PyPI - additory - Versions diffs - 0.1.0a4__py3-none-any.whl → 0.1.1a1__py3-none-any.whl - Mend

additory 0.1.0a4py3-none-any.whl → 0.1.1a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (121) hide show

additory/__init__.py +58 -14
additory/common/__init__.py +31 -147
additory/common/column_selector.py +255 -0
additory/common/distributions.py +286 -613
additory/common/extractors.py +313 -0
additory/common/knn_imputation.py +332 -0
additory/common/result.py +380 -0
additory/common/strategy_parser.py +243 -0
additory/common/unit_conversions.py +338 -0
additory/common/validation.py +283 -103
additory/core/__init__.py +34 -22
additory/core/backend.py +258 -0
additory/core/config.py +177 -305
additory/core/logging.py +230 -24
additory/core/memory_manager.py +157 -495
additory/expressions/__init__.py +2 -23
additory/expressions/compiler.py +457 -0
additory/expressions/engine.py +264 -487
additory/expressions/integrity.py +179 -0
additory/expressions/loader.py +263 -0
additory/expressions/parser.py +363 -167
additory/expressions/resolver.py +274 -0
additory/functions/__init__.py +1 -0
additory/functions/analyze/__init__.py +144 -0
additory/functions/analyze/cardinality.py +58 -0
additory/functions/analyze/correlations.py +66 -0
additory/functions/analyze/distributions.py +53 -0
additory/functions/analyze/duplicates.py +49 -0
additory/functions/analyze/features.py +61 -0
additory/functions/analyze/imputation.py +66 -0
additory/functions/analyze/outliers.py +65 -0
additory/functions/analyze/patterns.py +65 -0
additory/functions/analyze/presets.py +72 -0
additory/functions/analyze/quality.py +59 -0
additory/functions/analyze/timeseries.py +53 -0
additory/functions/analyze/types.py +45 -0
additory/functions/expressions/__init__.py +161 -0
additory/functions/snapshot/__init__.py +82 -0
additory/functions/snapshot/filter.py +119 -0
additory/functions/synthetic/__init__.py +113 -0
additory/functions/synthetic/mode_detector.py +47 -0
additory/functions/synthetic/strategies/__init__.py +1 -0
additory/functions/synthetic/strategies/advanced.py +35 -0
additory/functions/synthetic/strategies/augmentative.py +160 -0
additory/functions/synthetic/strategies/generative.py +168 -0
additory/functions/synthetic/strategies/presets.py +116 -0
additory/functions/to/__init__.py +188 -0
additory/functions/to/lookup.py +351 -0
additory/functions/to/merge.py +189 -0
additory/functions/to/sort.py +91 -0
additory/functions/to/summarize.py +170 -0
additory/functions/transform/__init__.py +140 -0
additory/functions/transform/datetime.py +79 -0
additory/functions/transform/extract.py +85 -0
additory/functions/transform/harmonize.py +105 -0
additory/functions/transform/knn.py +62 -0
additory/functions/transform/onehotencoding.py +68 -0
additory/functions/transform/transpose.py +42 -0
additory-0.1.1a1.dist-info/METADATA +83 -0
additory-0.1.1a1.dist-info/RECORD +62 -0
additory/analysis/__init__.py +0 -48
additory/analysis/cardinality.py +0 -126
additory/analysis/correlations.py +0 -124
additory/analysis/distributions.py +0 -376
additory/analysis/quality.py +0 -158
additory/analysis/scan.py +0 -400
additory/common/backend.py +0 -371
additory/common/column_utils.py +0 -191
additory/common/exceptions.py +0 -62
additory/common/lists.py +0 -229
additory/common/patterns.py +0 -240
additory/common/resolver.py +0 -567
additory/common/sample_data.py +0 -182
additory/core/ast_builder.py +0 -165
additory/core/backends/__init__.py +0 -23
additory/core/backends/arrow_bridge.py +0 -483
additory/core/backends/cudf_bridge.py +0 -355
additory/core/column_positioning.py +0 -358
additory/core/compiler_polars.py +0 -166
additory/core/enhanced_cache_manager.py +0 -1119
additory/core/enhanced_matchers.py +0 -473
additory/core/enhanced_version_manager.py +0 -325
additory/core/executor.py +0 -59
additory/core/integrity_manager.py +0 -477
additory/core/loader.py +0 -190
additory/core/namespace_manager.py +0 -657
additory/core/parser.py +0 -176
additory/core/polars_expression_engine.py +0 -601
additory/core/registry.py +0 -177
additory/core/sample_data_manager.py +0 -492
additory/core/user_namespace.py +0 -751
additory/core/validator.py +0 -27
additory/dynamic_api.py +0 -352
additory/expressions/proxy.py +0 -549
additory/expressions/registry.py +0 -313
additory/expressions/samples.py +0 -492
additory/synthetic/__init__.py +0 -13
additory/synthetic/column_name_resolver.py +0 -149
additory/synthetic/deduce.py +0 -259
additory/synthetic/distributions.py +0 -22
additory/synthetic/forecast.py +0 -1132
additory/synthetic/linked_list_parser.py +0 -415
additory/synthetic/namespace_lookup.py +0 -129
additory/synthetic/smote.py +0 -320
additory/synthetic/strategies.py +0 -926
additory/synthetic/synthesizer.py +0 -713
additory/utilities/__init__.py +0 -53
additory/utilities/encoding.py +0 -600
additory/utilities/games.py +0 -300
additory/utilities/keys.py +0 -8
additory/utilities/lookup.py +0 -103
additory/utilities/matchers.py +0 -216
additory/utilities/resolvers.py +0 -286
additory/utilities/settings.py +0 -167
additory/utilities/units.py +0 -749
additory/utilities/validators.py +0 -153
additory-0.1.0a4.dist-info/METADATA +0 -311
additory-0.1.0a4.dist-info/RECORD +0 -72
additory-0.1.0a4.dist-info/licenses/LICENSE +0 -21
{additory-0.1.0a4.dist-info → additory-0.1.1a1.dist-info}/WHEEL +0 -0
{additory-0.1.0a4.dist-info → additory-0.1.1a1.dist-info}/top_level.txt +0 -0

additory/analysis/scan.py DELETED Viewed

@@ -1,400 +0,0 @@
-"""
-Data Profiling and Analysis
-Provides comprehensive data profiling through the scan() function.
-"""
-from dataclasses import dataclass, field
-from typing import Dict, List, Optional, Union, Any
-import json
-import polars as pl
-import pandas as pd
-import numpy as np
-from additory.common.backend import detect_backend, to_polars
-from additory.analysis.distributions import (
-    detect_distributions,
-    DistributionFit
-)
-from additory.analysis.correlations import (
-    calculate_correlations,
-    CorrelationResult
-)
-from additory.analysis.cardinality import (
-    analyze_all_cardinality,
-    CardinalityInfo
-)
-from additory.analysis.quality import (
-    analyze_all_quality,
-    QualityMetrics,
-    is_numeric_dtype
-)
-# Scan presets for common use cases
-SCAN_PRESETS = {
-    'quick': {
-        'detect_distributions_flag': False,
-        'detect_correlations_flag': False,
-        'detect_cardinality_flag': True,
-        'description': 'Quick scan: quality + cardinality only'
-    },
-    'distributions': {
-        'detect_distributions_flag': True,
-        'detect_correlations_flag': False,
-        'detect_cardinality_flag': False,
-        'description': 'Distribution-focused: detect distributions only'
-    },
-    'correlations': {
-        'detect_distributions_flag': False,
-        'detect_correlations_flag': True,
-        'detect_cardinality_flag': False,
-        'description': 'Correlation-focused: correlation analysis only'
-    },
-    'full': {
-        'detect_distributions_flag': True,
-        'detect_correlations_flag': True,
-        'detect_cardinality_flag': True,
-        'description': 'Full analysis: all features enabled'
-    },
-    'minimal': {
-        'detect_distributions_flag': False,
-        'detect_correlations_flag': False,
-        'detect_cardinality_flag': False,
-        'description': 'Minimal scan: quality metrics only'
-    }
-}
-@dataclass
-class ColumnInfo:
-    """Information about a single column"""
-    name: str
-    dtype: str
-    null_count: int
-    null_percentage: float
-    unique_count: int
-    def __repr__(self):
-        return f"ColumnInfo(name='{self.name}', dtype='{self.dtype}', nulls={self.null_percentage:.1f}%)"
-@dataclass
-class ScanResult:
-    """
-    Comprehensive scan results for a DataFrame
-    Contains all analysis results including distributions, correlations,
-    cardinality, and quality metrics.
-    """
-    # Basic info
-    shape: tuple
-    columns: List[ColumnInfo]
-    # Analysis results
-    distributions: Dict[str, List[DistributionFit]] = field(default_factory=dict)
-    correlations: List[CorrelationResult] = field(default_factory=list)
-    cardinality: Dict[str, CardinalityInfo] = field(default_factory=dict)
-    quality: Dict[str, QualityMetrics] = field(default_factory=dict)
-    # Metadata
-    preset_used: Optional[str] = None
-    analysis_enabled: Dict[str, bool] = field(default_factory=dict)
-    def summary(self) -> str:
-        """Generate a human-readable summary of the scan results"""
-        lines = []
-        lines.append(f"DataFrame Scan Results")
-        lines.append(f"Shape: {self.shape[0]:,} rows × {self.shape[1]} columns")
-        lines.append("")
-        if self.preset_used:
-            preset_desc = SCAN_PRESETS.get(self.preset_used, {}).get('description', 'Custom preset')
-            lines.append(f"Preset: {self.preset_used} ({preset_desc})")
-            lines.append("")
-        # Column overview
-        lines.append("Columns:")
-        for col in self.columns:
-            lines.append(f"  {col.name}: {col.dtype} ({col.null_percentage:.1f}% null, {col.unique_count:,} unique)")
-        lines.append("")
-        # Distributions
-        if self.distributions:
-            lines.append("Top Distributions:")
-            for col_name, fits in self.distributions.items():
-                if fits:
-                    best_fit = fits[0]
-                    lines.append(f"  {col_name}: {best_fit.distribution} (score: {best_fit.score:.3f})")
-            lines.append("")
-        # Correlations
-        if self.correlations:
-            lines.append("Strong Correlations:")
-            strong_corrs = [c for c in self.correlations if abs(c.correlation) >= 0.7]
-            for corr in strong_corrs[:5]:  # Top 5
-                lines.append(f"  {corr.column1} ↔ {corr.column2}: {corr.correlation:.3f} ({corr.method})")
-            if len(strong_corrs) > 5:
-                lines.append(f"  ... and {len(strong_corrs) - 5} more")
-            lines.append("")
-        # Cardinality insights
-        if self.cardinality:
-            high_card = [name for name, info in self.cardinality.items()
-                        if info.classification == 'high']
-            if high_card:
-                lines.append(f"High Cardinality Columns: {', '.join(high_card)}")
-                lines.append("")
-        return "\n".join(lines)
-    def to_dict(self) -> Dict[str, Any]:
-        """Convert scan results to dictionary format"""
-        return {
-            'shape': self.shape,
-            'columns': [
-                {
-                    'name': col.name,
-                    'dtype': col.dtype,
-                    'null_count': col.null_count,
-                    'null_percentage': col.null_percentage,
-                    'unique_count': col.unique_count
-                }
-                for col in self.columns
-            ],
-            'distributions': {
-                col_name: [
-                    {
-                        'distribution': fit.distribution,
-                        'score': fit.score,
-                        'parameters': fit.parameters
-                    }
-                    for fit in fits
-                ]
-                for col_name, fits in self.distributions.items()
-            },
-            'correlations': [
-                {
-                    'column1': corr.column1,
-                    'column2': corr.column2,
-                    'correlation': corr.correlation,
-                    'method': corr.method,
-                    'p_value': corr.p_value
-                }
-                for corr in self.correlations
-            ],
-            'cardinality': {
-                col_name: {
-                    'unique_count': info.unique_count,
-                    'total_count': info.total_count,
-                    'unique_ratio': info.unique_ratio,
-                    'classification': info.classification,
-                    'top_values': info.top_values
-                }
-                for col_name, info in self.cardinality.items()
-            },
-            'quality': {
-                col_name: {
-                    'missing_count': metrics.missing_count,
-                    'missing_percentage': metrics.missing_percentage,
-                    'data_type': metrics.data_type,
-                    'summary_stats': metrics.summary_stats
-                }
-                for col_name, metrics in self.quality.items()
-            },
-            'metadata': {
-                'preset_used': self.preset_used,
-                'analysis_enabled': self.analysis_enabled
-            }
-        }
-    def to_json(self, indent: int = 2) -> str:
-        """Convert scan results to JSON string"""
-        return json.dumps(self.to_dict(), indent=indent, default=str)
-def scan(
-    df: Union[pl.DataFrame, pd.DataFrame, Any],
-    preset: Optional[str] = None,
-    detect_distributions_flag: bool = True,
-    detect_correlations_flag: bool = True,
-    detect_cardinality_flag: bool = True,
-    top_n_distributions: int = 3,
-    correlation_methods: List[str] = None,
-    correlation_threshold: float = 0.3,
-    cardinality_top_n: int = 10,
-    verbose: bool = True
-) -> ScanResult:
-    """
-    Scan a DataFrame to detect distributions, correlations, and cardinality.
-    Accepts pandas, polars, or cuDF DataFrames. Automatically converts to Polars
-    for processing. Returns ScanResult with analysis results.
-    This function provides comprehensive data profiling including:
-    - Distribution detection for numeric columns
-    - Correlation analysis between columns
-    - Cardinality analysis (unique values)
-    - Data quality metrics
-    Args:
-        df: DataFrame to analyze (pandas, polars, or cuDF)
-        preset: Optional preset ('quick', 'distributions', 'correlations', 'full', 'minimal')
-        detect_distributions_flag: Whether to detect distributions (default: True)
-        detect_correlations_flag: Whether to calculate correlations (default: True)
-        detect_cardinality_flag: Whether to analyze cardinality (default: True)
-        top_n_distributions: Number of top distributions to return per column (default: 3)
-        correlation_methods: Correlation methods to use (default: ['pearson', 'spearman'])
-        correlation_threshold: Minimum correlation to report (default: 0.3)
-        cardinality_top_n: Number of top values to return per column (default: 10)
-        verbose: Whether to print progress messages (default: True)
-    Returns:
-        ScanResult object containing all analysis results
-    Presets:
-        - 'quick': Quality + cardinality only (fast)
-        - 'distributions': Distribution detection only
-        - 'correlations': Correlation analysis only
-        - 'full': All analyses enabled
-        - 'minimal': Quality metrics only (fastest)
-    Example:
-        >>> import pandas as pd
-        >>> from additory.analysis.scan import scan
-        >>>
-        >>> # Works with pandas
-        >>> df = pd.DataFrame({
-        ...     'age': [25, 30, 35, 40, 45],
-        ...     'income': [50000, 60000, 70000, 80000, 90000],
-        ...     'category': ['A', 'B', 'A', 'B', 'A']
-        ... })
-        >>>
-        >>> result = scan(df)
-        >>> print(result.summary())
-        >>>
-        >>> # Use presets
-        >>> result = scan(df, preset='quick')
-        >>> result = scan(df, preset='distributions', top_n_distributions=5)
-    """
-    # Handle preset configuration
-    if preset:
-        if preset not in SCAN_PRESETS:
-            available = ', '.join(SCAN_PRESETS.keys())
-            raise ValueError(f"Unknown preset '{preset}'. Available presets: {available}")
-        preset_config = SCAN_PRESETS[preset]
-        # Override flags with preset values (but allow explicit overrides)
-        if 'detect_distributions_flag' not in locals() or detect_distributions_flag is True:
-            detect_distributions_flag = preset_config['detect_distributions_flag']
-        if 'detect_correlations_flag' not in locals() or detect_correlations_flag is True:
-            detect_correlations_flag = preset_config['detect_correlations_flag']
-        if 'detect_cardinality_flag' not in locals() or detect_cardinality_flag is True:
-            detect_cardinality_flag = preset_config['detect_cardinality_flag']
-    # Set default correlation methods
-    if correlation_methods is None:
-        correlation_methods = ['pearson', 'spearman']
-    # Convert to Polars for processing
-    original_backend = detect_backend(df)
-    if verbose:
-        print(f"Scanning {original_backend} DataFrame with shape {df.shape}")
-    df_polars = to_polars(df)
-    # Memory cleanup: delete original if converted
-    if original_backend != 'polars':
-        del df
-        import gc
-        gc.collect()
-    # Get basic info
-    shape = df_polars.shape
-    column_names = df_polars.columns
-    # Analyze column info
-    columns = []
-    for col_name in column_names:
-        col_series = df_polars[col_name]
-        dtype = str(col_series.dtype)
-        null_count = col_series.null_count()
-        null_percentage = (null_count / shape[0]) * 100
-        unique_count = col_series.n_unique()
-        columns.append(ColumnInfo(
-            name=col_name,
-            dtype=dtype,
-            null_count=null_count,
-            null_percentage=null_percentage,
-            unique_count=unique_count
-        ))
-    # Initialize result
-    result = ScanResult(
-        shape=shape,
-        columns=columns,
-        preset_used=preset,
-        analysis_enabled={
-            'distributions': detect_distributions_flag,
-            'correlations': detect_correlations_flag,
-            'cardinality': detect_cardinality_flag
-        }
-    )
-    # Quality analysis (always performed)
-    if verbose:
-        print("Analyzing data quality...")
-    result.quality = analyze_all_quality(df_polars)
-    # Distribution analysis
-    if detect_distributions_flag:
-        if verbose:
-            print("Detecting distributions...")
-        # Get numeric columns
-        numeric_columns = [col.name for col in columns
-                          if is_numeric_dtype(df_polars[col.name].dtype)]
-        if numeric_columns:
-            result.distributions = detect_distributions(
-                df_polars,
-                columns=numeric_columns,
-                top_n=top_n_distributions
-            )
-        elif verbose:
-            print("No numeric columns found for distribution analysis")
-    # Correlation analysis
-    if detect_correlations_flag:
-        if verbose:
-            print("Calculating correlations...")
-        # Get numeric columns for correlation
-        numeric_columns = [col.name for col in columns
-                          if is_numeric_dtype(df_polars[col.name].dtype)]
-        if len(numeric_columns) >= 2:
-            result.correlations = calculate_correlations(
-                df_polars,
-                columns=numeric_columns,
-                methods=correlation_methods,
-                threshold=correlation_threshold
-            )
-        elif verbose:
-            print(f"Need at least 2 numeric columns for correlation analysis (found {len(numeric_columns)})")
-    # Cardinality analysis
-    if detect_cardinality_flag:
-        if verbose:
-            print("Analyzing cardinality...")
-        result.cardinality = analyze_all_cardinality(df_polars, top_n=cardinality_top_n)
-    if verbose:
-        print("Scan complete!")
-    # Final memory cleanup
-    del df_polars
-    import gc
-    gc.collect()
-    return result

additory 0.1.0a4__py3-none-any.whl → 0.1.1a1__py3-none-any.whl

additory 0.1.0a4py3-none-any.whl → 0.1.1a1py3-none-any.whl