PyPI - additory - Versions diffs - 0.1.0a4__py3-none-any.whl → 0.1.1a1__py3-none-any.whl - Mend

additory 0.1.0a4py3-none-any.whl → 0.1.1a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (121) hide show

additory/__init__.py +58 -14
additory/common/__init__.py +31 -147
additory/common/column_selector.py +255 -0
additory/common/distributions.py +286 -613
additory/common/extractors.py +313 -0
additory/common/knn_imputation.py +332 -0
additory/common/result.py +380 -0
additory/common/strategy_parser.py +243 -0
additory/common/unit_conversions.py +338 -0
additory/common/validation.py +283 -103
additory/core/__init__.py +34 -22
additory/core/backend.py +258 -0
additory/core/config.py +177 -305
additory/core/logging.py +230 -24
additory/core/memory_manager.py +157 -495
additory/expressions/__init__.py +2 -23
additory/expressions/compiler.py +457 -0
additory/expressions/engine.py +264 -487
additory/expressions/integrity.py +179 -0
additory/expressions/loader.py +263 -0
additory/expressions/parser.py +363 -167
additory/expressions/resolver.py +274 -0
additory/functions/__init__.py +1 -0
additory/functions/analyze/__init__.py +144 -0
additory/functions/analyze/cardinality.py +58 -0
additory/functions/analyze/correlations.py +66 -0
additory/functions/analyze/distributions.py +53 -0
additory/functions/analyze/duplicates.py +49 -0
additory/functions/analyze/features.py +61 -0
additory/functions/analyze/imputation.py +66 -0
additory/functions/analyze/outliers.py +65 -0
additory/functions/analyze/patterns.py +65 -0
additory/functions/analyze/presets.py +72 -0
additory/functions/analyze/quality.py +59 -0
additory/functions/analyze/timeseries.py +53 -0
additory/functions/analyze/types.py +45 -0
additory/functions/expressions/__init__.py +161 -0
additory/functions/snapshot/__init__.py +82 -0
additory/functions/snapshot/filter.py +119 -0
additory/functions/synthetic/__init__.py +113 -0
additory/functions/synthetic/mode_detector.py +47 -0
additory/functions/synthetic/strategies/__init__.py +1 -0
additory/functions/synthetic/strategies/advanced.py +35 -0
additory/functions/synthetic/strategies/augmentative.py +160 -0
additory/functions/synthetic/strategies/generative.py +168 -0
additory/functions/synthetic/strategies/presets.py +116 -0
additory/functions/to/__init__.py +188 -0
additory/functions/to/lookup.py +351 -0
additory/functions/to/merge.py +189 -0
additory/functions/to/sort.py +91 -0
additory/functions/to/summarize.py +170 -0
additory/functions/transform/__init__.py +140 -0
additory/functions/transform/datetime.py +79 -0
additory/functions/transform/extract.py +85 -0
additory/functions/transform/harmonize.py +105 -0
additory/functions/transform/knn.py +62 -0
additory/functions/transform/onehotencoding.py +68 -0
additory/functions/transform/transpose.py +42 -0
additory-0.1.1a1.dist-info/METADATA +83 -0
additory-0.1.1a1.dist-info/RECORD +62 -0
additory/analysis/__init__.py +0 -48
additory/analysis/cardinality.py +0 -126
additory/analysis/correlations.py +0 -124
additory/analysis/distributions.py +0 -376
additory/analysis/quality.py +0 -158
additory/analysis/scan.py +0 -400
additory/common/backend.py +0 -371
additory/common/column_utils.py +0 -191
additory/common/exceptions.py +0 -62
additory/common/lists.py +0 -229
additory/common/patterns.py +0 -240
additory/common/resolver.py +0 -567
additory/common/sample_data.py +0 -182
additory/core/ast_builder.py +0 -165
additory/core/backends/__init__.py +0 -23
additory/core/backends/arrow_bridge.py +0 -483
additory/core/backends/cudf_bridge.py +0 -355
additory/core/column_positioning.py +0 -358
additory/core/compiler_polars.py +0 -166
additory/core/enhanced_cache_manager.py +0 -1119
additory/core/enhanced_matchers.py +0 -473
additory/core/enhanced_version_manager.py +0 -325
additory/core/executor.py +0 -59
additory/core/integrity_manager.py +0 -477
additory/core/loader.py +0 -190
additory/core/namespace_manager.py +0 -657
additory/core/parser.py +0 -176
additory/core/polars_expression_engine.py +0 -601
additory/core/registry.py +0 -177
additory/core/sample_data_manager.py +0 -492
additory/core/user_namespace.py +0 -751
additory/core/validator.py +0 -27
additory/dynamic_api.py +0 -352
additory/expressions/proxy.py +0 -549
additory/expressions/registry.py +0 -313
additory/expressions/samples.py +0 -492
additory/synthetic/__init__.py +0 -13
additory/synthetic/column_name_resolver.py +0 -149
additory/synthetic/deduce.py +0 -259
additory/synthetic/distributions.py +0 -22
additory/synthetic/forecast.py +0 -1132
additory/synthetic/linked_list_parser.py +0 -415
additory/synthetic/namespace_lookup.py +0 -129
additory/synthetic/smote.py +0 -320
additory/synthetic/strategies.py +0 -926
additory/synthetic/synthesizer.py +0 -713
additory/utilities/__init__.py +0 -53
additory/utilities/encoding.py +0 -600
additory/utilities/games.py +0 -300
additory/utilities/keys.py +0 -8
additory/utilities/lookup.py +0 -103
additory/utilities/matchers.py +0 -216
additory/utilities/resolvers.py +0 -286
additory/utilities/settings.py +0 -167
additory/utilities/units.py +0 -749
additory/utilities/validators.py +0 -153
additory-0.1.0a4.dist-info/METADATA +0 -311
additory-0.1.0a4.dist-info/RECORD +0 -72
additory-0.1.0a4.dist-info/licenses/LICENSE +0 -21
{additory-0.1.0a4.dist-info → additory-0.1.1a1.dist-info}/WHEEL +0 -0
{additory-0.1.0a4.dist-info → additory-0.1.1a1.dist-info}/top_level.txt +0 -0

additory/__init__.py CHANGED Viewed

@@ -1,19 +1,63 @@
-# additory/__init__.py
+"""
+Additory v0.1.1 - Data Augmentation Library
-from .dynamic_api import add as _api_instance
+A Polars-first data augmentation library with 5 main functions:
+- to: Add columns from other DataFrames
+- transform: Transform columns (transpose, encode, extract, etc.)
+- snapshot: Filter and select data
+- synthetic: Generate synthetic data
+- analyze: Analyze data quality and patterns
+- expressions: Evaluate expressions and add computed columns
-# Version information
-__version__ = "0.1.0a4"
+Usage:
+    import additory
+    # Add columns
+    result = additory.add.to(df, reference_df, on='id', bring='price')
+    # Transform columns
+    result = additory.add.transform(df, mode='onehotencoding', columns=['category'])
+    # Filter data
+    result = additory.add.snapshot(df, where='age > 18')
+    # Generate synthetic data
+    result = additory.add.synthetic(df, rows=1000)
+    # Analyze data
+    result = additory.add.analyze(df, preset='quick')
+    # Evaluate expressions
+    result = additory.add.expressions(df, 'inbuilt:bmi', 'age * 12')
+"""
-# Expose the API instance normally
-add = _api_instance
+from types import SimpleNamespace
-# Module-level __getattr__ to forward dynamic attributes
-def __getattr__(name):
-    # Delegate all unknown attributes to the API instance
-    return getattr(_api_instance, name)
+# Import main functions
+from additory.functions.to import to
+from additory.functions.transform import transform
+from additory.functions.snapshot import snapshot
+from additory.functions.synthetic import synthetic
+from additory.functions.analyze import analyze
+from additory.functions.expressions import expressions
-__all__ = [
-    "add",
-    "__version__",
-]
+# Import configuration functions
+from additory.core.config import set_expressions_folder, set_default_backend
+# Create simple API namespace
+add = SimpleNamespace(
+    to=to,
+    transform=transform,
+    snapshot=snapshot,
+    synthetic=synthetic,
+    analyze=analyze,
+    expressions=expressions,
+    set_expressions_folder=set_expressions_folder,
+    set_default_backend=set_default_backend
+)
+# Version
+__version__ = "0.1.1a1"
+# Public API
+__all__ = ['add', '__version__']

additory/common/__init__.py CHANGED Viewed

@@ -1,157 +1,41 @@
 """
-Common Utilities Module
-Shared functionality used by both synthetic and expressions modules:
-- Distribution functions (normal, uniform, skewed, etc.)
-- List file management (.list format)
-- Pattern file management (.properties format)
-- Fallback resolution logic
-This module eliminates code duplication and provides consistent behavior
-across synthetic and expression data generation.
+Common utilities for Additory.
+This module provides shared utilities used across all functions:
+- validation: Input validation
+- strategy_parser: Strategy parsing
+- column_selector: Column selection
+- result: Result wrappers
+- extractors: Feature extractors
+- unit_conversions: Unit conversion utilities
+- knn_imputation: KNN imputation
+- distributions: Distribution generation
 """
-from .distributions import (
-    generate_normal,
-    generate_uniform,
-    generate_skewed,
-    generate_beta,
-    generate_gamma,
-    generate_exponential_dist,
-    generate_kde,
-    generate_multivariate_normal,
-    generate_distribution_values,
-    estimate_distribution_params,
-    calculate_skewness,
-    detect_distribution_type,
-    DistributionType,
-)
-from .lists import (
-    load_list_file,
-    parse_list_file,
-    get_list_values,
-    list_all_lists,
-)
-from .patterns import (
-    load_properties_file,
-    parse_properties_file,
-    get_pattern,
-    list_all_patterns,
-)
-from .resolver import (
-    resolve_pattern,
-    resolve_with_logging,
-    PatternResolutionResult,
-    PreferMode,
-)
-from .backend import (
-    detect_backend,
-    is_dataframe,
-    to_polars,
-    from_polars,
-    BackendType,
-)
 from .validation import (
     validate_dataframe,
-    validate_columns_exist,
-    validate_positive_number,
-    validate_non_negative_number,
-    validate_parameter_choice,
-    validate_ratio,
-    validate_string_not_empty,
-    validate_integer_in_range,
-    ValidationError,
-)
-from .exceptions import (
-    AdditoryError,
-    ValidationError,
-    BackendError,
-    ConversionError,
-    ExpressionError,
-    ConfigurationError,
-    UnitConversionError,
-    EncodingError,
-    LookupError,
-    SyntheticDataError,
-    AugmentError,
-)
-from .column_utils import (
-    sanitize_column_name,
-    generate_safe_column_name,
+    validate_not_empty,
     validate_column_name,
-    truncate_column_name,
-    generate_column_names_with_prefix_suffix,
+    validate_positive_integer,
+    validate_percentage,
+    validate_mode,
+    validate_dict,
+    validate_list,
+    validate_string,
+    validate_boolean,
+    validate_optional
 )
 __all__ = [
-    # Distribution functions
-    "generate_normal",
-    "generate_uniform",
-    "generate_skewed",
-    "generate_beta",
-    "generate_gamma",
-    "generate_exponential_dist",
-    "generate_kde",
-    "generate_multivariate_normal",
-    "generate_distribution_values",
-    "estimate_distribution_params",
-    "calculate_skewness",
-    "detect_distribution_type",
-    "DistributionType",
-    # List management
-    "load_list_file",
-    "parse_list_file",
-    "get_list_values",
-    "list_all_lists",
-    # Pattern management
-    "load_properties_file",
-    "parse_properties_file",
-    "get_pattern",
-    "list_all_patterns",
-    # Resolution
-    "resolve_pattern",
-    "resolve_with_logging",
-    "PatternResolutionResult",
-    "PreferMode",
-    # Backend detection
-    "detect_backend",
-    "is_dataframe",
-    "to_polars",
-    "from_polars",
-    "BackendType",
-    # Validation
-    "validate_dataframe",
-    "validate_columns_exist",
-    "validate_positive_number",
-    "validate_non_negative_number",
-    "validate_parameter_choice",
-    "validate_ratio",
-    "validate_string_not_empty",
-    "validate_integer_in_range",
-    "ValidationError",
-    # Exceptions
-    "AdditoryError",
-    "ValidationError",
-    "BackendError",
-    "ConversionError",
-    "ExpressionError",
-    "ConfigurationError",
-    "UnitConversionError",
-    "EncodingError",
-    "LookupError",
-    "SyntheticDataError",
-    "AugmentError",
-    # Column utilities
-    "sanitize_column_name",
-    "generate_safe_column_name",
-    "validate_column_name",
-    "truncate_column_name",
-    "generate_column_names_with_prefix_suffix",
+    'validate_dataframe',
+    'validate_not_empty',
+    'validate_column_name',
+    'validate_positive_integer',
+    'validate_percentage',
+    'validate_mode',
+    'validate_dict',
+    'validate_list',
+    'validate_string',
+    'validate_boolean',
+    'validate_optional'
 ]

additory/common/column_selector.py ADDED Viewed

@@ -0,0 +1,255 @@
+"""
+Column selection and validation utilities for Additory.
+Provides pattern matching and type-based column selection.
+"""
+import re
+from typing import Any, List, Optional, Union
+import polars as pl
+def select_columns(df: pl.DataFrame, columns: Union[str, List[str], None]) -> List[str]:
+    """
+    Select columns from DataFrame with pattern matching support.
+    Args:
+        df: DataFrame to select columns from
+        columns: Column specification (None='*', str pattern, or list)
+    Returns:
+        List of selected column names
+    Raises:
+        ValueError: If no columns match the pattern
+    Example:
+        # Select all columns
+        cols = select_columns(df, '*')
+        # Select by pattern
+        cols = select_columns(df, 'age_*')
+        # Select specific columns
+        cols = select_columns(df, ['name', 'email', 'age'])
+    """
+    # None means all columns
+    if columns is None:
+        return df.columns
+    # String pattern
+    if isinstance(columns, str):
+        # '*' means all columns
+        if columns == '*':
+            return df.columns
+        # Check if it's a pattern or exact match
+        if '*' in columns:
+            # Pattern matching
+            matched = []
+            for col in df.columns:
+                if match_pattern(col, columns):
+                    matched.append(col)
+            if not matched:
+                raise ValueError(f"No columns match pattern '{columns}'")
+            return matched
+        else:
+            # Exact match
+            if columns not in df.columns:
+                raise ValueError(f"Column '{columns}' not found in DataFrame")
+            return [columns]
+    # List of columns
+    if isinstance(columns, list):
+        # Expand any patterns in the list
+        expanded = expand_column_patterns(df, columns)
+        # Validate all columns exist
+        validate_columns_exist(df, expanded)
+        return expanded
+    raise TypeError(
+        f"columns must be None, str, or list, got {type(columns).__name__}"
+    )
+def match_pattern(column_name: str, pattern: str) -> bool:
+    """
+    Check if column name matches pattern.
+    Args:
+        column_name: Column name to check
+        pattern: Pattern to match ('*', 'prefix_*', '*_suffix', 'exact')
+    Returns:
+        True if matches, False otherwise
+    Example:
+        match_pattern('age_years', 'age_*')  # True
+        match_pattern('total_age', '*_age')  # True
+        match_pattern('age', 'age')          # True
+    """
+    # Exact match
+    if pattern == column_name:
+        return True
+    # Wildcard match all
+    if pattern == '*':
+        return True
+    # Convert pattern to regex
+    # Escape special regex characters except *
+    regex_pattern = re.escape(pattern).replace(r'\*', '.*')
+    # Anchor to start and end
+    regex_pattern = f'^{regex_pattern}$'
+    return bool(re.match(regex_pattern, column_name))
+def validate_columns_exist(df: pl.DataFrame, columns: List[str]) -> bool:
+    """
+    Validate that all columns exist in DataFrame.
+    Args:
+        df: DataFrame to check
+        columns: List of column names to validate
+    Returns:
+        True if all exist
+    Raises:
+        ValueError: If any columns are missing
+    Example:
+        validate_columns_exist(df, ['name', 'age', 'email'])
+    """
+    missing = []
+    for col in columns:
+        if col not in df.columns:
+            missing.append(col)
+    if missing:
+        if len(missing) == 1:
+            raise ValueError(f"Column '{missing[0]}' not found in DataFrame")
+        else:
+            raise ValueError(
+                f"Columns {missing} not found in DataFrame. "
+                f"Available columns: {df.columns}"
+            )
+    return True
+def expand_column_patterns(df: pl.DataFrame, patterns: List[str]) -> List[str]:
+    """
+    Expand column patterns to actual column names.
+    Args:
+        df: DataFrame to expand patterns from
+        patterns: List of patterns to expand
+    Returns:
+        List of expanded column names (no duplicates)
+    Example:
+        # Input: ['age_*', 'total_*']
+        # Output: ['age_years', 'age_months', 'total_sales', 'total_orders']
+        cols = expand_column_patterns(df, ['age_*', 'total_*'])
+    """
+    expanded = []
+    seen = set()
+    for pattern in patterns:
+        # If pattern contains wildcard, expand it
+        if '*' in pattern:
+            matched = False
+            for col in df.columns:
+                if match_pattern(col, pattern):
+                    if col not in seen:
+                        expanded.append(col)
+                        seen.add(col)
+                    matched = True
+            if not matched:
+                raise ValueError(f"No columns match pattern '{pattern}'")
+        else:
+            # Exact column name
+            if pattern not in seen:
+                expanded.append(pattern)
+                seen.add(pattern)
+    return expanded
+def get_column_type(df: pl.DataFrame, column: str) -> str:
+    """
+    Get the data type of a column.
+    Args:
+        df: DataFrame containing the column
+        column: Column name
+    Returns:
+        Type string ('numeric', 'string', 'datetime', 'boolean', 'other')
+    Raises:
+        ValueError: If column doesn't exist
+    """
+    if column not in df.columns:
+        raise ValueError(f"Column '{column}' not found in DataFrame")
+    dtype = df[column].dtype
+    # Numeric types
+    if dtype in [pl.Int8, pl.Int16, pl.Int32, pl.Int64,
+                 pl.UInt8, pl.UInt16, pl.UInt32, pl.UInt64,
+                 pl.Float32, pl.Float64]:
+        return 'numeric'
+    # String types
+    if dtype in [pl.Utf8, pl.Categorical]:
+        return 'string'
+    # Datetime types
+    if dtype in [pl.Date, pl.Time, pl.Duration]:
+        return 'datetime'
+    # Check for Datetime with timezone info
+    if isinstance(dtype, pl.Datetime):
+        return 'datetime'
+    # Boolean type
+    if dtype == pl.Boolean:
+        return 'boolean'
+    # Other types
+    return 'other'
+def filter_columns_by_type(df: pl.DataFrame, columns: List[str], dtype: str) -> List[str]:
+    """
+    Filter columns by data type.
+    Args:
+        df: DataFrame to filter columns from
+        columns: List of columns to filter
+        dtype: Type to filter by ('numeric', 'string', 'datetime', 'boolean')
+    Returns:
+        List of columns matching the type
+    Example:
+        numeric_cols = filter_columns_by_type(df, all_cols, 'numeric')
+    """
+    filtered = []
+    for col in columns:
+        col_type = get_column_type(df, col)
+        if col_type == dtype:
+            filtered.append(col)
+    return filtered

additory 0.1.0a4__py3-none-any.whl → 0.1.1a1__py3-none-any.whl

additory 0.1.0a4py3-none-any.whl → 0.1.1a1py3-none-any.whl