PyPI - additory - Versions diffs - 0.1.0a3__py3-none-any.whl → 0.1.1a1__py3-none-any.whl - Mend

additory 0.1.0a3py3-none-any.whl → 0.1.1a1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (120) hide show

additory/__init__.py +58 -14
additory/common/__init__.py +31 -147
additory/common/column_selector.py +255 -0
additory/common/distributions.py +286 -613
additory/common/extractors.py +313 -0
additory/common/knn_imputation.py +332 -0
additory/common/result.py +380 -0
additory/common/strategy_parser.py +243 -0
additory/common/unit_conversions.py +338 -0
additory/common/validation.py +283 -103
additory/core/__init__.py +34 -22
additory/core/backend.py +258 -0
additory/core/config.py +177 -305
additory/core/logging.py +230 -24
additory/core/memory_manager.py +157 -495
additory/expressions/__init__.py +2 -23
additory/expressions/compiler.py +457 -0
additory/expressions/engine.py +264 -487
additory/expressions/integrity.py +179 -0
additory/expressions/loader.py +263 -0
additory/expressions/parser.py +363 -167
additory/expressions/resolver.py +274 -0
additory/functions/__init__.py +1 -0
additory/functions/analyze/__init__.py +144 -0
additory/functions/analyze/cardinality.py +58 -0
additory/functions/analyze/correlations.py +66 -0
additory/functions/analyze/distributions.py +53 -0
additory/functions/analyze/duplicates.py +49 -0
additory/functions/analyze/features.py +61 -0
additory/functions/analyze/imputation.py +66 -0
additory/functions/analyze/outliers.py +65 -0
additory/functions/analyze/patterns.py +65 -0
additory/functions/analyze/presets.py +72 -0
additory/functions/analyze/quality.py +59 -0
additory/functions/analyze/timeseries.py +53 -0
additory/functions/analyze/types.py +45 -0
additory/functions/expressions/__init__.py +161 -0
additory/functions/snapshot/__init__.py +82 -0
additory/functions/snapshot/filter.py +119 -0
additory/functions/synthetic/__init__.py +113 -0
additory/functions/synthetic/mode_detector.py +47 -0
additory/functions/synthetic/strategies/__init__.py +1 -0
additory/functions/synthetic/strategies/advanced.py +35 -0
additory/functions/synthetic/strategies/augmentative.py +160 -0
additory/functions/synthetic/strategies/generative.py +168 -0
additory/functions/synthetic/strategies/presets.py +116 -0
additory/functions/to/__init__.py +188 -0
additory/functions/to/lookup.py +351 -0
additory/functions/to/merge.py +189 -0
additory/functions/to/sort.py +91 -0
additory/functions/to/summarize.py +170 -0
additory/functions/transform/__init__.py +140 -0
additory/functions/transform/datetime.py +79 -0
additory/functions/transform/extract.py +85 -0
additory/functions/transform/harmonize.py +105 -0
additory/functions/transform/knn.py +62 -0
additory/functions/transform/onehotencoding.py +68 -0
additory/functions/transform/transpose.py +42 -0
additory-0.1.1a1.dist-info/METADATA +83 -0
additory-0.1.1a1.dist-info/RECORD +62 -0
additory/analysis/__init__.py +0 -48
additory/analysis/cardinality.py +0 -126
additory/analysis/correlations.py +0 -124
additory/analysis/distributions.py +0 -376
additory/analysis/quality.py +0 -158
additory/analysis/scan.py +0 -400
additory/common/backend.py +0 -371
additory/common/column_utils.py +0 -191
additory/common/exceptions.py +0 -62
additory/common/lists.py +0 -229
additory/common/patterns.py +0 -240
additory/common/resolver.py +0 -567
additory/common/sample_data.py +0 -182
additory/core/ast_builder.py +0 -165
additory/core/backends/__init__.py +0 -23
additory/core/backends/arrow_bridge.py +0 -483
additory/core/backends/cudf_bridge.py +0 -355
additory/core/column_positioning.py +0 -358
additory/core/compiler_polars.py +0 -166
additory/core/enhanced_cache_manager.py +0 -1119
additory/core/enhanced_matchers.py +0 -473
additory/core/enhanced_version_manager.py +0 -325
additory/core/executor.py +0 -59
additory/core/integrity_manager.py +0 -477
additory/core/loader.py +0 -190
additory/core/namespace_manager.py +0 -657
additory/core/parser.py +0 -176
additory/core/polars_expression_engine.py +0 -601
additory/core/registry.py +0 -176
additory/core/sample_data_manager.py +0 -492
additory/core/user_namespace.py +0 -751
additory/core/validator.py +0 -27
additory/dynamic_api.py +0 -304
additory/expressions/proxy.py +0 -549
additory/expressions/registry.py +0 -313
additory/expressions/samples.py +0 -492
additory/synthetic/__init__.py +0 -13
additory/synthetic/column_name_resolver.py +0 -149
additory/synthetic/distributions.py +0 -22
additory/synthetic/forecast.py +0 -1132
additory/synthetic/linked_list_parser.py +0 -415
additory/synthetic/namespace_lookup.py +0 -129
additory/synthetic/smote.py +0 -320
additory/synthetic/strategies.py +0 -850
additory/synthetic/synthesizer.py +0 -713
additory/utilities/__init__.py +0 -53
additory/utilities/encoding.py +0 -600
additory/utilities/games.py +0 -300
additory/utilities/keys.py +0 -8
additory/utilities/lookup.py +0 -103
additory/utilities/matchers.py +0 -216
additory/utilities/resolvers.py +0 -286
additory/utilities/settings.py +0 -167
additory/utilities/units.py +0 -749
additory/utilities/validators.py +0 -153
additory-0.1.0a3.dist-info/METADATA +0 -288
additory-0.1.0a3.dist-info/RECORD +0 -71
additory-0.1.0a3.dist-info/licenses/LICENSE +0 -21
{additory-0.1.0a3.dist-info → additory-0.1.1a1.dist-info}/WHEEL +0 -0
{additory-0.1.0a3.dist-info → additory-0.1.1a1.dist-info}/top_level.txt +0 -0

additory/synthetic/smote.py DELETED Viewed

@@ -1,320 +0,0 @@
-"""
-SMOTE (Synthetic Minority Over-sampling Technique) for Synthetic Data Generation
-Provides imbalanced data handling strategies:
-- SMOTE: Generate synthetic samples for minority class
-- Balance: Balance class distribution
-- Oversample: Simple oversampling with variation
-"""
-from typing import List, Optional, Dict, Any, Tuple
-import warnings
-import numpy as np
-from additory.common.exceptions import ValidationError, AugmentError
-def calculate_distances(point: np.ndarray, data: np.ndarray) -> np.ndarray:
-    """
-    Calculate Euclidean distances from point to all points in data.
-    Args:
-        point: Single data point (1D array)
-        data: Array of data points (2D array)
-    Returns:
-        Array of distances
-    """
-    return np.sqrt(np.sum((data - point) ** 2, axis=1))
-def find_k_nearest_neighbors(
-    point_idx: int,
-    data: np.ndarray,
-    k: int = 5
-) -> np.ndarray:
-    """
-    Find k nearest neighbors of a point.
-    Args:
-        point_idx: Index of the point
-        data: Array of all data points
-        k: Number of neighbors to find
-    Returns:
-        Array of indices of k nearest neighbors
-    """
-    point = data[point_idx]
-    distances = calculate_distances(point, data)
-    # Exclude the point itself
-    distances[point_idx] = np.inf
-    # Get k nearest
-    nearest_indices = np.argsort(distances)[:k]
-    return nearest_indices
-def generate_synthetic_sample(
-    point: np.ndarray,
-    neighbor: np.ndarray,
-    seed: Optional[int] = None
-) -> np.ndarray:
-    """
-    Generate synthetic sample between point and neighbor.
-    Uses linear interpolation with random weight.
-    Args:
-        point: Original data point
-        neighbor: Neighbor data point
-        seed: Random seed
-    Returns:
-        Synthetic sample
-    """
-    if seed is not None:
-        np.random.seed(seed)
-    # Random weight between 0 and 1
-    weight = np.random.random()
-    # Linear interpolation
-    synthetic = point + weight * (neighbor - point)
-    return synthetic
-def smote_generate(
-    data: np.ndarray,
-    n_samples: int,
-    k_neighbors: int = 5,
-    seed: Optional[int] = None
-) -> np.ndarray:
-    """
-    Generate synthetic samples using SMOTE algorithm.
-    SMOTE creates synthetic samples by:
-    1. For each sample, find k nearest neighbors
-    2. Randomly select one neighbor
-    3. Create synthetic sample along line between sample and neighbor
-    Args:
-        data: Original data (2D array: samples x features)
-        n_samples: Number of synthetic samples to generate
-        k_neighbors: Number of nearest neighbors to consider
-        seed: Random seed for reproducibility
-    Returns:
-        Array of synthetic samples
-    Raises:
-        ValidationError: If parameters invalid
-    """
-    n_original, n_features = data.shape
-    # Validate parameters
-    if n_samples <= 0:
-        raise ValidationError(f"n_samples must be positive, got {n_samples}")
-    if k_neighbors <= 0:
-        raise ValidationError(f"k_neighbors must be positive, got {k_neighbors}")
-    if k_neighbors >= n_original:
-        warnings.warn(
-            f"k_neighbors ({k_neighbors}) >= number of samples ({n_original}). "
-            f"Using k_neighbors={n_original - 1}"
-        )
-        k_neighbors = n_original - 1
-    if n_original < 2:
-        raise ValidationError(
-            f"Need at least 2 samples for SMOTE, got {n_original}"
-        )
-    # Set seed for reproducibility
-    if seed is not None:
-        np.random.seed(seed)
-    # Generate synthetic samples
-    synthetic_samples = []
-    for i in range(n_samples):
-        # Randomly select a sample
-        sample_idx = np.random.randint(0, n_original)
-        sample = data[sample_idx]
-        # Find k nearest neighbors
-        neighbor_indices = find_k_nearest_neighbors(sample_idx, data, k_neighbors)
-        # Randomly select one neighbor
-        neighbor_idx = np.random.choice(neighbor_indices)
-        neighbor = data[neighbor_idx]
-        # Generate synthetic sample
-        synthetic = generate_synthetic_sample(sample, neighbor, seed=None)
-        synthetic_samples.append(synthetic)
-    return np.array(synthetic_samples)
-def apply_smote_strategy(
-    df_polars,
-    columns: List[str],
-    n_rows: int,
-    k_neighbors: int = 5,
-    seed: Optional[int] = None
-) -> Dict[str, List[float]]:
-    """
-    Apply SMOTE to generate synthetic rows for specified columns.
-    Args:
-        df_polars: Input Polars DataFrame
-        columns: List of column names to use for SMOTE
-        n_rows: Number of synthetic rows to generate
-        k_neighbors: Number of nearest neighbors
-        seed: Random seed for reproducibility
-    Returns:
-        Dictionary mapping column names to generated values
-    Raises:
-        ValidationError: If columns invalid or insufficient data
-    """
-    # Validate columns exist
-    for col in columns:
-        if col not in df_polars.columns:
-            raise ValidationError(f"Column '{col}' not found in DataFrame")
-    # Extract data for specified columns
-    data_list = []
-    for col in columns:
-        col_data = df_polars[col].to_numpy()
-        # Check if numeric
-        if not np.issubdtype(col_data.dtype, np.number):
-            raise ValidationError(
-                f"SMOTE requires numeric columns. Column '{col}' is not numeric."
-            )
-        # Check for nulls
-        if np.any(np.isnan(col_data)):
-            raise ValidationError(
-                f"SMOTE requires non-null values. Column '{col}' contains nulls."
-            )
-        data_list.append(col_data)
-    # Stack into 2D array (samples x features)
-    data = np.column_stack(data_list)
-    # Generate synthetic samples
-    synthetic_data = smote_generate(data, n_rows, k_neighbors, seed)
-    # Split back into columns
-    result = {}
-    for i, col in enumerate(columns):
-        result[col] = synthetic_data[:, i].tolist()
-    return result
-def balance_classes(
-    df_polars,
-    class_column: str,
-    target_ratio: float = 1.0,
-    method: str = "smote",
-    k_neighbors: int = 5,
-    seed: Optional[int] = None
-) -> Tuple[int, str]:
-    """
-    Calculate how many samples needed to balance classes.
-    Args:
-        df_polars: Input Polars DataFrame
-        class_column: Column containing class labels
-        target_ratio: Target ratio of minority to majority class (default: 1.0 for perfect balance)
-        method: Balancing method ('smote' or 'oversample')
-        k_neighbors: Number of neighbors for SMOTE
-        seed: Random seed
-    Returns:
-        Tuple of (n_samples_needed, minority_class)
-    Raises:
-        ValidationError: If class column invalid
-    """
-    # Validate class column
-    if class_column not in df_polars.columns:
-        raise ValidationError(f"Class column '{class_column}' not found in DataFrame")
-    # Get class counts
-    class_counts = df_polars[class_column].value_counts()
-    if len(class_counts) < 2:
-        raise ValidationError(
-            f"Need at least 2 classes for balancing, found {len(class_counts)}"
-        )
-    # Find minority and majority classes
-    class_counts_dict = dict(zip(
-        class_counts[class_column].to_list(),
-        class_counts['counts'].to_list()
-    ))
-    minority_class = min(class_counts_dict, key=class_counts_dict.get)
-    majority_class = max(class_counts_dict, key=class_counts_dict.get)
-    minority_count = class_counts_dict[minority_class]
-    majority_count = class_counts_dict[majority_class]
-    # Calculate target count for minority class
-    target_count = int(majority_count * target_ratio)
-    # Calculate how many samples needed
-    n_samples_needed = max(0, target_count - minority_count)
-    return n_samples_needed, minority_class
-def generate_smote_values(
-    df_polars,
-    columns: List[str],
-    n_rows: int,
-    k_neighbors: int = 5,
-    seed: Optional[int] = None,
-    **params
-) -> Dict[str, List[Any]]:
-    """
-    Main SMOTE generation function.
-    Args:
-        df_polars: Input Polars DataFrame
-        columns: Columns to use for SMOTE (numeric only)
-        n_rows: Number of synthetic rows to generate
-        k_neighbors: Number of nearest neighbors (default: 5)
-        seed: Random seed for reproducibility
-        **params: Additional parameters (reserved for future use)
-    Returns:
-        Dictionary mapping column names to generated values
-    Raises:
-        ValidationError: If parameters invalid
-        AugmentError: If generation fails
-    """
-    try:
-        return apply_smote_strategy(
-            df_polars,
-            columns,
-            n_rows,
-            k_neighbors,
-            seed
-        )
-    except Exception as e:
-        if isinstance(e, (ValidationError, AugmentError)):
-            raise
-        raise AugmentError(f"SMOTE generation failed: {e}")

additory 0.1.0a3__py3-none-any.whl → 0.1.1a1__py3-none-any.whl

additory 0.1.0a3py3-none-any.whl → 0.1.1a1py3-none-any.whl