PyPI - statslibx - Versions diffs - 0.1.7__tar.gz → 0.2.0__tar.gz - Mend

statslibx 0.1.7tar.gz → 0.2.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (27) hide show

statslibx-0.2.0/MANIFEST.in ADDED Viewed

	@@ -0,0 +1 @@
1	+ recursive-include statslibx/datasets *.csv

{statslibx-0.1.7 → statslibx-0.2.0}/PKG-INFO RENAMED Viewed

@@ -1,7 +1,7 @@
 Metadata-Version: 2.4
 Name: statslibx
-Version: 0.1.7
-Summary: StatsLibx - Librería de estadística descriptiva e inferencial
+Version: 0.2.0
+Summary: StatsLibx - Librería de estadística descriptiva, inferencial y computacional
 Author-email: Emmanuel Ascendra Perez <ascendraemmanuel@gmail.com>
 License: MIT
 Classifier: Development Status :: 3 - Alpha
@@ -24,11 +24,13 @@ Provides-Extra: advanced
 Requires-Dist: scikit-learn>=1.0; extra == "advanced"
 Requires-Dist: statsmodels>=0.13; extra == "advanced"
-# 📦 Descripción para PyPI (Plantilla Profesional)
+# 📦 StatsLibX
 StatsLibX es un paquete de Python diseñado para proporcionar una solución sencilla, eficiente y flexible para manejar volumenes de datos.
-Este proyecto surge con la idea de ofrecer una alternativa moderna, intuitiva y ligera que permita a desarrolladores y entusiastas integrar la **estadistica descriptiva e inferencial** sin complicaciones, con multiples funcionalidades y utilidades pensadas para el futuro.
+Este proyecto surge con la idea de ofrecer una alternativa moderna, intuitiva y ligera que permita a desarrolladores y entusiastas integrar la **estadistica descriptiva, inferencial y computacional (En desarrollo)** sin complicaciones, con multiples funcionalidades y utilidades pensadas para el futuro.
+GitHub del Proyecto: [https://github.com/GhostAnalyst30/StatsLibX](https://github.com/GhostAnalyst30/StatsLibX)
 ## ✨ Características principales
@@ -45,16 +47,28 @@ Este proyecto surge con la idea de ofrecer una alternativa moderna, intuitiva y
 ## 🚀 Ejemplo rápido
 ```python
 from statslibx import DescriptiveStats, InferentialStats, UtilsStats
+from statslibx.datasets import load_iris()
+data = load_iris()
 stats = DescriptiveStats(data) # InferentialStats(data), UtilsStats()
-stats.help()
+stats.summary()
 ```
+Para ver mas funciones: [https://github.com/GhostAnalyst30/StatsLibX/blob/main/how_use_statslibx.ipynb](https://github.com/GhostAnalyst30/StatsLibX/blob/main/how_use_statslibx.ipynb)
 ##  📦 Instalación
 ```bash
 pip install statslibx
 ```
+## 👩‍💻 ¡Usalo en la terminal! (De forma preliminar)
+```bash
+statslibx describe .\archive.csv # Devuelve una descripcion de la data
+statslibx quality .\archive.csv # Devuelve la calidad de los datos
+statslibx preview .\archive.csv # Devuelve una visualizacion de los datos
+```
 🤝 Contribuciones
 ¡Todas las mejoras e ideas son bienvenidas!

{statslibx-0.1.7 → statslibx-0.2.0}/README.md RENAMED Viewed

@@ -1,8 +1,10 @@
-# 📦 Descripción para PyPI (Plantilla Profesional)
+# 📦 StatsLibX
 StatsLibX es un paquete de Python diseñado para proporcionar una solución sencilla, eficiente y flexible para manejar volumenes de datos.
-Este proyecto surge con la idea de ofrecer una alternativa moderna, intuitiva y ligera que permita a desarrolladores y entusiastas integrar la **estadistica descriptiva e inferencial** sin complicaciones, con multiples funcionalidades y utilidades pensadas para el futuro.
+Este proyecto surge con la idea de ofrecer una alternativa moderna, intuitiva y ligera que permita a desarrolladores y entusiastas integrar la **estadistica descriptiva, inferencial y computacional (En desarrollo)** sin complicaciones, con multiples funcionalidades y utilidades pensadas para el futuro.
+GitHub del Proyecto: [https://github.com/GhostAnalyst30/StatsLibX](https://github.com/GhostAnalyst30/StatsLibX)
 ## ✨ Características principales
@@ -19,16 +21,28 @@ Este proyecto surge con la idea de ofrecer una alternativa moderna, intuitiva y
 ## 🚀 Ejemplo rápido
 ```python
 from statslibx import DescriptiveStats, InferentialStats, UtilsStats
+from statslibx.datasets import load_iris()
+data = load_iris()
 stats = DescriptiveStats(data) # InferentialStats(data), UtilsStats()
-stats.help()
+stats.summary()
 ```
+Para ver mas funciones: [https://github.com/GhostAnalyst30/StatsLibX/blob/main/how_use_statslibx.ipynb](https://github.com/GhostAnalyst30/StatsLibX/blob/main/how_use_statslibx.ipynb)
 ##  📦 Instalación
 ```bash
 pip install statslibx
 ```
+## 👩‍💻 ¡Usalo en la terminal! (De forma preliminar)
+```bash
+statslibx describe .\archive.csv # Devuelve una descripcion de la data
+statslibx quality .\archive.csv # Devuelve la calidad de los datos
+statslibx preview .\archive.csv # Devuelve una visualizacion de los datos
+```
 🤝 Contribuciones
 ¡Todas las mejoras e ideas son bienvenidas!

{statslibx-0.1.7 → statslibx-0.2.0}/pyproject.toml RENAMED Viewed

@@ -4,8 +4,8 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "statslibx"
-version = "0.1.7"
-description = "StatsLibx - Librería de estadística descriptiva e inferencial"
+version = "0.2.0"
+description = "StatsLibx - Librería de estadística descriptiva, inferencial y computacional"
 readme = "README.md"
 requires-python = ">=3.8"
 license = { text = "MIT" }
@@ -38,5 +38,8 @@ advanced = ["scikit-learn>=1.0", "statsmodels>=0.13"]
 [project.scripts]
 statslibx = "statslibx.cli:main"
+[tool.setuptools]
+include-package-data = true
 [tool.setuptools.packages.find]
 where = ["."]

{statslibx-0.1.7 → statslibx-0.2.0}/statslibx/__init__.py RENAMED Viewed

@@ -1,30 +1,31 @@
 """
 StatsLibx - Librería de Estadística para Python
 Autor: Emmanuel Ascendra
-Versión: 0.1.6
+Versión: 0.2.0
 """
-__version__ = "0.1.6"
+__version__ = "0.2.0"
 __author__ = "Emmanuel Ascendra"
 # Importar las clases principales
 from .descriptive import DescriptiveStats, DescriptiveSummary
 from .inferential import InferentialStats, TestResult
+from .computacional import ComputationalStats
 from .utils import UtilsStats
 from .preprocessing import Preprocessing
-from .datasets import load_dataset
+from .datasets import load_dataset, generate_dataset
 # Definir qué se expone cuando se hace: from statslib import *
 __all__ = [
     # Clases principales
     'DescriptiveStats',
-    'InferentialStats',
-    'LinearRegressionResult',
-    'DescriptiveSummary',
-    'TestResult',
+    'InferentialStats',
+    'ProbabilityStats',
+    'ComputationalStats',
     'UtilsStats',
     'Preprocessing',
-    'load_dataset'
+    'load_dataset',
+    'generate_dataset'
 ]
 # Mensaje de bienvenida (opcional)
@@ -36,6 +37,9 @@ def welcome():
     print(f"\nClases disponibles:")
     print(f"  - DescriptiveStats: Estadística descriptiva")
     print(f"  - InferentialStats: Estadística inferencial")
+    print(f"  - ComputacionalStats: En desarrollo")
     print(f"  - UtilsStats: Utilidades Extras")
+    print(f"\nMódulos disponibles:")
+    print(f"  - Datasets: Carga de Datasets")
     print(f"  - Preprocessing: Preprocesamiento de datos")
     print(f"\nPara más información: help(statslibx)")

statslibx-0.2.0/statslibx/computacional.py ADDED Viewed

@@ -0,0 +1,126 @@
+from typing import Union, Optional, Literal
+import numpy as np
+import pandas as pd
+import polars as pl
+import os
+class ComputationalStats:
+    """
+    Class for computational statistics
+    """
+    def __init__(self, data: Union[pd.DataFrame, np.ndarray],
+                sep: str = None,
+                decimal: str = None,
+                thousand: str = None,
+                backend: Literal['pandas', 'polars'] = 'pandas'):
+        """
+        # Initialize DataFrame
+        ## **Parameters:**
+        - **data** : Data to analyze
+        - **sep** : Column separator
+        - **decimal** : Decimal separator
+        - **thousand** : Thousand separator
+        - **backend** : 'pandas' or 'polars' for processing
+        (Proximamente estara habilitado polars para big data)
+        **Examples:**
+        ``Example 1:
+        stats = DescriptiveStats(data)
+        ``
+        """
+        if isinstance(data, str) and os.path.exists(data):
+                data = ComputationalStats.from_file(data).data
+        if isinstance(data, pl.DataFrame):
+            raise TypeError(
+                "Polars aún no soportado. Use pandas.DataFrame."
+            )
+        if isinstance(data, np.ndarray):
+            if data.ndim == 1:
+                data = pd.DataFrame({'var': data})
+            else:
+                data = pd.DataFrame(data, columns=[f'var_{i}' for i in range(data.shape[1])]) \
+                    if isinstance(data, pd.DataFrame) else pl.DataFrame(data, )
+        self.data = data
+        self.backend = backend
+        self._numeric_cols = data.select_dtypes(include=[np.number]).columns.tolist()
+        self.sep = sep
+        self.decimal = decimal
+        self.thousand = thousand
+    @classmethod
+    def from_file(self, path: str):
+        """
+        Carga automática de archivos y devuelve instancia de Intelligence.
+        Soporta CSV, Excel, TXT, JSON, Parquet, Feather, TSV.
+        Automatic file upload and returns Intelligence instance.
+        Supports CSV, Excel, TXT, JSON, Parquet, Feather, TSV.
+        Parametros / Parameters:
+        ------------------------
+        path : str
+            Ruta del archivo
+            File path
+        """
+        if not os.path.exists(path):
+            raise FileNotFoundError(f"Archivo no encontrado / File not found: {path}")
+        ext = os.path.splitext(path)[1].lower()
+        if ext == ".csv":
+            df = pd.read_csv(path, sep=self.sep, decimal=self.decimal, thousand=self.thousand)
+        elif ext in [".xlsx", ".xls"]:
+            df = pd.read_excel(path, decimal=self.decimal, thousand=self.thousand)
+        elif ext in [".txt", ".tsv"]:
+            df = pd.read_table(path, sep=self.sep, decimal=self.decimal, thousand=self.thousand)
+        elif ext == ".json":
+            df = pd.read_json(path)
+        elif ext == ".parquet":
+            df = pd.read_parquet(path)
+        elif ext == ".feather":
+            df = pd.read_feather(path)
+        else:
+            raise ValueError(f"Formato no soportado / Unsupported format: {ext}")
+        return ComputationalStats(df)
+    def monte_carlo(self, function, n: int = 100, return_simulations: bool = False, **kwargs) -> pd.DataFrame:
+        """
+        Realiza simulaciones de Monte Carlo para una función y devuelve un DataFrame con las simulaciones y sus resultados.
+        """
+        samples = []
+        for _ in range(n):
+            sample = function(**kwargs)
+            samples.append(float(sample))
+        mean = sum(samples) / n
+        variance = sum((x - mean)**2 for x in samples) / n
+        std = variance**0.5
+        if return_simulations:
+            return {
+                "mean": float(mean),
+                "std": float(std),
+                "samples": samples
+            }
+        else:
+            return {
+                "mean": float(mean),
+                "std": float(std)
+            }

statslibx-0.2.0/statslibx/datasets/__init__.py ADDED Viewed

@@ -0,0 +1,260 @@
+from typing import Optional, Union, Literal, List, Tuple
+import io
+import pkgutil
+import pandas as pd
+import polars as pl
+import numpy as np
+from numpy.typing import NDArray
+_SUPPORTED_BACKENDS = ("pandas", "polars")
+def _validate_columns(
+    df: Union[pd.DataFrame, pl.DataFrame],
+    X_columns: List[str],
+    y_column: str
+) -> None:
+    columns = set(df.columns)
+    missing = set(X_columns + [y_column]) - columns
+    if missing:
+        raise ValueError(f"Columnas no encontradas en el dataset: {missing}")
+def _X_y(
+    df: Union[pd.DataFrame, pl.DataFrame],
+    X_columns: List[str],
+    y_column: str
+) -> Tuple[NDArray, NDArray]:
+    """
+    Extrae X e y como arrays numpy desde pandas o polars.
+    """
+    _validate_columns(df, X_columns, y_column)
+    if isinstance(df, pd.DataFrame):
+        X = df[X_columns].to_numpy()
+        y = df[y_column].to_numpy().ravel()
+        return X, y
+    elif isinstance(df, pl.DataFrame):
+        X = df.select(X_columns).to_numpy()
+        y = df.select(y_column).to_numpy().ravel()
+        return X, y
+    else:
+        raise TypeError(
+            "Backend no soportado. Use pandas.DataFrame o polars.DataFrame."
+        )
+import io
+import pkgutil
+import pandas as pd
+import polars as pl
+from typing import Literal, Optional, Tuple, List, Union
+from numpy.typing import NDArray
+_SUPPORTED_BACKENDS = {"pandas", "polars"}
+def load_dataset(
+    name: str,
+    backend: Literal["pandas", "polars"] = "pandas",
+    return_X_y: Optional[Tuple[List[str], str]] = None,
+    save: Optional[bool] = False,
+    filename: Optional[str] = None
+) -> Union[pd.DataFrame, pl.DataFrame, Tuple[NDArray, NDArray]]:
+    """
+    Carga un dataset interno del paquete.
+    Datasets disponibles:
+    - iris.csv
+    - penguins.csv
+    - sp500_companies.csv
+    - titanic.csv
+    - course_completion.csv
+    Parámetros
+    ----------
+    name : str
+        Nombre del archivo CSV.
+    backend : {'pandas', 'polars'}, default='pandas'
+        Backend de DataFrame a utilizar.
+    return_X_y : tuple[list[str], str], optional
+        Si se especifica, devuelve (X, y) como arrays numpy,
+    Retorna
+    -------
+    DataFrame o (X, y)
+    """
+    if backend not in _SUPPORTED_BACKENDS:
+        raise ValueError(
+            f"Backend '{backend}' no soportado. "
+            f"Use uno de {_SUPPORTED_BACKENDS}."
+        )
+    df = None
+    # ---------- 1️⃣ Intentar cargar desde el paquete ----------
+    try:
+        data_bytes = pkgutil.get_data("statslibx.datasets", name)
+        if data_bytes is not None:
+            df = (
+                pd.read_csv(io.BytesIO(data_bytes))
+                if backend == "pandas"
+                else pl.read_csv(io.BytesIO(data_bytes))
+            )
+    except FileNotFoundError:
+        pass  # seguimos al siguiente intento
+    # ---------- 2️⃣ Intentar cargar desde ruta local ----------
+    if df is None:
+        try:
+            df = (
+                pd.read_csv(name)
+                if backend == "pandas"
+                else pl.read_csv(name)
+            )
+        except FileNotFoundError:
+            raise FileNotFoundError(
+                f"Dataset '{name}' no encontrado "
+                f"ni en statslibx.datasets ni en la ruta actual."
+            )
+    # ---------- 3️⃣ Devolver X, y si se solicita ----------
+    if return_X_y is not None:
+        X_columns, y_column = return_X_y
+        return _X_y(df, X_columns, y_column)
+    return df
+# =========================
+# Datasets específicos
+# =========================
+def load_iris(
+    backend: Literal["pandas", "polars"] = "pandas",
+    return_X_y: Optional[Tuple[List[str], str]] = None
+):
+    return load_dataset(
+        "iris.csv",
+        backend=backend,
+        return_X_y=return_X_y
+    )
+def load_penguins(
+    backend: Literal["pandas", "polars"] = "pandas",
+    return_X_y: Optional[Tuple[List[str], str]] = None
+):
+    return load_dataset(
+        "penguins.csv",
+        backend=backend,
+        return_X_y=return_X_y
+    )
+from typing import Optional
+def generate_dataset(n_rows, schema, seed=None, save: Optional[bool] = False, filename: Optional[str] = None):
+    if seed is not None:
+        if not isinstance(seed, int):
+            raise TypeError("seed debe ser un entero o None")
+        np.random.seed(seed)
+    else:
+        np.random.seed(42)
+    if not isinstance(schema, dict):
+        raise TypeError("schema debe ser un diccionario")
+    data = {}
+    for col, config in schema.items():
+        if "dist" not in config:
+            raise ValueError(f"La columna '{col}' no tiene 'dist' definido")
+        dist = config["dist"]
+        dtype = config.get("type", "float")
+        nround = config.get("round", 0)
+        # ---------- DISTRIBUCIONES ----------
+        if dist == "normal":
+            values = np.random.normal(
+                loc=config.get("mean", 0),
+                scale=config.get("std", 1),
+                size=n_rows
+            )
+        elif dist == "uniform":
+            values = np.random.uniform(
+                low=config.get("low", 0),
+                high=config.get("high", 1),
+                size=n_rows
+            )
+        elif dist == "exponential":
+            values = np.random.exponential(
+                scale=config.get("scale", 1),
+                size=n_rows
+            )
+        elif dist == "lognormal":
+            values = np.random.lognormal(
+                mean=config.get("mean", 0),
+                sigma=config.get("std", 1),
+                size=n_rows
+            )
+        elif dist == "poisson":
+            values = np.random.poisson(
+                lam=config.get("lam", 1),
+                size=n_rows
+            )
+        elif dist == "binomial":
+            values = np.random.binomial(
+                n=config.get("n", 1),
+                p=config.get("p", 0.5),
+                size=n_rows
+            )
+        elif dist == "categorical":
+            if "choices" not in config:
+                raise ValueError(f"'choices' es requerido para categorical ({col})")
+            values = np.random.choice(
+                config["choices"],
+                size=n_rows
+            )
+            data[col] = values
+            continue
+        else:
+            raise ValueError(f"Distribución no soportada: {dist}")
+        # ---------- CASTEO DE TIPO ----------
+        if dtype == "int":
+            values = np.round(values).astype(int)
+        elif dtype == "float":
+            values = values.astype(float)
+        else:
+            raise ValueError(f"Tipo no soportado: {dtype}")
+        # ---------- REDONDEO ----------
+        if nround > 0:
+            values = np.round(values, nround)
+        else:
+            values = np.round(values, 2)
+        data[col] = values
+    if save and filename:
+        df = pd.DataFrame(data)
+        df.to_csv(f"{filename}.csv", index=False)
+    else:
+        df = pd.DataFrame(data)
+        df.to_csv("dataset.csv", index=False)
+    return pd.DataFrame(data)

statslibx 0.1.7__tar.gz → 0.2.0__tar.gz

statslibx 0.1.7tar.gz → 0.2.0tar.gz