PyPI - statslibx - Versions diffs - 0.1.6__py3-none-any.whl → 0.1.8__py3-none-any.whl - Mend

statslibx 0.1.6py3-none-any.whl → 0.1.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (21) hide show

statslibx/__init__.py +15 -8
statslibx/cli.py +47 -0
statslibx/computacional.py +2 -0
statslibx/datasets/__init__.py +236 -8
statslibx/descriptive.py +502 -160
statslibx/inferential.py +746 -307
statslibx/io.py +21 -0
statslibx/preprocessing/__init__.py +228 -0
statslibx/probability.py +2 -0
statslibx/utils.py +112 -150
{statslibx-0.1.6.dist-info → statslibx-0.1.8.dist-info}/METADATA +27 -32
statslibx-0.1.8.dist-info/RECORD +15 -0
statslibx-0.1.8.dist-info/entry_points.txt +2 -0
statslibx/datasets/course_completion.csv +0 -100001
statslibx/datasets/iris.csv +0 -151
statslibx/datasets/penguins.csv +0 -345
statslibx/datasets/sp500_companies.csv +0 -504
statslibx/datasets/titanic.csv +0 -419
statslibx-0.1.6.dist-info/RECORD +0 -14
{statslibx-0.1.6.dist-info → statslibx-0.1.8.dist-info}/WHEEL +0 -0
{statslibx-0.1.6.dist-info → statslibx-0.1.8.dist-info}/top_level.txt +0 -0

statslibx/descriptive.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import numpy as np
 import pandas as pd
+import polars as pl
 from typing import Optional, Union, Literal, List
 from datetime import datetime
 import flet as ft
@@ -12,54 +13,83 @@ import plotly.express as px
 class DescriptiveStats:
     """
-    Clase para estadística descriptiva univariada y multivariada
+    Class for univariate and multivariate descriptive statistics
     """
-    def __init__(self, data: Union[pd.DataFrame, np.ndarray],
-                 backend: Literal['pandas', 'polars'] = 'pandas'):
+    def __init__(self, data: Union[pd.DataFrame, np.ndarray],
+                sep: str = None,
+                decimal: str = None,
+                thousand: str = None,
+                backend: Literal['pandas', 'polars'] = 'pandas'):
         """
-        Inicializar con DataFrame o array numpy
+        # Initialize DataFrame
-        Parameters:
-        -----------
-        data : DataFrame o ndarray
-            Datos a analizar
-        backend : str
-            'pandas' o 'polars' para procesamiento
+        ## **Parameters:**
+        - **data** : Data to analyze
+        - **sep** : Column separator
+        - **decimal** : Decimal separator
+        - **thousand** : Thousand separator
+        - **backend** : 'pandas' or 'polars' for processing
+        (Proximamente estara habilitado polars para big data)
+        **Examples:**
+        ``Example 1:
+        stats = DescriptiveStats(data)
+        ``
         """
         if isinstance(data, str) and os.path.exists(data):
                 data = DescriptiveStats.from_file(data).data
+        if isinstance(data, pl.DataFrame):
+            raise TypeError(
+                "Polars aún no soportado. Use pandas.DataFrame."
+            )
         if isinstance(data, np.ndarray):
             if data.ndim == 1:
                 data = pd.DataFrame({'var': data})
             else:
-                data = pd.DataFrame(data, columns=[f'var_{i}' for i in range(data.shape[1])])
+                data = pd.DataFrame(data, columns=[f'var_{i}' for i in range(data.shape[1])]) \
+                    if isinstance(data, pd.DataFrame) else pl.DataFrame(data, )
         self.data = data
         self.backend = backend
         self._numeric_cols = data.select_dtypes(include=[np.number]).columns.tolist()
+        self.sep = sep
+        self.decimal = decimal
+        self.thousand = thousand
-    @staticmethod
-    def from_file(path: str):
+    @classmethod
+    def from_file(self, path: str):
         """
         Carga automática de archivos y devuelve instancia de Intelligence.
         Soporta CSV, Excel, TXT, JSON, Parquet, Feather, TSV.
+        Automatic file upload and returns Intelligence instance.
+        Supports CSV, Excel, TXT, JSON, Parquet, Feather, TSV.
+        Parametros / Parameters:
+        ------------------------
+        path : str
+            Ruta del archivo
+            File path
         """
         if not os.path.exists(path):
-            raise FileNotFoundError(f"Archivo no encontrado: {path}")
+            raise FileNotFoundError(f"Archivo no encontrado / File not found: {path}")
         ext = os.path.splitext(path)[1].lower()
         if ext == ".csv":
-            df = pd.read_csv(path)
+            df = pd.read_csv(path, sep=self.sep, decimal=self.decimal, thousand=self.thousand)
         elif ext in [".xlsx", ".xls"]:
-            df = pd.read_excel(path)
+            df = pd.read_excel(path, decimal=self.decimal, thousand=self.thousand)
         elif ext in [".txt", ".tsv"]:
-            df = pd.read_table(path)
+            df = pd.read_table(path, sep=self.sep, decimal=self.decimal, thousand=self.thousand)
         elif ext == ".json":
             df = pd.read_json(path)
@@ -71,56 +101,124 @@ class DescriptiveStats:
             df = pd.read_feather(path)
         else:
-            raise ValueError(f"Formato no soportado: {ext}")
+            raise ValueError(f"Formato no soportado / Unsupported format: {ext}")
         return DescriptiveStats(df)
     # ============= MÉTODOS UNIVARIADOS =============
     def mean(self, column: Optional[str] = None) -> Union[float, pd.Series]:
-        """Media aritmética"""
+        """
+        Media aritmética / Arithmetic mean
+        Parametros / Parameters:
+        ------------------------
+        **column** : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].mean()
         return self.data[self._numeric_cols].mean()
     def median(self, column: Optional[str] = None) -> Union[float, pd.Series]:
-        """Mediana"""
+        """
+        Mediana / Median
+        Parametros / Parameters:
+        ------------------------
+        **column** : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].median()
         return self.data[self._numeric_cols].median()
     def mode(self, column: Optional[str] = None):
-        """Moda"""
+        """
+        Moda / Mode
+        Parametros / Parameters:
+        ------------------------
+        column : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].mode()[0]
         return self.data[self._numeric_cols].mode().iloc[0]
     def variance(self, column: Optional[str] = None) -> Union[float, pd.Series]:
-        """Varianza"""
+        """
+        Varianza / Variance
+        Parametros / Parameters:
+        ------------------------
+        column : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].var()
         return self.data[self._numeric_cols].var()
     def std(self, column: Optional[str] = None) -> Union[float, pd.Series]:
-        """Desviación estándar"""
+        """
+        Desviación estándar / Standard deviation
+        Parametros / Parameters:
+        ------------------------
+        column : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].std()
         return self.data[self._numeric_cols].std()
     def skewness(self, column: Optional[str] = None) -> Union[float, pd.Series]:
-        """Asimetría"""
+        """
+        Asimetría / Asymmetry
+        Parametros / Parameters:
+        ------------------------
+        column : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].skew()
         return self.data[self._numeric_cols].skew()
     def kurtosis(self, column: Optional[str] = None) -> Union[float, pd.Series]:
-        """Curtosis"""
+        """
+        Curtosis / Kurtosis
+        Parametros / Parameters:
+        ------------------------
+        column : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].kurtosis()
         return self.data[self._numeric_cols].kurtosis()
     def quantile(self, q: Union[float, List[float]], column: Optional[str] = None):
-        """Cuantiles/Percentiles"""
+        """
+        Cuantiles - Percentiles / Quantiles - Percentiles
+        Parametros / Parameters:
+        ------------------------
+        q : float / List[float]
+            Cuantiles a calcular
+            Quantiles to calculate
+        column : str
+            Nombre de la columna
+            Name of the column
+        """
         if column:
             return self.data[column].quantile(q)
         return self.data[self._numeric_cols].quantile(q)
@@ -128,16 +226,19 @@ class DescriptiveStats:
     def outliers(self, column: str, method: Literal['iqr', 'zscore'] = 'iqr',
                  threshold: float = 1.5) -> pd.Series:
         """
-        Detectar outliers en una columna
+        Detectar outliers en una columna / Detecting outliers in a column
-        Parameters:
-        -----------
+        Parametros / Parameters:
+        ------------------------
         column : str
             Nombre de la columna
+            Name of the column
         method : str
             'iqr' o 'zscore'
         threshold : float
             1.5 para IQR, 3 para zscore típicamente
+            1.5 for IQR, 3 for zscore typically
         """
         col_data = self.data[column]
@@ -157,22 +258,31 @@ class DescriptiveStats:
     # ============= MÉTODOS MULTIVARIADOS =============
     def correlation(self, method: Literal['pearson', 'spearman', 'kendall'] = 'pearson',
-                   columns: Optional[List[str]] = None) -> pd.DataFrame:
+                    columns: Optional[List[str]] = None) -> pd.DataFrame:
         """
-        Matriz de correlación
+        Matriz de correlación / Correlation matrix
-        Parameters:
-        -----------
+        Parametros / Parameters:
+        ------------------------
         method : str
             'pearson', 'spearman' o 'kendall'
         columns : list, optional
             Lista de columnas a incluir
+            List of columns to include
         """
         data_subset = self.data[columns] if columns else self.data[self._numeric_cols]
         return data_subset.corr(method=method)
     def covariance(self, columns: Optional[List[str]] = None) -> pd.DataFrame:
-        """Matriz de covarianza"""
+        """
+        Matriz de covarianza
+        Parametros / Parameters:
+        ------------------------
+        columns: list, optional
+            Lista de columnas a incluir
+            List of columns to include
+        """
         data_subset = self.data[columns] if columns else self.data[self._numeric_cols]
         return data_subset.cov()
@@ -182,14 +292,16 @@ class DescriptiveStats:
                 show_plot: bool = False,
                 plot_backend: str = 'seaborn') -> 'DescriptiveSummary':
         """
-        Resumen completo de estadísticas descriptivas
+        Resumen completo de estadísticas descriptivas / Complete descriptive statistics summary
-        Parameters:
-        -----------
+        Parametros / Parameters:
+        ------------------------
         columns : list, optional
             Columnas específicas a resumir
+            Specific columns to summarize
         show_plot : bool
             Si mostrar gráficos
+            If to show graphics
         plot_backend : str
             'seaborn', 'plotly' o 'matplotlib'
         """
@@ -227,8 +339,28 @@ class DescriptiveStats:
                         plot_backend: str = 'seaborn',
                         handle_missing: Literal['drop', 'error', 'warn'] = 'drop') -> tuple:
         """
-        Regresión lineal simple o múltiple con opción de mostrar gráfico.
-        Siempre devuelve un tuple: (LinearRegressionResult, figura o None)
+        Regresión lineal simple o múltiple con opción de mostrar gráfico / Simple or multiple \
+            linear regression with option to show graph
+        Parametros / Parameters:
+        ------------------------
+        X: str, list, optional
+            Nombre de la variable independiente
+        y: str
+            Nombre de la variable dependiente
+        engine: str
+            Motor de la regresion
+        fit_intercept: bool
+            Intercepto de la regresion
+        show_plot: bool
+            Visualizar la regresion (recomendable, solo [X,y])
+        handle_missing:
+            'drop', 'error' o 'warn'
         """
         if isinstance(X, str):
             X = [X]
@@ -258,25 +390,29 @@ class DescriptiveStats:
         result.fit()
         result.show_plot = show_plot
         result.plot_backend = plot_backend
-        figura = None
-        # Graficar si es regresión simple
-        if show_plot and len(X) == 1 and plot_backend.lower() == 'seaborn':
-            import matplotlib.pyplot as plt
-            g = sns.lmplot(x=X[0], y=y, data=regression_data, ci=None)
-            g.figure.suptitle(f"Regresión lineal: {y} ~ {X[0]}", y=1.02)
-            plt.tight_layout()
-            figura = g.figure
-        return result, figura
+        return result
-    def help(self):
+    def help(self, lang="es-ES"):
         """
         Muestra ayuda completa de la clase DescriptiveStats
+        Parametros / Parameters:
+        ------------------------
+        lang: str
+            Idioma Usuario: Codigo de Idioma (es-Es) o "Español"
+            User Language: Languaje Code (en-Us) or "English"
         """
-        help_text = """
+        if lang in ["en-US", "English", "english"]:
+            lang = "en-US"
+        else:
+            lang = "es-ES"
+        help_text = " "
+        match lang:
+            case "es-ES":
+                help_text = """
 ╔════════════════════════════════════════════════════════════════════════════╗
 ║                    📊 CLASE DescriptiveStats - AYUDA COMPLETA              ║
 ╚════════════════════════════════════════════════════════════════════════════╝
@@ -364,122 +500,328 @@ class DescriptiveStats:
 💡 EJEMPLOS DE USO:
-  ┌─ Ejemplo 1: Inicialización ─────────────────────────────────────────────┐
-  │ import pandas as pd                                                      │
-  │ from descriptive import DescriptiveStats                                │
-  │                                                                          │
-  │ # Con DataFrame                                                          │
-  │ df = pd.read_csv('datos.csv')                                           │
-  │ stats = DescriptiveStats(df)                                            │
-  │                                                                          │
-  │ # Con array numpy                                                        │
-  │ import numpy as np                                                       │
-  │ datos = np.random.normal(0, 1, 1000)                                    │
-  │ stats = DescriptiveStats(datos)                                         │
-  └──────────────────────────────────────────────────────────────────────────┘
-  ┌─ Ejemplo 2: Análisis Univariado ────────────────────────────────────────┐
-  │ # Estadísticas de una columna                                           │
-  │ media = stats.mean('edad')                                              │
-  │ mediana = stats.median('edad')                                          │
-  │ desv_est = stats.std('edad')                                            │
-  │                                                                          │
-  │ # Cuartiles                                                              │
-  │ q25 = stats.quantile(0.25, 'edad')                                      │
-  │ q75 = stats.quantile(0.75, 'edad')                                      │
-  │                                                                          │
-  │ # Detectar outliers                                                      │
-  │ outliers_mask = stats.outliers('edad', method='iqr', threshold=1.5)    │
-  │ print(f"Outliers detectados: {outliers_mask.sum()}")                    │
-  └──────────────────────────────────────────────────────────────────────────┘
-  ┌─ Ejemplo 3: Resumen Completo ───────────────────────────────────────────┐
-  │ # Resumen de todas las variables numéricas                              │
-  │ resumen = stats.summary()                                               │
-  │ print(resumen)                                                           │
-  │                                                                          │
-  │ # Resumen de columnas específicas con visualización                     │
-  │ resumen = stats.summary(                                                │
-  │     columns=['edad', 'salario', 'experiencia'],                         │
-  │     show_plot=True,                                                     │
-  │     plot_backend='seaborn'                                              │
-  │ )                                                                        │
-  └──────────────────────────────────────────────────────────────────────────┘
-  ┌─ Ejemplo 4: Análisis Multivariado ──────────────────────────────────────┐
-  │ # Matriz de correlación                                                  │
-  │ corr_pearson = stats.correlation(method='pearson')                      │
-  │ corr_spearman = stats.correlation(method='spearman')                    │
-  │                                                                          │
-  │ # Matriz de covarianza                                                   │
-  │ cov_matrix = stats.covariance()                                         │
-  │                                                                          │
-  │ # Correlación entre variables específicas                               │
-  │ corr_subset = stats.correlation(                                        │
-  │     method='pearson',                                                   │
-  │     columns=['edad', 'salario', 'experiencia']                          │
-  │ )                                                                        │
-  └──────────────────────────────────────────────────────────────────────────┘
-  ┌─ Ejemplo 5: Regresión Lineal Simple ────────────────────────────────────┐
-  │ # Regresión simple: salario ~ experiencia                               │
-  │ modelo = stats.linear_regression(                                       │
-  │     y='salario',                                                        │
-  │     X='experiencia',                                                    │
-  │     engine='statsmodels',                                               │
-  │     show_plot=True                                                      │
-  │ )                                                                        │
-  │                                                                          │
-  │ # Ver resultados                                                         │
-  │ print(modelo.summary())                                                  │
-  │                                                                          │
-  │ # Acceder a coeficientes                                                 │
-  │ print(f"Intercepto: {modelo.intercept_}")                               │
-  │ print(f"Pendiente: {modelo.coef_[0]}")                                  │
-  │ print(f"R²: {modelo.r_squared}")                                        │
-  └──────────────────────────────────────────────────────────────────────────┘
-  ┌─ Ejemplo 6: Regresión Lineal Múltiple ──────────────────────────────────┐
-  │ # Regresión múltiple: salario ~ experiencia + edad + educacion          │
-  │ modelo = stats.linear_regression(                                       │
-  │     y='salario',                                                        │
-  │     X=['experiencia', 'edad', 'educacion'],                             │
-  │     engine='statsmodels',                                               │
-  │     fit_intercept=True,                                                 │
-  │     handle_missing='drop'                                               │
-  │ )                                                                        │
-  │                                                                          │
-  │ print(modelo.summary())                                                  │
-  │                                                                          │
-  │ # Hacer predicciones                                                     │
-  │ import numpy as np                                                       │
-  │ X_nuevo = np.array([[5, 30, 16], [10, 35, 18]])  # experiencia, edad   │
-  │ predicciones = modelo.predict(X_nuevo)                                  │
-  └──────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 1: Inicialización ─────────────────────────────────────────────┐
+    │ import pandas as pd                                                     │
+    │ from descriptive import DescriptiveStats                                │
+    │                                                                         │
+    │ # Con DataFrame                                                         │
+    │ df = pd.read_csv('datos.csv')                                           │
+    │ stats = DescriptiveStats(df)                                            │
+    │                                                                         │
+    │ # Con array numpy                                                       │
+    │ import numpy as np                                                      │
+    │ datos = np.random.normal(0, 1, 1000)                                    │
+    │ stats = DescriptiveStats(datos)                                         │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 2: Análisis Univariado ────────────────────────────────────────┐
+    │ # Estadísticas de una columna                                           │
+    │ media = stats.mean('edad')                                              │
+    │ mediana = stats.median('edad')                                          │
+    │ desv_est = stats.std('edad')                                            │
+    │                                                                         │
+    │ # Cuartiles                                                             │
+    │ q25 = stats.quantile(0.25, 'edad')                                      │
+    │ q75 = stats.quantile(0.75, 'edad')                                      │
+    │                                                                         │
+    │ # Detectar outliers                                                     │
+    │ outliers_mask = stats.outliers('edad', method='iqr', threshold=1.5)     │
+    │ print(f"Outliers detectados: {outliers_mask.sum()}")                    │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 3: Resumen Completo ───────────────────────────────────────────┐
+    │ # Resumen de todas las variables numéricas                              │
+    │ resumen = stats.summary()                                               │
+    │ print(resumen)                                                          │
+    │                                                                         │
+    │ # Resumen de columnas específicas con visualización                     │
+    │ resumen = stats.summary(                                                │
+    │     columns=['edad', 'salario', 'experiencia'],                         │
+    │     show_plot=True,                                                     │
+    │     plot_backend='seaborn'                                              │
+    │ )                                                                       │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 4: Análisis Multivariado ──────────────────────────────────────┐
+    │ # Matriz de correlación                                                 │
+    │ corr_pearson = stats.correlation(method='pearson')                      │
+    │ corr_spearman = stats.correlation(method='spearman')                    │
+    │                                                                         │
+    │ # Matriz de covarianza                                                  │
+    │ cov_matrix = stats.covariance()                                         │
+    │                                                                         │
+    │ # Correlación entre variables específicas                               │
+    │ corr_subset = stats.correlation(                                        │
+    │     method='pearson',                                                   │
+    │     columns=['edad', 'salario', 'experiencia']                          │
+    │ )                                                                       │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 5: Regresión Lineal Simple ────────────────────────────────────┐
+    │ # Regresión simple: salario ~ experiencia                               │
+    │ modelo = stats.linear_regression(                                       │
+    │     y='salario',                                                        │
+    │     X='experiencia',                                                    │
+    │     engine='statsmodels',                                               │
+    │     show_plot=True                                                      │
+    │ )                                                                       │
+    │                                                                         │
+    │ # Ver resultados                                                        │
+    │ print(modelo.summary())                                                 │
+    │                                                                         │
+    │ # Acceder a coeficientes                                                │
+    │ print(f"Intercepto: {modelo.intercept_}")                               │
+    │ print(f"Pendiente: {modelo.coef_[0]}")                                  │
+    │ print(f"R²: {modelo.r_squared}")                                        │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 6: Regresión Lineal Múltiple ──────────────────────────────────┐
+    │ # Regresión múltiple: salario ~ experiencia + edad + educacion          │
+    │ modelo = stats.linear_regression(                                       │
+    │     y='salario',                                                        │
+    │     X=['experiencia', 'edad', 'educacion'],                             │
+    │     engine='statsmodels',                                               │
+    │     fit_intercept=True,                                                 │
+    │     handle_missing='drop'                                               │
+    │ )                                                                       │
+    │                                                                         │
+    │ print(modelo.summary())                                                 │
+    │                                                                         │
+    │ # Hacer predicciones                                                    │
+    │ import numpy as np                                                      │
+    │ X_nuevo = np.array([[5, 30, 16], [10, 35, 18]])  # experiencia, edad    │
+    │ predicciones = modelo.predict(X_nuevo)                                  │
+    └─────────────────────────────────────────────────────────────────────────┘
 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 🎯 CARACTERÍSTICAS CLAVE:
-  ✓ Análisis univariado completo
-  ✓ Análisis multivariado (correlación, covarianza)
-  ✓ Detección de outliers con múltiples métodos
-  ✓ Regresión lineal con statsmodels o scikit-learn
-  ✓ Manejo automático de valores faltantes
-  ✓ Soporte para pandas DataFrame y numpy arrays
-  ✓ Salidas formateadas profesionales
-  ✓ Visualizaciones opcionales
+    ✓ Análisis univariado completo
+    ✓ Análisis multivariado (correlación, covarianza)
+    ✓ Detección de outliers con múltiples métodos
+    ✓ Regresión lineal con statsmodels o scikit-learn
+    ✓ Manejo automático de valores faltantes
+    ✓ Soporte para pandas DataFrame y numpy arrays
+    ✓ Salidas formateadas profesionales
+    ✓ Visualizaciones opcionales
 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 📚 DOCUMENTACIÓN ADICIONAL:
-   Para más información sobre métodos específicos, use:
-   help(DescriptiveStats.nombre_metodo)
+    Para más información sobre métodos específicos, use:
+    help(DescriptiveStats.nombre_metodo)
 ╚════════════════════════════════════════════════════════════════════════════╝
     """
-        print(help_text)
+            case "en-US":
+                help_text = """
+╔════════════════════════════════════════════════════════════════════════════╗
+║                    📊 CLASS DescriptiveStats  - COMPLETE HELP              ║
+╚════════════════════════════════════════════════════════════════════════════╝
+📝 DESCRIPTION:
+    Class for univariate and multivariate descriptive statistical analysis.
+    Provides tools for exploratory data analysis, measures of
+    central tendency, dispersion, shape of distribution and linear regression.
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+📋 MAIN METHODS:
+┌────────────────────────────────────────────────────────────────────────────┐
+│ 1. 📊 UNIVARIATE STATISTICS                                                │
+└────────────────────────────────────────────────────────────────────────────┘
+    🔹 Measures of Central Tendency:
+        • .mean(column=None)              → Arithmetic mean
+        • .median(column=None)            → Median (center value)
+        • .mode(column=None)              → Mode (most frequent value)
+    🔹 Dispersion Measurements:
+        • .std(column=None)               → Standard deviation
+        • .variance(column=None)          → Variance
+        • .quantile(q, column=None)       → Quantiles/Percentiles
+    🔹 Shape Measurements:
+        • .skewness(column=None)          → Asymmetry (bias)
+        • .kurtosis(column=None)          → Kurtosis (pointing)
+    🔹 Outlier Detection:
+        • .outliers(column, method='iqr', threshold=1.5)
+        Methods: 'iqr' (interquartile range) or 'zscore' (z-score)
+┌────────────────────────────────────────────────────────────────────────────┐
+│ 2. 🔗 MULTIVARIATE STATISTICS                                              │
+└────────────────────────────────────────────────────────────────────────────┘
+    🔹 .correlation(method='pearson', columns=None)
+        Correlation matrix between variables
+        Methods: 'pearson', 'spearman', 'kendall'
+    🔹 .covariance(columns=None)
+        Covariance matrix between variables
+┌────────────────────────────────────────────────────────────────────────────┐
+│ 3. 📋 COMPLETE SUMMARY                                                     │
+└────────────────────────────────────────────────────────────────────────────┘
+    🔹 .summary(columns=None, show_plot=False, plot_backend='seaborn')
+        Complete descriptive summary with all statistics
+        Includes: count, mean, median, mode, dev. est., variance,
+            minimum, Q1, Q3, maximum, IQR, skewness, kurtosis
+    🔹 .summary().to_dataframe(format)
+        Format:
+            - Wide
+            - Long
+            - Compact
+    🔹 .summary().to_categorical_summary()
+    🔹 .summary().to_styled_df()
+┌────────────────────────────────────────────────────────────────────────────┐
+│ 4. 📈 LINEAR REGRESSION                                                    │
+└────────────────────────────────────────────────────────────────────────────┘
+    🔹 .linear_regression(y, X, engine='statsmodels',
+                        fit_intercept=True, show_plot=False,
+                        plot_backend='seaborn', handle_missing='drop')
+        Simple or multiple linear regression with full analysis
+        Parameters:
+            X : Independent variable(s) (str or list)
+            y: Dependent variable (str)
+            engine: 'statsmodels' or 'scikit-learn'
+            fit_intercept : Include intercept (bool)
+            show_plot : Show diagnostic plots (bool)
+            handle_missing : 'drop', 'error', 'warn'
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+💡 EXAMPLES OF USE:
+    ┌─ Example 1: Initialization ─────────────────────────────────────────────┐
+    │ import pandas as pd                                                     │
+    │ from statslibx.descriptive import DescriptiveStats                      │
+    │ from statslibx.datasets import load_dataset                             │
+    │                                                                         │
+    │ # With DataFrame                                                        │
+    │ df = load_dataset('datos.csv')                                          │
+    │ stats = DescriptiveStats(df)                                            │
+    │                                                                         │
+    │ # With array numpy                                                      │
+    │ import numpy as np                                                      │
+    │ datos = np.random.normal(0, 1, 1000)                                    │
+    │ stats = DescriptiveStats(datos)                                         │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Example 2: Univariate Analysis ────────────────────────────────────────┐
+    │ # Statistics of a column                                                │
+    │ mean = stats.mean('edad')                                               │
+    │ median = stats.median('edad')                                           │
+    │ desv_est = stats.std('edad')                                            │
+    │                                                                         │
+    │ # Quartiles                                                             │
+    │ q25 = stats.quantile(0.25, 'edad')                                      │
+    │ q75 = stats.quantile(0.75, 'edad')                                      │
+    │                                                                         │
+    │ # To detect outsolves                                                   │
+    │ outliers_mask = stats.outliers('edad', method='iqr', threshold=1.5)     │
+    │ print(f"Outliers detected: {outliers_mask.sum()}")                      │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Example 3: Complete Summary ───────────────────────────────────────────┐
+    │ # Summary of all numerical variables                                    │
+    │ summary = stats.summary()                                               │
+    │ print(summary)                                                          │
+    │                                                                         │
+    │ # Resumen de columnas específicas con visualización                     │
+    │ resumen = stats.summary(                                                │
+    │     columns=['edad', 'salario', 'experiencia'],                         │
+    │     show_plot=True,                                                     │
+    │     plot_backend='seaborn'                                              │
+    │ )                                                                       │
+    └─────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 4: Análisis Multivariado ──────────────────────────────────────┐
+    │ # Matriz de correlación                                                  │
+    │ corr_pearson = stats.correlation(method='pearson')                      │
+    │ corr_spearman = stats.correlation(method='spearman')                    │
+    │                                                                          │
+    │ # Matriz de covarianza                                                   │
+    │ cov_matrix = stats.covariance()                                         │
+    │                                                                          │
+    │ # Correlación entre variables específicas                               │
+    │ corr_subset = stats.correlation(                                        │
+    │     method='pearson',                                                   │
+    │     columns=['edad', 'salario', 'experiencia']                          │
+    │ )                                                                        │
+    └──────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 5: Regresión Lineal Simple ────────────────────────────────────┐
+    │ # Regresión simple: salario ~ experiencia                               │
+    │ modelo = stats.linear_regression(                                       │
+    │     y='salario',                                                        │
+    │     X='experiencia',                                                    │
+    │     engine='statsmodels',                                               │
+    │     show_plot=True                                                      │
+    │ )                                                                        │
+    │                                                                          │
+    │ # Ver resultados                                                         │
+    │ print(modelo.summary())                                                  │
+    │                                                                          │
+    │ # Acceder a coeficientes                                                 │
+    │ print(f"Intercepto: {modelo.intercept_}")                               │
+    │ print(f"Pendiente: {modelo.coef_[0]}")                                  │
+    │ print(f"R²: {modelo.r_squared}")                                        │
+    └──────────────────────────────────────────────────────────────────────────┘
+    ┌─ Ejemplo 6: Regresión Lineal Múltiple ──────────────────────────────────┐
+    │ # Regresión múltiple: salario ~ experiencia + edad + educacion          │
+    │ modelo = stats.linear_regression(                                       │
+    │     y='salario',                                                        │
+    │     X=['experiencia', 'edad', 'educacion'],                             │
+    │     engine='statsmodels',                                               │
+    │     fit_intercept=True,                                                 │
+    │     handle_missing='drop'                                               │
+    │ )                                                                        │
+    │                                                                          │
+    │ print(modelo.summary())                                                  │
+    │                                                                          │
+    │ # Hacer predicciones                                                     │
+    │ import numpy as np                                                       │
+    │ X_nuevo = np.array([[5, 30, 16], [10, 35, 18]])  # experiencia, edad   │
+    │ predicciones = modelo.predict(X_nuevo)                                  │
+    └──────────────────────────────────────────────────────────────────────────┘
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+🎯 CARACTERÍSTICAS CLAVE:
+    ✓ Análisis univariado completo
+    ✓ Análisis multivariado (correlación, covarianza)
+    ✓ Detección de outliers con múltiples métodos
+    ✓ Regresión lineal con statsmodels o scikit-learn
+    ✓ Manejo automático de valores faltantes
+    ✓ Soporte para pandas DataFrame y numpy arrays
+    ✓ Salidas formateadas profesionales
+    ✓ Visualizaciones opcionales
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+📚 DOCUMENTACIÓN ADICIONAL:
+    Para más información sobre métodos específicos, use:
+    help(DescriptiveStats.nombre_metodo)
+╚════════════════════════════════════════════════════════════════════════════╝
+    """
+        print(help_text)
 class DescriptiveSummary:
     """Clase para formatear salida de estadística descriptiva"""
@@ -586,10 +928,10 @@ class DescriptiveSummary:
         Formato compacto: Variables en filas, estadísticas en columnas.
         Ejemplo:
-                  count   mean  median   mode   std  variance  ...
-        Var1      150.0   5.8     5.8    5.0   0.8      0.68  ...
-        Var2      150.0   3.1     3.0    3.0   0.4      0.19  ...
-        Var3      150.0   3.8     4.0    1.0   1.8      3.11  ...
+                count   mean  median   mode   std  variance  ...
+        Var1    150.0   5.8     5.8    5.0   0.8      0.68  ...
+        Var2    150.0   3.1     3.0    3.0   0.4      0.19  ...
+        Var3    150.0   3.8     4.0    1.0   1.8      3.11  ...
         """
         df_data = []
@@ -618,7 +960,7 @@ class DescriptiveSummary:
         Formato largo: Una fila por cada combinación variable-estadística.
         Ejemplo:
-             Variable  Estadistica    Valor
+            Variable  Estadistica    Valor
         0       Var1        count   150.00
         1       Var1         mean     5.84
         2       Var1       median     5.80

statslibx 0.1.6__py3-none-any.whl → 0.1.8__py3-none-any.whl

statslibx 0.1.6py3-none-any.whl → 0.1.8py3-none-any.whl