PyPI - statslibx - Versions diffs - 0.1.6__py3-none-any.whl → 0.1.7__py3-none-any.whl - Mend

statslibx 0.1.6py3-none-any.whl → 0.1.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

statslibx/__init__.py +3 -0
statslibx/cli.py +47 -0
statslibx/datasets/__init__.py +57 -2
statslibx/descriptive.py +500 -157
statslibx/io.py +21 -0
statslibx/preprocessing/__init__.py +221 -0
{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/METADATA +10 -29
statslibx-0.1.7.dist-info/RECORD +18 -0
statslibx-0.1.7.dist-info/entry_points.txt +2 -0
statslibx-0.1.6.dist-info/RECORD +0 -14
{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/WHEEL +0 -0
{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/top_level.txt +0 -0

statslibx/__init__.py CHANGED Viewed

@@ -11,6 +11,7 @@ __author__ = "Emmanuel Ascendra"
 from .descriptive import DescriptiveStats, DescriptiveSummary
 from .inferential import InferentialStats, TestResult
 from .utils import UtilsStats
+from .preprocessing import Preprocessing
 from .datasets import load_dataset
 # Definir qué se expone cuando se hace: from statslib import *
@@ -22,6 +23,7 @@ __all__ = [
     'DescriptiveSummary',
     'TestResult',
     'UtilsStats',
+    'Preprocessing',
     'load_dataset'
 ]
@@ -35,4 +37,5 @@ def welcome():
     print(f"  - DescriptiveStats: Estadística descriptiva")
     print(f"  - InferentialStats: Estadística inferencial")
     print(f"  - UtilsStats: Utilidades Extras")
+    print(f"  - Preprocessing: Preprocesamiento de datos")
     print(f"\nPara más información: help(statslibx)")

statslibx/cli.py ADDED Viewed

@@ -0,0 +1,47 @@
+import argparse
+from statslibx.io import load_file
+from statslibx.preprocessing import Preprocessing
+def main():
+    parser = argparse.ArgumentParser(
+        prog="statslibx",
+        description="Statslibx - Data analysis from terminal"
+    )
+    subparsers = parser.add_subparsers(dest="command")
+    # describe
+    describe = subparsers.add_parser("describe")
+    describe.add_argument("file")
+    # quality
+    quality = subparsers.add_parser("quality")
+    quality.add_argument("file")
+    # preview
+    preview = subparsers.add_parser("preview")
+    preview.add_argument("file")
+    preview.add_argument("-n", "--rows", type=int, default=5)
+    args = parser.parse_args()
+    if not args.command:
+        parser.print_help()
+        return
+    df = load_file(args.file)
+    pp = Preprocessing(df)
+    if args.command == "describe":
+        print(pp.describe_numeric())
+    elif args.command == "quality":
+        print(pp.data_quality())
+    elif args.command == "preview":
+        print(pp.preview_data(args.rows))
+if __name__ == "__main__":
+    main()

statslibx/datasets/__init__.py CHANGED Viewed

@@ -1,16 +1,71 @@
+from typing import Optional, Union, Literal, List
+import polars as pl
 import pandas as pd
 import pkgutil
 import io
-def load_dataset(name: str):
+def load_dataset(
+        name: str,
+        backend: Literal['pandas', 'polars'] = 'pandas'
+    ) -> Union[pd.DataFrame, pl.DataFrame]:
     """Carga un dataset interno del paquete.
     Datasets Disponibles:
     - iris.csv
     - penguins.csv
     - sp500_companies.csv
     - titanic.csv
+    - course_completion.csv
     """
     data_bytes = pkgutil.get_data("statslibx.datasets", name)
     if data_bytes is None:
         raise FileNotFoundError(f"Dataset '{name}' no encontrado.")
-    return pd.read_csv(io.BytesIO(data_bytes))
+    if backend == "pandas":
+        return pd.read_csv(io.BytesIO(data_bytes))
+    elif backend == "polars":
+        return pl.read_csv(io.BytesIO(data_bytes))
+    else:
+        raise ValueError(
+            "Backend no soportado. Use 'pandas' o 'polars'."
+        )
+def load_iris(
+        backend: Literal['pandas', 'polars'] = 'pandas'
+    ) -> Union[pd.DataFrame, pl.DataFrame]:
+    """Carga el dataset interno de la libreria: Iris
+    """
+    data_bytes = pkgutil.get_data("statslibx.datasets", "iris.csv")
+    if data_bytes is None:
+        raise FileNotFoundError(f"Dataset \"iris.csv\" no encontrado.")
+    if backend == "pandas":
+        return pd.read_csv(io.BytesIO(data_bytes))
+    elif backend == "polars":
+        raise ValueError(
+            "Backend no soportado aun. Use 'pandas'."
+        )
+    else:
+        raise ValueError(
+            "Backend no soportado. Use 'pandas' o 'polars'."
+        )
+def load_penguins(
+        backend: Literal['pandas', 'polars'] = 'pandas'
+    ) -> Union[pd.DataFrame, pl.DataFrame]:
+    """Carga un dataset interno de la libreria: Penguins
+    """
+    data_bytes = pkgutil.get_data("statslibx.datasets", "penguins.csv")
+    if data_bytes is None:
+        raise FileNotFoundError(f"Dataset \"penguins.csv\" no encontrado.")
+    if backend == "pandas":
+        return pd.read_csv(io.BytesIO(data_bytes))
+    elif backend == "polars":
+        raise ValueError(
+            "Backend no soportado aun. Use 'pandas'."
+        )
+    else:
+        raise ValueError(
+            "Backend no soportado. Use 'pandas' o 'polars'."
+        )

statslibx 0.1.6__py3-none-any.whl → 0.1.7__py3-none-any.whl

statslibx 0.1.6py3-none-any.whl → 0.1.7py3-none-any.whl