PyPI - statslibx - Versions diffs - 0.1.6__py3-none-any.whl → 0.1.7__py3-none-any.whl - Mend

statslibx 0.1.6py3-none-any.whl → 0.1.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

statslibx/__init__.py +3 -0
statslibx/cli.py +47 -0
statslibx/datasets/__init__.py +57 -2
statslibx/descriptive.py +500 -157
statslibx/io.py +21 -0
statslibx/preprocessing/__init__.py +221 -0
{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/METADATA +10 -29
statslibx-0.1.7.dist-info/RECORD +18 -0
statslibx-0.1.7.dist-info/entry_points.txt +2 -0
statslibx-0.1.6.dist-info/RECORD +0 -14
{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/WHEEL +0 -0
{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/top_level.txt +0 -0

statslibx/io.py ADDED Viewed

@@ -0,0 +1,21 @@
+import pandas as pd
+import polars as pl
+from pathlib import Path
+def load_file(path: str):
+    path = Path(path)
+    if not path.exists():
+        raise FileNotFoundError(f"{path} not found")
+    if path.suffix == ".csv":
+        return pd.read_csv(path)
+    if path.suffix == ".json":
+        return pd.read_json(path)
+    if path.suffix in {".txt", ".tsv"}:
+        return pd.read_csv(path, sep="\t")
+    raise ValueError(f"Unsupported file type: {path.suffix}")

statslibx/preprocessing/__init__.py ADDED Viewed

@@ -0,0 +1,221 @@
+from typing import Optional, Union, List, Dict, Any
+import pandas as pd
+import polars as pl
+import numpy as np
+class Preprocessing:
+    def __init__(self, data: Union[pd.DataFrame, pl.DataFrame]):
+        if not isinstance(data, (pd.DataFrame, pl.DataFrame)):
+            raise TypeError("data must be a pandas or polars DataFrame")
+        self.data = data
+    # ------------------------------------------------------------------
+    # Internal helpers
+    # ------------------------------------------------------------------
+    def _is_pandas(self) -> bool:
+        return isinstance(self.data, pd.DataFrame)
+    def _is_polars(self) -> bool:
+        return isinstance(self.data, pl.DataFrame)
+    def _count_nulls(self, column: str) -> int:
+        if self._is_pandas():
+            return int(self.data[column].isna().sum())
+        return int(self.data[column].null_count())
+    def _get_columns(self, columns):
+        if columns is None:
+            return list(self.data.columns)
+        if isinstance(columns, str):
+            return [columns]
+        return columns
+    # ------------------------------------------------------------------
+    # Inspection
+    # ------------------------------------------------------------------
+    def detect_nulls(
+        self,
+        columns: Optional[Union[str, List[str]]] = None
+    ) -> pd.DataFrame:
+        columns = self._get_columns(columns)
+        total = self.data.shape[0]
+        rows = []
+        for col in columns:
+            nulls = self._count_nulls(col)
+            rows.append({
+                "column": col,
+                "nulls": nulls,
+                "non_nulls": total - nulls,
+                "null_pct": nulls / total
+            })
+        return pd.DataFrame(rows)
+    def check_uniqueness(self) -> pd.DataFrame:
+        if self._is_pandas():
+            unique = self.data.nunique()
+            return pd.DataFrame({
+                "column": unique.index,
+                "unique_values": unique.values
+            })
+        unique = self.data.select(pl.all().n_unique())
+        return unique.to_pandas().melt(
+            var_name="column",
+            value_name="unique_values"
+        )
+    def preview_data(self, n: int = 5):
+        return self.data.head(n)
+    # ------------------------------------------------------------------
+    # Description
+    # ------------------------------------------------------------------
+    def describe_numeric(self):
+        if self._is_pandas():
+            return self.data.select_dtypes(include=np.number).describe()
+        return self.data.select(pl.all().filter(pl.col(pl.NUMERIC))).describe()
+    def describe_categorical(self):
+        if self._is_pandas():
+            return self.data.select_dtypes(include="object").describe()
+        return self.data.select(pl.all().filter(pl.col(pl.Utf8))).describe()
+    # ------------------------------------------------------------------
+    # Transformations
+    # ------------------------------------------------------------------
+    def fill_nulls(
+        self,
+        fill_with: Any,
+        columns: Optional[Union[str, List[str]]] = None
+    ):
+        columns = self._get_columns(columns)
+        if self._is_pandas():
+            self.data[columns] = self.data[columns].fillna(fill_with)
+        else:
+            self.data = self.data.with_columns([
+                pl.col(col).fill_null(fill_with) for col in columns
+            ])
+        return self
+    def normalize(self, column: str):
+        if self._is_pandas():
+            col = self.data[column]
+            self.data[column] = (col - col.min()) / (col.max() - col.min())
+        else:
+            self.data = self.data.with_columns(
+                ((pl.col(column) - pl.col(column).min()) /
+                 (pl.col(column).max() - pl.col(column).min()))
+                .alias(column)
+            )
+        return self
+    def standardize(self, column: str):
+        if self._is_pandas():
+            col = self.data[column]
+            self.data[column] = (col - col.mean()) / col.std()
+        else:
+            self.data = self.data.with_columns(
+                ((pl.col(column) - pl.col(column).mean()) /
+                 pl.col(column).std())
+                .alias(column)
+            )
+        return self
+    # ------------------------------------------------------------------
+    # Filtering
+    # ------------------------------------------------------------------
+    def filter_rows(self, condition):
+        if self._is_pandas():
+            self.data = self.data.loc[condition]
+        else:
+            self.data = self.data.filter(condition)
+        return self
+    def filter_columns(self, columns: List[str]):
+        if self._is_pandas():
+            self.data = self.data[columns]
+        else:
+            self.data = self.data.select(columns)
+        return self
+    def rename_columns(self, mapping: Dict[str, str]):
+        if self._is_pandas():
+            self.data = self.data.rename(columns=mapping)
+        else:
+            self.data = self.data.rename(mapping)
+        return self
+    # ------------------------------------------------------------------
+    # Outliers
+    # ------------------------------------------------------------------
+    def detect_outliers(
+        self,
+        column: str,
+        method: str = "iqr"
+    ) -> pd.DataFrame:
+        if self._is_pandas():
+            series = self.data[column]
+        else:
+            series = self.data[column].to_pandas()
+        if method == "iqr":
+            q1 = series.quantile(0.25)
+            q3 = series.quantile(0.75)
+            iqr = q3 - q1
+            mask = (series < q1 - 1.5 * iqr) | (series > q3 + 1.5 * iqr)
+        elif method == "zscore":
+            z = (series - series.mean()) / series.std()
+            mask = z.abs() > 3
+        else:
+            raise ValueError("method must be 'iqr' or 'zscore'")
+        return self.data[mask]
+    # ------------------------------------------------------------------
+    # Data Quality Report
+    # ------------------------------------------------------------------
+    def data_quality(self) -> pd.DataFrame:
+        total_rows = self.data.shape[0]
+        rows = []
+        for col in self.data.columns:
+            nulls = self._count_nulls(col)
+            if self._is_pandas():
+                dtype = str(self.data[col].dtype)
+                unique = self.data[col].nunique()
+            else:
+                dtype = str(self.data.schema[col])
+                unique = self.data[col].n_unique()
+            rows.append({
+                "column": col,
+                "dtype": dtype,
+                "nulls": nulls,
+                "null_pct": nulls / total_rows,
+                "unique_values": unique,
+                "completeness_pct": 1 - (nulls / total_rows)
+            })
+        return pd.DataFrame(rows)

{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/METADATA RENAMED Viewed

@@ -1,47 +1,28 @@
 Metadata-Version: 2.4
 Name: statslibx
-Version: 0.1.6
-Summary: Librería de estadística descriptiva e inferencial para Python
-Home-page: https://github.com/Immanuel3008/StatsLibX
-Author: Emmanuel Ascendra Perez
-Author-email: ascendraemmanuel@gmail.com
+Version: 0.1.7
+Summary: StatsLibx - Librería de estadística descriptiva e inferencial
+Author-email: Emmanuel Ascendra Perez <ascendraemmanuel@gmail.com>
+License: MIT
 Classifier: Development Status :: 3 - Alpha
 Classifier: Intended Audience :: Science/Research
 Classifier: Topic :: Scientific/Engineering :: Mathematics
 Classifier: License :: OSI Approved :: MIT License
 Classifier: Programming Language :: Python :: 3
-Classifier: Programming Language :: Python :: 3.8
 Classifier: Programming Language :: Python :: 3.9
 Classifier: Programming Language :: Python :: 3.10
 Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Requires-Python: >=3.8
 Description-Content-Type: text/markdown
-Requires-Dist: numpy>=1.20.0
-Requires-Dist: pandas>=1.3.0
-Requires-Dist: scipy>=1.7.0
-Requires-Dist: matplotlib>=3.4.0
+Requires-Dist: pandas>=1.5
+Requires-Dist: polars>=0.20
 Provides-Extra: viz
-Requires-Dist: seaborn>=0.11.0; extra == "viz"
-Requires-Dist: plotly>=5.0.0; extra == "viz"
+Requires-Dist: seaborn>=0.11; extra == "viz"
+Requires-Dist: plotly>=5.0; extra == "viz"
 Provides-Extra: advanced
-Requires-Dist: scikit-learn>=1.0.0; extra == "advanced"
-Requires-Dist: statsmodels>=0.13.0; extra == "advanced"
-Provides-Extra: all
-Requires-Dist: seaborn>=0.11.0; extra == "all"
-Requires-Dist: plotly>=5.0.0; extra == "all"
-Requires-Dist: scikit-learn>=1.0.0; extra == "all"
-Requires-Dist: statsmodels>=0.13.0; extra == "all"
-Dynamic: author
-Dynamic: author-email
-Dynamic: classifier
-Dynamic: description
-Dynamic: description-content-type
-Dynamic: home-page
-Dynamic: provides-extra
-Dynamic: requires-dist
-Dynamic: requires-python
-Dynamic: summary
+Requires-Dist: scikit-learn>=1.0; extra == "advanced"
+Requires-Dist: statsmodels>=0.13; extra == "advanced"
 # 📦 Descripción para PyPI (Plantilla Profesional)

statslibx-0.1.7.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,18 @@
+statslibx/__init__.py,sha256=vXAOPdog5n_b64FRybiWI4VNA_eou7eQuZBcQiQz79E,1297
+statslibx/cli.py,sha256=DqXaoP85n9xgLDlFnEkeqj-HJG0_IKX0uSqxRcHbzII,1122
+statslibx/descriptive.py,sha256=UTb104Gho0uNeSALlukgrYwXrGMDwmIEy39-yvHuy8M,60184
+statslibx/inferential.py,sha256=0lpVAp2SiKDgWkH3z3JoVFAjMaXW2VboxtA2vwPwq04,49947
+statslibx/io.py,sha256=v7pxpmlEMeKyfXftl3WbkUtC9FOh1pymz7MmKPPNw98,493
+statslibx/utils.py,sha256=qDqF_XgvEJbdQURA2v0gF0sw0nNQR4-MFXDvVTl_00s,68480
+statslibx/datasets/__init__.py,sha256=HlOjJFalKVAycJEi7_J_OB7ss8jgSWpPQnsHTynt0uo,2273
+statslibx/datasets/course_completion.csv,sha256=jaqyxAh4YCsYuH5OFsjvGV7KUyM_7vQt6LgnqnNAFsI,22422135
+statslibx/datasets/iris.csv,sha256=xSdC5QMVqZ-Vajg_rt91dVUmdfZAnvD5pHB23QhHmTA,3858
+statslibx/datasets/penguins.csv,sha256=4HY2vYr3QmAJnqL4Z44uq7813vV5lAzHb2cGHuFsBsE,13478
+statslibx/datasets/sp500_companies.csv,sha256=WKS72YOGnAbyLR6kD95fOpIYZt5oXGjPryyFVqLRF_k,803820
+statslibx/datasets/titanic.csv,sha256=5seOS8ybyBMBCCWhgKZrsbu06m_OWyKtD9l0YXOImXU,29474
+statslibx/preprocessing/__init__.py,sha256=B6qI_KuqWf0FFnLLFafIaPOIM9ABo73InKCscSypdqI,7107
+statslibx-0.1.7.dist-info/METADATA,sha256=GN3chKZ7qSdoAKeD54rCxiwRoWk0wiFpLxHmxtc6Skc,2321
+statslibx-0.1.7.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+statslibx-0.1.7.dist-info/entry_points.txt,sha256=bkCY7JDWNCZFE3I4sjgJ2oGrUgoBBbCbYmWkBAymT70,49
+statslibx-0.1.7.dist-info/top_level.txt,sha256=eeYZXyFm0hIjuI0ba3wF6XW938Mv9tv7Nk9qgjYfCtU,10
+statslibx-0.1.7.dist-info/RECORD,,

statslibx-0.1.7.dist-info/entry_points.txt ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ [console_scripts]
2	+ statslibx = statslibx.cli:main

statslibx-0.1.6.dist-info/RECORD DELETED Viewed

@@ -1,14 +0,0 @@
-statslibx/__init__.py,sha256=gA9uNJ7Th8mJunugVps8UWgBNJtMeo_mHqU-QSkEXQE,1173
-statslibx/descriptive.py,sha256=Hjti-Cs-7-SzrTb0k4s92c4nasLthVwhYU75GS56LAc,40124
-statslibx/inferential.py,sha256=0lpVAp2SiKDgWkH3z3JoVFAjMaXW2VboxtA2vwPwq04,49947
-statslibx/utils.py,sha256=qDqF_XgvEJbdQURA2v0gF0sw0nNQR4-MFXDvVTl_00s,68480
-statslibx/datasets/__init__.py,sha256=wQ4p8hXIhJqV-msWzTvvnbv-l7jyWz5Rn3JZyMSYJ44,452
-statslibx/datasets/course_completion.csv,sha256=jaqyxAh4YCsYuH5OFsjvGV7KUyM_7vQt6LgnqnNAFsI,22422135
-statslibx/datasets/iris.csv,sha256=xSdC5QMVqZ-Vajg_rt91dVUmdfZAnvD5pHB23QhHmTA,3858
-statslibx/datasets/penguins.csv,sha256=4HY2vYr3QmAJnqL4Z44uq7813vV5lAzHb2cGHuFsBsE,13478
-statslibx/datasets/sp500_companies.csv,sha256=WKS72YOGnAbyLR6kD95fOpIYZt5oXGjPryyFVqLRF_k,803820
-statslibx/datasets/titanic.csv,sha256=5seOS8ybyBMBCCWhgKZrsbu06m_OWyKtD9l0YXOImXU,29474
-statslibx-0.1.6.dist-info/METADATA,sha256=7djbcDCGKwPIIjMnF3hjrsjpgeJFUYxEO9zrVTayUj0,2943
-statslibx-0.1.6.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-statslibx-0.1.6.dist-info/top_level.txt,sha256=eeYZXyFm0hIjuI0ba3wF6XW938Mv9tv7Nk9qgjYfCtU,10
-statslibx-0.1.6.dist-info/RECORD,,

{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/WHEEL RENAMED Viewed

File without changes

{statslibx-0.1.6.dist-info → statslibx-0.1.7.dist-info}/top_level.txt RENAMED Viewed

File without changes

statslibx 0.1.6__py3-none-any.whl → 0.1.7__py3-none-any.whl

statslibx 0.1.6py3-none-any.whl → 0.1.7py3-none-any.whl