PyPI - hossam - Versions diffs - 0.4.3__py3-none-any.whl → 0.4.5__py3-none-any.whl - Mend

hossam 0.4.3py3-none-any.whl → 0.4.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

hossam/data_loader.py +7 -9
hossam/hs_gis.py +17 -18
hossam/hs_plot.py +220 -220
hossam/hs_prep.py +56 -25
hossam/hs_stats.py +199 -67
hossam/hs_util.py +4 -6
{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/METADATA +1 -1
hossam-0.4.5.dist-info/RECORD +16 -0
hossam-0.4.3.dist-info/RECORD +0 -16
{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/WHEEL +0 -0
{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/licenses/LICENSE +0 -0
{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/top_level.txt +0 -0

hossam/hs_stats.py CHANGED Viewed

@@ -1,5 +1,7 @@
 # -*- coding: utf-8 -*-
 from __future__ import annotations
+from typing import overload, Tuple, Literal, Union, Any
 # -------------------------------------------------------------
 import numpy as np
@@ -22,12 +24,13 @@ from scipy.stats import (
     normaltest,
     bartlett,
     levene,
-    ttest_1samp,
+    ttest_1samp,    # type: ignore
     ttest_ind as scipy_ttest_ind,
-    ttest_rel,
+    ttest_rel,      # type: ignore
     wilcoxon,
     pearsonr,
     spearmanr,
+    chi2
 )
 import statsmodels.api as sm
@@ -36,10 +39,71 @@ from statsmodels.stats.outliers_influence import variance_inflation_factor
 from statsmodels.stats.multitest import multipletests
 from statsmodels.stats.stattools import durbin_watson
 from statsmodels.regression.linear_model import RegressionResultsWrapper
+from statsmodels.discrete.discrete_model import BinaryResultsWrapper
 from statsmodels.discrete.discrete_model import BinaryResults
 from pingouin import anova, pairwise_tukey, welch_anova, pairwise_gameshowell
+from .hs_plot import ols_residplot, ols_qqplot
+# ===================================================================
+# MCAR(결측치 무작위성) 검정
+# ===================================================================
+def mcar_test(data: DataFrame, columns: list | str | None = None) -> DataFrame:
+    if isinstance(columns, str):
+        columns = [c.strip() for c in columns.split(",")]
+    cols = data.columns if columns is None else columns
+    df = data[cols]
+    # 결측치가 있는 컬럼만 사용
+    cols_with_na = [c for c in df.columns if df[c].isna().any()]
+    if len(cols_with_na) < 2:
+        raise ValueError("MCAR 검정은 결측치가 있는 변수가 최소 2개 이상 필요합니다.")
+    X = df[cols_with_na].to_numpy()
+    n, p = X.shape
+    # complete cases로 평균·공분산 추정
+    complete = ~np.isnan(X).any(axis=1)
+    if complete.sum() < p + 1:
+        raise ValueError("완전관측치(complete cases)가 부족하여 MCAR 검정을 수행할 수 없습니다.")
+    mu = X[complete].mean(axis=0)
+    S = np.cov(X[complete], rowvar=False)
+    S_inv = np.linalg.pinv(S)
+    chi_sq = 0.0
+    dfree = 0
+    for i in range(n):
+        obs = ~np.isnan(X[i])
+        if obs.sum() == p:
+            continue  # complete case는 제외
+        diff = X[i, obs] - mu[obs]
+        S_obs = S[np.ix_(obs, obs)]
+        S_obs_inv = np.linalg.pinv(S_obs)
+        chi_sq += diff @ S_obs_inv @ diff
+        dfree += obs.sum()
+    dfree -= p  # Little's adjustment
+    p_value = 1 - chi2.cdf(chi_sq, dfree)
+    is_mcar = p_value > 0.05
+    return DataFrame([{
+        "statistic": chi_sq,
+        "dof": dfree,
+        "p-value": p_value,
+        "is_mcar": is_mcar,
+        "interpretation": (
+            "결측치는 완전 무작위(MCAR)로 판단됨 → 결측치 삭제 가능"
+            if is_mcar else
+            "결측치는 완전 무작위(MCAR)가 아님 → 삭제 시 편향 가능"
+        )
+    }])
 # ===================================================================
 # 결측치 분석 (Missing Values Analysis)
 # ===================================================================
@@ -219,6 +283,8 @@ def describe(data: DataFrame, *fields: str, columns: list | None = None):
             행은 다음과 같은 통계량을 포함:
             - count (float): 비결측치의 수
+            - na_count (int): 결측치의 수
+            - na_rate (float): 결측치 비율(%)
             - mean (float): 평균값
             - std (float): 표준편차
             - min (float): 최소값
@@ -267,9 +333,13 @@ def describe(data: DataFrame, *fields: str, columns: list | None = None):
     # 기술통계량 구하기
     desc = data[list(fields)].describe().T
-    # 각 컬럼별 결측치 수(null_count) 추가
-    null_counts = data[list(fields)].isnull().sum()
-    desc.insert(1, 'null_count', null_counts)
+    # 각 컬럼별 결측치 수(na_count) 추가
+    na_counts = data[list(fields)].isnull().sum()
+    desc.insert(1, 'na_count', na_counts)
+    # 결측치 비율(na_rate) 추가
+    desc.insert(2, 'na_rate', (na_counts / len(data)) * 100)
     # 추가 통계량 계산
     additional_stats = []
@@ -305,29 +375,29 @@ def describe(data: DataFrame, *fields: str, columns: list | None = None):
         outlier_rate = (outlier_count / len(data)) * 100
         # 분포 특성 판정 (왜도 기준)
-        abs_skew = abs(skew)
-        if abs_skew < 0.5:
+        abs_skew = abs(skew)    # type: ignore
+        if abs_skew < 0.5:      # type: ignore
             dist = "거의 대칭"
-        elif abs_skew < 1.0:
-            if skew > 0:
+        elif abs_skew < 1.0:    # type: ignore
+            if skew > 0:        # type: ignore
                 dist = "약한 우측 꼬리"
             else:
                 dist = "약한 좌측 꼬리"
-        elif abs_skew < 2.0:
-            if skew > 0:
+        elif abs_skew < 2.0:    # type: ignore
+            if skew > 0:        # type: ignore
                 dist = "중간 우측 꼬리"
             else:
                 dist = "중간 좌측 꼬리"
         else:
-            if skew > 0:
+            if skew > 0:        # type: ignore
                 dist = "극단 우측 꼬리"
             else:
                 dist = "극단 좌측 꼬리"
         # 로그변환 필요성 판정
-        if abs_skew < 0.5:
+        if abs_skew < 0.5:      # type: ignore
             log_need = "낮음"
-        elif abs_skew < 1.0:
+        elif abs_skew < 1.0:    # type: ignore
             log_need = "중간"
         else:
             log_need = "높음"
@@ -403,7 +473,7 @@ def category_describe(data: DataFrame, *fields: str):
     """
     if not fields:
         # 명목형(범주형) 컬럼 선택: object, category, bool 타입
-        fields = data.select_dtypes(include=['object', 'category', 'bool']).columns
+        fields = data.select_dtypes(include=['object', 'category', 'bool']).columns # type: ignore
     result = []
     summary = []
@@ -660,7 +730,7 @@ def equal_var_test(data: DataFrame, columns: list | str | None = None, normal_di
         normality_result = normal_test(data[numeric_cols], method="n")
         # 모든 컬럼이 정규분포를 따르는지 확인
         all_normal = normality_result["is_normal"].all()
-        normal_dist = all_normal
+        normal_dist = all_normal    # type: ignore
     try:
         if normal_dist:
@@ -759,7 +829,7 @@ def ttest_1samp(data, mean_value: float = 0.0) -> DataFrame:
     else:
         for a in alternative:
             try:
-                s, p = ttest_1samp(col_data, mean_value, alternative=a)
+                s, p = ttest_1samp(col_data, mean_value, alternative=a) # type: ignore
                 itp = None
@@ -869,26 +939,26 @@ def ttest_ind(x, y, equal_var: bool | None = None) -> DataFrame:
     for a in alternative:
         try:
-            s, p = scipy_ttest_ind(x_data, y_data, equal_var=equal_var, alternative=a)
+            s, p = scipy_ttest_ind(x_data, y_data, equal_var=equal_var, alternative=a)  # type: ignore
             n = "t-test_ind" if equal_var else "Welch's t-test"
             # 검정 결과 해석
             itp = None
             if a == "two-sided":
-                itp = fmt.format("==" if p > 0.05 else "!=")
+                itp = fmt.format("==" if p > 0.05 else "!=")    # type: ignore
             elif a == "less":
-                itp = fmt.format(">=" if p > 0.05 else "<")
+                itp = fmt.format(">=" if p > 0.05 else "<")     # type: ignore
             else:
-                itp = fmt.format("<=" if p > 0.05 else ">")
+                itp = fmt.format("<=" if p > 0.05 else ">")     # type: ignore
             result.append({
                 "test": n,
                 "alternative": a,
-                "statistic": round(s, 3),
-                "p-value": round(p, 4),
-                "H0": p > 0.05,
-                "H1": p <= 0.05,
+                "statistic": round(s, 3),   # type: ignore
+                "p-value": round(p, 4),     # type: ignore
+                "H0": p > 0.05,             # type: ignore
+                "H1": p <= 0.05,            # type: ignore
                 "interpretation": itp,
                 "equal_var_checked": var_checked
             })
@@ -998,7 +1068,7 @@ def ttest_rel(x, y, parametric: bool | None = None) -> DataFrame:
     for a in alternative:
         try:
             if parametric:
-                s, p = ttest_rel(x_data, y_data, alternative=a)
+                s, p = ttest_rel(x_data, y_data, alternative=a) # type: ignore
                 n = "t-test_paired"
             else:
                 # Wilcoxon signed-rank test (대응표본용 비모수 검정)
@@ -1008,19 +1078,19 @@ def ttest_rel(x, y, parametric: bool | None = None) -> DataFrame:
             itp = None
             if a == "two-sided":
-                itp = fmt.format("==" if p > 0.05 else "!=")
+                itp = fmt.format("==" if p > 0.05 else "!=")    # type: ignore
             elif a == "less":
-                itp = fmt.format(">=" if p > 0.05 else "<")
+                itp = fmt.format(">=" if p > 0.05 else "<")     # type: ignore
             else:
-                itp = fmt.format("<=" if p > 0.05 else ">")
+                itp = fmt.format("<=" if p > 0.05 else ">")     # type: ignore
             result.append({
                 "test": n,
                 "alternative": a,
-                "statistic": round(s, 3) if not np.isnan(s) else s,
-                "p-value": round(p, 4) if not np.isnan(p) else p,
-                "H0": p > 0.05,
-                "H1": p <= 0.05,
+                "statistic": round(s, 3) if not np.isnan(s) else s, # type: ignore
+                "p-value": round(p, 4) if not np.isnan(p) else p,   # type: ignore
+                "H0": p > 0.05,     # type: ignore
+                "H1": p <= 0.05,    # type: ignore
                 "interpretation": itp,
                 "normality_checked": var_checked
             })
@@ -1047,7 +1117,7 @@ def ttest_rel(x, y, parametric: bool | None = None) -> DataFrame:
 # ===================================================================
 def vif_filter(
     data: DataFrame,
-    yname: str = None,
+    yname: str | None = None,
     ignore: list | None = None,
     threshold: float = 10.0,
     verbose: bool = False,
@@ -1112,7 +1182,7 @@ def vif_filter(
         for i, col in enumerate(X_clean.columns, start=0):
             # exog의 첫 열은 상수항이므로 변수 인덱스는 +1
             try:
-                vifs[col] = float(variance_inflation_factor(exog.values, i + 1))
+                vifs[col] = float(variance_inflation_factor(exog.values, i + 1))# type: ignore
             except Exception:
                 # 계산 실패 시 무한대로 처리하여 우선 제거 대상으로
                 vifs[col] = float("inf")
@@ -1150,7 +1220,7 @@ def vif_filter(
 # ===================================================================
 # x, y 데이터에 대한 추세선을 구한다.
 # ===================================================================
-def trend(x: any, y: any, degree: int = 1, value_count: int = 100) -> Tuple[np.ndarray, np.ndarray]:
+def trend(x: Any, y: Any, degree: int = 1, value_count: int = 100) -> Tuple[np.ndarray, np.ndarray]:
     """x, y 데이터에 대한 추세선을 구한다.
     Args:
@@ -1192,7 +1262,10 @@ def trend(x: any, y: any, degree: int = 1, value_count: int = 100) -> Tuple[np.n
 # ===================================================================
 # 선형회귀 요약 리포트
 # ===================================================================
-def ols_report(fit, data, full=False, alpha=0.05):
+def ols_report(fit, data, full=False, alpha=0.05) -> Union[
+    Tuple[DataFrame, DataFrame],
+    Tuple[DataFrame, DataFrame, str, str, list[str], str]
+]:
     """선형회귀 적합 결과를 요약 리포트로 변환한다.
     Args:
@@ -1211,6 +1284,7 @@ def ols_report(fit, data, full=False, alpha=0.05):
             - 회귀식 문자열 (`equation_text`, str): 상수항과 계수를 포함한 회귀식 표현.
         full=False일 때:
+            - 성능 지표 표 (`pdf`, DataFrame): R, R², Adj. R², F, p-value, Durbin-Watson.
             - 회귀계수 표 (`rdf`, DataFrame)
     Examples:
@@ -1250,7 +1324,7 @@ def ols_report(fit, data, full=False, alpha=0.05):
     for i, col in enumerate(indi_df.columns, start=1):  # 상수항이 0이므로 1부터 시작
         try:
             with np.errstate(divide='ignore', invalid='ignore'):
-                vif_value = variance_inflation_factor(indi_df_const.values, i)
+                vif_value = variance_inflation_factor(indi_df_const.values, i)  # type: ignore
                 # inf나 매우 큰 값 처리
                 if np.isinf(vif_value) or vif_value > 1e10:
                     vif_dict[col] = np.inf
@@ -1378,7 +1452,19 @@ def ols_report(fit, data, full=False, alpha=0.05):
 # ===================================================================
 # 선형회귀
 # ===================================================================
-def ols(df: DataFrame, yname: str, report=False):
+def ols(df: DataFrame, yname: str, report: bool | str | int = False) -> Union[
+    RegressionResultsWrapper,
+    Tuple[RegressionResultsWrapper, DataFrame, DataFrame],
+    Tuple[
+        RegressionResultsWrapper,
+        DataFrame,
+        DataFrame,
+        str,
+        str,
+        list[str],
+        str
+    ]
+]:
     """선형회귀분석을 수행하고 적합 결과를 반환한다.
     OLS(Ordinary Least Squares) 선형회귀분석을 실시한다.
@@ -1387,7 +1473,7 @@ def ols(df: DataFrame, yname: str, report=False):
     Args:
         df (DataFrame): 종속변수와 독립변수를 모두 포함한 데이터프레임.
         yname (str): 종속변수 컬럼명.
-        report: 리포트 모드 설정. 다음 값 중 하나:
+        report (bool | str | int): 리포트 모드 설정. 다음 값 중 하나:
             - False (기본값): 리포트 미사용. fit 객체만 반환.
             - 1 또는 'summary': 요약 리포트 반환 (full=False).
             - 2 또는 'full': 풀 리포트 반환 (full=True).
@@ -1426,10 +1512,10 @@ def ols(df: DataFrame, yname: str, report=False):
         fit = hs_stats.ols(df, 'target')
         # 요약 리포트 반환
-        fit, pdf, rdf = hs_stats.ols(df, 'target', report=1)
+        fit, pdf, rdf = hs_stats.ols(df, 'target', report='summary')
         # 풀 리포트 반환
-        fit, pdf, rdf, result_report, model_report, var_reports, eq = hs_stats.ols(df, 'target', report=2)
+        fit, pdf, rdf, result_report, model_report, var_reports, eq = hs_stats.ols(df, 'target', report='full')
         ```
     """
     x = df.drop(yname, axis=1)
@@ -1445,11 +1531,11 @@ def ols(df: DataFrame, yname: str, report=False):
         return linear_fit
     elif report == 1 or report == 'summary':
         # 요약 리포트 (full=False)
-        pdf, rdf = ols_report(linear_fit, df, full=False, alpha=0.05)
+        pdf, rdf = ols_report(linear_fit, df, full=False, alpha=0.05)   # type: ignore
         return linear_fit, pdf, rdf
     elif report == 2 or report == 'full' or report is True:
         # 풀 리포트 (full=True)
-        pdf, rdf, result_report, model_report, variable_reports, equation_text = ols_report(linear_fit, df, full=True, alpha=0.05)
+        pdf, rdf, result_report, model_report, variable_reports, equation_text = ols_report(linear_fit, df, full=True, alpha=0.05)  # type: ignore
         return linear_fit, pdf, rdf, result_report, model_report, variable_reports, equation_text
     else:
         # 기본값: 리포트 미사용
@@ -1459,15 +1545,31 @@ def ols(df: DataFrame, yname: str, report=False):
 # ===================================================================
 # 로지스틱 회귀 요약 리포트
 # ===================================================================
-def logit_report(fit, data, threshold=0.5, full=False, alpha=0.05):
+def logit_report(
+    fit: BinaryResultsWrapper,
+    data: DataFrame,
+    threshold: float = 0.5,
+    full: Union[bool, str, int] = False,
+    alpha: float = 0.05
+) -> Union[
+    Tuple[DataFrame, DataFrame],
+    Tuple[
+        DataFrame,
+        DataFrame,
+        str,
+        str,
+        list[str],
+        np.ndarray
+    ]
+]:
     """로지스틱 회귀 적합 결과를 상세 리포트로 변환한다.
     Args:
         fit: statsmodels Logit 결과 객체 (`fit.summary()`와 예측 확률을 지원해야 함).
-        data: 종속변수와 독립변수를 모두 포함한 DataFrame.
-        threshold: 예측 확률을 이진 분류로 변환할 임계값. 기본값 0.5.
-        full: True이면 6개 값 반환, False이면 주요 2개(cdf, rdf)만 반환. 기본값 False.
-        alpha: 유의수준. 기본값 0.05.
+        data (DataFrame): 종속변수와 독립변수를 모두 포함한 DataFrame.
+        threshold (float): 예측 확률을 이진 분류로 변환할 임계값. 기본값 0.5.
+        full (bool | str | int): True이면 6개 값 반환, False이면 주요 2개(cdf, rdf)만 반환. 기본값 False.
+        alpha (float): 유의수준. 기본값 0.05.
     Returns:
         tuple: full=True일 때 다음 요소를 포함한다.
@@ -1555,7 +1657,7 @@ def logit_report(fit, data, threshold=0.5, full=False, alpha=0.05):
     vif_dict = {}
     x_const = sm.add_constant(x, has_constant="add")
     for i, col in enumerate(x.columns, start=1):  # 상수항이 0이므로 1부터 시작
-        vif_dict[col] = variance_inflation_factor(x_const.values, i)
+        vif_dict[col] = variance_inflation_factor(x_const.values, i)    # type: ignore
     for idx, row in tbl.iterrows():
         name = idx
@@ -1652,7 +1754,25 @@ def logit_report(fit, data, threshold=0.5, full=False, alpha=0.05):
 # ===================================================================
 # 로지스틱 회귀
 # ===================================================================
-def logit(df: DataFrame, yname: str, report=False):
+def logit(
+    df: DataFrame,
+    yname: str,
+    report: Union[bool, str, int] = False
+) -> Union[
+    BinaryResultsWrapper,
+    Tuple[
+        BinaryResultsWrapper,
+        DataFrame
+    ],
+    Tuple[
+        BinaryResultsWrapper,
+        DataFrame,
+        DataFrame,
+        str,
+        str,
+        list[str]
+    ]
+]:
     """로지스틱 회귀분석을 수행하고 적합 결과를 반환한다.
     종속변수가 이항(binary) 형태일 때 로지스틱 회귀분석을 실시한다.
@@ -1718,13 +1838,13 @@ def logit(df: DataFrame, yname: str, report=False):
         return logit_fit
     elif report == 1 or report == 'summary':
         # 요약 리포트 (full=False)
-        cdf, rdf = logit_report(logit_fit, df, threshold=0.5, full=False, alpha=0.05)
+        cdf, rdf = logit_report(logit_fit, df, threshold=0.5, full=False, alpha=0.05)   # type: ignore
         # 요약에서는 result_report와 variable_reports만 포함
         # 간단한 버전으로 result와 variable_reports만 생성
         return logit_fit, rdf
     elif report == 2 or report == 'full' or report is True:
         # 풀 리포트 (full=True)
-        cdf, rdf, result_report, model_report, variable_reports, cm = logit_report(logit_fit, df, threshold=0.5, full=True, alpha=0.05)
+        cdf, rdf, result_report, model_report, variable_reports, cm = logit_report(logit_fit, df, threshold=0.5, full=True, alpha=0.05) # type: ignore
         return logit_fit, cdf, rdf, result_report, model_report, variable_reports
     else:
         # 기본값: 리포트 미사용
@@ -1734,7 +1854,7 @@ def logit(df: DataFrame, yname: str, report=False):
 # ===================================================================
 # 선형성 검정 (Linearity Test)
 # ===================================================================
-def ols_linearity_test(fit, power: int = 2, alpha: float = 0.05) -> DataFrame:
+def ols_linearity_test(fit, power: int = 2, alpha: float = 0.05, plot: bool = False, title: str | None = None, save_path: str | None = None) -> DataFrame:
     """회귀모형의 선형성을 Ramsey RESET 검정으로 평가한다.
     적합된 회귀모형에 대해 Ramsey RESET(Regression Specification Error Test) 검정을 수행하여
@@ -1747,6 +1867,9 @@ def ols_linearity_test(fit, power: int = 2, alpha: float = 0.05) -> DataFrame:
                                power=2일 때 예측값의 제곱항이 추가됨.
                                power가 클수록 더 높은 차수의 비선형성을 감지.
         alpha (float, optional): 유의수준. 기본값 0.05.
+        plot (bool, optional): True이면 잔차 플롯을 출력. 기본값 False.
+        title (str, optional): 플롯 제목. 기본값 None.
+        save_path (str, optional): 플롯을 저장할 경로. 기본값 None
     Returns:
         DataFrame: 선형성 검정 결과를 포함한 데이터프레임.
@@ -1829,13 +1952,16 @@ def ols_linearity_test(fit, power: int = 2, alpha: float = 0.05) -> DataFrame:
         "해석": [interpretation]
     })
+    if plot:
+        ols_residplot(fit, lowess=True, mse=True, title=title, save_path=save_path)
     return result_df
 # ===================================================================
 # 정규성 검정 (Normality Test)
 # ===================================================================
-def ols_normality_test(fit, alpha: float = 0.05) -> DataFrame:
+def ols_normality_test(fit, alpha: float = 0.05, plot: bool = False, title: str | None = None, save_path: str | None = None) -> DataFrame:
     """회귀모형 잔차의 정규성을 검정한다.
     회귀모형의 잔차가 정규분포를 따르는지 Shapiro-Wilk 검정과 Jarque-Bera 검정으로 평가한다.
@@ -1844,6 +1970,9 @@ def ols_normality_test(fit, alpha: float = 0.05) -> DataFrame:
     Args:
         fit: 회귀 모형 객체 (statsmodels의 RegressionResultsWrapper).
         alpha (float, optional): 유의수준. 기본값 0.05.
+        plot (bool, optional): True이면 Q-Q 플롯을 출력. 기본값 False.
+        title (str, optional): 플롯 제목. 기본값 None.
+        save_path (str, optional): 플롯을 저장할 경로. 기본값 None
     Returns:
         DataFrame: 정규성 검정 결과를 포함한 데이터프레임.
@@ -1900,7 +2029,7 @@ def ols_normality_test(fit, alpha: float = 0.05) -> DataFrame:
     # 2. Jarque-Bera 검정 (항상 수행)
     try:
         stat_jb, p_jb = jarque_bera(residuals)
-        significant_jb = p_jb <= alpha
+        significant_jb = p_jb <= alpha  # type: ignore
         if significant_jb:
             interpretation_jb = f"정규성 위반 (p={p_jb:.4f} <= {alpha})"
@@ -1922,6 +2051,10 @@ def ols_normality_test(fit, alpha: float = 0.05) -> DataFrame:
     if not results:
         raise ValueError("정규성 검정을 수행할 수 없습니다.")
+    if plot:
+        ols_qqplot(fit, title=title, save_path=save_path)
     result_df = DataFrame(results)
     return result_df
@@ -2229,8 +2362,8 @@ def corr_pairwise(
             corr_val, pval = np.nan, np.nan
         # 4) 유의성, 강도
-        significant = False if np.isnan(pval) else pval <= alpha
-        abs_r = abs(corr_val) if not np.isnan(corr_val) else 0
+        significant = False if np.isnan(pval) else pval <= alpha    # type: ignore
+        abs_r = abs(corr_val) if not np.isnan(corr_val) else 0      # type: ignore
         if abs_r > 0.7:
             strength = "strong"
         elif abs_r > 0.3:
@@ -2397,13 +2530,13 @@ def oneway_anova(data: DataFrame, dv: str, between: str, alpha: float = 0.05) ->
         anova_df['significant'] = anova_df['p-unc'] <= alpha
     # ANOVA 결과가 유의한지 확인
-    p_unc = float(anova_df.loc[0, 'p-unc'])
+    p_unc = float(anova_df.loc[0, 'p-unc']) # type: ignore
     anova_significant = p_unc <= alpha
     # ANOVA 보고 문장 생성
     def _safe_get(col: str, default: float = np.nan) -> float:
         try:
-            return float(anova_df.loc[0, col]) if col in anova_df.columns else default
+            return float(anova_df.loc[0, col]) if col in anova_df.columns else default  # type: ignore
         except Exception:
             return default
@@ -2718,7 +2851,7 @@ def predict(fit, data: DataFrame | Series) -> DataFrame | Series | float:
         # Series 입력인 경우 단일 값 반환
         if is_series:
-            return float(predictions.iloc[0])
+            return float(predictions.iloc[0])   # type: ignore
         # DataFrame 입력인 경우
         if isinstance(data, DataFrame):
@@ -2791,8 +2924,7 @@ def corr_effect_size(data: DataFrame, dv: str, *fields: str, alpha: float = 0.05
     # fields가 지정되지 않으면 수치형 컬럼 중 dv 제외 모두 사용
     if not fields:
-        fields = [col for col in data.columns
-                 if is_numeric_dtype(data[col]) and col != dv]
+        fields = [col for col in data.columns if is_numeric_dtype(data[col]) and col != dv] # type: ignore
     # dv가 수치형인지 확인
     if not is_numeric_dtype(data[dv]):
@@ -2820,8 +2952,8 @@ def corr_effect_size(data: DataFrame, dv: str, *fields: str, alpha: float = 0.05
         normal_y_result = normal_test(data[[dv]], columns=[dv], method=method_y)
         # 정규성 판정 (p > alpha면 정규분포 가정)
-        normal_x = normal_x_result.loc[var, 'p-val'] > alpha if var in normal_x_result.index else False
-        normal_y = normal_y_result.loc[dv, 'p-val'] > alpha if dv in normal_y_result.index else False
+        normal_x = normal_x_result.loc[var, 'p-val'] > alpha if var in normal_x_result.index else False     # type: ignore
+        normal_y = normal_y_result.loc[dv, 'p-val'] > alpha if dv in normal_y_result.index else False   # type: ignore
         # Pearson (모두 정규) vs Spearman (하나라도 비정규)
         if normal_x and normal_y:
@@ -2833,8 +2965,8 @@ def corr_effect_size(data: DataFrame, dv: str, *fields: str, alpha: float = 0.05
         # Cohen's d 계산 (상관계수에서 효과크기로 변환)
         # d = 2*r / sqrt(1-r^2)
-        if r**2 < 1:
-            d = (2 * r) / np.sqrt(1 - r**2)
+        if r ** 2 < 1:    # type: ignore
+            d = (2 * r) / np.sqrt(1 - r ** 2) # type: ignore
         else:
             d = 0

hossam/hs_util.py CHANGED Viewed

@@ -122,11 +122,9 @@ def pretty_table(data: DataFrame, tablefmt="simple", headers: str = "keys") -> N
         ```
     """
-    tabulate.WIDE_CHARS_MODE = False
+    tabulate.WIDE_CHARS_MODE = False # type: ignore
     print(
-        tabulate(
-            data, headers=headers, tablefmt=tablefmt, showindex=True, numalign="right"
-        )
+        tabulate(data, headers=headers, tablefmt=tablefmt, showindex=True, numalign="right") # type: ignore
     )
@@ -167,7 +165,7 @@ def __data_info(
     if info:
         print("\n✅ 테이블 정보")
-        pretty_table(data.info(), tablefmt="pretty")
+        pretty_table(data.info(), tablefmt="pretty") # type: ignore
         print("\n✅ 상위 5개 행")
         pretty_table(data.head(), tablefmt="pretty")
@@ -229,7 +227,7 @@ def load_data(key: str,
     elif k.endswith(".csv"):
         origin = read_csv(key)
     else:
-        origin = _load_data_remote(key, local)
+        origin = _load_data_remote(key, local) # type: ignore
     if origin is None:
         raise RuntimeError("Data loading failed: origin is None")

{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: hossam
-Version: 0.4.3
+Version: 0.4.5
 Summary: Hossam Data Helper
 Author-email: Lee Kwang-Ho <leekh4232@gmail.com>
 License-Expression: MIT

hossam-0.4.5.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,16 @@
+hossam/NotoSansKR-Regular.ttf,sha256=0SCufUQwcVWrWTu75j4Lt_V2bgBJIBXl1p8iAJJYkVY,6185516
+hossam/__init__.py,sha256=OkMeP15jt6aCy7QNXMtkO0YRVvgOQYumkb7GuVKrbcs,2712
+hossam/data_loader.py,sha256=K0-MJaVeedF5x8mSp22X2rD_CZ-T185EhoUFEqzP8Ss,6352
+hossam/hs_classroom.py,sha256=rgayol3U5PSo4rLfdbClfiAtG21bFrASaSW56PUsjus,27144
+hossam/hs_gis.py,sha256=DVmndBK-_7GMK3J1_on3ieEQk1S0MfUZ8_wlX-cDdZQ,11581
+hossam/hs_plot.py,sha256=3j9B69pl-zQM_09lTXxLKAMaDM0vwOTsUWbzcU8hCK8,86228
+hossam/hs_prep.py,sha256=kCmFxnMyFZ5tLUfoE8msbwTracajHAmruJbFj6A6eIU,38020
+hossam/hs_stats.py,sha256=uGYkEk8Rb8qMoZ5FiZ7Yg6jssLIGl_EBbmwvvSYljhQ,115780
+hossam/hs_timeserise.py,sha256=gSj3cPgOGLOZEXhfW1anXbwpoJja847ZY9F8l9piJPE,42601
+hossam/hs_util.py,sha256=xuNXC6FJSAmyAbcRAUMsigCKHXM25t3H90nFMgq7IBs,8482
+hossam/leekh.png,sha256=1PB5NQ24SDoHA5KMiBBsWpSa3iniFcwFTuGwuOsTHfI,6395
+hossam-0.4.5.dist-info/licenses/LICENSE,sha256=nIqzhlcFY_2D6QtFsYjwU7BWkafo-rUJOQpDZ-DsauI,941
+hossam-0.4.5.dist-info/METADATA,sha256=HM5qrrvaFZWAyUlhgV_BLPHAcxEZdZ4gp2p3V4X4pzo,3676
+hossam-0.4.5.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+hossam-0.4.5.dist-info/top_level.txt,sha256=_-7bwjhthHplWhywEaHIJX2yL11CQCaLjCNSBlk6wiQ,7
+hossam-0.4.5.dist-info/RECORD,,

hossam-0.4.3.dist-info/RECORD DELETED Viewed

@@ -1,16 +0,0 @@
-hossam/NotoSansKR-Regular.ttf,sha256=0SCufUQwcVWrWTu75j4Lt_V2bgBJIBXl1p8iAJJYkVY,6185516
-hossam/__init__.py,sha256=OkMeP15jt6aCy7QNXMtkO0YRVvgOQYumkb7GuVKrbcs,2712
-hossam/data_loader.py,sha256=oUIsqbHQoRiHA_1tdElDaYo1ipmUB5fYSXYMB5gLOl0,6395
-hossam/hs_classroom.py,sha256=rgayol3U5PSo4rLfdbClfiAtG21bFrASaSW56PUsjus,27144
-hossam/hs_gis.py,sha256=DLogaf5nxJBbG-d8QoH2g8UfZ1omMtmEXDYgNg8jtT0,11410
-hossam/hs_plot.py,sha256=A_nS8dP4cijp7LZs253SWxfBUp5qvvTlSPGKjDj0BIA,83712
-hossam/hs_prep.py,sha256=2ptFFxV4G1IFmy-B89TqXaPkA8jROZutr2XIkaXNHW4,36006
-hossam/hs_stats.py,sha256=qAor-RE5qNsytoZW1mriK3yql9PVif5bBGyG64YC2PM,110780
-hossam/hs_timeserise.py,sha256=gSj3cPgOGLOZEXhfW1anXbwpoJja847ZY9F8l9piJPE,42601
-hossam/hs_util.py,sha256=8byLj_VR93vS__lyf0xgQKArgMy9qFm2VvZVSCxfQX0,8444
-hossam/leekh.png,sha256=1PB5NQ24SDoHA5KMiBBsWpSa3iniFcwFTuGwuOsTHfI,6395
-hossam-0.4.3.dist-info/licenses/LICENSE,sha256=nIqzhlcFY_2D6QtFsYjwU7BWkafo-rUJOQpDZ-DsauI,941
-hossam-0.4.3.dist-info/METADATA,sha256=0VAI5TJKWSFwZriKBYnf5a4MSB5cdOLUh9lV_vYDPJY,3676
-hossam-0.4.3.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-hossam-0.4.3.dist-info/top_level.txt,sha256=_-7bwjhthHplWhywEaHIJX2yL11CQCaLjCNSBlk6wiQ,7
-hossam-0.4.3.dist-info/RECORD,,

{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/WHEEL RENAMED Viewed

File without changes

{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{hossam-0.4.3.dist-info → hossam-0.4.5.dist-info}/top_level.txt RENAMED Viewed

File without changes

hossam 0.4.3__py3-none-any.whl → 0.4.5__py3-none-any.whl

hossam 0.4.3py3-none-any.whl → 0.4.5py3-none-any.whl