PyPI - hossam - Versions diffs - 0.3.16__tar.gz → 0.3.17__tar.gz - Mend

hossam 0.3.16tar.gz → 0.3.17tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (36) hide show

hossam-0.3.17/PKG-INFO +205 -0
hossam-0.3.17/README.md +167 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/__init__.py +9 -5
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_prep.py +3 -3
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_stats.py +149 -13
hossam-0.3.17/hossam/mcp/__init__.py +12 -0
hossam-0.3.17/hossam/mcp/hs_classroom.py +22 -0
hossam-0.3.17/hossam/mcp/hs_gis.py +30 -0
hossam-0.3.17/hossam/mcp/hs_plot.py +53 -0
hossam-0.3.17/hossam/mcp/hs_prep.py +61 -0
hossam-0.3.17/hossam/mcp/hs_stats.py +25 -0
hossam-0.3.17/hossam/mcp/hs_timeserise.py +22 -0
hossam-0.3.17/hossam/mcp/hs_util.py +30 -0
hossam-0.3.17/hossam/mcp/loader.py +29 -0
hossam-0.3.17/hossam/mcp/server.py +675 -0
hossam-0.3.17/hossam.egg-info/PKG-INFO +205 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam.egg-info/SOURCES.txt +12 -1
hossam-0.3.17/hossam.egg-info/entry_points.txt +2 -0
{hossam-0.3.16 → hossam-0.3.17}/pyproject.toml +4 -1
hossam-0.3.16/PKG-INFO +0 -636
hossam-0.3.16/README.md +0 -598
hossam-0.3.16/hossam.egg-info/PKG-INFO +0 -636
{hossam-0.3.16 → hossam-0.3.17}/LICENSE +0 -0
{hossam-0.3.16 → hossam-0.3.17}/MANIFEST.in +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/NotoSansKR-Regular.ttf +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/data_loader.py +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_classroom.py +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_gis.py +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_plot.py +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_timeserise.py +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_util.py +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam/leekh.png +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam.egg-info/dependency_links.txt +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam.egg-info/requires.txt +0 -0
{hossam-0.3.16 → hossam-0.3.17}/hossam.egg-info/top_level.txt +0 -0
{hossam-0.3.16 → hossam-0.3.17}/setup.cfg +0 -0

hossam-0.3.17/PKG-INFO ADDED Viewed

@@ -0,0 +1,205 @@
+Metadata-Version: 2.4
+Name: hossam
+Version: 0.3.17
+Summary: Hossam Data Helper
+Author-email: Lee Kwang-Ho <leekh4232@gmail.com>
+License-Expression: MIT
+Project-URL: Homepage, https://github.com/leekh4232/hossam-py
+Project-URL: Repository, https://github.com/leekh4232/hossam-py
+Keywords: data,analysis,helper,hossam,tensorflow
+Classifier: Development Status :: 3 - Alpha
+Classifier: Intended Audience :: Developers
+Classifier: Topic :: Software Development :: Libraries
+Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3 :: Only
+Requires-Python: >=3.11
+Description-Content-Type: text/markdown
+License-File: LICENSE
+Requires-Dist: tqdm
+Requires-Dist: tabulate
+Requires-Dist: pandas
+Requires-Dist: matplotlib
+Requires-Dist: seaborn
+Requires-Dist: requests
+Requires-Dist: openpyxl
+Requires-Dist: xlrd
+Requires-Dist: statsmodels
+Requires-Dist: scipy
+Requires-Dist: scikit-learn
+Requires-Dist: pingouin
+Requires-Dist: statannotations
+Requires-Dist: joblib
+Requires-Dist: geopandas
+Requires-Dist: kmodes
+Requires-Dist: pmdarima
+Requires-Dist: prophet
+Requires-Dist: plotly
+Dynamic: license-file
+---
+title: 🎓 Hossam Data Helper
+---
+# 🎓 Hossam Data Helper
+[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue.svg)](https://www.python.org/downloads/)
+[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
+[![Version](https://img.shields.io/badge/version-0.3.8-green.svg)](https://pypi.org/project/hossam/)
+[![Documentation](https://img.shields.io/badge/docs-py.hossam.kr-blue.svg)](https://py.hossam.kr)
+**Hossam**은 데이터 분석, 시각화, 통계 처리를 위한 종합 헬퍼 라이브러리입니다.
+아이티윌(ITWILL)에서 진행 중인 머신러닝 및 데이터 분석 수업을 위해 개발되었으며, 이광호 강사의 강의에서 활용됩니다.
+## ✨ 주요 특징
+- 📊 **풍부한 시각화**: 25+ 시각화 함수 (Seaborn/Matplotlib 기반)
+- 🎯 **통계 분석**: 회귀, 분류, 시계열 분석 도구
+- 📦 **샘플 데이터**: 학습용 데이터셋 즉시 로드
+- 🔧 **데이터 전처리**: 결측치 처리, 이상치 탐지, 스케일링
+- 🤖 **MCP 서버**: VSCode/Copilot과 통합 가능한 Model Context Protocol 지원
+- 📈 **교육용 최적화**: 데이터 분석 교육에 특화된 설계
+---
+## 📦 설치
+```bash
+pip install hossam
+```
+**요구사항**: Python 3.8 이상
+---
+## 🚀 빠른 시작
+### 샘플 데이터 로드
+```python
+from hossam import load_data, load_info
+# 사용 가능한 데이터셋 확인
+datasets = load_info()
+# 데이터 로드
+df = load_data('AD_SALES')
+```
+### 간단한 시각화
+```python
+from hossam import hs_plot
+import pandas as pd
+import numpy as np
+df = pd.DataFrame({
+    'x': np.random.randn(100),
+    'y': np.random.randn(100),
+    'category': np.random.choice(['A', 'B', 'C'], 100)
+})
+# 산점도
+hs_plot.scatterplot(df=df, xname='x', yname='y', hue='category')
+# 박스플롯
+hs_plot.boxplot(df=df, xname='category', yname='x')
+```
+---
+## 🤖 MCP Server
+Hossam은 **Model Context Protocol(MCP)** 기반 서버로도 작동하며, VSCode Copilot/Cline과 통합하여 데이터 분석 코드를 자동 생성할 수 있습니다.
+### 빠른 시작
+```bash
+# 서버 시작
+hossam-mcp
+```
+### VSCode + Copilot 연동
+VSCode에서 Copilot과 함께 사용하려면 `.vscode/settings.json` 설정이 필요합니다.
+**Copilot Chat에서 사용:**
+```
+@hossam 이 DataFrame의 결측치를 분석하고 처리하는 코드 작성해줘
+```
+**설정 가이드:**
+- [`.vscode/settings.json` 완성형 샘플](https://py.hossam.kr/guides/vscode-settings-sample/) ⭐
+- [VSCode + Copilot 연동 상세](https://py.hossam.kr/guides/vscode-copilot-integration/)
+- [MCP 서버 사용법](https://py.hossam.kr/guides/mcp/)
+- [Copilot Chat 프롬프트 예시](https://py.hossam.kr/guides/copilot-prompts/)
+---
+## 📚 전체 문서
+**완전한 API 문서와 가이드는 [py.hossam.kr](https://py.hossam.kr)에서 확인하세요.**
+### 주요 모듈
+- **hs_plot**: 25+ 시각화 함수 (선 그래프, 산점도, 히스토그램, 박스플롯, 히트맵 등)
+- **hs_stats**: 회귀/분류 분석, 교차검증, 정규성 검정, 상관분석 등
+- **hs_prep**: 결측치 처리, 이상치 탐지, 스케일링, 인코딩
+- **hs_gis**: GIS 데이터 로드 및 시각화 (대한민국 지도 지원)
+- **hs_classroom**: 학습용 이진분류, 다중분류, 회귀 데이터 생성
+- **hs_util**: 예쁜 테이블 출력, 그리드 서치 등
+자세한 사용법은 [API 문서](https://py.hossam.kr/api/hossam/)를 참고하세요.
+---
+## 🎓 예제
+### 결측치 분석
+```python
+from hossam import hs_prep
+# 결측치 정보 확인
+hs_prep.hs_missing_values(df)
+# 결측치 시각화
+hs_prep.hs_missing_values_barplot(df)
+```
+### 회귀 분석
+```python
+from hossam import hs_stats
+# 단순 선형 회귀
+result = hs_stats.hs_simple_regression(df, xname='x', yname='y', plot=True)
+```
+### 상관분석 히트맵
+```python
+from hossam import hs_plot
+hs_plot.heatmap(df=df, annot=True, cmap='coolwarm')
+```
+더 많은 예제는 [문서 사이트](https://py.hossam.kr)를 참고하세요.
+---
+## 📄 라이선스
+이 프로젝트는 MIT 라이선스를 따릅니다. 자유롭게 사용, 수정, 배포할 수 있습니다.
+---
+## 🔗 링크
+- **문서**: [py.hossam.kr](https://py.hossam.kr)
+- **PyPI**: [pypi.org/project/hossam](https://pypi.org/project/hossam/)
+- **강사**: 이광호 (ITWILL 머신러닝 및 데이터 분석)
+---
+**Made with ❤️ for Data Science Education**

hossam-0.3.17/README.md ADDED Viewed

@@ -0,0 +1,167 @@
+---
+title: 🎓 Hossam Data Helper
+---
+# 🎓 Hossam Data Helper
+[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue.svg)](https://www.python.org/downloads/)
+[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT)
+[![Version](https://img.shields.io/badge/version-0.3.8-green.svg)](https://pypi.org/project/hossam/)
+[![Documentation](https://img.shields.io/badge/docs-py.hossam.kr-blue.svg)](https://py.hossam.kr)
+**Hossam**은 데이터 분석, 시각화, 통계 처리를 위한 종합 헬퍼 라이브러리입니다.
+아이티윌(ITWILL)에서 진행 중인 머신러닝 및 데이터 분석 수업을 위해 개발되었으며, 이광호 강사의 강의에서 활용됩니다.
+## ✨ 주요 특징
+- 📊 **풍부한 시각화**: 25+ 시각화 함수 (Seaborn/Matplotlib 기반)
+- 🎯 **통계 분석**: 회귀, 분류, 시계열 분석 도구
+- 📦 **샘플 데이터**: 학습용 데이터셋 즉시 로드
+- 🔧 **데이터 전처리**: 결측치 처리, 이상치 탐지, 스케일링
+- 🤖 **MCP 서버**: VSCode/Copilot과 통합 가능한 Model Context Protocol 지원
+- 📈 **교육용 최적화**: 데이터 분석 교육에 특화된 설계
+---
+## 📦 설치
+```bash
+pip install hossam
+```
+**요구사항**: Python 3.8 이상
+---
+## 🚀 빠른 시작
+### 샘플 데이터 로드
+```python
+from hossam import load_data, load_info
+# 사용 가능한 데이터셋 확인
+datasets = load_info()
+# 데이터 로드
+df = load_data('AD_SALES')
+```
+### 간단한 시각화
+```python
+from hossam import hs_plot
+import pandas as pd
+import numpy as np
+df = pd.DataFrame({
+    'x': np.random.randn(100),
+    'y': np.random.randn(100),
+    'category': np.random.choice(['A', 'B', 'C'], 100)
+})
+# 산점도
+hs_plot.scatterplot(df=df, xname='x', yname='y', hue='category')
+# 박스플롯
+hs_plot.boxplot(df=df, xname='category', yname='x')
+```
+---
+## 🤖 MCP Server
+Hossam은 **Model Context Protocol(MCP)** 기반 서버로도 작동하며, VSCode Copilot/Cline과 통합하여 데이터 분석 코드를 자동 생성할 수 있습니다.
+### 빠른 시작
+```bash
+# 서버 시작
+hossam-mcp
+```
+### VSCode + Copilot 연동
+VSCode에서 Copilot과 함께 사용하려면 `.vscode/settings.json` 설정이 필요합니다.
+**Copilot Chat에서 사용:**
+```
+@hossam 이 DataFrame의 결측치를 분석하고 처리하는 코드 작성해줘
+```
+**설정 가이드:**
+- [`.vscode/settings.json` 완성형 샘플](https://py.hossam.kr/guides/vscode-settings-sample/) ⭐
+- [VSCode + Copilot 연동 상세](https://py.hossam.kr/guides/vscode-copilot-integration/)
+- [MCP 서버 사용법](https://py.hossam.kr/guides/mcp/)
+- [Copilot Chat 프롬프트 예시](https://py.hossam.kr/guides/copilot-prompts/)
+---
+## 📚 전체 문서
+**완전한 API 문서와 가이드는 [py.hossam.kr](https://py.hossam.kr)에서 확인하세요.**
+### 주요 모듈
+- **hs_plot**: 25+ 시각화 함수 (선 그래프, 산점도, 히스토그램, 박스플롯, 히트맵 등)
+- **hs_stats**: 회귀/분류 분석, 교차검증, 정규성 검정, 상관분석 등
+- **hs_prep**: 결측치 처리, 이상치 탐지, 스케일링, 인코딩
+- **hs_gis**: GIS 데이터 로드 및 시각화 (대한민국 지도 지원)
+- **hs_classroom**: 학습용 이진분류, 다중분류, 회귀 데이터 생성
+- **hs_util**: 예쁜 테이블 출력, 그리드 서치 등
+자세한 사용법은 [API 문서](https://py.hossam.kr/api/hossam/)를 참고하세요.
+---
+## 🎓 예제
+### 결측치 분석
+```python
+from hossam import hs_prep
+# 결측치 정보 확인
+hs_prep.hs_missing_values(df)
+# 결측치 시각화
+hs_prep.hs_missing_values_barplot(df)
+```
+### 회귀 분석
+```python
+from hossam import hs_stats
+# 단순 선형 회귀
+result = hs_stats.hs_simple_regression(df, xname='x', yname='y', plot=True)
+```
+### 상관분석 히트맵
+```python
+from hossam import hs_plot
+hs_plot.heatmap(df=df, annot=True, cmap='coolwarm')
+```
+더 많은 예제는 [문서 사이트](https://py.hossam.kr)를 참고하세요.
+---
+## 📄 라이선스
+이 프로젝트는 MIT 라이선스를 따릅니다. 자유롭게 사용, 수정, 배포할 수 있습니다.
+---
+## 🔗 링크
+- **문서**: [py.hossam.kr](https://py.hossam.kr)
+- **PyPI**: [pypi.org/project/hossam](https://pypi.org/project/hossam/)
+- **강사**: 이광호 (ITWILL 머신러닝 및 데이터 분석)
+---
+**Made with ❤️ for Data Science Education**

{hossam-0.3.16 → hossam-0.3.17}/hossam/__init__.py RENAMED Viewed

@@ -5,6 +5,7 @@ from matplotlib import font_manager as fm
 from importlib.resources import files, as_file
 from importlib.metadata import version
 from types import SimpleNamespace
+import sys
 import warnings
 try:
@@ -56,9 +57,10 @@ def _init_korean_font():
                 "pdf.fonttype": 42,
                 "ps.fonttype": 42,
             })
-            print(
-                "\n✅ 시각화를 위한 한글 글꼴(NotoSansKR-Regular)이 자동 적용되었습니다."
-            )
+            if sys.stdout.isatty():
+                print(
+                    "\n✅ 시각화를 위한 한글 글꼴(NotoSansKR-Regular)이 자동 적용되었습니다."
+                )
             return
     except Exception as e:
         warnings.warn(f"\n한글 폰트 초기화: 패키지 폰트 사용 실패 ({e}).")
@@ -76,8 +78,10 @@ def _init():
         f"🔖 Version: {__version__}",
     ]
-    for msg in messages:
-        print(f"{msg}")
+    # MCP/stdio 환경에서는 배너를 출력하지 않음 (stdout TTY일 때만 출력)
+    if sys.stdout.isatty():
+        for msg in messages:
+            print(f"{msg}")
     _init_korean_font()

{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_prep.py RENAMED Viewed

@@ -440,11 +440,11 @@ def bin_continuous(
     지원 방법:
     - "natural_breaks"(기본): Jenks 자연 구간화. jenkspy 미사용 시 quantile로 대체
-      기본 라벨: "X~Y" 형식 (예: "18~30", "30~40")
+      기본 라벨: "X-Y" 형식 (예: "18-30", "30-40")
     - "quantile"/"qcut"/"equal_freq": 분위수 기반 동빈도
-      기본 라벨: "X~Y" 형식
+      기본 라벨: "X-Y" 형식
     - "equal_width"/"uniform": 동일 간격
-      기본 라벨: "X~Y" 형식
+      기본 라벨: "X-Y" 형식
     - "std": 평균±표준편차를 경계로 4구간 생성
       라벨: "low", "mid_low", "mid_high", "high"
     - "lifecourse"/"life_stage": 생애주기 5단계

{hossam-0.3.16 → hossam-0.3.17}/hossam/hs_stats.py RENAMED Viewed

@@ -6,7 +6,7 @@ import numpy as np
 from typing import Tuple
 from itertools import combinations
 from pandas import DataFrame, Series, concat
-from pandas.api.types import is_bool_dtype
+from pandas.api.types import is_bool_dtype, is_numeric_dtype
 from sklearn.metrics import (
     confusion_matrix,
@@ -274,7 +274,7 @@ def category_table(data: DataFrame, *fields: str):
 # ===================================================================
 # 범주형 변수 요약 (Categorical Variable Summary)
 # ===================================================================
-def category_summary(data: DataFrame, *fields: str):
+def category_describe(data: DataFrame, *fields: str):
     """데이터프레임의 명목형(범주형) 변수에 대한 분포 편향을 요약한다.
     각 명목형 컬럼의 최다 범주와 최소 범주의 정보를 요약하여 데이터프레임으로 반환한다.
@@ -296,19 +296,19 @@ def category_summary(data: DataFrame, *fields: str):
     Examples:
         전체 명목형 컬럼에 대한 분포 편향 요약:
-        >>> from hossam import category_summary
+        >>> from hossam import category_describe
         >>> import pandas as pd
         >>> df = pd.DataFrame({
         ...     'cut': ['Ideal', 'Premium', 'Good', 'Ideal', 'Premium'],
         ...     'color': ['E', 'F', 'G', 'E', 'F'],
         ...     'price': [100, 200, 150, 300, 120]
         ... })
-        >>> result = category_summary(df)
+        >>> result = category_describe(df)
         >>> print(result)
         특정 컬럼만 분석:
-        >>> result = category_summary(df, 'cut', 'color')
+        >>> result = category_describe(df, 'cut', 'color')
         >>> print(result)
     Notes:
@@ -360,6 +360,16 @@ def category_summary(data: DataFrame, *fields: str):
     return DataFrame(result)
+# -------------------------------------------------------------------
+# Backward-compatibility alias for categorical summary
+# 기존 함수명(category_summary)을 계속 지원합니다.
+def category_summary(data: DataFrame, *fields: str):
+    """Deprecated alias for category_describe.
+    기존 코드 호환을 위해 유지됩니다. 내부적으로 category_describe를 호출합니다.
+    """
+    return category_describe(data, *fields)
 # ===================================================================
 # 정규성 검정 (Normal Test)
 # ===================================================================
@@ -443,7 +453,7 @@ def normal_test(data: DataFrame, columns: list | str | None = None, method: str
             if method == "n":
                 method_name = "normaltest"
                 s, p = normaltest(col_data)
-            else:  # method == "s"
+            else:
                 method_name = "shapiro"
                 s, p = shapiro(col_data)
@@ -1028,6 +1038,16 @@ def vif_filter(
     return result
+# -------------------------------------------------------------------
+# Backward-compatibility alias for describe (typo support)
+# 오타(discribe)로 사용된 경우를 지원하여 혼란을 줄입니다.
+def discribe(data: DataFrame, *fields: str, columns: list = None):
+    """Deprecated alias for describe.
+    내부적으로 describe를 호출합니다.
+    """
+    return describe(data, *fields, columns=columns)
 # ===================================================================
 # x, y 데이터에 대한 추세선을 구한다.
@@ -1298,14 +1318,14 @@ def ols(df: DataFrame, yname: str, report=False):
         ...     'x2': np.random.normal(0, 1, 100)
         ... })
         >>> # 적합 결과만 반환
-        >>> fit = hs_linear(df, 'target')
+        >>> fit = hs_ols(df, 'target')
         >>> print(fit.summary())
         >>> # 요약 리포트 반환
-        >>> fit, rdf, result_report, model_report, var_reports, eq = hs_linear(df, 'target', report=1)
+        >>> fit, result, features = hs_ols(df, 'target', report=1)
         >>> # 풀 리포트 반환
-        >>> fit, pdf, rdf, result_report, model_report, var_reports, eq = hs_linear(df, 'target', report=2)
+        >>> fit, pdf, rdf, result_report, model_report, var_reports, eq = hs_ols(df, 'target', report=2)
     """
     x = df.drop(yname, axis=1)
     y = df[yname]
@@ -1320,8 +1340,8 @@ def ols(df: DataFrame, yname: str, report=False):
         return linear_fit
     elif report == 1 or report == 'summary':
         # 요약 리포트 (full=False)
-        result = ols_report(linear_fit, df, full=False, alpha=0.05)
-        return linear_fit, result
+        pdf, rdf, result_report, model_report, variable_reports, equation_text = ols_report(linear_fit, df, full=True, alpha=0.05)
+        return linear_fit, pdf, rdf
     elif report == 2 or report == 'full' or report is True:
         # 풀 리포트 (full=True)
         pdf, rdf, result_report, model_report, variable_reports, equation_text = ols_report(linear_fit, df, full=True, alpha=0.05)
@@ -2094,7 +2114,7 @@ def corr_pairwise(
         cols = data.select_dtypes(include=[np.number]).columns.tolist()
     else:
         # fields 리스트에서 데이터에 있는 것만 선택하되, 숫자형만 필터링
-        cols = [c for c in fields if c in data.columns and pd.api.types.is_numeric_dtype(data[c])]
+        cols = [c for c in fields if c in data.columns and is_numeric_dtype(data[c])]
     # 사용 가능한 컬럼이 2개 미만이면 상관분석 불가능
     if len(cols) < 2:
@@ -2707,7 +2727,7 @@ def predict(fit, data: DataFrame | Series) -> DataFrame | Series | float:
 # ===================================================================
 # 확장된 기술통계량 (Extended Descriptive Statistics)
 # ===================================================================
-def summary(data: DataFrame, *fields: str, columns: list = None):
+def describe(data: DataFrame, *fields: str, columns: list = None):
     """데이터프레임의 연속형 변수에 대한 확장된 기술통계량을 반환한다.
     각 연속형(숫자형) 컬럼의 기술통계량(describe)을 구하고, 이에 사분위수 범위(IQR),
@@ -2854,3 +2874,119 @@ def summary(data: DataFrame, *fields: str, columns: list = None):
         result = result[columns]
     return result
+# ===================================================================
+# 상관계수 및 효과크기 분석 (Correlation & Effect Size)
+# ===================================================================
+def corr_effect_size(data: DataFrame, dv: str, *fields: str, alpha: float = 0.05) -> DataFrame:
+    """종속변수와의 편상관계수 및 효과크기를 계산한다.
+    각 독립변수와 종속변수 간의 상관계수를 계산하되, 정규성과 선형성을 검사하여
+    Pearson 또는 Spearman 상관계수를 적절히 선택한다.
+    Cohen's d (효과크기)를 계산하여 상관 강도를 정량화한다.
+    Args:
+        data (DataFrame): 분석 대상 데이터프레임.
+        dv (str): 종속변수 컬럼 이름.
+        *fields (str): 독립변수 컬럼 이름들. 지정하지 않으면 수치형 컬럼 중 dv 제외 모두 사용.
+        alpha (float, optional): 유의수준. 기본 0.05.
+    Returns:
+        DataFrame: 다음 컬럼을 포함한 데이터프레임:
+            - Variable (str): 독립변수 이름
+            - Correlation (float): 상관계수 (Pearson 또는 Spearman)
+            - Corr_Type (str): 선택된 상관계수 종류 ('Pearson' 또는 'Spearman')
+            - P-value (float): 상관계수의 유의확률
+            - Cohens_d (float): 표준화된 효과크기
+            - Effect_Size (str): 효과크기 분류 ('Large', 'Medium', 'Small', 'Negligible')
+    Examples:
+        >>> from hossam import hs_stats
+        >>> import pandas as pd
+        >>> df = pd.DataFrame({'age': [20, 30, 40, 50],
+        ...                     'bmi': [22, 25, 28, 30],
+        ...                     'charges': [1000, 2000, 3000, 4000]})
+        >>> result = hs_stats.corr_effect_size(df, 'charges', 'age', 'bmi')
+        >>> print(result)
+    """
+    # fields가 지정되지 않으면 수치형 컬럼 중 dv 제외 모두 사용
+    if not fields:
+        fields = [col for col in data.columns
+                 if is_numeric_dtype(data[col]) and col != dv]
+    # dv가 수치형인지 확인
+    if not is_numeric_dtype(data[dv]):
+        raise ValueError(f"Dependent variable '{dv}' must be numeric type")
+    results = []
+    for var in fields:
+        if not is_numeric_dtype(data[var]):
+            continue
+        # 결측치 제거
+        valid_idx = data[[var, dv]].notna().all(axis=1)
+        x = data.loc[valid_idx, var].values
+        y = data.loc[valid_idx, dv].values
+        if len(x) < 3:
+            continue
+        # 정규성 검사 (Shapiro-Wilk: n <= 5000 권장, 그 외 D'Agostino)
+        method_x = 's' if len(x) <= 5000 else 'n'
+        method_y = 's' if len(y) <= 5000 else 'n'
+        normal_x_result = normal_test(data[[var]], columns=[var], method=method_x)
+        normal_y_result = normal_test(data[[dv]], columns=[dv], method=method_y)
+        # 정규성 판정 (p > alpha면 정규분포 가정)
+        normal_x = normal_x_result.loc[var, 'p-val'] > alpha if var in normal_x_result.index else False
+        normal_y = normal_y_result.loc[dv, 'p-val'] > alpha if dv in normal_y_result.index else False
+        # Pearson (모두 정규) vs Spearman (하나라도 비정규)
+        if normal_x and normal_y:
+            r, p = pearsonr(x, y)
+            corr_type = 'Pearson'
+        else:
+            r, p = spearmanr(x, y)
+            corr_type = 'Spearman'
+        # Cohen's d 계산 (상관계수에서 효과크기로 변환)
+        # d = 2*r / sqrt(1-r^2)
+        if r**2 < 1:
+            d = (2 * r) / np.sqrt(1 - r**2)
+        else:
+            d = 0
+        # 효과크기 분류 (Cohen's d 기준)
+        # Small: 0.2 < |d| <= 0.5
+        # Medium: 0.5 < |d| <= 0.8
+        # Large: |d| > 0.8
+        abs_d = abs(d)
+        if abs_d > 0.8:
+            effect_size = 'Large'
+        elif abs_d > 0.5:
+            effect_size = 'Medium'
+        elif abs_d > 0.2:
+            effect_size = 'Small'
+        else:
+            effect_size = 'Negligible'
+        results.append({
+            'Variable': var,
+            'Correlation': r,
+            'Corr_Type': corr_type,
+            'P-value': p,
+            'Cohens_d': d,
+            'Effect_Size': effect_size
+        })
+    result_df = DataFrame(results)
+    # 상관계수로 정렬 (절댓값 기준 내림차순)
+    if len(result_df) > 0:
+        result_df = result_df.sort_values('Correlation', key=lambda x: x.abs(), ascending=False).reset_index(drop=True)
+    return result_df

hossam-0.3.17/hossam/mcp/__init__.py ADDED Viewed

@@ -0,0 +1,12 @@
+# -*- coding: utf-8 -*-
+"""
+Hossam MCP Layer
+- 기존 공개 API는 유지하며, MCP 관련 코드는 이 패키지 내부에만 위치합니다.
+- 서버는 명시적 엔트리포인트로만 실행됩니다 (`hossam-mcp`).
+- 각 모듈별 `register(mcp)` 함수를 통해 MCP tool을 등록합니다.
+"""
+__all__ = [
+    "server",
+]

hossam 0.3.16__tar.gz → 0.3.17__tar.gz

hossam 0.3.16tar.gz → 0.3.17tar.gz