npm - dantelabs-agentic-school - Versions diffs - 1.3.1 → 1.4.0 - Mend

dantelabs-agentic-school 1.3.1 → 1.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (120) hide show

package/plugins/data-science/data-profiling/README.md ADDED Viewed

@@ -0,0 +1,297 @@
+# Data Profiling Plugin
+데이터 품질 검증 및 자동화된 탐색적 데이터 분석(EDA)을 수행하는 플러그인입니다.
+## 📋 개요
+이 플러그인은 데이터 사이언스 파이프라인의 첫 단계로, 데이터셋을 자동으로 분석하여 다음을 제공합니다:
+### 1️⃣ 프로파일링 (Profiling)
+- ✅ 데이터 품질 검증 (결측치, 중복, 이상치)
+- ✅ 통계적 분석 (분포, 상관관계, 왜도/첨도)
+- ✅ 자동 시각화 (히스토그램, 상관관계 히트맵 등)
+- ✅ **HTML 리포트 생성 및 브라우저 자동 오픈**
+### 2️⃣ EDA 분석 (Analysis) ⭐ NEW
+- ✅ 프로파일링 리포트 심층 분석
+- ✅ 데이터 전처리 지침 (우선순위별, 코드 포함)
+- ✅ 추가 분석 권고사항 (Feature importance, SHAP 등)
+- ✅ 모델링 전략 (알고리즘, 평가지표, 하이퍼파라미터)
+- ✅ **A4 한 장 분량 Markdown 레포트** (PDF 변환 가능)
+## 🚀 빠른 시작
+### 1. 의존성 설치
+**uv 사용 (권장 - 10-100배 빠름)**:
+```bash
+# uv 설치 (한 번만)
+curl -LsSf https://astral.sh/uv/install.sh | sh
+# 또는 macOS
+brew install uv
+# 패키지 설치
+cd plugins/data-profiling/skills/profiling
+uv pip install -r requirements.txt
+```
+**pip 사용 (기존 방식)**:
+```bash
+cd plugins/data-profiling/skills/profiling
+pip install -r requirements.txt
+```
+### 2. 데이터 프로파일링
+```bash
+# Claude Code에서 실행
+/profile-data \
+  --data-path "projects/creditcard-fraud-detection/data/raw/creditcard.csv" \
+  --target-column "Class"
+# 또는 Python 스크립트 직접 실행
+cd plugins/data-profiling/skills/profiling/scripts
+python generate_profile.py \
+  --data-path "../../../../../projects/creditcard-fraud-detection/data/raw/creditcard.csv" \
+  --target-column "Class" \
+  --mode explorative
+```
+**출력**: `projects/creditcard-fraud-detection/outputs/reports/creditcard_profile_report.html` (브라우저 자동 오픈)
+### 3. EDA 분석 레포트 생성 ⭐ NEW
+```bash
+# Claude Code에서 실행
+/analyze-profile \
+  --data-path "projects/creditcard-fraud-detection/data/raw/creditcard.csv" \
+  --target-column "Class"
+# 또는 Python 스크립트 직접 실행
+python analyze_eda.py \
+  --data-path "../../../../../projects/creditcard-fraud-detection/data/raw/creditcard.csv" \
+  --target-column "Class" \
+  --output-format markdown
+```
+**출력**: `projects/creditcard-fraud-detection/outputs/reports/creditcard_eda_report.md` (A4 한 장 분량)
+## 📁 플러그인 구조
+```
+plugins/data-profiling/
+├── plugin.json                  # 플러그인 메타데이터
+├── README.md                    # 플러그인 문서
+├── agents/
+│   ├── data-profiler.md         # 프로파일링 에이전트
+│   └── eda-analyst.md          # ⭐ EDA 분석 에이전트 (NEW)
+├── commands/
+│   ├── profile-data.md          # 프로파일링 커맨드
+│   └── analyze-profile.md      # ⭐ EDA 분석 커맨드 (NEW)
+└── skills/
+    └── profiling/
+        ├── SKILL.md             # 스킬 문서
+        ├── requirements.txt     # Python 패키지 의존성
+        └── scripts/
+            ├── generate_profile.py  # 프로파일링 스크립트
+            └── analyze_eda.py      # ⭐ EDA 분석 스크립트 (NEW)
+```
+## 🎯 주요 기능
+### 1. 자동화된 EDA
+- ydata-profiling을 사용한 종합 분석
+- 30+ 통계 지표 자동 계산
+- 인터랙티브 시각화
+### 2. 브라우저 자동 오픈
+- HTML 리포트 생성 후 자동으로 브라우저에서 오픈
+- macOS, Linux, Windows 모두 지원
+### 3. 커스텀 분석
+- 클래스 불균형 탐지
+- 스케일 차이 경고
+- 높은 상관관계 감지
+### 4. 성능 최적화
+- 대용량 데이터 샘플링 지원
+- 3가지 프로파일링 모드 (minimal, default, explorative)
+## 📊 사용 예시
+### Example 1: 기본 프로파일링
+```bash
+/profile-data --data-path "projects/my-analysis/data/raw/data.csv"
+```
+### Example 2: 타겟 컬럼 지정 (분류 문제)
+```bash
+/profile-data \
+  --data-path "projects/creditcard-fraud-detection/data/raw/creditcard.csv" \
+  --target-column "Class"
+```
+### Example 3: 대용량 데이터 샘플링
+```bash
+/profile-data \
+  --data-path "projects/big-data-analysis/data/raw/large_data.csv" \
+  --sample-size 50000 \
+  --mode minimal
+```
+### Example 4: 브라우저 자동 오픈 비활성화
+```bash
+python generate_profile.py \
+  --data-path "projects/my-analysis/data/raw/data.csv" \
+  --no-browser
+```
+## 📈 프로파일링 모드
+| 모드 | 실행 시간 | 세부 수준 | 권장 상황 |
+|------|---------|---------|---------|
+| **minimal** | ~1분 | 기본 통계만 | 빠른 데이터 확인 |
+| **default** | ~3분 | 표준 분석 | 일반적인 EDA |
+| **explorative** | ~5-10분 | 모든 분석 포함 | 심도있는 분석 |
+## 🔧 파라미터
+### 필수 파라미터
+- `--data-path`: 분석할 데이터 파일 경로
+### 선택 파라미터
+- `--target-column`: 타겟 변수 컬럼명 (분류/회귀 문제)
+- `--sample-size`: 샘플링 크기 (대용량 데이터)
+- `--mode`: 프로파일링 모드 (minimal/default/explorative)
+- `--output-dir`: 리포트 저장 디렉토리 (기본값: outputs/reports)
+- `--no-browser`: 브라우저 자동 오픈 비활성화
+## 📤 출력
+### HTML 리포트
+- **위치**: `projects/{project-name}/outputs/reports/{dataset_name}_profile_report.html`
+- **포함 내용**:
+  - Overview (데이터셋 개요)
+  - Variables (변수별 상세 분석)
+  - Interactions (변수 간 상호작용)
+  - Correlations (상관관계 매트릭스)
+  - Missing values (결측치 패턴)
+  - Alerts (데이터 품질 경고)
+### 콘솔 출력
+- 기본 정보 (행/열 개수, 메모리)
+- 클래스 분포 (타겟 컬럼이 있는 경우)
+- 주요 발견사항
+- 권고사항
+- 다음 단계 안내
+## 🎨 출력 예시
+```
+═══════════════════════════════════════════════════════════
+데이터 프로파일링 시작
+═══════════════════════════════════════════════════════════
+✓ 데이터 로드 완료: 284,807건, 31개 컬럼
+✓ 메모리 사용량: 67.4 MB
+─────────────────────────────────────────────────────────
+기본 정보
+─────────────────────────────────────────────────────────
+전체 행 수: 284,807건
+전체 열 수: 31개
+메모리 사용량: 67.4 MB
+결측치: 0개
+타겟 컬럼: Class
+클래스 분포:
+  클래스 0: 284,315건 (99.83%)
+  클래스 1: 492건 (0.17%)
+  불균형 비율: 1:578
+─────────────────────────────────────────────────────────
+프로파일링 리포트 생성 중...
+─────────────────────────────────────────────────────────
+모드: explorative
+⏳ 수 분 소요될 수 있습니다...
+✓ 완료!
+📊 리포트 저장 위치: projects/creditcard-fraud-detection/outputs/reports/creditcard_profile_report.html
+🌐 브라우저에서 리포트를 여는 중...
+✓ 브라우저에서 리포트가 열렸습니다.
+─────────────────────────────────────────────────────────
+⚠️  주요 발견사항 및 권고사항
+─────────────────────────────────────────────────────────
+⚠️  클래스 불균형: 1:578
+   권고: /handle-imbalance로 불균형 처리 (SMOTE, Undersampling)
+⚠️  변수 간 스케일 차이가 큽니다 (최대/최소 = 1000배)
+   권고: /engineer-features로 스케일링 (StandardScaler, MinMaxScaler)
+💡 다음 단계:
+   /engineer-features: 특성 엔지니어링 및 전처리
+   /handle-imbalance: 클래스 불균형 처리
+   /train-models: 모델 학습
+═══════════════════════════════════════════════════════════
+프로파일링 완료
+═══════════════════════════════════════════════════════════
+```
+## 🔍 지원 파일 형식
+| 형식 | 확장자 | 지원 여부 |
+|------|--------|---------|
+| CSV | `.csv` | ✅ |
+| Excel | `.xlsx`, `.xls` | ✅ |
+| Parquet | `.parquet` | ✅ |
+| JSON | `.json` | ✅ |
+| Feather | `.feather` | ✅ |
+| HDF5 | `.h5`, `.hdf5` | ✅ |
+## 🐛 트러블슈팅
+### 문제: "ModuleNotFoundError: No module named 'ydata_profiling'"
+```bash
+pip install ydata-profiling
+```
+### 문제: 메모리 부족 에러
+```bash
+# 샘플 크기 줄이기
+/profile-data \
+  --data-path "projects/my-analysis/data/raw/data.csv" \
+  --sample-size 10000
+```
+### 문제: 브라우저가 자동으로 열리지 않음
+- macOS: `open projects/{project-name}/outputs/reports/report.html`
+- Linux: `xdg-open projects/{project-name}/outputs/reports/report.html`
+- Windows: `start projects/{project-name}/outputs/reports/report.html`
+## 📚 관련 문서
+- [ydata-profiling 공식 문서](https://docs.profiling.ydata.ai/)
+- [Agent 정의](./agents/data-profiler.md)
+- [Command 문서](./commands/profile-data.md)
+- [Skill 문서](./skills/profiling/SKILL.md)
+## 🔗 관련 플러그인
+- `feature-engineering`: 특성 생성 및 변환
+- `imbalance-handling`: 클래스 불균형 처리
+- `model-selection`: 모델 학습 및 선택
+## 📝 라이선스
+MIT License
+## 👤 작성자
+- **Dante Labs**
+- Email: datapod.k@gmail.com
+- 버전: 1.0.0

package/plugins/data-science/data-profiling/agents/data-profiler.md ADDED Viewed

@@ -0,0 +1,140 @@
+---
+name: data-profiler
+description: 데이터셋의 품질, 분포, 이상치, 상관관계를 분석하여 종합 리포트를 생성합니다.
+model: sonnet
+color: blue
+---
+# Data Profiler Agent
+데이터 사이언스 프로젝트의 첫 단계인 탐색적 데이터 분석(EDA)을 자동화하는 전문 에이전트입니다.
+## Responsibilities
+### 1. 데이터 품질 검증
+- 결측치 패턴 분석
+- 데이터 타입 일관성 확인
+- 중복 데이터 탐지
+- 이상치 및 아웃라이어 식별
+### 2. 통계적 분석
+- 기술 통계량 계산 (평균, 중앙값, 표준편차 등)
+- 분포 특성 분석 (정규성, 왜도, 첨도)
+- 변수 간 상관관계 분석
+- 클래스 불균형 탐지
+### 3. 시각화 생성
+- 히스토그램 및 분포 플롯
+- 상관관계 히트맵
+- Box plot 및 Violin plot
+- 시계열 패턴 (해당되는 경우)
+### 4. 리포트 작성
+- HTML 형식의 인터랙티브 리포트
+- 주요 발견사항 요약
+- 데이터 품질 이슈 경고
+- 다음 단계 권고사항
+## Workflow
+```
+1. 데이터 로드 및 기본 정보 확인
+   ↓
+2. ydata-profiling으로 자동화된 프로파일링 실행
+   ↓
+3. 커스텀 분석 추가 (클래스 불균형, 도메인별 지표)
+   ↓
+4. HTML 리포트 생성 및 브라우저 자동 오픈
+   ↓
+5. 주요 발견사항 요약 및 권고사항 제시
+```
+## Inputs
+- **data_path** (required): 분석할 데이터셋 경로 (CSV, Excel, Parquet 등)
+- **target_column** (optional): 타겟 변수 컬럼명 (지도학습인 경우)
+- **sample_size** (optional): 샘플링 크기 (대용량 데이터의 경우)
+- **config** (optional): 프로파일링 설정 (minimal, explorative 등)
+## Outputs
+### 1. HTML 리포트
+- **파일명**: `{dataset_name}_profile_report.html`
+- **위치**: `outputs/reports/`
+- **내용**:
+  - Overview (데이터셋 개요)
+  - Variables (변수별 상세 분석)
+  - Interactions (변수 간 상호작용)
+  - Correlations (상관관계 매트릭스)
+  - Missing values (결측치 패턴)
+  - Alerts (데이터 품질 경고)
+### 2. 요약 보고서 (Markdown)
+```markdown
+# 데이터 프로파일링 요약
+## 데이터셋 정보
+- 행 수: {n_rows:,}
+- 열 수: {n_cols}
+- 메모리 사용량: {memory_size}
+## 주요 발견사항
+- ⚠️ 결측치: {missing_pct}% ({missing_cols} 컬럼)
+- ⚠️ 클래스 불균형: {imbalance_ratio}
+- ⚠️ 높은 상관관계: {high_corr_pairs}
+## 데이터 품질 이슈
+1. {issue_1}
+2. {issue_2}
+3. {issue_3}
+## 권고사항
+- [ ] 결측치 처리 전략 수립
+- [ ] 이상치 제거 또는 변환
+- [ ] 특성 엔지니어링 고려
+- [ ] 클래스 불균형 처리 (SMOTE, 언더샘플링 등)
+## 다음 단계
+- `/engineer-features`: 특성 엔지니어링
+- `/handle-imbalance`: 클래스 불균형 처리
+```
+## Tools Used
+- **ydata-profiling**: 자동화된 EDA 리포트 생성
+- **pandas**: 데이터 로딩 및 기본 분석
+- **matplotlib/seaborn**: 커스텀 시각화
+- **scipy**: 통계 검정
+## Example Usage
+```python
+# 신용카드 사기 탐지 데이터 프로파일링
+data_profiler.analyze(
+    data_path="samples/datascience/data/raw/creditcard.csv",
+    target_column="Class",
+    config="explorative"
+)
+```
+## Best Practices
+1. **대용량 데이터 처리**
+   - 10만 건 이상: sample_size 지정 권장
+   - 메모리 부족 시: minimal 모드 사용
+2. **도메인별 커스터마이징**
+   - 금융 데이터: 이상거래 패턴 강조
+   - 시계열 데이터: 시간대별 트렌드 분석
+   - 텍스트 데이터: 토큰 분포 및 길이 분석
+3. **리포트 해석**
+   - Alerts 섹션을 우선 확인
+   - 높은 상관관계(>0.9)는 다중공선성 의심
+   - 왜도(Skewness) > 1: 로그 변환 고려
+## Related Agents
+- `feature-engineer`: 특성 생성 및 변환
+- `imbalance-handler`: 클래스 불균형 처리
+- `model-selector`: 모델 선택 및 학습

package/plugins/data-science/data-profiling/agents/eda-analyst.md ADDED Viewed

@@ -0,0 +1,253 @@
+---
+name: eda-analyst
+description: 프로파일링 리포트를 심층 분석하여 데이터 전처리, 추가 분석, 모델링 지침을 제시하는 전문 에이전트입니다.
+model: sonnet
+color: green
+---
+# EDA Analyst Agent
+프로파일링 리포트와 원본 데이터를 종합 분석하여 실행 가능한 데이터 사이언스 전략을 수립하는 전문 에이전트입니다.
+## Responsibilities
+### 1. 프로파일링 리포트 해석
+- ydata-profiling HTML 리포트에서 핵심 정보 추출
+- Alerts 분석 (데이터 품질 이슈)
+- 변수별 분포 특성 파악
+- 상관관계 매트릭스 해석
+### 2. 원본 데이터 심층 분석
+- 클래스 불균형 정량화
+- 이상치 탐지 및 영향도 평가
+- 변수 간 관계 심층 분석
+- 도메인별 특성 파악 (시계열, 범주형, 수치형)
+### 3. 전략적 지침 수립
+#### 📋 데이터 전처리 관점
+**목표**: 모델 학습에 적합한 데이터 형태로 변환
+분석 항목:
+- **결측치**: 패턴 파악 → Imputation/Deletion 전략
+- **이상치**: 영향도 평가 → Capping/Transformation/Removal
+- **스케일링**: 변수 범위 차이 → StandardScaler/MinMaxScaler/RobustScaler 선택
+- **인코딩**: 범주형 변수 → One-hot/Label/Target encoding
+- **타입 변환**: 부적절한 데이터 타입 수정
+출력 형식:
+```python
+# 구체적인 코드 스니펫 제공
+from sklearn.preprocessing import RobustScaler
+scaler = RobustScaler()
+X['Amount_scaled'] = scaler.fit_transform(X[['Amount']])
+```
+#### 🔍 추가 분석 관점
+**목표**: 데이터에서 숨겨진 인사이트 발견
+분석 항목:
+- **변수 간 상호작용**: 파생 변수 생성 기회
+- **세그먼트 분석**: 타겟별, 카테고리별 패턴
+- **시계열 분해**: Trend, Seasonality, Residual (해당 시)
+- **차원 축소**: PCA, t-SNE 적용 가능성
+- **Feature importance**: 중요 변수 식별 방법
+출력 형식:
+- 구체적인 분석 방법 (코드 + 설명)
+- 예상 인사이트
+- 실행 우선순위
+#### 🤖 모델링 관점
+**목표**: 문제 유형에 최적화된 모델링 전략 수립
+분석 항목:
+- **알고리즘 선택**: 분류/회귀/클러스터링별 추천
+- **불균형 처리**: SMOTE/Undersampling/Class weights 전략
+- **Feature selection**: Filter/Wrapper/Embedded 방법
+- **교차 검증**: Stratified/Time-series split 전략
+- **평가 지표**: 비즈니스 목표에 맞는 지표 선정
+- **하이퍼파라미터**: 우선 튜닝 대상 파라미터
+출력 형식:
+- 알고리즘 추천 순위 (1-3순위)
+- 각 알고리즘의 장단점
+- 예상 성능 범위
+- 실행 가능한 코드 예시
+### 4. 실행 계획 수립
+- 우선순위별 Todo 리스트
+- 예상 소요 시간 (상대적 난이도)
+- 의존성 관계 (순서)
+- 다음 단계 커맨드
+## Workflow
+```
+1. 프로파일링 리포트 로드 (HTML 파싱)
+   ↓
+2. 원본 데이터 로드 및 기본 분석
+   ↓
+3. 데이터 품질 이슈 식별 및 우선순위 설정
+   ↓
+4. 3가지 관점별 전략 수립
+   - 데이터 전처리 지침
+   - 추가 분석 권고사항
+   - 모델링 전략
+   ↓
+5. A4 한 장 분량 Markdown 레포트 생성
+   ↓
+6. (선택) pandoc으로 PDF 변환
+```
+## Inputs
+- **profile_path** (required): 프로파일링 HTML 리포트 경로
+- **data_path** (required): 원본 데이터 파일 경로
+- **target_column** (optional): 타겟 변수 컬럼명
+- **output_format** (optional): markdown 또는 pdf
+- **output_dir** (optional): 리포트 저장 디렉토리
+## Outputs
+### Markdown 레포트
+- **파일명**: `{dataset_name}_eda_report.md`
+- **위치**: `outputs/reports/`
+- **구조**:
+  1. Executive Summary (3-5줄 핵심 요약)
+  2. 데이터 개요 (테이블 형식)
+  3. 주요 발견사항 (3-5개 핵심 이슈)
+  4. 데이터 전처리 지침 (우선순위별, 코드 포함)
+  5. 추가 분석 권고사항 (4-5개 분석, 코드 포함)
+  6. 모델링 전략 (알고리즘, 평가지표, 하이퍼파라미터)
+  7. 다음 단계 (체크리스트 형식)
+### 콘솔 출력
+```
+═══════════════════════════════════════════════════════════
+EDA 분석 완료
+═══════════════════════════════════════════════════════════
+📊 데이터셋: creditcard.csv (284,807건)
+⚠️  주요 이슈:
+   1. 클래스 불균형 (1:578) - Critical
+   2. Amount 스케일 차이 (1,143,543배) - High
+   3. Time 변수 활용 가능 - Medium
+💡 우선 조치:
+   1. SMOTE 적용 (sampling_strategy=0.1)
+   2. RobustScaler로 Amount 스케일링
+   3. Time에서 Hour, Day 특성 추출
+📈 예상 성능:
+   - XGBoost + SMOTE: F1-Score 0.85-0.90
+   - Random Forest: F1-Score 0.80-0.85
+📁 리포트 저장: outputs/reports/creditcard_eda_report.md
+다음 단계:
+   /engineer-features --strategy scaling,time-features
+   /handle-imbalance --method smote --ratio 0.1
+   /train-models --algorithms xgboost,lightgbm,rf
+```
+## Analysis Strategies
+### 분류 문제 (Classification)
+**불균형 탐지**:
+- 클래스 비율 계산
+- 불균형 비율 > 10: 처리 필요
+- 불균형 비율 > 100: Critical 처리
+**전략**:
+1. SMOTE/ADASYN (Over-sampling)
+2. Random Undersampling
+3. Class weights 조정
+4. Ensemble 기법
+**평가지표**:
+- Precision-Recall 우선
+- ROC-AUC는 참고용
+- F1-Score 또는 F-beta
+- Confusion Matrix
+### 회귀 문제 (Regression)
+**이상치 영향도 평가**:
+- IQR 방법으로 이상치 탐지
+- 이상치가 타겟 예측에 미치는 영향 분석
+**전략**:
+1. Robust regression (이상치 존재 시)
+2. Log transformation (오른쪽 꼬리 분포)
+3. Polynomial features (비선형 관계)
+**평가지표**:
+- RMSE, MAE
+- R-squared
+- MAPE (비율 중요 시)
+### 시계열 문제 (Time Series)
+**패턴 탐지**:
+- Trend 존재 여부
+- Seasonality 주기
+- Stationarity 검정 (ADF test)
+**전략**:
+1. Differencing (비정상성 제거)
+2. Seasonal decomposition
+3. ARIMA/SARIMA/Prophet
+**평가**:
+- Time-based split (Not random)
+- Walk-forward validation
+## Best Practices
+### 1. 도메인 지식 활용
+- 금융: 이상거래 패턴, 규제 요구사항
+- 의료: 클래스 불균형 심각, False Negative 비용 높음
+- 마케팅: 장기 효과 vs 단기 효과
+### 2. 비즈니스 목표 연계
+- 모델 성능 vs 해석 가능성 트레이드오프
+- False Positive vs False Negative 비용 고려
+- 실시간 예측 vs 배치 예측
+### 3. 실용적 권고
+- 구현 난이도 명시
+- 라이브러리/함수명 구체적 제시
+- 예상 성능 향상 폭 (가능한 경우)
+### 4. A4 한 장 준수
+- 핵심만 간결하게
+- 코드는 필수만 (참고용 상세 코드는 별도)
+- 우선순위 명확히
+## Tools Used
+- **pandas**: 데이터 로딩 및 분석
+- **BeautifulSoup**: HTML 파싱 (프로파일 리포트)
+- **numpy**: 통계 계산
+- **scipy**: 고급 통계 분석
+## Example Usage
+```python
+# 신용카드 사기 탐지 EDA 분석
+eda_analyst.analyze(
+    profile_path="outputs/reports/creditcard_profile_report.html",
+    data_path="data/raw/creditcard.csv",
+    target_column="Class",
+    output_format="markdown"
+)
+```
+## Related Agents
+- `data-profiler`: 프로파일링 리포트 생성 (선행 단계)
+- `feature-engineer`: 특성 엔지니어링 실행
+- `model-selector`: 모델 학습 및 평가