PyPI - staran - Versions diffs - 0.4.2__tar.gz → 0.6.0__tar.gz - Mend

staran 0.4.2tar.gz → 0.6.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (39) hide show

{staran-0.4.2/staran.egg-info → staran-0.6.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: staran
-Version: 0.4.2
+Version: 0.6.0
 Summary: staran - 高性能Python工具库
 Home-page: https://github.com/starlxa/staran
 Author: StarAn
@@ -24,7 +24,7 @@ Dynamic: requires-dist
 Dynamic: requires-python
 Dynamic: summary
-# Star## ✨ v0.4.2 新特性
+# Star## ✨ v0.6.0 新特性
 - 📋 **独立Schema模块** - 专门的表结构定义和管理模块
 - 📄 **文档自动生成** - 支持Markdown/PDF/HTML格式的技术文档生成
@@ -42,7 +42,7 @@ Dynamic: summary
 Staran是一个强大的特征工程和数据处理工具包，提供从数据到模型的完整解决方案。特别针对工银图灵平台优化，让特征工程和模型训练变得前所未有的简单。
-## ✨ v0.4.2 新特性
+## ✨ v0.6.0 新特性
 - �️ **模块化引擎架构** - 独立的引擎模块，支持Spark、Hive、图灵平台
 - 🔧 **统一接口设计** - 所有引擎提供一致的SQL生成、执行和下载接口
@@ -361,7 +361,7 @@ tomorrow = date.add_days(1)         # 202504 (智能处理)
 ```
 staran/
-├── __init__.py                    # 主包入口，v0.4.2功能导出
+├── __init__.py                    # 主包入口，v0.6.0功能导出
 ├── schemas/                       # 🆕 表结构定义与文档生成模块
 │   ├── __init__.py               # Schema模块入口
 │   ├── document_generator.py     # 文档生成器 (MD/PDF/HTML)
@@ -385,7 +385,7 @@ staran/
 │   ├── __init__.py               # 工具模块
 │   └── date.py                   # Date类实现
 ├── setup.py                      # 安装配置
-├── README.md                     # 本文档 v0.4.2
+├── README.md                     # 本文档 v0.6.0
 └── quick-upload.sh               # 快速部署脚本
 ```
@@ -561,4 +561,4 @@ MIT License
 ---
-**Staran v0.4.2** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟
+**Staran v0.6.0** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟

{staran-0.4.2 → staran-0.6.0}/README.md RENAMED Viewed

@@ -1,4 +1,4 @@
-# Star## ✨ v0.4.2 新特性
+# Star## ✨ v0.6.0 新特性
 - 📋 **独立Schema模块** - 专门的表结构定义和管理模块
 - 📄 **文档自动生成** - 支持Markdown/PDF/HTML格式的技术文档生成
@@ -16,7 +16,7 @@
 Staran是一个强大的特征工程和数据处理工具包，提供从数据到模型的完整解决方案。特别针对工银图灵平台优化，让特征工程和模型训练变得前所未有的简单。
-## ✨ v0.4.2 新特性
+## ✨ v0.6.0 新特性
 - �️ **模块化引擎架构** - 独立的引擎模块，支持Spark、Hive、图灵平台
 - 🔧 **统一接口设计** - 所有引擎提供一致的SQL生成、执行和下载接口
@@ -335,7 +335,7 @@ tomorrow = date.add_days(1)         # 202504 (智能处理)
 ```
 staran/
-├── __init__.py                    # 主包入口，v0.4.2功能导出
+├── __init__.py                    # 主包入口，v0.6.0功能导出
 ├── schemas/                       # 🆕 表结构定义与文档生成模块
 │   ├── __init__.py               # Schema模块入口
 │   ├── document_generator.py     # 文档生成器 (MD/PDF/HTML)
@@ -359,7 +359,7 @@ staran/
 │   ├── __init__.py               # 工具模块
 │   └── date.py                   # Date类实现
 ├── setup.py                      # 安装配置
-├── README.md                     # 本文档 v0.4.2
+├── README.md                     # 本文档 v0.6.0
 └── quick-upload.sh               # 快速部署脚本
 ```
@@ -535,4 +535,4 @@ MIT License
 ---
-**Staran v0.4.2** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟
+**Staran v0.6.0** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟

{staran-0.4.2 → staran-0.6.0}/setup.py RENAMED Viewed

@@ -2,7 +2,7 @@ from setuptools import setup, find_packages
 setup(
     name="staran",
-    version="0.4.2",
+    version="0.6.0",
     description="staran - 高性能Python工具库",
     long_description=open("README.md", encoding="utf-8").read(),
     long_description_content_type="text/markdown",
@@ -14,9 +14,11 @@ setup(
         "staran.tools",
         "staran.features",
         "staran.engines",
-        "staran.examples",
         "staran.schemas",
         "staran.schemas.aum",
+        "staran.models",
+        "staran.banks",
+        "staran.banks.xinjiang_icbc",
     ],
     install_requires=[
         "datetime",

staran-0.6.0/staran/__init__.py ADDED Viewed

File without changes

staran-0.6.0/staran/banks/__init__.py ADDED Viewed

@@ -0,0 +1,30 @@
+"""
+staran.banks - 银行配置模块
+该模块包含不同银行的特定配置，包括：
+- 数据库连接配置
+- 表结构定义
+- 业务规则设置
+- 模型配置
+支持的银行：
+- xinjiang_icbc: 新疆工行配置
+版本: 0.6.0
+"""
+from .xinjiang_icbc import (
+    XinjiangICBCConfig,
+    get_xinjiang_icbc_tables,
+    get_xinjiang_icbc_models,
+    xinjiang_icbc_config
+)
+__all__ = [
+    'XinjiangICBCConfig',
+    'xinjiang_icbc_config',
+    'get_xinjiang_icbc_tables',
+    'get_xinjiang_icbc_models'
+]
+__version__ = "0.6.0"

staran-0.6.0/staran/banks/xinjiang_icbc/__init__.py ADDED Viewed

@@ -0,0 +1,90 @@
+"""
+新疆工行银行配置模块
+专门针对新疆工行代发长尾客户的配置：
+- 数据库表结构定义（代发长尾客户专用）
+- 业务规则配置
+- 模型配置（提升模型和防流失模型）
+数据库: xinjiang_icbc_daifa_longtail
+业务范围: 代发长尾客户
+"""
+from dataclasses import dataclass
+from typing import Dict, List, Optional
+from datetime import datetime
+@dataclass
+class XinjiangICBCConfig:
+    """新疆工行配置类"""
+    # 数据库配置
+    database_name: str = "xinjiang_icbc_daifa_longtail"
+    schema_name: str = "daifa_longtail"
+    # 业务配置
+    business_domain: str = "代发长尾客户"
+    customer_segment: str = "代发长尾"
+    # 模型配置
+    available_models: List[str] = None
+    # 业务规则
+    longtail_asset_min: float = 10000  # 长尾客户最小资产
+    longtail_asset_max: float = 100000  # 长尾客户最大资产
+    upgrade_target: float = 3000  # 提升目标金额
+    churn_threshold: float = 1500  # 流失阈值金额
+    def __post_init__(self):
+        if self.available_models is None:
+            self.available_models = [
+                "daifa_longtail_upgrade_3k",    # 代发长尾提升3k模型
+                "daifa_longtail_churn_1_5k"     # 代发长尾防流失1.5k模型
+            ]
+def get_xinjiang_icbc_tables() -> Dict[str, str]:
+    """获取新疆工行代发长尾客户表配置"""
+    return {
+        # 代发长尾客户行为表
+        "daifa_longtail_behavior": "xinjiang_icbc_daifa_hlwj_dfcw_f1_f4_wy",
+        # 代发长尾客户资产平均表
+        "daifa_longtail_asset_avg": "xinjiang_icbc_daifa_hlwj_zi_chan_avg_wy",
+        # 代发长尾客户资产配置表
+        "daifa_longtail_asset_config": "xinjiang_icbc_daifa_hlwj_zi_chan_config_wy",
+        # 代发长尾客户月度统计表
+        "daifa_longtail_monthly_stat": "xinjiang_icbc_daifa_hlwj_monthly_stat_wy"
+    }
+def get_xinjiang_icbc_models() -> Dict[str, Dict]:
+    """获取新疆工行代发长尾客户模型配置"""
+    return {
+        "daifa_longtail_upgrade_3k": {
+            "name": "代发长尾客户提升3k预测模型",
+            "description": "预测下个月代发长尾客户资产提升3000元的概率",
+            "target": "upgrade_3k_next_month",
+            "model_type": "binary_classification",
+            "business_objective": "识别有潜力提升资产的代发长尾客户",
+            "target_threshold": 3000,
+            "prediction_window": "1_month"
+        },
+        "daifa_longtail_churn_1_5k": {
+            "name": "代发长尾客户防流失1.5k预测模型",
+            "description": "预测下个月代发长尾客户流失1500元资产的风险",
+            "target": "churn_1_5k_next_month",
+            "model_type": "binary_classification",
+            "business_objective": "识别有流失风险的代发长尾客户",
+            "target_threshold": 1500,
+            "prediction_window": "1_month"
+        }
+    }
+# 创建默认配置实例
+xinjiang_icbc_config = XinjiangICBCConfig()

staran-0.6.0/staran/models/__init__.py ADDED Viewed

@@ -0,0 +1,72 @@
+"""
+staran.models v0.6.0 - 新疆工行代发长尾客户模型管理
+专门针对新疆工行代发长尾客户的两个核心模型：
+1. 代发长尾客户提升3k预测模型 (daifa_longtail_upgrade_3k)
+2. 代发长尾客户防流失1.5k预测模型 (daifa_longtail_churn_1_5k)
+主要功能：
+- 模型配置管理
+- SQL驱动的目标变量定义
+- 模型注册和版本控制
+- 新疆工行特定配置
+"""
+from .config import ModelConfig, create_model_config
+from .target import TargetDefinition, create_target_definition
+from .registry import ModelRegistry, register_model, save_model_registry
+from .daifa_models import (
+    create_daifa_longtail_upgrade_model,
+    create_daifa_longtail_churn_model,
+    get_available_daifa_models,
+    create_both_daifa_models
+)
+# 便捷函数
+def create_xinjiang_icbc_models(output_dir: str = "./xinjiang_models") -> dict:
+    """为新疆工行创建两个代发长尾客户模型"""
+    return create_both_daifa_models(output_dir)
+def list_available_models() -> list:
+    """列出所有可用的代发长尾客户模型"""
+    return get_available_daifa_models()
+def get_model_summary() -> dict:
+    """获取模型概述信息"""
+    return {
+        "version": "0.6.0",
+        "bank": "新疆工行",
+        "business_domain": "代发长尾客户",
+        "models": [
+            {
+                "name": "daifa_longtail_upgrade_3k",
+                "description": "预测下个月代发长尾客户资产提升3k的概率",
+                "target_amount": 3000,
+                "model_type": "binary_classification"
+            },
+            {
+                "name": "daifa_longtail_churn_1_5k",
+                "description": "预测下个月代发长尾客户流失1.5k资产的风险",
+                "target_amount": 1500,
+                "model_type": "binary_classification"
+            }
+        ]
+    }
+__all__ = [
+    # 核心组件
+    'ModelConfig', 'TargetDefinition', 'ModelRegistry',
+    # 创建函数
+    'create_model_config', 'create_target_definition', 'register_model',
+    # 代发长尾模型
+    'create_daifa_longtail_upgrade_model', 'create_daifa_longtail_churn_model',
+    'create_both_daifa_models', 'get_available_daifa_models',
+    # 便捷函数
+    'create_xinjiang_icbc_models', 'list_available_models', 'get_model_summary',
+    'save_model_registry'
+]
+__version__ = "0.6.0"

staran-0.6.0/staran/models/config.py ADDED Viewed

@@ -0,0 +1,271 @@
+"""
+模型配置管理模块
+定义模型的核心配置信息，包括模型类型、参数、特征配置等
+"""
+from enum import Enum
+from typing import Dict, Any, List, Optional
+from dataclasses import dataclass, field
+from datetime import datetime
+class ModelType(Enum):
+    """模型类型枚举"""
+    CLASSIFICATION = "classification"
+    REGRESSION = "regression"
+    CLUSTERING = "clustering"
+    TIME_SERIES = "time_series"
+    ANOMALY_DETECTION = "anomaly_detection"
+    RECOMMENDATION = "recommendation"
+class ModelAlgorithm(Enum):
+    """模型算法枚举"""
+    # 分类算法
+    LOGISTIC_REGRESSION = "logistic_regression"
+    RANDOM_FOREST = "random_forest"
+    GRADIENT_BOOSTING = "gradient_boosting"
+    SVM = "svm"
+    NEURAL_NETWORK = "neural_network"
+    # 回归算法
+    LINEAR_REGRESSION = "linear_regression"
+    RIDGE_REGRESSION = "ridge_regression"
+    LASSO_REGRESSION = "lasso_regression"
+    # 聚类算法
+    KMEANS = "kmeans"
+    DBSCAN = "dbscan"
+    HIERARCHICAL = "hierarchical"
+    # 时间序列
+    ARIMA = "arima"
+    LSTM = "lstm"
+    PROPHET = "prophet"
+@dataclass
+class FeatureConfig:
+    """特征配置"""
+    schema_name: str                    # 使用的schema名称 (如 'aum')
+    table_types: List[str]              # 使用的表类型列表 (如 ['behavior', 'asset_avg'])
+    feature_selection: bool = True      # 是否启用特征选择
+    feature_engineering: bool = True    # 是否启用特征工程
+    scaling: bool = True                # 是否启用特征缩放
+    encoding: Dict[str, str] = field(default_factory=dict)  # 编码配置
+@dataclass
+class ModelConfig:
+    """模型配置类"""
+    # 基本信息
+    name: str                           # 模型名称
+    model_type: ModelType               # 模型类型
+    algorithm: ModelAlgorithm           # 使用的算法
+    version: str = "1.0.0"              # 模型版本
+    # 特征配置
+    feature_config: FeatureConfig = None
+    # 模型参数
+    hyperparameters: Dict[str, Any] = field(default_factory=dict)
+    # 训练配置
+    training_config: Dict[str, Any] = field(default_factory=lambda: {
+        'test_size': 0.2,
+        'random_state': 42,
+        'cross_validation': True,
+        'cv_folds': 5
+    })
+    # 评估配置
+    evaluation_metrics: List[str] = field(default_factory=list)
+    # 银行特定配置
+    bank_code: str = "generic"          # 银行代码
+    business_domain: str = "generic"    # 业务领域
+    # 元数据
+    description: str = ""               # 模型描述
+    created_at: datetime = field(default_factory=datetime.now)
+    created_by: str = "system"          # 创建者
+    tags: List[str] = field(default_factory=list)
+    # 部署配置
+    deployment_config: Dict[str, Any] = field(default_factory=dict)
+    def __post_init__(self):
+        """初始化后处理"""
+        if self.feature_config is None:
+            self.feature_config = FeatureConfig(
+                schema_name="generic",
+                table_types=["base"]
+            )
+        # 根据模型类型设置默认评估指标
+        if not self.evaluation_metrics:
+            self.evaluation_metrics = self._get_default_metrics()
+    def _get_default_metrics(self) -> List[str]:
+        """根据模型类型获取默认评估指标"""
+        if self.model_type == ModelType.CLASSIFICATION:
+            return ['accuracy', 'precision', 'recall', 'f1_score', 'auc']
+        elif self.model_type == ModelType.REGRESSION:
+            return ['mae', 'mse', 'rmse', 'r2_score']
+        elif self.model_type == ModelType.CLUSTERING:
+            return ['silhouette_score', 'calinski_harabasz_score']
+        else:
+            return ['custom_metric']
+    def to_dict(self) -> Dict[str, Any]:
+        """转换为字典格式"""
+        return {
+            'name': self.name,
+            'model_type': self.model_type.value,
+            'algorithm': self.algorithm.value,
+            'version': self.version,
+            'feature_config': {
+                'schema_name': self.feature_config.schema_name,
+                'table_types': self.feature_config.table_types,
+                'feature_selection': self.feature_config.feature_selection,
+                'feature_engineering': self.feature_config.feature_engineering,
+                'scaling': self.feature_config.scaling,
+                'encoding': self.feature_config.encoding
+            },
+            'hyperparameters': self.hyperparameters,
+            'training_config': self.training_config,
+            'evaluation_metrics': self.evaluation_metrics,
+            'bank_code': self.bank_code,
+            'business_domain': self.business_domain,
+            'description': self.description,
+            'created_at': self.created_at.isoformat(),
+            'created_by': self.created_by,
+            'tags': self.tags,
+            'deployment_config': self.deployment_config
+        }
+    @classmethod
+    def from_dict(cls, data: Dict[str, Any]) -> 'ModelConfig':
+        """从字典创建ModelConfig实例"""
+        feature_config_data = data.get('feature_config', {})
+        feature_config = FeatureConfig(
+            schema_name=feature_config_data.get('schema_name', 'generic'),
+            table_types=feature_config_data.get('table_types', ['base']),
+            feature_selection=feature_config_data.get('feature_selection', True),
+            feature_engineering=feature_config_data.get('feature_engineering', True),
+            scaling=feature_config_data.get('scaling', True),
+            encoding=feature_config_data.get('encoding', {})
+        )
+        return cls(
+            name=data['name'],
+            model_type=ModelType(data['model_type']),
+            algorithm=ModelAlgorithm(data['algorithm']),
+            version=data.get('version', '1.0.0'),
+            feature_config=feature_config,
+            hyperparameters=data.get('hyperparameters', {}),
+            training_config=data.get('training_config', {}),
+            evaluation_metrics=data.get('evaluation_metrics', []),
+            bank_code=data.get('bank_code', 'generic'),
+            business_domain=data.get('business_domain', 'generic'),
+            description=data.get('description', ''),
+            created_by=data.get('created_by', 'system'),
+            tags=data.get('tags', []),
+            deployment_config=data.get('deployment_config', {})
+        )
+def create_model_config(
+    name: str,
+    model_type: str,
+    algorithm: str,
+    schema_name: str = "generic",
+    table_types: List[str] = None,
+    bank_code: str = "generic",
+    **kwargs
+) -> ModelConfig:
+    """
+    创建模型配置的便捷函数
+    Args:
+        name: 模型名称
+        model_type: 模型类型
+        algorithm: 算法名称
+        schema_name: 使用的schema名称
+        table_types: 使用的表类型列表
+        bank_code: 银行代码
+        **kwargs: 其他配置参数
+    Returns:
+        ModelConfig实例
+    """
+    if table_types is None:
+        table_types = ["base"]
+    feature_config = FeatureConfig(
+        schema_name=schema_name,
+        table_types=table_types
+    )
+    return ModelConfig(
+        name=name,
+        model_type=ModelType(model_type),
+        algorithm=ModelAlgorithm(algorithm),
+        feature_config=feature_config,
+        bank_code=bank_code,
+        **kwargs
+    )
+# 预定义的模型配置模板
+PRESET_CONFIGS = {
+    "aum_longtail_classification": {
+        "model_type": "classification",
+        "algorithm": "random_forest",
+        "schema_name": "aum",
+        "table_types": ["behavior", "asset_avg", "asset_config", "monthly_stat"],
+        "hyperparameters": {
+            "n_estimators": 100,
+            "max_depth": 10,
+            "random_state": 42
+        },
+        "description": "AUM长尾客户分类模型"
+    },
+    "customer_value_regression": {
+        "model_type": "regression",
+        "algorithm": "gradient_boosting",
+        "schema_name": "aum",
+        "table_types": ["behavior", "asset_avg"],
+        "hyperparameters": {
+            "n_estimators": 150,
+            "learning_rate": 0.1,
+            "max_depth": 8
+        },
+        "description": "客户价值预测回归模型"
+    }
+}
+def create_preset_config(preset_name: str, **overrides) -> ModelConfig:
+    """
+    基于预设模板创建模型配置
+    Args:
+        preset_name: 预设模板名称
+        **overrides: 覆盖的配置参数
+    Returns:
+        ModelConfig实例
+    """
+    if preset_name not in PRESET_CONFIGS:
+        raise ValueError(f"未知的预设配置: {preset_name}")
+    config = PRESET_CONFIGS[preset_name].copy()
+    config.update(overrides)
+    return create_model_config(
+        name=preset_name,
+        **config
+    )

staran 0.4.2__tar.gz → 0.6.0__tar.gz

staran 0.4.2tar.gz → 0.6.0tar.gz