PyPI - staran - Versions diffs - 0.6.0__py3-none-any.whl → 1.0.0__py3-none-any.whl - Mend

staran 0.6.0py3-none-any.whl → 1.0.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

staran/__init__.py +10 -0
staran/tools/__init__.py +5 -5
staran-1.0.0.dist-info/METADATA +301 -0
staran-1.0.0.dist-info/RECORD +8 -0
staran/banks/__init__.py +0 -30
staran/banks/xinjiang_icbc/__init__.py +0 -90
staran/engines/__init__.py +0 -65
staran/engines/base.py +0 -255
staran/engines/hive.py +0 -163
staran/engines/spark.py +0 -252
staran/engines/turing.py +0 -439
staran/examples/__init__.py +0 -8
staran/examples/aum_longtail.py +0 -250
staran/examples/aum_longtail_old.py +0 -487
staran/features/__init__.py +0 -59
staran/features/engines.py +0 -284
staran/features/generator.py +0 -603
staran/features/manager.py +0 -155
staran/features/schema.py +0 -193
staran/models/__init__.py +0 -72
staran/models/bank_configs.py +0 -269
staran/models/config.py +0 -271
staran/models/daifa_models.py +0 -361
staran/models/registry.py +0 -281
staran/models/target.py +0 -321
staran/schemas/__init__.py +0 -27
staran/schemas/aum/__init__.py +0 -210
staran/schemas/document_generator.py +0 -350
staran/tools/document_generator.py +0 -350
staran-0.6.0.dist-info/METADATA +0 -564
staran-0.6.0.dist-info/RECORD +0 -33
{staran-0.6.0.dist-info → staran-1.0.0.dist-info}/WHEEL +0 -0
{staran-0.6.0.dist-info → staran-1.0.0.dist-info}/licenses/LICENSE +0 -0
{staran-0.6.0.dist-info → staran-1.0.0.dist-info}/top_level.txt +0 -0

staran/models/config.py DELETED Viewed

@@ -1,271 +0,0 @@
-"""
-模型配置管理模块
-定义模型的核心配置信息，包括模型类型、参数、特征配置等
-"""
-from enum import Enum
-from typing import Dict, Any, List, Optional
-from dataclasses import dataclass, field
-from datetime import datetime
-class ModelType(Enum):
-    """模型类型枚举"""
-    CLASSIFICATION = "classification"
-    REGRESSION = "regression"
-    CLUSTERING = "clustering"
-    TIME_SERIES = "time_series"
-    ANOMALY_DETECTION = "anomaly_detection"
-    RECOMMENDATION = "recommendation"
-class ModelAlgorithm(Enum):
-    """模型算法枚举"""
-    # 分类算法
-    LOGISTIC_REGRESSION = "logistic_regression"
-    RANDOM_FOREST = "random_forest"
-    GRADIENT_BOOSTING = "gradient_boosting"
-    SVM = "svm"
-    NEURAL_NETWORK = "neural_network"
-    # 回归算法
-    LINEAR_REGRESSION = "linear_regression"
-    RIDGE_REGRESSION = "ridge_regression"
-    LASSO_REGRESSION = "lasso_regression"
-    # 聚类算法
-    KMEANS = "kmeans"
-    DBSCAN = "dbscan"
-    HIERARCHICAL = "hierarchical"
-    # 时间序列
-    ARIMA = "arima"
-    LSTM = "lstm"
-    PROPHET = "prophet"
-@dataclass
-class FeatureConfig:
-    """特征配置"""
-    schema_name: str                    # 使用的schema名称 (如 'aum')
-    table_types: List[str]              # 使用的表类型列表 (如 ['behavior', 'asset_avg'])
-    feature_selection: bool = True      # 是否启用特征选择
-    feature_engineering: bool = True    # 是否启用特征工程
-    scaling: bool = True                # 是否启用特征缩放
-    encoding: Dict[str, str] = field(default_factory=dict)  # 编码配置
-@dataclass
-class ModelConfig:
-    """模型配置类"""
-    # 基本信息
-    name: str                           # 模型名称
-    model_type: ModelType               # 模型类型
-    algorithm: ModelAlgorithm           # 使用的算法
-    version: str = "1.0.0"              # 模型版本
-    # 特征配置
-    feature_config: FeatureConfig = None
-    # 模型参数
-    hyperparameters: Dict[str, Any] = field(default_factory=dict)
-    # 训练配置
-    training_config: Dict[str, Any] = field(default_factory=lambda: {
-        'test_size': 0.2,
-        'random_state': 42,
-        'cross_validation': True,
-        'cv_folds': 5
-    })
-    # 评估配置
-    evaluation_metrics: List[str] = field(default_factory=list)
-    # 银行特定配置
-    bank_code: str = "generic"          # 银行代码
-    business_domain: str = "generic"    # 业务领域
-    # 元数据
-    description: str = ""               # 模型描述
-    created_at: datetime = field(default_factory=datetime.now)
-    created_by: str = "system"          # 创建者
-    tags: List[str] = field(default_factory=list)
-    # 部署配置
-    deployment_config: Dict[str, Any] = field(default_factory=dict)
-    def __post_init__(self):
-        """初始化后处理"""
-        if self.feature_config is None:
-            self.feature_config = FeatureConfig(
-                schema_name="generic",
-                table_types=["base"]
-            )
-        # 根据模型类型设置默认评估指标
-        if not self.evaluation_metrics:
-            self.evaluation_metrics = self._get_default_metrics()
-    def _get_default_metrics(self) -> List[str]:
-        """根据模型类型获取默认评估指标"""
-        if self.model_type == ModelType.CLASSIFICATION:
-            return ['accuracy', 'precision', 'recall', 'f1_score', 'auc']
-        elif self.model_type == ModelType.REGRESSION:
-            return ['mae', 'mse', 'rmse', 'r2_score']
-        elif self.model_type == ModelType.CLUSTERING:
-            return ['silhouette_score', 'calinski_harabasz_score']
-        else:
-            return ['custom_metric']
-    def to_dict(self) -> Dict[str, Any]:
-        """转换为字典格式"""
-        return {
-            'name': self.name,
-            'model_type': self.model_type.value,
-            'algorithm': self.algorithm.value,
-            'version': self.version,
-            'feature_config': {
-                'schema_name': self.feature_config.schema_name,
-                'table_types': self.feature_config.table_types,
-                'feature_selection': self.feature_config.feature_selection,
-                'feature_engineering': self.feature_config.feature_engineering,
-                'scaling': self.feature_config.scaling,
-                'encoding': self.feature_config.encoding
-            },
-            'hyperparameters': self.hyperparameters,
-            'training_config': self.training_config,
-            'evaluation_metrics': self.evaluation_metrics,
-            'bank_code': self.bank_code,
-            'business_domain': self.business_domain,
-            'description': self.description,
-            'created_at': self.created_at.isoformat(),
-            'created_by': self.created_by,
-            'tags': self.tags,
-            'deployment_config': self.deployment_config
-        }
-    @classmethod
-    def from_dict(cls, data: Dict[str, Any]) -> 'ModelConfig':
-        """从字典创建ModelConfig实例"""
-        feature_config_data = data.get('feature_config', {})
-        feature_config = FeatureConfig(
-            schema_name=feature_config_data.get('schema_name', 'generic'),
-            table_types=feature_config_data.get('table_types', ['base']),
-            feature_selection=feature_config_data.get('feature_selection', True),
-            feature_engineering=feature_config_data.get('feature_engineering', True),
-            scaling=feature_config_data.get('scaling', True),
-            encoding=feature_config_data.get('encoding', {})
-        )
-        return cls(
-            name=data['name'],
-            model_type=ModelType(data['model_type']),
-            algorithm=ModelAlgorithm(data['algorithm']),
-            version=data.get('version', '1.0.0'),
-            feature_config=feature_config,
-            hyperparameters=data.get('hyperparameters', {}),
-            training_config=data.get('training_config', {}),
-            evaluation_metrics=data.get('evaluation_metrics', []),
-            bank_code=data.get('bank_code', 'generic'),
-            business_domain=data.get('business_domain', 'generic'),
-            description=data.get('description', ''),
-            created_by=data.get('created_by', 'system'),
-            tags=data.get('tags', []),
-            deployment_config=data.get('deployment_config', {})
-        )
-def create_model_config(
-    name: str,
-    model_type: str,
-    algorithm: str,
-    schema_name: str = "generic",
-    table_types: List[str] = None,
-    bank_code: str = "generic",
-    **kwargs
-) -> ModelConfig:
-    """
-    创建模型配置的便捷函数
-    Args:
-        name: 模型名称
-        model_type: 模型类型
-        algorithm: 算法名称
-        schema_name: 使用的schema名称
-        table_types: 使用的表类型列表
-        bank_code: 银行代码
-        **kwargs: 其他配置参数
-    Returns:
-        ModelConfig实例
-    """
-    if table_types is None:
-        table_types = ["base"]
-    feature_config = FeatureConfig(
-        schema_name=schema_name,
-        table_types=table_types
-    )
-    return ModelConfig(
-        name=name,
-        model_type=ModelType(model_type),
-        algorithm=ModelAlgorithm(algorithm),
-        feature_config=feature_config,
-        bank_code=bank_code,
-        **kwargs
-    )
-# 预定义的模型配置模板
-PRESET_CONFIGS = {
-    "aum_longtail_classification": {
-        "model_type": "classification",
-        "algorithm": "random_forest",
-        "schema_name": "aum",
-        "table_types": ["behavior", "asset_avg", "asset_config", "monthly_stat"],
-        "hyperparameters": {
-            "n_estimators": 100,
-            "max_depth": 10,
-            "random_state": 42
-        },
-        "description": "AUM长尾客户分类模型"
-    },
-    "customer_value_regression": {
-        "model_type": "regression",
-        "algorithm": "gradient_boosting",
-        "schema_name": "aum",
-        "table_types": ["behavior", "asset_avg"],
-        "hyperparameters": {
-            "n_estimators": 150,
-            "learning_rate": 0.1,
-            "max_depth": 8
-        },
-        "description": "客户价值预测回归模型"
-    }
-}
-def create_preset_config(preset_name: str, **overrides) -> ModelConfig:
-    """
-    基于预设模板创建模型配置
-    Args:
-        preset_name: 预设模板名称
-        **overrides: 覆盖的配置参数
-    Returns:
-        ModelConfig实例
-    """
-    if preset_name not in PRESET_CONFIGS:
-        raise ValueError(f"未知的预设配置: {preset_name}")
-    config = PRESET_CONFIGS[preset_name].copy()
-    config.update(overrides)
-    return create_model_config(
-        name=preset_name,
-        **config
-    )

staran/models/daifa_models.py DELETED Viewed

@@ -1,361 +0,0 @@
-"""
-新疆工行代发长尾客户专用模型定义
-包含两个核心模型：
-1. 代发长尾客户提升3k预测模型
-2. 代发长尾客户防流失1.5k预测模型
-基于新疆工行代发长尾客户数据库和业务规则
-"""
-from typing import Dict, List
-from .config import create_model_config
-from .target import create_target_definition
-from .registry import ModelRegistry, register_model
-import os
-import json
-from datetime import datetime
-def save_model_registry(output_path: str):
-    """保存模型注册信息到文件"""
-    def convert_to_serializable(obj):
-        """递归转换对象为可序列化格式"""
-        if isinstance(obj, datetime):
-            return obj.isoformat()
-        elif hasattr(obj, '__dict__'):
-            result = {}
-            for key, value in obj.__dict__.items():
-                result[key] = convert_to_serializable(value)
-            return result
-        elif hasattr(obj, 'value'):  # 枚举类型
-            return obj.value
-        elif isinstance(obj, (list, tuple)):
-            return [convert_to_serializable(item) for item in obj]
-        elif isinstance(obj, dict):
-            return {k: convert_to_serializable(v) for k, v in obj.items()}
-        else:
-            return obj
-    data = {
-        "models": {},
-        "version_history": {},
-        "saved_at": str(datetime.now())
-    }
-    # 获取所有注册的模型
-    for model_id, entry in ModelRegistry._models.items():
-        data["models"][model_id] = {
-            "model_config": convert_to_serializable(entry.model_config),
-            "target_definition": convert_to_serializable(entry.target_definition),
-            "registered_at": entry.registered_at.isoformat(),
-            "status": entry.status,
-            "performance_metrics": entry.performance_metrics
-        }
-    data["version_history"] = ModelRegistry._version_history.copy()
-    with open(output_path, 'w', encoding='utf-8') as f:
-        json.dump(data, f, indent=2, ensure_ascii=False)
-    print(f"✅ 模型注册信息已保存到: {output_path}")
-    return output_path
-def create_daifa_longtail_upgrade_model() -> Dict:
-    """创建代发长尾客户提升3k预测模型"""
-    # 模型配置
-    model_config = create_model_config(
-        name="xinjiang_icbc_daifa_longtail_upgrade_3k",
-        model_type="classification",
-        algorithm="gradient_boosting",
-        version="1.0.0",
-        schema_name="daifa_longtail",
-        table_types=["daifa_longtail_behavior", "daifa_longtail_asset_avg",
-                    "daifa_longtail_asset_config", "daifa_longtail_monthly_stat"],
-        hyperparameters={
-            "n_estimators": 300,
-            "learning_rate": 0.05,
-            "max_depth": 12,
-            "min_samples_split": 20,
-            "min_samples_leaf": 10,
-            "subsample": 0.8,
-            "random_state": 42
-        },
-        bank_code="xinjiang_icbc",
-        business_domain="代发长尾客户",
-        description="新疆工行代发长尾客户下个月资产提升3k预测模型",
-        tags=["daifa", "longtail", "upgrade", "3k", "xinjiang_icbc"]
-    )
-    # 目标定义 - 预测下个月提升3k
-    target_definition = create_target_definition(
-        name="daifa_longtail_upgrade_3k_target",
-        target_type="binary_classification",
-        description="新疆工行代发长尾客户下个月资产提升3000元预测目标",
-        sql_query="""
-        WITH customer_baseline AS (
-            -- 获取代发长尾客户基础信息（当月）
-            SELECT
-                b.party_id,
-                b.asset_total_bal as current_asset,
-                b.salary_amount as current_salary,
-                b.longtail_score,
-                b.upgrade_potential,
-                CASE
-                    WHEN b.asset_total_bal BETWEEN 10000 AND 100000 THEN 1
-                    ELSE 0
-                END as is_daifa_longtail
-            FROM xinjiang_icbc_daifa_hlwj_monthly_stat_wy b
-            WHERE b.data_dt = '{baseline_date}'
-        ),
-        next_month_performance AS (
-            -- 计算下个月的资产变化
-            SELECT
-                party_id,
-                asset_total_bal as next_month_asset,
-                salary_amount as next_month_salary,
-                monthly_deposit_amount,
-                monthly_withdraw_amount
-            FROM xinjiang_icbc_daifa_hlwj_monthly_stat_wy
-            WHERE data_dt = '{next_month_date}'
-        ),
-        asset_change AS (
-            -- 计算资产变化情况
-            SELECT
-                cb.party_id,
-                cb.current_asset,
-                nmp.next_month_asset,
-                (nmp.next_month_asset - cb.current_asset) as asset_change,
-                nmp.monthly_deposit_amount,
-                cb.upgrade_potential
-            FROM customer_baseline cb
-            INNER JOIN next_month_performance nmp ON cb.party_id = nmp.party_id
-            WHERE cb.is_daifa_longtail = 1  -- 只关注代发长尾客户
-        )
-        SELECT
-            party_id,
-            CASE
-                -- 代发长尾客户资产提升3k的判断标准
-                WHEN asset_change >= 3000  -- 资产增长达到3000元
-                     AND monthly_deposit_amount > asset_change * 0.7  -- 主要通过存入实现
-                     AND upgrade_potential >= 0.6  -- 提升潜力评分较高
-                THEN 1
-                ELSE 0
-            END as upgrade_3k_target,
-            -- 辅助分析字段
-            current_asset,
-            next_month_asset,
-            asset_change,
-            monthly_deposit_amount,
-            upgrade_potential
-        FROM asset_change
-        """,
-        target_column="upgrade_3k_target",
-        class_labels=["no_upgrade", "upgrade_3k"],
-        class_weights={"no_upgrade": 1.0, "upgrade_3k": 2.5},  # 提升类样本权重更高
-        time_window="1_month",
-        prediction_horizon="1_month",
-        bank_code="xinjiang_icbc",
-        business_rules={
-            "min_asset_threshold": 10000,      # 代发长尾最小资产
-            "max_asset_threshold": 100000,     # 代发长尾最大资产
-            "upgrade_target_amount": 3000,     # 提升目标金额
-            "deposit_contribution_ratio": 0.7, # 存入贡献占比
-            "min_upgrade_potential": 0.6       # 最小提升潜力
-        }
-    )
-    return {
-        "model_config": model_config,
-        "target_definition": target_definition,
-        "model_type": "upgrade_prediction"
-    }
-def create_daifa_longtail_churn_model() -> Dict:
-    """创建代发长尾客户防流失1.5k预测模型"""
-    # 模型配置
-    model_config = create_model_config(
-        name="xinjiang_icbc_daifa_longtail_churn_1_5k",
-        model_type="classification",
-        algorithm="random_forest",  # 防流失模型使用随机森林
-        version="1.0.0",
-        schema_name="daifa_longtail",
-        table_types=["daifa_longtail_behavior", "daifa_longtail_asset_avg",
-                    "daifa_longtail_asset_config", "daifa_longtail_monthly_stat"],
-        hyperparameters={
-            "n_estimators": 200,
-            "max_depth": 10,
-            "min_samples_split": 15,
-            "min_samples_leaf": 8,
-            "max_features": "sqrt",
-            "random_state": 42,
-            "class_weight": "balanced"  # 处理不平衡数据
-        },
-        bank_code="xinjiang_icbc",
-        business_domain="代发长尾客户",
-        description="新疆工行代发长尾客户下个月流失1.5k资产风险预测模型",
-        tags=["daifa", "longtail", "churn", "1_5k", "risk_prevention"]
-    )
-    # 目标定义 - 预测下个月流失1.5k风险
-    target_definition = create_target_definition(
-        name="daifa_longtail_churn_1_5k_target",
-        target_type="binary_classification",
-        description="新疆工行代发长尾客户下个月流失1500元资产风险预测目标",
-        sql_query="""
-        WITH customer_baseline AS (
-            -- 获取代发长尾客户基础信息（当月）
-            SELECT
-                b.party_id,
-                b.asset_total_bal as current_asset,
-                b.salary_amount as current_salary,
-                b.longtail_score,
-                b.churn_risk,
-                b.login_days,
-                CASE
-                    WHEN b.asset_total_bal BETWEEN 10000 AND 100000 THEN 1
-                    ELSE 0
-                END as is_daifa_longtail
-            FROM xinjiang_icbc_daifa_hlwj_monthly_stat_wy b
-            WHERE b.data_dt = '{baseline_date}'
-        ),
-        next_month_performance AS (
-            -- 计算下个月的资产变化和行为
-            SELECT
-                party_id,
-                asset_total_bal as next_month_asset,
-                monthly_withdraw_amount,
-                login_days as next_month_login_days
-            FROM xinjiang_icbc_daifa_hlwj_monthly_stat_wy
-            WHERE data_dt = '{next_month_date}'
-        ),
-        churn_analysis AS (
-            -- 分析流失风险情况
-            SELECT
-                cb.party_id,
-                cb.current_asset,
-                nmp.next_month_asset,
-                (cb.current_asset - nmp.next_month_asset) as asset_decrease,
-                nmp.monthly_withdraw_amount,
-                cb.churn_risk,
-                cb.login_days,
-                nmp.next_month_login_days
-            FROM customer_baseline cb
-            INNER JOIN next_month_performance nmp ON cb.party_id = nmp.party_id
-            WHERE cb.is_daifa_longtail = 1  -- 只关注代发长尾客户
-        )
-        SELECT
-            party_id,
-            CASE
-                -- 代发长尾客户流失1.5k的判断标准
-                WHEN asset_decrease >= 1500  -- 资产减少达到1500元
-                     AND monthly_withdraw_amount >= 1500  -- 主要通过取出导致
-                     AND (
-                         churn_risk >= 0.7  -- 流失风险评分高
-                         OR next_month_login_days <= login_days * 0.5  -- 活跃度大幅下降
-                     )
-                THEN 1
-                ELSE 0
-            END as churn_1_5k_target,
-            -- 辅助分析字段
-            current_asset,
-            next_month_asset,
-            asset_decrease,
-            monthly_withdraw_amount,
-            churn_risk,
-            login_days,
-            next_month_login_days
-        FROM churn_analysis
-        """,
-        target_column="churn_1_5k_target",
-        class_labels=["no_churn", "churn_1_5k"],
-        class_weights={"no_churn": 1.0, "churn_1_5k": 3.0},  # 流失类样本权重更高
-        time_window="1_month",
-        prediction_horizon="1_month",
-        bank_code="xinjiang_icbc",
-        business_rules={
-            "min_asset_threshold": 10000,        # 代发长尾最小资产
-            "max_asset_threshold": 100000,       # 代发长尾最大资产
-            "churn_threshold_amount": 1500,      # 流失阈值金额
-            "min_churn_risk": 0.7,               # 最小流失风险
-            "activity_decline_ratio": 0.5        # 活跃度下降比例
-        }
-    )
-    return {
-        "model_config": model_config,
-        "target_definition": target_definition,
-        "model_type": "churn_prevention"
-    }
-def create_both_daifa_models(output_dir: str = "./xinjiang_models") -> Dict:
-    """创建两个代发长尾客户模型并注册"""
-    # 确保输出目录存在
-    os.makedirs(output_dir, exist_ok=True)
-    # 创建提升模型
-    upgrade_model = create_daifa_longtail_upgrade_model()
-    upgrade_id = register_model(
-        upgrade_model["model_config"],
-        upgrade_model["target_definition"]
-    )
-    # 创建防流失模型
-    churn_model = create_daifa_longtail_churn_model()
-    churn_id = register_model(
-        churn_model["model_config"],
-        churn_model["target_definition"]
-    )
-    # 保存注册信息到指定目录
-    registry_path = os.path.join(output_dir, "model_registry.json")
-    save_model_registry(registry_path)
-    return {
-        "upgrade_model": {
-            "model_id": upgrade_id,
-            "config": upgrade_model["model_config"],
-            "target": upgrade_model["target_definition"]
-        },
-        "churn_model": {
-            "model_id": churn_id,
-            "config": churn_model["model_config"],
-            "target": churn_model["target_definition"]
-        },
-        "registry_path": registry_path,
-        "output_dir": output_dir
-    }
-def get_available_daifa_models() -> List[str]:
-    """获取所有可用的代发长尾客户模型"""
-    return [
-        "daifa_longtail_upgrade_3k",   # 代发长尾客户提升3k模型
-        "daifa_longtail_churn_1_5k"    # 代发长尾客户防流失1.5k模型
-    ]
-# 导出函数
-__all__ = [
-    'create_daifa_longtail_upgrade_model',
-    'create_daifa_longtail_churn_model',
-    'create_both_daifa_models',
-    'get_available_daifa_models'
-]

staran 0.6.0__py3-none-any.whl → 1.0.0__py3-none-any.whl

staran 0.6.0py3-none-any.whl → 1.0.0py3-none-any.whl