PyPI - aigroup-econ-mcp - Versions diffs - 0.6.0__tar.gz → 0.7.0__tar.gz - Mend

aigroup-econ-mcp 0.6.0tar.gz → 0.7.0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of aigroup-econ-mcp might be problematic. Click here for more details.

Files changed (30) hide show

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: aigroup-econ-mcp
-Version: 0.6.0
+Version: 0.7.0
 Summary: 专业计量经济学MCP工具 - 让大模型直接进行数据分析（优化版：增强工具描述，提升大模型调用体验）
 Project-URL: Homepage, https://github.com/aigroup/aigroup-econ-mcp
 Project-URL: Repository, https://github.com/aigroup/aigroup-econ-mcp.git

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "hatchling.build"
 [project]
 name = "aigroup-econ-mcp"
-version = "0.6.0"
+version = "0.7.0"
 description = "专业计量经济学MCP工具 - 让大模型直接进行数据分析（优化版：增强工具描述，提升大模型调用体验）"
 readme = "README.md"
 requires-python = ">=3.10"

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/src/aigroup_econ_mcp/__init__.py RENAMED Viewed

@@ -10,7 +10,7 @@ AIGroup 计量经济学 MCP 服务
 - 模型诊断
 """
-__version__ = "0.5.0"
+__version__ = "0.7.0"
 __author__ = "AIGroup"
 __description__ = "专业计量经济学MCP工具 - 让大模型直接进行数据分析（重构版：工具描述模块化）"

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/src/aigroup_econ_mcp/tools/ml_regularization.py RENAMED Viewed

@@ -130,36 +130,50 @@ def _regularized_regression(
     elif len(feature_names) != X.shape[1]:
         raise ValueError(f"特征名称数量({len(feature_names)})与自变量数量({X.shape[1]})不匹配")
-    # 数据标准化
+    # 检查数据质量
+    if len(y) < 5:
+        warnings.warn(f"⚠️ 警告：样本数量较少（{len(y)}个），正则化回归可能不稳定")
+    # 数据标准化 - 只标准化自变量，不标准化因变量
     scaler = StandardScaler()
     X_scaled = scaler.fit_transform(X)
-    y_scaled = (y - np.mean(y)) / np.std(y)  # 标准化因变量
     # 选择模型
     if model_type == "lasso":
-        model = Lasso(alpha=alpha, random_state=random_state, max_iter=10000)
+        model = Lasso(alpha=alpha, random_state=random_state, max_iter=10000, tol=1e-4)
+        # 对于Lasso，如果alpha过大，建议使用更小的值
+        if alpha > 10:
+            warnings.warn(f"⚠️ 警告：Lasso正则化参数alpha={alpha}可能过大，建议尝试更小的值（如0.1-1.0）")
     elif model_type == "ridge":
         model = Ridge(alpha=alpha, random_state=random_state)
     else:
         raise ValueError(f"不支持的模型类型: {model_type}")
     # 训练模型
-    model.fit(X_scaled, y_scaled)
+    try:
+        model.fit(X_scaled, y)
+    except Exception as e:
+        raise ValueError(f"{model_type}模型拟合失败: {str(e)}。建议：1) 检查数据质量 2) 尝试不同的alpha值 3) 增加样本数量")
     # 预测
-    y_pred_scaled = model.predict(X_scaled)
-    # 将预测值转换回原始尺度
-    y_pred = y_pred_scaled * np.std(y) + np.mean(y)
+    y_pred = model.predict(X_scaled)
     # 计算评估指标
     r2 = r2_score(y, y_pred)
     mse = mean_squared_error(y, y_pred)
     mae = mean_absolute_error(y, y_pred)
+    # 检查R²是否为负值
+    if r2 < 0:
+        warnings.warn(f"⚠️ 警告：{model_type}模型的R²为负值({r2:.4f})，表明模型性能比简单均值预测更差。可能原因：1) 数据噪声过大 2) 特征与目标变量无关 3) 正则化参数过大 4) 样本量过小")
     # 系数（注意：由于标准化，系数需要适当解释）
     coefficients = dict(zip(feature_names, model.coef_))
+    # 检查系数是否全为0（Lasso过度压缩）
+    if model_type == "lasso" and all(abs(coef) < 1e-10 for coef in model.coef_):
+        warnings.warn(f"⚠️ 警告：Lasso模型所有系数都被压缩为0，表明正则化参数alpha={alpha}可能过大，建议减小alpha值")
     return RegularizedRegressionResult(
         model_type=model_type,
         r2_score=r2,

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/src/aigroup_econ_mcp/tools/panel_data.py RENAMED Viewed

@@ -63,6 +63,23 @@ def prepare_panel_data(
     """
     准备面板数据格式
+    📊 数据格式要求：
+    - 因变量(y_data): 数值列表，如 [1.2, 3.4, 5.6, ...]
+    - 自变量(X_data): 二维数值列表，如 [[1, 2], [3, 4], [5, 6], ...]
+    - 实体ID(entity_ids): 字符串列表，标识不同个体，如 ['A', 'A', 'B', 'B', ...]
+    - 时间标识符(time_periods): 字符串或数值列表，标识时间点，如 ['2020', '2020', '2021', '2021', ...]
+    💡 使用示例：
+    y_data = [10, 12, 8, 9]  # 4个观测值
+    X_data = [[1, 2], [2, 3], [1, 1], [2, 2]]  # 2个自变量，4个观测值
+    entity_ids = ['A', 'A', 'B', 'B']  # 2个实体，每个实体2个时间点
+    time_periods = ['2020', '2021', '2020', '2021']  # 2个时间点
+    ⚠️ 注意事项：
+    - 确保每个实体有相同的时间点数量（平衡面板）
+    - 实体ID和时间标识符的组合必须唯一
+    - 建议至少3个实体，每个实体至少2个时间点
     Args:
         y_data: 因变量数据
         X_data: 自变量数据，二维列表
@@ -73,13 +90,62 @@ def prepare_panel_data(
     Returns:
         pd.DataFrame: 面板数据格式的DataFrame
     """
-    # 数据验证
+    # 数据验证 - 提供更详细的错误信息
+    if not y_data or not X_data or not entity_ids or not time_periods:
+        raise ValueError("所有输入数据都不能为空。请提供：因变量(y_data)、自变量(X_data)、实体ID(entity_ids)、时间标识符(time_periods)")
     if len(y_data) != len(X_data):
-        raise ValueError("因变量和自变量的观测数量不一致")
+        raise ValueError(f"因变量和自变量的观测数量不一致：因变量有{len(y_data)}个观测值，自变量有{len(X_data)}个观测值")
     if len(y_data) != len(entity_ids):
-        raise ValueError("因变量和个体标识符数量不一致")
+        raise ValueError(f"因变量和个体标识符数量不一致：因变量有{len(y_data)}个观测值，实体ID有{len(entity_ids)}个")
     if len(y_data) != len(time_periods):
-        raise ValueError("因变量和时间标识符数量不一致")
+        raise ValueError(f"因变量和时间标识符数量不一致：因变量有{len(y_data)}个观测值，时间标识符有{len(time_periods)}个")
+    # 检查自变量维度一致性
+    if len(X_data) > 0:
+        first_dim = len(X_data[0])
+        for i, x_row in enumerate(X_data):
+            if len(x_row) != first_dim:
+                raise ValueError(f"自变量维度不一致：第{i}行有{len(x_row)}个变量，但第一行有{first_dim}个变量")
+    # 检查面板数据平衡性
+    entity_time_counts = {}
+    for entity, time_period in zip(entity_ids, time_periods):
+        key = (entity, time_period)
+        if key in entity_time_counts:
+            raise ValueError(f"重复的实体-时间组合：实体 '{entity}' 在时间 '{time_period}' 有多个观测值")
+        entity_time_counts[key] = True
+    # 检查每个实体的时间点数量
+    entity_counts = {}
+    for entity in entity_ids:
+        entity_counts[entity] = entity_counts.get(entity, 0) + 1
+    unique_entities = len(entity_counts)
+    if unique_entities < 2:
+        raise ValueError(f"面板数据需要至少2个不同的实体，当前只有{unique_entities}个")
+    # 检查时间点数量
+    time_counts = {}
+    for time_period in time_periods:
+        time_counts[time_period] = time_counts.get(time_period, 0) + 1
+    unique_times = len(time_counts)
+    if unique_times < 2:
+        raise ValueError(f"面板数据需要至少2个不同的时间点，当前只有{unique_times}个")
+    # 检查是否为平衡面板
+    time_counts_per_entity = {}
+    for entity in set(entity_ids):
+        entity_times = [time for e, time in zip(entity_ids, time_periods) if e == entity]
+        time_counts_per_entity[entity] = len(set(entity_times))
+    min_times = min(time_counts_per_entity.values())
+    max_times = max(time_counts_per_entity.values())
+    if min_times != max_times:
+        warnings.warn(f"⚠️ 警告：面板数据不平衡。不同实体的时间点数量不同（最少{min_times}个，最多{max_times}个）。建议使用平衡面板数据以获得更可靠的结果。")
     # 处理时间标识符格式兼容性
     processed_time_periods = []

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/src/aigroup_econ_mcp/tools/tool_descriptions.py RENAMED Viewed

@@ -601,16 +601,62 @@ GRADIENT_BOOSTING_REGRESSION_ANALYSIS = ToolDescription(
 LASSO_REGRESSION_ANALYSIS = ToolDescription(
     name="lasso_regression_analysis",
-    description="Lasso回归 - 支持文件输入",
+    description="""Lasso回归分析
+📊 功能说明：
+Lasso回归使用L1正则化进行特征选择和稀疏建模，能够自动将不重要的特征系数压缩为0。
+📈 算法特点：
+- 特征选择：自动识别重要特征，压缩冗余特征系数为0
+- 稀疏解：产生稀疏的系数向量，提高模型可解释性
+- 处理多重共线性：对高度相关的特征进行选择
+- 正则化强度控制：通过alpha参数控制特征选择的严格程度
+💡 适用场景：
+- 高维数据特征选择（特征数量 > 样本数量）
+- 多重共线性问题
+- 稀疏建模需求
+- 可解释性要求高的场景
+- 变量筛选和降维
+⚠️ 注意事项：
+- 对alpha参数敏感，建议尝试多个值（如0.01, 0.1, 1.0, 10.0）
+- 可能过度压缩重要特征，导致信息损失
+- 需要数据标准化
+- R²为负值时表明模型性能比简单均值预测更差
+- 样本量过小时可能不稳定
+🔧 参数建议：
+- alpha: 正则化强度，默认1.0
+  - 小alpha(0.01-0.1): 轻微正则化，保留更多特征
+  - 中等alpha(0.1-1.0): 平衡特征选择和模型拟合
+  - 大alpha(>1.0): 强正则化，压缩更多特征
+📋 数据要求：
+- 至少5个样本
+- 数值型数据
+- 建议特征数量不超过样本数量的80%""",
     field_descriptions={
-        "file_path": "文件路径",
-        "file_content": "文件内容",
-        "file_format": "文件格式",
-        "y_data": "因变量数据",
-        "x_data": "自变量数据",
-        "feature_names": "特征名称",
-        "alpha": "正则化参数"
-    }
+        "file_path": "CSV/JSON文件路径。CSV格式: 最后一列为因变量，其余列为自变量",
+        "file_content": "文件内容字符串。JSON格式: {'y': [因变量], 'x1': [自变量1], ...}",
+        "file_format": "文件格式: csv/json/auto",
+        "y_data": "因变量数据列表，数值格式，如 [1.2, 3.4, 5.6, ...]",
+        "x_data": "自变量数据矩阵，二维列表格式，如 [[1, 2], [3, 4], [5, 6], ...]",
+        "feature_names": "自变量名称列表，如 ['GDP', 'Population', 'Investment']",
+        "alpha": "正则化强度参数，控制特征选择的严格程度，默认1.0。建议尝试多个值进行调优"
+    },
+    examples=[
+        "从100个经济指标中选择影响GDP增长的关键因素",
+        "在消费者行为数据中识别最重要的预测变量",
+        "处理高度相关的宏观经济变量进行预测建模"
+    ],
+    use_cases=[
+        "高维数据特征选择",
+        "变量重要性排序",
+        "多重共线性处理",
+        "稀疏线性建模",
+        "可解释机器学习"
+    ]
 )
 RIDGE_REGRESSION_ANALYSIS = ToolDescription(

{aigroup_econ_mcp-0.6.0 → aigroup_econ_mcp-0.7.0}/src/aigroup_econ_mcp/tools/tool_handlers.py RENAMED Viewed

@@ -228,28 +228,92 @@ async def handle_correlation_analysis(ctx, data: Dict[str, List[float]],
 # 面板数据处理器
-async def handle_panel_fixed_effects(ctx, y_data, x_data, entity_ids, time_periods,
+async def handle_panel_fixed_effects(ctx, y_data, x_data, entity_ids, time_periods,
                                     feature_names=None, entity_effects=True, time_effects=False, **kwargs):
+    """处理固定效应模型 - 统一输出格式"""
     result = fixed_effects_model(y_data, x_data, entity_ids, time_periods, feature_names, entity_effects, time_effects)
+    # 构建详细的结果文本
+    result_text = f"""📊 固定效应模型分析结果
+🔍 模型拟合信息：
+- R² = {result.rsquared:.4f}
+- 调整R² = {result.rsquared_adj:.4f}
+- F统计量 = {result.f_statistic:.4f} (p = {result.f_pvalue:.4f})
+- AIC = {result.aic:.2f}, BIC = {result.bic:.2f}
+- 观测数量 = {result.n_obs}
+- 个体效应 = {'是' if result.entity_effects else '否'}
+- 时间效应 = {'是' if result.time_effects else '否'}
+📈 回归系数详情："""
+    # 添加系数信息
+    for var_name, coef_info in result.coefficients.items():
+        significance = "***" if coef_info["p_value"] < 0.01 else "**" if coef_info["p_value"] < 0.05 else "*" if coef_info["p_value"] < 0.1 else ""
+        result_text += f"\n- {var_name}: {coef_info['coef']:.4f}{significance} (se={coef_info['std_err']:.4f}, p={coef_info['p_value']:.4f})"
+    result_text += "\n\n💡 模型说明：固定效应模型通过组内变换消除个体固定差异，适用于个体间存在不可观测固定特征的情况。"
     return CallToolResult(
-        content=[TextContent(type="text", text=f"固定效应模型: R²={result.rsquared:.4f}")],
+        content=[TextContent(type="text", text=result_text)],
         structuredContent=result.model_dump()
     )
 async def handle_panel_random_effects(ctx, y_data, x_data, entity_ids, time_periods,
                                      feature_names=None, entity_effects=True, time_effects=False, **kwargs):
+    """处理随机效应模型 - 统一输出格式"""
     result = random_effects_model(y_data, x_data, entity_ids, time_periods, feature_names, entity_effects, time_effects)
+    # 构建详细的结果文本
+    result_text = f"""📊 随机效应模型分析结果
+🔍 模型拟合信息：
+- R² = {result.rsquared:.4f}
+- 调整R² = {result.rsquared_adj:.4f}
+- F统计量 = {result.f_statistic:.4f} (p = {result.f_pvalue:.4f})
+- AIC = {result.aic:.2f}, BIC = {result.bic:.2f}
+- 观测数量 = {result.n_obs}
+- 个体效应 = {'是' if result.entity_effects else '否'}
+- 时间效应 = {'是' if result.time_effects else '否'}
+📈 回归系数详情："""
+    # 添加系数信息
+    for var_name, coef_info in result.coefficients.items():
+        significance = "***" if coef_info["p_value"] < 0.01 else "**" if coef_info["p_value"] < 0.05 else "*" if coef_info["p_value"] < 0.1 else ""
+        result_text += f"\n- {var_name}: {coef_info['coef']:.4f}{significance} (se={coef_info['std_err']:.4f}, p={coef_info['p_value']:.4f})"
+    result_text += "\n\n💡 模型说明：随机效应模型假设个体差异是随机的，比固定效应模型更有效率，但需要满足个体效应与解释变量不相关的假设。"
     return CallToolResult(
-        content=[TextContent(type="text", text=f"随机效应模型: R²={result.rsquared:.4f}")],
+        content=[TextContent(type="text", text=result_text)],
         structuredContent=result.model_dump()
     )
 async def handle_panel_hausman_test(ctx, y_data, x_data, entity_ids, time_periods, feature_names=None, **kwargs):
+    """处理Hausman检验 - 统一输出格式"""
     result = hausman_test(y_data, x_data, entity_ids, time_periods, feature_names)
+    result_text = f"""📊 Hausman检验结果
+🔍 检验信息：
+- 检验统计量 = {result.statistic:.4f}
+- p值 = {result.p_value:.4f}
+- 显著性 = {'是' if result.significant else '否'} (5%水平)
+💡 模型选择建议：
+{result.recommendation}
+📋 决策规则：
+- p值 < 0.05: 拒绝原假设，选择固定效应模型
+- p值 >= 0.05: 不能拒绝原假设，选择随机效应模型
+🔬 检验原理：Hausman检验用于判断个体效应是否与解释变量相关。原假设为随机效应模型是一致的。"""
     return CallToolResult(
-        content=[TextContent(type="text", text=f"Hausman检验: p={result.p_value:.4f}, 建议={result.recommendation}")],
+        content=[TextContent(type="text", text=result_text)],
         structuredContent=result.model_dump()
     )
@@ -347,17 +411,81 @@ async def handle_gradient_boosting(ctx, y_data, x_data, feature_names=None,
 async def handle_lasso_regression(ctx, y_data, x_data, feature_names=None, alpha=1.0, **kwargs):
+    """处理Lasso回归 - 统一输出格式"""
     result = lasso_regression(y_data, x_data, feature_names, alpha)
+    # 检查R²是否为负值
+    r2_warning = ""
+    if result.r2_score < 0:
+        r2_warning = f"\n⚠️ 警告：R²为负值({result.r2_score:.4f})，表明模型性能比简单均值预测更差。建议：1) 检查数据质量 2) 尝试更小的alpha值 3) 增加样本数量"
+    # 检查系数是否全为0
+    coef_warning = ""
+    if all(abs(coef) < 1e-10 for coef in result.coefficients.values()):
+        coef_warning = f"\n⚠️ 警告：所有系数都被压缩为0，正则化参数alpha={alpha}可能过大，建议减小alpha值"
+    # 构建详细的结果文本
+    result_text = f"""📊 Lasso回归分析结果
+🔍 模型拟合信息：
+- R² = {result.r2_score:.4f}
+- 均方误差(MSE) = {result.mse:.4f}
+- 平均绝对误差(MAE) = {result.mae:.4f}
+- 样本数量 = {result.n_obs}
+- 正则化参数(alpha) = {result.alpha}
+{r2_warning}{coef_warning}
+📈 回归系数详情："""
+    # 添加系数信息，按绝对值排序
+    sorted_coefficients = sorted(result.coefficients.items(), key=lambda x: abs(x[1]), reverse=True)
+    for var_name, coef in sorted_coefficients:
+        if abs(coef) > 1e-10:  # 只显示非零系数
+            result_text += f"\n- {var_name}: {coef:.4f}"
+        else:
+            result_text += f"\n- {var_name}: 0.0000 (被压缩)"
+    result_text += f"\n\n💡 模型说明：Lasso回归使用L1正则化进行特征选择，能够自动将不重要的特征系数压缩为0，适用于高维数据和特征选择场景。"
+    result_text += f"\n\n⚠️ 注意事项：由于数据标准化，系数大小需要谨慎解释。"
     return CallToolResult(
-        content=[TextContent(type="text", text=f"Lasso回归: R²={result.r2_score:.4f}")],
+        content=[TextContent(type="text", text=result_text)],
         structuredContent=result.model_dump()
     )
 async def handle_ridge_regression(ctx, y_data, x_data, feature_names=None, alpha=1.0, **kwargs):
+    """处理Ridge回归 - 统一输出格式"""
     result = ridge_regression(y_data, x_data, feature_names, alpha)
+    # 检查R²是否为负值
+    r2_warning = ""
+    if result.r2_score < 0:
+        r2_warning = f"\n⚠️ 警告：R²为负值({result.r2_score:.4f})，表明模型性能比简单均值预测更差。建议：1) 检查数据质量 2) 尝试更小的alpha值 3) 增加样本数量"
+    # 构建详细的结果文本
+    result_text = f"""📊 Ridge回归分析结果
+🔍 模型拟合信息：
+- R² = {result.r2_score:.4f}
+- 均方误差(MSE) = {result.mse:.4f}
+- 平均绝对误差(MAE) = {result.mae:.4f}
+- 样本数量 = {result.n_obs}
+- 正则化参数(alpha) = {result.alpha}
+{r2_warning}
+📈 回归系数详情："""
+    # 添加系数信息，按绝对值排序
+    sorted_coefficients = sorted(result.coefficients.items(), key=lambda x: abs(x[1]), reverse=True)
+    for var_name, coef in sorted_coefficients:
+        result_text += f"\n- {var_name}: {coef:.4f}"
+    result_text += f"\n\n💡 模型说明：Ridge回归使用L2正则化处理多重共线性问题，对所有系数进行收缩但不进行特征选择，适用于需要稳定估计的场景。"
+    result_text += f"\n\n⚠️ 注意事项：由于数据标准化，系数大小需要谨慎解释。"
     return CallToolResult(
-        content=[TextContent(type="text", text=f"Ridge回归: R²={result.r2_score:.4f}")],
+        content=[TextContent(type="text", text=result_text)],
         structuredContent=result.model_dump()
     )