PyPI - staran - Versions diffs - 0.2.3__tar.gz → 0.2.4__tar.gz - Mend

staran 0.2.3tar.gz → 0.2.4tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

{staran-0.2.3/staran.egg-info → staran-0.2.4}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: staran
-Version: 0.2.3
+Version: 0.2.4
 Summary: staran - 高性能Python工具库
 Home-page: https://github.com/starlxa/staran
 Author: StarAn
@@ -30,12 +30,15 @@ Dynamic: summary
 Staran是一个强大的特征工程和数据处理工具包，提供从数据到模型的完整解决方案。特别针对工银图灵平台优化，让特征工程和模型训练变得前所未有的简单。
-## ✨ v1.2.0 新特性
+## ✨ v0.2.4 新特性
-- 🏦 **图灵平台完整集成** - 无缝集成turingPythonLib，简化95%代码
-- 📥 **智能数据下载** - 一键从Hive/Hadoop下载特征数据
-- 🔄 **批量特征管理** - 自动化特征表创建、命名和下载
-- 🎯 **端到端ML流程** - 从特征工程到模型训练数据的完整自动化
+- �️ **模块化引擎架构** - 独立的引擎模块，支持Spark、Hive、图灵平台
+- 🔧 **统一接口设计** - 所有引擎提供一致的SQL生成、执行和下载接口
+- 🎯 **继承复用架构** - TuringEngine继承SparkEngine，复用SQL生成逻辑
+- 📦 **清晰代码分离** - SQL生成与平台特定执行逻辑完全分离
+- � **易于扩展** - 新增数据库支持只需实现BaseEngine接口
+- � **独立引擎存储** - engines/文件夹专门存放所有数据库引擎
+- 🔄 **向后兼容** - 保持对原有API的完全兼容
 ## 🚀 快速开始
@@ -59,10 +62,30 @@ date3 = Date(2025, 4, 15)   # 输出: 2025-04-15
 new_date = date1.add_months(2)  # 输出: 202506 (保持YYYYMM格式)
 ```
+### 引擎架构 - 多平台支持
+```python
+from staran.engines import create_engine, create_turing_engine
+# 1. 使用Spark引擎
+spark_engine = create_engine('spark', 'analytics_db')
+# 2. 使用Hive引擎
+hive_engine = create_engine('hive', 'warehouse_db')
+# 3. 使用图灵平台引擎 (继承Spark + turingPythonLib)
+turing_engine = create_turing_engine('analytics_db')
+# 统一接口 - 所有引擎都支持相同方法
+sql = spark_engine.generate_aggregation_sql(schema, 2025, 7, ['sum', 'avg'])
+result = turing_engine.create_table('my_table', sql, execute=True)
+download = turing_engine.download_table_data('my_table', 'file:///nfsHome/data.parquet')
+```
 ### 特征工程 - SQL自动生成
 ```python
-from staran import TableSchema, FeatureGenerator, SQLManager
+from staran import TableSchema, FeatureGenerator, FeatureManager
 # 1. 定义表结构
 schema = TableSchema('user_behavior')
@@ -72,11 +95,11 @@ schema.add_field('amount', 'decimal', aggregatable=True)
 schema.add_field('category', 'string')
 schema.set_monthly_unique(True)
-# 2. 创建SQL管理器
-manager = SQLManager('analytics_db')
+# 2. 创建特征管理器 (基于引擎架构)
+manager = FeatureManager('analytics_db', engine_type='spark')
 # 3. 生成特征SQL
-generator = FeatureGenerator(schema)
+generator = FeatureGenerator(schema, manager)
 result = generator.generate_feature_by_type('aggregation', 2025, 7)
 print(result['sql'])  # 自动生成的聚合特征SQL
 ```
@@ -84,40 +107,54 @@ print(result['sql'])  # 自动生成的聚合特征SQL
 ### 🏦 图灵平台集成 - 一键ML流程
 ```python
-from staran.sql.turing_integration import create_turing_integration
+from staran.engines import create_turing_engine
-# 1. 创建图灵平台集成实例
-turing = create_turing_integration("ml_analytics")
+# 1. 创建图灵引擎
+turing = create_turing_engine("ml_analytics")
-# 2. 一键特征工程 + 数据下载
-result = turing.create_and_download_features(
-    feature_sqls=[
-        "SELECT user_id, sum(amount) as total_amount FROM user_behavior GROUP BY user_id",
-        "SELECT user_id, count(*) as behavior_count FROM user_behavior GROUP BY user_id"
-    ],
-    base_table="user_features",
-    output_dir="file:///nfsHome/ml_features/",
-    mode="cluster"  # 使用集群模式处理大数据
+# 2. 创建特征表
+create_result = turing.create_table(
+    table_name="user_features_2025_07_raw",
+    select_sql="SELECT user_id, sum(amount) as total_amount FROM user_behavior GROUP BY user_id",
+    execute=True,
+    mode="cluster"
 )
-print(f"成功创建 {result['summary']['created_successfully']} 个特征表")
-print(f"成功下载 {result['summary']['downloaded_successfully']} 个数据集")
+# 3. 下载特征数据
+download_result = turing.download_table_data(
+    table_name="user_features_2025_07_raw",
+    output_path="file:///nfsHome/ml_features/user_features.parquet",
+    mode="cluster"
+)
-# 3. 下载标签数据
-labels = turing.download_with_turinglib(
+# 4. 批量下载查询结果
+query_result = turing.download_query_result(
     sql="SELECT user_id, label FROM ml.training_labels WHERE dt='2025-07-28'",
-    output_path="file:///nfsHome/ml_labels/",
-    mode="cluster"
+    output_path="file:///nfsHome/ml_labels/labels.parquet"
 )
-# 4. 现在可以开始模型训练了！
+print(f"特征表创建: {create_result['status']}")
+print(f"数据下载: {download_result['status']}")
 ```
 ## 📖 核心功能
-### 🏦 图灵平台集成 - 终极ML解决方案
+### �️ 引擎架构设计
+**模块化引擎架构，清晰分离关注点：**
-**专为工银图灵平台设计，大幅简化turingPythonLib使用：**
+```
+BaseEngine (抽象基类)
+├── SparkEngine (Spark SQL实现)
+│   └── TuringEngine (继承Spark + turingPythonLib)
+└── HiveEngine (Hive SQL实现)
+```
+| 引擎类型 | SQL生成 | 执行方式 | 下载方式 | 适用场景 |
+|---------|---------|---------|---------|---------|
+| SparkEngine | Spark SQL | 本地执行器 | DataFrame保存 | 本地开发、测试 |
+| HiveEngine | Hive SQL | 本地执行器 | 目录导出 | 传统Hive环境 |
+| TuringEngine | Spark SQL | turingPythonLib | tp.download() | 工银图灵平台 |
 | 功能对比 | 原生turingPythonLib | Staran集成 |
 |---------|-------------------|------------|
@@ -278,49 +315,49 @@ tomorrow = date.add_days(1)         # 202504 (智能处理)
 ```
 staran/
-├── __init__.py                    # 主包入口，v1.2.0功能导出
+├── __init__.py                    # 主包入口，v0.2.4功能导出
+├── engines/                       # 🆕 模块化引擎架构
+│   ├── __init__.py               # 引擎模块入口
+│   ├── base.py                   # BaseEngine抽象基类
+│   ├── spark.py                  # SparkEngine实现
+│   ├── hive.py                   # HiveEngine实现
+│   └── turing.py                 # TuringEngine (继承SparkEngine)
+├── features/                      # 🆕 特征工程模块
+│   ├── __init__.py               # 特征模块入口
+│   ├── manager.py                # FeatureManager (使用引擎架构)
+│   ├── schema.py                 # 表结构定义
+│   └── generator.py              # 特征生成器
 ├── tools/
 │   ├── __init__.py               # 工具模块
 │   └── date.py                   # Date类实现
-├── sql/
-│   ├── __init__.py              # SQL模块
-│   ├── manager.py               # 🆕 SQL中央管理器 + 下载功能
-│   ├── turing_integration.py    # 🆕 图灵平台完整集成
-│   ├── schema.py                # 表结构定义
-│   ├── generator.py             # 特征生成器 (已增强)
-│   └── engines.py               # SQL引擎（Spark等）
-├── example_download.py           # 🆕 下载功能演示
-├── example_turing_platform.py   # 🆕 图灵平台使用指南
-├── setup.py                     # 安装配置
-├── README.md                    # 本文档 (已更新)
-└── DOWNLOAD_FEATURES_SUMMARY.py # 🆕 新功能详细说明
+├── setup.py                      # 安装配置
+├── README.md                     # 本文档 v0.2.4
+└── quick-upload.sh               # 快速部署脚本
 ```
 ## 🧪 快速测试
-### 图灵平台集成测试
+### 引擎架构测试
 ```python
-from staran.sql.turing_integration import create_turing_integration
+from staran import create_engine, create_turing_engine
-# 测试图灵平台环境
-turing = create_turing_integration("test_analytics")
-platform_info = turing.get_platform_info()
+# 测试SparkEngine
+spark = create_engine('spark')
+print(f"Spark引擎: {spark.__class__.__name__}")
-print(f"turingPythonLib可用: {platform_info['turinglib_available']}")
-print(f"图灵环境检测: {platform_info['nfs_home_exists']}")
+# 测试TuringEngine继承
+turing = create_turing_engine("test_analytics")
+print(f"Turing引擎父类: {turing.__class__.__bases__[0].__name__}")
+print(f"是否为SparkEngine子类: {isinstance(turing, spark.__class__)}")
-# 测试快速下载
-from staran.sql.turing_integration import quick_download
-result = quick_download(
-    sql="SELECT 1 as test_col",
-    output_path="file:///nfsHome/test_data/"
-)
-print(f"快速下载测试: {result['status']}")
+# 测试引擎功能
+sql = turing.generate_sql("SELECT user_id, amount FROM users", {"table": "test"})
+print(f"SQL生成测试: {'success' if sql else 'failed'}")
 ```
 ### 特征工程测试
 ```python
-from staran import TableSchema, FeatureGenerator, SQLManager
+from staran import TableSchema, FeatureManager
 # 定义表结构
 schema = TableSchema('user_stats')
@@ -329,16 +366,15 @@ schema.add_date_field('date', 'date')
 schema.add_field('amount', 'decimal', aggregatable=True)
 schema.set_monthly_unique(True)
-# 创建管理器和生成器
-manager = SQLManager('analytics_db')
-generator = FeatureGenerator(schema)
+# 创建管理器（使用引擎架构）
+manager = FeatureManager(engine_type='spark', database='analytics_db')
 # 生成特征并查看摘要
-summary = generator.get_feature_summary()
+summary = manager.get_feature_summary(schema)
 print(f"生成特征数: {summary['total']}")
 # 生成聚合特征SQL
-result = generator.generate_feature_by_type('aggregation', 2025, 7)
+result = manager.generate_feature_by_type(schema, 'aggregation', 2025, 7)
 print("SQL长度:", len(result['sql']))
 ```
@@ -364,23 +400,29 @@ print(f"完整: {date.format_full()}")      # 2025-04-01
 import sys
 sys.path.append("/nfsHome/staran")  # 假设已上传staran包
-# 检查环境
-from staran.sql.turing_integration import create_turing_integration
-turing = create_turing_integration("your_analytics_db")
-print("环境就绪！开始特征工程之旅 🚀")
+# 检查新引擎架构
+from staran import create_turing_engine
+turing = create_turing_engine("your_analytics_db")
+print(f"✅ 引擎类型: {turing.__class__.__name__}")
+print(f"✅ 继承关系: 继承自{turing.__class__.__bases__[0].__name__}")
+print("🚀 环境就绪！开始特征工程之旅")
 ```
 ### 2. 完整ML流程
 ```python
-# 一键完成特征工程到模型训练数据准备
-result = turing.create_and_download_features(
-    feature_sqls=your_feature_sqls,
-    base_table="production_features",
-    output_dir="file:///nfsHome/ml_pipeline/",
-    mode="cluster"
+# 使用新引擎架构进行特征工程
+from staran import FeatureManager
+# 创建基于Turing引擎的特征管理器
+manager = FeatureManager(engine_type='turing', database='production_analytics')
+# 执行SQL并下载结果
+result = manager.execute_and_download(
+    sql="SELECT user_id, features FROM ml_features WHERE dt='2025-07-28'",
+    output_path="file:///nfsHome/ml_pipeline/"
 )
-print(f"✅ 成功！{result['summary']['downloaded_successfully']} 个数据集已准备就绪")
+print(f"✅ 成功！使用{manager.engine.__class__.__name__}完成数据处理")
 ```
 ## 📊 性能优势
@@ -401,4 +443,4 @@ MIT License
 ---
-**Staran v1.2.0** - 让机器学习特征工程变得前所未有的简单 🌟
+**Staran v0.2.4** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟

{staran-0.2.3 → staran-0.2.4}/README.md RENAMED Viewed

@@ -4,12 +4,15 @@
 Staran是一个强大的特征工程和数据处理工具包，提供从数据到模型的完整解决方案。特别针对工银图灵平台优化，让特征工程和模型训练变得前所未有的简单。
-## ✨ v1.2.0 新特性
+## ✨ v0.2.4 新特性
-- 🏦 **图灵平台完整集成** - 无缝集成turingPythonLib，简化95%代码
-- 📥 **智能数据下载** - 一键从Hive/Hadoop下载特征数据
-- 🔄 **批量特征管理** - 自动化特征表创建、命名和下载
-- 🎯 **端到端ML流程** - 从特征工程到模型训练数据的完整自动化
+- �️ **模块化引擎架构** - 独立的引擎模块，支持Spark、Hive、图灵平台
+- 🔧 **统一接口设计** - 所有引擎提供一致的SQL生成、执行和下载接口
+- 🎯 **继承复用架构** - TuringEngine继承SparkEngine，复用SQL生成逻辑
+- 📦 **清晰代码分离** - SQL生成与平台特定执行逻辑完全分离
+- � **易于扩展** - 新增数据库支持只需实现BaseEngine接口
+- � **独立引擎存储** - engines/文件夹专门存放所有数据库引擎
+- 🔄 **向后兼容** - 保持对原有API的完全兼容
 ## 🚀 快速开始
@@ -33,10 +36,30 @@ date3 = Date(2025, 4, 15)   # 输出: 2025-04-15
 new_date = date1.add_months(2)  # 输出: 202506 (保持YYYYMM格式)
 ```
+### 引擎架构 - 多平台支持
+```python
+from staran.engines import create_engine, create_turing_engine
+# 1. 使用Spark引擎
+spark_engine = create_engine('spark', 'analytics_db')
+# 2. 使用Hive引擎
+hive_engine = create_engine('hive', 'warehouse_db')
+# 3. 使用图灵平台引擎 (继承Spark + turingPythonLib)
+turing_engine = create_turing_engine('analytics_db')
+# 统一接口 - 所有引擎都支持相同方法
+sql = spark_engine.generate_aggregation_sql(schema, 2025, 7, ['sum', 'avg'])
+result = turing_engine.create_table('my_table', sql, execute=True)
+download = turing_engine.download_table_data('my_table', 'file:///nfsHome/data.parquet')
+```
 ### 特征工程 - SQL自动生成
 ```python
-from staran import TableSchema, FeatureGenerator, SQLManager
+from staran import TableSchema, FeatureGenerator, FeatureManager
 # 1. 定义表结构
 schema = TableSchema('user_behavior')
@@ -46,11 +69,11 @@ schema.add_field('amount', 'decimal', aggregatable=True)
 schema.add_field('category', 'string')
 schema.set_monthly_unique(True)
-# 2. 创建SQL管理器
-manager = SQLManager('analytics_db')
+# 2. 创建特征管理器 (基于引擎架构)
+manager = FeatureManager('analytics_db', engine_type='spark')
 # 3. 生成特征SQL
-generator = FeatureGenerator(schema)
+generator = FeatureGenerator(schema, manager)
 result = generator.generate_feature_by_type('aggregation', 2025, 7)
 print(result['sql'])  # 自动生成的聚合特征SQL
 ```
@@ -58,40 +81,54 @@ print(result['sql'])  # 自动生成的聚合特征SQL
 ### 🏦 图灵平台集成 - 一键ML流程
 ```python
-from staran.sql.turing_integration import create_turing_integration
+from staran.engines import create_turing_engine
-# 1. 创建图灵平台集成实例
-turing = create_turing_integration("ml_analytics")
+# 1. 创建图灵引擎
+turing = create_turing_engine("ml_analytics")
-# 2. 一键特征工程 + 数据下载
-result = turing.create_and_download_features(
-    feature_sqls=[
-        "SELECT user_id, sum(amount) as total_amount FROM user_behavior GROUP BY user_id",
-        "SELECT user_id, count(*) as behavior_count FROM user_behavior GROUP BY user_id"
-    ],
-    base_table="user_features",
-    output_dir="file:///nfsHome/ml_features/",
-    mode="cluster"  # 使用集群模式处理大数据
+# 2. 创建特征表
+create_result = turing.create_table(
+    table_name="user_features_2025_07_raw",
+    select_sql="SELECT user_id, sum(amount) as total_amount FROM user_behavior GROUP BY user_id",
+    execute=True,
+    mode="cluster"
 )
-print(f"成功创建 {result['summary']['created_successfully']} 个特征表")
-print(f"成功下载 {result['summary']['downloaded_successfully']} 个数据集")
+# 3. 下载特征数据
+download_result = turing.download_table_data(
+    table_name="user_features_2025_07_raw",
+    output_path="file:///nfsHome/ml_features/user_features.parquet",
+    mode="cluster"
+)
-# 3. 下载标签数据
-labels = turing.download_with_turinglib(
+# 4. 批量下载查询结果
+query_result = turing.download_query_result(
     sql="SELECT user_id, label FROM ml.training_labels WHERE dt='2025-07-28'",
-    output_path="file:///nfsHome/ml_labels/",
-    mode="cluster"
+    output_path="file:///nfsHome/ml_labels/labels.parquet"
 )
-# 4. 现在可以开始模型训练了！
+print(f"特征表创建: {create_result['status']}")
+print(f"数据下载: {download_result['status']}")
 ```
 ## 📖 核心功能
-### 🏦 图灵平台集成 - 终极ML解决方案
+### �️ 引擎架构设计
+**模块化引擎架构，清晰分离关注点：**
-**专为工银图灵平台设计，大幅简化turingPythonLib使用：**
+```
+BaseEngine (抽象基类)
+├── SparkEngine (Spark SQL实现)
+│   └── TuringEngine (继承Spark + turingPythonLib)
+└── HiveEngine (Hive SQL实现)
+```
+| 引擎类型 | SQL生成 | 执行方式 | 下载方式 | 适用场景 |
+|---------|---------|---------|---------|---------|
+| SparkEngine | Spark SQL | 本地执行器 | DataFrame保存 | 本地开发、测试 |
+| HiveEngine | Hive SQL | 本地执行器 | 目录导出 | 传统Hive环境 |
+| TuringEngine | Spark SQL | turingPythonLib | tp.download() | 工银图灵平台 |
 | 功能对比 | 原生turingPythonLib | Staran集成 |
 |---------|-------------------|------------|
@@ -252,49 +289,49 @@ tomorrow = date.add_days(1)         # 202504 (智能处理)
 ```
 staran/
-├── __init__.py                    # 主包入口，v1.2.0功能导出
+├── __init__.py                    # 主包入口，v0.2.4功能导出
+├── engines/                       # 🆕 模块化引擎架构
+│   ├── __init__.py               # 引擎模块入口
+│   ├── base.py                   # BaseEngine抽象基类
+│   ├── spark.py                  # SparkEngine实现
+│   ├── hive.py                   # HiveEngine实现
+│   └── turing.py                 # TuringEngine (继承SparkEngine)
+├── features/                      # 🆕 特征工程模块
+│   ├── __init__.py               # 特征模块入口
+│   ├── manager.py                # FeatureManager (使用引擎架构)
+│   ├── schema.py                 # 表结构定义
+│   └── generator.py              # 特征生成器
 ├── tools/
 │   ├── __init__.py               # 工具模块
 │   └── date.py                   # Date类实现
-├── sql/
-│   ├── __init__.py              # SQL模块
-│   ├── manager.py               # 🆕 SQL中央管理器 + 下载功能
-│   ├── turing_integration.py    # 🆕 图灵平台完整集成
-│   ├── schema.py                # 表结构定义
-│   ├── generator.py             # 特征生成器 (已增强)
-│   └── engines.py               # SQL引擎（Spark等）
-├── example_download.py           # 🆕 下载功能演示
-├── example_turing_platform.py   # 🆕 图灵平台使用指南
-├── setup.py                     # 安装配置
-├── README.md                    # 本文档 (已更新)
-└── DOWNLOAD_FEATURES_SUMMARY.py # 🆕 新功能详细说明
+├── setup.py                      # 安装配置
+├── README.md                     # 本文档 v0.2.4
+└── quick-upload.sh               # 快速部署脚本
 ```
 ## 🧪 快速测试
-### 图灵平台集成测试
+### 引擎架构测试
 ```python
-from staran.sql.turing_integration import create_turing_integration
+from staran import create_engine, create_turing_engine
-# 测试图灵平台环境
-turing = create_turing_integration("test_analytics")
-platform_info = turing.get_platform_info()
+# 测试SparkEngine
+spark = create_engine('spark')
+print(f"Spark引擎: {spark.__class__.__name__}")
-print(f"turingPythonLib可用: {platform_info['turinglib_available']}")
-print(f"图灵环境检测: {platform_info['nfs_home_exists']}")
+# 测试TuringEngine继承
+turing = create_turing_engine("test_analytics")
+print(f"Turing引擎父类: {turing.__class__.__bases__[0].__name__}")
+print(f"是否为SparkEngine子类: {isinstance(turing, spark.__class__)}")
-# 测试快速下载
-from staran.sql.turing_integration import quick_download
-result = quick_download(
-    sql="SELECT 1 as test_col",
-    output_path="file:///nfsHome/test_data/"
-)
-print(f"快速下载测试: {result['status']}")
+# 测试引擎功能
+sql = turing.generate_sql("SELECT user_id, amount FROM users", {"table": "test"})
+print(f"SQL生成测试: {'success' if sql else 'failed'}")
 ```
 ### 特征工程测试
 ```python
-from staran import TableSchema, FeatureGenerator, SQLManager
+from staran import TableSchema, FeatureManager
 # 定义表结构
 schema = TableSchema('user_stats')
@@ -303,16 +340,15 @@ schema.add_date_field('date', 'date')
 schema.add_field('amount', 'decimal', aggregatable=True)
 schema.set_monthly_unique(True)
-# 创建管理器和生成器
-manager = SQLManager('analytics_db')
-generator = FeatureGenerator(schema)
+# 创建管理器（使用引擎架构）
+manager = FeatureManager(engine_type='spark', database='analytics_db')
 # 生成特征并查看摘要
-summary = generator.get_feature_summary()
+summary = manager.get_feature_summary(schema)
 print(f"生成特征数: {summary['total']}")
 # 生成聚合特征SQL
-result = generator.generate_feature_by_type('aggregation', 2025, 7)
+result = manager.generate_feature_by_type(schema, 'aggregation', 2025, 7)
 print("SQL长度:", len(result['sql']))
 ```
@@ -338,23 +374,29 @@ print(f"完整: {date.format_full()}")      # 2025-04-01
 import sys
 sys.path.append("/nfsHome/staran")  # 假设已上传staran包
-# 检查环境
-from staran.sql.turing_integration import create_turing_integration
-turing = create_turing_integration("your_analytics_db")
-print("环境就绪！开始特征工程之旅 🚀")
+# 检查新引擎架构
+from staran import create_turing_engine
+turing = create_turing_engine("your_analytics_db")
+print(f"✅ 引擎类型: {turing.__class__.__name__}")
+print(f"✅ 继承关系: 继承自{turing.__class__.__bases__[0].__name__}")
+print("🚀 环境就绪！开始特征工程之旅")
 ```
 ### 2. 完整ML流程
 ```python
-# 一键完成特征工程到模型训练数据准备
-result = turing.create_and_download_features(
-    feature_sqls=your_feature_sqls,
-    base_table="production_features",
-    output_dir="file:///nfsHome/ml_pipeline/",
-    mode="cluster"
+# 使用新引擎架构进行特征工程
+from staran import FeatureManager
+# 创建基于Turing引擎的特征管理器
+manager = FeatureManager(engine_type='turing', database='production_analytics')
+# 执行SQL并下载结果
+result = manager.execute_and_download(
+    sql="SELECT user_id, features FROM ml_features WHERE dt='2025-07-28'",
+    output_path="file:///nfsHome/ml_pipeline/"
 )
-print(f"✅ 成功！{result['summary']['downloaded_successfully']} 个数据集已准备就绪")
+print(f"✅ 成功！使用{manager.engine.__class__.__name__}完成数据处理")
 ```
 ## 📊 性能优势
@@ -375,4 +417,4 @@ MIT License
 ---
-**Staran v1.2.0** - 让机器学习特征工程变得前所未有的简单 🌟
+**Staran v0.2.4** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟

{staran-0.2.3 → staran-0.2.4}/setup.py RENAMED Viewed

@@ -2,7 +2,7 @@ from setuptools import setup, find_packages
 setup(
     name='staran',
-    version='0.2.3',
+    version='0.2.4',
     description='staran - 高性能Python工具库',
     long_description=open('README.md', encoding='utf-8').read(),
     long_description_content_type='text/markdown',

{staran-0.2.3 → staran-0.2.4}/staran/__init__.py RENAMED Viewed

@@ -152,50 +152,56 @@ SQL工具：
 # 导入主要功能
 from .tools import Date
-from .sql import TableSchema, FeatureGenerator, SparkSQLGenerator, SQLManager, DatabaseType, FeatureTableManager, FeatureConfig
+from .features import (
+    TableSchema, FeatureGenerator, FeatureManager, FeatureTableManager,
+    FeatureConfig, DatabaseType
+)
+from .engines import SparkEngine, HiveEngine, create_engine
-# 图灵平台集成 (可选导入，避免依赖问题)
+# 图灵平台引擎 (可选导入，避免依赖问题)
 try:
-    from .sql.turing_integration import (
-        TuringPlatformIntegration,
-        create_turing_integration,
-        quick_download,
-        quick_feature_pipeline
-    )
+    from .engines import TuringEngine, create_turing_engine
+    from .features import quick_create_and_download
     _TURING_AVAILABLE = True
 except ImportError:
-    # 在没有turingPythonLib的环境中，这些功能不可用
-    TuringPlatformIntegration = None
-    create_turing_integration = None
-    quick_download = None
-    quick_feature_pipeline = None
+    TuringEngine = None
+    create_turing_engine = None
+    quick_create_and_download = None
     _TURING_AVAILABLE = False
+# 向后兼容
+SQLManager = FeatureManager
+SparkSQLGenerator = SparkEngine  # 向后兼容
 # 主要导出
 __all__ = [
     'Date',
     'TableSchema',
     'FeatureGenerator',
     'FeatureConfig',
-    'SparkSQLGenerator',
-    'SQLManager',
+    'FeatureManager',
     'FeatureTableManager',
-    'DatabaseType'
+    'DatabaseType',
+    'SparkEngine',
+    'HiveEngine',
+    'create_engine',
+    # 向后兼容
+    'SQLManager',
+    'SparkSQLGenerator'
 ]
-# 如果图灵集成可用，添加到导出列表
+# 如果图灵引擎可用，添加到导出列表
 if _TURING_AVAILABLE:
     __all__.extend([
-        'TuringPlatformIntegration',
-        'create_turing_integration',
-        'quick_download',
-        'quick_feature_pipeline'
+        'TuringEngine',
+        'create_turing_engine',
+        'quick_create_and_download'
     ])
 # 包信息
-__version__ = '1.2.0'
+__version__ = '2.0.0'
 __author__ = 'Staran Team'
-__description__ = 'Smart feature engineering toolkit with Turing platform integration'
+__description__ = 'Smart feature engineering toolkit with modular engine architecture'
 __license__ = 'MIT'
 # 便捷函数示例

{staran-0.2.3 → staran-0.2.4/staran.egg-info}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: staran
-Version: 0.2.3
+Version: 0.2.4
 Summary: staran - 高性能Python工具库
 Home-page: https://github.com/starlxa/staran
 Author: StarAn
@@ -30,12 +30,15 @@ Dynamic: summary
 Staran是一个强大的特征工程和数据处理工具包，提供从数据到模型的完整解决方案。特别针对工银图灵平台优化，让特征工程和模型训练变得前所未有的简单。
-## ✨ v1.2.0 新特性
+## ✨ v0.2.4 新特性
-- 🏦 **图灵平台完整集成** - 无缝集成turingPythonLib，简化95%代码
-- 📥 **智能数据下载** - 一键从Hive/Hadoop下载特征数据
-- 🔄 **批量特征管理** - 自动化特征表创建、命名和下载
-- 🎯 **端到端ML流程** - 从特征工程到模型训练数据的完整自动化
+- �️ **模块化引擎架构** - 独立的引擎模块，支持Spark、Hive、图灵平台
+- 🔧 **统一接口设计** - 所有引擎提供一致的SQL生成、执行和下载接口
+- 🎯 **继承复用架构** - TuringEngine继承SparkEngine，复用SQL生成逻辑
+- 📦 **清晰代码分离** - SQL生成与平台特定执行逻辑完全分离
+- � **易于扩展** - 新增数据库支持只需实现BaseEngine接口
+- � **独立引擎存储** - engines/文件夹专门存放所有数据库引擎
+- 🔄 **向后兼容** - 保持对原有API的完全兼容
 ## 🚀 快速开始
@@ -59,10 +62,30 @@ date3 = Date(2025, 4, 15)   # 输出: 2025-04-15
 new_date = date1.add_months(2)  # 输出: 202506 (保持YYYYMM格式)
 ```
+### 引擎架构 - 多平台支持
+```python
+from staran.engines import create_engine, create_turing_engine
+# 1. 使用Spark引擎
+spark_engine = create_engine('spark', 'analytics_db')
+# 2. 使用Hive引擎
+hive_engine = create_engine('hive', 'warehouse_db')
+# 3. 使用图灵平台引擎 (继承Spark + turingPythonLib)
+turing_engine = create_turing_engine('analytics_db')
+# 统一接口 - 所有引擎都支持相同方法
+sql = spark_engine.generate_aggregation_sql(schema, 2025, 7, ['sum', 'avg'])
+result = turing_engine.create_table('my_table', sql, execute=True)
+download = turing_engine.download_table_data('my_table', 'file:///nfsHome/data.parquet')
+```
 ### 特征工程 - SQL自动生成
 ```python
-from staran import TableSchema, FeatureGenerator, SQLManager
+from staran import TableSchema, FeatureGenerator, FeatureManager
 # 1. 定义表结构
 schema = TableSchema('user_behavior')
@@ -72,11 +95,11 @@ schema.add_field('amount', 'decimal', aggregatable=True)
 schema.add_field('category', 'string')
 schema.set_monthly_unique(True)
-# 2. 创建SQL管理器
-manager = SQLManager('analytics_db')
+# 2. 创建特征管理器 (基于引擎架构)
+manager = FeatureManager('analytics_db', engine_type='spark')
 # 3. 生成特征SQL
-generator = FeatureGenerator(schema)
+generator = FeatureGenerator(schema, manager)
 result = generator.generate_feature_by_type('aggregation', 2025, 7)
 print(result['sql'])  # 自动生成的聚合特征SQL
 ```
@@ -84,40 +107,54 @@ print(result['sql'])  # 自动生成的聚合特征SQL
 ### 🏦 图灵平台集成 - 一键ML流程
 ```python
-from staran.sql.turing_integration import create_turing_integration
+from staran.engines import create_turing_engine
-# 1. 创建图灵平台集成实例
-turing = create_turing_integration("ml_analytics")
+# 1. 创建图灵引擎
+turing = create_turing_engine("ml_analytics")
-# 2. 一键特征工程 + 数据下载
-result = turing.create_and_download_features(
-    feature_sqls=[
-        "SELECT user_id, sum(amount) as total_amount FROM user_behavior GROUP BY user_id",
-        "SELECT user_id, count(*) as behavior_count FROM user_behavior GROUP BY user_id"
-    ],
-    base_table="user_features",
-    output_dir="file:///nfsHome/ml_features/",
-    mode="cluster"  # 使用集群模式处理大数据
+# 2. 创建特征表
+create_result = turing.create_table(
+    table_name="user_features_2025_07_raw",
+    select_sql="SELECT user_id, sum(amount) as total_amount FROM user_behavior GROUP BY user_id",
+    execute=True,
+    mode="cluster"
 )
-print(f"成功创建 {result['summary']['created_successfully']} 个特征表")
-print(f"成功下载 {result['summary']['downloaded_successfully']} 个数据集")
+# 3. 下载特征数据
+download_result = turing.download_table_data(
+    table_name="user_features_2025_07_raw",
+    output_path="file:///nfsHome/ml_features/user_features.parquet",
+    mode="cluster"
+)
-# 3. 下载标签数据
-labels = turing.download_with_turinglib(
+# 4. 批量下载查询结果
+query_result = turing.download_query_result(
     sql="SELECT user_id, label FROM ml.training_labels WHERE dt='2025-07-28'",
-    output_path="file:///nfsHome/ml_labels/",
-    mode="cluster"
+    output_path="file:///nfsHome/ml_labels/labels.parquet"
 )
-# 4. 现在可以开始模型训练了！
+print(f"特征表创建: {create_result['status']}")
+print(f"数据下载: {download_result['status']}")
 ```
 ## 📖 核心功能
-### 🏦 图灵平台集成 - 终极ML解决方案
+### �️ 引擎架构设计
+**模块化引擎架构，清晰分离关注点：**
-**专为工银图灵平台设计，大幅简化turingPythonLib使用：**
+```
+BaseEngine (抽象基类)
+├── SparkEngine (Spark SQL实现)
+│   └── TuringEngine (继承Spark + turingPythonLib)
+└── HiveEngine (Hive SQL实现)
+```
+| 引擎类型 | SQL生成 | 执行方式 | 下载方式 | 适用场景 |
+|---------|---------|---------|---------|---------|
+| SparkEngine | Spark SQL | 本地执行器 | DataFrame保存 | 本地开发、测试 |
+| HiveEngine | Hive SQL | 本地执行器 | 目录导出 | 传统Hive环境 |
+| TuringEngine | Spark SQL | turingPythonLib | tp.download() | 工银图灵平台 |
 | 功能对比 | 原生turingPythonLib | Staran集成 |
 |---------|-------------------|------------|
@@ -278,49 +315,49 @@ tomorrow = date.add_days(1)         # 202504 (智能处理)
 ```
 staran/
-├── __init__.py                    # 主包入口，v1.2.0功能导出
+├── __init__.py                    # 主包入口，v0.2.4功能导出
+├── engines/                       # 🆕 模块化引擎架构
+│   ├── __init__.py               # 引擎模块入口
+│   ├── base.py                   # BaseEngine抽象基类
+│   ├── spark.py                  # SparkEngine实现
+│   ├── hive.py                   # HiveEngine实现
+│   └── turing.py                 # TuringEngine (继承SparkEngine)
+├── features/                      # 🆕 特征工程模块
+│   ├── __init__.py               # 特征模块入口
+│   ├── manager.py                # FeatureManager (使用引擎架构)
+│   ├── schema.py                 # 表结构定义
+│   └── generator.py              # 特征生成器
 ├── tools/
 │   ├── __init__.py               # 工具模块
 │   └── date.py                   # Date类实现
-├── sql/
-│   ├── __init__.py              # SQL模块
-│   ├── manager.py               # 🆕 SQL中央管理器 + 下载功能
-│   ├── turing_integration.py    # 🆕 图灵平台完整集成
-│   ├── schema.py                # 表结构定义
-│   ├── generator.py             # 特征生成器 (已增强)
-│   └── engines.py               # SQL引擎（Spark等）
-├── example_download.py           # 🆕 下载功能演示
-├── example_turing_platform.py   # 🆕 图灵平台使用指南
-├── setup.py                     # 安装配置
-├── README.md                    # 本文档 (已更新)
-└── DOWNLOAD_FEATURES_SUMMARY.py # 🆕 新功能详细说明
+├── setup.py                      # 安装配置
+├── README.md                     # 本文档 v0.2.4
+└── quick-upload.sh               # 快速部署脚本
 ```
 ## 🧪 快速测试
-### 图灵平台集成测试
+### 引擎架构测试
 ```python
-from staran.sql.turing_integration import create_turing_integration
+from staran import create_engine, create_turing_engine
-# 测试图灵平台环境
-turing = create_turing_integration("test_analytics")
-platform_info = turing.get_platform_info()
+# 测试SparkEngine
+spark = create_engine('spark')
+print(f"Spark引擎: {spark.__class__.__name__}")
-print(f"turingPythonLib可用: {platform_info['turinglib_available']}")
-print(f"图灵环境检测: {platform_info['nfs_home_exists']}")
+# 测试TuringEngine继承
+turing = create_turing_engine("test_analytics")
+print(f"Turing引擎父类: {turing.__class__.__bases__[0].__name__}")
+print(f"是否为SparkEngine子类: {isinstance(turing, spark.__class__)}")
-# 测试快速下载
-from staran.sql.turing_integration import quick_download
-result = quick_download(
-    sql="SELECT 1 as test_col",
-    output_path="file:///nfsHome/test_data/"
-)
-print(f"快速下载测试: {result['status']}")
+# 测试引擎功能
+sql = turing.generate_sql("SELECT user_id, amount FROM users", {"table": "test"})
+print(f"SQL生成测试: {'success' if sql else 'failed'}")
 ```
 ### 特征工程测试
 ```python
-from staran import TableSchema, FeatureGenerator, SQLManager
+from staran import TableSchema, FeatureManager
 # 定义表结构
 schema = TableSchema('user_stats')
@@ -329,16 +366,15 @@ schema.add_date_field('date', 'date')
 schema.add_field('amount', 'decimal', aggregatable=True)
 schema.set_monthly_unique(True)
-# 创建管理器和生成器
-manager = SQLManager('analytics_db')
-generator = FeatureGenerator(schema)
+# 创建管理器（使用引擎架构）
+manager = FeatureManager(engine_type='spark', database='analytics_db')
 # 生成特征并查看摘要
-summary = generator.get_feature_summary()
+summary = manager.get_feature_summary(schema)
 print(f"生成特征数: {summary['total']}")
 # 生成聚合特征SQL
-result = generator.generate_feature_by_type('aggregation', 2025, 7)
+result = manager.generate_feature_by_type(schema, 'aggregation', 2025, 7)
 print("SQL长度:", len(result['sql']))
 ```
@@ -364,23 +400,29 @@ print(f"完整: {date.format_full()}")      # 2025-04-01
 import sys
 sys.path.append("/nfsHome/staran")  # 假设已上传staran包
-# 检查环境
-from staran.sql.turing_integration import create_turing_integration
-turing = create_turing_integration("your_analytics_db")
-print("环境就绪！开始特征工程之旅 🚀")
+# 检查新引擎架构
+from staran import create_turing_engine
+turing = create_turing_engine("your_analytics_db")
+print(f"✅ 引擎类型: {turing.__class__.__name__}")
+print(f"✅ 继承关系: 继承自{turing.__class__.__bases__[0].__name__}")
+print("🚀 环境就绪！开始特征工程之旅")
 ```
 ### 2. 完整ML流程
 ```python
-# 一键完成特征工程到模型训练数据准备
-result = turing.create_and_download_features(
-    feature_sqls=your_feature_sqls,
-    base_table="production_features",
-    output_dir="file:///nfsHome/ml_pipeline/",
-    mode="cluster"
+# 使用新引擎架构进行特征工程
+from staran import FeatureManager
+# 创建基于Turing引擎的特征管理器
+manager = FeatureManager(engine_type='turing', database='production_analytics')
+# 执行SQL并下载结果
+result = manager.execute_and_download(
+    sql="SELECT user_id, features FROM ml_features WHERE dt='2025-07-28'",
+    output_path="file:///nfsHome/ml_pipeline/"
 )
-print(f"✅ 成功！{result['summary']['downloaded_successfully']} 个数据集已准备就绪")
+print(f"✅ 成功！使用{manager.engine.__class__.__name__}完成数据处理")
 ```
 ## 📊 性能优势
@@ -401,4 +443,4 @@ MIT License
 ---
-**Staran v1.2.0** - 让机器学习特征工程变得前所未有的简单 🌟
+**Staran v0.2.4** - 模块化引擎架构，让机器学习特征工程变得前所未有的简单 🌟