npm - @clickzetta/cz-cli-darwin-arm64 - Versions diffs - 0.3.19 → 0.3.21 - Mend

@clickzetta/cz-cli-darwin-arm64 0.3.19 → 0.3.21

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

package/bin/skills/clickzetta-lakehouse-connect/references/zettapark-session.md ADDED Viewed

@@ -0,0 +1,445 @@
+# ZettaPark Session 详细参考
+> **定位**：ZettaPark 是 ClickZetta Lakehouse 的 DataFrame API 库，提供类似 PySpark/Snowpark 的编程体验。
+> **Python 版本**: 推荐 **Python 3.12**（最低 3.10，不支持 3.9 及以下）
+> 本文档基于 `clickzetta_quickstart/Zettapark/` 目录下的真实代码整理。
+## 目录
+1. [安装](#1-安装)
+2. [创建 Session](#2-创建-session)
+3. [Session 上下文操作](#3-session-上下文操作)
+4. [核心导入](#4-核心导入)
+5. [DataFrame 构建](#5-dataframe-构建)
+6. [DataFrame 转换操作](#6-dataframe-转换操作)
+7. [操作方法（触发执行）](#7-操作方法触发执行)
+8. [写入数据](#8-写入数据)
+9. [关闭 Session](#9-关闭-session)
+10. [与 Python SDK 对比](#10-与-python-sdk-对比)
+11. [适用场景](#11-适用场景)
+12. [常见问题](#12-常见问题)
+---
+## 1. 安装
+```bash
+# 方式 1：venv（Python 内置，推荐）
+python3.12 -m venv .venv
+source .venv/bin/activate   # macOS/Linux  |  .venv\Scripts\activate (Windows)
+pip install clickzetta-zettapark-python -i https://pypi.tuna.tsinghua.edu.cn/simple
+# 方式 2：pyenv（需要切换 Python 版本时）
+pyenv install 3.12.9 && pyenv local 3.12.9
+python -m venv .venv && source .venv/bin/activate
+pip install clickzetta-zettapark-python -i https://pypi.tuna.tsinghua.edu.cn/simple
+# 方式 3：conda（数据科学环境）
+conda create -n lakehouse python=3.12 -y && conda activate lakehouse
+pip install clickzetta-zettapark-python -i https://pypi.tuna.tsinghua.edu.cn/simple
+```
+验证安装：
+```python
+import clickzetta.zettapark as C
+print(f"ZettaPark version: {C.__version__}")
+```
+---
+## 2. 创建 Session
+### 2.1 直接使用字典
+```python
+from clickzetta.zettapark.session import Session
+config = {
+    "service": "your-region.api.clickzetta.com",  # 按实例所在区域填写，参见 SKILL.md 区域地址表
+    "username": "my_user",
+    "password": "my_password",
+    "instance": "my_instance",
+    "workspace": "my_workspace",
+    "schema": "public",
+    "vcluster": "default_ap",
+}
+session = Session.builder.configs(config).create()
+```
+### 2.2 从 config.json 加载（推荐）
+项目中的标准做法是将连接参数存放在 `config.json` 中（参见 `clickzetta_quickstart/Zettapark/config.json`）：
+```json
+{
+    "username": "your_username",
+    "password": "your_password",
+    "service": "your-region.api.clickzetta.com",
+    "instance": "your_instance_id",
+    "workspace": "your_workspace",
+    "schema": "public",
+    "vcluster": "default_ap",
+    "sdk_job_timeout": 10,
+    "hints": {
+        "sdk.job.timeout": 3,
+        "query_tag": "Introduction to Zettapark for Python"
+    }
+}
+```
+加载并创建 Session：
+```python
+import json
+from clickzetta.zettapark.session import Session
+with open("config.json", "r") as f:
+    config = json.load(f)
+session = Session.builder.configs(config).create()
+```
+### 2.3 使用环境变量
+```python
+import os
+from clickzetta.zettapark.session import Session
+config = {
+    "service": os.environ["CLICKZETTA_SERVICE"],
+    "username": os.environ["CLICKZETTA_USERNAME"],
+    "password": os.environ["CLICKZETTA_PASSWORD"],
+    "instance": os.environ["CLICKZETTA_INSTANCE"],
+    "workspace": os.environ["CLICKZETTA_WORKSPACE"],
+    "schema": os.environ.get("CLICKZETTA_SCHEMA", "public"),
+    "vcluster": os.environ.get("CLICKZETTA_VCLUSTER", "default_ap"),
+}
+session = Session.builder.configs(config).create()
+```
+### 2.4 连接参数说明
+| 参数 | 必填 | 说明 | 示例 |
+|:--|:--|:--|:--|
+| `service` | ✅ | API 端点（含区域前缀） | `cn-shanghai-alicloud.api.clickzetta.com` |
+| `username` | ✅ | 登录用户名 | `my_user` |
+| `password` | ✅ | 登录密码 | `my_password` |
+| `instance` | ✅ | 实例标识 | `my_instance` |
+| `workspace` | ✅ | 工作空间 | `gharchive` |
+| `schema` | ✅ | 默认 Schema | `public` |
+| `vcluster` | ✅ | 虚拟集群 | `default_ap` |
+| `sdk_job_timeout` | ❌ | SDK 作业超时（秒） | `10` |
+| `hints` | ❌ | 查询提示字典 | `{"sdk.job.timeout": 3}` |
+---
+## 3. Session 上下文操作
+创建 Session 后，可以查询和切换当前上下文：
+```python
+# 查询当前 Schema
+current_schema = session.get_current_schema()
+print(f"Current schema: {current_schema}")
+# 切换 Schema
+session.use_schema("my_other_schema")
+# 启用 SQL 简化器（可选）
+session.sql_simplifier_enabled = True
+# 查看可用虚拟集群
+session.sql("SHOW VCLUSTERS").show()
+# 查看可用 Schema
+session.sql("SHOW SCHEMAS").show()
+```
+---
+## 4. 核心导入
+ZettaPark 提供以下常用模块：
+```python
+import clickzetta.zettapark as C
+from clickzetta.zettapark import Session
+from clickzetta.zettapark import functions as F
+from clickzetta.zettapark import Window
+from clickzetta.zettapark import Row
+import clickzetta.zettapark.types as T
+from clickzetta.zettapark.types import IntegerType, StringType, StructType, StructField
+```
+---
+## 5. DataFrame 构建
+ZettaPark 的核心是 DataFrame——一个延迟评估的关系数据集，只在触发操作方法（如 `show()`、`collect()`）时才执行。
+### 5.1 从 SQL 查询创建
+```python
+df = session.sql("SELECT * FROM my_table LIMIT 10")
+df.show()
+```
+### 5.2 从表创建
+```python
+df = session.table("sample_product_data")
+df.show()
+```
+### 5.3 从本地数据创建
+```python
+# 单列
+df1 = session.create_dataframe([1, 2, 3, 4]).to_df("a")
+df1.show()
+# 多列（使用 schema 列表）
+df2 = session.create_dataframe([[1, 2, 3, 4]], schema=["a", "b", "c", "d"])
+df2.show()
+# 使用 Row 对象
+from clickzetta.zettapark import Row
+df3 = session.create_dataframe([Row(a=1, b=2, c=3, d=4)])
+df3.show()
+# 使用 StructType 指定完整 Schema
+from clickzetta.zettapark.types import IntegerType, StringType, StructType, StructField
+schema = StructType([
+    StructField("a", IntegerType()),
+    StructField("b", StringType()),
+])
+df4 = session.create_dataframe([[1, "click"], [3, "zetta"]], schema)
+df4.show()
+```
+### 5.4 从范围创建
+```python
+df_range = session.range(1, 10, 2).to_df("a")
+df_range.show()
+```
+---
+## 6. DataFrame 转换操作
+DataFrame 操作会被翻译成 SQL 在 Lakehouse 中执行，实现分布式计算。例如：
+```python
+df_filtered = df.filter((F.col("a") + F.col("b")) < 10)
+```
+会被翻译为：
+```sql
+SELECT `a`, `b` FROM (...) WHERE ((`a` + `b`) < CAST(10 AS INT))
+```
+### 6.1 过滤（filter）
+```python
+from clickzetta.zettapark import functions as F
+# 等值过滤
+df = session.table("sample_product_data").filter(F.col("id") == 1)
+df.show()
+# 表达式过滤
+df = session.create_dataframe([[1, 3], [2, 10]], schema=["a", "b"])
+df_filtered = df.filter((F.col("a") + F.col("b")) < 10)
+df_filtered.show()
+```
+### 6.2 选择列（select）
+```python
+# 使用 F.col()
+df = session.table("sample_product_data").select(
+    F.col("id"), F.col("name"), F.col("serial_number")
+)
+# 使用下标访问
+df_info = session.table("sample_product_data")
+df1 = df_info.select(df_info["id"], df_info["name"], df_info["serial_number"])
+# 使用属性访问
+df2 = df_info.select(df_info.id, df_info.name, df_info.serial_number)
+# 使用字符串列名
+df3 = df_info.select("id", "name", "serial_number")
+```
+### 6.3 分组聚合（group_by / agg）
+```python
+df_campaign = session.table("CAMPAIGN_SPEND")
+# 单一聚合
+df_yearly = df_campaign.group_by(F.year("DATE"), "CHANNEL").sum("TOTAL_COST")
+df_yearly.show()
+# 多重聚合
+df_campaign.group_by(F.year("DATE"), "CHANNEL").agg([
+    F.sum("TOTAL_COST").as_("TOTAL_COST"),
+    F.avg("TOTAL_COST").as_("AVG_COST"),
+]).show()
+```
+### 6.4 连接（join）
+```python
+df_lhs = session.create_dataframe([["a", 1], ["b", 2]], schema=["key", "value1"])
+df_rhs = session.create_dataframe([["a", 3], ["b", 4]], schema=["key", "value2"])
+df_lhs.join(
+    df_rhs,
+    df_lhs.col("key") == df_rhs.col("key")
+).select(
+    df_lhs["key"].as_("key"), "value1", "value2"
+).show()
+```
+自连接示例：
+```python
+import copy
+df = session.table("sample_product_data")
+df_copy = copy.copy(df)
+df_joined = df.join(df_copy, F.col("id") == F.col("parent_id"))
+```
+---
+## 7. 操作方法（触发执行）
+DataFrame 是延迟评估的，以下方法会触发实际执行：
+| 方法 | 说明 | 示例 |
+|:--|:--|:--|
+| `show(n)` | 打印前 n 行（默认 10） | `df.show()` |
+| `collect()` | 返回所有行的 Row 列表 | `rows = df.collect()` |
+| `to_pandas()` | 转为 Pandas DataFrame | `pd_df = df.to_pandas()` |
+| `queries` | 查看将要执行的 SQL（不触发执行） | `df.queries` |
+### 7.1 查看生成的 SQL
+```python
+df = session.table("CAMPAIGN_SPEND")
+print(df.queries)
+# {'queries': ['SELECT  *  FROM CAMPAIGN_SPEND'], 'post_actions': []}
+```
+### 7.2 转为 Pandas DataFrame
+```python
+pd_data = df_yearly.to_pandas()
+# 配合可视化库使用
+import seaborn as sns
+import matplotlib.pyplot as plt
+fig, ax = plt.subplots(figsize=(16, 5))
+sns.barplot(data=pd_data, x="year", y="total_cost", hue="channel", ax=ax)
+plt.show()
+```
+---
+## 8. 写入数据
+### 8.1 保存为表
+```python
+# 覆盖写入
+df.write.save_as_table("my_table", mode="overwrite")
+# 追加写入
+df.write.save_as_table("my_temp_table", mode="append")
+```
+> **注意**：ClickZetta 不支持 `table_type="transient"` 参数（该参数来自 Snowflake）。如需临时存储，直接使用普通表，并通过 `data_lifecycle` 属性设置 TTL 或手动清理。
+### 8.2 通过 SQL 创建表并插入数据
+```python
+# 创建表
+session.sql("""
+    CREATE TABLE IF NOT EXISTS sample_product_data (
+        id INT, parent_id INT, category_id INT,
+        name STRING, serial_number STRING, key INT, third INT
+    )
+""").collect()
+# 插入数据
+session.sql("""
+    INSERT INTO sample_product_data VALUES
+    (1, 0, 5, 'Product 1', 'prod-1', 1, 10),
+    (2, 1, 5, 'Product 1A', 'prod-1-A', 1, 20),
+    (3, 1, 5, 'Product 1B', 'prod-1-B', 1, 30)
+""").collect()
+```
+---
+## 9. 关闭 Session
+```python
+session.close()
+```
+---
+## 10. 与 Python SDK 对比
+| 特性 | Python SDK (`clickzetta-connector-python`) | ZettaPark Session (`clickzetta-zettapark-python`) |
+|:--|:--|:--|
+| 返回类型 | Cursor（行级别） | DataFrame |
+| API 风格 | DB-API 2.0 (`connect` → `cursor` → `execute`) | DataFrame API (`Session.builder` → `table` / `sql`) |
+| 适用场景 | 简单 SQL 查询、脚本自动化 | ETL 管道、数据工程、数据探索 |
+| 延迟执行 | 否（立即执行） | 是（调用 `show()` / `collect()` 时执行） |
+| Pandas 集成 | `cursor.fetch_pandas_all()` | `df.to_pandas()` |
+| 写入数据 | 通过 SQL INSERT | `df.write.save_as_table()` |
+| 依赖包 | `clickzetta-connector-python` | `clickzetta-zettapark-python` |
+---
+## 11. 适用场景
+- **数据工程 / ETL 管道**：使用 DataFrame 转换链构建数据处理流水线
+- **数据探索**：在 Jupyter Notebook 中交互式分析数据
+- **特征工程**：结合 `group_by`、`agg`、`Window` 函数生成特征
+- **可视化前处理**：通过 `to_pandas()` 转换后配合 matplotlib / seaborn 绑图
+- **批量数据写入**：通过 `save_as_table()` 将处理结果写回 Lakehouse
+---
+## 12. 常见问题
+### Q: ZettaPark 和 PySpark 有什么关系？
+ZettaPark 提供了类似 PySpark / Snowpark 的 DataFrame API，但底层执行引擎是 ClickZetta Lakehouse。代码风格高度相似，熟悉 PySpark 的开发者可以快速上手。
+### Q: `show()` 和 `collect()` 有什么区别？
+- `show()` 打印格式化的表格输出到控制台，默认显示前 10 行
+- `collect()` 返回所有行的 `Row` 对象列表，适合程序化处理
+### Q: 如何查看 DataFrame 将要执行的 SQL？
+使用 `df.queries` 属性查看生成的 SQL，不会触发实际执行。
+---
+> **交叉引用**：
+> - 主指南：[SKILL.md](../SKILL.md)
+> - Python SDK 参考：[python-sdk.md](./python-sdk.md)
+> - 配置文件管理：[config-file.md](./config-file.md)

package/bin/skills/clickzetta-manage-comments/SKILL.md ADDED Viewed

@@ -0,0 +1,219 @@
+---
+name: clickzetta-manage-comments
+description: >
+  管理 ClickZetta Lakehouse 各类对象的注释（COMMENT），包括增加、修改、删除注释。
+  支持对象：Schema、普通表、外部表、字段、动态表（Dynamic Table）、物化视图（Materialized View）、
+  VCluster、Workspace。
+  当用户说"加注释"、"改注释"、"删注释"、"补注释"、"更新注释"、"清除注释"、
+  "加 comment"、"补充元数据"、"给表/字段/schema/动态表/物化视图/计算集群/工作空间 加描述/改描述/删描述"、
+  "COMMENT 相关操作"、"更新字段说明"时触发。
+  包含 ClickZetta 特有的注释语法（与标准 SQL 不同），以及各对象类型的语法差异和单引号转义处理。
+  务必在用户提到 ClickZetta 注释、元数据补充、字段描述、表说明等场景时使用此 skill。
+  Keywords: COMMENT, annotation, table comment, column comment, metadata
+---
+# ClickZetta 注释管理
+ClickZetta 的注释语法与标准 SQL（`COMMENT ON ...`）不同，使用错误语法会直接报错。
+本 skill 固化了各类对象的增、改、删正确语法。
+> 增加和修改注释使用完全相同的语法（覆盖写入即可），删除注释通过设置空字符串 `''` 实现，不支持 `NULL`。
+---
+## 各对象注释语法
+### 1. Schema
+```sql
+-- 增加 / 修改
+ALTER SCHEMA <schema_name> SET COMMENT '<comment>';
+-- 删除
+ALTER SCHEMA <schema_name> SET COMMENT '';
+```
+### 2. 普通表 / 外部表（External Table）
+两者语法完全相同，统一用 `ALTER TABLE`：
+```sql
+-- 表注释：增加 / 修改
+ALTER TABLE <schema_name>.<table_name> SET COMMENT '<comment>';
+-- 表注释：删除
+ALTER TABLE <schema_name>.<table_name> SET COMMENT '';
+-- 字段注释：增加 / 修改
+ALTER TABLE <schema_name>.<table_name> CHANGE COLUMN <col_name> COMMENT '<comment>';
+-- 字段注释：删除
+ALTER TABLE <schema_name>.<table_name> CHANGE COLUMN <col_name> COMMENT '';
+```
+> 字段注释**不能**用 `ALTER COLUMN ... COMMENT`，必须用 `CHANGE COLUMN`。
+### 3. 动态表（Dynamic Table）
+动态表有专属的 `ALTER DYNAMIC TABLE` 语法：
+```sql
+-- 表注释：增加 / 修改
+ALTER DYNAMIC TABLE <dt_name> SET COMMENT '<comment>';
+-- 表注释：删除
+ALTER DYNAMIC TABLE <dt_name> SET COMMENT '';
+-- 字段注释：增加 / 修改
+ALTER DYNAMIC TABLE <dt_name> CHANGE COLUMN <col_name> COMMENT '<comment>';
+-- 字段注释：删除
+ALTER DYNAMIC TABLE <dt_name> CHANGE COLUMN <col_name> COMMENT '';
+```
+### 4. 物化视图（Materialized View）
+注意：物化视图的注释修改用的是 `ALTER TABLE`，不是 `ALTER MATERIALIZED VIEW`：
+```sql
+-- 表注释：增加 / 修改
+ALTER TABLE <mv_name> SET COMMENT '<comment>';
+-- 表注释：删除
+ALTER TABLE <mv_name> SET COMMENT '';
+-- 字段注释：增加 / 修改
+ALTER TABLE <mv_name> CHANGE COLUMN <col_name> COMMENT '<comment>';
+-- 字段注释：删除
+ALTER TABLE <mv_name> CHANGE COLUMN <col_name> COMMENT '';
+```
+### 5. VCluster（计算集群）
+```sql
+-- 增加 / 修改
+ALTER VCLUSTER <vc_name> SET COMMENT '<comment>';
+-- 删除
+ALTER VCLUSTER <vc_name> SET COMMENT '';
+```
+### 6. Workspace（工作空间）
+```sql
+-- 增加 / 修改
+ALTER WORKSPACE <ws_name> SET COMMENT '<comment>';
+-- 删除
+ALTER WORKSPACE <ws_name> SET COMMENT '';
+```
+---
+## 不支持 ALTER COMMENT 的对象
+以下对象**只能在 CREATE 时**通过 `COMMENT` 参数指定注释，创建后无法通过 ALTER 修改：
+| 对象 | 说明 |
+|---|---|
+| VIEW（普通视图） | 无 `ALTER VIEW SET COMMENT` 语法；可用 `CREATE OR REPLACE VIEW ... COMMENT '...' AS ...` 更新注释，无需 DROP |
+| FUNCTION / PROCEDURE | 只能在 CREATE 时指定，无 ALTER 修改注释的语法 |
+| VOLUME | 无 ALTER VOLUME SET COMMENT 语法 |
+| PIPE | 无 ALTER PIPE SET COMMENT 语法 |
+| TABLE STREAM | 无 ALTER STREAM SET COMMENT 语法 |
+| USER | `ALTER USER` 只支持 `DEFAULT_VCLUSTER` / `DEFAULT_SCHEMA`，不支持 COMMENT |
+| ROLE | 只能在 `CREATE ROLE ... COMMENT '...'` 时设置 |
+| CONNECTION | 只能在 CREATE CONNECTION 时指定 COMMENT，无 ALTER 修改语法 |
+| INDEX | 只能在 CREATE INDEX 时指定 COMMENT（如 `CREATE BLOOMFILTER INDEX idx ON TABLE t(col) COMMENT '...'`），无 ALTER 修改语法 |
+如果用户需要修改这些对象的注释：
+- **VIEW**：使用 `CREATE OR REPLACE VIEW view_name COMMENT '新注释' AS <原查询>` 直接替换，无需 DROP
+- **其他对象**：需要 DROP 后重新 CREATE（注意评估影响）
+---
+## 常见错误语法（不要使用）
+| 错误写法 | 正确写法 |
+|---|---|
+| `COMMENT ON TABLE t IS '...'` | `ALTER TABLE t SET COMMENT '...'` |
+| `COMMENT ON SCHEMA s IS '...'` | `ALTER SCHEMA s SET COMMENT '...'` |
+| `ALTER TABLE t ALTER COLUMN c COMMENT '...'` | `ALTER TABLE t CHANGE COLUMN c COMMENT '...'` |
+| `ALTER TABLE t SET COMMENT NULL` | `ALTER TABLE t SET COMMENT ''`（删除用空字符串）|
+| `ALTER MATERIALIZED VIEW mv SET COMMENT '...'` | `ALTER TABLE mv SET COMMENT '...'`（物化视图用 ALTER TABLE）|
+---
+## 单引号转义
+注释内容中如果含有单引号（如 `it's`），需要用两个单引号转义：
+```sql
+ALTER TABLE t SET COMMENT 'it''s a player table';
+```
+Python 中统一处理：
+```python
+comment = comment.replace("'", "''")
+sql = f"ALTER TABLE {schema}.{table} SET COMMENT '{comment}'"
+```
+---
+## 批量操作示例
+```python
+import clickzetta
+conn = clickzetta.connect(...)
+cursor = conn.cursor()
+# 批量修改表注释
+table_comments = {
+    "players": "玩家基础信息表 | Steam player profiles",
+    "games":   "游戏基础信息表 | Game metadata",
+}
+for table, comment in table_comments.items():
+    c = comment.replace("'", "''")
+    cursor.execute(f"ALTER TABLE my_schema.{table} SET COMMENT '{c}'")
+# 批量修改字段注释
+col_comments = [
+    ("players", "playerid", "玩家唯一标识符 | Unique player ID"),
+    ("players", "country",  "玩家所在国家 | Player country"),
+]
+for table, col, comment in col_comments:
+    c = comment.replace("'", "''")
+    cursor.execute(f"ALTER TABLE my_schema.{table} CHANGE COLUMN {col} COMMENT '{c}'")
+# 动态表注释
+cursor.execute("ALTER DYNAMIC TABLE my_schema.dt_orders SET COMMENT '订单动态表'")
+# VCluster 注释
+cursor.execute("ALTER VCLUSTER default SET COMMENT '默认通用计算集群'")
+cursor.close()
+conn.close()
+```
+---
+## 验证注释是否生效
+```sql
+DESCRIBE SCHEMA <schema_name>;
+DESCRIBE TABLE <schema_name>.<table_name>;
+DESCRIBE DYNAMIC TABLE <schema_name>.<dt_name>;
+```
+---
+## 操作流程
+1. 确认目标对象类型（schema / 普通表 / 外部表 / 动态表 / 物化视图 / VCluster / Workspace）
+2. 如果是不支持 ALTER COMMENT 的对象（VIEW、FUNCTION 等），告知用户只能 DROP + CREATE
+3. 对注释内容中的单引号做转义
+4. 执行对应 SQL
+5. 用 `DESCRIBE` 验证结果

package/bin/skills/clickzetta-manage-comments/eval_cases.jsonl ADDED Viewed

@@ -0,0 +1,3 @@
+{"case_id":"001","type":"should_call","user_input":"怎么给表加注释？字段注释怎么写？","expected_skill":"clickzetta-manage-comments","expected_output_contains":["COMMENT"]}
+{"case_id":"002","type":"should_call","user_input":"动态表和物化视图怎么加注释？语法和普通表一样吗？","expected_skill":"clickzetta-manage-comments","expected_output_contains":["COMMENT","DYNAMIC TABLE"]}
+{"case_id":"003","type":"should_call","user_input":"怎么删除或清空一个字段的注释？","expected_skill":"clickzetta-manage-comments","expected_output_contains":["COMMENT"]}