npm - @clickzetta/cz-cli-linux-x64 - Versions diffs - 0.3.2 → 0.3.5 - Mend

@clickzetta/cz-cli-linux-x64 0.3.2 → 0.3.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (118) hide show

package/bin/skills/clickzetta-data-recovery/SKILL.md DELETED Viewed

@@ -1,215 +0,0 @@
----
-name: clickzetta-data-recovery
-description: |
-  ClickZetta Lakehouse 数据恢复与历史查询助手。覆盖 Time Travel 查询、UNDROP 恢复误删表、
-  RESTORE TABLE 回滚到历史版本、DESC HISTORY 查看变更记录、SHOW TABLES HISTORY 查看删除记录、
-  数据保留周期（data_retention_days）配置等完整数据恢复工作流。
-  当用户说"恢复误删的表"、"表被 DROP 了怎么办"、"回滚数据"、"查看历史版本"、
-  "时间旅行查询"、"UNDROP"、"RESTORE TABLE"、"数据保留周期"、"查看表的变更历史"、
-  "误操作 DELETE/UPDATE 怎么恢复"、"数据回滚"时触发。
-  包含 ClickZetta 特有的语法（TIMESTAMP AS OF、RESTORE TABLE TO、UNDROP TABLE）
-  以及数据保留周期默认值（默认 1 天，最长 90 天）等关键约束。
-  Keywords: time travel, UNDROP, RESTORE, version history, data recovery, rollback
----
-# ClickZetta Lakehouse 数据恢复 Skill
-## 核心命令速查
-### 1. 查看表变更历史
-```sql
--- 查看表的所有历史版本（版本号、时间、操作类型、操作用户）
-DESC HISTORY table_name;
--- 示例
-DESC HISTORY orders;
-```
-返回字段：`version`、`time`、`total_rows`、`total_bytes`、`user`、`operation`、`job_id`
-### 2. 查看已删除表的记录
-```sql
--- 查看当前 schema 下所有表（含已删除）的历史记录
-SHOW TABLES HISTORY;
--- 指定 schema
-SHOW TABLES HISTORY IN schema_name;
--- 按名称过滤
-SHOW TABLES HISTORY LIKE 'orders%';
--- 按条件过滤（与 LIKE 二选一）
-SHOW TABLES HISTORY WHERE delete_time IS NOT NULL;
-```
-返回字段：`schema_name`、`table_name`、`create_time`、`creator`、`rows`、`bytes`、`comment`、`retention_time`、`delete_time`
-### 3. Time Travel 查询历史数据
-```sql
--- 查询指定时间点的历史数据（只读，不修改表）
-SELECT * FROM table_name TIMESTAMP AS OF 'timestamp_expression';
--- 示例：查询昨天下午 3 点的数据
-SELECT * FROM orders TIMESTAMP AS OF '2026-03-18 15:00:00';
--- 使用 CAST
-SELECT * FROM orders TIMESTAMP AS OF CAST('2026-03-18 15:00:00' AS TIMESTAMP);
--- 使用相对时间（12小时前）
-SELECT * FROM orders TIMESTAMP AS OF CURRENT_TIMESTAMP() - INTERVAL 12 HOURS;
--- 带条件过滤
-SELECT * FROM sales.transactions
-  TIMESTAMP AS OF '2025-03-15 09:00:00'
-WHERE amount > 10000;
-```
-### 4. RESTORE TABLE 回滚到历史版本
-```sql
--- 将表回滚到指定时间点（原地修改，会覆盖当前数据）
-RESTORE TABLE table_name TO TIMESTAMP AS OF 'timestamp_expression';
--- 标准流程：先查历史，再恢复
-DESC HISTORY orders;
-RESTORE TABLE orders TO TIMESTAMP AS OF '2026-03-18 14:59:00';
--- 验证恢复结果
-SELECT COUNT(*) FROM orders;
-```
-> 注意：RESTORE TABLE 支持普通表和动态表，**不支持物化视图**。若表已被 DROP，需先用 UNDROP。
-### 5. UNDROP TABLE 恢复被删除的表
-```sql
--- 恢复被 DROP 的表（需在数据保留周期内）
-UNDROP TABLE table_name;
--- 带 schema 前缀
-UNDROP TABLE schema_name.table_name;
--- 示例
-UNDROP TABLE production.orders;
--- 验证恢复
-SHOW TABLES IN production LIKE 'orders';
-SELECT COUNT(*) FROM production.orders;
-```
-> 支持：普通表（TABLE）、动态表（DYNAMIC TABLE）、物化视图（MATERIALIZED VIEW）
-> 限制：若已存在同名表，需先 DROP 新表再 UNDROP
-### 6. 配置数据保留周期（Time Travel）
-```sql
--- 查看当前保留周期
-DESC EXTENDED table_name;
--- 修改保留周期（单位：天，范围 0-90）
-ALTER TABLE table_name SET PROPERTIES ('data_retention_days'='7');
--- 创建表时指定保留周期
-CREATE TABLE orders (id INT, amount DECIMAL(10,2))
-PROPERTIES ('data_retention_days'='30');
-```
-> 默认保留周期：**1 天（24小时）**，最长 **90 天**
-> ⚠️ **`data_retention_days` vs `data_lifecycle` 区别：**
-> - `data_retention_days`：控制 **Time Travel 保留期**，即可以回溯查询/恢复的历史时长。增大此值会增加存储成本，但不会自动删除数据。
-> - `data_lifecycle`：控制**数据 TTL（生命周期）**，到期后自动删除数据（可选同时删除表结构）。适用于日志、临时数据等有明确过期需求的场景。
-> - 两者相互独立，可同时设置。
-### 7. 数据生命周期（TTL）管理
-```sql
--- 创建表时设置生命周期（7天后自动回收数据）
-CREATE TABLE tname (col1 INT, col2 STRING)
-PROPERTIES ('data_lifecycle'='7');
--- 创建表时设置生命周期并在到期时删除表结构
-CREATE TABLE tname (col1 INT, col2 STRING)
-PROPERTIES ('data_lifecycle'='7', 'data_lifecycle_delete_meta'='true');
--- 修改已有表的生命周期
-ALTER TABLE tname SET PROPERTIES ('data_lifecycle'='30');
--- 关闭生命周期（永久保留）
-ALTER TABLE tname SET PROPERTIES ('data_lifecycle'='-1');
--- 设置分区级别的生命周期（到期后自动回收该分区数据）
-ALTER TABLE tname PARTITION (dt='2024-01-01') SET PROPERTIES ('data_lifecycle'='30');
-```
-> **分区级别支持**：`data_lifecycle` 和 `data_retention_days` 均支持在分区级别设置，可以对不同分区配置不同的保留策略。例如热数据分区保留 90 天 Time Travel，冷数据分区保留 1 天。
----
-## 典型恢复场景
-### 场景 A：表被误 DROP，立即恢复
-```sql
--- Step 1: 确认表已被删除及删除时间
-SHOW TABLES HISTORY LIKE 'orders';
--- Step 2: 直接 UNDROP（最快方式）
-UNDROP TABLE orders;
--- Step 3: 验证
-SELECT COUNT(*) FROM orders;
-```
-### 场景 B：误执行 DELETE/UPDATE，回滚数据
-```sql
--- Step 1: 查看变更历史，找到误操作前的版本时间
-DESC HISTORY analytics.events;
--- Step 2: 先用 Time Travel 验证历史数据
-SELECT COUNT(*) FROM analytics.events
-  TIMESTAMP AS OF '2026-03-18 14:55:00'
-WHERE date < '2025-01-01';
--- Step 3a: 原地回滚（会覆盖当前所有数据）
-RESTORE TABLE analytics.events TO TIMESTAMP AS OF '2026-03-18 14:55:00';
--- Step 3b: 仅补回被删除的数据（不影响其他数据）
-INSERT INTO analytics.events
-SELECT * FROM analytics.events TIMESTAMP AS OF '2026-03-18 14:55:00'
-WHERE date < '2025-01-01';
--- Step 4: 验证
-SELECT COUNT(*) FROM analytics.events WHERE date < '2025-01-01';
-```
-### 场景 C：Time Travel 查询历史数据（只读）
-```sql
--- 查询指定时间点的数据，不修改表
-SELECT *
-FROM sales.transactions
-  TIMESTAMP AS OF '2025-03-15 09:00:00'
-WHERE amount > 10000
-ORDER BY amount DESC;
-```
----
-## 关键约束与注意事项
-| 项目 | 说明 |
-|------|------|
-| 默认保留周期 | 1 天（24小时） |
-| 最长保留周期 | 90 天 |
-| UNDROP 限制 | 同名表存在时无法 UNDROP，需先 DROP 新表 |
-| RESTORE 限制 | 不支持物化视图；表已删除时需先 UNDROP |
-| Time Travel 语法 | `TIMESTAMP AS OF`（不是 `AT`、`FOR SYSTEM_TIME AS OF`） |
-| 时区 | 时间戳默认使用实例时区，建议明确指定或换算 UTC |
-| 保留周期修改 | 会增加存储成本 |
----
-## 决策树
-```
-数据丢失/损坏
-├── 表被 DROP？
-│   ├── 在保留周期内 → UNDROP TABLE
-│   └── 超出保留周期 → 联系管理员 / 从备份恢复
-└── 表存在，数据被 DELETE/UPDATE/TRUNCATE？
-    ├── 在保留周期内
-    │   ├── 需要全量回滚 → RESTORE TABLE TO TIMESTAMP AS OF
-    │   └── 需要补回部分数据 → INSERT INTO ... SELECT ... TIMESTAMP AS OF
-    └── 超出保留周期 → 联系管理员 / 从备份恢复
-```

package/bin/skills/clickzetta-data-recovery/evals/evals.json DELETED Viewed

@@ -1,35 +0,0 @@
-{
-  "skill_name": "clickzetta-data-recovery",
-  "evals": [
-    {
-      "id": 1,
-      "prompt": "我的表 production.orders 被误删了，怎么恢复？",
-      "expected_output": "使用 UNDROP TABLE production.orders; 恢复，先用 SHOW TABLES HISTORY 确认删除记录，恢复后验证数据",
-      "files": []
-    },
-    {
-      "id": 2,
-      "prompt": "昨天下午3点我执行了 DELETE FROM analytics.events WHERE date < '2025-01-01'，现在想把数据恢复回来",
-      "expected_output": "使用 TIMESTAMP AS OF 查询历史数据，通过 RESTORE TABLE 或 INSERT INTO ... SELECT ... TIMESTAMP AS OF 恢复被删除的数据，包含时区换算说明",
-      "files": []
-    },
-    {
-      "id": 3,
-      "prompt": "我想查询 sales.transactions 表在 2025-03-15 09:00:00 时金额超过 10000 的交易记录",
-      "expected_output": "使用 SELECT * FROM sales.transactions TIMESTAMP AS OF '2025-03-15 09:00:00' WHERE amount > 10000 语法，说明这是只读查询，提示确认保留周期是否覆盖该时间点",
-      "files": []
-    },
-    {
-      "id": 4,
-      "prompt": "如何查看一张表的所有历史变更记录？我想知道什么时候有人修改过数据",
-      "expected_output": "使用 DESC HISTORY table_name; 命令，说明返回字段含义（version、time、user、operation），可结合 TIMESTAMP AS OF 查询特定版本数据",
-      "files": []
-    },
-    {
-      "id": 5,
-      "prompt": "我想把表的数据保留周期从默认的1天改成30天，怎么操作？有什么注意事项？",
-      "expected_output": "使用 ALTER TABLE table_name SET PROPERTIES ('data_retention_days'='30'); 修改，说明默认1天、最长90天、修改会增加存储成本",
-      "files": []
-    }
-  ]
-}

package/bin/skills/clickzetta-data-science/SKILL.md DELETED Viewed

@@ -1,125 +0,0 @@
----
-name: clickzetta-data-science
-description: |
-  数据科学家使用 ClickZetta Lakehouse 的端到端工作流指南。按工作阶段组织：
-  开发环境准备（Python 3.10+ 检查/搭建）、Jupyter Notebook 配置与使用、
-  项目结构规范（Cookiecutter DS 标准）、数据发现、数据质量评估、
-  数据清洗与整合、数据集构建、EDA 探索分析、
-  特征工程（SQL + ZettaPark）、模型推理上线（BITMAP 用户画像/UDF 批量推理/向量检索）。
-  当用户说"数据科学"、"机器学习"、"特征工程"、"EDA"、"数据探索"、
-  "ZettaPark 机器学习"、"Jupyter 连接 Lakehouse"、"notebook"、"ipynb"、
-  "jupyter kernel"、"%%sql"、"magic command"、"pandas 读取数据"、
-  "数据质量检查"、"数据采样"、"TABLESAMPLE"、"approx_percentile"、
-  "BITMAP 用户画像"、"人群圈选"、"批量推理"、"Python 3.10"、
-  "scikit-learn"、"项目目录结构"、"config.json"、".env"时触发。
-  Keywords: data science, Jupyter, EDA, feature engineering, ML, pandas, notebook
----
-# ClickZetta Lakehouse 数据科学工作流
-## 工作流全景
-```
-环境准备 → Jupyter 配置 → 项目结构 → 数据发现 → 数据质量评估 → 数据清洗整合
-                                                                        ↓
-                                      模型推理上线 ← 特征工程 ← EDA ← 数据集构建
-```
----
-## 硬性前提条件
-**Python 3.10+**（ZettaPark 硬性要求）。用户环境是 3.9 或更低时，先给升级方案再继续：
-```bash
-brew install pyenv && pyenv install 3.12.9 && pyenv local 3.12.9
-python -m venv .venv && source .venv/bin/activate
-```
-详细搭建步骤见 [references/setup.md](references/setup.md)。
----
-## 项目结构
-```
-my-ds-project/
-├── notebooks/          # 00-env-check.ipynb 必须是第一个
-│   ├── 00-env-check.ipynb
-│   ├── 01-data-discovery.ipynb
-│   ├── 02-data-quality.ipynb
-│   ├── 03-eda.ipynb
-│   ├── 04-feature-engineering.ipynb
-│   └── 05-modeling.ipynb
-├── src/
-│   ├── config.py       # 连接配置，见 references/setup.md
-│   ├── data/
-│   └── features/
-├── sql/
-├── data/               # 全部加入 .gitignore
-├── models/             # 全部加入 .gitignore
-├── .env                # 绝不入 git
-└── .env.example        # 入 git
-```
-环境变量命名规范：`CLICKZETTA_SERVICE` / `CLICKZETTA_INSTANCE` / `CLICKZETTA_WORKSPACE` / `CLICKZETTA_USERNAME` / `CLICKZETTA_PASSWORD` / `CLICKZETTA_VCLUSTER` / `CLICKZETTA_SCHEMA`。
----
-## 数据写入规则（禁止事项）
-| 方式 | 结论 |
-|------|------|
-| `session.create_dataframe(df).write.save_as_table()` | ✅ 推荐 |
-| `cursor` 批量 INSERT（每批 500 行） | ✅ Python 3.9 / ZettaPark 不可用时的 fallback |
-| `df.to_sql(conn, ...)` | ❌ 禁止，报 `'list' object has no attribute 'keys'` |
-| SQLAlchemy `clickzetta://...` | ❌ 禁止，dialect 不可靠 |
-代码模板见 [references/write-and-infer.md](references/write-and-infer.md)。
----
-## 数据查看规则
-- 快速查看用 `.show()`，不需要 pandas 时不要 `.to_pandas()`
-- 大表操作默认加 `TABLESAMPLE ROW(10)` 采样，避免 OOM
----
-## 数据验证规则
-导入数据后，**立即用已知基准值验证统计结果**，再进行后续分析。
-常见陷阱：运动员/用户级别的原始数据，团体项目每个参与者各有一条记录，直接 SUM 会重复计算。正确做法：先 `SELECT DISTINCT event, medal, ...` 去重，再聚合。
----
-## ClickZetta SQL 不支持的语法
-| 不支持 | 替代方案 |
-|--------|---------|
-| `CREATE OR REPLACE TABLE` | `CREATE TABLE IF NOT EXISTS`（普通表不支持 OR REPLACE） |
-| `ARRAY_AGG(col IGNORE NULLS)` | `MAX(col)` 或 `COALESCE()` |
-| `QUALIFY` 子句 | 子查询 + `WHERE rn = 1` |
-| `UNION` / `INTERSECT` / `EXCEPT` | JOIN + 应用层合并 |
-| `BEGIN; COMMIT; ROLLBACK;` | 用 MERGE 实现原子操作 |
-| `NOW()` | `CURRENT_TIMESTAMP()` |
-遇到其他语法报错，加载 `clickzetta-sql-syntax-guide` skill。
----
-## Schema 上下文
-Python 代码中 SQL 语句始终使用完整表名 `schema.table`，不依赖当前 schema 上下文。
----
-## 参考文档
-- [环境搭建与项目配置](references/setup.md) — 环境搭建、config.py 模板、Jupyter 配置
-- [数据发现/质量/清洗/EDA 示例](references/data-patterns.md)
-- [数据写入/特征工程/模型推理示例](references/write-and-infer.md)
-- [ZettaPark API](references/zettapark-api.md)
-- [统计分析函数](references/stats-functions.md)
-- [BITMAP 用户画像](references/bitmap-profile.md)

package/bin/skills/clickzetta-data-science/references/bitmap-profile.md DELETED Viewed

@@ -1,146 +0,0 @@
-# BITMAP 用户画像参考
-> 来源：https://www.yunqi.tech/documents/bitmap-type
-BITMAP 是 ClickZetta 中用于高效存储和处理整数集合的数据类型，基于 Roaring Bitmap 压缩算法，特别适合用户画像、人群圈选、UV 统计等数据科学场景。
----
-## 核心限制
-- 支持 **64 位无符号整数**（0 到 2^64-1）
-- **不支持**比较操作（<、>、=）
-- **不支持** ORDER BY、GROUP BY、DISTINCT
-- **不能**作为 PRIMARY KEY、PARTITION KEY、CLUSTER KEY
----
-## 构建用户标签 BITMAP
-```sql
--- 方式 1：从行数据聚合构建（最常用）
-CREATE TABLE ds_workspace.user_tags AS
-SELECT
-    tag_name,
-    group_bitmap_state(user_id) AS user_bitmap
-FROM (
-    -- 高消费用户
-    SELECT 'high_value' AS tag_name, user_id
-    FROM my_schema.orders
-    WHERE total_amount_30d > 1000
-    UNION ALL
-    -- 近30天活跃用户
-    SELECT 'active_30d' AS tag_name, user_id
-    FROM my_schema.events
-    WHERE event_date >= CURRENT_DATE - INTERVAL 30 DAY
-    UNION ALL
-    -- 已流失用户（90天未活跃）
-    SELECT 'churned' AS tag_name, user_id
-    FROM my_schema.users
-    WHERE last_active_date < CURRENT_DATE - INTERVAL 90 DAY
-) t
-GROUP BY tag_name;
--- 方式 2：从数组构建
-INSERT INTO ds_workspace.user_tags VALUES
-    ('vip', bitmap_build(ARRAY(1001, 1002, 1003, 1004)));
-```
----
-## 人群圈选操作
-```sql
--- 交集：同时满足多个标签（AND）
-SELECT bitmap_count(
-    bitmap_and(
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'active_30d')
-    )
-) AS target_count;
--- 并集：满足任一标签（OR）
-SELECT bitmap_count(
-    bitmap_or(
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'active_30d')
-    )
-) AS reach_count;
--- 差集：排除某类用户（ANDNOT）
-SELECT bitmap_count(
-    bitmap_andnot(
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'churned')
-    )
-) AS targetable_count;
--- 获取目标用户 ID 列表
-SELECT bitmap_to_array(
-    bitmap_andnot(
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
-        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'churned')
-    )
-) AS target_user_ids;
-```
----
-## UV 统计（去重计数）
-```sql
--- 日活跃用户数（DAU）
-SELECT
-    event_date,
-    bitmap_count(group_bitmap_state(user_id)) AS dau
-FROM my_schema.events
-GROUP BY event_date
-ORDER BY event_date;
--- 周活跃用户数（WAU）—— 跨天去重
-SELECT
-    DATE_TRUNC('week', event_date) AS week_start,
-    bitmap_count(
-        bitmap_or_agg(daily_bitmap)  -- 合并多天 bitmap
-    ) AS wau
-FROM (
-    SELECT event_date,
-           group_bitmap_state(user_id) AS daily_bitmap
-    FROM my_schema.events
-    GROUP BY event_date
-) t
-GROUP BY 1;
--- 用户留存分析（新用户 vs 回访用户）
-SELECT
-    bitmap_count(
-        bitmap_and(new_users.user_bitmap, return_users.user_bitmap)
-    ) AS retained_users,
-    bitmap_count(
-        bitmap_andnot(new_users.user_bitmap, return_users.user_bitmap)
-    ) AS lost_users
-FROM
-    (SELECT group_bitmap_state(user_id) AS user_bitmap
-     FROM my_schema.events WHERE event_date = '2024-01-01') AS new_users,
-    (SELECT group_bitmap_state(user_id) AS user_bitmap
-     FROM my_schema.events WHERE event_date = '2024-01-08') AS return_users;
-```
----
-## 常用 BITMAP 函数速查
-| 函数 | 说明 | 示例 |
-|---|---|---|
-| `group_bitmap_state(col)` | 聚合构建 BITMAP | `GROUP BY tag` |
-| `bitmap_count(bm)` | 计算元素个数（UV） | `bitmap_count(user_bm)` |
-| `bitmap_and(a, b)` | 交集 | 同时满足 A 和 B |
-| `bitmap_or(a, b)` | 并集 | 满足 A 或 B |
-| `bitmap_andnot(a, b)` | 差集 | 在 A 中但不在 B 中 |
-| `bitmap_xor(a, b)` | 异或（只在一个中） | A、B 各自独有的 |
-| `bitmap_to_array(bm)` | 转为整数数组 | 获取用户 ID 列表 |
-| `bitmap_build(arr)` | 从数组构建 | `bitmap_build(ARRAY(1,2,3))` |
-| `bitmap_contains(bm, val)` | 检查是否包含某值 | `bitmap_contains(bm, user_id)` |
-| `bitmap_min(bm)` | 最小元素 | — |
-| `bitmap_max(bm)` | 最大元素 | — |
-| `to_bitmap(val)` | 单值转 BITMAP | `to_bitmap(user_id)` |

package/bin/skills/clickzetta-data-science/references/data-patterns.md DELETED Viewed

@@ -1,110 +0,0 @@
-# 数据发现、质量评估、清洗、EDA 示例
-## 数据发现
-```python
-from src.config import get_session
-session = get_session()
-session.sql("SHOW SCHEMAS").show()
-session.sql("SHOW TABLES IN my_schema").show()
-session.sql("DESC EXTENDED my_schema.orders").show()
-session.sql("""
-    SELECT table_name, row_count,
-           ROUND(bytes/1024.0/1024/1024, 2) AS size_gb
-    FROM information_schema.tables
-    WHERE table_schema = 'my_schema'
-    ORDER BY bytes DESC
-""").show()
-```
----
-## 数据质量评估
-```sql
--- 基础统计
-SELECT
-    COUNT(*)                                                          AS total_rows,
-    COUNT(DISTINCT user_id)                                           AS unique_users,
-    MIN(event_time) AS earliest, MAX(event_time) AS latest,
-    ROUND(100.0 * SUM(CASE WHEN user_id IS NULL THEN 1 ELSE 0 END) / COUNT(*), 2) AS user_id_null_pct,
-    ROUND(100.0 * SUM(CASE WHEN amount  IS NULL THEN 1 ELSE 0 END) / COUNT(*), 2) AS amount_null_pct
-FROM my_schema.orders;
--- 主键重复检查
-SELECT order_id, COUNT(*) AS cnt
-FROM my_schema.orders GROUP BY order_id HAVING cnt > 1 LIMIT 10;
--- 数值分布（大表高效）
-SELECT
-    approx_percentile(amount, 0.25) AS p25,
-    approx_percentile(amount, 0.50) AS median,
-    approx_percentile(amount, 0.75) AS p75,
-    approx_percentile(amount, 0.99) AS p99,
-    MIN(amount) AS min_val, MAX(amount) AS max_val
-FROM my_schema.orders;
--- 高频值 TOP-K
-SELECT approx_top_k(status, 10) AS top_statuses FROM my_schema.orders;
--- 近似 UV
-SELECT approx_count_distinct(user_id) AS approx_uv FROM my_schema.events;
-```
----
-## 数据清洗
-```sql
--- 去重（保留最新一条）
-SELECT * FROM (
-    SELECT *, ROW_NUMBER() OVER (PARTITION BY order_id ORDER BY update_time DESC) AS rn
-    FROM my_schema.orders_raw
-) WHERE rn = 1;
--- 缺失值处理 + 类型转换
-SELECT
-    order_id, user_id,
-    COALESCE(amount, 0.0)       AS amount,
-    COALESCE(status, 'UNKNOWN') AS status,
-    CAST(order_date AS DATE)    AS order_date
-FROM my_schema.orders_raw
-WHERE user_id IS NOT NULL;
--- 多表整合
-SELECT o.order_id, o.user_id, o.amount, o.order_date,
-       u.age_group, u.city, p.category, p.brand
-FROM my_schema.orders o
-LEFT JOIN my_schema.users    u ON o.user_id    = u.user_id
-LEFT JOIN my_schema.products p ON o.product_id = p.product_id;
-```
----
-## EDA
-```python
-# 采样策略
-df_quick = session.sql("""
-    SELECT * FROM my_schema.events TABLESAMPLE SYSTEM (0.1) LIMIT 50000
-""").to_pandas()  # SYSTEM：文件级，极快，适合 >100万行预览
-df_ml = session.sql("""
-    SELECT * FROM my_schema.events TABLESAMPLE ROW (10)
-""").to_pandas()  # ROW：行级精确，适合 ML 训练集
-# 时序分析
-session.sql("""
-    SELECT
-        DATE_TRUNC('day', order_time)  AS dt,
-        COUNT(*)                       AS daily_orders,
-        SUM(amount)                    AS daily_revenue,
-        AVG(SUM(amount)) OVER (
-            ORDER BY DATE_TRUNC('day', order_time)
-            ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
-        )                              AS revenue_7d_ma
-    FROM my_schema.orders
-    GROUP BY 1 ORDER BY 1
-""").to_pandas().plot(x='dt', y=['daily_revenue', 'revenue_7d_ma'])
-```