npm - @clickzetta/cz-cli-darwin-x64 - Versions diffs - 0.3.81 → 0.3.83 - Mend

@clickzetta/cz-cli-darwin-x64 0.3.81 → 0.3.83

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (201) hide show

package/bin/skills/clickzetta-data-science/SKILL.md ADDED Viewed

@@ -0,0 +1,125 @@
+---
+name: clickzetta-data-science
+description: |
+  数据科学家使用 ClickZetta Lakehouse 的端到端工作流指南。按工作阶段组织：
+  开发环境准备（Python 3.10+ 检查/搭建）、Jupyter Notebook 配置与使用、
+  项目结构规范（Cookiecutter DS 标准）、数据发现、数据质量评估、
+  数据清洗与整合、数据集构建、EDA 探索分析、
+  特征工程（SQL + ZettaPark）、模型推理上线（BITMAP 用户画像/UDF 批量推理/向量检索）。
+  当用户说"数据科学"、"机器学习"、"特征工程"、"EDA"、"数据探索"、
+  "ZettaPark 机器学习"、"Jupyter 连接 Lakehouse"、"notebook"、"ipynb"、
+  "jupyter kernel"、"%%sql"、"magic command"、"pandas 读取数据"、
+  "数据质量检查"、"数据采样"、"TABLESAMPLE"、"approx_percentile"、
+  "BITMAP 用户画像"、"人群圈选"、"批量推理"、"Python 3.10"、
+  "scikit-learn"、"项目目录结构"、"config.json"、".env"时触发。
+  Keywords: data science, Jupyter, EDA, feature engineering, ML, pandas, notebook
+---
+# ClickZetta Lakehouse 数据科学工作流
+## 工作流全景
+```
+环境准备 → Jupyter 配置 → 项目结构 → 数据发现 → 数据质量评估 → 数据清洗整合
+                                                                        ↓
+                                      模型推理上线 ← 特征工程 ← EDA ← 数据集构建
+```
+---
+## 硬性前提条件
+**Python 3.10+**（ZettaPark 硬性要求）。用户环境是 3.9 或更低时，先给升级方案再继续：
+```bash
+brew install pyenv && pyenv install 3.12.9 && pyenv local 3.12.9
+python -m venv .venv && source .venv/bin/activate
+```
+详细搭建步骤见 [references/setup.md](references/setup.md)。
+---
+## 项目结构
+```
+my-ds-project/
+├── notebooks/          # 00-env-check.ipynb 必须是第一个
+│   ├── 00-env-check.ipynb
+│   ├── 01-data-discovery.ipynb
+│   ├── 02-data-quality.ipynb
+│   ├── 03-eda.ipynb
+│   ├── 04-feature-engineering.ipynb
+│   └── 05-modeling.ipynb
+├── src/
+│   ├── config.py       # 连接配置，见 references/setup.md
+│   ├── data/
+│   └── features/
+├── sql/
+├── data/               # 全部加入 .gitignore
+├── models/             # 全部加入 .gitignore
+├── .env                # 绝不入 git
+└── .env.example        # 入 git
+```
+环境变量命名规范：`CLICKZETTA_SERVICE` / `CLICKZETTA_INSTANCE` / `CLICKZETTA_WORKSPACE` / `CLICKZETTA_USERNAME` / `CLICKZETTA_PASSWORD` / `CLICKZETTA_VCLUSTER` / `CLICKZETTA_SCHEMA`。
+---
+## 数据写入规则（禁止事项）
+| 方式 | 结论 |
+|------|------|
+| `session.create_dataframe(df).write.save_as_table()` | ✅ 推荐 |
+| `cursor` 批量 INSERT（每批 500 行） | ✅ Python 3.9 / ZettaPark 不可用时的 fallback |
+| `df.to_sql(conn, ...)` | ❌ 禁止，报 `'list' object has no attribute 'keys'` |
+| SQLAlchemy `clickzetta://...` | ❌ 禁止，dialect 不可靠 |
+代码模板见 [references/write-and-infer.md](references/write-and-infer.md)。
+---
+## 数据查看规则
+- 快速查看用 `.show()`，不需要 pandas 时不要 `.to_pandas()`
+- 大表操作默认加 `TABLESAMPLE ROW(10)` 采样，避免 OOM
+---
+## 数据验证规则
+导入数据后，**立即用已知基准值验证统计结果**，再进行后续分析。
+常见陷阱：运动员/用户级别的原始数据，团体项目每个参与者各有一条记录，直接 SUM 会重复计算。正确做法：先 `SELECT DISTINCT event, medal, ...` 去重，再聚合。
+---
+## ClickZetta SQL 不支持的语法
+| 不支持 | 替代方案 |
+|--------|---------|
+| `CREATE OR REPLACE TABLE` | `CREATE TABLE IF NOT EXISTS`（普通表不支持 OR REPLACE） |
+| `ARRAY_AGG(col IGNORE NULLS)` | `MAX(col)` 或 `COALESCE()` |
+| `QUALIFY` 子句 | 子查询 + `WHERE rn = 1` |
+| `UNION` / `INTERSECT` / `EXCEPT` | JOIN + 应用层合并 |
+| `BEGIN; COMMIT; ROLLBACK;` | 用 MERGE 实现原子操作 |
+| `NOW()` | `CURRENT_TIMESTAMP()` |
+遇到其他语法报错，加载 `clickzetta-sql-syntax-guide` skill。
+---
+## Schema 上下文
+Python 代码中 SQL 语句始终使用完整表名 `schema.table`，不依赖当前 schema 上下文。
+---
+## 参考文档
+- [环境搭建与项目配置](references/setup.md) — 环境搭建、config.py 模板、Jupyter 配置
+- [数据发现/质量/清洗/EDA 示例](references/data-patterns.md)
+- [数据写入/特征工程/模型推理示例](references/write-and-infer.md)
+- [ZettaPark API](references/zettapark-api.md)
+- [统计分析函数](references/stats-functions.md)
+- [BITMAP 用户画像](references/bitmap-profile.md)

package/bin/skills/clickzetta-data-science/eval_cases.jsonl ADDED Viewed

@@ -0,0 +1,12 @@
+{"case_id":"001","type":"should_call","user_input":"怎么用 Jupyter Notebook 连接 Lakehouse","expected_skill":"clickzetta-data-science","expected_output_contains":["Jupyter"]}
+{"case_id":"002","type":"should_call","user_input":"数据科学项目目录结构怎么组织","expected_skill":"clickzetta-data-science","expected_output_contains":["项目结构"]}
+{"case_id":"003","type":"should_call","user_input":"怎么做 EDA 探索性数据分析","expected_skill":"clickzetta-data-science","expected_output_contains":["EDA"]}
+{"case_id":"004","type":"should_call","user_input":"TABLESAMPLE 怎么做数据采样","expected_skill":"clickzetta-data-science","expected_output_contains":["TABLESAMPLE"]}
+{"case_id":"005","type":"should_call","user_input":"怎么用 ZettaPark 做特征工程","expected_skill":"clickzetta-data-science","expected_output_contains":["特征工程"]}
+{"case_id":"006","type":"should_call","user_input":"BITMAP 用户画像怎么做人群圈选","expected_skill":"clickzetta-data-science","expected_output_contains":["BITMAP"]}
+{"case_id":"007","type":"should_call","user_input":"%%sql magic command 怎么在 notebook 里用","expected_skill":"clickzetta-data-science","expected_output_contains":["%%sql"]}
+{"case_id":"008","type":"should_not_call","user_input":"TensorFlow 怎么训练模型","forbidden_skill":"clickzetta-data-science"}
+{"case_id":"009","type":"should_not_call","user_input":"帮我写一个 ETL 管道","forbidden_skill":"clickzetta-data-science"}
+{"case_id":"010","type":"should_not_call","user_input":"怎么创建 VCluster","forbidden_skill":"clickzetta-data-science"}
+{"case_id":"011","type":"should_not_call","user_input":"怎么做数据分享","forbidden_skill":"clickzetta-data-science"}
+{"case_id":"012","type":"should_not_call","user_input":"scikit-learn 怎么安装","forbidden_skill":"clickzetta-data-science"}

package/bin/skills/clickzetta-data-science/references/bitmap-profile.md ADDED Viewed

@@ -0,0 +1,146 @@
+# BITMAP 用户画像参考
+> 来源：https://www.yunqi.tech/documents/bitmap-type
+BITMAP 是 ClickZetta 中用于高效存储和处理整数集合的数据类型，基于 Roaring Bitmap 压缩算法，特别适合用户画像、人群圈选、UV 统计等数据科学场景。
+---
+## 核心限制
+- 支持 **64 位无符号整数**（0 到 2^64-1）
+- **不支持**比较操作（<、>、=）
+- **不支持** ORDER BY、GROUP BY、DISTINCT
+- **不能**作为 PRIMARY KEY、PARTITION KEY、CLUSTER KEY
+---
+## 构建用户标签 BITMAP
+```sql
+-- 方式 1：从行数据聚合构建（最常用）
+CREATE TABLE ds_workspace.user_tags AS
+SELECT
+    tag_name,
+    group_bitmap_state(user_id) AS user_bitmap
+FROM (
+    -- 高消费用户
+    SELECT 'high_value' AS tag_name, user_id
+    FROM my_schema.orders
+    WHERE total_amount_30d > 1000
+    UNION ALL
+    -- 近30天活跃用户
+    SELECT 'active_30d' AS tag_name, user_id
+    FROM my_schema.events
+    WHERE event_date >= CURRENT_DATE - INTERVAL 30 DAY
+    UNION ALL
+    -- 已流失用户（90天未活跃）
+    SELECT 'churned' AS tag_name, user_id
+    FROM my_schema.users
+    WHERE last_active_date < CURRENT_DATE - INTERVAL 90 DAY
+) t
+GROUP BY tag_name;
+-- 方式 2：从数组构建
+INSERT INTO ds_workspace.user_tags VALUES
+    ('vip', bitmap_build(ARRAY(1001, 1002, 1003, 1004)));
+```
+---
+## 人群圈选操作
+```sql
+-- 交集：同时满足多个标签（AND）
+SELECT bitmap_count(
+    bitmap_and(
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'active_30d')
+    )
+) AS target_count;
+-- 并集：满足任一标签（OR）
+SELECT bitmap_count(
+    bitmap_or(
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'active_30d')
+    )
+) AS reach_count;
+-- 差集：排除某类用户（ANDNOT）
+SELECT bitmap_count(
+    bitmap_andnot(
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'churned')
+    )
+) AS targetable_count;
+-- 获取目标用户 ID 列表
+SELECT bitmap_to_array(
+    bitmap_andnot(
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'high_value'),
+        (SELECT user_bitmap FROM ds_workspace.user_tags WHERE tag_name = 'churned')
+    )
+) AS target_user_ids;
+```
+---
+## UV 统计（去重计数）
+```sql
+-- 日活跃用户数（DAU）
+SELECT
+    event_date,
+    bitmap_count(group_bitmap_state(user_id)) AS dau
+FROM my_schema.events
+GROUP BY event_date
+ORDER BY event_date;
+-- 周活跃用户数（WAU）—— 跨天去重
+SELECT
+    DATE_TRUNC('week', event_date) AS week_start,
+    bitmap_count(
+        bitmap_or_agg(daily_bitmap)  -- 合并多天 bitmap
+    ) AS wau
+FROM (
+    SELECT event_date,
+           group_bitmap_state(user_id) AS daily_bitmap
+    FROM my_schema.events
+    GROUP BY event_date
+) t
+GROUP BY 1;
+-- 用户留存分析（新用户 vs 回访用户）
+SELECT
+    bitmap_count(
+        bitmap_and(new_users.user_bitmap, return_users.user_bitmap)
+    ) AS retained_users,
+    bitmap_count(
+        bitmap_andnot(new_users.user_bitmap, return_users.user_bitmap)
+    ) AS lost_users
+FROM
+    (SELECT group_bitmap_state(user_id) AS user_bitmap
+     FROM my_schema.events WHERE event_date = '2024-01-01') AS new_users,
+    (SELECT group_bitmap_state(user_id) AS user_bitmap
+     FROM my_schema.events WHERE event_date = '2024-01-08') AS return_users;
+```
+---
+## 常用 BITMAP 函数速查
+| 函数 | 说明 | 示例 |
+|---|---|---|
+| `group_bitmap_state(col)` | 聚合构建 BITMAP | `GROUP BY tag` |
+| `bitmap_count(bm)` | 计算元素个数（UV） | `bitmap_count(user_bm)` |
+| `bitmap_and(a, b)` | 交集 | 同时满足 A 和 B |
+| `bitmap_or(a, b)` | 并集 | 满足 A 或 B |
+| `bitmap_andnot(a, b)` | 差集 | 在 A 中但不在 B 中 |
+| `bitmap_xor(a, b)` | 异或（只在一个中） | A、B 各自独有的 |
+| `bitmap_to_array(bm)` | 转为整数数组 | 获取用户 ID 列表 |
+| `bitmap_build(arr)` | 从数组构建 | `bitmap_build(ARRAY(1,2,3))` |
+| `bitmap_contains(bm, val)` | 检查是否包含某值 | `bitmap_contains(bm, user_id)` |
+| `bitmap_min(bm)` | 最小元素 | — |
+| `bitmap_max(bm)` | 最大元素 | — |
+| `to_bitmap(val)` | 单值转 BITMAP | `to_bitmap(user_id)` |

package/bin/skills/clickzetta-data-science/references/data-patterns.md ADDED Viewed

@@ -0,0 +1,110 @@
+# 数据发现、质量评估、清洗、EDA 示例
+## 数据发现
+```python
+from src.config import get_session
+session = get_session()
+session.sql("SHOW SCHEMAS").show()
+session.sql("SHOW TABLES IN my_schema").show()
+session.sql("DESC EXTENDED my_schema.orders").show()
+session.sql("""
+    SELECT table_name, row_count,
+           ROUND(bytes/1024.0/1024/1024, 2) AS size_gb
+    FROM information_schema.tables
+    WHERE table_schema = 'my_schema'
+    ORDER BY bytes DESC
+""").show()
+```
+---
+## 数据质量评估
+```sql
+-- 基础统计
+SELECT
+    COUNT(*)                                                          AS total_rows,
+    COUNT(DISTINCT user_id)                                           AS unique_users,
+    MIN(event_time) AS earliest, MAX(event_time) AS latest,
+    ROUND(100.0 * SUM(CASE WHEN user_id IS NULL THEN 1 ELSE 0 END) / COUNT(*), 2) AS user_id_null_pct,
+    ROUND(100.0 * SUM(CASE WHEN amount  IS NULL THEN 1 ELSE 0 END) / COUNT(*), 2) AS amount_null_pct
+FROM my_schema.orders;
+-- 主键重复检查
+SELECT order_id, COUNT(*) AS cnt
+FROM my_schema.orders GROUP BY order_id HAVING cnt > 1 LIMIT 10;
+-- 数值分布（大表高效）
+SELECT
+    approx_percentile(amount, 0.25) AS p25,
+    approx_percentile(amount, 0.50) AS median,
+    approx_percentile(amount, 0.75) AS p75,
+    approx_percentile(amount, 0.99) AS p99,
+    MIN(amount) AS min_val, MAX(amount) AS max_val
+FROM my_schema.orders;
+-- 高频值 TOP-K
+SELECT approx_top_k(status, 10) AS top_statuses FROM my_schema.orders;
+-- 近似 UV
+SELECT approx_count_distinct(user_id) AS approx_uv FROM my_schema.events;
+```
+---
+## 数据清洗
+```sql
+-- 去重（保留最新一条）
+SELECT * FROM (
+    SELECT *, ROW_NUMBER() OVER (PARTITION BY order_id ORDER BY update_time DESC) AS rn
+    FROM my_schema.orders_raw
+) WHERE rn = 1;
+-- 缺失值处理 + 类型转换
+SELECT
+    order_id, user_id,
+    COALESCE(amount, 0.0)       AS amount,
+    COALESCE(status, 'UNKNOWN') AS status,
+    CAST(order_date AS DATE)    AS order_date
+FROM my_schema.orders_raw
+WHERE user_id IS NOT NULL;
+-- 多表整合
+SELECT o.order_id, o.user_id, o.amount, o.order_date,
+       u.age_group, u.city, p.category, p.brand
+FROM my_schema.orders o
+LEFT JOIN my_schema.users    u ON o.user_id    = u.user_id
+LEFT JOIN my_schema.products p ON o.product_id = p.product_id;
+```
+---
+## EDA
+```python
+# 采样策略
+df_quick = session.sql("""
+    SELECT * FROM my_schema.events TABLESAMPLE SYSTEM (0.1) LIMIT 50000
+""").to_pandas()  # SYSTEM：文件级，极快，适合 >100万行预览
+df_ml = session.sql("""
+    SELECT * FROM my_schema.events TABLESAMPLE ROW (10)
+""").to_pandas()  # ROW：行级精确，适合 ML 训练集
+# 时序分析
+session.sql("""
+    SELECT
+        DATE_TRUNC('day', order_time)  AS dt,
+        COUNT(*)                       AS daily_orders,
+        SUM(amount)                    AS daily_revenue,
+        AVG(SUM(amount)) OVER (
+            ORDER BY DATE_TRUNC('day', order_time)
+            ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
+        )                              AS revenue_7d_ma
+    FROM my_schema.orders
+    GROUP BY 1 ORDER BY 1
+""").to_pandas().plot(x='dt', y=['daily_revenue', 'revenue_7d_ma'])
+```

package/bin/skills/clickzetta-data-science/references/setup.md ADDED Viewed

@@ -0,0 +1,160 @@
+# 环境搭建与项目配置
+## 环境搭建
+```bash
+# 方式 1：venv（推荐）
+python3.12 -m venv .venv
+source .venv/bin/activate          # macOS/Linux
+pip install clickzetta_zettapark_python clickzetta-connector-python \
+    python-dotenv pandas numpy scikit-learn pyarrow jupyterlab matplotlib seaborn \
+    -i https://pypi.tuna.tsinghua.edu.cn/simple
+# 方式 2：pyenv（需要切换 Python 版本时）
+pyenv install 3.12.9 && pyenv local 3.12.9
+python -m venv .venv && source .venv/bin/activate
+pip install clickzetta_zettapark_python clickzetta-connector-python \
+    python-dotenv pandas numpy scikit-learn pyarrow jupyterlab matplotlib seaborn \
+    -i https://pypi.tuna.tsinghua.edu.cn/simple
+# 方式 3：conda
+conda create -n lakehouse-ds python=3.12 -y && conda activate lakehouse-ds
+pip install clickzetta_zettapark_python clickzetta-connector-python \
+    python-dotenv pandas numpy scikit-learn pyarrow jupyterlab matplotlib seaborn \
+    -i https://pypi.tuna.tsinghua.edu.cn/simple
+```
+| 问题 | 修复 |
+|------|------|
+| Python 3.8/3.9 | `pyenv install 3.12.9` 或 `python3.12 -m venv .venv` |
+| `pyarrow` 版本冲突 | `pip install pyarrow==14.0.0` |
+| M1/M2 Mac 报错 | `pip install --no-binary :all:` 或改用 conda |
+| 连接超时 | VCluster 未启动，在 Studio 中手动启动 |
+---
+## Jupyter Kernel 配置
+```bash
+# 注册 venv 为 Jupyter kernel（关键步骤，否则 notebook 用系统 Python）
+source .venv/bin/activate
+pip install ipykernel jupyterlab
+python -m ipykernel install --user --name lakehouse-ds --display-name "Python (lakehouse-ds)"
+# 启动 JupyterLab
+jupyter lab --port=8888
+```
+VS Code / Cursor：打开 `.ipynb` → 右上角 "Select Kernel" → 选 "Python (lakehouse-ds)"
+| 问题 | 修复 |
+|------|------|
+| `ModuleNotFoundError: clickzetta` | kernel 未选对，切换到注册的 venv kernel |
+| `.env` 读不到 | `load_dotenv(dotenv_path='../.env')` 指定路径 |
+| `to_pandas()` OOM | 加 `TABLESAMPLE ROW(1)` 或 `LIMIT` |
+| 图表不显示 | notebook 开头加 `%matplotlib inline` |
+---
+## src/config.py 模板
+```python
+import os, sys
+from pathlib import Path
+from dotenv import load_dotenv
+from clickzetta.zettapark.session import Session
+import clickzetta
+# 多位置查找 .env
+for _p in [
+    Path(__file__).parent.parent / ".env",
+    Path.home() / ".config" / "kilo" / ".env",
+    Path.home() / ".czcode" / ".env",
+    Path.home() / ".env",
+]:
+    if _p.exists():
+        load_dotenv(dotenv_path=_p)
+        break
+def check_environment():
+    """在 00-env-check.ipynb 里调用，打印环境诊断。"""
+    ver = sys.version_info
+    if ver < (3, 10):
+        raise RuntimeError(
+            f"Python {ver.major}.{ver.minor} 不满足要求。ZettaPark 需要 Python 3.10+。\n"
+            "升级：brew install pyenv && pyenv install 3.12.9 && pyenv local 3.12.9"
+        )
+    print(f"✅ Python {ver.major}.{ver.minor}.{ver.micro}")
+    for pkg, mod in [
+        ("clickzetta_zettapark_python", "clickzetta.zettapark"),
+        ("clickzetta-connector-python", "clickzetta"),
+        ("pandas", "pandas"), ("python-dotenv", "dotenv"),
+    ]:
+        try:
+            m = __import__(mod.split(".")[0])
+            print(f"✅ {pkg}: {getattr(m, '__version__', 'ok')}")
+        except ImportError:
+            print(f"❌ {pkg}: 未安装 → pip install {pkg}")
+    try:
+        s = get_session()
+        print(f"✅ Lakehouse: {s.sql('SELECT current_workspace(), current_user()').collect()}")
+    except Exception as e:
+        print(f"❌ Lakehouse 连接失败: {e}")
+def get_session() -> Session:
+    return Session.builder.configs({
+        "service":   os.environ["CLICKZETTA_SERVICE"],
+        "instance":  os.environ["CLICKZETTA_INSTANCE"],
+        "workspace": os.environ["CLICKZETTA_WORKSPACE"],
+        "username":  os.environ["CLICKZETTA_USERNAME"],
+        "password":  os.environ["CLICKZETTA_PASSWORD"],
+        "vcluster":  os.environ.get("CLICKZETTA_VCLUSTER", "default_ap"),
+        "schema":    os.environ.get("CLICKZETTA_SCHEMA", "public"),
+    }).create()
+def get_connector_connection():
+    """仅用于 pd.read_sql。禁止用于 df.to_sql()。"""
+    return clickzetta.connect(
+        service=os.environ["CLICKZETTA_SERVICE"],
+        instance=os.environ["CLICKZETTA_INSTANCE"],
+        workspace=os.environ["CLICKZETTA_WORKSPACE"],
+        username=os.environ["CLICKZETTA_USERNAME"],
+        password=os.environ["CLICKZETTA_PASSWORD"],
+        vcluster=os.environ.get("CLICKZETTA_VCLUSTER", "default_ap"),
+        schema=os.environ.get("CLICKZETTA_SCHEMA", "public"),
+    )
+```
+---
+## .env 模板
+```bash
+CLICKZETTA_SERVICE=cn-shanghai-alicloud.api.clickzetta.com
+CLICKZETTA_INSTANCE=<instance-id>
+CLICKZETTA_WORKSPACE=<workspace>
+CLICKZETTA_USERNAME=<username>
+CLICKZETTA_PASSWORD=<password>
+CLICKZETTA_VCLUSTER=default_ap
+CLICKZETTA_SCHEMA=ds_workspace
+```
+## pyproject.toml
+```toml
+[project]
+name = "my-lakehouse-ds-project"
+requires-python = ">=3.10"
+dependencies = [
+    "clickzetta_zettapark_python>=0.1.2",
+    "clickzetta-connector-python>=1.0.0",
+    "python-dotenv>=1.0.0",
+    "pandas>=2.0.0",
+    "numpy>=1.24.0",
+    "scikit-learn>=1.3.0",
+    "pyarrow>=14.0.0",
+    "jupyterlab>=4.0.0",
+    "matplotlib>=3.7.0",
+    "seaborn>=0.12.0",
+]
+```