npm - vesper-wizard - Versions diffs - 2.3.0 → 2.3.2 - Mend

vesper-wizard 2.3.0 → 2.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (213) hide show

package/README.md +37 -322
package/package.json +34 -100
package/vesper-mcp-config.json +6 -0
package/{scripts/wizard.js → wizard.js} +34 -10
package/LICENSE +0 -21
package/build/cache/cdn.js +0 -34
package/build/cache/service.js +0 -63
package/build/cleaning/cleaner.js +0 -81
package/build/cleaning/evaluator.js +0 -89
package/build/cleaning/executor.js +0 -62
package/build/cleaning/exporter.js +0 -87
package/build/cleaning/planner.js +0 -127
package/build/cleaning/rules.js +0 -57
package/build/cleaning/types.js +0 -1
package/build/cloud/adapters/local.js +0 -37
package/build/cloud/adapters/s3.js +0 -24
package/build/cloud/adapters/supabase.js +0 -49
package/build/cloud/storage-manager.js +0 -26
package/build/cloud/types.js +0 -1
package/build/compliance/service.js +0 -73
package/build/compliance/store.js +0 -80
package/build/compliance/types.js +0 -1
package/build/config/config-manager.js +0 -221
package/build/config/secure-keys.js +0 -51
package/build/config/user-config.js +0 -48
package/build/data/processing-worker.js +0 -23
package/build/data/streaming.js +0 -38
package/build/data/worker-pool.js +0 -39
package/build/export/exporter.js +0 -82
package/build/export/packager.js +0 -100
package/build/export/types.js +0 -1
package/build/fusion/aligner.js +0 -56
package/build/fusion/deduplicator.js +0 -69
package/build/fusion/engine.js +0 -69
package/build/fusion/harmonizer.js +0 -39
package/build/fusion/orchestrator.js +0 -86
package/build/fusion/types.js +0 -1
package/build/gateway/unified-dataset-gateway.js +0 -410
package/build/index.js +0 -3068
package/build/ingestion/hf-downloader.js +0 -171
package/build/ingestion/ingestor.js +0 -271
package/build/ingestion/kaggle-downloader.js +0 -102
package/build/install/install-service.js +0 -46
package/build/jobs/manager.js +0 -136
package/build/jobs/queue.js +0 -59
package/build/jobs/types.js +0 -1
package/build/lib/supabase.js +0 -3
package/build/metadata/dataworld-source.js +0 -89
package/build/metadata/domain.js +0 -147
package/build/metadata/github-scraper.js +0 -47
package/build/metadata/institutional-scrapers.js +0 -49
package/build/metadata/kaggle-scraper.js +0 -182
package/build/metadata/kaggle-source.js +0 -70
package/build/metadata/license.js +0 -68
package/build/metadata/monitoring-service.js +0 -107
package/build/metadata/monitoring-store.js +0 -78
package/build/metadata/monitoring-types.js +0 -1
package/build/metadata/openml-source.js +0 -87
package/build/metadata/quality.js +0 -48
package/build/metadata/rate-limiter.js +0 -128
package/build/metadata/scraper.js +0 -448
package/build/metadata/store.js +0 -340
package/build/metadata/types.js +0 -1
package/build/metadata/uci-scraper.js +0 -49
package/build/monitoring/observability.js +0 -76
package/build/preparation/target-detector.js +0 -75
package/build/python/__pycache__/config.cpython-312.pyc +0 -0
package/build/python/asset_downloader_engine.py +0 -94
package/build/python/cleaner.py +0 -226
package/build/python/config.py +0 -263
package/build/python/convert_engine.py +0 -92
package/build/python/dataworld_engine.py +0 -208
package/build/python/export_engine.py +0 -288
package/build/python/framework_adapters.py +0 -100
package/build/python/fusion_engine.py +0 -368
package/build/python/github_adapter.py +0 -106
package/build/python/hf_fallback.py +0 -298
package/build/python/image_engine.py +0 -86
package/build/python/kaggle_engine.py +0 -295
package/build/python/media_engine.py +0 -133
package/build/python/nasa_adapter.py +0 -82
package/build/python/normalize_engine.py +0 -83
package/build/python/openml_engine.py +0 -146
package/build/python/quality_engine.py +0 -267
package/build/python/row_count.py +0 -54
package/build/python/splitter_engine.py +0 -283
package/build/python/target_engine.py +0 -154
package/build/python/test_framework_adapters.py +0 -61
package/build/python/test_fusion_engine.py +0 -89
package/build/python/uci_adapter.py +0 -94
package/build/python/vesper/__init__.py +0 -1
package/build/python/vesper/__pycache__/__init__.cpython-312.pyc +0 -0
package/build/python/vesper/core/__init__.py +0 -1
package/build/python/vesper/core/__pycache__/__init__.cpython-312.pyc +0 -0
package/build/python/vesper/core/__pycache__/asset_downloader.cpython-312.pyc +0 -0
package/build/python/vesper/core/__pycache__/download_recipe.cpython-312.pyc +0 -0
package/build/python/vesper/core/asset_downloader.py +0 -679
package/build/python/vesper/core/download_recipe.py +0 -104
package/build/python/worldbank_adapter.py +0 -99
package/build/quality/analyzer.js +0 -93
package/build/quality/image-analyzer.js +0 -114
package/build/quality/media-analyzer.js +0 -115
package/build/quality/quality-orchestrator.js +0 -162
package/build/quality/types.js +0 -1
package/build/scripts/build-index.js +0 -54
package/build/scripts/check-db.js +0 -73
package/build/scripts/check-jobs.js +0 -24
package/build/scripts/check-naruto.js +0 -17
package/build/scripts/cleanup-kaggle.js +0 -41
package/build/scripts/demo-full-pipeline.js +0 -62
package/build/scripts/demo-ui.js +0 -58
package/build/scripts/e2e-demo.js +0 -72
package/build/scripts/massive-scrape.js +0 -103
package/build/scripts/ops-dashboard.js +0 -33
package/build/scripts/repro-bug.js +0 -37
package/build/scripts/repro-export-bug.js +0 -56
package/build/scripts/scrape-metadata.js +0 -100
package/build/scripts/search-cli.js +0 -26
package/build/scripts/test-bias.js +0 -45
package/build/scripts/test-caching.js +0 -51
package/build/scripts/test-cleaning.js +0 -76
package/build/scripts/test-cloud-storage.js +0 -48
package/build/scripts/test-compliance.js +0 -58
package/build/scripts/test-conversion.js +0 -64
package/build/scripts/test-custom-rules.js +0 -58
package/build/scripts/test-db-opt.js +0 -63
package/build/scripts/test-export-custom.js +0 -33
package/build/scripts/test-exporter.js +0 -53
package/build/scripts/test-fusion.js +0 -61
package/build/scripts/test-github.js +0 -27
package/build/scripts/test-group-split.js +0 -52
package/build/scripts/test-hf-download.js +0 -29
package/build/scripts/test-holdout-manager.js +0 -61
package/build/scripts/test-hybrid-search.js +0 -41
package/build/scripts/test-image-analysis.js +0 -50
package/build/scripts/test-ingestion-infra.js +0 -39
package/build/scripts/test-install.js +0 -40
package/build/scripts/test-institutional.js +0 -26
package/build/scripts/test-integrity.js +0 -41
package/build/scripts/test-jit.js +0 -42
package/build/scripts/test-job-queue.js +0 -62
package/build/scripts/test-kaggle-download.js +0 -34
package/build/scripts/test-large-data.js +0 -50
package/build/scripts/test-mcp-v5.js +0 -74
package/build/scripts/test-media-analysis.js +0 -61
package/build/scripts/test-monitoring.js +0 -91
package/build/scripts/test-observability.js +0 -106
package/build/scripts/test-packager.js +0 -55
package/build/scripts/test-pipeline.js +0 -50
package/build/scripts/test-planning.js +0 -64
package/build/scripts/test-privacy.js +0 -38
package/build/scripts/test-production-sync.js +0 -36
package/build/scripts/test-quality.js +0 -43
package/build/scripts/test-robust-ingestion.js +0 -41
package/build/scripts/test-schema.js +0 -45
package/build/scripts/test-split-validation.js +0 -40
package/build/scripts/test-splitter.js +0 -93
package/build/scripts/test-target-detector.js +0 -29
package/build/scripts/test-uci.js +0 -27
package/build/scripts/test-unified-quality.js +0 -86
package/build/scripts/test-write.js +0 -14
package/build/scripts/verify-integration.js +0 -57
package/build/scripts/verify-priority.js +0 -33
package/build/search/embedder.js +0 -34
package/build/search/engine.js +0 -190
package/build/search/jit-orchestrator.js +0 -262
package/build/search/query-intent.js +0 -509
package/build/search/vector-store.js +0 -123
package/build/splitting/splitter.js +0 -82
package/build/splitting/types.js +0 -1
package/build/tools/formatter.js +0 -251
package/build/utils/downloader.js +0 -52
package/build/utils/python-runtime.js +0 -130
package/build/utils/selector.js +0 -69
package/mcp-config-template.json +0 -18
package/scripts/postinstall.cjs +0 -170
package/scripts/preindex_registry.cjs +0 -157
package/scripts/refresh-index.cjs +0 -87
package/scripts/wizard.cjs +0 -601
package/src/python/__pycache__/config.cpython-312.pyc +0 -0
package/src/python/__pycache__/export_engine.cpython-312.pyc +0 -0
package/src/python/__pycache__/framework_adapters.cpython-312.pyc +0 -0
package/src/python/__pycache__/fusion_engine.cpython-312.pyc +0 -0
package/src/python/__pycache__/kaggle_engine.cpython-312.pyc +0 -0
package/src/python/asset_downloader_engine.py +0 -94
package/src/python/cleaner.py +0 -226
package/src/python/config.py +0 -263
package/src/python/convert_engine.py +0 -92
package/src/python/dataworld_engine.py +0 -208
package/src/python/export_engine.py +0 -288
package/src/python/framework_adapters.py +0 -100
package/src/python/fusion_engine.py +0 -368
package/src/python/github_adapter.py +0 -106
package/src/python/hf_fallback.py +0 -298
package/src/python/image_engine.py +0 -86
package/src/python/kaggle_engine.py +0 -295
package/src/python/media_engine.py +0 -133
package/src/python/nasa_adapter.py +0 -82
package/src/python/normalize_engine.py +0 -83
package/src/python/openml_engine.py +0 -146
package/src/python/quality_engine.py +0 -267
package/src/python/row_count.py +0 -54
package/src/python/splitter_engine.py +0 -283
package/src/python/target_engine.py +0 -154
package/src/python/test_framework_adapters.py +0 -61
package/src/python/test_fusion_engine.py +0 -89
package/src/python/uci_adapter.py +0 -94
package/src/python/vesper/__init__.py +0 -1
package/src/python/vesper/core/__init__.py +0 -1
package/src/python/vesper/core/asset_downloader.py +0 -679
package/src/python/vesper/core/download_recipe.py +0 -104
package/src/python/worldbank_adapter.py +0 -99
package/wizard.cjs +0 -3

package/src/python/media_engine.py DELETED Viewed

@@ -1,133 +0,0 @@
-import sys
-import json
-import os
-import cv2
-import numpy as np
-# Audio analysis depends on librosa/soundfile. Fallback if not available.
-try:
-    import librosa
-    AUDIO_SUPPORT = True
-except ImportError:
-    AUDIO_SUPPORT = False
-def analyze_audio(path):
-    if not AUDIO_SUPPORT:
-        return {"status": "error", "error": "librosa not installed"}
-    try:
-        # Load audio (mono, default sr)
-        y, sr = librosa.load(path, sr=None)
-        duration = librosa.get_duration(y=y, sr=sr)
-        # Audio metrics
-        rms = librosa.feature.rms(y=y)
-        avg_rms = float(np.mean(rms))
-        return {
-            "status": "ok",
-            "type": "audio",
-            "filename": os.path.basename(path),
-            "sample_rate": int(sr),
-            "duration": float(duration),
-            "avg_volume_rms": avg_rms,
-            "is_silent": avg_rms < 0.001
-        }
-    except Exception as e:
-        return {"status": "error", "error": str(e)}
-def analyze_video(path):
-    try:
-        cap = cv2.VideoCapture(path)
-        if not cap.isOpened():
-            return {"status": "error", "error": "Could not open video file"}
-        width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
-        height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
-        fps = cap.get(cv2.CAP_PROP_FPS)
-        frame_count = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
-        duration = frame_count / fps if fps > 0 else 0
-        # Check integrity by reading a few frames
-        test_frame_indices = [0, frame_count // 2, frame_count - 1] if frame_count > 0 else []
-        failed_frames = 0
-        for idx in test_frame_indices:
-            cap.set(cv2.CAP_PROP_POS_FRAMES, idx)
-            ret, frame = cap.read()
-            if not ret or frame is None:
-                failed_frames += 1
-        cap.release()
-        return {
-            "status": "ok",
-            "type": "video",
-            "filename": os.path.basename(path),
-            "width": width,
-            "height": height,
-            "fps": float(fps),
-            "duration": float(duration),
-            "frame_count": frame_count,
-            "corruption_risk": "high" if failed_frames > 0 else "low"
-        }
-    except Exception as e:
-        return {"status": "error", "error": str(e)}
-def main():
-    if len(sys.argv) < 2:
-        print(json.dumps({"error": "No path provided"}))
-        sys.exit(1)
-    input_path = sys.argv[1]
-    results = []
-    # Supported extensions
-    AUDIO_EXTS = (".wav", ".mp3", ".flac", ".ogg", ".m4a")
-    VIDEO_EXTS = (".mp4", ".avi", ".mkv", ".mov", ".wmv")
-    if os.path.isfile(input_path):
-        ext = os.path.splitext(input_path.lower())[1]
-        if ext in AUDIO_EXTS:
-            results.append(analyze_audio(input_path))
-        elif ext in VIDEO_EXTS:
-            results.append(analyze_video(input_path))
-        else:
-            results.append({"status": "error", "error": f"Unsupported file type: {ext}"})
-    elif os.path.isdir(input_path):
-        files = [os.path.join(input_path, f) for f in os.listdir(input_path)]
-        for f in files[:50]: # Limit for demo
-            ext = os.path.splitext(f.lower())[1]
-            if ext in AUDIO_EXTS:
-                results.append(analyze_audio(f))
-            elif ext in VIDEO_EXTS:
-                results.append(analyze_video(f))
-    else:
-        print(json.dumps({"error": "Invalid path"}))
-        sys.exit(1)
-    # Filtering failed results for report aggregation
-    ok_results = [r for r in results if r.get("status") == "ok"]
-    report = {
-        "total_files": len(results),
-        "ok_files": len(ok_results),
-        "failed_files": len(results) - len(ok_results),
-        "details": results
-    }
-    # Calculate some averages if files were found
-    if ok_results:
-        audio_files = [r for r in ok_results if r["type"] == "audio"]
-        video_files = [r for r in ok_results if r["type"] == "video"]
-        if audio_files:
-            report["avg_audio_duration"] = float(np.mean([r["duration"] for r in audio_files]))
-        if video_files:
-            report["avg_video_duration"] = float(np.mean([r["duration"] for r in video_files]))
-            report["avg_fps"] = float(np.mean([r["fps"] for r in video_files]))
-    print(json.dumps(report))
-if __name__ == "__main__":
-    main()

package/src/python/nasa_adapter.py DELETED Viewed

@@ -1,82 +0,0 @@
-import sys
-import json
-import argparse
-import urllib.request
-import urllib.parse
-from datetime import datetime
-# NASA Data Portal uses Socrata
-NASA_API_URL = "https://api.us.socrata.com/api/catalog/v1"
-NASA_DOMAIN = "data.nasa.gov"
-def search_nasa(query: str, limit: int = 10):
-    """
-    Search NASA data portal.
-    """
-    try:
-        params = {
-            "q": query,
-            "limit": limit,
-            "domains": NASA_DOMAIN,
-            "search_context": NASA_DOMAIN
-        }
-        query_string = urllib.parse.urlencode(params)
-        url = f"{NASA_API_URL}?{query_string}"
-        req = urllib.request.Request(url)
-        with urllib.request.urlopen(req) as response:
-            data = json.load(response)
-        results = []
-        # Socrata catalog results are in 'results'
-        items = data.get('results', [])
-        for item in items:
-            ds = item.get('resource', {})
-            metadata = {
-                "id": f"nasa:{ds.get('id')}",
-                "source": "nasa",
-                "name": ds.get('name'),
-                "description": ds.get('description') or "No description available.",
-                "downloads": ds.get('download_count', 0),
-                "likes": ds.get('view_count', 0) // 10,
-                "last_updated": ds.get('updatedAt') or datetime.utcnow().strftime("%Y-%m-%dT%H:%M:%SZ"),
-                "quality_score": 90,
-                "license": {
-                    "id": "public_domain",
-                    "name": "Public Domain",
-                    "category": "safe",
-                    "usage_restrictions": [],
-                    "warnings": []
-                },
-                "tags": ds.get('tags', []),
-                "total_examples": 0,
-                "is_safe_source": True,
-                "is_structured": True,
-                "metadata_url": f"https://data.nasa.gov/d/{ds.get('id')}",
-                "domain": "science"
-            }
-            results.append(metadata)
-        return results
-    except Exception as e:
-        return {"error": str(e)}
-def main():
-    parser = argparse.ArgumentParser(description="NASA Adapter")
-    parser.add_argument("--action", required=True, choices=["search"])
-    parser.add_argument("--query", required=True)
-    parser.add_argument("--limit", type=int, default=10)
-    args = parser.parse_args()
-    if args.action == "search":
-        results = search_nasa(args.query, args.limit)
-        print(json.dumps(results))
-if __name__ == "__main__":
-    main()

package/src/python/normalize_engine.py DELETED Viewed

@@ -1,83 +0,0 @@
-"""
-Normalize any supported dataset file to parquet format.
-Usage: normalize_engine.py <input_path> <output_path>
-Outputs JSON: {"ok": true, "output_path": "...", "rows": N} or {"ok": false, "error": "..."}
-"""
-import sys
-import json
-import os
-try:
-    import polars as pl
-except Exception:
-    print(json.dumps({"ok": False, "error": "polars is required"}))
-    sys.exit(1)
-def _load(src: str) -> pl.DataFrame:
-    ext = os.path.splitext(src)[1].lower()
-    if ext == ".csv":
-        return pl.read_csv(src, ignore_errors=True, infer_schema_length=10000)
-    if ext in (".tsv", ".tab"):
-        return pl.read_csv(src, separator="\t", ignore_errors=True, infer_schema_length=10000)
-    if ext in (".parquet", ".pq"):
-        return pl.read_parquet(src)
-    if ext in (".feather", ".ftr", ".arrow", ".ipc"):
-        return pl.read_ipc(src)
-    if ext in (".jsonl", ".ndjson"):
-        return pl.read_ndjson(src)
-    if ext == ".json":
-        raw = open(src, "r", encoding="utf-8").read().strip()
-        if raw.startswith("["):
-            return pl.read_json(src)
-        # Try NDJSON
-        if "\n" in raw and raw.split("\n")[0].strip().startswith("{"):
-            return pl.read_ndjson(src)
-        # Try wrapper object
-        obj = json.loads(raw)
-        if isinstance(obj, dict):
-            for key in ("data", "rows", "items", "records", "results", "entries", "samples"):
-                if key in obj and isinstance(obj[key], list):
-                    return pl.DataFrame(obj[key])
-            # Last resort - take first list value
-            for v in obj.values():
-                if isinstance(v, list) and len(v) > 0 and isinstance(v[0], dict):
-                    return pl.DataFrame(v)
-        return pl.read_json(src)
-    if ext == ".txt":
-        return pl.read_csv(src, ignore_errors=True, infer_schema_length=10000)
-    # Fallback: try csv
-    return pl.read_csv(src, ignore_errors=True, infer_schema_length=10000)
-def normalize(input_path: str, output_path: str):
-    df = _load(input_path)
-    os.makedirs(os.path.dirname(output_path), exist_ok=True)
-    df.write_parquet(output_path)
-    return df.height
-def main():
-    if len(sys.argv) < 3:
-        print(json.dumps({"ok": False, "error": "Usage: normalize_engine.py <input> <output>"}))
-        sys.exit(1)
-    input_path = sys.argv[1]
-    output_path = sys.argv[2]
-    if not os.path.exists(input_path):
-        print(json.dumps({"ok": False, "error": f"File not found: {input_path}"}))
-        sys.exit(1)
-    try:
-        rows = normalize(input_path, output_path)
-        print(json.dumps({"ok": True, "output_path": output_path, "rows": rows}))
-    except Exception as e:
-        print(json.dumps({"ok": False, "error": str(e)}))
-        sys.exit(1)
-if __name__ == "__main__":
-    main()

package/src/python/openml_engine.py DELETED Viewed

@@ -1,146 +0,0 @@
-import sys
-import json
-import argparse
-import tempfile
-import os
-from typing import Dict, Any, List
-try:
-    import openml
-except ImportError:
-    openml = None
-def _ensure_openml() -> Dict[str, Any]:
-    if openml is None:
-        return {"ok": False, "error": "openml package is not installed. Run 'pip install openml'"}
-    return {"ok": True}
-def _dataset_to_dict(ds: Dict[str, Any]) -> Dict[str, Any]:
-    # OpenML dataset dict from list_datasets
-    did = ds.get("did", "")
-    name = ds.get("name", f"dataset_{did}")
-    version = ds.get("version", "1")
-    status = ds.get("status", "active")
-    format = ds.get("format", "unknown")
-    # Map to Vesper DatasetMetadata format
-    return {
-        "id": f"openml:{did}",
-        "name": name,
-        "source": "openml",
-        "description": f"OpenML Dataset {name} (ID: {did}, Version: {version}, Format: {format}, Status: {status})",
-        "author": "OpenML Community",
-        "license": "Public",
-        "tags": ["openml", format.lower()],
-        "downloads": ds.get("NumberOfDownloads", 0),
-        "likes": ds.get("NumberOfLikes", 0),
-        "created_at": ds.get("upload_date", ""),
-        "updated_at": ds.get("upload_date", ""),
-        "size_bytes": 0, # Not always available in list
-        "quality_score": 0.8, # Default good score for OpenML
-        "domain": "machine_learning",
-        "is_gated": False,
-        "is_nsfw": False,
-        "description_length": 100,
-        "has_readme": False,
-    }
-def discover(query: str, limit: int = 20) -> Dict[str, Any]:
-    check = _ensure_openml()
-    if not check.get("ok"):
-        return check
-    try:
-        # OpenML list_datasets doesn't have a direct text search in the python API easily exposed without downloading all.
-        # But we can filter by tag or just get a list and filter locally if needed, or use the REST API directly.
-        # Actually, openml.datasets.list_datasets() returns a dict of datasets.
-        # We can fetch a larger batch and filter by name/keyword.
-        # Fetching a batch of datasets
-        datasets = openml.datasets.list_datasets(output_format='dataframe')
-        if query:
-            # Simple case-insensitive search in name
-            mask = datasets['name'].str.contains(query, case=False, na=False)
-            filtered = datasets[mask]
-        else:
-            filtered = datasets
-        # Sort by NumberOfDownloads if available, else just take top
-        if 'NumberOfDownloads' in filtered.columns:
-            filtered = filtered.sort_values('NumberOfDownloads', ascending=False)
-        top_k = filtered.head(limit)
-        # Convert to list of dicts
-        records = top_k.to_dict(orient='records')
-        items = [_dataset_to_dict(r) for r in records]
-        return {"ok": True, "results": items, "count": len(items)}
-    except Exception as e:
-        return {"ok": False, "error": f"OpenML discover failed: {str(e)}"}
-def download(dataset_ref: str, target_dir: str) -> Dict[str, Any]:
-    check = _ensure_openml()
-    if not check.get("ok"):
-        return check
-    try:
-        # dataset_ref is expected to be "openml:ID"
-        if dataset_ref.startswith("openml:"):
-            did_str = dataset_ref.split(":")[1]
-        else:
-            did_str = dataset_ref
-        did = int(did_str)
-        if not target_dir:
-            target_dir = tempfile.mkdtemp(prefix="vesper_openml_")
-        os.makedirs(target_dir, exist_ok=True)
-        # Get the dataset
-        dataset = openml.datasets.get_dataset(did, download_data=True, download_qualities=False, download_features_meta_data=False)
-        # Get the pandas dataframe
-        X, y, categorical_indicator, attribute_names = dataset.get_data(
-            dataset_format="dataframe"
-        )
-        # If there's a target column (y), we might want to join it back if it was separated
-        # get_data() can return X and y separately if target is specified, but usually X contains everything if target=None
-        # Let's just get everything
-        df, _, _, _ = dataset.get_data(target=None, dataset_format="dataframe")
-        # Save to parquet in the target directory
-        safe_name = "".join([c if c.isalnum() else "_" for c in dataset.name])
-        file_path = os.path.join(target_dir, f"{safe_name}_{did}.parquet")
-        df.to_parquet(file_path, index=False)
-        return {
-            "ok": True,
-            "local_path": file_path,
-            "target_dir": target_dir
-        }
-    except Exception as e:
-        return {"ok": False, "error": f"OpenML download failed: {str(e)}"}
-def main():
-    parser = argparse.ArgumentParser(description="Vesper OpenML Engine")
-    parser.add_argument("action", choices=["discover", "download"])
-    parser.add_argument("arg1", help="Query for discover, Dataset ID for download")
-    parser.add_argument("arg2", nargs="?", help="Limit for discover, Target Dir for download")
-    args = parser.parse_args()
-    if args.action == "discover":
-        limit = int(args.arg2) if args.arg2 else 20
-        result = discover(args.arg1, limit)
-        print(json.dumps(result))
-    elif args.action == "download":
-        result = download(args.arg1, args.arg2)
-        print(json.dumps(result))
-if __name__ == "__main__":
-    main()