npm - vesper-wizard - Versions diffs - 2.3.0 → 2.3.2 - Mend

vesper-wizard 2.3.0 → 2.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (213) hide show

package/README.md +37 -322
package/package.json +34 -100
package/vesper-mcp-config.json +6 -0
package/{scripts/wizard.js → wizard.js} +34 -10
package/LICENSE +0 -21
package/build/cache/cdn.js +0 -34
package/build/cache/service.js +0 -63
package/build/cleaning/cleaner.js +0 -81
package/build/cleaning/evaluator.js +0 -89
package/build/cleaning/executor.js +0 -62
package/build/cleaning/exporter.js +0 -87
package/build/cleaning/planner.js +0 -127
package/build/cleaning/rules.js +0 -57
package/build/cleaning/types.js +0 -1
package/build/cloud/adapters/local.js +0 -37
package/build/cloud/adapters/s3.js +0 -24
package/build/cloud/adapters/supabase.js +0 -49
package/build/cloud/storage-manager.js +0 -26
package/build/cloud/types.js +0 -1
package/build/compliance/service.js +0 -73
package/build/compliance/store.js +0 -80
package/build/compliance/types.js +0 -1
package/build/config/config-manager.js +0 -221
package/build/config/secure-keys.js +0 -51
package/build/config/user-config.js +0 -48
package/build/data/processing-worker.js +0 -23
package/build/data/streaming.js +0 -38
package/build/data/worker-pool.js +0 -39
package/build/export/exporter.js +0 -82
package/build/export/packager.js +0 -100
package/build/export/types.js +0 -1
package/build/fusion/aligner.js +0 -56
package/build/fusion/deduplicator.js +0 -69
package/build/fusion/engine.js +0 -69
package/build/fusion/harmonizer.js +0 -39
package/build/fusion/orchestrator.js +0 -86
package/build/fusion/types.js +0 -1
package/build/gateway/unified-dataset-gateway.js +0 -410
package/build/index.js +0 -3068
package/build/ingestion/hf-downloader.js +0 -171
package/build/ingestion/ingestor.js +0 -271
package/build/ingestion/kaggle-downloader.js +0 -102
package/build/install/install-service.js +0 -46
package/build/jobs/manager.js +0 -136
package/build/jobs/queue.js +0 -59
package/build/jobs/types.js +0 -1
package/build/lib/supabase.js +0 -3
package/build/metadata/dataworld-source.js +0 -89
package/build/metadata/domain.js +0 -147
package/build/metadata/github-scraper.js +0 -47
package/build/metadata/institutional-scrapers.js +0 -49
package/build/metadata/kaggle-scraper.js +0 -182
package/build/metadata/kaggle-source.js +0 -70
package/build/metadata/license.js +0 -68
package/build/metadata/monitoring-service.js +0 -107
package/build/metadata/monitoring-store.js +0 -78
package/build/metadata/monitoring-types.js +0 -1
package/build/metadata/openml-source.js +0 -87
package/build/metadata/quality.js +0 -48
package/build/metadata/rate-limiter.js +0 -128
package/build/metadata/scraper.js +0 -448
package/build/metadata/store.js +0 -340
package/build/metadata/types.js +0 -1
package/build/metadata/uci-scraper.js +0 -49
package/build/monitoring/observability.js +0 -76
package/build/preparation/target-detector.js +0 -75
package/build/python/__pycache__/config.cpython-312.pyc +0 -0
package/build/python/asset_downloader_engine.py +0 -94
package/build/python/cleaner.py +0 -226
package/build/python/config.py +0 -263
package/build/python/convert_engine.py +0 -92
package/build/python/dataworld_engine.py +0 -208
package/build/python/export_engine.py +0 -288
package/build/python/framework_adapters.py +0 -100
package/build/python/fusion_engine.py +0 -368
package/build/python/github_adapter.py +0 -106
package/build/python/hf_fallback.py +0 -298
package/build/python/image_engine.py +0 -86
package/build/python/kaggle_engine.py +0 -295
package/build/python/media_engine.py +0 -133
package/build/python/nasa_adapter.py +0 -82
package/build/python/normalize_engine.py +0 -83
package/build/python/openml_engine.py +0 -146
package/build/python/quality_engine.py +0 -267
package/build/python/row_count.py +0 -54
package/build/python/splitter_engine.py +0 -283
package/build/python/target_engine.py +0 -154
package/build/python/test_framework_adapters.py +0 -61
package/build/python/test_fusion_engine.py +0 -89
package/build/python/uci_adapter.py +0 -94
package/build/python/vesper/__init__.py +0 -1
package/build/python/vesper/__pycache__/__init__.cpython-312.pyc +0 -0
package/build/python/vesper/core/__init__.py +0 -1
package/build/python/vesper/core/__pycache__/__init__.cpython-312.pyc +0 -0
package/build/python/vesper/core/__pycache__/asset_downloader.cpython-312.pyc +0 -0
package/build/python/vesper/core/__pycache__/download_recipe.cpython-312.pyc +0 -0
package/build/python/vesper/core/asset_downloader.py +0 -679
package/build/python/vesper/core/download_recipe.py +0 -104
package/build/python/worldbank_adapter.py +0 -99
package/build/quality/analyzer.js +0 -93
package/build/quality/image-analyzer.js +0 -114
package/build/quality/media-analyzer.js +0 -115
package/build/quality/quality-orchestrator.js +0 -162
package/build/quality/types.js +0 -1
package/build/scripts/build-index.js +0 -54
package/build/scripts/check-db.js +0 -73
package/build/scripts/check-jobs.js +0 -24
package/build/scripts/check-naruto.js +0 -17
package/build/scripts/cleanup-kaggle.js +0 -41
package/build/scripts/demo-full-pipeline.js +0 -62
package/build/scripts/demo-ui.js +0 -58
package/build/scripts/e2e-demo.js +0 -72
package/build/scripts/massive-scrape.js +0 -103
package/build/scripts/ops-dashboard.js +0 -33
package/build/scripts/repro-bug.js +0 -37
package/build/scripts/repro-export-bug.js +0 -56
package/build/scripts/scrape-metadata.js +0 -100
package/build/scripts/search-cli.js +0 -26
package/build/scripts/test-bias.js +0 -45
package/build/scripts/test-caching.js +0 -51
package/build/scripts/test-cleaning.js +0 -76
package/build/scripts/test-cloud-storage.js +0 -48
package/build/scripts/test-compliance.js +0 -58
package/build/scripts/test-conversion.js +0 -64
package/build/scripts/test-custom-rules.js +0 -58
package/build/scripts/test-db-opt.js +0 -63
package/build/scripts/test-export-custom.js +0 -33
package/build/scripts/test-exporter.js +0 -53
package/build/scripts/test-fusion.js +0 -61
package/build/scripts/test-github.js +0 -27
package/build/scripts/test-group-split.js +0 -52
package/build/scripts/test-hf-download.js +0 -29
package/build/scripts/test-holdout-manager.js +0 -61
package/build/scripts/test-hybrid-search.js +0 -41
package/build/scripts/test-image-analysis.js +0 -50
package/build/scripts/test-ingestion-infra.js +0 -39
package/build/scripts/test-install.js +0 -40
package/build/scripts/test-institutional.js +0 -26
package/build/scripts/test-integrity.js +0 -41
package/build/scripts/test-jit.js +0 -42
package/build/scripts/test-job-queue.js +0 -62
package/build/scripts/test-kaggle-download.js +0 -34
package/build/scripts/test-large-data.js +0 -50
package/build/scripts/test-mcp-v5.js +0 -74
package/build/scripts/test-media-analysis.js +0 -61
package/build/scripts/test-monitoring.js +0 -91
package/build/scripts/test-observability.js +0 -106
package/build/scripts/test-packager.js +0 -55
package/build/scripts/test-pipeline.js +0 -50
package/build/scripts/test-planning.js +0 -64
package/build/scripts/test-privacy.js +0 -38
package/build/scripts/test-production-sync.js +0 -36
package/build/scripts/test-quality.js +0 -43
package/build/scripts/test-robust-ingestion.js +0 -41
package/build/scripts/test-schema.js +0 -45
package/build/scripts/test-split-validation.js +0 -40
package/build/scripts/test-splitter.js +0 -93
package/build/scripts/test-target-detector.js +0 -29
package/build/scripts/test-uci.js +0 -27
package/build/scripts/test-unified-quality.js +0 -86
package/build/scripts/test-write.js +0 -14
package/build/scripts/verify-integration.js +0 -57
package/build/scripts/verify-priority.js +0 -33
package/build/search/embedder.js +0 -34
package/build/search/engine.js +0 -190
package/build/search/jit-orchestrator.js +0 -262
package/build/search/query-intent.js +0 -509
package/build/search/vector-store.js +0 -123
package/build/splitting/splitter.js +0 -82
package/build/splitting/types.js +0 -1
package/build/tools/formatter.js +0 -251
package/build/utils/downloader.js +0 -52
package/build/utils/python-runtime.js +0 -130
package/build/utils/selector.js +0 -69
package/mcp-config-template.json +0 -18
package/scripts/postinstall.cjs +0 -170
package/scripts/preindex_registry.cjs +0 -157
package/scripts/refresh-index.cjs +0 -87
package/scripts/wizard.cjs +0 -601
package/src/python/__pycache__/config.cpython-312.pyc +0 -0
package/src/python/__pycache__/export_engine.cpython-312.pyc +0 -0
package/src/python/__pycache__/framework_adapters.cpython-312.pyc +0 -0
package/src/python/__pycache__/fusion_engine.cpython-312.pyc +0 -0
package/src/python/__pycache__/kaggle_engine.cpython-312.pyc +0 -0
package/src/python/asset_downloader_engine.py +0 -94
package/src/python/cleaner.py +0 -226
package/src/python/config.py +0 -263
package/src/python/convert_engine.py +0 -92
package/src/python/dataworld_engine.py +0 -208
package/src/python/export_engine.py +0 -288
package/src/python/framework_adapters.py +0 -100
package/src/python/fusion_engine.py +0 -368
package/src/python/github_adapter.py +0 -106
package/src/python/hf_fallback.py +0 -298
package/src/python/image_engine.py +0 -86
package/src/python/kaggle_engine.py +0 -295
package/src/python/media_engine.py +0 -133
package/src/python/nasa_adapter.py +0 -82
package/src/python/normalize_engine.py +0 -83
package/src/python/openml_engine.py +0 -146
package/src/python/quality_engine.py +0 -267
package/src/python/row_count.py +0 -54
package/src/python/splitter_engine.py +0 -283
package/src/python/target_engine.py +0 -154
package/src/python/test_framework_adapters.py +0 -61
package/src/python/test_fusion_engine.py +0 -89
package/src/python/uci_adapter.py +0 -94
package/src/python/vesper/__init__.py +0 -1
package/src/python/vesper/core/__init__.py +0 -1
package/src/python/vesper/core/asset_downloader.py +0 -679
package/src/python/vesper/core/download_recipe.py +0 -104
package/src/python/worldbank_adapter.py +0 -99
package/wizard.cjs +0 -3

package/build/scripts/test-exporter.js DELETED Viewed

@@ -1,53 +0,0 @@
-import { DataExporter } from "../export/exporter.js";
-import fs from "fs";
-import path from "path";
-async function main() {
-    console.log("=== Vesper Data Exporter Test ===\n");
-    const exporter = new DataExporter();
-    const testDir = path.join(process.cwd(), "test_export");
-    if (!fs.existsSync(testDir))
-        fs.mkdirSync(testDir);
-    const inputFile = path.join(testDir, "input.csv");
-    // Create Dummy Data
-    let csvContent = "id,name,value\n";
-    for (let i = 0; i < 10; i++)
-        csvContent += `${i},item_${i},${Math.random()}\n`;
-    fs.writeFileSync(inputFile, csvContent);
-    console.log(`Created input file: ${inputFile}`);
-    const formats = ["parquet", "jsonl", "arrow"];
-    for (const fmt of formats) {
-        const outputFile = path.join(testDir, `output.${fmt}`);
-        console.log(`\n--- Exporting to ${fmt.toUpperCase()} ---`);
-        try {
-            const result = await exporter.export(inputFile, outputFile, fmt);
-            console.log("Result:", result);
-            if (fs.existsSync(outputFile)) {
-                const stats = fs.statSync(outputFile);
-                console.log(`PASS: File created (${stats.size} bytes)`);
-            }
-            else {
-                console.error("FAIL: Output file not found");
-            }
-        }
-        catch (e) {
-            console.error(`FAIL: Export to ${fmt} failed:`, e);
-        }
-    }
-    // specific Arrow test
-    // specific TFRecord test (might fail if no tensorflow)
-    console.log(`\n--- Exporting to TFRECORD (Optional) ---`);
-    const tfFile = path.join(testDir, "output.tfrecord");
-    try {
-        const result = await exporter.export(inputFile, tfFile, "tfrecord");
-        console.log("Result:", result);
-        if (fs.existsSync(tfFile)) {
-            console.log("PASS: TFRecord file created");
-        }
-    }
-    catch (e) {
-        console.log("SKIP: TFRecord export failed (likely no tensorflow installed):", e.message || e);
-    }
-    // Cleanup
-    // fs.rmSync(testDir, { recursive: true, force: true });
-}
-main().catch(console.error);

package/build/scripts/test-fusion.js DELETED Viewed

@@ -1,61 +0,0 @@
-import { FusionOrchestrator } from "../fusion/orchestrator.js";
-import * as fs from "fs";
-async function runTest() {
-    const ds1 = {
-        id: "ds1",
-        name: "Dataset 1",
-        source: "huggingface",
-        columns: [
-            { name: "text", type: "string" },
-            { name: "label", type: "int", is_target: true }
-        ],
-        // ... other required fields (using type assertion for brevity in test)
-    };
-    const ds2 = {
-        id: "ds2",
-        name: "Dataset 2",
-        source: "kaggle",
-        columns: [
-            { name: "sentence", type: "string" },
-            { name: "sentiment", type: "string", is_target: true }
-        ],
-    };
-    const config = {
-        target_column: "target",
-        column_aliases: {
-            "text": ["sentence", "content"],
-            "target": ["label", "sentiment", "target"]
-        },
-        type_overrides: {},
-        dedupe_config: {
-            exact: true,
-            fuzzy: true,
-            fuzzy_threshold: 0.6,
-            fuzzy_columns: ["text"]
-        },
-        label_map: {
-            "pos": 1,
-            "neg": 0,
-            "0": 0,
-            "1": 1
-        }
-    };
-    const records = [
-        { datasetId: "ds1", record: { text: "I love this!", label: 1 } },
-        { datasetId: "ds1", record: { text: "This is bad.", label: 0 } },
-        { datasetId: "ds2", record: { sentence: "I love this!", sentiment: "pos" } }, // Exact duplicate (after alignment)
-        { datasetId: "ds2", record: { sentence: "I really love this!", sentiment: "pos" } }, // Fuzzy duplicate
-        { datasetId: "ds2", record: { sentence: "It was okay.", sentiment: "neg" } },
-    ];
-    const orchestrator = new FusionOrchestrator(config);
-    const result = await orchestrator.fuse([ds1, ds2], records);
-    fs.writeFileSync("test-fusion-results.json", JSON.stringify(result, null, 2));
-    console.log("Results written to test-fusion-results.json");
-    if (result.stats.total_output_rows === 3) {
-        console.log("✅ Success: Rows correctly fused and deduplicated.");
-    }
-    else {
-        console.error(`❌ Failure: Expected 3 rows, got ${result.stats.total_output_rows}`);
-    }
-}
-runTest().catch(console.error);

package/build/scripts/test-github.js DELETED Viewed

@@ -1,27 +0,0 @@
-import { GitHubScraper } from "../metadata/github-scraper.js";
-async function runTest() {
-    console.log("--- Testing GitHub integration ---");
-    const scraper = new GitHubScraper();
-    const query = "covid-19";
-    console.log(`Searching GitHub for: "${query}"...`);
-    const results = await scraper.scrape(query, 5);
-    console.log(`Found ${results.length} datasets.`);
-    if (results.length > 0) {
-        console.log("✅ GitHub Scraper returned results.");
-        console.log("Sample Result:");
-        console.log(JSON.stringify(results[0], null, 2));
-        // Validation
-        const sample = results[0];
-        if (sample.id.startsWith("github:") && sample.source === "github") {
-            console.log("✅ Metadata schema validation passed.");
-        }
-        else {
-            console.error("❌ Metadata schema validation failed.");
-        }
-    }
-    else {
-        console.error("❌ No results found or rate limit hit.");
-    }
-    console.log("--- Test Complete ---");
-}
-runTest().catch(console.error);

package/build/scripts/test-group-split.js DELETED Viewed

@@ -1,52 +0,0 @@
-import { DataSplitter } from "../splitting/splitter.js";
-import fs from "fs";
-import path from "path";
-async function main() {
-    console.log("=== Vesper Group Split Test ===\n");
-    const splitter = new DataSplitter();
-    const testFile = path.join(process.cwd(), "test_group_split.csv");
-    // Create Dummy Data (100 rows, 10 groups of 10 rows each)
-    let csvContent = "id,group_id,value\n";
-    for (let g = 0; g < 10; g++) {
-        for (let i = 0; i < 10; i++) {
-            csvContent += `${g * 10 + i},group_${g},${Math.random()}\n`;
-        }
-    }
-    fs.writeFileSync(testFile, csvContent);
-    console.log(`Created test file with 10 distinct groups.`);
-    // Test: Group-based Split (60/20/20)
-    const config = {
-        type: "group",
-        ratios: { train: 0.6, val: 0.2, test: 0.2, holdout: 0 },
-        group_column: "group_id",
-        shuffle: true,
-        random_seed: 42
-    };
-    try {
-        const result = await splitter.split(testFile, config);
-        console.log("Stats:", result.stats);
-        // Validation: No group should exist in more than one split
-        console.log("\n--- Group Leakage Validation ---");
-        const report = await splitter.validate(result.paths, { id_column: "group_id" }); // Checking uniqueness of group_id across splits
-        console.log("Validation Report:", report);
-        if (!report.leakage_detected) {
-            console.log("PASS: No group leakage detected.");
-        }
-        else {
-            console.error("FAIL: Groups leaked across splits!");
-        }
-        // Cleanup
-        Object.values(result.paths).forEach(p => {
-            if (fs.existsSync(p))
-                fs.unlinkSync(p);
-        });
-    }
-    catch (e) {
-        console.error("Test execution failed:", e);
-    }
-    finally {
-        if (fs.existsSync(testFile))
-            fs.unlinkSync(testFile);
-    }
-}
-main().catch(console.error);

package/build/scripts/test-hf-download.js DELETED Viewed

@@ -1,29 +0,0 @@
-import { HFDownloader } from "../ingestion/hf-downloader.js";
-import path from "path";
-import fs from "fs";
-import { fileURLToPath } from "url";
-const __filename = fileURLToPath(import.meta.url);
-const __dirname = path.dirname(__filename);
-const projectRoot = path.join(__dirname, "..", "..");
-async function testHFDownload() {
-    const downloader = new HFDownloader();
-    const repoId = "fka/awesome-chatgpt-prompts";
-    console.log(`Testing HF Download for ${repoId}...`);
-    const bestFile = await downloader.findBestFile(repoId);
-    console.log(`Best file found: ${bestFile}`);
-    if (bestFile) {
-        const testDir = path.join(projectRoot, "data", "test");
-        if (!fs.existsSync(testDir))
-            fs.mkdirSync(testDir, { recursive: true });
-        const targetPath = path.join(testDir, "awesome-prompts.csv");
-        await downloader.download(repoId, bestFile, targetPath, (p) => {
-            process.stdout.write(`\rProgress: ${p}%`);
-        });
-        console.log(`\nDownload complete! Size: ${fs.statSync(targetPath).size} bytes`);
-        console.log(`Location: ${targetPath}`);
-    }
-    else {
-        console.error("No file found!");
-    }
-}
-testHFDownload().catch(console.error);

package/build/scripts/test-holdout-manager.js DELETED Viewed

@@ -1,61 +0,0 @@
-import { DataSplitter } from "../splitting/splitter.js";
-import fs from "fs";
-import path from "path";
-async function main() {
-    console.log("=== Vesper Holdout Set Manager Test ===\n");
-    const splitter = new DataSplitter();
-    const testFile = path.join(process.cwd(), "test_holdout.csv");
-    // Create Dummy Data (200 rows)
-    let csvContent = "id,label,date\n";
-    for (let i = 0; i < 100; i++)
-        csvContent += `${i},A,2023-01-${(i % 30) + 1}\n`;
-    for (let i = 100; i < 200; i++)
-        csvContent += `${i},B,2023-02-${(i % 28) + 1}\n`;
-    fs.writeFileSync(testFile, csvContent);
-    console.log(`Created test file: ${testFile}`);
-    // Test: 4-way Random Split (70/10/10/10)
-    console.log("\n--- Test: 4-way Random Split (70/10/10/10) ---");
-    const config = {
-        type: "random",
-        ratios: { train: 0.7, val: 0.1, test: 0.1, holdout: 0.1 },
-        shuffle: true,
-        random_seed: 42
-    };
-    try {
-        const result = await splitter.split(testFile, config);
-        console.log("Stats:", result.stats);
-        const expected = { train: 140, val: 20, test: 20, holdout: 20 };
-        if (result.stats.train_rows === expected.train &&
-            result.stats.val_rows === expected.val &&
-            result.stats.test_rows === expected.test &&
-            result.stats.holdout_rows === expected.holdout) {
-            console.log("PASS: 4-way ratios preserved");
-        }
-        else {
-            console.error(`FAIL: Ratios mismatch. Expected ${JSON.stringify(expected)}, got ${JSON.stringify(result.stats)}`);
-        }
-        // Validate Split for Leakage
-        console.log("\n--- Validation Check ---");
-        const report = await splitter.validate(result.paths, { id_column: "id" });
-        console.log("Report:", report);
-        if (!report.leakage_detected) {
-            console.log("PASS: No leakage between 4 splits");
-        }
-        else {
-            console.error("FAIL: Leakage detected!");
-        }
-        // Cleanup
-        Object.values(result.paths).forEach(p => {
-            if (fs.existsSync(p))
-                fs.unlinkSync(p);
-        });
-    }
-    catch (e) {
-        console.error("Test execution failed:", e);
-    }
-    finally {
-        if (fs.existsSync(testFile))
-            fs.unlinkSync(testFile);
-    }
-}
-main().catch(console.error);

package/build/scripts/test-hybrid-search.js DELETED Viewed

@@ -1,41 +0,0 @@
-import { SearchEngine } from "../search/engine.js";
-import { MetadataStore } from "../metadata/store.js";
-import { VectorStore } from "../search/vector-store.js";
-import { Embedder } from "../search/embedder.js";
-import path from "path";
-async function main() {
-    const dbPath = path.join(process.cwd(), "data", "metadata.db");
-    const vectorPath = path.join(process.cwd(), "data", "vectors.json");
-    const store = new MetadataStore(dbPath);
-    const vectorStore = new VectorStore(vectorPath);
-    const embedder = Embedder.getInstance();
-    await embedder.init();
-    const engine = new SearchEngine(store, vectorStore, embedder);
-    console.log("\n=== Hybrid Search Precision Test ===\n");
-    // Test 1: Financial Forecasting (Drift Check)
-    // Should NOT have crypto in top results if hybrid logic works
-    console.log("Test 1: 'financial forecasting' (Should penalize Crypto)");
-    const results1 = await engine.search("financial forecasting", { limit: 5 });
-    results1.forEach((r, i) => {
-        const score = r.relevance_score;
-        const vector = r.vector_score;
-        const lexical = r.lexical_score;
-        console.log(`  ${i + 1}. [${score}] ${r.name} (Vec: ${vector}, Lex: ${lexical})`);
-        if (r.name.toLowerCase().includes("crypto") || r.description.toLowerCase().includes("bitcoin")) {
-            console.error("     CRITICAL: Crypto found in top results!");
-        }
-    });
-    console.log("");
-    // Test 2: Negative Keywords
-    console.log("Test 2: 'financial forecasting -stock' (Should exclude 'stock')");
-    const results2 = await engine.search("financial forecasting -stock", { limit: 5 });
-    results2.forEach((r, i) => {
-        console.log(`  ${i + 1}. ${r.name}`);
-        if (r.name.toLowerCase().includes("stock") || r.description.toLowerCase().includes("stock")) {
-            console.error("     ERROR: Negative keyword failed!");
-        }
-    });
-    console.log("\nDone.");
-    store.close();
-}
-main().catch(console.error);

package/build/scripts/test-image-analysis.js DELETED Viewed

@@ -1,50 +0,0 @@
-import { ImageAnalyzer } from "../quality/image-analyzer.js";
-import path from "path";
-import fs from "fs";
-import { execSync } from "child_process";
-async function runTest() {
-    console.log("--- Testing Image Quality Analysis ---");
-    const projectRoot = path.resolve(".");
-    const analyzer = new ImageAnalyzer(projectRoot);
-    // 1. Create a sample image using Python (to avoid external dependencies)
-    const testImageDir = path.join(projectRoot, "data", "test-images");
-    if (!fs.existsSync(testImageDir))
-        fs.mkdirSync(testImageDir, { recursive: true });
-    const imagePath = path.join(testImageDir, "test_v1.png");
-    console.log("Generating test image...");
-    const pythonScript = `
-from PIL import Image, ImageDraw
-import numpy as np
-img = Image.new('RGB', (800, 600), color = (73, 109, 137))
-d = ImageDraw.Draw(img)
-d.text((10,10), "Vesper Test Image", fill=(255,255,0))
-# Add some noise for blur check
-noise = np.random.randint(0, 255, (600, 800, 3), dtype='uint8')
-img_np = np.array(img)
-img_np = (img_np * 0.5 + noise * 0.5).astype('uint8')
-Image.fromarray(img_np).save('${imagePath.replace(/\\/g, "\\\\")}')
-    `;
-    fs.writeFileSync(path.join(testImageDir, "gen_image.py"), pythonScript);
-    execSync(`python "${path.join(testImageDir, "gen_image.py")}"`);
-    // 2. Run Analysis
-    console.log(`Analyzing ${imagePath}...`);
-    try {
-        const report = await analyzer.analyze(imagePath);
-        console.log("Analysis Result:");
-        console.log(`- Format: ${report.individual_results[0].format}`);
-        console.log(`- Resolution: ${report.individual_results[0].width}x${report.individual_results[0].height}`);
-        console.log(`- Blur Score: ${report.individual_results[0].blur_score}`);
-        console.log(`- Is Blurry: ${report.individual_results[0].is_blurry}`);
-        if (report.total_images === 1 && report.average_width === 800) {
-            console.log("\nVERIFICATION_STATUS: PASS");
-        }
-        else {
-            console.log("\nVERIFICATION_STATUS: FAIL - Incorrect stats");
-        }
-    }
-    catch (e) {
-        console.error(`Analysis failed: ${e.message}`);
-        console.log("\nVERIFICATION_STATUS: FAIL");
-    }
-}
-runTest().catch(console.error);

package/build/scripts/test-ingestion-infra.js DELETED Viewed

@@ -1,39 +0,0 @@
-import { MetadataStore } from "../metadata/store.js";
-import { DataIngestor } from "../ingestion/ingestor.js";
-import path from "path";
-import fs from "fs";
-import { fileURLToPath } from "url";
-const __filename = fileURLToPath(import.meta.url);
-const __dirname = path.dirname(__filename);
-const projectRoot = path.join(__dirname, "..", "..");
-const dbPath = path.join(projectRoot, "data", "test-metadata.db");
-// Clean test DB if exists
-if (fs.existsSync(dbPath))
-    fs.unlinkSync(dbPath);
-const store = new MetadataStore(dbPath);
-const ingestor = new DataIngestor(projectRoot, store);
-async function testInfra() {
-    console.log("--- Testing Ingestion Infrastructure (6.1) ---");
-    const testId = "test/dataset";
-    // 1. Get target path
-    const target = ingestor.getTargetPath(testId);
-    console.log(`Target path: ${target}`);
-    // 2. Register downloading
-    console.log("Registering download start...");
-    store.registerDownload(testId, target, 'downloading');
-    let status = store.getDownloadStatus(testId);
-    console.log("Status after start:", status?.status);
-    // 3. Register completion
-    console.log("Registering completion...");
-    ingestor.completeDownload(testId, target, 1024);
-    status = store.getDownloadStatus(testId);
-    console.log("Status after completion:", status?.status);
-    console.log("Saved path:", status?.local_path);
-    console.log("Size:", status?.size_bytes, "bytes");
-    // 4. Verify directory exists
-    const rawDir = path.join(projectRoot, "data", "raw");
-    console.log(`Raw data dir created: ${fs.existsSync(rawDir)}`);
-    console.log("\nInfrastructure test PASSED!");
-    store.close();
-}
-testInfra().catch(console.error);

package/build/scripts/test-install.js DELETED Viewed

@@ -1,40 +0,0 @@
-import { InstallService } from "../install/install-service.js";
-import { MetadataStore } from "../metadata/store.js";
-import path from "path";
-import fs from "fs";
-async function runTest() {
-    console.log("--- Testing Automatic Installation ---");
-    const projectRoot = path.resolve(".");
-    const metadataStore = new MetadataStore(path.join(projectRoot, "data", "metadata.db"));
-    const installService = new InstallService(projectRoot, metadataStore);
-    const query = "naruto";
-    const dataset = metadataStore.db.prepare("SELECT * FROM datasets WHERE name LIKE ? LIMIT 1").get(`%${query}%`);
-    if (!dataset) {
-        console.error("Naruto dataset not found in metadata.db. Please run a search first.");
-        return;
-    }
-    console.log(`Found dataset: ${dataset.name}`);
-    // Mock a prepared file
-    const mockFile = path.join(projectRoot, "data", "raw", "naruto_mock.csv");
-    if (!fs.existsSync(path.dirname(mockFile))) {
-        fs.mkdirSync(path.dirname(mockFile), { recursive: true });
-    }
-    fs.writeFileSync(mockFile, "quote,character\nBelieve it!,Naruto\nI will be Hokage,Naruto");
-    console.log(`Installing ${mockFile}...`);
-    const installPath = await installService.install(dataset.id, mockFile);
-    console.log(`✅ Success! Installed to: ${installPath}`);
-    // Verify it exists
-    if (fs.existsSync(installPath)) {
-        console.log("File exists at install location.");
-    }
-    else {
-        console.error("File MISSING from install location!");
-    }
-    // Verify metadata updated
-    const updated = metadataStore.getDataset(dataset.id);
-    const success = updated?.install_path === installPath;
-    console.log(`Updated install_path in metadata: ${updated?.install_path}`);
-    console.log(`VERIFICATION_STATUS: ${success ? "✅ PASS" : "❌ FAIL"}`);
-    console.log("\n--- Test Complete ---");
-}
-runTest().catch(console.error);

package/build/scripts/test-institutional.js DELETED Viewed

@@ -1,26 +0,0 @@
-import { WorldBankScraper, NASAScraper } from "../metadata/institutional-scrapers.js";
-async function runTest() {
-    console.log("--- Testing Institutional Data Sources ---");
-    const wb = new WorldBankScraper();
-    const nasa = new NASAScraper();
-    console.log('Searching World Bank for: "climate"...');
-    const wbResults = await wb.scrape("climate", 3);
-    console.log(`Found ${wbResults.length} World Bank results.`);
-    if (wbResults.length > 0) {
-        console.log("✅ World Bank Sample:");
-        console.log(` - ID: ${wbResults[0].id}`);
-        console.log(` - Name: ${wbResults[0].name}`);
-        console.log(` - URL: ${wbResults[0].metadata_url}`);
-    }
-    console.log('\nSearching NASA for: "astronomy"...');
-    const nasaResults = await nasa.scrape("astronomy", 3);
-    console.log(`Found ${nasaResults.length} NASA results.`);
-    if (nasaResults.length > 0) {
-        console.log("✅ NASA Sample:");
-        console.log(` - ID: ${nasaResults[0].id}`);
-        console.log(` - Name: ${nasaResults[0].name}`);
-        console.log(` - URL: ${nasaResults[0].metadata_url}`);
-    }
-    console.log("\n--- Test Complete ---");
-}
-runTest().catch(console.error);

package/build/scripts/test-integrity.js DELETED Viewed

@@ -1,41 +0,0 @@
-import { QualityAnalyzer } from "../quality/analyzer.js";
-import fs from "fs";
-import path from "path";
-async function main() {
-    console.log("=== Vesper Integrity Check Test ===\n");
-    const analyzer = new QualityAnalyzer();
-    const testFile = path.join(process.cwd(), "test_integrity.csv");
-    // Create a CSV with unique IDs but duplicate CONTENT
-    // This simulates a common data issue: exact same review scraped twice with different IDs
-    const csvContent = `id,review,label
-1,"This product involves huge risks.",negative
-2,"Great investment opportunity!",positive
-3,"This product involves huge risks.",negative
-4,"Wait and see.",neutral
-5,"Great investment opportunity!",positive`;
-    fs.writeFileSync(testFile, csvContent);
-    console.log(`Created test file: ${testFile}`);
-    console.log("Expectations:");
-    console.log("  - Duplicate Rows: 0 (because IDs differ)");
-    console.log("  - Text Duplicates: > 0 (because 'review' column has dupes)");
-    try {
-        console.log("\nRunning analyzer...");
-        const report = await analyzer.analyze(testFile);
-        console.log("\n=== Integrity Report ===");
-        console.log(`Duplicate Rows (Exact): ${report.duplicate_rows}`);
-        console.log(`Text Duplicates (Content): ${report.text_duplicates || 0}`);
-        console.log("\nWarnings:", report.warnings);
-        if (report.text_duplicates && report.text_duplicates > 0) {
-            console.log("Test passed! Detected text duplication despite unique IDs.");
-        }
-        else {
-            console.error("Test failed! Did not detect text duplicates.");
-        }
-        // Cleanup
-        fs.unlinkSync(testFile);
-    }
-    catch (error) {
-        console.error("\nTest failed:", error);
-    }
-}
-main().catch(console.error);

package/build/scripts/test-jit.js DELETED Viewed

@@ -1,42 +0,0 @@
-import { SearchEngine } from "../search/engine.js";
-import { MetadataStore } from "../metadata/store.js";
-import { VectorStore } from "../search/vector-store.js";
-import { Embedder } from "../search/embedder.js";
-import path from "path";
-/**
- * Test JIT fallback with various queries
- */
-async function main() {
-    const dbPath = path.join(process.cwd(), "data", "metadata.db");
-    const vectorPath = path.join(process.cwd(), "data", "vectors.json");
-    const store = new MetadataStore(dbPath);
-    const vectorStore = new VectorStore(vectorPath);
-    const embedder = Embedder.getInstance();
-    await embedder.init();
-    const engine = new SearchEngine(store, vectorStore, embedder);
-    console.log("\n=== JIT Fallback Test Suite ===\n");
-    // Test 1: Query that should have good results (should NOT trigger JIT)
-    console.log("Test 1: Common query (should NOT trigger JIT)");
-    console.log("Query: 'image classification cats dogs'\n");
-    const results1 = await engine.search("image classification cats dogs", { limit: 5 });
-    console.log(`Results: ${results1.length}, Top score: ${results1[0]?.relevance_score || 0}`);
-    console.log("---\n");
-    // Test 2: Very niche query (should trigger JIT)
-    console.log("Test 2: Niche query (SHOULD trigger JIT)");
-    console.log("Query: 'underwater acoustic signal processing dolphins'\n");
-    const results2 = await engine.search("underwater acoustic signal processing dolphins", { limit: 5 });
-    console.log(`Results: ${results2.length}, Top score: ${results2[0]?.relevance_score || 0}`);
-    console.log("---\n");
-    // Test 3: Another niche query
-    console.log("Test 3: Another niche query (SHOULD trigger JIT)");
-    console.log("Query: 'mongolian language morphological analysis'\n");
-    const results3 = await engine.search("mongolian language morphological analysis", { limit: 5 });
-    console.log(`Results: ${results3.length}, Top score: ${results3[0]?.relevance_score || 0}`);
-    console.log("---\n");
-    // Check final dataset count
-    const finalCount = store.getAllDatasets().length;
-    console.log(`\nFinal dataset count: ${finalCount}`);
-    console.log("(Compare with initial 1238 to see if JIT added new datasets)\n");
-    store.close();
-}
-main().catch(console.error);

package/build/scripts/test-job-queue.js DELETED Viewed

@@ -1,62 +0,0 @@
-import { MetadataStore } from "../metadata/store.js";
-import { JobManager } from "../jobs/manager.js";
-async function runTest() {
-    console.log("--- Initializing Job Queue Test ---");
-    const store = new MetadataStore("data/vesper_test_jobs.db");
-    const manager = JobManager.getInstance(store);
-    manager.setConcurrency(2); // 2 parallel workers
-    const jobsFinished = [];
-    // Listener to simulate job processing
-    manager.on("processJob", async (job, run) => {
-        console.log(`[Worker] Starting Job: ${job.id} (Type: ${job.type}, Priority: ${job.priority})`);
-        await run(async () => {
-            // Simulate variable workload
-            const duration = job.priority === 10 ? 500 : 2000;
-            await new Promise(r => setTimeout(r, duration));
-            // Simulate failure for a specific job to test retries
-            if (job.metadata === "FAIL_ONCE" && job.attempts === 0) {
-                console.log(`[Worker] Simulating failure for job ${job.id}`);
-                throw new Error("Transitory error");
-            }
-            console.log(`[Worker] Finished Job: ${job.id}`);
-            jobsFinished.push(job.id);
-        });
-    });
-    console.log("\n--- Enqueuing Jobs ---");
-    // 1. A slow low-priority job
-    const j1 = manager.createJob("prepare", 0, "slow-1");
-    // 2. A fast high-priority job (Pro user)
-    const j2 = manager.createJob("clean", 10, "pro-1");
-    // 3. Another low-priority job
-    const j3 = manager.createJob("split", 0, "slow-2");
-    // 4. A job that fails once
-    const j4 = manager.createJob("fusion", 5, "FAIL_ONCE");
-    console.log(`Enqueued 4 jobs. Concurrency is 2.`);
-    // Wait for all to finish
-    return new Promise((resolve) => {
-        const check = setInterval(() => {
-            const stats = manager.queue.getStats();
-            if (stats.total === 0 && jobsFinished.includes(j4.id)) {
-                clearInterval(check);
-                console.log("\n--- Test Results ---");
-                console.log("Execution Order:", jobsFinished);
-                const proIndex = jobsFinished.indexOf(j2.id);
-                const slowIndex = jobsFinished.indexOf(j3.id);
-                if (proIndex < slowIndex) {
-                    console.log("✅ Priority verified: Pro job finished before later low-priority jobs.");
-                }
-                else {
-                    console.warn("⚠️ Priority check failed or inconclusive due to parallel timing.");
-                }
-                const j4_final = store.getJob(j4.id);
-                if (j4_final?.attempts === 1) {
-                    console.log("✅ Retry logic verified: Job retried after failure.");
-                }
-                console.log("\n✅ Success: Job queue system verified.");
-                store.close();
-                resolve(null);
-            }
-        }, 1000);
-    });
-}
-runTest().catch(console.error);