npm - opencode-skills-collection - Versions diffs - 2.0.0 → 2.0.2 - Mend

opencode-skills-collection 2.0.0 → 2.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (90) hide show

package/bundled-skills/monte-carlo-push-ingestion/scripts/templates/redshift/push_query_logs.py ADDED Viewed

@@ -0,0 +1,196 @@
+"""
+Redshift — Query Log Push (push-only)
+=======================================
+Reads a JSON manifest file produced by collect_query_logs.py and pushes the query
+log entries to Monte Carlo via the push ingestion API, with configurable batching
+to keep compressed payloads under 1 MB.
+Substitution points (search for "← SUBSTITUTE"):
+  - MCD_INGEST_ID / MCD_INGEST_TOKEN : Monte Carlo API credentials
+  - MCD_RESOURCE_UUID      : UUID of the Redshift connection in Monte Carlo
+  - PUSH_BATCH_SIZE       : number of entries per API call (default 100)
+Prerequisites:
+  pip install pycarlo
+"""
+from __future__ import annotations
+import argparse
+import json
+import logging
+import os
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from datetime import datetime, timezone
+from typing import Any
+from dateutil.parser import isoparse
+from pycarlo.core import Client, Session
+from pycarlo.features.ingestion import IngestionService
+from pycarlo.features.ingestion.models import QueryLogEntry
+logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
+log = logging.getLogger(__name__)
+LOG_TYPE = "redshift"
+DEFAULT_BATCH_SIZE = 100  # ← SUBSTITUTE: conservative default to stay under 1 MB compressed
+# Truncate query_text longer than this to prevent 413 errors.
+# Some SQL statements (e.g., generated by BI tools) can be 100KB+ and blow up
+# compressed payloads even at small batch sizes.
+_MAX_QUERY_TEXT_LEN = 10_000
+def _build_query_log_entries(entry_dicts: list[dict[str, Any]]) -> list[QueryLogEntry]:
+    """Convert manifest query dicts into QueryLogEntry objects."""
+    entries = []
+    truncated = 0
+    for d in entry_dicts:
+        query_text = d.get("query_text") or ""
+        # Truncate very long SQL to prevent 413 Request Too Large
+        if len(query_text) > _MAX_QUERY_TEXT_LEN:
+            query_text = query_text[:_MAX_QUERY_TEXT_LEN] + "... [TRUNCATED]"
+            truncated += 1
+        extra = {}
+        if d.get("database_name") is not None:
+            extra["database_name"] = d["database_name"]
+        if d.get("elapsed_time_us") is not None:
+            extra["elapsed_time_us"] = d["elapsed_time_us"]
+        start_time = d.get("start_time")
+        end_time = d.get("end_time")
+        entries.append(
+            QueryLogEntry(
+                query_id=d.get("query_id"),
+                query_text=query_text,
+                start_time=isoparse(start_time) if start_time else None,
+                end_time=isoparse(end_time) if end_time else None,
+                user=d.get("user"),
+                extra=extra or None,
+            )
+        )
+    if truncated:
+        log.info("Truncated %d query text(s) exceeding %d chars", truncated, _MAX_QUERY_TEXT_LEN)
+    return entries
+def push(
+    manifest_path: str,
+    resource_uuid: str,
+    key_id: str,
+    key_token: str,
+    batch_size: int = DEFAULT_BATCH_SIZE,
+) -> dict[str, Any]:
+    """Read a collect manifest and push query log entries to Monte Carlo in batches.
+    Returns a summary dict with invocation IDs and counts.
+    """
+    with open(manifest_path) as fh:
+        manifest = json.load(fh)
+    entry_dicts: list[dict[str, Any]] = manifest["entries"]
+    entries = _build_query_log_entries(entry_dicts)
+    log.info("Loaded %d query log entries from %s", len(entries), manifest_path)
+    if not entries:
+        log.info("No query log entries to push.")
+        summary = {
+            "resource_uuid": resource_uuid,
+            "log_type": LOG_TYPE,
+            "invocation_ids": [],
+            "pushed_at": datetime.now(timezone.utc).isoformat(),
+            "query_log_count": 0,
+            "batch_count": 0,
+            "batch_size": batch_size,
+        }
+        push_manifest_path = manifest_path.replace(".json", "_push_result.json")
+        with open(push_manifest_path, "w") as fh:
+            json.dump(summary, fh, indent=2)
+        return summary
+    # Split into batches
+    batches = []
+    for i in range(0, len(entries), batch_size):
+        batches.append(entries[i : i + batch_size])
+    total_batches = len(batches)
+    def _push_batch(batch: list, batch_num: int) -> str | None:
+        """Push a single batch using a dedicated Session (thread-safe)."""
+        client = Client(session=Session(mcd_id=key_id, mcd_token=key_token, scope="Ingestion"))
+        service = IngestionService(mc_client=client)
+        result = service.send_query_logs(
+            resource_uuid=resource_uuid,
+            log_type=LOG_TYPE,
+            events=batch,
+        )
+        invocation_id = service.extract_invocation_id(result)
+        log.info("Pushed batch %d/%d (%d entries) — invocation_id=%s", batch_num, total_batches, len(batch), invocation_id)
+        return invocation_id
+    # Push batches in parallel (each thread gets its own pycarlo Session)
+    max_workers = min(4, total_batches)
+    invocation_ids: list[str | None] = [None] * total_batches
+    with ThreadPoolExecutor(max_workers=max_workers) as pool:
+        futures = {
+            pool.submit(_push_batch, batch, i + 1): i
+            for i, batch in enumerate(batches)
+        }
+        for future in as_completed(futures):
+            idx = futures[future]
+            try:
+                invocation_ids[idx] = future.result()
+            except Exception as exc:
+                log.error("ERROR pushing batch %d: %s", idx + 1, exc)
+                raise
+    log.info("All %d batches pushed (%d workers)", total_batches, max_workers)
+    summary = {
+        "resource_uuid": resource_uuid,
+        "log_type": LOG_TYPE,
+        "invocation_ids": invocation_ids,
+        "pushed_at": datetime.now(timezone.utc).isoformat(),
+        "query_log_count": len(entries),
+        "batch_count": total_batches,
+        "batch_size": batch_size,
+        "lookback_hours": manifest.get("lookback_hours"),
+        "lookback_lag_hours": manifest.get("lookback_lag_hours"),
+    }
+    push_manifest_path = manifest_path.replace(".json", "_push_result.json")
+    with open(push_manifest_path, "w") as fh:
+        json.dump(summary, fh, indent=2)
+    log.info("Push result written to %s", push_manifest_path)
+    return summary
+def main() -> None:
+    parser = argparse.ArgumentParser(description="Push Redshift query logs to Monte Carlo from manifest")
+    parser.add_argument("--manifest", default="manifest_query_logs.json")
+    parser.add_argument("--resource-uuid", default=os.getenv("MCD_RESOURCE_UUID"))
+    parser.add_argument("--key-id", default=os.getenv("MCD_INGEST_ID"))
+    parser.add_argument("--key-token", default=os.getenv("MCD_INGEST_TOKEN"))
+    parser.add_argument("--batch-size", type=int, default=DEFAULT_BATCH_SIZE)
+    args = parser.parse_args()
+    required = ["resource_uuid", "key_id", "key_token"]
+    missing = [k for k in required if getattr(args, k) is None]
+    if missing:
+        parser.error(f"Missing required arguments/env vars: {missing}")
+    push(
+        manifest_path=args.manifest,
+        resource_uuid=args.resource_uuid,
+        key_id=args.key_id,
+        key_token=args.key_token,
+        batch_size=args.batch_size,
+    )
+if __name__ == "__main__":
+    main()

package/bundled-skills/monte-carlo-push-ingestion/scripts/templates/snowflake/collect_and_push_lineage.py ADDED Viewed

@@ -0,0 +1,154 @@
+#!/usr/bin/env python3
+"""
+Collect lineage from Snowflake and push it to Monte Carlo — combined.
+Imports ``collect()`` from ``collect_lineage`` and ``push()`` from
+``push_lineage``, runs both in sequence.
+Substitution points
+-------------------
+- SNOWFLAKE_ACCOUNT    (env) / --account    (CLI) : Snowflake account identifier
+- SNOWFLAKE_USER       (env) / --user       (CLI) : Snowflake username
+- SNOWFLAKE_PASSWORD   (env) / --password   (CLI) : Snowflake password
+- SNOWFLAKE_WAREHOUSE  (env) / --warehouse  (CLI) : Snowflake virtual warehouse
+- MCD_INGEST_ID     (env) / --key-id     (CLI) : Monte Carlo ingestion key ID
+- MCD_INGEST_TOKEN  (env) / --key-token  (CLI) : Monte Carlo ingestion key token
+- MCD_RESOURCE_UUID     (env) / --resource-uuid (CLI) : MC resource UUID for this connection
+Prerequisites
+-------------
+    pip install pycarlo snowflake-connector-python
+Usage (table-level):
+    python collect_and_push_lineage.py \\
+        --account  <SNOWFLAKE_ACCOUNT> \\
+        --user     <SNOWFLAKE_USER> \\
+        --password <SNOWFLAKE_PASSWORD> \\
+        --warehouse <SNOWFLAKE_WAREHOUSE> \\
+        --key-id  <MCD_INGEST_ID> \\
+        --key-token <MCD_INGEST_TOKEN> \\
+        --resource-uuid <MCD_RESOURCE_UUID>
+Usage (column-level):
+    python collect_and_push_lineage.py ... --column-lineage
+"""
+from __future__ import annotations
+import argparse
+import os
+from collect_lineage import collect, _LOOKBACK_HOURS
+from push_lineage import push, _BATCH_SIZE
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="Collect Snowflake lineage from ACCOUNT_USAGE and push to Monte Carlo",
+    )
+    parser.add_argument(
+        "--account",
+        default=os.environ.get("SNOWFLAKE_ACCOUNT"),
+        help="Snowflake account identifier (env: SNOWFLAKE_ACCOUNT)",
+    )
+    parser.add_argument(
+        "--user",
+        default=os.environ.get("SNOWFLAKE_USER"),
+        help="Snowflake username (env: SNOWFLAKE_USER)",
+    )
+    parser.add_argument(
+        "--password",
+        default=os.environ.get("SNOWFLAKE_PASSWORD"),
+        help="Snowflake password (env: SNOWFLAKE_PASSWORD)",
+    )
+    parser.add_argument(
+        "--warehouse",
+        default=os.environ.get("SNOWFLAKE_WAREHOUSE"),
+        help="Snowflake virtual warehouse (env: SNOWFLAKE_WAREHOUSE)",
+    )
+    parser.add_argument(
+        "--key-id",
+        default=os.environ.get("MCD_INGEST_ID"),
+        help="Monte Carlo ingestion key ID (env: MCD_INGEST_ID)",
+    )
+    parser.add_argument(
+        "--key-token",
+        default=os.environ.get("MCD_INGEST_TOKEN"),
+        help="Monte Carlo ingestion key token (env: MCD_INGEST_TOKEN)",
+    )
+    parser.add_argument(
+        "--resource-uuid",
+        default=os.environ.get("MCD_RESOURCE_UUID"),
+        help="Monte Carlo resource UUID for this Snowflake connection (env: MCD_RESOURCE_UUID)",
+    )
+    parser.add_argument(
+        "--lookback-hours",
+        type=int,
+        default=_LOOKBACK_HOURS,
+        help=f"Hours of QUERY_HISTORY to scan (default: {_LOOKBACK_HOURS})",
+    )
+    parser.add_argument(
+        "--column-lineage",
+        action="store_true",
+        help="Push column-level lineage instead of table-level",
+    )
+    parser.add_argument(
+        "--output-file",
+        default="lineage_output.json",
+        help="Path for the intermediate collect manifest (default: lineage_output.json)",
+    )
+    parser.add_argument(
+        "--push-result-file",
+        default="lineage_push_result.json",
+        help="Path to write the push result (default: lineage_push_result.json)",
+    )
+    parser.add_argument(
+        "--batch-size",
+        type=int,
+        default=_BATCH_SIZE,
+        help=f"Max events per push batch (default: {_BATCH_SIZE})",
+    )
+    args = parser.parse_args()
+    missing = [
+        name
+        for name, val in [
+            ("--account", args.account),
+            ("--user", args.user),
+            ("--password", args.password),
+            ("--warehouse", args.warehouse),
+            ("--key-id", args.key_id),
+            ("--key-token", args.key_token),
+            ("--resource-uuid", args.resource_uuid),
+        ]
+        if not val
+    ]
+    if missing:
+        parser.error(f"Missing required arguments: {', '.join(missing)}")
+    # Step 1: Collect
+    collect(
+        account=args.account,
+        user=args.user,
+        password=args.password,
+        warehouse=args.warehouse,
+        lookback_hours=args.lookback_hours,
+        column_lineage=args.column_lineage,
+        output_file=args.output_file,
+    )
+    # Step 2: Push
+    push(
+        input_file=args.output_file,
+        resource_uuid=args.resource_uuid,
+        key_id=args.key_id,
+        key_token=args.key_token,
+        batch_size=args.batch_size,
+        output_file=args.push_result_file,
+    )
+    print("Done.")
+if __name__ == "__main__":
+    main()

package/bundled-skills/monte-carlo-push-ingestion/scripts/templates/snowflake/collect_and_push_metadata.py ADDED Viewed

@@ -0,0 +1,137 @@
+#!/usr/bin/env python3
+"""
+Collect table metadata from Snowflake and push it to Monte Carlo — combined.
+Imports ``collect()`` from ``collect_metadata`` and ``push()`` from
+``push_metadata``, runs both in sequence.
+Substitution points
+-------------------
+- SNOWFLAKE_ACCOUNT    (env) / --account    (CLI) : Snowflake account identifier (e.g. xy12345.us-east-1)
+- SNOWFLAKE_USER       (env) / --user       (CLI) : Snowflake username
+- SNOWFLAKE_PASSWORD   (env) / --password   (CLI) : Snowflake password
+- SNOWFLAKE_WAREHOUSE  (env) / --warehouse  (CLI) : Snowflake virtual warehouse
+- MCD_INGEST_ID     (env) / --key-id     (CLI) : Monte Carlo ingestion key ID
+- MCD_INGEST_TOKEN  (env) / --key-token  (CLI) : Monte Carlo ingestion key token
+- MCD_RESOURCE_UUID     (env) / --resource-uuid (CLI) : MC resource UUID for this connection
+Prerequisites
+-------------
+    pip install pycarlo snowflake-connector-python
+Usage
+-----
+    python collect_and_push_metadata.py \\
+        --account  <SNOWFLAKE_ACCOUNT> \\
+        --user     <SNOWFLAKE_USER> \\
+        --password <SNOWFLAKE_PASSWORD> \\
+        --warehouse <SNOWFLAKE_WAREHOUSE> \\
+        --key-id  <MCD_INGEST_ID> \\
+        --key-token <MCD_INGEST_TOKEN> \\
+        --resource-uuid <MCD_RESOURCE_UUID>
+"""
+import argparse
+import os
+from collect_metadata import collect
+from push_metadata import push, _BATCH_SIZE
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="Collect Snowflake table metadata and push to Monte Carlo",
+    )
+    parser.add_argument(
+        "--account",
+        default=os.environ.get("SNOWFLAKE_ACCOUNT"),
+        help="Snowflake account identifier, e.g. xy12345.us-east-1 (env: SNOWFLAKE_ACCOUNT)",  # ← SUBSTITUTE
+    )
+    parser.add_argument(
+        "--user",
+        default=os.environ.get("SNOWFLAKE_USER"),
+        help="Snowflake username (env: SNOWFLAKE_USER)",  # ← SUBSTITUTE
+    )
+    parser.add_argument(
+        "--password",
+        default=os.environ.get("SNOWFLAKE_PASSWORD"),
+        help="Snowflake password (env: SNOWFLAKE_PASSWORD)",  # ← SUBSTITUTE
+    )
+    parser.add_argument(
+        "--warehouse",
+        default=os.environ.get("SNOWFLAKE_WAREHOUSE"),
+        help="Snowflake virtual warehouse (env: SNOWFLAKE_WAREHOUSE)",  # ← SUBSTITUTE
+    )
+    parser.add_argument(
+        "--key-id",
+        default=os.environ.get("MCD_INGEST_ID"),
+        help="Monte Carlo ingestion key ID (env: MCD_INGEST_ID)",
+    )
+    parser.add_argument(
+        "--key-token",
+        default=os.environ.get("MCD_INGEST_TOKEN"),
+        help="Monte Carlo ingestion key token (env: MCD_INGEST_TOKEN)",
+    )
+    parser.add_argument(
+        "--resource-uuid",
+        default=os.environ.get("MCD_RESOURCE_UUID"),
+        help="Monte Carlo resource UUID for this Snowflake connection (env: MCD_RESOURCE_UUID)",
+    )
+    parser.add_argument(
+        "--output-file",
+        default="metadata_output.json",
+        help="Path for the intermediate collect manifest (default: metadata_output.json)",
+    )
+    parser.add_argument(
+        "--push-result-file",
+        default="metadata_push_result.json",
+        help="Path to write the push result (default: metadata_push_result.json)",
+    )
+    parser.add_argument(
+        "--batch-size",
+        type=int,
+        default=_BATCH_SIZE,
+        help=f"Max assets per push batch (default: {_BATCH_SIZE})",
+    )
+    args = parser.parse_args()
+    missing = [
+        name
+        for name, val in [
+            ("--account", args.account),
+            ("--user", args.user),
+            ("--password", args.password),
+            ("--warehouse", args.warehouse),
+            ("--key-id", args.key_id),
+            ("--key-token", args.key_token),
+            ("--resource-uuid", args.resource_uuid),
+        ]
+        if not val
+    ]
+    if missing:
+        parser.error(f"Missing required arguments: {', '.join(missing)}")
+    # Step 1: Collect
+    collect(
+        account=args.account,
+        user=args.user,
+        password=args.password,
+        warehouse=args.warehouse,
+        output_file=args.output_file,
+    )
+    # Step 2: Push
+    push(
+        input_file=args.output_file,
+        resource_uuid=args.resource_uuid,
+        key_id=args.key_id,
+        key_token=args.key_token,
+        batch_size=args.batch_size,
+        output_file=args.push_result_file,
+    )
+    print("Done.")
+if __name__ == "__main__":
+    main()

package/bundled-skills/monte-carlo-push-ingestion/scripts/templates/snowflake/collect_and_push_query_logs.py ADDED Viewed

@@ -0,0 +1,137 @@
+#!/usr/bin/env python3
+"""
+Collect query logs from Snowflake and push them to Monte Carlo — combined.
+Imports ``collect()`` from ``collect_query_logs`` and ``push()`` from
+``push_query_logs``, runs both in sequence.
+Substitution points
+-------------------
+- SNOWFLAKE_ACCOUNT    (env) / --account    (CLI) : Snowflake account identifier
+- SNOWFLAKE_USER       (env) / --user       (CLI) : Snowflake username
+- SNOWFLAKE_PASSWORD   (env) / --password   (CLI) : Snowflake password
+- SNOWFLAKE_WAREHOUSE  (env) / --warehouse  (CLI) : Snowflake virtual warehouse
+- MCD_INGEST_ID     (env) / --key-id     (CLI) : Monte Carlo ingestion key ID
+- MCD_INGEST_TOKEN  (env) / --key-token  (CLI) : Monte Carlo ingestion key token
+- MCD_RESOURCE_UUID     (env) / --resource-uuid (CLI) : MC resource UUID for this connection
+Prerequisites
+-------------
+    pip install pycarlo snowflake-connector-python
+Usage
+-----
+    python collect_and_push_query_logs.py \\
+        --account  <SNOWFLAKE_ACCOUNT> \\
+        --user     <SNOWFLAKE_USER> \\
+        --password <SNOWFLAKE_PASSWORD> \\
+        --warehouse <SNOWFLAKE_WAREHOUSE> \\
+        --key-id  <MCD_INGEST_ID> \\
+        --key-token <MCD_INGEST_TOKEN> \\
+        --resource-uuid <MCD_RESOURCE_UUID>
+"""
+import argparse
+import os
+from collect_query_logs import collect
+from push_query_logs import push, _BATCH_SIZE
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="Collect Snowflake query logs from ACCOUNT_USAGE and push to Monte Carlo",
+    )
+    parser.add_argument(
+        "--account",
+        default=os.environ.get("SNOWFLAKE_ACCOUNT"),
+        help="Snowflake account identifier, e.g. xy12345.us-east-1 (env: SNOWFLAKE_ACCOUNT)",  # ← SUBSTITUTE
+    )
+    parser.add_argument(
+        "--user",
+        default=os.environ.get("SNOWFLAKE_USER"),
+        help="Snowflake username (env: SNOWFLAKE_USER)",
+    )
+    parser.add_argument(
+        "--password",
+        default=os.environ.get("SNOWFLAKE_PASSWORD"),
+        help="Snowflake password (env: SNOWFLAKE_PASSWORD)",
+    )
+    parser.add_argument(
+        "--warehouse",
+        default=os.environ.get("SNOWFLAKE_WAREHOUSE"),
+        help="Snowflake virtual warehouse (env: SNOWFLAKE_WAREHOUSE)",  # ← SUBSTITUTE
+    )
+    parser.add_argument(
+        "--key-id",
+        default=os.environ.get("MCD_INGEST_ID"),
+        help="Monte Carlo ingestion key ID (env: MCD_INGEST_ID)",
+    )
+    parser.add_argument(
+        "--key-token",
+        default=os.environ.get("MCD_INGEST_TOKEN"),
+        help="Monte Carlo ingestion key token (env: MCD_INGEST_TOKEN)",
+    )
+    parser.add_argument(
+        "--resource-uuid",
+        default=os.environ.get("MCD_RESOURCE_UUID"),
+        help="Monte Carlo resource UUID for this Snowflake connection (env: MCD_RESOURCE_UUID)",
+    )
+    parser.add_argument(
+        "--output-file",
+        default="query_logs_output.json",
+        help="Path for the intermediate collect manifest (default: query_logs_output.json)",
+    )
+    parser.add_argument(
+        "--push-result-file",
+        default="query_logs_push_result.json",
+        help="Path to write the push result (default: query_logs_push_result.json)",
+    )
+    parser.add_argument(
+        "--batch-size",
+        type=int,
+        default=_BATCH_SIZE,
+        help=f"Max entries per push batch (default: {_BATCH_SIZE})",
+    )
+    args = parser.parse_args()
+    missing = [
+        name
+        for name, val in [
+            ("--account", args.account),
+            ("--user", args.user),
+            ("--password", args.password),
+            ("--warehouse", args.warehouse),
+            ("--key-id", args.key_id),
+            ("--key-token", args.key_token),
+            ("--resource-uuid", args.resource_uuid),
+        ]
+        if not val
+    ]
+    if missing:
+        parser.error(f"Missing required arguments: {', '.join(missing)}")
+    # Step 1: Collect
+    collect(
+        account=args.account,
+        user=args.user,
+        password=args.password,
+        warehouse=args.warehouse,
+        output_file=args.output_file,
+    )
+    # Step 2: Push
+    push(
+        input_file=args.output_file,
+        resource_uuid=args.resource_uuid,
+        key_id=args.key_id,
+        key_token=args.key_token,
+        batch_size=args.batch_size,
+        output_file=args.push_result_file,
+    )
+    print("Done.")
+if __name__ == "__main__":
+    main()