PyPI - dvt-core - Versions diffs - 0.52.2__cp310-cp310-macosx_10_9_x86_64.whl - Mend

dvt-core 0.52.2__cp310-cp310-macosx_10_9_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (275) hide show

dbt/__init__.py +7 -0
dbt/_pydantic_shim.py +26 -0
dbt/artifacts/__init__.py +0 -0
dbt/artifacts/exceptions/__init__.py +1 -0
dbt/artifacts/exceptions/schemas.py +31 -0
dbt/artifacts/resources/__init__.py +116 -0
dbt/artifacts/resources/base.py +67 -0
dbt/artifacts/resources/types.py +93 -0
dbt/artifacts/resources/v1/analysis.py +10 -0
dbt/artifacts/resources/v1/catalog.py +23 -0
dbt/artifacts/resources/v1/components.py +274 -0
dbt/artifacts/resources/v1/config.py +277 -0
dbt/artifacts/resources/v1/documentation.py +11 -0
dbt/artifacts/resources/v1/exposure.py +51 -0
dbt/artifacts/resources/v1/function.py +52 -0
dbt/artifacts/resources/v1/generic_test.py +31 -0
dbt/artifacts/resources/v1/group.py +21 -0
dbt/artifacts/resources/v1/hook.py +11 -0
dbt/artifacts/resources/v1/macro.py +29 -0
dbt/artifacts/resources/v1/metric.py +172 -0
dbt/artifacts/resources/v1/model.py +145 -0
dbt/artifacts/resources/v1/owner.py +10 -0
dbt/artifacts/resources/v1/saved_query.py +111 -0
dbt/artifacts/resources/v1/seed.py +41 -0
dbt/artifacts/resources/v1/semantic_layer_components.py +72 -0
dbt/artifacts/resources/v1/semantic_model.py +314 -0
dbt/artifacts/resources/v1/singular_test.py +14 -0
dbt/artifacts/resources/v1/snapshot.py +91 -0
dbt/artifacts/resources/v1/source_definition.py +84 -0
dbt/artifacts/resources/v1/sql_operation.py +10 -0
dbt/artifacts/resources/v1/unit_test_definition.py +77 -0
dbt/artifacts/schemas/__init__.py +0 -0
dbt/artifacts/schemas/base.py +191 -0
dbt/artifacts/schemas/batch_results.py +24 -0
dbt/artifacts/schemas/catalog/__init__.py +11 -0
dbt/artifacts/schemas/catalog/v1/__init__.py +0 -0
dbt/artifacts/schemas/catalog/v1/catalog.py +59 -0
dbt/artifacts/schemas/freshness/__init__.py +1 -0
dbt/artifacts/schemas/freshness/v3/__init__.py +0 -0
dbt/artifacts/schemas/freshness/v3/freshness.py +158 -0
dbt/artifacts/schemas/manifest/__init__.py +2 -0
dbt/artifacts/schemas/manifest/v12/__init__.py +0 -0
dbt/artifacts/schemas/manifest/v12/manifest.py +211 -0
dbt/artifacts/schemas/results.py +147 -0
dbt/artifacts/schemas/run/__init__.py +2 -0
dbt/artifacts/schemas/run/v5/__init__.py +0 -0
dbt/artifacts/schemas/run/v5/run.py +184 -0
dbt/artifacts/schemas/upgrades/__init__.py +4 -0
dbt/artifacts/schemas/upgrades/upgrade_manifest.py +174 -0
dbt/artifacts/schemas/upgrades/upgrade_manifest_dbt_version.py +2 -0
dbt/artifacts/utils/validation.py +153 -0
dbt/cli/__init__.py +1 -0
dbt/cli/context.py +17 -0
dbt/cli/exceptions.py +57 -0
dbt/cli/flags.py +560 -0
dbt/cli/main.py +2039 -0
dbt/cli/option_types.py +121 -0
dbt/cli/options.py +80 -0
dbt/cli/params.py +804 -0
dbt/cli/requires.py +490 -0
dbt/cli/resolvers.py +50 -0
dbt/cli/types.py +40 -0
dbt/clients/__init__.py +0 -0
dbt/clients/checked_load.py +83 -0
dbt/clients/git.py +164 -0
dbt/clients/jinja.py +206 -0
dbt/clients/jinja_static.py +245 -0
dbt/clients/registry.py +192 -0
dbt/clients/yaml_helper.py +68 -0
dbt/compilation.py +876 -0
dbt/compute/__init__.py +14 -0
dbt/compute/engines/__init__.py +12 -0
dbt/compute/engines/spark_engine.py +624 -0
dbt/compute/federated_executor.py +837 -0
dbt/compute/filter_pushdown.cpython-310-darwin.so +0 -0
dbt/compute/filter_pushdown.py +273 -0
dbt/compute/jar_provisioning.cpython-310-darwin.so +0 -0
dbt/compute/jar_provisioning.py +255 -0
dbt/compute/java_compat.cpython-310-darwin.so +0 -0
dbt/compute/java_compat.py +689 -0
dbt/compute/jdbc_utils.cpython-310-darwin.so +0 -0
dbt/compute/jdbc_utils.py +678 -0
dbt/compute/smart_selector.cpython-310-darwin.so +0 -0
dbt/compute/smart_selector.py +311 -0
dbt/compute/strategies/__init__.py +54 -0
dbt/compute/strategies/base.py +165 -0
dbt/compute/strategies/dataproc.py +207 -0
dbt/compute/strategies/emr.py +203 -0
dbt/compute/strategies/local.py +364 -0
dbt/compute/strategies/standalone.py +262 -0
dbt/config/__init__.py +4 -0
dbt/config/catalogs.py +94 -0
dbt/config/compute.cpython-310-darwin.so +0 -0
dbt/config/compute.py +547 -0
dbt/config/dvt_profile.cpython-310-darwin.so +0 -0
dbt/config/dvt_profile.py +342 -0
dbt/config/profile.py +422 -0
dbt/config/project.py +873 -0
dbt/config/project_utils.py +28 -0
dbt/config/renderer.py +231 -0
dbt/config/runtime.py +553 -0
dbt/config/selectors.py +208 -0
dbt/config/utils.py +77 -0
dbt/constants.py +28 -0
dbt/context/__init__.py +0 -0
dbt/context/base.py +745 -0
dbt/context/configured.py +135 -0
dbt/context/context_config.py +382 -0
dbt/context/docs.py +82 -0
dbt/context/exceptions_jinja.py +178 -0
dbt/context/macro_resolver.py +195 -0
dbt/context/macros.py +171 -0
dbt/context/manifest.py +72 -0
dbt/context/providers.py +2249 -0
dbt/context/query_header.py +13 -0
dbt/context/secret.py +58 -0
dbt/context/target.py +74 -0
dbt/contracts/__init__.py +0 -0
dbt/contracts/files.py +413 -0
dbt/contracts/graph/__init__.py +0 -0
dbt/contracts/graph/manifest.py +1904 -0
dbt/contracts/graph/metrics.py +97 -0
dbt/contracts/graph/model_config.py +70 -0
dbt/contracts/graph/node_args.py +42 -0
dbt/contracts/graph/nodes.py +1806 -0
dbt/contracts/graph/semantic_manifest.py +232 -0
dbt/contracts/graph/unparsed.py +811 -0
dbt/contracts/project.py +417 -0
dbt/contracts/results.py +53 -0
dbt/contracts/selection.py +23 -0
dbt/contracts/sql.py +85 -0
dbt/contracts/state.py +68 -0
dbt/contracts/util.py +46 -0
dbt/deprecations.py +346 -0
dbt/deps/__init__.py +0 -0
dbt/deps/base.py +152 -0
dbt/deps/git.py +195 -0
dbt/deps/local.py +79 -0
dbt/deps/registry.py +130 -0
dbt/deps/resolver.py +149 -0
dbt/deps/tarball.py +120 -0
dbt/docs/source/_ext/dbt_click.py +119 -0
dbt/docs/source/conf.py +32 -0
dbt/env_vars.py +64 -0
dbt/event_time/event_time.py +40 -0
dbt/event_time/sample_window.py +60 -0
dbt/events/__init__.py +15 -0
dbt/events/base_types.py +36 -0
dbt/events/core_types_pb2.py +2 -0
dbt/events/logging.py +108 -0
dbt/events/types.py +2516 -0
dbt/exceptions.py +1486 -0
dbt/flags.py +89 -0
dbt/graph/__init__.py +11 -0
dbt/graph/cli.py +247 -0
dbt/graph/graph.py +172 -0
dbt/graph/queue.py +214 -0
dbt/graph/selector.py +374 -0
dbt/graph/selector_methods.py +975 -0
dbt/graph/selector_spec.py +222 -0
dbt/graph/thread_pool.py +18 -0
dbt/hooks.py +21 -0
dbt/include/README.md +49 -0
dbt/include/__init__.py +3 -0
dbt/include/starter_project/.gitignore +4 -0
dbt/include/starter_project/README.md +15 -0
dbt/include/starter_project/__init__.py +3 -0
dbt/include/starter_project/analyses/.gitkeep +0 -0
dbt/include/starter_project/dbt_project.yml +36 -0
dbt/include/starter_project/macros/.gitkeep +0 -0
dbt/include/starter_project/models/example/my_first_dbt_model.sql +27 -0
dbt/include/starter_project/models/example/my_second_dbt_model.sql +6 -0
dbt/include/starter_project/models/example/schema.yml +21 -0
dbt/include/starter_project/seeds/.gitkeep +0 -0
dbt/include/starter_project/snapshots/.gitkeep +0 -0
dbt/include/starter_project/tests/.gitkeep +0 -0
dbt/internal_deprecations.py +26 -0
dbt/jsonschemas/__init__.py +3 -0
dbt/jsonschemas/jsonschemas.py +309 -0
dbt/jsonschemas/project/0.0.110.json +4717 -0
dbt/jsonschemas/project/0.0.85.json +2015 -0
dbt/jsonschemas/resources/0.0.110.json +2636 -0
dbt/jsonschemas/resources/0.0.85.json +2536 -0
dbt/jsonschemas/resources/latest.json +6773 -0
dbt/links.py +4 -0
dbt/materializations/__init__.py +0 -0
dbt/materializations/incremental/__init__.py +0 -0
dbt/materializations/incremental/microbatch.py +236 -0
dbt/mp_context.py +8 -0
dbt/node_types.py +37 -0
dbt/parser/__init__.py +23 -0
dbt/parser/analysis.py +21 -0
dbt/parser/base.py +548 -0
dbt/parser/common.py +266 -0
dbt/parser/docs.py +52 -0
dbt/parser/fixtures.py +51 -0
dbt/parser/functions.py +30 -0
dbt/parser/generic_test.py +100 -0
dbt/parser/generic_test_builders.py +333 -0
dbt/parser/hooks.py +118 -0
dbt/parser/macros.py +137 -0
dbt/parser/manifest.py +2204 -0
dbt/parser/models.py +573 -0
dbt/parser/partial.py +1178 -0
dbt/parser/read_files.py +445 -0
dbt/parser/schema_generic_tests.py +422 -0
dbt/parser/schema_renderer.py +111 -0
dbt/parser/schema_yaml_readers.py +935 -0
dbt/parser/schemas.py +1466 -0
dbt/parser/search.py +149 -0
dbt/parser/seeds.py +28 -0
dbt/parser/singular_test.py +20 -0
dbt/parser/snapshots.py +44 -0
dbt/parser/sources.py +558 -0
dbt/parser/sql.py +62 -0
dbt/parser/unit_tests.py +621 -0
dbt/plugins/__init__.py +20 -0
dbt/plugins/contracts.py +9 -0
dbt/plugins/exceptions.py +2 -0
dbt/plugins/manager.py +163 -0
dbt/plugins/manifest.py +21 -0
dbt/profiler.py +20 -0
dbt/py.typed +1 -0
dbt/query_analyzer.cpython-310-darwin.so +0 -0
dbt/query_analyzer.py +410 -0
dbt/runners/__init__.py +2 -0
dbt/runners/exposure_runner.py +7 -0
dbt/runners/no_op_runner.py +45 -0
dbt/runners/saved_query_runner.py +7 -0
dbt/selected_resources.py +8 -0
dbt/task/__init__.py +0 -0
dbt/task/base.py +503 -0
dbt/task/build.py +197 -0
dbt/task/clean.py +56 -0
dbt/task/clone.py +161 -0
dbt/task/compile.py +150 -0
dbt/task/compute.py +454 -0
dbt/task/debug.py +505 -0
dbt/task/deps.py +280 -0
dbt/task/docs/__init__.py +3 -0
dbt/task/docs/generate.py +660 -0
dbt/task/docs/index.html +250 -0
dbt/task/docs/serve.py +29 -0
dbt/task/freshness.py +322 -0
dbt/task/function.py +121 -0
dbt/task/group_lookup.py +46 -0
dbt/task/init.py +553 -0
dbt/task/java.py +316 -0
dbt/task/list.py +236 -0
dbt/task/printer.py +175 -0
dbt/task/retry.py +175 -0
dbt/task/run.py +1306 -0
dbt/task/run_operation.py +141 -0
dbt/task/runnable.py +758 -0
dbt/task/seed.py +103 -0
dbt/task/show.py +149 -0
dbt/task/snapshot.py +56 -0
dbt/task/spark.py +414 -0
dbt/task/sql.py +110 -0
dbt/task/target_sync.py +759 -0
dbt/task/test.py +464 -0
dbt/tests/fixtures/__init__.py +1 -0
dbt/tests/fixtures/project.py +620 -0
dbt/tests/util.py +651 -0
dbt/tracking.py +529 -0
dbt/utils/__init__.py +3 -0
dbt/utils/artifact_upload.py +151 -0
dbt/utils/utils.py +408 -0
dbt/version.py +268 -0
dvt_cli/__init__.py +72 -0
dvt_core-0.52.2.dist-info/METADATA +286 -0
dvt_core-0.52.2.dist-info/RECORD +275 -0
dvt_core-0.52.2.dist-info/WHEEL +5 -0
dvt_core-0.52.2.dist-info/entry_points.txt +2 -0
dvt_core-0.52.2.dist-info/top_level.txt +2 -0

dbt/compute/strategies/local.py ADDED Viewed

@@ -0,0 +1,364 @@
+"""
+Local Spark Connection Strategy
+Provides embedded PySpark session for local development and testing.
+This is the default strategy extracted from the original SparkEngine implementation.
+Includes auto-configuration of Java with PySpark compatibility checking.
+v0.51.3: Refactored to use java_compat module for centralized Java/PySpark compatibility.
+v0.5.98: Added JAR provisioning using local file paths (spark.jars).
+"""
+import os
+from typing import Dict, Optional, Set, Tuple
+from dbt.compute.strategies.base import BaseConnectionStrategy
+from dbt_common.exceptions import DbtRuntimeError
+try:
+    from pyspark.sql import SparkSession
+    PYSPARK_AVAILABLE = True
+except ImportError:
+    PYSPARK_AVAILABLE = False
+    SparkSession = None
+# Global Spark session cache for reuse across calls (within same process)
+_SPARK_SESSION_CACHE = {}
+def _ensure_java_available():
+    """
+    Ensure Java is available and compatible with installed PySpark.
+    Uses the centralized java_compat module for cross-platform Java detection
+    and PySpark compatibility checking.
+    v0.51.3: Refactored to use java_compat module with enhanced compatibility checking.
+             Always sets JAVA_HOME to a proper JDK path (not /usr or invalid paths).
+    """
+    from dbt.compute.java_compat import (
+        get_pyspark_info,
+        find_all_java_installations,
+        select_best_java,
+    )
+    # Get PySpark requirements
+    pyspark = get_pyspark_info()
+    if not pyspark:
+        raise DbtRuntimeError(
+            "PySpark is not installed. Install it with: pip install pyspark\n"
+            "Or run 'dvt spark set-version' to select a specific version."
+        )
+    # Always search for Java installations and select the best one
+    # This ensures JAVA_HOME is set to a proper JDK path (not /usr or invalid)
+    all_java = find_all_java_installations()
+    best_java = select_best_java(all_java, pyspark.java_supported)
+    if best_java:
+        # Set JAVA_HOME to the best compatible Java found
+        # This is needed even if Java is in PATH because PySpark's scripts
+        # rely on JAVA_HOME being set to a proper JDK directory
+        os.environ["JAVA_HOME"] = best_java.path
+        bin_path = os.path.join(best_java.path, "bin")
+        # Prepend to PATH to ensure this Java is used
+        os.environ["PATH"] = bin_path + os.pathsep + os.environ.get("PATH", "")
+        return
+    # No compatible Java found - show error with guidance
+    supported_str = ", ".join(str(v) for v in pyspark.java_supported)
+    raise DbtRuntimeError(
+        f"No compatible Java found for PySpark {pyspark.version}.\n"
+        f"PySpark {pyspark.major_minor} requires Java {supported_str}.\n\n"
+        f"Run 'dvt java search' to find Java installations.\n"
+        f"Run 'dvt java set' to select a compatible version.\n"
+        f"Run 'dvt java install' for installation guide."
+    )
+class LocalStrategy(BaseConnectionStrategy):
+    """
+    Local embedded Spark strategy.
+    Creates an in-process PySpark session with local[*] master.
+    Best for development, testing, and small-medium workloads.
+    Configuration:
+    {
+        "master": "local[*]",  # optional, defaults to local[*]
+        "spark.driver.memory": "4g",  # optional
+        "spark.executor.memory": "4g",  # optional
+        # ... any other Spark configs
+    }
+    """
+    def validate_config(self) -> None:
+        """
+        Validate local strategy configuration.
+        Local strategy is flexible - no required fields.
+        """
+        # Local strategy accepts any config - very flexible
+        # Just ensure it's a dictionary
+        if not isinstance(self.config, dict):
+            raise DbtRuntimeError(
+                f"Local Spark config must be a dictionary, got {type(self.config)}"
+            )
+    def get_spark_session(self, adapter_types: Optional[Set[str]] = None) -> SparkSession:
+        """
+        Create or reuse local Spark session (BLAZING FAST).
+        Creates an embedded PySpark session with optimized configuration for speed.
+        Implements session caching to reuse existing sessions.
+        DVT v0.5.3: Uses direct JAR paths instead of spark.jars.packages to avoid
+        verbose Ivy output. JARs are downloaded once and cached in ~/.dvt/jdbc_jars/
+        :param adapter_types: Set of adapter types that need JDBC drivers (optional, for API compatibility)
+        :returns: Initialized SparkSession
+        :raises DbtRuntimeError: If session creation fails
+        """
+        import sys
+        import hashlib
+        if not PYSPARK_AVAILABLE:
+            raise DbtRuntimeError("PySpark is not available. Install it with: pip install pyspark")
+        # Auto-configure Java first
+        _ensure_java_available()
+        # Create cache key from config to reuse sessions with same configuration
+        config_str = str(sorted(self.config.items()))
+        cache_key = hashlib.md5(config_str.encode()).hexdigest()
+        # Check if we have a cached session with this config
+        if cache_key in _SPARK_SESSION_CACHE:
+            cached_spark = _SPARK_SESSION_CACHE[cache_key]
+            # Verify session is still active
+            try:
+                cached_spark.sparkContext.getConf()  # Will fail if session is dead
+                return cached_spark
+            except Exception:
+                # Session died, remove from cache
+                del _SPARK_SESSION_CACHE[cache_key]
+        # v0.51.0: Stop any existing session with DIFFERENT config
+        # This ensures we get correct spark.jars.packages for this strategy
+        try:
+            existing = SparkSession.getActiveSession()
+            if existing:
+                existing.stop()
+                # Clear the global cache too
+                _SPARK_SESSION_CACHE.clear()
+        except Exception:
+            pass
+        # DVT v0.5.3: Suppress Java/Spark startup warnings completely
+        # Create a custom log4j2 config to silence Spark startup noise
+        import tempfile
+        log4j_config = """
+status = error
+appender.console.type = Console
+appender.console.name = console
+appender.console.layout.type = PatternLayout
+appender.console.layout.pattern = %msg%n
+rootLogger.level = error
+rootLogger.appenderRef.console.ref = console
+logger.spark.name = org.apache.spark
+logger.spark.level = error
+logger.hadoop.name = org.apache.hadoop
+logger.hadoop.level = error
+"""
+        log4j_file = os.path.join(tempfile.gettempdir(), "dvt_log4j2.properties")
+        with open(log4j_file, "w") as f:
+            f.write(log4j_config)
+        # Use persistent JAR cache in project directory
+        dvt_home = os.path.expanduser("~/.dvt")
+        jar_cache_dir = os.path.join(dvt_home, "jdbc_jars")
+        os.makedirs(jar_cache_dir, exist_ok=True)
+        # DVT v0.5.3: Get cached JDBC jars (from project dir, not home dir)
+        jar_paths = self._get_jdbc_jars(jar_cache_dir)
+        builder = SparkSession.builder.appName(self.app_name)
+        # Use local[2] instead of local[*] for faster startup
+        master = self.config.get("master", "local[2]")
+        builder = builder.master(master)
+        # Optimized default configurations for SPEED
+        fast_configs = {
+            # Memory optimization
+            "spark.driver.memory": "1g",
+            "spark.executor.memory": "1g",
+            # DVT v0.5.3: Use direct JAR paths (NO Ivy output!)
+            "spark.jars": ",".join(jar_paths) if jar_paths else "",
+            # DVT v0.5.3: Suppress ALL Java/Spark warnings
+            "spark.driver.extraJavaOptions": " ".join([
+                f"-Dlog4j2.configurationFile=file:{log4j_file}",
+                "--add-opens=java.base/sun.nio.ch=ALL-UNNAMED",
+                "-Djava.util.logging.level=SEVERE",
+            ]),
+            # Suppress Spark UI and progress
+            "spark.ui.enabled": "false",
+            "spark.ui.showConsoleProgress": "false",
+            "spark.eventLog.enabled": "false",
+            # Network optimizations
+            "spark.driver.bindAddress": "127.0.0.1",
+            "spark.driver.host": "localhost",
+            # Reduce shuffle partitions for faster queries on small data
+            "spark.sql.shuffle.partitions": "8",
+            # Enable Arrow for efficient data transfer
+            "spark.sql.execution.arrow.pyspark.enabled": "true",
+            "spark.sql.execution.arrow.pyspark.fallback.enabled": "true",
+            "spark.sql.execution.arrow.enabled": "true",
+            # Disable adaptive optimization (slow for small data)
+            "spark.sql.adaptive.enabled": "false",
+            "spark.sql.adaptive.coalescePartitions.enabled": "false",
+        }
+        # Apply fast configs (can be overridden by user config)
+        for key, value in fast_configs.items():
+            if key not in self.config:
+                builder = builder.config(key, value)
+        # Apply user-provided configs (except 'master' which is already set)
+        for key, value in self.config.items():
+            if key != "master":
+                builder = builder.config(key, value)
+        # Create Spark session
+        spark = builder.getOrCreate()
+        # Set log level to ERROR to suppress Spark warnings
+        spark.sparkContext.setLogLevel("ERROR")
+        # Cache the session for reuse
+        _SPARK_SESSION_CACHE[cache_key] = spark
+        return spark
+    def _get_jdbc_jars(self, cache_dir: str) -> list:
+        """
+        Discover ALL JDBC JAR files from project cache at runtime.
+        v0.5.96: Dynamic discovery - finds all *.jar files in .dvt/jdbc_jars/
+        This enables project folder portability (move folder → JARs still work).
+        JARs are downloaded via 'dvt target sync' command.
+        :param cache_dir: Directory to look for JAR files (ignored, uses project dir)
+        :returns: List of JAR file absolute paths
+        """
+        import glob
+        # Look for JARs in project directory (current working directory)
+        project_dir = os.getcwd()
+        jar_cache_dir = os.path.join(project_dir, ".dvt", "jdbc_jars")
+        # Discover ALL *.jar files dynamically (not hardcoded list)
+        jar_pattern = os.path.join(jar_cache_dir, "*.jar")
+        jar_paths = sorted(glob.glob(jar_pattern))
+        # No warning needed - clean output
+        # User should run 'dvt target sync' if JARs needed
+        return jar_paths
+    def close(self, spark: Optional[SparkSession]) -> None:
+        """
+        Close Spark session after execution.
+        By default, closes the session to free resources and prevent blocking other models.
+        Session caching can be enabled by setting DVT_SPARK_KEEP_ALIVE=1 for faster
+        consecutive runs within the same Python process.
+        Set DVT_SPARK_KEEP_ALIVE=1 environment variable to keep sessions alive (advanced).
+        :param spark: SparkSession to close (or optionally keep alive)
+        """
+        import os
+        # Check if caching is enabled (opt-in, not default)
+        keep_alive = os.environ.get("DVT_SPARK_KEEP_ALIVE", "0") == "1"
+        if keep_alive:
+            # DVT v0.4.8: Suppressed verbose output
+            # Session stays alive in cache for reuse (opt-in)
+            # print("[DVT] Spark session kept alive in cache (DVT_SPARK_KEEP_ALIVE=1)", flush=True)
+            pass
+        elif spark:
+            try:
+                # Clear from cache first
+                for key, cached_spark in list(_SPARK_SESSION_CACHE.items()):
+                    if cached_spark is spark:
+                        del _SPARK_SESSION_CACHE[key]
+                        break
+                # Stop the session
+                spark.stop()
+                # DVT v0.4.8: Suppressed verbose output
+                # print("[DVT] ✓ Spark session closed", flush=True)
+            except Exception:
+                pass  # Best effort cleanup
+    def estimate_cost(self, duration_minutes: float) -> float:
+        """
+        Estimate cost for local execution.
+        Local execution is free (runs on local machine).
+        :param duration_minutes: Estimated query duration
+        :returns: 0.0 (free)
+        """
+        return 0.0
+    def get_platform_name(self) -> str:
+        """Get platform name."""
+        return "local"
+    def get_jar_provisioning_config(self, adapter_types: Set[str]) -> Dict[str, str]:
+        """
+        Get Spark config for JDBC JAR provisioning using local file paths.
+        Local Spark uses spark.jars with local file paths from .dvt/jdbc_jars/
+        for instant startup (no download at runtime).
+        :param adapter_types: Set of adapter types (ignored - uses all JARs found)
+        :returns: Dictionary with spark.jars config
+        """
+        from dbt.compute.jar_provisioning import LocalJARProvisioning
+        provisioning = LocalJARProvisioning(project_dir=os.getcwd())
+        return provisioning.get_spark_config(adapter_types)
+    def test_connectivity(self) -> Tuple[bool, str]:
+        """
+        Test connectivity by creating a local Spark session.
+        :returns: Tuple of (success, message)
+        """
+        # Check PySpark at runtime (not module import time)
+        try:
+            from pyspark.sql import SparkSession as _  # noqa: F401
+        except ImportError:
+            return (False, "PySpark not installed")
+        try:
+            spark = self.get_spark_session()
+            # Run simple SQL to verify
+            spark.sql("SELECT 1 AS test").collect()
+            return (True, "Local Spark session created and SQL test passed")
+        except Exception as e:
+            return (False, f"Local Spark failed: {e}")

dbt/compute/strategies/standalone.py ADDED Viewed

@@ -0,0 +1,262 @@
+"""
+Standalone Spark Cluster Connection Strategy
+Provides connection to self-managed Spark clusters (on-premises or cloud VMs).
+v0.5.98: New strategy for standalone Spark clusters with Maven-based JAR provisioning.
+         Fixes the bug where external clusters incorrectly fell back to LocalStrategy
+         with local JAR paths that don't exist on remote workers.
+Configuration:
+{
+    "master": "spark://master-node:7077",  # Required: Spark master URL
+    "spark.driver.memory": "4g",           # Optional: driver memory
+    "spark.executor.memory": "8g",         # Optional: executor memory
+    "spark.executor.cores": "4",           # Optional: cores per executor
+    "spark.executor.instances": "10",      # Optional: number of executors
+}
+Requirements:
+- Standalone Spark cluster must be running
+- Spark master must be accessible from client machine
+- Workers must have network access to Maven Central (for JAR downloads)
+"""
+from typing import Any, Dict, Optional, Set, Tuple
+from dbt.compute.strategies.base import BaseConnectionStrategy
+from dbt_common.exceptions import DbtRuntimeError
+try:
+    from pyspark.sql import SparkSession
+    PYSPARK_AVAILABLE = True
+except ImportError:
+    PYSPARK_AVAILABLE = False
+    SparkSession = None
+class StandaloneStrategy(BaseConnectionStrategy):
+    """
+    Standalone Spark cluster connection strategy.
+    Connects to self-managed Spark clusters using spark:// master URL.
+    Uses spark.jars.packages for JDBC JAR provisioning so workers can
+    download drivers from Maven Central.
+    """
+    def validate_config(self) -> None:
+        """
+        Validate Standalone strategy configuration.
+        Required:
+        - master: Must start with "spark://" for standalone clusters
+        :raises DbtRuntimeError: If configuration is invalid
+        """
+        if not isinstance(self.config, dict):
+            raise DbtRuntimeError(
+                f"Standalone config must be a dictionary, got {type(self.config)}"
+            )
+        # Check master format
+        master = self.config.get("master", "")
+        if not master.startswith("spark://"):
+            raise DbtRuntimeError(
+                f"Standalone config requires master to start with 'spark://', got: {master}"
+            )
+    def get_spark_session(self, adapter_types: Optional[Set[str]] = None) -> SparkSession:
+        """
+        Create Spark session connected to standalone cluster.
+        :param adapter_types: Set of adapter types that need JDBC drivers
+        :returns: Initialized SparkSession connected to standalone cluster
+        :raises DbtRuntimeError: If session creation fails
+        """
+        if not PYSPARK_AVAILABLE:
+            raise DbtRuntimeError("PySpark is not available. Install it with: pip install pyspark")
+        try:
+            # v0.51.0: Ensure Java is available
+            from dbt.compute.strategies.local import _ensure_java_available
+            _ensure_java_available()
+            # v0.51.0: Stop any existing session to ensure fresh config
+            existing = SparkSession.getActiveSession()
+            if existing:
+                existing.stop()
+            builder = SparkSession.builder.appName(self.app_name)
+            # Set master URL
+            master = self.config.get("master")
+            builder = builder.master(master)
+            # v0.5.99: Get JDBC JAR config (Maven coordinates for remote workers)
+            # Merge with user-provided spark.jars.packages instead of overwriting
+            if adapter_types is None:
+                from dbt.compute.jar_provisioning import get_required_adapter_types
+                adapter_types = get_required_adapter_types()
+            auto_packages = []
+            if adapter_types:
+                jar_config = self.get_jar_provisioning_config(adapter_types)
+                auto_packages_str = jar_config.get("spark.jars.packages", "")
+                if auto_packages_str:
+                    auto_packages = [p.strip() for p in auto_packages_str.split(",") if p.strip()]
+            # Get user-provided packages from config
+            user_packages_str = self.config.get("spark.jars.packages", "")
+            user_packages = [p.strip() for p in user_packages_str.split(",") if p.strip()]
+            # Merge packages (user + auto-detected)
+            all_packages = list(set(user_packages + auto_packages))
+            if all_packages:
+                builder = builder.config("spark.jars.packages", ",".join(all_packages))
+            # Apply user-provided configs (except spark.jars.packages which we merged)
+            for key, value in self.config.items():
+                if key != "master" and key != "spark.jars.packages":
+                    builder = builder.config(key, value)
+            # Default optimizations
+            default_configs = {
+                "spark.sql.execution.arrow.pyspark.enabled": "true",
+                "spark.sql.execution.arrow.pyspark.fallback.enabled": "true",
+            }
+            for key, value in default_configs.items():
+                if key not in self.config:
+                    builder = builder.config(key, value)
+            # DVT v0.51.5: Auto-configure driver host for Docker Spark clusters
+            # When master is on localhost, workers (in Docker containers) need to reach
+            # the driver running on the host machine via host.docker.internal
+            if "spark.driver.host" not in self.config:
+                if "localhost" in master or "127.0.0.1" in master:
+                    builder = builder.config("spark.driver.host", "host.docker.internal")
+            # Create session
+            spark = builder.getOrCreate()
+            spark.sparkContext.setLogLevel("WARN")
+            return spark
+        except Exception as e:
+            error_msg = str(e)
+            master = self.config.get("master", "unknown")
+            if "Connection refused" in error_msg:
+                raise DbtRuntimeError(
+                    f"Cannot connect to Spark master at '{master}'. "
+                    f"Ensure the cluster is running and accessible. Error: {error_msg}"
+                ) from e
+            raise DbtRuntimeError(f"Failed to create Standalone Spark session: {error_msg}") from e
+    def close(self, spark: Optional[SparkSession]) -> None:
+        """
+        Clean up Spark session.
+        For standalone clusters, we stop the application but the cluster continues running.
+        :param spark: SparkSession to clean up
+        """
+        if spark:
+            try:
+                spark.stop()
+            except Exception:
+                pass  # Best effort cleanup
+    def estimate_cost(self, duration_minutes: float) -> float:
+        """
+        Estimate cost for standalone cluster execution.
+        For self-managed clusters, returns 0.0 as cost depends on infrastructure.
+        :param duration_minutes: Estimated query duration in minutes
+        :returns: 0.0 (infrastructure cost varies)
+        """
+        # Self-managed clusters have variable cost based on infrastructure
+        return 0.0
+    def get_platform_name(self) -> str:
+        """Get platform name."""
+        return "standalone"
+    def get_jar_provisioning_config(self, adapter_types: Set[str]) -> Dict[str, str]:
+        """
+        Get Spark config for JDBC JAR provisioning using Maven coordinates.
+        Standalone clusters need spark.jars.packages so workers can download
+        JDBC drivers from Maven Central. Local file paths don't work because
+        they're not available on remote worker nodes.
+        :param adapter_types: Set of adapter types that need JDBC drivers
+        :returns: Dictionary with spark.jars.packages config
+        """
+        from dbt.compute.jar_provisioning import RemoteJARProvisioning
+        provisioning = RemoteJARProvisioning()
+        return provisioning.get_spark_config(adapter_types)
+    def test_connectivity(self) -> Tuple[bool, str]:
+        """
+        Test connectivity to standalone Spark cluster.
+        v0.51.1: Added timeout to prevent hanging when workers unavailable.
+        v0.51.8: Increased timeout to 90s for Docker clusters (JDBC JAR download time).
+        :returns: Tuple of (success, message)
+        """
+        if not PYSPARK_AVAILABLE:
+            return (False, "PySpark not installed")
+        import concurrent.futures
+        master = self.config.get("master", "unknown")
+        def _run_test():
+            spark = self.get_spark_session()
+            spark.sql("SELECT 1 AS test").collect()
+            return True
+        try:
+            # Use ThreadPoolExecutor with timeout to prevent hanging
+            # when workers aren't available
+            # v0.51.8: Increased from 30s to 90s - Docker Spark clusters need time
+            # for JDBC JAR downloads from Maven on first run
+            with concurrent.futures.ThreadPoolExecutor(max_workers=1) as executor:
+                future = executor.submit(_run_test)
+                try:
+                    result = future.result(timeout=90)  # 90 second timeout for JAR downloads
+                    return (True, "Standalone cluster session created and SQL test passed")
+                except concurrent.futures.TimeoutError:
+                    return (False,
+                        f"Timeout (90s): Workers not responding at '{master}'.\n"
+                        f"Check: cluster workers are running, network access from driver to workers.\n"
+                        f"Note: First run may take longer due to JDBC JAR downloads."
+                    )
+        except Exception as e:
+            error_msg = str(e)
+            if "Connection refused" in error_msg:
+                return (False, f"Cannot connect to Spark master at '{master}'")
+            if "Initial job has not accepted any resources" in error_msg:
+                return (False,
+                    f"Workers not accepting tasks at '{master}'.\n"
+                    f"Check: spark.driver.host is set correctly for your network topology"
+                )
+            return (False, f"Standalone connection failed: {e}")
+    def get_cluster_info(self) -> Dict[str, Any]:
+        """
+        Get information about the standalone cluster configuration.
+        :returns: Dictionary with cluster metadata
+        """
+        return {
+            "platform": "standalone",
+            "master": self.config.get("master", "unknown"),
+            "executor_instances": self.config.get("spark.executor.instances", "dynamic"),
+            "executor_memory": self.config.get("spark.executor.memory", "default"),
+            "executor_cores": self.config.get("spark.executor.cores", "default"),
+        }

dbt/config/__init__.py ADDED Viewed

@@ -0,0 +1,4 @@
+# all these are just exports, they need "noqa" so flake8 will not complain.
+from .profile import Profile  # noqa
+from .project import IsFQNResource, PartialProject, Project  # noqa
+from .runtime import RuntimeConfig  # noqa