PyPI - dvt-core - Versions diffs - 0.52.2__cp310-cp310-macosx_10_9_x86_64.whl - Mend

dvt-core 0.52.2__cp310-cp310-macosx_10_9_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of dvt-core might be problematic. Click here for more details.

Files changed (275) hide show

dbt/__init__.py +7 -0
dbt/_pydantic_shim.py +26 -0
dbt/artifacts/__init__.py +0 -0
dbt/artifacts/exceptions/__init__.py +1 -0
dbt/artifacts/exceptions/schemas.py +31 -0
dbt/artifacts/resources/__init__.py +116 -0
dbt/artifacts/resources/base.py +67 -0
dbt/artifacts/resources/types.py +93 -0
dbt/artifacts/resources/v1/analysis.py +10 -0
dbt/artifacts/resources/v1/catalog.py +23 -0
dbt/artifacts/resources/v1/components.py +274 -0
dbt/artifacts/resources/v1/config.py +277 -0
dbt/artifacts/resources/v1/documentation.py +11 -0
dbt/artifacts/resources/v1/exposure.py +51 -0
dbt/artifacts/resources/v1/function.py +52 -0
dbt/artifacts/resources/v1/generic_test.py +31 -0
dbt/artifacts/resources/v1/group.py +21 -0
dbt/artifacts/resources/v1/hook.py +11 -0
dbt/artifacts/resources/v1/macro.py +29 -0
dbt/artifacts/resources/v1/metric.py +172 -0
dbt/artifacts/resources/v1/model.py +145 -0
dbt/artifacts/resources/v1/owner.py +10 -0
dbt/artifacts/resources/v1/saved_query.py +111 -0
dbt/artifacts/resources/v1/seed.py +41 -0
dbt/artifacts/resources/v1/semantic_layer_components.py +72 -0
dbt/artifacts/resources/v1/semantic_model.py +314 -0
dbt/artifacts/resources/v1/singular_test.py +14 -0
dbt/artifacts/resources/v1/snapshot.py +91 -0
dbt/artifacts/resources/v1/source_definition.py +84 -0
dbt/artifacts/resources/v1/sql_operation.py +10 -0
dbt/artifacts/resources/v1/unit_test_definition.py +77 -0
dbt/artifacts/schemas/__init__.py +0 -0
dbt/artifacts/schemas/base.py +191 -0
dbt/artifacts/schemas/batch_results.py +24 -0
dbt/artifacts/schemas/catalog/__init__.py +11 -0
dbt/artifacts/schemas/catalog/v1/__init__.py +0 -0
dbt/artifacts/schemas/catalog/v1/catalog.py +59 -0
dbt/artifacts/schemas/freshness/__init__.py +1 -0
dbt/artifacts/schemas/freshness/v3/__init__.py +0 -0
dbt/artifacts/schemas/freshness/v3/freshness.py +158 -0
dbt/artifacts/schemas/manifest/__init__.py +2 -0
dbt/artifacts/schemas/manifest/v12/__init__.py +0 -0
dbt/artifacts/schemas/manifest/v12/manifest.py +211 -0
dbt/artifacts/schemas/results.py +147 -0
dbt/artifacts/schemas/run/__init__.py +2 -0
dbt/artifacts/schemas/run/v5/__init__.py +0 -0
dbt/artifacts/schemas/run/v5/run.py +184 -0
dbt/artifacts/schemas/upgrades/__init__.py +4 -0
dbt/artifacts/schemas/upgrades/upgrade_manifest.py +174 -0
dbt/artifacts/schemas/upgrades/upgrade_manifest_dbt_version.py +2 -0
dbt/artifacts/utils/validation.py +153 -0
dbt/cli/__init__.py +1 -0
dbt/cli/context.py +17 -0
dbt/cli/exceptions.py +57 -0
dbt/cli/flags.py +560 -0
dbt/cli/main.py +2039 -0
dbt/cli/option_types.py +121 -0
dbt/cli/options.py +80 -0
dbt/cli/params.py +804 -0
dbt/cli/requires.py +490 -0
dbt/cli/resolvers.py +50 -0
dbt/cli/types.py +40 -0
dbt/clients/__init__.py +0 -0
dbt/clients/checked_load.py +83 -0
dbt/clients/git.py +164 -0
dbt/clients/jinja.py +206 -0
dbt/clients/jinja_static.py +245 -0
dbt/clients/registry.py +192 -0
dbt/clients/yaml_helper.py +68 -0
dbt/compilation.py +876 -0
dbt/compute/__init__.py +14 -0
dbt/compute/engines/__init__.py +12 -0
dbt/compute/engines/spark_engine.py +624 -0
dbt/compute/federated_executor.py +837 -0
dbt/compute/filter_pushdown.cpython-310-darwin.so +0 -0
dbt/compute/filter_pushdown.py +273 -0
dbt/compute/jar_provisioning.cpython-310-darwin.so +0 -0
dbt/compute/jar_provisioning.py +255 -0
dbt/compute/java_compat.cpython-310-darwin.so +0 -0
dbt/compute/java_compat.py +689 -0
dbt/compute/jdbc_utils.cpython-310-darwin.so +0 -0
dbt/compute/jdbc_utils.py +678 -0
dbt/compute/smart_selector.cpython-310-darwin.so +0 -0
dbt/compute/smart_selector.py +311 -0
dbt/compute/strategies/__init__.py +54 -0
dbt/compute/strategies/base.py +165 -0
dbt/compute/strategies/dataproc.py +207 -0
dbt/compute/strategies/emr.py +203 -0
dbt/compute/strategies/local.py +364 -0
dbt/compute/strategies/standalone.py +262 -0
dbt/config/__init__.py +4 -0
dbt/config/catalogs.py +94 -0
dbt/config/compute.cpython-310-darwin.so +0 -0
dbt/config/compute.py +547 -0
dbt/config/dvt_profile.cpython-310-darwin.so +0 -0
dbt/config/dvt_profile.py +342 -0
dbt/config/profile.py +422 -0
dbt/config/project.py +873 -0
dbt/config/project_utils.py +28 -0
dbt/config/renderer.py +231 -0
dbt/config/runtime.py +553 -0
dbt/config/selectors.py +208 -0
dbt/config/utils.py +77 -0
dbt/constants.py +28 -0
dbt/context/__init__.py +0 -0
dbt/context/base.py +745 -0
dbt/context/configured.py +135 -0
dbt/context/context_config.py +382 -0
dbt/context/docs.py +82 -0
dbt/context/exceptions_jinja.py +178 -0
dbt/context/macro_resolver.py +195 -0
dbt/context/macros.py +171 -0
dbt/context/manifest.py +72 -0
dbt/context/providers.py +2249 -0
dbt/context/query_header.py +13 -0
dbt/context/secret.py +58 -0
dbt/context/target.py +74 -0
dbt/contracts/__init__.py +0 -0
dbt/contracts/files.py +413 -0
dbt/contracts/graph/__init__.py +0 -0
dbt/contracts/graph/manifest.py +1904 -0
dbt/contracts/graph/metrics.py +97 -0
dbt/contracts/graph/model_config.py +70 -0
dbt/contracts/graph/node_args.py +42 -0
dbt/contracts/graph/nodes.py +1806 -0
dbt/contracts/graph/semantic_manifest.py +232 -0
dbt/contracts/graph/unparsed.py +811 -0
dbt/contracts/project.py +417 -0
dbt/contracts/results.py +53 -0
dbt/contracts/selection.py +23 -0
dbt/contracts/sql.py +85 -0
dbt/contracts/state.py +68 -0
dbt/contracts/util.py +46 -0
dbt/deprecations.py +346 -0
dbt/deps/__init__.py +0 -0
dbt/deps/base.py +152 -0
dbt/deps/git.py +195 -0
dbt/deps/local.py +79 -0
dbt/deps/registry.py +130 -0
dbt/deps/resolver.py +149 -0
dbt/deps/tarball.py +120 -0
dbt/docs/source/_ext/dbt_click.py +119 -0
dbt/docs/source/conf.py +32 -0
dbt/env_vars.py +64 -0
dbt/event_time/event_time.py +40 -0
dbt/event_time/sample_window.py +60 -0
dbt/events/__init__.py +15 -0
dbt/events/base_types.py +36 -0
dbt/events/core_types_pb2.py +2 -0
dbt/events/logging.py +108 -0
dbt/events/types.py +2516 -0
dbt/exceptions.py +1486 -0
dbt/flags.py +89 -0
dbt/graph/__init__.py +11 -0
dbt/graph/cli.py +247 -0
dbt/graph/graph.py +172 -0
dbt/graph/queue.py +214 -0
dbt/graph/selector.py +374 -0
dbt/graph/selector_methods.py +975 -0
dbt/graph/selector_spec.py +222 -0
dbt/graph/thread_pool.py +18 -0
dbt/hooks.py +21 -0
dbt/include/README.md +49 -0
dbt/include/__init__.py +3 -0
dbt/include/starter_project/.gitignore +4 -0
dbt/include/starter_project/README.md +15 -0
dbt/include/starter_project/__init__.py +3 -0
dbt/include/starter_project/analyses/.gitkeep +0 -0
dbt/include/starter_project/dbt_project.yml +36 -0
dbt/include/starter_project/macros/.gitkeep +0 -0
dbt/include/starter_project/models/example/my_first_dbt_model.sql +27 -0
dbt/include/starter_project/models/example/my_second_dbt_model.sql +6 -0
dbt/include/starter_project/models/example/schema.yml +21 -0
dbt/include/starter_project/seeds/.gitkeep +0 -0
dbt/include/starter_project/snapshots/.gitkeep +0 -0
dbt/include/starter_project/tests/.gitkeep +0 -0
dbt/internal_deprecations.py +26 -0
dbt/jsonschemas/__init__.py +3 -0
dbt/jsonschemas/jsonschemas.py +309 -0
dbt/jsonschemas/project/0.0.110.json +4717 -0
dbt/jsonschemas/project/0.0.85.json +2015 -0
dbt/jsonschemas/resources/0.0.110.json +2636 -0
dbt/jsonschemas/resources/0.0.85.json +2536 -0
dbt/jsonschemas/resources/latest.json +6773 -0
dbt/links.py +4 -0
dbt/materializations/__init__.py +0 -0
dbt/materializations/incremental/__init__.py +0 -0
dbt/materializations/incremental/microbatch.py +236 -0
dbt/mp_context.py +8 -0
dbt/node_types.py +37 -0
dbt/parser/__init__.py +23 -0
dbt/parser/analysis.py +21 -0
dbt/parser/base.py +548 -0
dbt/parser/common.py +266 -0
dbt/parser/docs.py +52 -0
dbt/parser/fixtures.py +51 -0
dbt/parser/functions.py +30 -0
dbt/parser/generic_test.py +100 -0
dbt/parser/generic_test_builders.py +333 -0
dbt/parser/hooks.py +118 -0
dbt/parser/macros.py +137 -0
dbt/parser/manifest.py +2204 -0
dbt/parser/models.py +573 -0
dbt/parser/partial.py +1178 -0
dbt/parser/read_files.py +445 -0
dbt/parser/schema_generic_tests.py +422 -0
dbt/parser/schema_renderer.py +111 -0
dbt/parser/schema_yaml_readers.py +935 -0
dbt/parser/schemas.py +1466 -0
dbt/parser/search.py +149 -0
dbt/parser/seeds.py +28 -0
dbt/parser/singular_test.py +20 -0
dbt/parser/snapshots.py +44 -0
dbt/parser/sources.py +558 -0
dbt/parser/sql.py +62 -0
dbt/parser/unit_tests.py +621 -0
dbt/plugins/__init__.py +20 -0
dbt/plugins/contracts.py +9 -0
dbt/plugins/exceptions.py +2 -0
dbt/plugins/manager.py +163 -0
dbt/plugins/manifest.py +21 -0
dbt/profiler.py +20 -0
dbt/py.typed +1 -0
dbt/query_analyzer.cpython-310-darwin.so +0 -0
dbt/query_analyzer.py +410 -0
dbt/runners/__init__.py +2 -0
dbt/runners/exposure_runner.py +7 -0
dbt/runners/no_op_runner.py +45 -0
dbt/runners/saved_query_runner.py +7 -0
dbt/selected_resources.py +8 -0
dbt/task/__init__.py +0 -0
dbt/task/base.py +503 -0
dbt/task/build.py +197 -0
dbt/task/clean.py +56 -0
dbt/task/clone.py +161 -0
dbt/task/compile.py +150 -0
dbt/task/compute.py +454 -0
dbt/task/debug.py +505 -0
dbt/task/deps.py +280 -0
dbt/task/docs/__init__.py +3 -0
dbt/task/docs/generate.py +660 -0
dbt/task/docs/index.html +250 -0
dbt/task/docs/serve.py +29 -0
dbt/task/freshness.py +322 -0
dbt/task/function.py +121 -0
dbt/task/group_lookup.py +46 -0
dbt/task/init.py +553 -0
dbt/task/java.py +316 -0
dbt/task/list.py +236 -0
dbt/task/printer.py +175 -0
dbt/task/retry.py +175 -0
dbt/task/run.py +1306 -0
dbt/task/run_operation.py +141 -0
dbt/task/runnable.py +758 -0
dbt/task/seed.py +103 -0
dbt/task/show.py +149 -0
dbt/task/snapshot.py +56 -0
dbt/task/spark.py +414 -0
dbt/task/sql.py +110 -0
dbt/task/target_sync.py +759 -0
dbt/task/test.py +464 -0
dbt/tests/fixtures/__init__.py +1 -0
dbt/tests/fixtures/project.py +620 -0
dbt/tests/util.py +651 -0
dbt/tracking.py +529 -0
dbt/utils/__init__.py +3 -0
dbt/utils/artifact_upload.py +151 -0
dbt/utils/utils.py +408 -0
dbt/version.py +268 -0
dvt_cli/__init__.py +72 -0
dvt_core-0.52.2.dist-info/METADATA +286 -0
dvt_core-0.52.2.dist-info/RECORD +275 -0
dvt_core-0.52.2.dist-info/WHEEL +5 -0
dvt_core-0.52.2.dist-info/entry_points.txt +2 -0
dvt_core-0.52.2.dist-info/top_level.txt +2 -0

dbt/compute/jdbc_utils.py ADDED Viewed

@@ -0,0 +1,678 @@
+"""
+JDBC Utilities for Spark Engine
+Provides utilities for converting dbt adapter credentials to JDBC configurations
+and helpers for optimizing parallel reads via partitioning.
+This module enables DVT to bypass memory bottlenecks by using Spark JDBC connectors
+to read data directly from source databases into Spark workers (distributed).
+Architecture:
+- Maps adapter credentials → JDBC URL + properties
+- Auto-detects optimal partition columns for parallel reads
+- Estimates partition bounds for efficient data distribution
+"""
+from typing import Dict, Optional, Tuple
+from dbt.adapters.base import BaseAdapter
+from dbt.adapters.contracts.connection import Credentials
+from dbt_common.exceptions import DbtRuntimeError
+# JDBC driver class mapping for database types
+# DVT v0.5.9: Complete support for all dbt adapters with JDBC connectivity
+JDBC_DRIVER_MAPPING = {
+    # ============================================================
+    # Cloud Data Warehouses
+    # ============================================================
+    "postgres": "org.postgresql.Driver",
+    "postgresql": "org.postgresql.Driver",
+    "snowflake": "net.snowflake.client.jdbc.SnowflakeDriver",
+    "bigquery": "com.simba.googlebigquery.jdbc.Driver",
+    "redshift": "com.amazon.redshift.jdbc.Driver",
+    "databricks": "com.databricks.client.jdbc.Driver",
+    "firebolt": "com.firebolt.FireboltDriver",
+    # ============================================================
+    # Microsoft Ecosystem (all use same JDBC driver)
+    # ============================================================
+    "sqlserver": "com.microsoft.sqlserver.jdbc.SQLServerDriver",
+    "mssql": "com.microsoft.sqlserver.jdbc.SQLServerDriver",
+    "fabric": "com.microsoft.sqlserver.jdbc.SQLServerDriver",
+    "synapse": "com.microsoft.sqlserver.jdbc.SQLServerDriver",
+    # ============================================================
+    # Enterprise Data Warehouses
+    # ============================================================
+    "oracle": "oracle.jdbc.OracleDriver",
+    "db2": "com.ibm.db2.jcc.DB2Driver",
+    "teradata": "com.teradata.jdbc.TeraDriver",
+    "exasol": "com.exasol.jdbc.EXADriver",
+    "vertica": "com.vertica.jdbc.Driver",
+    # ============================================================
+    # SQL Engines & Query Platforms
+    # ============================================================
+    "spark": "org.apache.hive.jdbc.HiveDriver",
+    "trino": "io.trino.jdbc.TrinoDriver",
+    "presto": "io.prestosql.jdbc.PrestoDriver",
+    "athena": "com.simba.athena.jdbc.Driver",
+    "hive": "org.apache.hive.jdbc.HiveDriver",
+    "impala": "com.cloudera.impala.jdbc.Driver",
+    "dremio": "com.dremio.jdbc.Driver",
+    "glue": "com.amazonaws.glue.sql.jdbc.Driver",
+    # ============================================================
+    # Open Source Databases
+    # ============================================================
+    "mysql": "com.mysql.cj.jdbc.Driver",
+    "mariadb": "org.mariadb.jdbc.Driver",
+    "sqlite": "org.sqlite.JDBC",
+    "duckdb": "org.duckdb.DuckDBDriver",
+    "cratedb": "io.crate.client.jdbc.CrateDriver",
+    # ============================================================
+    # OLAP & Analytics Databases
+    # ============================================================
+    "clickhouse": "com.clickhouse.jdbc.ClickHouseDriver",
+    "singlestore": "com.singlestore.jdbc.Driver",
+    "starrocks": "com.mysql.cj.jdbc.Driver",  # StarRocks uses MySQL protocol
+    "doris": "com.mysql.cj.jdbc.Driver",  # Apache Doris uses MySQL protocol
+    "greenplum": "org.postgresql.Driver",  # Greenplum uses PostgreSQL protocol
+    "monetdb": "org.monetdb.jdbc.MonetDriver",
+    # ============================================================
+    # Time-Series & Streaming
+    # ============================================================
+    "timescaledb": "org.postgresql.Driver",  # TimescaleDB uses PostgreSQL
+    "questdb": "org.postgresql.Driver",  # QuestDB supports PostgreSQL wire protocol
+    "materialize": "org.postgresql.Driver",  # Materialize uses PostgreSQL wire protocol
+    "rockset": "com.rockset.jdbc.RocksetDriver",
+    # ============================================================
+    # Graph & Multi-Model
+    # ============================================================
+    "neo4j": "org.neo4j.Driver",
+    # ============================================================
+    # Data Lake Formats (via Spark connectors)
+    # ============================================================
+    "delta": "org.apache.hive.jdbc.HiveDriver",  # Delta Lake via Spark
+    "iceberg": "org.apache.hive.jdbc.HiveDriver",  # Apache Iceberg via Spark
+    "hudi": "org.apache.hive.jdbc.HiveDriver",  # Apache Hudi via Spark
+    # ============================================================
+    # AlloyDB (Google - PostgreSQL compatible)
+    # ============================================================
+    "alloydb": "org.postgresql.Driver",  # AlloyDB is PostgreSQL-compatible
+}
+def _rewrite_localhost_for_docker(jdbc_url: str) -> str:
+    """
+    Rewrite localhost/127.0.0.1 to host.docker.internal for Docker Spark clusters.
+    DVT v0.51.8: When using Docker-based Spark clusters, workers inside containers
+    need host.docker.internal to reach the host machine. With host.docker.internal
+    also added to the host's /etc/hosts (pointing to 127.0.0.1), the same JDBC URL
+    works for both driver (on host) and workers (in containers).
+    :param jdbc_url: Original JDBC URL
+    :returns: JDBC URL with localhost replaced by host.docker.internal
+    """
+    import re
+    # Replace localhost or 127.0.0.1 with host.docker.internal
+    url = re.sub(r'//localhost([:/?])', r'//host.docker.internal\1', jdbc_url)
+    url = re.sub(r'//127\.0\.0\.1([:/?])', r'//host.docker.internal\1', url)
+    return url
+# Global flag to enable Docker JDBC URL rewriting
+_docker_mode_enabled = False
+def set_docker_mode(enabled: bool) -> None:
+    """Enable or disable Docker mode for JDBC URL rewriting."""
+    global _docker_mode_enabled
+    _docker_mode_enabled = enabled
+def build_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """
+    Build JDBC configuration from dbt adapter credentials.
+    Converts adapter-specific credentials to JDBC URL and connection properties
+    that can be used by Spark JDBC connectors.
+    :param credentials: dbt adapter credentials object
+    :returns: Tuple of (jdbc_url, jdbc_properties)
+    :raises DbtRuntimeError: If adapter type is not supported or credentials are invalid
+    Example:
+        >>> from dbt.adapters.postgres import PostgresCredentials
+        >>> creds = PostgresCredentials(
+        ...     host="localhost",
+        ...     port=5432,
+        ...     user="analytics",
+        ...     password="secret",
+        ...     database="warehouse",
+        ...     schema="public"
+        ... )
+        >>> url, props = build_jdbc_config(creds)
+        >>> print(url)
+        jdbc:postgresql://localhost:5432/warehouse
+        >>> print(props)
+        {'user': 'analytics', 'password': 'secret', 'driver': 'org.postgresql.Driver'}
+    """
+    adapter_type = credentials.type.lower()
+    # Check if adapter type is supported
+    if adapter_type not in JDBC_DRIVER_MAPPING:
+        raise DbtRuntimeError(
+            f"JDBC connectivity not supported for adapter type '{adapter_type}'. "
+            f"Supported types: {', '.join(JDBC_DRIVER_MAPPING.keys())}"
+        )
+    # Build JDBC URL and properties based on adapter type
+    if adapter_type in ("postgres", "postgresql"):
+        jdbc_url, jdbc_props = _build_postgres_jdbc_config(credentials)
+    elif adapter_type == "mysql":
+        jdbc_url, jdbc_props = _build_mysql_jdbc_config(credentials)
+    elif adapter_type == "snowflake":
+        jdbc_url, jdbc_props = _build_snowflake_jdbc_config(credentials)
+    elif adapter_type == "redshift":
+        jdbc_url, jdbc_props = _build_redshift_jdbc_config(credentials)
+    elif adapter_type == "bigquery":
+        jdbc_url, jdbc_props = _build_bigquery_jdbc_config(credentials)
+    elif adapter_type in ("sqlserver", "mssql"):
+        jdbc_url, jdbc_props = _build_sqlserver_jdbc_config(credentials)
+    elif adapter_type == "oracle":
+        jdbc_url, jdbc_props = _build_oracle_jdbc_config(credentials)
+    elif adapter_type == "databricks":
+        jdbc_url, jdbc_props = _build_databricks_jdbc_config(credentials)
+    else:
+        raise DbtRuntimeError(
+            f"JDBC configuration builder not implemented for adapter type '{adapter_type}'"
+        )
+    # DVT v0.51.8: Rewrite localhost URLs for Docker Spark clusters
+    if _docker_mode_enabled:
+        jdbc_url = _rewrite_localhost_for_docker(jdbc_url)
+    return jdbc_url, jdbc_props
+def _build_postgres_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for PostgreSQL."""
+    creds_dict = credentials.to_dict()
+    host = creds_dict.get("host", "localhost")
+    port = creds_dict.get("port", 5432)
+    database = creds_dict.get("database")
+    user = creds_dict.get("user")
+    password = creds_dict.get("password", "")
+    if not database:
+        raise DbtRuntimeError("PostgreSQL credentials missing required field: database")
+    if not user:
+        raise DbtRuntimeError("PostgreSQL credentials missing required field: user")
+    jdbc_url = f"jdbc:postgresql://{host}:{port}/{database}"
+    jdbc_properties = {
+        "user": user,
+        "password": password,
+        "driver": JDBC_DRIVER_MAPPING["postgres"],
+    }
+    # Optional: Add SSL configuration if present
+    if creds_dict.get("sslmode"):
+        jdbc_properties["ssl"] = "true" if creds_dict["sslmode"] != "disable" else "false"
+    return jdbc_url, jdbc_properties
+def _build_mysql_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for MySQL."""
+    creds_dict = credentials.to_dict()
+    host = creds_dict.get("host", "localhost")
+    port = creds_dict.get("port", 3306)
+    database = creds_dict.get("database")
+    user = creds_dict.get("user")
+    password = creds_dict.get("password", "")
+    if not database:
+        raise DbtRuntimeError("MySQL credentials missing required field: database")
+    if not user:
+        raise DbtRuntimeError("MySQL credentials missing required field: user")
+    jdbc_url = f"jdbc:mysql://{host}:{port}/{database}"
+    jdbc_properties = {
+        "user": user,
+        "password": password,
+        "driver": JDBC_DRIVER_MAPPING["mysql"],
+    }
+    return jdbc_url, jdbc_properties
+def _build_snowflake_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for Snowflake."""
+    creds_dict = credentials.to_dict()
+    account = creds_dict.get("account")
+    user = creds_dict.get("user")
+    password = creds_dict.get("password", "")
+    database = creds_dict.get("database")
+    warehouse = creds_dict.get("warehouse")
+    schema = creds_dict.get("schema", "public")
+    if not account:
+        raise DbtRuntimeError("Snowflake credentials missing required field: account")
+    if not user:
+        raise DbtRuntimeError("Snowflake credentials missing required field: user")
+    # Snowflake JDBC URL format with Arrow disabled via URL parameter
+    # This is more reliable than JDBC properties for Snowflake driver
+    jdbc_url = f"jdbc:snowflake://{account}.snowflakecomputing.com/?JDBC_QUERY_RESULT_FORMAT=JSON"
+    jdbc_properties = {
+        "user": user,
+        "password": password,
+        "driver": JDBC_DRIVER_MAPPING["snowflake"],
+        # CRITICAL FIX v0.4.4: Disable Arrow format to avoid Java 21 module access errors
+        # Property must be uppercase and set in BOTH URL and properties for reliability
+        "JDBC_QUERY_RESULT_FORMAT": "JSON",
+        "jdbc_query_result_format": "json",  # Lowercase variant for compatibility
+        # Additional Snowflake-specific optimizations
+        "JDBC_USE_SESSION_TIMEZONE": "false",  # Use UTC for consistency
+    }
+    # Add optional properties
+    if database:
+        jdbc_properties["db"] = database
+    if warehouse:
+        jdbc_properties["warehouse"] = warehouse
+    if schema:
+        jdbc_properties["schema"] = schema
+    return jdbc_url, jdbc_properties
+def _build_redshift_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for Amazon Redshift."""
+    creds_dict = credentials.to_dict()
+    host = creds_dict.get("host")
+    port = creds_dict.get("port", 5439)
+    database = creds_dict.get("database")
+    user = creds_dict.get("user")
+    password = creds_dict.get("password", "")
+    if not host:
+        raise DbtRuntimeError("Redshift credentials missing required field: host")
+    if not database:
+        raise DbtRuntimeError("Redshift credentials missing required field: database")
+    if not user:
+        raise DbtRuntimeError("Redshift credentials missing required field: user")
+    jdbc_url = f"jdbc:redshift://{host}:{port}/{database}"
+    jdbc_properties = {
+        "user": user,
+        "password": password,
+        "driver": JDBC_DRIVER_MAPPING["redshift"],
+    }
+    return jdbc_url, jdbc_properties
+def _build_bigquery_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for Google BigQuery."""
+    creds_dict = credentials.to_dict()
+    project = creds_dict.get("project")
+    dataset = creds_dict.get("dataset") or creds_dict.get("schema")
+    if not project:
+        raise DbtRuntimeError("BigQuery credentials missing required field: project")
+    # BigQuery JDBC URL format
+    jdbc_url = "jdbc:bigquery://https://www.googleapis.com/bigquery/v2:443"
+    jdbc_properties = {
+        "ProjectId": project,
+        "driver": JDBC_DRIVER_MAPPING["bigquery"],
+    }
+    if dataset:
+        jdbc_properties["DefaultDataset"] = dataset
+    # Handle authentication
+    # BigQuery typically uses service account JSON or OAuth
+    if creds_dict.get("keyfile"):
+        jdbc_properties["OAuthType"] = "0"  # Service account
+        jdbc_properties["OAuthServiceAcctEmail"] = creds_dict.get("client_email", "")
+        jdbc_properties["OAuthPvtKeyPath"] = creds_dict["keyfile"]
+    return jdbc_url, jdbc_properties
+def _build_sqlserver_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for Microsoft SQL Server."""
+    creds_dict = credentials.to_dict()
+    host = creds_dict.get("host", "localhost")
+    port = creds_dict.get("port", 1433)
+    database = creds_dict.get("database")
+    user = creds_dict.get("user")
+    password = creds_dict.get("password", "")
+    if not database:
+        raise DbtRuntimeError("SQL Server credentials missing required field: database")
+    if not user:
+        raise DbtRuntimeError("SQL Server credentials missing required field: user")
+    jdbc_url = f"jdbc:sqlserver://{host}:{port};databaseName={database}"
+    jdbc_properties = {
+        "user": user,
+        "password": password,
+        "driver": JDBC_DRIVER_MAPPING["sqlserver"],
+    }
+    return jdbc_url, jdbc_properties
+def _build_oracle_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """Build JDBC config for Oracle Database."""
+    creds_dict = credentials.to_dict()
+    host = creds_dict.get("host", "localhost")
+    port = creds_dict.get("port", 1521)
+    database = creds_dict.get("database") or creds_dict.get("service_name")
+    user = creds_dict.get("user")
+    password = creds_dict.get("password", "")
+    if not database:
+        raise DbtRuntimeError("Oracle credentials missing required field: database/service_name")
+    if not user:
+        raise DbtRuntimeError("Oracle credentials missing required field: user")
+    # Oracle thin driver format
+    jdbc_url = f"jdbc:oracle:thin:@{host}:{port}:{database}"
+    jdbc_properties = {
+        "user": user,
+        "password": password,
+        "driver": JDBC_DRIVER_MAPPING["oracle"],
+    }
+    return jdbc_url, jdbc_properties
+def _build_databricks_jdbc_config(credentials: Credentials) -> Tuple[str, Dict[str, str]]:
+    """
+    Build JDBC config for Databricks SQL Warehouse or Cluster.
+    DVT v0.51.5: Added support for Databricks JDBC connectivity.
+    Databricks JDBC URL format:
+    jdbc:databricks://<host>:443/default;transportMode=http;ssl=1;httpPath=<http_path>;AuthMech=3;
+    The dbt-databricks adapter credentials include:
+    - host: Databricks workspace URL (e.g., dbc-xxxxx.cloud.databricks.com)
+    - http_path: SQL warehouse or cluster HTTP path
+    - token: Personal access token for authentication
+    - catalog: Unity Catalog name (optional)
+    - schema: Default schema (optional)
+    """
+    creds_dict = credentials.to_dict()
+    host = creds_dict.get("host")
+    http_path = creds_dict.get("http_path")
+    token = creds_dict.get("token")
+    catalog = creds_dict.get("catalog", "hive_metastore")
+    schema = creds_dict.get("schema", "default")
+    if not host:
+        raise DbtRuntimeError("Databricks credentials missing required field: host")
+    if not http_path:
+        raise DbtRuntimeError("Databricks credentials missing required field: http_path")
+    if not token:
+        raise DbtRuntimeError("Databricks credentials missing required field: token")
+    # Build Databricks JDBC URL
+    # Format: jdbc:databricks://<host>:443/<catalog>;transportMode=http;ssl=1;httpPath=<http_path>;AuthMech=3;
+    jdbc_url = (
+        f"jdbc:databricks://{host}:443/{catalog};"
+        f"transportMode=http;ssl=1;httpPath={http_path};AuthMech=3"
+    )
+    jdbc_properties = {
+        "UID": "token",  # Databricks uses "token" as username for PAT auth
+        "PWD": token,
+        "driver": JDBC_DRIVER_MAPPING["databricks"],
+    }
+    return jdbc_url, jdbc_properties
+def auto_detect_partition_column(adapter: BaseAdapter, schema: str, table: str) -> Optional[str]:
+    """
+    Auto-detect the best column for partitioning parallel JDBC reads.
+    Queries table metadata to find a suitable partition column. Prioritizes:
+    1. Primary key columns (single column PKs only)
+    2. Columns named 'id' or ending with '_id'
+    3. Timestamp/date columns
+    4. Integer columns
+    :param adapter: dbt adapter to use for querying metadata
+    :param schema: Schema/dataset name
+    :param table: Table name
+    :returns: Column name suitable for partitioning, or None if not found
+    Example:
+        >>> column = auto_detect_partition_column(adapter, "public", "users")
+        >>> if column:
+        ...     print(f"Using {column} for partitioning")
+        ... else:
+        ...     print("No suitable partition column found")
+    """
+    try:
+        # Strategy 1: Check for primary key
+        pk_column = _get_primary_key_column(adapter, schema, table)
+        if pk_column:
+            return pk_column
+        # Strategy 2: Get all columns and look for ID-like columns
+        columns = _get_table_columns(adapter, schema, table)
+        # Look for ID columns (exact match or suffix)
+        for col_name, col_type in columns:
+            col_name_lower = col_name.lower()
+            if col_name_lower == "id" or col_name_lower.endswith("_id"):
+                # Check if it's an integer type
+                if _is_integer_type(col_type):
+                    return col_name
+        # Strategy 3: Look for timestamp/date columns
+        for col_name, col_type in columns:
+            if _is_timestamp_type(col_type):
+                return col_name
+        # Strategy 4: Look for any integer column
+        for col_name, col_type in columns:
+            if _is_integer_type(col_type):
+                return col_name
+        # No suitable column found
+        return None
+    except Exception:
+        # If metadata query fails, return None (caller can decide to read without partitioning)
+        return None
+def estimate_partition_bounds(
+    adapter: BaseAdapter, schema: str, table: str, column: str
+) -> Tuple[int, int]:
+    """
+    Estimate partition bounds (min/max) for a numeric partition column.
+    Queries the table to get MIN and MAX values of the partition column,
+    which are used by Spark JDBC to distribute reads across workers.
+    :param adapter: dbt adapter to use for querying
+    :param schema: Schema/dataset name
+    :param table: Table name
+    :param column: Partition column name
+    :returns: Tuple of (lower_bound, upper_bound)
+    :raises DbtRuntimeError: If query fails or column is not numeric
+    Example:
+        >>> lower, upper = estimate_partition_bounds(adapter, "public", "orders", "order_id")
+        >>> print(f"Partition range: {lower} to {upper}")
+        Partition range: 1 to 1000000
+    """
+    try:
+        # Build qualified table name
+        qualified_table = f"{schema}.{table}"
+        # Query for min/max
+        sql = f"SELECT MIN({column}) as min_val, MAX({column}) as max_val FROM {qualified_table}"
+        # Execute via adapter
+        response, result_table = adapter.execute(sql, auto_begin=False, fetch=True)
+        if not result_table or len(result_table.rows) == 0:
+            raise DbtRuntimeError(
+                f"Failed to estimate partition bounds for {qualified_table}.{column}: "
+                "Query returned no results"
+            )
+        row = result_table.rows[0]
+        min_val = row[0]
+        max_val = row[1]
+        if min_val is None or max_val is None:
+            raise DbtRuntimeError(
+                f"Failed to estimate partition bounds for {qualified_table}.{column}: "
+                "Column contains only NULL values"
+            )
+        # Convert to integers
+        lower_bound = int(min_val)
+        upper_bound = int(max_val)
+        return lower_bound, upper_bound
+    except Exception as e:
+        raise DbtRuntimeError(
+            f"Failed to estimate partition bounds for {schema}.{table}.{column}: {str(e)}"
+        ) from e
+# Helper functions for metadata queries
+def _get_primary_key_column(adapter: BaseAdapter, schema: str, table: str) -> Optional[str]:
+    """
+    Get primary key column name (if single-column PK exists).
+    Implementation is adapter-specific. Returns None if not implemented
+    or if PK is composite.
+    """
+    adapter_type = adapter.type().lower()
+    try:
+        if adapter_type in ("postgres", "postgresql", "redshift"):
+            # PostgreSQL/Redshift: Query information_schema
+            sql = f"""
+            SELECT a.attname
+            FROM pg_index i
+            JOIN pg_attribute a ON a.attrelid = i.indrelid AND a.attnum = ANY(i.indkey)
+            WHERE i.indrelid = '{schema}.{table}'::regclass
+            AND i.indisprimary
+            """
+            response, result = adapter.execute(sql, auto_begin=False, fetch=True)
+            if result and len(result.rows) == 1:
+                return result.rows[0][0]
+        elif adapter_type == "mysql":
+            # MySQL: Query information_schema
+            sql = f"""
+            SELECT COLUMN_NAME
+            FROM information_schema.KEY_COLUMN_USAGE
+            WHERE TABLE_SCHEMA = '{schema}'
+            AND TABLE_NAME = '{table}'
+            AND CONSTRAINT_NAME = 'PRIMARY'
+            """
+            response, result = adapter.execute(sql, auto_begin=False, fetch=True)
+            if result and len(result.rows) == 1:
+                return result.rows[0][0]
+        # For other adapters or if query fails, return None
+        return None
+    except Exception:
+        return None
+def _get_table_columns(adapter: BaseAdapter, schema: str, table: str) -> list[Tuple[str, str]]:
+    """
+    Get list of (column_name, column_type) for a table.
+    """
+    adapter_type = adapter.type().lower()
+    try:
+        if adapter_type in ("postgres", "postgresql", "redshift"):
+            sql = f"""
+            SELECT column_name, data_type
+            FROM information_schema.columns
+            WHERE table_schema = '{schema}'
+            AND table_name = '{table}'
+            ORDER BY ordinal_position
+            """
+            response, result = adapter.execute(sql, auto_begin=False, fetch=True)
+            return [(row[0], row[1]) for row in result.rows]
+        elif adapter_type == "mysql":
+            sql = f"""
+            SELECT COLUMN_NAME, DATA_TYPE
+            FROM information_schema.COLUMNS
+            WHERE TABLE_SCHEMA = '{schema}'
+            AND TABLE_NAME = '{table}'
+            ORDER BY ORDINAL_POSITION
+            """
+            response, result = adapter.execute(sql, auto_begin=False, fetch=True)
+            return [(row[0], row[1]) for row in result.rows]
+        else:
+            # Fallback: Use LIMIT 0 query to get columns
+            sql = f"SELECT * FROM {schema}.{table} LIMIT 0"
+            response, result = adapter.execute(sql, auto_begin=False, fetch=True)
+            # Return column names with unknown types
+            return [(col, "unknown") for col in result.column_names]
+    except Exception:
+        return []
+def _is_integer_type(sql_type: str) -> bool:
+    """Check if SQL type is an integer type."""
+    sql_type_upper = sql_type.upper()
+    return any(
+        int_type in sql_type_upper
+        for int_type in ["INT", "INTEGER", "BIGINT", "SMALLINT", "SERIAL"]
+    )
+def _is_timestamp_type(sql_type: str) -> bool:
+    """Check if SQL type is a timestamp/date type."""
+    sql_type_upper = sql_type.upper()
+    return any(time_type in sql_type_upper for time_type in ["TIMESTAMP", "DATETIME", "DATE"])

dbt/compute/smart_selector.cpython-310-darwin.so ADDED Viewed

Binary file