PyPI - batch-analytics - Versions diffs - 0.3.0__tar.gz → 0.3.1__tar.gz - Mend

batch-analytics 0.3.0tar.gz → 0.3.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

{batch_analytics-0.3.0 → batch_analytics-0.3.1}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: batch-analytics
-Version: 0.3.0
+Version: 0.3.1
 Summary: PySpark batch analytics: Extract, Transform, Stage, and analytical modules (linear regression, correlation, PCA, t-test).
 Author: Litewave Analytics Team
 License: MIT

{batch_analytics-0.3.0 → batch_analytics-0.3.1}/pyproject.toml RENAMED Viewed

@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "batch-analytics"
-version = "0.3.0"
+version = "0.3.1"
 description = "PySpark batch analytics: Extract, Transform, Stage, and analytical modules (linear regression, correlation, PCA, t-test)."
 readme = "README.md"
 requires-python = ">=3.8"

{batch_analytics-0.3.0 → batch_analytics-0.3.1}/src/batch_analytics/job_runner.py RENAMED Viewed

@@ -13,7 +13,7 @@ from typing import Dict, List, Optional
 from pyspark.sql import SparkSession
-from .config import BatchAnalyticsConfig, SparkK8sConfig
+from .config import BatchAnalyticsConfig
 from .extract import extract_unified
 from .log import log_dataframe_summary, log_run
 from .modules import DEFAULT_MODULES, MODULE_REGISTRY, VALID_MODULES
@@ -27,19 +27,33 @@ logging.basicConfig(
 logger = logging.getLogger(__name__)
-def _spark_on_kubernetes_for_classpath(cfg: SparkK8sConfig) -> bool:
+def _omit_spark_distrib_jars(jar_list: List[str]) -> List[str]:
     """
-    True when Spark executors run on Kubernetes.
+    Drop paths under $SPARK_HOME/jars from spark.jars.
-    Spark Operator cluster mode passes --master k8s://... to spark-submit; SPARK_MASTER is often
-    unset, so SparkK8sConfig.master defaults to local[*] while the JVM still uses Kubernetes.
-    Image-baked JARs must go on extraClassPath in that case (spark.jars breaks executors).
+    Those JARs are already on the driver and executor JVM classpath (Spark launch scripts add
+    $SPARK_HOME/jars/*). Listing them again in spark.jars makes Spark distribute them to executors
+    as ./basename.jar and breaks Kubernetes executors.
     """
-    if cfg.master.startswith("k8s://"):
-        return True
-    if os.environ.get("SPARK_MASTER", "").strip().startswith("k8s://"):
-        return True
-    return bool(os.environ.get("KUBERNETES_SERVICE_HOST"))
+    spark_home = os.environ.get("SPARK_HOME", "/opt/spark").rstrip("/")
+    prefix = f"{spark_home}/jars/"
+    out: List[str] = []
+    skipped: List[str] = []
+    for p in jar_list:
+        p = p.strip()
+        if not p:
+            continue
+        if p.startswith(prefix) and p.endswith(".jar"):
+            skipped.append(p)
+        else:
+            out.append(p)
+    if skipped:
+        logger.info(
+            "Omitting spark.jars for JARs already on Spark classpath (%s): %s",
+            prefix,
+            ",".join(skipped),
+        )
+    return out
 def create_spark_session(
@@ -79,36 +93,7 @@ def create_spark_session(
             else:
                 packages.append(part)
-    if _spark_on_kubernetes_for_classpath(cfg):
-        packages.append("org.apache.hadoop:hadoop-aws:3.3.4")
-    # Spark-on-K8s: absolute paths in spark.jars are re-sent to executors as ./basename.jar and
-    # fail there ("Unable to create executor due to ./clickhouse-spark-runtime-..."). JARs baked
-    # into the driver/executor image belong on the JVM classpath instead.
-    if _spark_on_kubernetes_for_classpath(cfg) and jar_list:
-        local_cp: List[str] = []
-        remote_jars: List[str] = []
-        for p in jar_list:
-            p = p.strip()
-            if not p:
-                continue
-            if p.startswith("/") and p.endswith(".jar"):
-                local_cp.append(p)
-            else:
-                remote_jars.append(p)
-        if local_cp:
-            joined = ":".join(local_cp)
-            logger.info(
-                "Spark on Kubernetes: image JARs on driver/executor extraClassPath (not spark.jars): %s",
-                joined,
-            )
-            builder = (
-                builder.config("spark.driver.extraClassPath", joined)
-                .config("spark.executor.extraClassPath", joined)
-                .config("spark.kubernetes.driver.extraClassPath", joined)
-                .config("spark.kubernetes.executor.extraClassPath", joined)
-            )
-        jar_list = remote_jars
+    jar_list = _omit_spark_distrib_jars(jar_list)
     if jar_list:
         builder = builder.config("spark.jars", ",".join(jar_list))

{batch_analytics-0.3.0 → batch_analytics-0.3.1}/src/batch_analytics.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: batch-analytics
-Version: 0.3.0
+Version: 0.3.1
 Summary: PySpark batch analytics: Extract, Transform, Stage, and analytical modules (linear regression, correlation, PCA, t-test).
 Author: Litewave Analytics Team
 License: MIT