PyPI - ygg - Versions diffs - 0.1.60__tar.gz → 0.1.64__tar.gz - Mend

ygg 0.1.60tar.gz → 0.1.64tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (81) hide show

{ygg-0.1.60 → ygg-0.1.64}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: ygg
-Version: 0.1.60
+Version: 0.1.64
 Summary: Type-friendly utilities for moving data between Python objects, Arrow, Polars, Pandas, Spark, and Databricks
 Author: Yggdrasil contributors
 License:                                  Apache License
@@ -207,7 +207,7 @@ License:                                  Apache License
 Project-URL: Homepage, https://github.com/Platob/Yggdrasil
 Project-URL: Repository, https://github.com/Platob/Yggdrasil
-Project-URL: Documentation, https://github.com/Platob/Yggdrasil/tree/main/python/docs
+Project-URL: Documentation, https://github.com/Platob/Yggdrasil
 Keywords: arrow,polars,pandas,spark,databricks,typing,dataclass,serialization
 Classifier: Development Status :: 3 - Alpha
 Classifier: Programming Language :: Python

{ygg-0.1.60 → ygg-0.1.64}/pyproject.toml RENAMED Viewed

@@ -5,7 +5,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "ygg"
-version = "0.1.60"
+version = "0.1.64"
 description = "Type-friendly utilities for moving data between Python objects, Arrow, Polars, Pandas, Spark, and Databricks"
 readme = { file = "README.md", content-type = "text/markdown" }
 license = { file = "LICENSE" }
@@ -51,7 +51,7 @@ yggenv = "yggdrasil.pyutils.python_env:PythonEnv.cli"
 [project.urls]
 Homepage = "https://github.com/Platob/Yggdrasil"
 Repository = "https://github.com/Platob/Yggdrasil"
-Documentation = "https://github.com/Platob/Yggdrasil/tree/main/python/docs"
+Documentation = "https://github.com/Platob/Yggdrasil"
 [tool.setuptools]
 package-dir = { "" = "src" }

{ygg-0.1.60 → ygg-0.1.64}/src/ygg.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: ygg
-Version: 0.1.60
+Version: 0.1.64
 Summary: Type-friendly utilities for moving data between Python objects, Arrow, Polars, Pandas, Spark, and Databricks
 Author: Yggdrasil contributors
 License:                                  Apache License
@@ -207,7 +207,7 @@ License:                                  Apache License
 Project-URL: Homepage, https://github.com/Platob/Yggdrasil
 Project-URL: Repository, https://github.com/Platob/Yggdrasil
-Project-URL: Documentation, https://github.com/Platob/Yggdrasil/tree/main/python/docs
+Project-URL: Documentation, https://github.com/Platob/Yggdrasil
 Keywords: arrow,polars,pandas,spark,databricks,typing,dataclass,serialization
 Classifier: Development Status :: 3 - Alpha
 Classifier: Programming Language :: Python

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/ai/session.py RENAMED Viewed

@@ -5,7 +5,7 @@ from abc import ABC, abstractmethod
 from dataclasses import dataclass, field
 from typing import Dict, List, Optional
-from yggdrasil.types.dummy_class import DummyModuleClass
+from ..types.dummy_class import DummyModuleClass
 try:
     from openai import OpenAI
@@ -19,8 +19,6 @@ __all__ = ["AISession"]
 class AISession(ABC):
     api_key: str
     base_url: str
-    # Gemini default (via OpenAI-compatible gateway)
     model: str = "gemini-2.5-flash"
     client: OpenAI = field(init=False)

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/databricks/sql/engine.py RENAMED Viewed

@@ -17,7 +17,7 @@ import random
 import string
 import time
 from threading import Thread
-from typing import Optional, Union, Any, Dict, List, Literal
+from typing import Optional, Union, Any, Dict, List, Literal, TYPE_CHECKING
 import pyarrow as pa
 import pyarrow.dataset as pds
@@ -26,11 +26,10 @@ from .statement_result import StatementResult
 from .types import column_info_to_arrow_field
 from .warehouse import SQLWarehouse
 from ..workspaces import WorkspaceService, DatabricksPath
-from ...ai.sql_session import SQLAISession, SQLFlavor
 from ...libs.databrickslib import databricks_sdk, DatabricksDummyClass
 from ...libs.sparklib import SparkSession, SparkDataFrame, pyspark
 from ...pyutils.waiting_config import WaitingConfigArg
-from ...types import is_arrow_type_string_like, is_arrow_type_binary_like
+from ...types import is_arrow_type_string_like, is_arrow_type_binary_like, cast_arrow_tabular
 from ...types.cast.cast_options import CastOptions
 from ...types.cast.registry import convert
 from ...types.cast.spark_cast import cast_spark_dataframe
@@ -63,6 +62,10 @@ if pyspark is not None:
     import pyspark.sql.functions as F
+if TYPE_CHECKING:
+    from ...ai.sql_session import SQLAISession, SQLFlavor
 __all__ = [
     "SQLEngine",
     "StatementResult"
@@ -101,7 +104,7 @@ class SQLEngine(WorkspaceService):
     schema_name: Optional[str] = None
     _warehouse: Optional[SQLWarehouse] = dataclasses.field(default=None, repr=False, hash=False, compare=False)
-    _ai_session: Optional[SQLAISession] = dataclasses.field(default=None, repr=False, hash=False, compare=False)
+    _ai_session: Optional["SQLAISession"] = dataclasses.field(default=None, repr=False, hash=False, compare=False)
     def table_full_name(
         self,
@@ -198,8 +201,13 @@ class SQLEngine(WorkspaceService):
     def ai_session(
         self,
         model: str = "databricks-gemini-2-5-pro",
-        flavor: SQLFlavor = SQLFlavor.DATABRICKS
+        flavor: Optional["SQLFlavor"] = None
     ):
+        from ...ai.sql_session import SQLAISession, SQLFlavor
+        if flavor is None:
+            flavor = SQLFlavor.DATABRICKS
         return SQLAISession(
             model=model,
             api_key=self.workspace.current_token(),
@@ -224,7 +232,7 @@ class SQLEngine(WorkspaceService):
         catalog_name: Optional[str] = None,
         schema_name: Optional[str] = None,
         wait: Optional[WaitingConfigArg] = True
-    ) -> "StatementResult":
+    ) -> StatementResult:
         """Execute a SQL statement via Spark or Databricks SQL Statement Execution API.
         Engine resolution:
@@ -504,10 +512,13 @@ class SQLEngine(WorkspaceService):
                             logger.exception("Failed to drop table %s after auto creation error", location)
                         raise
-            data_tbl = convert(
-                data, pa.Table,
-                options=cast_options, target_field=existing_schema
-            )
+            cast_options = CastOptions.check_arg(options=cast_options, target_field=existing_schema)
+            if isinstance(data, (pa.Table, pa.RecordBatch)):
+                data_tbl = cast_arrow_tabular(data, options=cast_options)
+            else:
+                data_tbl = convert(data, pa.Table, options=cast_options)
             num_rows = data_tbl.num_rows
             logger.debug(
@@ -524,7 +535,8 @@ class SQLEngine(WorkspaceService):
                 catalog_name=catalog_name,
                 schema_name=schema_name,
                 volume_name="tmp",
-                extension="parquet"
+                extension="parquet",
+                max_lifetime=3600,
             ) if temp_volume_path is None else DatabricksPath.parse(obj=temp_volume_path, workspace=connected.workspace)
             logger.debug("Staging Parquet to temp volume: %s", temp_volume_path)
@@ -575,7 +587,7 @@ FROM parquet.`{temp_volume_path}`"""
             finally:
                 try:
                     Thread(
-                        target=temp_volume_path.rmdir,
+                        target=temp_volume_path.remove,
                         kwargs={
                             "recursive": True
                         }

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/databricks/sql/warehouse.py RENAMED Viewed

@@ -256,6 +256,7 @@ class SQLWarehouse(WorkspaceService):
         elif self.warehouse_id:
             return self
+        starter_warehouse, starter_name = None, "Serverless Starter Warehouse"
         warehouse_name = warehouse_name or self.warehouse_name or self._make_default_name(enable_serverless_compute=True)
         if warehouse_name:
@@ -284,8 +285,15 @@ class SQLWarehouse(WorkspaceService):
                         warehouse_name=warehouse_name,
                         warehouse_id=warehouse.warehouse_id
                     )
                     return warehouse
+                elif warehouse.warehouse_name == starter_warehouse:
+                    starter_warehouse = warehouse
+        if starter_warehouse is not None:
+            return starter_warehouse
         if raise_error:
             v = warehouse_name or warehouse_id

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/databricks/workspaces/io.py RENAMED Viewed

@@ -3,28 +3,25 @@
 import base64
 import io
 import logging
+import os
 import time
 from abc import ABC, abstractmethod
+from tempfile import SpooledTemporaryFile
 from threading import Thread
-from typing import TYPE_CHECKING, Optional, IO, AnyStr, Union, Any
+from typing import TYPE_CHECKING, Optional, IO, AnyStr, Union, Any, BinaryIO
 import dill
 import pyarrow as pa
 import pyarrow.csv as pcsv
 import pyarrow.parquet as pq
-from pyarrow.dataset import (
-    FileFormat,
-    ParquetFileFormat,
-    CsvFileFormat,
-)
 from .path_kind import DatabricksPathKind
 from ...libs.databrickslib import databricks
 from ...libs.pandaslib import PandasDataFrame
 from ...libs.polarslib import polars, PolarsDataFrame
-from ...pyutils import retry
+from ...pyutils.retry import retry
 from ...types.cast.registry import convert
-from ...types.file_format import ExcelFileFormat
+from ...types.file_format import FileFormat, ParquetFileFormat, CsvFileFormat, ExcelFileFormat
 if databricks is not None:
     from databricks.sdk.service.workspace import ImportFormat, ExportFormat
@@ -45,7 +42,64 @@ __all__ = [
 LOGGER = logging.getLogger(__name__)
+_SPOOL_MAX = 64 * 1024 * 1024   # 64MB in RAM then spill to disk
+_COPY_CHUNK = 8 * 1024 * 1024   # 8MB chunks
+def _prepare_binaryio_and_size(
+    data: Union[bytes, bytearray, memoryview, BinaryIO]
+) -> tuple[int, BinaryIO, bool]:
+    """
+    Returns (size, bio, should_close).
+    - bytes-like -> wrap in BytesIO (closeable by us).
+    - seekable file -> compute size via fstat or seek/tell.
+    - non-seekable stream -> spool into SpooledTemporaryFile, count bytes.
+    """
+    # bytes-like
+    if isinstance(data, (bytes, bytearray, memoryview)):
+        b = bytes(data)
+        return len(b), io.BytesIO(b), True
+    f: BinaryIO = data
+    # 1) try OS-level size for real files
+    try:
+        fileno = f.fileno()  # type: ignore[attr-defined]
+    except Exception:
+        fileno = None
+    if fileno is not None:
+        try:
+            st = os.fstat(fileno)
+            # rewind if possible
+            try:
+                f.seek(0)
+            except Exception:
+                pass
+            return int(st.st_size), f, False
+        except Exception:
+            pass
+    # 2) try seek/tell (seekable streams)
+    try:
+        f.seek(0, io.SEEK_END)
+        end = f.tell()
+        f.seek(0)
+        return int(end), f, False
+    except Exception:
+        pass
+    # 3) non-seekable stream: spool + count
+    spooled = SpooledTemporaryFile(max_size=_SPOOL_MAX, mode="w+b")
+    size = 0
+    while True:
+        chunk = f.read(_COPY_CHUNK)
+        if not chunk:
+            break
+        spooled.write(chunk)
+        size += len(chunk)
+    spooled.seek(0)
+    return size, spooled, True
 class DatabricksIO(ABC, IO):
     """File-like interface for Databricks workspace, volume, or DBFS paths."""
@@ -102,7 +156,10 @@ class DatabricksIO(ABC, IO):
         return self.path.__hash__()
     def __str__(self):
-        return self.path.__str__()
+        return "%s(path=%s)" % (
+            self.__class__.__name__,
+            self.path.__repr__()
+        )
     def __repr__(self):
         return "%s(path=%s)" % (
@@ -1081,9 +1138,9 @@ class DatabricksVolumeIO(DatabricksIO):
         try:
             resp = client.download(full_path)
-        except Exception as e:
+        except (NotFound, ResourceDoesNotExist, BadRequest, InternalError) as e:
             # Databricks SDK exceptions vary a bit by version; keep it pragmatic.
-            if allow_not_found and any(s in str(e).lower() for s in ("not found", "not exist", "404")):
+            if allow_not_found:
                 return b""
             raise
@@ -1096,53 +1153,61 @@ class DatabricksVolumeIO(DatabricksIO):
         end = start + length
         return data[start:end]
-    @retry(exceptions=(InternalError,))
-    def write_all_bytes(self, data: Union[bytes, IO[bytes]]):
-        """Write bytes to a volume file.
-        Args:
-            data: Union[bytes, IO[bytes]] to write.
-        Returns:
-            The DatabricksVolumeIO instance.
-        """
+    def write_all_bytes(
+        self,
+        data: Union[bytes, bytearray, memoryview, BinaryIO],
+        *,
+        overwrite: bool = True,
+        part_size: Optional[int] = None,
+        use_parallel: bool = True,
+        parallelism: Optional[int] = None,
+    ):
+        """Write bytes/stream to a volume file safely (BinaryIO upload)."""
         sdk = self.workspace.sdk()
         client = sdk.files
         full_path = self.path.files_full_path()
-        LOGGER.debug(
-            "Writing all bytes in %s",
-            self
-        )
+        LOGGER.debug("Writing all bytes in %s", self)
-        try:
-            client.upload(
-                full_path,
-                io.BytesIO(data),
-                overwrite=True
-            )
-        except (NotFound, ResourceDoesNotExist, BadRequest):
-            self.path.parent.mkdir(parents=True, exist_ok=True)
+        size, bio, should_close = _prepare_binaryio_and_size(data)
-            client.upload(
+        def _upload():
+            return client.upload(
                 full_path,
-                io.BytesIO(data),
-                overwrite=True
+                bio,
+                overwrite=overwrite,
+                part_size=part_size,
+                use_parallel=use_parallel,
+                parallelism=parallelism,
             )
-        LOGGER.info(
-            "Written all bytes in %s",
-            self
-        )
+        try:
+            _ = _upload()
+        except (NotFound, ResourceDoesNotExist, BadRequest, InternalError):
+            self.path.parent.mkdir(parents=True, exist_ok=True)
+            # Important: rewind if possible before retry
+            try:
+                bio.seek(0)
+            except Exception:
+                pass
+            _ = _upload()
+        finally:
+            if should_close:
+                try:
+                    bio.close()
+                except Exception:
+                    pass
         self.path.reset_metadata(
             is_file=True,
             is_dir=False,
-            size=len(data),
-            mtime=time.time()
+            size=size,
+            mtime=time.time(),
         )
-        return self
+        LOGGER.info("Written %s bytes in %s", size or "all", self.path)
+        return self  # or return result if your API prefers that
 class DatabricksDBFSIO(DatabricksIO):

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/databricks/workspaces/path.py RENAMED Viewed

@@ -1,8 +1,6 @@
 """Databricks path abstraction spanning DBFS, workspace, and volumes."""
 # src/yggdrasil/databricks/workspaces/databricks_path.py
-from __future__ import annotations
 import dataclasses
 import datetime as dt
 import io
@@ -15,9 +13,7 @@ from typing import Optional, Tuple, Union, TYPE_CHECKING, List, Any, IO
 import dill
 import pyarrow as pa
-import pyarrow.dataset as ds
 from pyarrow import ArrowInvalid
-from pyarrow.dataset import FileFormat, ParquetFileFormat, CsvFileFormat, JsonFileFormat
 from pyarrow.fs import FileInfo, FileType, FileSystem
 from .io import DatabricksIO
@@ -25,12 +21,9 @@ from .path_kind import DatabricksPathKind
 from .volumes_path import get_volume_status, get_volume_metadata
 from ...libs.databrickslib import databricks
 from ...libs.pandaslib import PandasDataFrame
-from ...libs.polarslib import polars, PolarsDataFrame
-from ...types.cast.cast_options import CastOptions
-from ...types.cast.pandas_cast import pandas_converter, cast_pandas_dataframe
-from ...types.cast.polars_cast import polars_converter, cast_polars_dataframe
-from ...types.cast.registry import convert, register_converter
-from ...types.file_format import ExcelFileFormat
+from ...libs.polarslib import polars
+from ...types.cast.registry import convert
+from ...types.file_format import FileFormat, ExcelFileFormat, ParquetFileFormat, JsonFileFormat, CsvFileFormat
 if databricks is not None:
     from databricks.sdk.errors import InternalError
@@ -1305,6 +1298,8 @@ class DatabricksPath:
         Returns:
             A PyArrow Dataset instance.
         """
+        import pyarrow.dataset as ds
         filesystem = self.filesystem(workspace=workspace) if filesystem is None else filesystem
         return ds.dataset(
@@ -1684,32 +1679,3 @@ class DatabricksPath:
             raise ValueError(
                 "Invalid engine %s, must be in duckdb, polars" % engine
             )
-if databricks is not None:
-    @register_converter(DatabricksPath, ds.Dataset)
-    def databricks_path_to_arrow_table(
-        data: DatabricksPath,
-        options: Optional[CastOptions] = None,
-    ) -> ds.Dataset:
-        return data.arrow_dataset()
-    @pandas_converter(DatabricksPath, PandasDataFrame)
-    def databricks_path_to_pandas(
-        data: DatabricksPath,
-        options: Optional[CastOptions] = None,
-    ) -> PolarsDataFrame:
-        return cast_pandas_dataframe(
-            data.read_pandas(),
-            options
-        )
-    @polars_converter(DatabricksPath, PolarsDataFrame)
-    def databricks_path_to_polars(
-        data: DatabricksPath,
-        options: Optional[CastOptions] = None,
-    ) -> PolarsDataFrame:
-        return cast_polars_dataframe(
-            data.read_polars(),
-            options
-        )

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/databricks/workspaces/workspace.py RENAMED Viewed

@@ -520,9 +520,9 @@ class Workspace:
         Returns:
             A DatabricksPath pointing at the shared cache location.
         """
-        start = int(time.time() * 1000)
-        max_lifetime = max_lifetime or 48.0 * 3600.0
-        end = int(start + max_lifetime)
+        start = int(time.time())
+        max_lifetime = int(max_lifetime or 48 * 3600)
+        end = max(0, int(start + max_lifetime))
         base_path = base_path or self._base_tmp_path(
             catalog_name=catalog_name,
@@ -575,19 +575,15 @@ class Workspace:
                 base_path
             )
-            try:
-                for path in base_path.ls(recursive=False, allow_not_found=True):
+            for path in base_path.ls(recursive=False, allow_not_found=True):
+                if path.name.startswith("tmp"):
                     parts = path.name.split("-")
                     if len(parts) > 2 and parts[0] == "tmp" and parts[1].isdigit() and parts[2].isdigit():
-                        end = int(parts[2]) / 1000.0
+                        end = int(parts[2])
                         if end and time.time() > end:
                             path.remove(recursive=True)
-            except Exception as e:
-                if raise_error:
-                    raise e
-                LOGGER.warning(e)
             LOGGER.info(
                 "Cleaned temp path %s",

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/libs/databrickslib.py RENAMED Viewed

@@ -1,5 +1,5 @@
 """Optional Databricks SDK dependency helpers."""
-from yggdrasil.types.dummy_class import DummyModuleClass
+from ..types.dummy_class import DummyModuleClass
 class DatabricksDummyClass(DummyModuleClass):
@@ -25,7 +25,7 @@ def require_databricks_sdk():
 try:
     import databricks
-    import databricks.sdk  # type: ignore
+    import databricks.sdk
     from databricks.sdk import WorkspaceClient
@@ -34,7 +34,6 @@ try:
 except ImportError:
     databricks = DatabricksDummyClass
     databricks_sdk = DatabricksDummyClass
     WorkspaceClient = DatabricksDummyClass

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/pyutils/modules.py RENAMED Viewed

@@ -42,7 +42,7 @@ MODULE_PROJECT_NAMES_ALIASES = {
     "yggdrasil": "ygg",
     "jwt": "PyJWT",
 }
+DEFAULT_PIP_INDEX_SETTINGS = None
 def module_name_to_project_name(module_name: str) -> str:
     """Map module import names to PyPI project names when they differ.
@@ -264,6 +264,11 @@ class PipIndexSettings:
         Returns:
             Default PipIndexSettings instance.
         """
+        global DEFAULT_PIP_INDEX_SETTINGS
+        if DEFAULT_PIP_INDEX_SETTINGS is None:
+            DEFAULT_PIP_INDEX_SETTINGS = get_pip_index_settings()
         return DEFAULT_PIP_INDEX_SETTINGS
     @property
@@ -363,9 +368,3 @@ def get_pip_index_settings() -> PipIndexSettings:
             extra_index_urls.append(u)
     return PipIndexSettings(index_url=index_url, extra_index_urls=extra_index_urls, sources=sources)
-try:
-    DEFAULT_PIP_INDEX_SETTINGS = get_pip_index_settings()
-except:
-    DEFAULT_PIP_INDEX_SETTINGS = PipIndexSettings()

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/pyutils/python_env.py RENAMED Viewed

@@ -27,7 +27,6 @@ log = logging.getLogger(__name__)
 class PythonEnvError(RuntimeError):
     """Raised when Python environment operations fail."""
     pass
@@ -72,6 +71,9 @@ _NON_PIPABLE_RE = re.compile(
     re.IGNORECASE,
 )
+# Snapshot singleton (import-time)
+CURRENT_PYTHON_ENV: "PythonEnv" = None
 def _filter_non_pipable_linux_packages(requirements: Iterable[str]) -> List[str]:
@@ -1508,11 +1510,3 @@ print("RESULT:" + json.dumps(top_level))""".strip()
             log.error("python_env CLI error: %s", e)
             print(f"ERROR: {e}", file=sys.stderr)
             return 2
-# Snapshot singleton (import-time)
-CURRENT_PYTHON_ENV: PythonEnv = None
-if __name__ == "__main__":
-    raise SystemExit(PythonEnv.cli())

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/requests/msal.py RENAMED Viewed

@@ -3,12 +3,8 @@
 # auth_session.py
 import os
 import time
-from typing import Any, Mapping, Optional
-import urllib3
-urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
-from dataclasses import dataclass
+from dataclasses import dataclass, field
+from typing import Any, Optional
 from .session import YGGSession
@@ -38,11 +34,11 @@ class MSALAuth:
         authority: Optional authority URL override.
         scopes: List of scopes to request.
     """
-    tenant_id: Optional[str] = None
-    client_id: Optional[str] = None
-    client_secret: Optional[str] = None
-    authority: Optional[str] = None
-    scopes: list[str] | None = None
+    tenant_id: Optional[str] = field(default_factory=lambda: os.environ.get("AZURE_TENANT_ID"))
+    client_id: Optional[str] = field(default_factory=lambda: os.environ.get("AZURE_CLIENT_ID"))
+    client_secret: Optional[str] = field(default_factory=lambda: os.environ.get("AZURE_CLIENT_SECRET"))
+    authority: Optional[str] = field(default_factory=lambda: os.environ.get("AZURE_AUTHORITY"))
+    scopes: list[str] | None = field(default_factory=lambda: os.environ.get("AZURE_SCOPES"))
     _auth_app: ConfidentialClientApplication | None = None
     _expires_at: float | None = None
@@ -77,97 +73,15 @@ class MSALAuth:
         Returns:
             None.
         """
-        self.tenant_id = self.tenant_id or os.environ.get("AZURE_TENANT_ID")
-        self.client_id = self.client_id or os.environ.get("AZURE_CLIENT_ID")
-        self.client_secret = self.client_secret or os.environ.get("AZURE_CLIENT_SECRET")
-        self.authority = self.authority or os.environ.get("AZURE_AUTHORITY")
         if not self.authority:
+            assert self.tenant_id, "tenant_id is required to build authority URL"
             self.authority = f"https://login.microsoftonline.com/{self.tenant_id}"
-        self.scopes = self.scopes or os.environ.get("AZURE_SCOPES")
         if self.scopes:
             if isinstance(self.scopes, str):
                 self.scopes = self.scopes.split(",")
-        self._validate_config()
-    def _validate_config(self):
-        """Validate that all required configuration is present.
-        Returns:
-            None.
-        """
-        missing = []
-        if not self.client_id:
-            missing.append("azure_client_id (AZURE_CLIENT_ID)")
-        if not self.client_secret:
-            missing.append("azure_client_secret (AZURE_CLIENT_SECRET)")
-        if not self.tenant_id:
-            missing.append("azure_client_secret (AZURE_TENANT_ID)")
-        if not self.scopes:
-            missing.append("scopes (AZURE_SCOPES)")
-        if missing:
-            raise ValueError(f"Missing required configuration: {', '.join(missing)}")
-    @classmethod
-    def find_in_env(
-        cls,
-        env: Mapping = None,
-        prefix: Optional[str] = None
-    ) -> "MSALAuth":
-        """Return an MSALAuth built from environment variables if available.
-        Args:
-            env: Mapping to read variables from; defaults to os.environ.
-            prefix: Optional prefix for variable names.
-        Returns:
-            A configured MSALAuth instance or None.
-        """
-        if not env:
-            env = os.environ
-        prefix = prefix or "AZURE_"
-        required = {
-            key: env.get(prefix + key.upper())
-            for key in (
-                "client_id", "client_secret", "tenant_id", "scopes"
-            )
-        }
-        if all(required.values()):
-            scopes = required["scopes"].split(",") if required["scopes"] else None
-            return MSALAuth(
-                tenant_id=required["tenant_id"],
-                client_id=required["client_id"],
-                client_secret=required["client_secret"],
-                scopes=scopes,
-                authority=env.get(prefix + "AUTHORITY"),
-            )
-        return None
-    def export_to(self, to: dict = os.environ):
-        """Export the auth configuration to the provided mapping.
-        Args:
-            to: Mapping to populate with auth configuration values.
-        Returns:
-            None.
-        """
-        for key, value in (
-            ("AZURE_CLIENT_ID", self.client_id),
-            ("AZURE_CLIENT_SECRET", self.client_secret),
-            ("AZURE_AUTHORITY", self.authority),
-            ("AZURE_SCOPES", ",".join(self.scopes)),
-        ):
-            if value:
-                to[key] = value
     @property
     def auth_app(self) -> ConfidentialClientApplication:
         """Return or initialize the MSAL confidential client.
@@ -298,7 +212,6 @@ class MSALSession(YGGSession):
         super().__init__(*args, **kwargs)
         self.msal_auth = msal_auth
     def prepare_request(self, request):
         """Prepare the request with an Authorization header when needed.

ygg-0.1.64/src/yggdrasil/types/file_format.py ADDED Viewed

@@ -0,0 +1,14 @@
+from pyarrow.dataset import FileFormat, ParquetFileFormat, CsvFileFormat, JsonFileFormat
+__all__ = [
+    "FileFormat",
+    "ExcelFileFormat",
+    "ParquetFileFormat",
+    "CsvFileFormat",
+    "JsonFileFormat"
+]
+class ExcelFileFormat(FileFormat):
+    pass

{ygg-0.1.60 → ygg-0.1.64}/src/yggdrasil/types/python_defaults.py RENAMED Viewed

@@ -18,84 +18,96 @@ __all__ = [
     "default_arrow_array"
 ]
+DEFAULT_MAPS_INITIALIZED = False
 _NONE_TYPE = type(None)
-_PRIMITIVE_DEFAULTS = {
-    str: "",
-    int: 0,
-    float: 0.0,
-    bool: False,
-    bytes: b"",
-}
-_SPECIAL_DEFAULTS = {
-    datetime.datetime: lambda: datetime.datetime(1970, 1, 1, tzinfo=datetime.timezone.utc),
-    datetime.date: lambda: datetime.date(1970, 1, 1),
-    datetime.time: lambda: datetime.time(0, 0, 0, tzinfo=datetime.timezone.utc),
-    datetime.timedelta: lambda: datetime.timedelta(0),
-    uuid.UUID: lambda: uuid.UUID(int=0),
-    decimal.Decimal: lambda: decimal.Decimal(0),
-}
-_ARROW_DEFAULTS = {
-    pa.null(): pa.scalar(None, type=pa.null()),
-    pa.bool_(): pa.scalar(False, type=pa.bool_()),
-    pa.int8(): pa.scalar(0, type=pa.int8()),
-    pa.int16(): pa.scalar(0, type=pa.int16()),
-    pa.int32(): pa.scalar(0, type=pa.int32()),
-    pa.int64(): pa.scalar(0, type=pa.int64()),
-    pa.uint8(): pa.scalar(0, type=pa.uint8()),
-    pa.uint16(): pa.scalar(0, type=pa.uint16()),
-    pa.uint32(): pa.scalar(0, type=pa.uint32()),
-    pa.uint64(): pa.scalar(0, type=pa.uint64()),
-    # pa.float16(): pa.scalar(0.0, type=pa.float16()),
-    pa.float32(): pa.scalar(0.0, type=pa.float32()),
-    pa.float64(): pa.scalar(0.0, type=pa.float64()),
-    pa.string(): pa.scalar("", type=pa.string()),
-    pa.string_view(): pa.scalar("", type=pa.string_view()),
-    pa.large_string(): pa.scalar("", type=pa.large_string()),
-    pa.binary(): pa.scalar(b"", type=pa.binary()),
-    pa.binary_view(): pa.scalar(b"", type=pa.binary_view()),
-    pa.large_binary(): pa.scalar(b"", type=pa.large_binary()),
-}
-try:
-    import polars
-    polars = polars
-    _POLARS_DEFAULTS = {
-        polars.Null(): None,
-        polars.Boolean(): False,
-        polars.Binary(): b"",
-        polars.Utf8(): "",
-        polars.Int8(): 0,
-        polars.Int16(): 0,
-        polars.Int32(): 0,
-        polars.Int64(): 0,
-        polars.UInt8(): 0,
-        polars.UInt16(): 0,
-        polars.UInt32(): 0,
-        polars.UInt64(): 0,
-        polars.Float32(): 0.0,
-        polars.Float64(): 0.0,
-    }
-except ImportError:
-    polars = None
-    _POLARS_DEFAULTS = {}
+_ARROW_DEFAULTS = {}
+_POLARS_DEFAULTS = {}
+_PRIMITIVE_DEFAULTS = {}
+_SPECIAL_DEFAULTS = {}
+def ensure_default_maps_initialized():
+    global DEFAULT_MAPS_INITIALIZED
+    global _PRIMITIVE_DEFAULTS
+    global _SPECIAL_DEFAULTS
+    global _ARROW_DEFAULTS
+    global _POLARS_DEFAULTS
+    if not DEFAULT_MAPS_INITIALIZED:
+        _PRIMITIVE_DEFAULTS = {
+            str: "",
+            int: 0,
+            float: 0.0,
+            bool: False,
+            bytes: b"",
+        }
+        _SPECIAL_DEFAULTS = {
+            datetime.datetime: lambda: datetime.datetime(1970, 1, 1, tzinfo=datetime.timezone.utc),
+            datetime.date: lambda: datetime.date(1970, 1, 1),
+            datetime.time: lambda: datetime.time(0, 0, 0, tzinfo=datetime.timezone.utc),
+            datetime.timedelta: lambda: datetime.timedelta(0),
+            uuid.UUID: lambda: uuid.UUID(int=0),
+            decimal.Decimal: lambda: decimal.Decimal(0),
+        }
+        _ARROW_DEFAULTS = {
+            pa.null(): pa.scalar(None, type=pa.null()),
+            pa.bool_(): pa.scalar(False, type=pa.bool_()),
+            pa.int8(): pa.scalar(0, type=pa.int8()),
+            pa.int16(): pa.scalar(0, type=pa.int16()),
+            pa.int32(): pa.scalar(0, type=pa.int32()),
+            pa.int64(): pa.scalar(0, type=pa.int64()),
+            pa.uint8(): pa.scalar(0, type=pa.uint8()),
+            pa.uint16(): pa.scalar(0, type=pa.uint16()),
+            pa.uint32(): pa.scalar(0, type=pa.uint32()),
+            pa.uint64(): pa.scalar(0, type=pa.uint64()),
+            # pa.float16(): pa.scalar(0.0, type=pa.float16()),
+            pa.float32(): pa.scalar(0.0, type=pa.float32()),
+            pa.float64(): pa.scalar(0.0, type=pa.float64()),
+            pa.string(): pa.scalar("", type=pa.string()),
+            pa.string_view(): pa.scalar("", type=pa.string_view()),
+            pa.large_string(): pa.scalar("", type=pa.large_string()),
+            pa.binary(): pa.scalar(b"", type=pa.binary()),
+            pa.binary_view(): pa.scalar(b"", type=pa.binary_view()),
+            pa.large_binary(): pa.scalar(b"", type=pa.large_binary()),
+        }
+        try:
+            import polars
+            _POLARS_DEFAULTS = {
+                polars.Null(): None,
+                polars.Boolean(): False,
+                polars.Binary(): b"",
+                polars.Utf8(): "",
+                polars.Int8(): 0,
+                polars.Int16(): 0,
+                polars.Int32(): 0,
+                polars.Int64(): 0,
+                polars.UInt8(): 0,
+                polars.UInt16(): 0,
+                polars.UInt32(): 0,
+                polars.UInt64(): 0,
+                polars.Float32(): 0.0,
+                polars.Float64(): 0.0,
+            }
+        except ImportError:
+            pass
+        DEFAULT_MAPS_INITIALIZED = True
 def _is_optional(hint) -> bool:
     """Return True when the type hint is Optional.
@@ -199,6 +211,8 @@ def default_arrow_scalar(
     Returns:
         Arrow scalar default.
     """
+    ensure_default_maps_initialized()
     if nullable:
         return pa.scalar(None, type=dtype)
@@ -307,6 +321,8 @@ def default_python_scalar(hint: Any):
     if _is_optional(hint):
         return None
+    ensure_default_maps_initialized()
     if hint in _PRIMITIVE_DEFAULTS:
         return _PRIMITIVE_DEFAULTS[hint]