PyPI - openaivec - Versions diffs - 0.14.10__tar.gz → 0.14.12__tar.gz - Mend

openaivec 0.14.10tar.gz → 0.14.12tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (84) hide show

{openaivec-0.14.10 → openaivec-0.14.12}/.github/copilot-instructions.md RENAMED Viewed

@@ -24,7 +24,10 @@ Entry points:
 - Spark UDF builders in `spark.py`
 - Structured tasks under `task/`
-Azure note: Use deployment name as `model`. Warn if base URL not v1. Behavior otherwise mirrors OpenAI.
+Azure note: Use deployment name as `model`. Standard Azure OpenAI configuration uses:
+- Base URL: `https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/`
+- API Version: `"preview"`
+Warn if base URL not v1. Behavior otherwise mirrors OpenAI.
 ---
@@ -137,7 +140,16 @@ Public exports (`__init__.py`): `BatchResponses`, `AsyncBatchResponses`, `BatchE
 ## 10. Provider / Azure Rules
 - Auto-detect provider from env variables; deployment name = model for Azure.
-- Warn (don’t fail) if Azure base URL not v1 format; still proceed.
+- Standard Azure OpenAI configuration:
+  - Base URL: `https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/`
+  - API Version: `"preview"`
+  - Environment variables:
+    ```bash
+    export AZURE_OPENAI_API_KEY="your-azure-key"
+    export AZURE_OPENAI_BASE_URL="https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/"
+    export AZURE_OPENAI_API_VERSION="preview"
+    ```
+- Warn (don't fail) if Azure base URL not v1 format; still proceed.
 - Keep code paths unified; avoid forking logic unless behavior diverges.
 ---
@@ -348,6 +360,9 @@ uv run mkdocs serve
 Environment setup notes:
 - Set `OPENAI_API_KEY` or Azure trio (`AZURE_OPENAI_API_KEY`, `AZURE_OPENAI_BASE_URL`, `AZURE_OPENAI_API_VERSION`).
+- Standard Azure OpenAI configuration:
+  - `AZURE_OPENAI_BASE_URL="https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/"`
+  - `AZURE_OPENAI_API_VERSION="preview"`
 - Tests auto-skip live paths when credentials absent.
 - Use separate shell profiles per provider if switching frequently.
-- Azure canonical base URL should end with `/openai/v1/` (e.g. `https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/`); non‑v1 forms emit a warning.
+- Azure canonical base URL must end with `/openai/v1/` (e.g. `https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/`); non‑v1 forms emit a warning.

{openaivec-0.14.10 → openaivec-0.14.12}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: openaivec
-Version: 0.14.10
+Version: 0.14.12
 Summary: Generative mutation for tabular calculation
 Project-URL: Homepage, https://microsoft.github.io/openaivec/
 Project-URL: Repository, https://github.com/microsoft/openaivec
@@ -334,26 +334,34 @@ Scale to enterprise datasets with distributed processing:
 First, obtain a Spark session and configure authentication:
 ```python
-import os
 from pyspark.sql import SparkSession
+from openaivec.spark import setup, setup_azure
 spark = SparkSession.builder.getOrCreate()
-sc = spark.sparkContext
-# Configure authentication via SparkContext environment variables
 # Option 1: Using OpenAI
-sc.environment["OPENAI_API_KEY"] = os.environ.get("OPENAI_API_KEY")
+setup(
+    spark,
+    api_key="your-openai-api-key",
+    responses_model_name="gpt-4.1-mini",  # Optional: set default model
+    embeddings_model_name="text-embedding-3-small"  # Optional: set default model
+)
 # Option 2: Using Azure OpenAI
-# sc.environment["AZURE_OPENAI_API_KEY"] = os.environ.get("AZURE_OPENAI_API_KEY")
-# sc.environment["AZURE_OPENAI_BASE_URL"] = os.environ.get("AZURE_OPENAI_BASE_URL")
-# sc.environment["AZURE_OPENAI_API_VERSION"] = os.environ.get("AZURE_OPENAI_API_VERSION")
+# setup_azure(
+#     spark,
+#     api_key="your-azure-openai-api-key",
+#     base_url="https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/",
+#     api_version="preview",
+#     responses_model_name="my-gpt4-deployment",  # Optional: set default deployment
+#     embeddings_model_name="my-embedding-deployment"  # Optional: set default deployment
+# )
 ```
 Next, create and register UDFs using the provided functions:
 ```python
-from openaivec.spark import responses_udf, task_udf, embeddings_udf, count_tokens_udf
+from openaivec.spark import responses_udf, task_udf, embeddings_udf, count_tokens_udf, similarity_udf, parse_udf
 from pydantic import BaseModel
 # --- Register Responses UDF (String Output) ---
@@ -387,6 +395,9 @@ spark.udf.register(
 # --- Register Token Counting UDF ---
 spark.udf.register("count_tokens", count_tokens_udf())
+# --- Register Similarity UDF ---
+spark.udf.register("compute_similarity", similarity_udf())
 # --- Register UDFs with Pre-configured Tasks ---
 from openaivec.task import nlp, customer_support
@@ -414,6 +425,17 @@ spark.udf.register(
     )
 )
+# --- Register Parse UDF (Dynamic Schema Inference) ---
+spark.udf.register(
+    "parse_dynamic",
+    parse_udf(
+        instructions="Extract key entities and attributes from the text",
+        example_table_name="sample_texts",  # Infer schema from examples
+        example_field_name="text",
+        max_examples=50
+    )
+)
 ```
 You can now use these UDFs in Spark SQL:
@@ -691,17 +713,19 @@ steps:
    - In the notebook, import and use `openaivec.spark` functions as you normally would. For example:
      ```python
-     import os
-     from openaivec.spark import responses_udf, embeddings_udf
+     from openaivec.spark import setup_azure, responses_udf, embeddings_udf
      # In Microsoft Fabric, spark session is automatically available
      # spark = SparkSession.builder.getOrCreate()
-     sc = spark.sparkContext
      # Configure Azure OpenAI authentication
-     sc.environment["AZURE_OPENAI_API_KEY"] = "<your-api-key>"
-     sc.environment["AZURE_OPENAI_BASE_URL"] = "https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/"
-     sc.environment["AZURE_OPENAI_API_VERSION"] = "preview"
+     setup_azure(
+         spark,
+         api_key="<your-api-key>",
+         base_url="https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/",
+         api_version="preview",
+         responses_model_name="my-gpt4-deployment"  # Your Azure deployment name
+     )
      # Register UDFs
      spark.udf.register(

{openaivec-0.14.10 → openaivec-0.14.12}/README.md RENAMED Viewed

@@ -308,26 +308,34 @@ Scale to enterprise datasets with distributed processing:
 First, obtain a Spark session and configure authentication:
 ```python
-import os
 from pyspark.sql import SparkSession
+from openaivec.spark import setup, setup_azure
 spark = SparkSession.builder.getOrCreate()
-sc = spark.sparkContext
-# Configure authentication via SparkContext environment variables
 # Option 1: Using OpenAI
-sc.environment["OPENAI_API_KEY"] = os.environ.get("OPENAI_API_KEY")
+setup(
+    spark,
+    api_key="your-openai-api-key",
+    responses_model_name="gpt-4.1-mini",  # Optional: set default model
+    embeddings_model_name="text-embedding-3-small"  # Optional: set default model
+)
 # Option 2: Using Azure OpenAI
-# sc.environment["AZURE_OPENAI_API_KEY"] = os.environ.get("AZURE_OPENAI_API_KEY")
-# sc.environment["AZURE_OPENAI_BASE_URL"] = os.environ.get("AZURE_OPENAI_BASE_URL")
-# sc.environment["AZURE_OPENAI_API_VERSION"] = os.environ.get("AZURE_OPENAI_API_VERSION")
+# setup_azure(
+#     spark,
+#     api_key="your-azure-openai-api-key",
+#     base_url="https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/",
+#     api_version="preview",
+#     responses_model_name="my-gpt4-deployment",  # Optional: set default deployment
+#     embeddings_model_name="my-embedding-deployment"  # Optional: set default deployment
+# )
 ```
 Next, create and register UDFs using the provided functions:
 ```python
-from openaivec.spark import responses_udf, task_udf, embeddings_udf, count_tokens_udf
+from openaivec.spark import responses_udf, task_udf, embeddings_udf, count_tokens_udf, similarity_udf, parse_udf
 from pydantic import BaseModel
 # --- Register Responses UDF (String Output) ---
@@ -361,6 +369,9 @@ spark.udf.register(
 # --- Register Token Counting UDF ---
 spark.udf.register("count_tokens", count_tokens_udf())
+# --- Register Similarity UDF ---
+spark.udf.register("compute_similarity", similarity_udf())
 # --- Register UDFs with Pre-configured Tasks ---
 from openaivec.task import nlp, customer_support
@@ -388,6 +399,17 @@ spark.udf.register(
     )
 )
+# --- Register Parse UDF (Dynamic Schema Inference) ---
+spark.udf.register(
+    "parse_dynamic",
+    parse_udf(
+        instructions="Extract key entities and attributes from the text",
+        example_table_name="sample_texts",  # Infer schema from examples
+        example_field_name="text",
+        max_examples=50
+    )
+)
 ```
 You can now use these UDFs in Spark SQL:
@@ -665,17 +687,19 @@ steps:
    - In the notebook, import and use `openaivec.spark` functions as you normally would. For example:
      ```python
-     import os
-     from openaivec.spark import responses_udf, embeddings_udf
+     from openaivec.spark import setup_azure, responses_udf, embeddings_udf
      # In Microsoft Fabric, spark session is automatically available
      # spark = SparkSession.builder.getOrCreate()
-     sc = spark.sparkContext
      # Configure Azure OpenAI authentication
-     sc.environment["AZURE_OPENAI_API_KEY"] = "<your-api-key>"
-     sc.environment["AZURE_OPENAI_BASE_URL"] = "https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/"
-     sc.environment["AZURE_OPENAI_API_VERSION"] = "preview"
+     setup_azure(
+         spark,
+         api_key="<your-api-key>",
+         base_url="https://YOUR-RESOURCE-NAME.services.ai.azure.com/openai/v1/",
+         api_version="preview",
+         responses_model_name="my-gpt4-deployment"  # Your Azure deployment name
+     )
      # Register UDFs
      spark.udf.register(

{openaivec-0.14.10 → openaivec-0.14.12}/src/openaivec/_di.py RENAMED Viewed

@@ -303,3 +303,24 @@ class Container:
             self._providers.clear()
             self._instances.clear()
             self._resolving.clear()
+    def clear_singletons(self) -> None:
+        """Clear all cached singleton instances from the container.
+        Removes all cached singleton instances while keeping the registered
+        providers intact. After calling this method, the next resolve call
+        for any service will create a new instance using the provider function.
+        Example:
+            ```python
+            container = Container()
+            container.register(str, lambda: "Hello")
+            instance1 = container.resolve(str)
+            container.clear_singletons()
+            instance2 = container.resolve(str)
+            print(instance1 is instance2)
+            # False - different instances after clearing singletons
+            ```
+        """
+        with self._lock:
+            self._instances.clear()

{openaivec-0.14.10 → openaivec-0.14.12}/src/openaivec/_provider.py RENAMED Viewed

@@ -130,35 +130,9 @@ def provide_async_openai_client() -> AsyncOpenAI:
     )
-CONTAINER.register(ResponsesModelName, lambda: ResponsesModelName("gpt-4.1-mini"))
-CONTAINER.register(EmbeddingsModelName, lambda: EmbeddingsModelName("text-embedding-3-small"))
-CONTAINER.register(OpenAIAPIKey, lambda: OpenAIAPIKey(os.getenv("OPENAI_API_KEY")))
-CONTAINER.register(AzureOpenAIAPIKey, lambda: AzureOpenAIAPIKey(os.getenv("AZURE_OPENAI_API_KEY")))
-CONTAINER.register(AzureOpenAIBaseURL, lambda: AzureOpenAIBaseURL(os.getenv("AZURE_OPENAI_BASE_URL")))
-CONTAINER.register(
-    cls=AzureOpenAIAPIVersion,
-    provider=lambda: AzureOpenAIAPIVersion(os.getenv("AZURE_OPENAI_API_VERSION", "preview")),
-)
-CONTAINER.register(OpenAI, provide_openai_client)
-CONTAINER.register(AsyncOpenAI, provide_async_openai_client)
-CONTAINER.register(tiktoken.Encoding, lambda: tiktoken.get_encoding("o200k_base"))
-CONTAINER.register(TextChunker, lambda: TextChunker(CONTAINER.resolve(tiktoken.Encoding)))
-CONTAINER.register(
-    SchemaInferer,
-    lambda: SchemaInferer(
-        client=CONTAINER.resolve(OpenAI),
-        model_name=CONTAINER.resolve(ResponsesModelName).value,
-    ),
-)
-def reset_environment_registrations():
-    """Reset environment variable related registrations in the container.
-    This function re-registers environment variable dependent services to pick up
-    current environment variable values. Useful for testing when environment
-    variables are changed after initial container setup.
-    """
+def set_default_registrations():
+    CONTAINER.register(ResponsesModelName, lambda: ResponsesModelName("gpt-4.1-mini"))
+    CONTAINER.register(EmbeddingsModelName, lambda: EmbeddingsModelName("text-embedding-3-small"))
     CONTAINER.register(OpenAIAPIKey, lambda: OpenAIAPIKey(os.getenv("OPENAI_API_KEY")))
     CONTAINER.register(AzureOpenAIAPIKey, lambda: AzureOpenAIAPIKey(os.getenv("AZURE_OPENAI_API_KEY")))
     CONTAINER.register(AzureOpenAIBaseURL, lambda: AzureOpenAIBaseURL(os.getenv("AZURE_OPENAI_BASE_URL")))
@@ -168,6 +142,8 @@ def reset_environment_registrations():
     )
     CONTAINER.register(OpenAI, provide_openai_client)
     CONTAINER.register(AsyncOpenAI, provide_async_openai_client)
+    CONTAINER.register(tiktoken.Encoding, lambda: tiktoken.get_encoding("o200k_base"))
+    CONTAINER.register(TextChunker, lambda: TextChunker(CONTAINER.resolve(tiktoken.Encoding)))
     CONTAINER.register(
         SchemaInferer,
         lambda: SchemaInferer(
@@ -175,3 +151,6 @@ def reset_environment_registrations():
             model_name=CONTAINER.resolve(ResponsesModelName).value,
         ),
     )
+set_default_registrations()

{openaivec-0.14.10 → openaivec-0.14.12}/src/openaivec/pandas_ext.py RENAMED Viewed

@@ -454,6 +454,7 @@ class OpenAIVecSeriesAccessor:
         """Parse Series values using an LLM with a provided cache.
         This method allows you to parse the Series content into structured data
         using an LLM, optionally inferring a schema based on the provided purpose.
         Args:
             instructions (str): System prompt for the LLM.
             cache (BatchingMapProxy[str, BaseModel]): Explicit cache instance for

openaivec 0.14.10__tar.gz → 0.14.12__tar.gz

openaivec 0.14.10tar.gz → 0.14.12tar.gz