PyPI - unstructured-ingest - Versions diffs - 0.6.1__py3-none-any.whl → 0.6.2__py3-none-any.whl - Mend

unstructured-ingest 0.6.1py3-none-any.whl → 0.6.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of unstructured-ingest might be problematic. Click here for more details.

Files changed (12) hide show

unstructured_ingest/__version__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "0.6.1" # pragma: no cover
1	+ __version__ = "0.6.2" # pragma: no cover

unstructured_ingest/v2/processes/connectors/assets/databricks_delta_table_schema.sql ADDED Viewed

@@ -0,0 +1,10 @@
+CREATE TABLE elements (
+    id STRING NOT NULL PRIMARY KEY,
+    record_id STRING NOT NULL,
+    element_id STRING NOT NULL,
+    text STRING,
+    embeddings ARRAY<FLOAT>,
+    type STRING,
+    metadata VARIANT
+);

unstructured_ingest/v2/processes/connectors/databricks/volumes.py CHANGED Viewed

@@ -5,7 +5,7 @@ from pathlib import Path
 from typing import TYPE_CHECKING, Any, Generator, Optional
 from uuid import NAMESPACE_DNS, uuid5
-from pydantic import BaseModel, Field
+from pydantic import BaseModel, Field, Secret
 from unstructured_ingest.utils.dep_check import requires_dependencies
 from unstructured_ingest.v2.errors import (
@@ -61,12 +61,14 @@ class DatabricksVolumesAccessConfig(AccessConfig):
 class DatabricksVolumesConnectionConfig(ConnectionConfig, ABC):
+    access_config: Secret[DatabricksVolumesAccessConfig]
     host: Optional[str] = Field(
         default=None,
         description="The Databricks host URL for either the "
         "Databricks workspace endpoint or the "
         "Databricks accounts endpoint.",
     )
+    user_agent: str = "unstructuredio_oss"
     def wrap_error(self, e: Exception) -> Exception:
         from databricks.sdk.errors.base import DatabricksError
@@ -94,11 +96,14 @@ class DatabricksVolumesConnectionConfig(ConnectionConfig, ABC):
     @requires_dependencies(dependencies=["databricks.sdk"], extras="databricks-volumes")
     def get_client(self) -> "WorkspaceClient":
         from databricks.sdk import WorkspaceClient
+        from databricks.sdk.core import Config
-        return WorkspaceClient(
+        config = Config(
             host=self.host,
             **self.access_config.get_secret_value().model_dump(),
-        )
+        ).with_user_agent_extra("PyDatabricksSdk", self.user_agent)
+        return WorkspaceClient(config=config)
 class DatabricksVolumesIndexerConfig(IndexerConfig, DatabricksPathMixin):

unstructured_ingest/v2/processes/connectors/databricks/volumes_table.py CHANGED Viewed

@@ -1,14 +1,20 @@
+import json
 import os
-import tempfile
 from contextlib import contextmanager
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from pathlib import Path
 from typing import TYPE_CHECKING, Any, Generator, Optional
 from pydantic import Field
-from unstructured_ingest.utils.data_prep import get_data_df, write_data
-from unstructured_ingest.v2.interfaces import Uploader, UploaderConfig
+from unstructured_ingest.utils.data_prep import get_json_data, write_data
+from unstructured_ingest.v2.constants import RECORD_ID_LABEL
+from unstructured_ingest.v2.interfaces import (
+    Uploader,
+    UploaderConfig,
+    UploadStager,
+    UploadStagerConfig,
+)
 from unstructured_ingest.v2.logger import logger
 from unstructured_ingest.v2.processes.connector_registry import (
     DestinationRegistryEntry,
@@ -16,28 +22,50 @@ from unstructured_ingest.v2.processes.connector_registry import (
 from unstructured_ingest.v2.processes.connectors.databricks.volumes import DatabricksPathMixin
 from unstructured_ingest.v2.processes.connectors.sql.databricks_delta_tables import (
     DatabricksDeltaTablesConnectionConfig,
-    DatabricksDeltaTablesUploadStager,
     DatabricksDeltaTablesUploadStagerConfig,
 )
 from unstructured_ingest.v2.types.file_data import FileData
+from unstructured_ingest.v2.utils import get_enhanced_element_id
 CONNECTOR_TYPE = "databricks_volume_delta_tables"
 if TYPE_CHECKING:
-    from pandas import DataFrame
+    pass
 class DatabricksVolumeDeltaTableUploaderConfig(UploaderConfig, DatabricksPathMixin):
     database: str = Field(description="Database name", default="default")
-    table_name: str = Field(description="Table name")
+    table_name: Optional[str] = Field(description="Table name", default=None)
+class DatabricksVolumeDeltaTableStagerConfig(UploadStagerConfig):
+    pass
 @dataclass
-class DatabricksVolumeDeltaTableStager(DatabricksDeltaTablesUploadStager):
-    def write_output(self, output_path: Path, data: list[dict]) -> Path:
+class DatabricksVolumeDeltaTableStager(UploadStager):
+    upload_stager_config: DatabricksVolumeDeltaTableStagerConfig = field(
+        default_factory=DatabricksVolumeDeltaTableStagerConfig
+    )
+    def run(
+        self,
+        elements_filepath: Path,
+        output_dir: Path,
+        output_filename: str,
+        file_data: FileData,
+        **kwargs: Any,
+    ) -> Path:
         # To avoid new line issues when migrating from volumes into delta tables, omit indenting
         # and always write it as a json file
+        output_dir.mkdir(exist_ok=True, parents=True)
+        output_path = output_dir / output_filename
         final_output_path = output_path.with_suffix(".json")
+        data = get_json_data(path=elements_filepath)
+        for element in data:
+            element["id"] = get_enhanced_element_id(element_dict=element, file_data=file_data)
+            element[RECORD_ID_LABEL] = file_data.identifier
+            element["metadata"] = json.dumps(element.get("metadata", {}))
         write_data(path=final_output_path, data=data, indent=None)
         return final_output_path
@@ -49,6 +77,29 @@ class DatabricksVolumeDeltaTableUploader(Uploader):
     connector_type: str = CONNECTOR_TYPE
     _columns: Optional[dict[str, str]] = None
+    def init(self, **kwargs: Any) -> None:
+        self.create_destination(**kwargs)
+    def create_destination(
+        self, destination_name: str = "unstructuredautocreated", **kwargs: Any
+    ) -> bool:
+        table_name = self.upload_config.table_name or destination_name
+        self.upload_config.table_name = table_name
+        connectors_dir = Path(__file__).parents[1]
+        collection_config_file = connectors_dir / "assets" / "databricks_delta_table_schema.sql"
+        with self.get_cursor() as cursor:
+            cursor.execute("SHOW TABLES")
+            table_names = [r[1] for r in cursor.fetchall()]
+            if table_name in table_names:
+                return False
+            with collection_config_file.open() as schema_file:
+                data_lines = schema_file.readlines()
+            data_lines[0] = data_lines[0].replace("elements", table_name)
+            destination_schema = "".join([line.strip() for line in data_lines])
+            logger.info(f"creating table {table_name} for user")
+            cursor.execute(destination_schema)
+            return True
     def precheck(self) -> None:
         with self.connection_config.get_cursor() as cursor:
             cursor.execute("SHOW CATALOGS")
@@ -68,14 +119,6 @@ class DatabricksVolumeDeltaTableUploader(Uploader):
                         self.upload_config.database, ", ".join(databases)
                     )
                 )
-            cursor.execute(f"SHOW TABLES IN {self.upload_config.database}")
-            table_names = [r[1] for r in cursor.fetchall()]
-            if self.upload_config.table_name not in table_names:
-                raise ValueError(
-                    "Table {} not found in {}".format(
-                        self.upload_config.table_name, ", ".join(table_names)
-                    )
-                )
     def get_output_path(self, file_data: FileData, suffix: str = ".json") -> str:
         filename = Path(file_data.source_identifiers.filename)
@@ -98,51 +141,42 @@ class DatabricksVolumeDeltaTableUploader(Uploader):
                 self._columns = {desc[0]: desc[1] for desc in cursor.description}
         return self._columns
-    def _fit_to_schema(self, df: "DataFrame", add_missing_columns: bool = True) -> "DataFrame":
-        import pandas as pd
-        table_columns = self.get_table_columns()
-        columns = set(df.columns)
-        schema_fields = set(table_columns.keys())
-        columns_to_drop = columns - schema_fields
-        missing_columns = schema_fields - columns
-        if columns_to_drop:
-            logger.info(
-                "Following columns will be dropped to match the table's schema: "
-                f"{', '.join(columns_to_drop)}"
-            )
-        if missing_columns and add_missing_columns:
-            logger.info(
-                "Following null filled columns will be added to match the table's schema:"
-                f" {', '.join(missing_columns)} "
+    def can_delete(self) -> bool:
+        existing_columns = self.get_table_columns()
+        return RECORD_ID_LABEL in existing_columns
+    def delete_previous_content(self, file_data: FileData) -> None:
+        logger.debug(
+            f"deleting any content with metadata "
+            f"{RECORD_ID_LABEL}={file_data.identifier} "
+            f"from delta table: {self.upload_config.table_name}"
+        )
+        with self.get_cursor() as cursor:
+            cursor.execute(
+                f"DELETE FROM {self.upload_config.table_name} WHERE {RECORD_ID_LABEL} = '{file_data.identifier}'"  # noqa: E501
             )
-        df = df.drop(columns=columns_to_drop)
-        if add_missing_columns:
-            for column in missing_columns:
-                df[column] = pd.Series()
-        return df
+            results = cursor.fetchall()
+            deleted_rows = results[0][0]
+            logger.debug(f"deleted {deleted_rows} rows from table {self.upload_config.table_name}")
     def run(self, path: Path, file_data: FileData, **kwargs: Any) -> None:
-        with tempfile.TemporaryDirectory() as temp_dir:
-            df = get_data_df()
-            df = self._fit_to_schema(df=df)
-            temp_path = Path(temp_dir) / path.name
-            df.to_json(temp_path, orient="records", lines=False)
-            with self.get_cursor(staging_allowed_local_path=temp_dir) as cursor:
-                catalog_path = self.get_output_path(file_data=file_data)
-                logger.debug(f"uploading {path.as_posix()} to {catalog_path}")
-                cursor.execute(f"PUT '{temp_path.as_posix()}' INTO '{catalog_path}' OVERWRITE")
-                logger.debug(
-                    f"migrating content from {catalog_path} to "
-                    f"table {self.upload_config.table_name}"
-                )
-                columns = list(df.columns)
-                column_str = ", ".join(columns)
-                sql_statment = f"INSERT INTO `{self.upload_config.table_name}` ({column_str}) SELECT {column_str} FROM json.`{catalog_path}`"  # noqa: E501
-                cursor.execute(sql_statment)
+        if self.can_delete():
+            self.delete_previous_content(file_data=file_data)
+        with self.get_cursor(staging_allowed_local_path=path.parent.as_posix()) as cursor:
+            catalog_path = self.get_output_path(file_data=file_data)
+            logger.debug(f"uploading {path.as_posix()} to {catalog_path}")
+            cursor.execute(f"PUT '{path.as_posix()}' INTO '{catalog_path}' OVERWRITE")
+            logger.debug(
+                f"migrating content from {catalog_path} to "
+                f"table {self.upload_config.table_name}"
+            )
+            data = get_json_data(path=path)
+            columns = data[0].keys()
+            select_columns = ["PARSE_JSON(metadata)" if c == "metadata" else c for c in columns]
+            column_str = ", ".join(columns)
+            select_column_str = ", ".join(select_columns)
+            sql_statment = f"INSERT INTO `{self.upload_config.table_name}` ({column_str}) SELECT {select_column_str} FROM json.`{catalog_path}`"  # noqa: E501
+            cursor.execute(sql_statment)
 databricks_volumes_delta_tables_destination_entry = DestinationRegistryEntry(

{unstructured_ingest-0.6.1.dist-info → unstructured_ingest-0.6.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: unstructured-ingest
-Version: 0.6.1
+Version: 0.6.2
 Summary: A library that prepares raw documents for downstream ML tasks.
 Home-page: https://github.com/Unstructured-IO/unstructured-ingest
 Author: Unstructured Technologies
@@ -23,347 +23,347 @@ Requires-Python: >=3.9.0,<3.14
 Description-Content-Type: text/markdown
 License-File: LICENSE.md
 Requires-Dist: click
-Requires-Dist: tqdm
-Requires-Dist: opentelemetry-sdk
 Requires-Dist: python-dateutil
 Requires-Dist: dataclasses_json
 Requires-Dist: pydantic>=2.7
-Requires-Dist: numpy
+Requires-Dist: tqdm
+Requires-Dist: opentelemetry-sdk
 Requires-Dist: pandas
+Requires-Dist: numpy
 Provides-Extra: remote
 Requires-Dist: unstructured-client>=0.30.0; extra == "remote"
-Requires-Dist: numpy; extra == "remote"
 Requires-Dist: pandas; extra == "remote"
+Requires-Dist: numpy; extra == "remote"
 Provides-Extra: csv
 Requires-Dist: unstructured[tsv]; extra == "csv"
-Requires-Dist: numpy; extra == "csv"
 Requires-Dist: pandas; extra == "csv"
+Requires-Dist: numpy; extra == "csv"
 Provides-Extra: doc
 Requires-Dist: unstructured[docx]; extra == "doc"
-Requires-Dist: numpy; extra == "doc"
 Requires-Dist: pandas; extra == "doc"
+Requires-Dist: numpy; extra == "doc"
 Provides-Extra: docx
 Requires-Dist: unstructured[docx]; extra == "docx"
-Requires-Dist: numpy; extra == "docx"
 Requires-Dist: pandas; extra == "docx"
+Requires-Dist: numpy; extra == "docx"
 Provides-Extra: epub
 Requires-Dist: unstructured[epub]; extra == "epub"
-Requires-Dist: numpy; extra == "epub"
 Requires-Dist: pandas; extra == "epub"
+Requires-Dist: numpy; extra == "epub"
 Provides-Extra: md
 Requires-Dist: unstructured[md]; extra == "md"
-Requires-Dist: numpy; extra == "md"
 Requires-Dist: pandas; extra == "md"
+Requires-Dist: numpy; extra == "md"
 Provides-Extra: msg
 Requires-Dist: unstructured[msg]; extra == "msg"
-Requires-Dist: numpy; extra == "msg"
 Requires-Dist: pandas; extra == "msg"
+Requires-Dist: numpy; extra == "msg"
 Provides-Extra: odt
 Requires-Dist: unstructured[odt]; extra == "odt"
-Requires-Dist: numpy; extra == "odt"
 Requires-Dist: pandas; extra == "odt"
+Requires-Dist: numpy; extra == "odt"
 Provides-Extra: org
 Requires-Dist: unstructured[org]; extra == "org"
-Requires-Dist: numpy; extra == "org"
 Requires-Dist: pandas; extra == "org"
+Requires-Dist: numpy; extra == "org"
 Provides-Extra: pdf
 Requires-Dist: unstructured[pdf]; extra == "pdf"
-Requires-Dist: numpy; extra == "pdf"
 Requires-Dist: pandas; extra == "pdf"
+Requires-Dist: numpy; extra == "pdf"
 Provides-Extra: ppt
 Requires-Dist: unstructured[pptx]; extra == "ppt"
-Requires-Dist: numpy; extra == "ppt"
 Requires-Dist: pandas; extra == "ppt"
+Requires-Dist: numpy; extra == "ppt"
 Provides-Extra: pptx
 Requires-Dist: unstructured[pptx]; extra == "pptx"
-Requires-Dist: numpy; extra == "pptx"
 Requires-Dist: pandas; extra == "pptx"
+Requires-Dist: numpy; extra == "pptx"
 Provides-Extra: rtf
 Requires-Dist: unstructured[rtf]; extra == "rtf"
-Requires-Dist: numpy; extra == "rtf"
 Requires-Dist: pandas; extra == "rtf"
+Requires-Dist: numpy; extra == "rtf"
 Provides-Extra: rst
 Requires-Dist: unstructured[rst]; extra == "rst"
-Requires-Dist: numpy; extra == "rst"
 Requires-Dist: pandas; extra == "rst"
+Requires-Dist: numpy; extra == "rst"
 Provides-Extra: tsv
 Requires-Dist: unstructured[tsv]; extra == "tsv"
-Requires-Dist: numpy; extra == "tsv"
 Requires-Dist: pandas; extra == "tsv"
+Requires-Dist: numpy; extra == "tsv"
 Provides-Extra: xlsx
 Requires-Dist: unstructured[xlsx]; extra == "xlsx"
-Requires-Dist: numpy; extra == "xlsx"
 Requires-Dist: pandas; extra == "xlsx"
+Requires-Dist: numpy; extra == "xlsx"
 Provides-Extra: airtable
 Requires-Dist: pyairtable; extra == "airtable"
-Requires-Dist: numpy; extra == "airtable"
 Requires-Dist: pandas; extra == "airtable"
+Requires-Dist: numpy; extra == "airtable"
 Provides-Extra: astradb
 Requires-Dist: astrapy; extra == "astradb"
-Requires-Dist: numpy; extra == "astradb"
 Requires-Dist: pandas; extra == "astradb"
+Requires-Dist: numpy; extra == "astradb"
 Provides-Extra: azure
-Requires-Dist: adlfs; extra == "azure"
 Requires-Dist: fsspec; extra == "azure"
-Requires-Dist: numpy; extra == "azure"
+Requires-Dist: adlfs; extra == "azure"
 Requires-Dist: pandas; extra == "azure"
+Requires-Dist: numpy; extra == "azure"
 Provides-Extra: azure-ai-search
 Requires-Dist: azure-search-documents; extra == "azure-ai-search"
-Requires-Dist: numpy; extra == "azure-ai-search"
 Requires-Dist: pandas; extra == "azure-ai-search"
+Requires-Dist: numpy; extra == "azure-ai-search"
 Provides-Extra: biomed
 Requires-Dist: requests; extra == "biomed"
 Requires-Dist: bs4; extra == "biomed"
-Requires-Dist: numpy; extra == "biomed"
 Requires-Dist: pandas; extra == "biomed"
+Requires-Dist: numpy; extra == "biomed"
 Provides-Extra: box
 Requires-Dist: fsspec; extra == "box"
 Requires-Dist: boxfs; extra == "box"
-Requires-Dist: numpy; extra == "box"
 Requires-Dist: pandas; extra == "box"
+Requires-Dist: numpy; extra == "box"
 Provides-Extra: chroma
 Requires-Dist: chromadb; extra == "chroma"
-Requires-Dist: numpy; extra == "chroma"
 Requires-Dist: pandas; extra == "chroma"
+Requires-Dist: numpy; extra == "chroma"
 Provides-Extra: clarifai
 Requires-Dist: clarifai; extra == "clarifai"
-Requires-Dist: numpy; extra == "clarifai"
 Requires-Dist: pandas; extra == "clarifai"
+Requires-Dist: numpy; extra == "clarifai"
 Provides-Extra: confluence
-Requires-Dist: requests; extra == "confluence"
 Requires-Dist: atlassian-python-api; extra == "confluence"
-Requires-Dist: numpy; extra == "confluence"
+Requires-Dist: requests; extra == "confluence"
 Requires-Dist: pandas; extra == "confluence"
+Requires-Dist: numpy; extra == "confluence"
 Provides-Extra: couchbase
 Requires-Dist: couchbase; extra == "couchbase"
-Requires-Dist: numpy; extra == "couchbase"
 Requires-Dist: pandas; extra == "couchbase"
+Requires-Dist: numpy; extra == "couchbase"
 Provides-Extra: delta-table
 Requires-Dist: boto3; extra == "delta-table"
 Requires-Dist: deltalake; extra == "delta-table"
-Requires-Dist: numpy; extra == "delta-table"
 Requires-Dist: pandas; extra == "delta-table"
+Requires-Dist: numpy; extra == "delta-table"
 Provides-Extra: discord
 Requires-Dist: discord.py; extra == "discord"
-Requires-Dist: numpy; extra == "discord"
 Requires-Dist: pandas; extra == "discord"
+Requires-Dist: numpy; extra == "discord"
 Provides-Extra: dropbox
-Requires-Dist: dropboxdrivefs; extra == "dropbox"
 Requires-Dist: fsspec; extra == "dropbox"
-Requires-Dist: numpy; extra == "dropbox"
+Requires-Dist: dropboxdrivefs; extra == "dropbox"
 Requires-Dist: pandas; extra == "dropbox"
+Requires-Dist: numpy; extra == "dropbox"
 Provides-Extra: duckdb
 Requires-Dist: duckdb; extra == "duckdb"
-Requires-Dist: numpy; extra == "duckdb"
 Requires-Dist: pandas; extra == "duckdb"
+Requires-Dist: numpy; extra == "duckdb"
 Provides-Extra: elasticsearch
 Requires-Dist: elasticsearch[async]; extra == "elasticsearch"
-Requires-Dist: numpy; extra == "elasticsearch"
 Requires-Dist: pandas; extra == "elasticsearch"
+Requires-Dist: numpy; extra == "elasticsearch"
 Provides-Extra: gcs
+Requires-Dist: fsspec; extra == "gcs"
 Requires-Dist: bs4; extra == "gcs"
 Requires-Dist: gcsfs; extra == "gcs"
-Requires-Dist: fsspec; extra == "gcs"
-Requires-Dist: numpy; extra == "gcs"
 Requires-Dist: pandas; extra == "gcs"
+Requires-Dist: numpy; extra == "gcs"
 Provides-Extra: github
 Requires-Dist: requests; extra == "github"
 Requires-Dist: pygithub>1.58.0; extra == "github"
-Requires-Dist: numpy; extra == "github"
 Requires-Dist: pandas; extra == "github"
+Requires-Dist: numpy; extra == "github"
 Provides-Extra: gitlab
 Requires-Dist: python-gitlab; extra == "gitlab"
-Requires-Dist: numpy; extra == "gitlab"
 Requires-Dist: pandas; extra == "gitlab"
+Requires-Dist: numpy; extra == "gitlab"
 Provides-Extra: google-drive
 Requires-Dist: google-api-python-client; extra == "google-drive"
-Requires-Dist: numpy; extra == "google-drive"
 Requires-Dist: pandas; extra == "google-drive"
+Requires-Dist: numpy; extra == "google-drive"
 Provides-Extra: hubspot
 Requires-Dist: hubspot-api-client; extra == "hubspot"
 Requires-Dist: urllib3; extra == "hubspot"
-Requires-Dist: numpy; extra == "hubspot"
 Requires-Dist: pandas; extra == "hubspot"
+Requires-Dist: numpy; extra == "hubspot"
 Provides-Extra: ibm-watsonx-s3
-Requires-Dist: httpx; extra == "ibm-watsonx-s3"
-Requires-Dist: pyiceberg; extra == "ibm-watsonx-s3"
 Requires-Dist: tenacity; extra == "ibm-watsonx-s3"
 Requires-Dist: pyarrow; extra == "ibm-watsonx-s3"
-Requires-Dist: numpy; extra == "ibm-watsonx-s3"
+Requires-Dist: pyiceberg; extra == "ibm-watsonx-s3"
+Requires-Dist: httpx; extra == "ibm-watsonx-s3"
 Requires-Dist: pandas; extra == "ibm-watsonx-s3"
+Requires-Dist: numpy; extra == "ibm-watsonx-s3"
 Provides-Extra: jira
 Requires-Dist: atlassian-python-api; extra == "jira"
-Requires-Dist: numpy; extra == "jira"
 Requires-Dist: pandas; extra == "jira"
+Requires-Dist: numpy; extra == "jira"
 Provides-Extra: kafka
 Requires-Dist: confluent-kafka; extra == "kafka"
-Requires-Dist: numpy; extra == "kafka"
 Requires-Dist: pandas; extra == "kafka"
+Requires-Dist: numpy; extra == "kafka"
 Provides-Extra: kdbai
 Requires-Dist: kdbai-client>=1.4.0; extra == "kdbai"
-Requires-Dist: numpy; extra == "kdbai"
 Requires-Dist: pandas; extra == "kdbai"
+Requires-Dist: numpy; extra == "kdbai"
 Provides-Extra: lancedb
 Requires-Dist: lancedb; extra == "lancedb"
-Requires-Dist: numpy; extra == "lancedb"
 Requires-Dist: pandas; extra == "lancedb"
+Requires-Dist: numpy; extra == "lancedb"
 Provides-Extra: milvus
 Requires-Dist: pymilvus; extra == "milvus"
-Requires-Dist: numpy; extra == "milvus"
 Requires-Dist: pandas; extra == "milvus"
+Requires-Dist: numpy; extra == "milvus"
 Provides-Extra: mongodb
 Requires-Dist: pymongo; extra == "mongodb"
-Requires-Dist: numpy; extra == "mongodb"
 Requires-Dist: pandas; extra == "mongodb"
+Requires-Dist: numpy; extra == "mongodb"
 Provides-Extra: neo4j
-Requires-Dist: networkx; extra == "neo4j"
-Requires-Dist: cymple; extra == "neo4j"
 Requires-Dist: neo4j-rust-ext; extra == "neo4j"
-Requires-Dist: numpy; extra == "neo4j"
+Requires-Dist: cymple; extra == "neo4j"
+Requires-Dist: networkx; extra == "neo4j"
 Requires-Dist: pandas; extra == "neo4j"
+Requires-Dist: numpy; extra == "neo4j"
 Provides-Extra: notion
-Requires-Dist: httpx; extra == "notion"
+Requires-Dist: backoff; extra == "notion"
 Requires-Dist: notion-client; extra == "notion"
+Requires-Dist: httpx; extra == "notion"
 Requires-Dist: htmlBuilder; extra == "notion"
-Requires-Dist: backoff; extra == "notion"
-Requires-Dist: numpy; extra == "notion"
 Requires-Dist: pandas; extra == "notion"
+Requires-Dist: numpy; extra == "notion"
 Provides-Extra: onedrive
 Requires-Dist: Office365-REST-Python-Client; extra == "onedrive"
-Requires-Dist: bs4; extra == "onedrive"
 Requires-Dist: msal; extra == "onedrive"
-Requires-Dist: numpy; extra == "onedrive"
+Requires-Dist: bs4; extra == "onedrive"
 Requires-Dist: pandas; extra == "onedrive"
+Requires-Dist: numpy; extra == "onedrive"
 Provides-Extra: opensearch
 Requires-Dist: opensearch-py; extra == "opensearch"
-Requires-Dist: numpy; extra == "opensearch"
 Requires-Dist: pandas; extra == "opensearch"
+Requires-Dist: numpy; extra == "opensearch"
 Provides-Extra: outlook
 Requires-Dist: Office365-REST-Python-Client; extra == "outlook"
 Requires-Dist: msal; extra == "outlook"
-Requires-Dist: numpy; extra == "outlook"
 Requires-Dist: pandas; extra == "outlook"
+Requires-Dist: numpy; extra == "outlook"
 Provides-Extra: pinecone
 Requires-Dist: pinecone-client>=3.7.1; extra == "pinecone"
-Requires-Dist: numpy; extra == "pinecone"
 Requires-Dist: pandas; extra == "pinecone"
+Requires-Dist: numpy; extra == "pinecone"
 Provides-Extra: postgres
 Requires-Dist: psycopg2-binary; extra == "postgres"
-Requires-Dist: numpy; extra == "postgres"
 Requires-Dist: pandas; extra == "postgres"
+Requires-Dist: numpy; extra == "postgres"
 Provides-Extra: qdrant
 Requires-Dist: qdrant-client; extra == "qdrant"
-Requires-Dist: numpy; extra == "qdrant"
 Requires-Dist: pandas; extra == "qdrant"
+Requires-Dist: numpy; extra == "qdrant"
 Provides-Extra: reddit
 Requires-Dist: praw; extra == "reddit"
-Requires-Dist: numpy; extra == "reddit"
 Requires-Dist: pandas; extra == "reddit"
+Requires-Dist: numpy; extra == "reddit"
 Provides-Extra: redis
 Requires-Dist: redis; extra == "redis"
-Requires-Dist: numpy; extra == "redis"
 Requires-Dist: pandas; extra == "redis"
+Requires-Dist: numpy; extra == "redis"
 Provides-Extra: s3
-Requires-Dist: s3fs; extra == "s3"
 Requires-Dist: fsspec; extra == "s3"
-Requires-Dist: numpy; extra == "s3"
+Requires-Dist: s3fs; extra == "s3"
 Requires-Dist: pandas; extra == "s3"
+Requires-Dist: numpy; extra == "s3"
 Provides-Extra: sharepoint
 Requires-Dist: Office365-REST-Python-Client; extra == "sharepoint"
 Requires-Dist: msal; extra == "sharepoint"
-Requires-Dist: numpy; extra == "sharepoint"
 Requires-Dist: pandas; extra == "sharepoint"
+Requires-Dist: numpy; extra == "sharepoint"
 Provides-Extra: salesforce
 Requires-Dist: simple-salesforce; extra == "salesforce"
-Requires-Dist: numpy; extra == "salesforce"
 Requires-Dist: pandas; extra == "salesforce"
+Requires-Dist: numpy; extra == "salesforce"
 Provides-Extra: sftp
 Requires-Dist: paramiko; extra == "sftp"
 Requires-Dist: fsspec; extra == "sftp"
-Requires-Dist: numpy; extra == "sftp"
 Requires-Dist: pandas; extra == "sftp"
+Requires-Dist: numpy; extra == "sftp"
 Provides-Extra: slack
 Requires-Dist: slack_sdk[optional]; extra == "slack"
-Requires-Dist: numpy; extra == "slack"
 Requires-Dist: pandas; extra == "slack"
+Requires-Dist: numpy; extra == "slack"
 Provides-Extra: snowflake
 Requires-Dist: snowflake-connector-python; extra == "snowflake"
 Requires-Dist: psycopg2-binary; extra == "snowflake"
-Requires-Dist: numpy; extra == "snowflake"
 Requires-Dist: pandas; extra == "snowflake"
+Requires-Dist: numpy; extra == "snowflake"
 Provides-Extra: wikipedia
 Requires-Dist: wikipedia; extra == "wikipedia"
-Requires-Dist: numpy; extra == "wikipedia"
 Requires-Dist: pandas; extra == "wikipedia"
+Requires-Dist: numpy; extra == "wikipedia"
 Provides-Extra: weaviate
 Requires-Dist: weaviate-client; extra == "weaviate"
-Requires-Dist: numpy; extra == "weaviate"
 Requires-Dist: pandas; extra == "weaviate"
+Requires-Dist: numpy; extra == "weaviate"
 Provides-Extra: databricks-volumes
 Requires-Dist: databricks-sdk; extra == "databricks-volumes"
-Requires-Dist: numpy; extra == "databricks-volumes"
 Requires-Dist: pandas; extra == "databricks-volumes"
+Requires-Dist: numpy; extra == "databricks-volumes"
 Provides-Extra: databricks-delta-tables
 Requires-Dist: databricks-sql-connector; extra == "databricks-delta-tables"
-Requires-Dist: numpy; extra == "databricks-delta-tables"
 Requires-Dist: pandas; extra == "databricks-delta-tables"
+Requires-Dist: numpy; extra == "databricks-delta-tables"
 Provides-Extra: singlestore
 Requires-Dist: singlestoredb; extra == "singlestore"
-Requires-Dist: numpy; extra == "singlestore"
 Requires-Dist: pandas; extra == "singlestore"
+Requires-Dist: numpy; extra == "singlestore"
 Provides-Extra: vectara
 Requires-Dist: requests; extra == "vectara"
-Requires-Dist: aiofiles; extra == "vectara"
 Requires-Dist: httpx; extra == "vectara"
-Requires-Dist: numpy; extra == "vectara"
+Requires-Dist: aiofiles; extra == "vectara"
 Requires-Dist: pandas; extra == "vectara"
+Requires-Dist: numpy; extra == "vectara"
 Provides-Extra: vastdb
-Requires-Dist: vastdb; extra == "vastdb"
-Requires-Dist: ibis; extra == "vastdb"
 Requires-Dist: pyarrow; extra == "vastdb"
-Requires-Dist: numpy; extra == "vastdb"
+Requires-Dist: ibis; extra == "vastdb"
+Requires-Dist: vastdb; extra == "vastdb"
 Requires-Dist: pandas; extra == "vastdb"
+Requires-Dist: numpy; extra == "vastdb"
 Provides-Extra: zendesk
 Requires-Dist: httpx; extra == "zendesk"
-Requires-Dist: aiofiles; extra == "zendesk"
 Requires-Dist: bs4; extra == "zendesk"
-Requires-Dist: numpy; extra == "zendesk"
+Requires-Dist: aiofiles; extra == "zendesk"
 Requires-Dist: pandas; extra == "zendesk"
+Requires-Dist: numpy; extra == "zendesk"
 Provides-Extra: embed-huggingface
 Requires-Dist: sentence-transformers; extra == "embed-huggingface"
-Requires-Dist: numpy; extra == "embed-huggingface"
 Requires-Dist: pandas; extra == "embed-huggingface"
+Requires-Dist: numpy; extra == "embed-huggingface"
 Provides-Extra: embed-octoai
 Requires-Dist: openai; extra == "embed-octoai"
 Requires-Dist: tiktoken; extra == "embed-octoai"
-Requires-Dist: numpy; extra == "embed-octoai"
 Requires-Dist: pandas; extra == "embed-octoai"
+Requires-Dist: numpy; extra == "embed-octoai"
 Provides-Extra: embed-vertexai
 Requires-Dist: vertexai; extra == "embed-vertexai"
-Requires-Dist: numpy; extra == "embed-vertexai"
 Requires-Dist: pandas; extra == "embed-vertexai"
+Requires-Dist: numpy; extra == "embed-vertexai"
 Provides-Extra: embed-voyageai
 Requires-Dist: voyageai; extra == "embed-voyageai"
-Requires-Dist: numpy; extra == "embed-voyageai"
 Requires-Dist: pandas; extra == "embed-voyageai"
+Requires-Dist: numpy; extra == "embed-voyageai"
 Provides-Extra: embed-mixedbreadai
 Requires-Dist: mixedbread-ai; extra == "embed-mixedbreadai"
-Requires-Dist: numpy; extra == "embed-mixedbreadai"
 Requires-Dist: pandas; extra == "embed-mixedbreadai"
+Requires-Dist: numpy; extra == "embed-mixedbreadai"
 Provides-Extra: openai
 Requires-Dist: openai; extra == "openai"
 Requires-Dist: tiktoken; extra == "openai"
-Requires-Dist: numpy; extra == "openai"
 Requires-Dist: pandas; extra == "openai"
+Requires-Dist: numpy; extra == "openai"
 Provides-Extra: bedrock
 Requires-Dist: boto3; extra == "bedrock"
 Requires-Dist: aioboto3; extra == "bedrock"
-Requires-Dist: numpy; extra == "bedrock"
 Requires-Dist: pandas; extra == "bedrock"
+Requires-Dist: numpy; extra == "bedrock"
 Provides-Extra: togetherai
 Requires-Dist: together; extra == "togetherai"
-Requires-Dist: numpy; extra == "togetherai"
 Requires-Dist: pandas; extra == "togetherai"
+Requires-Dist: numpy; extra == "togetherai"
 Dynamic: author
 Dynamic: author-email
 Dynamic: classifier

{unstructured_ingest-0.6.1.dist-info → unstructured_ingest-0.6.2.dist-info}/RECORD RENAMED Viewed

@@ -91,8 +91,6 @@ test/unit/v2/chunkers/test_chunkers.py,sha256=HSr3_lsoMw1nkDhkjO0-NOTEomRdR9oxCr
 test/unit/v2/connectors/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 test/unit/v2/connectors/test_confluence.py,sha256=lN6nnU5qOtmsjIGcz65roepm76w4vPF7AmSzi9vqV78,1919
 test/unit/v2/connectors/test_jira.py,sha256=XEBBDSdNZWUVO5JbpiSsjazJYmbLsgXUOW-APqPRKLg,12113
-test/unit/v2/connectors/databricks/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-test/unit/v2/connectors/databricks/test_volumes_table.py,sha256=-R_EJHqv1BseGRK9VRAZhF-2EXA64LAlhycoyIu556U,1078
 test/unit/v2/connectors/ibm_watsonx/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 test/unit/v2/connectors/ibm_watsonx/test_ibm_watsonx_s3.py,sha256=WKpDKvEGalh8LYRqN9xA7CfMPOPHo_VcZbnCXdkVjho,14513
 test/unit/v2/connectors/motherduck/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -113,7 +111,7 @@ test/unit/v2/partitioners/test_partitioner.py,sha256=iIYg7IpftV3LusoO4H8tr1IHY1U
 test/unit/v2/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 test/unit/v2/utils/data_generator.py,sha256=UoYVNjG4S4wlaA9gceQ82HIpF9_6I1UTHD1_GrQBHp0,973
 unstructured_ingest/__init__.py,sha256=U4S_2y3zgLZVfMenHRaJFBW8yqh2mUBuI291LGQVOJ8,35
-unstructured_ingest/__version__.py,sha256=vYkj5wI9darc7y1Fll8uAtxzlI0lqsa5gGerwBBkeIQ,42
+unstructured_ingest/__version__.py,sha256=UDy7drjkPUljex5sEiDR3ZALQNnlcrCXwJShdKZ37Ek,42
 unstructured_ingest/error.py,sha256=qDncnJgbf5ils956RcO2CGlAKYDT5OaEM9Clv1JVTNc,1448
 unstructured_ingest/interfaces.py,sha256=7DOnDpGvUNlCoFR7UPRGmOarqH5sFtuUOO5vf8X3oTM,31489
 unstructured_ingest/logger.py,sha256=S5nSqGcABoQyeicgRnBQFjDScCaTvFVivOCvbo-laL0,4479
@@ -454,14 +452,15 @@ unstructured_ingest/v2/processes/connectors/slack.py,sha256=vbBVCYEd741-n2v6eAXL
 unstructured_ingest/v2/processes/connectors/utils.py,sha256=TAd0hb1f291N-q7-TUe6JKSCGkhqDyo7Ij8zmliBZUc,2071
 unstructured_ingest/v2/processes/connectors/vectara.py,sha256=KUqgZ6D2KUOrW596ms-EekvQYDh-fXqBTa7KG-leXoo,12301
 unstructured_ingest/v2/processes/connectors/assets/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+unstructured_ingest/v2/processes/connectors/assets/databricks_delta_table_schema.sql,sha256=dUZZDNkyvQXKqoAThRz3ek7zaUE2l_LAQimlG5WZhH4,211
 unstructured_ingest/v2/processes/connectors/assets/weaviate_collection_config.json,sha256=SJlIO0kXxy866tWQ8bEzvwLwflsoUMIS-OKlxMvHIuE,504
 unstructured_ingest/v2/processes/connectors/databricks/__init__.py,sha256=Oh8SwTWi66gO8BsNF6vRMoQVuegyBPPCpVozkOHEf3A,2136
-unstructured_ingest/v2/processes/connectors/databricks/volumes.py,sha256=8fg11-32If4iQGZTT9MEl1DOWZ5s3Qgj1OOzMVaHldU,7749
+unstructured_ingest/v2/processes/connectors/databricks/volumes.py,sha256=EghKdkt4nGacGxulSpjhToHOl5BRLbb3xNZpJzpWNX8,8002
 unstructured_ingest/v2/processes/connectors/databricks/volumes_aws.py,sha256=h6qDxQhWlT7H4K1CEfKag1stTiD1o97VckJZERsofqU,2970
 unstructured_ingest/v2/processes/connectors/databricks/volumes_azure.py,sha256=gjICJJwhDHBLt_L-LrMlvJ3DL1DYtwFpyMLb_zYvOIg,3755
 unstructured_ingest/v2/processes/connectors/databricks/volumes_gcp.py,sha256=Uss3XPPaq1AsqJOEy4RJgBJw2-bTjrXH2PgtVNYd2w0,3006
 unstructured_ingest/v2/processes/connectors/databricks/volumes_native.py,sha256=g1qYnIrML4TjN7rmC0MGrD5JzAprb6SymBHlEdOumz0,3113
-unstructured_ingest/v2/processes/connectors/databricks/volumes_table.py,sha256=5BArD1FkLC6wRJC0LxjXxQmYfmtF7r9Zrd8CtaGgWls,6855
+unstructured_ingest/v2/processes/connectors/databricks/volumes_table.py,sha256=LiSb66039idaRtMnTuHjR5ZqvdmmIu3ByUgFQ1a3iZQ,8264
 unstructured_ingest/v2/processes/connectors/duckdb/__init__.py,sha256=5sVvJCWhU-YkjHIwk4W6BZCanFYK5W4xTpWtQ8xzeB4,561
 unstructured_ingest/v2/processes/connectors/duckdb/base.py,sha256=VCoQ3h289BO4A2kJKZXUVB0QOcaQif-HeRgg-xXzn10,2976
 unstructured_ingest/v2/processes/connectors/duckdb/duckdb.py,sha256=DM4pygQAnP-dtuFEFAVeBfGt0pzrfkltteCai0GKnG0,4439
@@ -582,9 +581,9 @@ unstructured_ingest/v2/processes/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JC
 unstructured_ingest/v2/processes/utils/blob_storage.py,sha256=_I3OMdpUElQdIwVs7W9ORU1kncNaZ_nr6lbxeKE8uaU,1014
 unstructured_ingest/v2/types/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 unstructured_ingest/v2/types/file_data.py,sha256=kowOhvYy0q_-khX3IuR111AfjkdQezEfxjzK6QDH7oA,3836
-unstructured_ingest-0.6.1.dist-info/LICENSE.md,sha256=SxkKP_62uIAKb9mb1eH7FH4Kn2aYT09fgjKpJt5PyTk,11360
-unstructured_ingest-0.6.1.dist-info/METADATA,sha256=Babhsu1h1L0nvRFeImk9Jn-jPjnaW-jdz6mhB3jkmbI,14998
-unstructured_ingest-0.6.1.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
-unstructured_ingest-0.6.1.dist-info/entry_points.txt,sha256=gUAAFnjFPnBgThJSEbw0N5ZjxtaKlT1s9e05_arQrNw,70
-unstructured_ingest-0.6.1.dist-info/top_level.txt,sha256=DMuDMHZRMdeay8v8Kdi855muIv92F0OkutvBCaBEW6M,25
-unstructured_ingest-0.6.1.dist-info/RECORD,,
+unstructured_ingest-0.6.2.dist-info/LICENSE.md,sha256=SxkKP_62uIAKb9mb1eH7FH4Kn2aYT09fgjKpJt5PyTk,11360
+unstructured_ingest-0.6.2.dist-info/METADATA,sha256=yUMpJD0UXDhUG1cIIpHkjn-VU2AScEaA12wLmISmG-A,14998
+unstructured_ingest-0.6.2.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
+unstructured_ingest-0.6.2.dist-info/entry_points.txt,sha256=gUAAFnjFPnBgThJSEbw0N5ZjxtaKlT1s9e05_arQrNw,70
+unstructured_ingest-0.6.2.dist-info/top_level.txt,sha256=DMuDMHZRMdeay8v8Kdi855muIv92F0OkutvBCaBEW6M,25
+unstructured_ingest-0.6.2.dist-info/RECORD,,

test/unit/v2/connectors/databricks/__init__.py DELETED Viewed

File without changes

test/unit/v2/connectors/databricks/test_volumes_table.py DELETED Viewed

@@ -1,44 +0,0 @@
-from pathlib import Path
-import pytest
-from pytest_mock import MockerFixture
-from unstructured_ingest.v2.processes.connectors.databricks.volumes_table import (
-    DatabricksVolumeDeltaTableStager,
-)
-@pytest.fixture
-def stager():
-    return DatabricksVolumeDeltaTableStager()
-@pytest.mark.parametrize(
-    ("output_path", "called_output_path"),
-    [
-        (
-            Path("/fake/path/output"),
-            Path("/fake/path/output.json"),
-        ),
-        (
-            Path("/fake/path/output.ndjson"),
-            Path("/fake/path/output.json"),
-        ),
-    ],
-)
-def test_write_output(
-    mocker: MockerFixture,
-    stager: DatabricksVolumeDeltaTableStager,
-    output_path: Path,
-    called_output_path: Path,
-):
-    data = [{"key1": "value1", "key2": "value2"}]
-    mock_get_data = mocker.patch(
-        "unstructured_ingest.v2.processes.connectors.databricks.volumes_table.write_data",
-        return_value=None,
-    )
-    stager.write_output(output_path, data)
-    mock_get_data.assert_called_once_with(path=called_output_path, data=data, indent=None)

{unstructured_ingest-0.6.1.dist-info → unstructured_ingest-0.6.2.dist-info}/LICENSE.md RENAMED Viewed

File without changes

{unstructured_ingest-0.6.1.dist-info → unstructured_ingest-0.6.2.dist-info}/WHEEL RENAMED Viewed

File without changes

{unstructured_ingest-0.6.1.dist-info → unstructured_ingest-0.6.2.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{unstructured_ingest-0.6.1.dist-info → unstructured_ingest-0.6.2.dist-info}/top_level.txt RENAMED Viewed

File without changes

unstructured-ingest 0.6.1__py3-none-any.whl → 0.6.2__py3-none-any.whl

Potentially problematic release.

unstructured-ingest 0.6.1py3-none-any.whl → 0.6.2py3-none-any.whl