PyPI - unstructured-ingest - Versions diffs - 0.6.0__py3-none-any.whl → 0.6.2__py3-none-any.whl - Mend

unstructured-ingest 0.6.0py3-none-any.whl → 0.6.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of unstructured-ingest might be problematic. Click here for more details.

Files changed (13) hide show

unstructured_ingest/__version__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "0.6.0" # pragma: no cover
1	+ __version__ = "0.6.2" # pragma: no cover

unstructured_ingest/v2/processes/chunker.py CHANGED Viewed

@@ -6,6 +6,7 @@ from typing import Any, Optional
 from pydantic import BaseModel, Field, SecretStr
 from unstructured_ingest.utils.chunking import assign_and_map_hash_ids
+from unstructured_ingest.utils.data_prep import get_json_data
 from unstructured_ingest.utils.dep_check import requires_dependencies
 from unstructured_ingest.v2.interfaces.process import BaseProcess
 from unstructured_ingest.v2.logger import logger
@@ -92,9 +93,11 @@ class Chunker(BaseProcess, ABC):
     @requires_dependencies(dependencies=["unstructured"])
     def run(self, elements_filepath: Path, **kwargs: Any) -> list[dict]:
         from unstructured.chunking import dispatch
-        from unstructured.staging.base import elements_from_json
+        from unstructured.staging.base import elements_from_dicts
-        elements = elements_from_json(filename=str(elements_filepath))
+        element_dicts = get_json_data(elements_filepath)
+        elements = elements_from_dicts(element_dicts=element_dicts)
         if not elements:
             return [e.to_dict() for e in elements]
         local_chunking_strategies = ("basic", "by_title")

unstructured_ingest/v2/processes/connectors/assets/databricks_delta_table_schema.sql ADDED Viewed

@@ -0,0 +1,10 @@
+CREATE TABLE elements (
+    id STRING NOT NULL PRIMARY KEY,
+    record_id STRING NOT NULL,
+    element_id STRING NOT NULL,
+    text STRING,
+    embeddings ARRAY<FLOAT>,
+    type STRING,
+    metadata VARIANT
+);

unstructured_ingest/v2/processes/connectors/databricks/volumes.py CHANGED Viewed

@@ -5,7 +5,7 @@ from pathlib import Path
 from typing import TYPE_CHECKING, Any, Generator, Optional
 from uuid import NAMESPACE_DNS, uuid5
-from pydantic import BaseModel, Field
+from pydantic import BaseModel, Field, Secret
 from unstructured_ingest.utils.dep_check import requires_dependencies
 from unstructured_ingest.v2.errors import (
@@ -61,12 +61,14 @@ class DatabricksVolumesAccessConfig(AccessConfig):
 class DatabricksVolumesConnectionConfig(ConnectionConfig, ABC):
+    access_config: Secret[DatabricksVolumesAccessConfig]
     host: Optional[str] = Field(
         default=None,
         description="The Databricks host URL for either the "
         "Databricks workspace endpoint or the "
         "Databricks accounts endpoint.",
     )
+    user_agent: str = "unstructuredio_oss"
     def wrap_error(self, e: Exception) -> Exception:
         from databricks.sdk.errors.base import DatabricksError
@@ -94,11 +96,14 @@ class DatabricksVolumesConnectionConfig(ConnectionConfig, ABC):
     @requires_dependencies(dependencies=["databricks.sdk"], extras="databricks-volumes")
     def get_client(self) -> "WorkspaceClient":
         from databricks.sdk import WorkspaceClient
+        from databricks.sdk.core import Config
-        return WorkspaceClient(
+        config = Config(
             host=self.host,
             **self.access_config.get_secret_value().model_dump(),
-        )
+        ).with_user_agent_extra("PyDatabricksSdk", self.user_agent)
+        return WorkspaceClient(config=config)
 class DatabricksVolumesIndexerConfig(IndexerConfig, DatabricksPathMixin):

unstructured_ingest/v2/processes/connectors/databricks/volumes_table.py CHANGED Viewed

@@ -1,14 +1,20 @@
+import json
 import os
-import tempfile
 from contextlib import contextmanager
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from pathlib import Path
 from typing import TYPE_CHECKING, Any, Generator, Optional
 from pydantic import Field
-from unstructured_ingest.utils.data_prep import get_data_df, write_data
-from unstructured_ingest.v2.interfaces import Uploader, UploaderConfig
+from unstructured_ingest.utils.data_prep import get_json_data, write_data
+from unstructured_ingest.v2.constants import RECORD_ID_LABEL
+from unstructured_ingest.v2.interfaces import (
+    Uploader,
+    UploaderConfig,
+    UploadStager,
+    UploadStagerConfig,
+)
 from unstructured_ingest.v2.logger import logger
 from unstructured_ingest.v2.processes.connector_registry import (
     DestinationRegistryEntry,
@@ -16,28 +22,50 @@ from unstructured_ingest.v2.processes.connector_registry import (
 from unstructured_ingest.v2.processes.connectors.databricks.volumes import DatabricksPathMixin
 from unstructured_ingest.v2.processes.connectors.sql.databricks_delta_tables import (
     DatabricksDeltaTablesConnectionConfig,
-    DatabricksDeltaTablesUploadStager,
     DatabricksDeltaTablesUploadStagerConfig,
 )
 from unstructured_ingest.v2.types.file_data import FileData
+from unstructured_ingest.v2.utils import get_enhanced_element_id
 CONNECTOR_TYPE = "databricks_volume_delta_tables"
 if TYPE_CHECKING:
-    from pandas import DataFrame
+    pass
 class DatabricksVolumeDeltaTableUploaderConfig(UploaderConfig, DatabricksPathMixin):
     database: str = Field(description="Database name", default="default")
-    table_name: str = Field(description="Table name")
+    table_name: Optional[str] = Field(description="Table name", default=None)
+class DatabricksVolumeDeltaTableStagerConfig(UploadStagerConfig):
+    pass
 @dataclass
-class DatabricksVolumeDeltaTableStager(DatabricksDeltaTablesUploadStager):
-    def write_output(self, output_path: Path, data: list[dict]) -> Path:
+class DatabricksVolumeDeltaTableStager(UploadStager):
+    upload_stager_config: DatabricksVolumeDeltaTableStagerConfig = field(
+        default_factory=DatabricksVolumeDeltaTableStagerConfig
+    )
+    def run(
+        self,
+        elements_filepath: Path,
+        output_dir: Path,
+        output_filename: str,
+        file_data: FileData,
+        **kwargs: Any,
+    ) -> Path:
         # To avoid new line issues when migrating from volumes into delta tables, omit indenting
         # and always write it as a json file
+        output_dir.mkdir(exist_ok=True, parents=True)
+        output_path = output_dir / output_filename
         final_output_path = output_path.with_suffix(".json")
+        data = get_json_data(path=elements_filepath)
+        for element in data:
+            element["id"] = get_enhanced_element_id(element_dict=element, file_data=file_data)
+            element[RECORD_ID_LABEL] = file_data.identifier
+            element["metadata"] = json.dumps(element.get("metadata", {}))
         write_data(path=final_output_path, data=data, indent=None)
         return final_output_path
@@ -49,6 +77,29 @@ class DatabricksVolumeDeltaTableUploader(Uploader):
     connector_type: str = CONNECTOR_TYPE
     _columns: Optional[dict[str, str]] = None
+    def init(self, **kwargs: Any) -> None:
+        self.create_destination(**kwargs)
+    def create_destination(
+        self, destination_name: str = "unstructuredautocreated", **kwargs: Any
+    ) -> bool:
+        table_name = self.upload_config.table_name or destination_name
+        self.upload_config.table_name = table_name
+        connectors_dir = Path(__file__).parents[1]
+        collection_config_file = connectors_dir / "assets" / "databricks_delta_table_schema.sql"
+        with self.get_cursor() as cursor:
+            cursor.execute("SHOW TABLES")
+            table_names = [r[1] for r in cursor.fetchall()]
+            if table_name in table_names:
+                return False
+            with collection_config_file.open() as schema_file:
+                data_lines = schema_file.readlines()
+            data_lines[0] = data_lines[0].replace("elements", table_name)
+            destination_schema = "".join([line.strip() for line in data_lines])
+            logger.info(f"creating table {table_name} for user")
+            cursor.execute(destination_schema)
+            return True
     def precheck(self) -> None:
         with self.connection_config.get_cursor() as cursor:
             cursor.execute("SHOW CATALOGS")
@@ -68,14 +119,6 @@ class DatabricksVolumeDeltaTableUploader(Uploader):
                         self.upload_config.database, ", ".join(databases)
                     )
                 )
-            cursor.execute(f"SHOW TABLES IN {self.upload_config.database}")
-            table_names = [r[1] for r in cursor.fetchall()]
-            if self.upload_config.table_name not in table_names:
-                raise ValueError(
-                    "Table {} not found in {}".format(
-                        self.upload_config.table_name, ", ".join(table_names)
-                    )
-                )
     def get_output_path(self, file_data: FileData, suffix: str = ".json") -> str:
         filename = Path(file_data.source_identifiers.filename)
@@ -98,51 +141,42 @@ class DatabricksVolumeDeltaTableUploader(Uploader):
                 self._columns = {desc[0]: desc[1] for desc in cursor.description}
         return self._columns
-    def _fit_to_schema(self, df: "DataFrame", add_missing_columns: bool = True) -> "DataFrame":
-        import pandas as pd
-        table_columns = self.get_table_columns()
-        columns = set(df.columns)
-        schema_fields = set(table_columns.keys())
-        columns_to_drop = columns - schema_fields
-        missing_columns = schema_fields - columns
-        if columns_to_drop:
-            logger.info(
-                "Following columns will be dropped to match the table's schema: "
-                f"{', '.join(columns_to_drop)}"
-            )
-        if missing_columns and add_missing_columns:
-            logger.info(
-                "Following null filled columns will be added to match the table's schema:"
-                f" {', '.join(missing_columns)} "
+    def can_delete(self) -> bool:
+        existing_columns = self.get_table_columns()
+        return RECORD_ID_LABEL in existing_columns
+    def delete_previous_content(self, file_data: FileData) -> None:
+        logger.debug(
+            f"deleting any content with metadata "
+            f"{RECORD_ID_LABEL}={file_data.identifier} "
+            f"from delta table: {self.upload_config.table_name}"
+        )
+        with self.get_cursor() as cursor:
+            cursor.execute(
+                f"DELETE FROM {self.upload_config.table_name} WHERE {RECORD_ID_LABEL} = '{file_data.identifier}'"  # noqa: E501
             )
-        df = df.drop(columns=columns_to_drop)
-        if add_missing_columns:
-            for column in missing_columns:
-                df[column] = pd.Series()
-        return df
+            results = cursor.fetchall()
+            deleted_rows = results[0][0]
+            logger.debug(f"deleted {deleted_rows} rows from table {self.upload_config.table_name}")
     def run(self, path: Path, file_data: FileData, **kwargs: Any) -> None:
-        with tempfile.TemporaryDirectory() as temp_dir:
-            df = get_data_df()
-            df = self._fit_to_schema(df=df)
-            temp_path = Path(temp_dir) / path.name
-            df.to_json(temp_path, orient="records", lines=False)
-            with self.get_cursor(staging_allowed_local_path=temp_dir) as cursor:
-                catalog_path = self.get_output_path(file_data=file_data)
-                logger.debug(f"uploading {path.as_posix()} to {catalog_path}")
-                cursor.execute(f"PUT '{temp_path.as_posix()}' INTO '{catalog_path}' OVERWRITE")
-                logger.debug(
-                    f"migrating content from {catalog_path} to "
-                    f"table {self.upload_config.table_name}"
-                )
-                columns = list(df.columns)
-                column_str = ", ".join(columns)
-                sql_statment = f"INSERT INTO `{self.upload_config.table_name}` ({column_str}) SELECT {column_str} FROM json.`{catalog_path}`"  # noqa: E501
-                cursor.execute(sql_statment)
+        if self.can_delete():
+            self.delete_previous_content(file_data=file_data)
+        with self.get_cursor(staging_allowed_local_path=path.parent.as_posix()) as cursor:
+            catalog_path = self.get_output_path(file_data=file_data)
+            logger.debug(f"uploading {path.as_posix()} to {catalog_path}")
+            cursor.execute(f"PUT '{path.as_posix()}' INTO '{catalog_path}' OVERWRITE")
+            logger.debug(
+                f"migrating content from {catalog_path} to "
+                f"table {self.upload_config.table_name}"
+            )
+            data = get_json_data(path=path)
+            columns = data[0].keys()
+            select_columns = ["PARSE_JSON(metadata)" if c == "metadata" else c for c in columns]
+            column_str = ", ".join(columns)
+            select_column_str = ", ".join(select_columns)
+            sql_statment = f"INSERT INTO `{self.upload_config.table_name}` ({column_str}) SELECT {select_column_str} FROM json.`{catalog_path}`"  # noqa: E501
+            cursor.execute(sql_statment)
 databricks_volumes_delta_tables_destination_entry = DestinationRegistryEntry(

{unstructured_ingest-0.6.0.dist-info → unstructured_ingest-0.6.2.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.2
 Name: unstructured-ingest
-Version: 0.6.0
+Version: 0.6.2
 Summary: A library that prepares raw documents for downstream ML tasks.
 Home-page: https://github.com/Unstructured-IO/unstructured-ingest
 Author: Unstructured Technologies
@@ -22,12 +22,12 @@ Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Requires-Python: >=3.9.0,<3.14
 Description-Content-Type: text/markdown
 License-File: LICENSE.md
-Requires-Dist: opentelemetry-sdk
+Requires-Dist: click
+Requires-Dist: python-dateutil
 Requires-Dist: dataclasses_json
 Requires-Dist: pydantic>=2.7
-Requires-Dist: python-dateutil
-Requires-Dist: click
 Requires-Dist: tqdm
+Requires-Dist: opentelemetry-sdk
 Requires-Dist: pandas
 Requires-Dist: numpy
 Provides-Extra: remote
@@ -103,8 +103,8 @@ Requires-Dist: astrapy; extra == "astradb"
 Requires-Dist: pandas; extra == "astradb"
 Requires-Dist: numpy; extra == "astradb"
 Provides-Extra: azure
-Requires-Dist: adlfs; extra == "azure"
 Requires-Dist: fsspec; extra == "azure"
+Requires-Dist: adlfs; extra == "azure"
 Requires-Dist: pandas; extra == "azure"
 Requires-Dist: numpy; extra == "azure"
 Provides-Extra: azure-ai-search
@@ -117,8 +117,8 @@ Requires-Dist: bs4; extra == "biomed"
 Requires-Dist: pandas; extra == "biomed"
 Requires-Dist: numpy; extra == "biomed"
 Provides-Extra: box
-Requires-Dist: boxfs; extra == "box"
 Requires-Dist: fsspec; extra == "box"
+Requires-Dist: boxfs; extra == "box"
 Requires-Dist: pandas; extra == "box"
 Requires-Dist: numpy; extra == "box"
 Provides-Extra: chroma
@@ -130,8 +130,8 @@ Requires-Dist: clarifai; extra == "clarifai"
 Requires-Dist: pandas; extra == "clarifai"
 Requires-Dist: numpy; extra == "clarifai"
 Provides-Extra: confluence
-Requires-Dist: requests; extra == "confluence"
 Requires-Dist: atlassian-python-api; extra == "confluence"
+Requires-Dist: requests; extra == "confluence"
 Requires-Dist: pandas; extra == "confluence"
 Requires-Dist: numpy; extra == "confluence"
 Provides-Extra: couchbase
@@ -161,14 +161,14 @@ Requires-Dist: elasticsearch[async]; extra == "elasticsearch"
 Requires-Dist: pandas; extra == "elasticsearch"
 Requires-Dist: numpy; extra == "elasticsearch"
 Provides-Extra: gcs
-Requires-Dist: gcsfs; extra == "gcs"
 Requires-Dist: fsspec; extra == "gcs"
 Requires-Dist: bs4; extra == "gcs"
+Requires-Dist: gcsfs; extra == "gcs"
 Requires-Dist: pandas; extra == "gcs"
 Requires-Dist: numpy; extra == "gcs"
 Provides-Extra: github
-Requires-Dist: pygithub>1.58.0; extra == "github"
 Requires-Dist: requests; extra == "github"
+Requires-Dist: pygithub>1.58.0; extra == "github"
 Requires-Dist: pandas; extra == "github"
 Requires-Dist: numpy; extra == "github"
 Provides-Extra: gitlab
@@ -185,10 +185,10 @@ Requires-Dist: urllib3; extra == "hubspot"
 Requires-Dist: pandas; extra == "hubspot"
 Requires-Dist: numpy; extra == "hubspot"
 Provides-Extra: ibm-watsonx-s3
-Requires-Dist: httpx; extra == "ibm-watsonx-s3"
+Requires-Dist: tenacity; extra == "ibm-watsonx-s3"
 Requires-Dist: pyarrow; extra == "ibm-watsonx-s3"
 Requires-Dist: pyiceberg; extra == "ibm-watsonx-s3"
-Requires-Dist: tenacity; extra == "ibm-watsonx-s3"
+Requires-Dist: httpx; extra == "ibm-watsonx-s3"
 Requires-Dist: pandas; extra == "ibm-watsonx-s3"
 Requires-Dist: numpy; extra == "ibm-watsonx-s3"
 Provides-Extra: jira
@@ -216,21 +216,21 @@ Requires-Dist: pymongo; extra == "mongodb"
 Requires-Dist: pandas; extra == "mongodb"
 Requires-Dist: numpy; extra == "mongodb"
 Provides-Extra: neo4j
-Requires-Dist: networkx; extra == "neo4j"
-Requires-Dist: cymple; extra == "neo4j"
 Requires-Dist: neo4j-rust-ext; extra == "neo4j"
+Requires-Dist: cymple; extra == "neo4j"
+Requires-Dist: networkx; extra == "neo4j"
 Requires-Dist: pandas; extra == "neo4j"
 Requires-Dist: numpy; extra == "neo4j"
 Provides-Extra: notion
 Requires-Dist: backoff; extra == "notion"
-Requires-Dist: httpx; extra == "notion"
 Requires-Dist: notion-client; extra == "notion"
+Requires-Dist: httpx; extra == "notion"
 Requires-Dist: htmlBuilder; extra == "notion"
 Requires-Dist: pandas; extra == "notion"
 Requires-Dist: numpy; extra == "notion"
 Provides-Extra: onedrive
-Requires-Dist: msal; extra == "onedrive"
 Requires-Dist: Office365-REST-Python-Client; extra == "onedrive"
+Requires-Dist: msal; extra == "onedrive"
 Requires-Dist: bs4; extra == "onedrive"
 Requires-Dist: pandas; extra == "onedrive"
 Requires-Dist: numpy; extra == "onedrive"
@@ -239,8 +239,8 @@ Requires-Dist: opensearch-py; extra == "opensearch"
 Requires-Dist: pandas; extra == "opensearch"
 Requires-Dist: numpy; extra == "opensearch"
 Provides-Extra: outlook
-Requires-Dist: msal; extra == "outlook"
 Requires-Dist: Office365-REST-Python-Client; extra == "outlook"
+Requires-Dist: msal; extra == "outlook"
 Requires-Dist: pandas; extra == "outlook"
 Requires-Dist: numpy; extra == "outlook"
 Provides-Extra: pinecone
@@ -269,8 +269,8 @@ Requires-Dist: s3fs; extra == "s3"
 Requires-Dist: pandas; extra == "s3"
 Requires-Dist: numpy; extra == "s3"
 Provides-Extra: sharepoint
-Requires-Dist: msal; extra == "sharepoint"
 Requires-Dist: Office365-REST-Python-Client; extra == "sharepoint"
+Requires-Dist: msal; extra == "sharepoint"
 Requires-Dist: pandas; extra == "sharepoint"
 Requires-Dist: numpy; extra == "sharepoint"
 Provides-Extra: salesforce
@@ -278,8 +278,8 @@ Requires-Dist: simple-salesforce; extra == "salesforce"
 Requires-Dist: pandas; extra == "salesforce"
 Requires-Dist: numpy; extra == "salesforce"
 Provides-Extra: sftp
-Requires-Dist: fsspec; extra == "sftp"
 Requires-Dist: paramiko; extra == "sftp"
+Requires-Dist: fsspec; extra == "sftp"
 Requires-Dist: pandas; extra == "sftp"
 Requires-Dist: numpy; extra == "sftp"
 Provides-Extra: slack
@@ -287,8 +287,8 @@ Requires-Dist: slack_sdk[optional]; extra == "slack"
 Requires-Dist: pandas; extra == "slack"
 Requires-Dist: numpy; extra == "slack"
 Provides-Extra: snowflake
-Requires-Dist: psycopg2-binary; extra == "snowflake"
 Requires-Dist: snowflake-connector-python; extra == "snowflake"
+Requires-Dist: psycopg2-binary; extra == "snowflake"
 Requires-Dist: pandas; extra == "snowflake"
 Requires-Dist: numpy; extra == "snowflake"
 Provides-Extra: wikipedia
@@ -312,21 +312,21 @@ Requires-Dist: singlestoredb; extra == "singlestore"
 Requires-Dist: pandas; extra == "singlestore"
 Requires-Dist: numpy; extra == "singlestore"
 Provides-Extra: vectara
-Requires-Dist: httpx; extra == "vectara"
 Requires-Dist: requests; extra == "vectara"
+Requires-Dist: httpx; extra == "vectara"
 Requires-Dist: aiofiles; extra == "vectara"
 Requires-Dist: pandas; extra == "vectara"
 Requires-Dist: numpy; extra == "vectara"
 Provides-Extra: vastdb
-Requires-Dist: ibis; extra == "vastdb"
 Requires-Dist: pyarrow; extra == "vastdb"
+Requires-Dist: ibis; extra == "vastdb"
 Requires-Dist: vastdb; extra == "vastdb"
 Requires-Dist: pandas; extra == "vastdb"
 Requires-Dist: numpy; extra == "vastdb"
 Provides-Extra: zendesk
 Requires-Dist: httpx; extra == "zendesk"
-Requires-Dist: aiofiles; extra == "zendesk"
 Requires-Dist: bs4; extra == "zendesk"
+Requires-Dist: aiofiles; extra == "zendesk"
 Requires-Dist: pandas; extra == "zendesk"
 Requires-Dist: numpy; extra == "zendesk"
 Provides-Extra: embed-huggingface
@@ -356,8 +356,8 @@ Requires-Dist: tiktoken; extra == "openai"
 Requires-Dist: pandas; extra == "openai"
 Requires-Dist: numpy; extra == "openai"
 Provides-Extra: bedrock
-Requires-Dist: aioboto3; extra == "bedrock"
 Requires-Dist: boto3; extra == "bedrock"
+Requires-Dist: aioboto3; extra == "bedrock"
 Requires-Dist: pandas; extra == "bedrock"
 Requires-Dist: numpy; extra == "bedrock"
 Provides-Extra: togetherai

{unstructured_ingest-0.6.0.dist-info → unstructured_ingest-0.6.2.dist-info}/RECORD RENAMED Viewed

@@ -91,8 +91,6 @@ test/unit/v2/chunkers/test_chunkers.py,sha256=HSr3_lsoMw1nkDhkjO0-NOTEomRdR9oxCr
 test/unit/v2/connectors/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 test/unit/v2/connectors/test_confluence.py,sha256=lN6nnU5qOtmsjIGcz65roepm76w4vPF7AmSzi9vqV78,1919
 test/unit/v2/connectors/test_jira.py,sha256=XEBBDSdNZWUVO5JbpiSsjazJYmbLsgXUOW-APqPRKLg,12113
-test/unit/v2/connectors/databricks/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-test/unit/v2/connectors/databricks/test_volumes_table.py,sha256=-R_EJHqv1BseGRK9VRAZhF-2EXA64LAlhycoyIu556U,1078
 test/unit/v2/connectors/ibm_watsonx/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 test/unit/v2/connectors/ibm_watsonx/test_ibm_watsonx_s3.py,sha256=WKpDKvEGalh8LYRqN9xA7CfMPOPHo_VcZbnCXdkVjho,14513
 test/unit/v2/connectors/motherduck/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -113,7 +111,7 @@ test/unit/v2/partitioners/test_partitioner.py,sha256=iIYg7IpftV3LusoO4H8tr1IHY1U
 test/unit/v2/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 test/unit/v2/utils/data_generator.py,sha256=UoYVNjG4S4wlaA9gceQ82HIpF9_6I1UTHD1_GrQBHp0,973
 unstructured_ingest/__init__.py,sha256=U4S_2y3zgLZVfMenHRaJFBW8yqh2mUBuI291LGQVOJ8,35
-unstructured_ingest/__version__.py,sha256=i3sYvJ7iKJXkLBzcGwrQbcRp0S3NVhrYt6MAMPjU-ss,42
+unstructured_ingest/__version__.py,sha256=UDy7drjkPUljex5sEiDR3ZALQNnlcrCXwJShdKZ37Ek,42
 unstructured_ingest/error.py,sha256=qDncnJgbf5ils956RcO2CGlAKYDT5OaEM9Clv1JVTNc,1448
 unstructured_ingest/interfaces.py,sha256=7DOnDpGvUNlCoFR7UPRGmOarqH5sFtuUOO5vf8X3oTM,31489
 unstructured_ingest/logger.py,sha256=S5nSqGcABoQyeicgRnBQFjDScCaTvFVivOCvbo-laL0,4479
@@ -421,7 +419,7 @@ unstructured_ingest/v2/pipeline/steps/stage.py,sha256=_0BN2i273y_fZyvSUPOOeXv4kL
 unstructured_ingest/v2/pipeline/steps/uncompress.py,sha256=I9TyqMCUSxlf2kdPADjeH4TrUTSe0FMTlARp9QD6TsE,1763
 unstructured_ingest/v2/pipeline/steps/upload.py,sha256=6x8SUdnydR76K6cR3nUVupOACIx-XsRV3vXRlebolqg,1996
 unstructured_ingest/v2/processes/__init__.py,sha256=FaHWSCGyc7GWVnAsNEUUj7L8hT8gCVY3_hUE2VzWtUg,462
-unstructured_ingest/v2/processes/chunker.py,sha256=31-7ojsM2coIt2rMR0KOb82IxLVJfNHbqYUOsDkhxN8,5491
+unstructured_ingest/v2/processes/chunker.py,sha256=O5FN8KWym79H0dtKZvW7ABgn4bwKtaeUO8meGdjM2Yo,5609
 unstructured_ingest/v2/processes/connector_registry.py,sha256=vkEe6jpgdYtZCxMj59s5atWGgmPuxAEXRUoTt-MJ7wc,2198
 unstructured_ingest/v2/processes/embedder.py,sha256=gvlCQDsbQVgcp-2f0Qq4RiFbcr8gJwIS-imgloE-UOc,7887
 unstructured_ingest/v2/processes/filter.py,sha256=E1MLxk-XeCm3mZIuM49lJToVcSgOivmTFIZApqOEFs8,2150
@@ -454,14 +452,15 @@ unstructured_ingest/v2/processes/connectors/slack.py,sha256=vbBVCYEd741-n2v6eAXL
 unstructured_ingest/v2/processes/connectors/utils.py,sha256=TAd0hb1f291N-q7-TUe6JKSCGkhqDyo7Ij8zmliBZUc,2071
 unstructured_ingest/v2/processes/connectors/vectara.py,sha256=KUqgZ6D2KUOrW596ms-EekvQYDh-fXqBTa7KG-leXoo,12301
 unstructured_ingest/v2/processes/connectors/assets/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+unstructured_ingest/v2/processes/connectors/assets/databricks_delta_table_schema.sql,sha256=dUZZDNkyvQXKqoAThRz3ek7zaUE2l_LAQimlG5WZhH4,211
 unstructured_ingest/v2/processes/connectors/assets/weaviate_collection_config.json,sha256=SJlIO0kXxy866tWQ8bEzvwLwflsoUMIS-OKlxMvHIuE,504
 unstructured_ingest/v2/processes/connectors/databricks/__init__.py,sha256=Oh8SwTWi66gO8BsNF6vRMoQVuegyBPPCpVozkOHEf3A,2136
-unstructured_ingest/v2/processes/connectors/databricks/volumes.py,sha256=8fg11-32If4iQGZTT9MEl1DOWZ5s3Qgj1OOzMVaHldU,7749
+unstructured_ingest/v2/processes/connectors/databricks/volumes.py,sha256=EghKdkt4nGacGxulSpjhToHOl5BRLbb3xNZpJzpWNX8,8002
 unstructured_ingest/v2/processes/connectors/databricks/volumes_aws.py,sha256=h6qDxQhWlT7H4K1CEfKag1stTiD1o97VckJZERsofqU,2970
 unstructured_ingest/v2/processes/connectors/databricks/volumes_azure.py,sha256=gjICJJwhDHBLt_L-LrMlvJ3DL1DYtwFpyMLb_zYvOIg,3755
 unstructured_ingest/v2/processes/connectors/databricks/volumes_gcp.py,sha256=Uss3XPPaq1AsqJOEy4RJgBJw2-bTjrXH2PgtVNYd2w0,3006
 unstructured_ingest/v2/processes/connectors/databricks/volumes_native.py,sha256=g1qYnIrML4TjN7rmC0MGrD5JzAprb6SymBHlEdOumz0,3113
-unstructured_ingest/v2/processes/connectors/databricks/volumes_table.py,sha256=5BArD1FkLC6wRJC0LxjXxQmYfmtF7r9Zrd8CtaGgWls,6855
+unstructured_ingest/v2/processes/connectors/databricks/volumes_table.py,sha256=LiSb66039idaRtMnTuHjR5ZqvdmmIu3ByUgFQ1a3iZQ,8264
 unstructured_ingest/v2/processes/connectors/duckdb/__init__.py,sha256=5sVvJCWhU-YkjHIwk4W6BZCanFYK5W4xTpWtQ8xzeB4,561
 unstructured_ingest/v2/processes/connectors/duckdb/base.py,sha256=VCoQ3h289BO4A2kJKZXUVB0QOcaQif-HeRgg-xXzn10,2976
 unstructured_ingest/v2/processes/connectors/duckdb/duckdb.py,sha256=DM4pygQAnP-dtuFEFAVeBfGt0pzrfkltteCai0GKnG0,4439
@@ -582,9 +581,9 @@ unstructured_ingest/v2/processes/utils/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JC
 unstructured_ingest/v2/processes/utils/blob_storage.py,sha256=_I3OMdpUElQdIwVs7W9ORU1kncNaZ_nr6lbxeKE8uaU,1014
 unstructured_ingest/v2/types/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 unstructured_ingest/v2/types/file_data.py,sha256=kowOhvYy0q_-khX3IuR111AfjkdQezEfxjzK6QDH7oA,3836
-unstructured_ingest-0.6.0.dist-info/LICENSE.md,sha256=SxkKP_62uIAKb9mb1eH7FH4Kn2aYT09fgjKpJt5PyTk,11360
-unstructured_ingest-0.6.0.dist-info/METADATA,sha256=NWCm69UvgcHT7J8owHmQCYkXmdfkfyCJNcW6slNzANA,14998
-unstructured_ingest-0.6.0.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
-unstructured_ingest-0.6.0.dist-info/entry_points.txt,sha256=gUAAFnjFPnBgThJSEbw0N5ZjxtaKlT1s9e05_arQrNw,70
-unstructured_ingest-0.6.0.dist-info/top_level.txt,sha256=DMuDMHZRMdeay8v8Kdi855muIv92F0OkutvBCaBEW6M,25
-unstructured_ingest-0.6.0.dist-info/RECORD,,
+unstructured_ingest-0.6.2.dist-info/LICENSE.md,sha256=SxkKP_62uIAKb9mb1eH7FH4Kn2aYT09fgjKpJt5PyTk,11360
+unstructured_ingest-0.6.2.dist-info/METADATA,sha256=yUMpJD0UXDhUG1cIIpHkjn-VU2AScEaA12wLmISmG-A,14998
+unstructured_ingest-0.6.2.dist-info/WHEEL,sha256=In9FTNxeP60KnTkGw7wk6mJPYd_dQSjEZmXdBdMCI-8,91
+unstructured_ingest-0.6.2.dist-info/entry_points.txt,sha256=gUAAFnjFPnBgThJSEbw0N5ZjxtaKlT1s9e05_arQrNw,70
+unstructured_ingest-0.6.2.dist-info/top_level.txt,sha256=DMuDMHZRMdeay8v8Kdi855muIv92F0OkutvBCaBEW6M,25
+unstructured_ingest-0.6.2.dist-info/RECORD,,

test/unit/v2/connectors/databricks/__init__.py DELETED Viewed

File without changes

test/unit/v2/connectors/databricks/test_volumes_table.py DELETED Viewed

@@ -1,44 +0,0 @@
-from pathlib import Path
-import pytest
-from pytest_mock import MockerFixture
-from unstructured_ingest.v2.processes.connectors.databricks.volumes_table import (
-    DatabricksVolumeDeltaTableStager,
-)
-@pytest.fixture
-def stager():
-    return DatabricksVolumeDeltaTableStager()
-@pytest.mark.parametrize(
-    ("output_path", "called_output_path"),
-    [
-        (
-            Path("/fake/path/output"),
-            Path("/fake/path/output.json"),
-        ),
-        (
-            Path("/fake/path/output.ndjson"),
-            Path("/fake/path/output.json"),
-        ),
-    ],
-)
-def test_write_output(
-    mocker: MockerFixture,
-    stager: DatabricksVolumeDeltaTableStager,
-    output_path: Path,
-    called_output_path: Path,
-):
-    data = [{"key1": "value1", "key2": "value2"}]
-    mock_get_data = mocker.patch(
-        "unstructured_ingest.v2.processes.connectors.databricks.volumes_table.write_data",
-        return_value=None,
-    )
-    stager.write_output(output_path, data)
-    mock_get_data.assert_called_once_with(path=called_output_path, data=data, indent=None)

{unstructured_ingest-0.6.0.dist-info → unstructured_ingest-0.6.2.dist-info}/LICENSE.md RENAMED Viewed

File without changes

{unstructured_ingest-0.6.0.dist-info → unstructured_ingest-0.6.2.dist-info}/WHEEL RENAMED Viewed

File without changes

{unstructured_ingest-0.6.0.dist-info → unstructured_ingest-0.6.2.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{unstructured_ingest-0.6.0.dist-info → unstructured_ingest-0.6.2.dist-info}/top_level.txt RENAMED Viewed

File without changes

unstructured-ingest 0.6.0__py3-none-any.whl → 0.6.2__py3-none-any.whl

Potentially problematic release.

unstructured-ingest 0.6.0py3-none-any.whl → 0.6.2py3-none-any.whl