PyPI - unstructured-ingest - Versions diffs - 0.5.2__py3-none-any.whl → 0.5.4__py3-none-any.whl - Mend

unstructured-ingest 0.5.2py3-none-any.whl → 0.5.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of unstructured-ingest might be problematic. Click here for more details.

Files changed (24) hide show

unstructured_ingest/v2/processes/connectors/neo4j.py CHANGED Viewed

@@ -8,9 +8,9 @@ from contextlib import asynccontextmanager
 from dataclasses import dataclass
 from enum import Enum
 from pathlib import Path
-from typing import TYPE_CHECKING, Any, AsyncGenerator, Optional
+from typing import TYPE_CHECKING, Any, AsyncGenerator, Literal, Optional
-from pydantic import BaseModel, ConfigDict, Field, Secret
+from pydantic import BaseModel, ConfigDict, Field, Secret, field_validator
 from unstructured_ingest.error import DestinationConnectionError
 from unstructured_ingest.logger import logger
@@ -30,6 +30,8 @@ from unstructured_ingest.v2.processes.connector_registry import (
     DestinationRegistryEntry,
 )
+SimilarityFunction = Literal["cosine"]
 if TYPE_CHECKING:
     from neo4j import AsyncDriver, Auth
     from networkx import Graph, MultiDiGraph
@@ -44,9 +46,9 @@ class Neo4jAccessConfig(AccessConfig):
 class Neo4jConnectionConfig(ConnectionConfig):
     access_config: Secret[Neo4jAccessConfig]
     connector_type: str = Field(default=CONNECTOR_TYPE, init=False)
-    username: str
+    username: str = Field(default="neo4j")
     uri: str = Field(description="Neo4j Connection URI <scheme>://<host>:<port>")
-    database: str = Field(description="Name of the target database")
+    database: str = Field(default="neo4j", description="Name of the target database")
     @requires_dependencies(["neo4j"], extras="neo4j")
     @asynccontextmanager
@@ -186,8 +188,8 @@ class _GraphData(BaseModel):
         nodes = list(nx_graph.nodes())
         edges = [
             _Edge(
-                source_id=u.id_,
-                destination_id=v.id_,
+                source=u,
+                destination=v,
                 relationship=Relationship(data_dict["relationship"]),
             )
             for u, v, data_dict in nx_graph.edges(data=True)
@@ -198,19 +200,30 @@ class _GraphData(BaseModel):
 class _Node(BaseModel):
     model_config = ConfigDict()
-    id_: str = Field(default_factory=lambda: str(uuid.uuid4()))
-    labels: list[Label] = Field(default_factory=list)
+    labels: list[Label]
     properties: dict = Field(default_factory=dict)
+    id_: str = Field(default_factory=lambda: str(uuid.uuid4()))
     def __hash__(self):
         return hash(self.id_)
+    @property
+    def main_label(self) -> Label:
+        return self.labels[0]
+    @classmethod
+    @field_validator("labels", mode="after")
+    def require_at_least_one_label(cls, value: list[Label]) -> list[Label]:
+        if not value:
+            raise ValueError("Node must have at least one label.")
+        return value
 class _Edge(BaseModel):
     model_config = ConfigDict()
-    source_id: str
-    destination_id: str
+    source: _Node
+    destination: _Node
     relationship: Relationship
@@ -229,7 +242,14 @@ class Relationship(Enum):
 class Neo4jUploaderConfig(UploaderConfig):
     batch_size: int = Field(
-        default=100, description="Maximal number of nodes/relationships created per transaction."
+        default=1000, description="Maximal number of nodes/relationships created per transaction."
+    )
+    similarity_function: SimilarityFunction = Field(
+        default="cosine",
+        description="Vector similarity function used to create index on Chunk nodes",
+    )
+    create_destination: bool = Field(
+        default=True, description="Create destination if it does not exist"
     )
@@ -257,6 +277,13 @@ class Neo4jUploader(Uploader):
         graph_data = _GraphData.model_validate(staged_data)
         async with self.connection_config.get_client() as client:
             await self._create_uniqueness_constraints(client)
+            embedding_dimensions = self._get_embedding_dimensions(graph_data)
+            if embedding_dimensions and self.upload_config.create_destination:
+                await self._create_vector_index(
+                    client,
+                    dimensions=embedding_dimensions,
+                    similarity_function=self.upload_config.similarity_function,
+                )
             await self._delete_old_data_if_exists(file_data, client=client)
             await self._merge_graph(graph_data=graph_data, client=client)
@@ -274,13 +301,33 @@ class Neo4jUploader(Uploader):
                 """
             )
+    async def _create_vector_index(
+        self, client: AsyncDriver, dimensions: int, similarity_function: SimilarityFunction
+    ) -> None:
+        label = Label.CHUNK
+        logger.info(
+            f"Creating index on nodes labeled '{label.value}' if it does not already exist."
+        )
+        index_name = f"{label.value.lower()}_vector"
+        await client.execute_query(
+            f"""
+            CREATE VECTOR INDEX {index_name} IF NOT EXISTS
+            FOR (n:{label.value}) ON n.embedding
+            OPTIONS {{indexConfig: {{
+                `vector.similarity_function`: '{similarity_function}',
+                `vector.dimensions`: {dimensions}}}
+            }}
+            """
+        )
     async def _delete_old_data_if_exists(self, file_data: FileData, client: AsyncDriver) -> None:
         logger.info(f"Deleting old data for the record '{file_data.identifier}' (if present).")
         _, summary, _ = await client.execute_query(
             f"""
-            MATCH (n: {Label.DOCUMENT.value} {{id: $identifier}})
-            MATCH (n)--(m: {Label.CHUNK.value}|{Label.UNSTRUCTURED_ELEMENT.value})
-            DETACH DELETE m""",
+            MATCH (n: `{Label.DOCUMENT.value}` {{id: $identifier}})
+            MATCH (n)--(m: `{Label.CHUNK.value}`|`{Label.UNSTRUCTURED_ELEMENT.value}`)
+            DETACH DELETE m
+            DETACH DELETE n""",
             identifier=file_data.identifier,
         )
         logger.info(
@@ -289,16 +336,15 @@ class Neo4jUploader(Uploader):
         )
     async def _merge_graph(self, graph_data: _GraphData, client: AsyncDriver) -> None:
-        nodes_by_labels: defaultdict[tuple[Label, ...], list[_Node]] = defaultdict(list)
+        nodes_by_labels: defaultdict[Label, list[_Node]] = defaultdict(list)
         for node in graph_data.nodes:
-            nodes_by_labels[tuple(node.labels)].append(node)
+            nodes_by_labels[node.main_label].append(node)
         logger.info(f"Merging {len(graph_data.nodes)} graph nodes.")
         # NOTE: Processed in parallel as there's no overlap between accessed nodes
         await self._execute_queries(
             [
-                self._create_nodes_query(nodes_batch, labels)
-                for labels, nodes in nodes_by_labels.items()
+                self._create_nodes_query(nodes_batch, label)
+                for label, nodes in nodes_by_labels.items()
                 for nodes_batch in batch_generator(nodes, batch_size=self.upload_config.batch_size)
             ],
             client=client,
@@ -306,16 +352,23 @@ class Neo4jUploader(Uploader):
         )
         logger.info(f"Finished merging {len(graph_data.nodes)} graph nodes.")
-        edges_by_relationship: defaultdict[Relationship, list[_Edge]] = defaultdict(list)
+        edges_by_relationship: defaultdict[tuple[Relationship, Label, Label], list[_Edge]] = (
+            defaultdict(list)
+        )
         for edge in graph_data.edges:
-            edges_by_relationship[edge.relationship].append(edge)
+            key = (edge.relationship, edge.source.main_label, edge.destination.main_label)
+            edges_by_relationship[key].append(edge)
         logger.info(f"Merging {len(graph_data.edges)} graph relationships (edges).")
         # NOTE: Processed sequentially to avoid queries locking node access to one another
         await self._execute_queries(
             [
-                self._create_edges_query(edges_batch, relationship)
-                for relationship, edges in edges_by_relationship.items()
+                self._create_edges_query(edges_batch, relationship, source_label, destination_label)
+                for (
+                    relationship,
+                    source_label,
+                    destination_label,
+                ), edges in edges_by_relationship.items()
                 for edges_batch in batch_generator(edges, batch_size=self.upload_config.batch_size)
             ],
             client=client,
@@ -328,53 +381,86 @@ class Neo4jUploader(Uploader):
         client: AsyncDriver,
         in_parallel: bool = False,
     ) -> None:
+        from neo4j import EagerResult
+        results: list[EagerResult] = []
+        logger.info(
+            f"Executing {len(queries_with_parameters)} "
+            + f"{'parallel' if in_parallel else 'sequential'} Cypher statements."
+        )
         if in_parallel:
-            logger.info(f"Executing {len(queries_with_parameters)} queries in parallel.")
-            await asyncio.gather(
+            results = await asyncio.gather(
                 *[
                     client.execute_query(query, parameters_=parameters)
                     for query, parameters in queries_with_parameters
                 ]
             )
-            logger.info("Finished executing parallel queries.")
         else:
-            logger.info(f"Executing {len(queries_with_parameters)} queries sequentially.")
             for i, (query, parameters) in enumerate(queries_with_parameters):
-                logger.info(f"Query #{i} started.")
-                await client.execute_query(query, parameters_=parameters)
-                logger.info(f"Query #{i} finished.")
-            logger.info(
-                f"Finished executing all ({len(queries_with_parameters)}) sequential queries."
-            )
+                logger.info(f"Statement #{i} started.")
+                results.append(await client.execute_query(query, parameters_=parameters))
+                logger.info(f"Statement #{i} finished.")
+        nodeCount = sum([res.summary.counters.nodes_created for res in results])
+        relCount = sum([res.summary.counters.relationships_created for res in results])
+        logger.info(
+            f"Finished executing all ({len(queries_with_parameters)}) "
+            + f"{'parallel' if in_parallel else 'sequential'} Cypher statements. "
+            + f"Created {nodeCount} nodes, {relCount} relationships."
+        )
     @staticmethod
-    def _create_nodes_query(nodes: list[_Node], labels: tuple[Label, ...]) -> tuple[str, dict]:
-        labels_string = ", ".join([label.value for label in labels])
-        logger.info(f"Preparing MERGE query for {len(nodes)} nodes labeled '{labels_string}'.")
+    def _create_nodes_query(nodes: list[_Node], label: Label) -> tuple[str, dict]:
+        logger.info(f"Preparing MERGE query for {len(nodes)} nodes labeled '{label}'.")
         query_string = f"""
             UNWIND $nodes AS node
-            MERGE (n: {labels_string} {{id: node.id}})
+            MERGE (n: `{label.value}` {{id: node.id}})
             SET n += node.properties
+            SET n:$(node.labels)
+            WITH * WHERE node.vector IS NOT NULL
+            CALL db.create.setNodeVectorProperty(n, 'embedding', node.vector)
             """
-        parameters = {"nodes": [{"id": node.id_, "properties": node.properties} for node in nodes]}
+        parameters = {
+            "nodes": [
+                {
+                    "id": node.id_,
+                    "labels": [l.value for l in node.labels if l != label],  # noqa: E741
+                    "vector": node.properties.pop("embedding", None),
+                    "properties": node.properties,
+                }
+                for node in nodes
+            ]
+        }
         return query_string, parameters
     @staticmethod
-    def _create_edges_query(edges: list[_Edge], relationship: Relationship) -> tuple[str, dict]:
+    def _create_edges_query(
+        edges: list[_Edge],
+        relationship: Relationship,
+        source_label: Label,
+        destination_label: Label,
+    ) -> tuple[str, dict]:
         logger.info(f"Preparing MERGE query for {len(edges)} {relationship} relationships.")
         query_string = f"""
             UNWIND $edges AS edge
-            MATCH (u {{id: edge.source}})
-            MATCH (v {{id: edge.destination}})
-            MERGE (u)-[:{relationship.value}]->(v)
+            MATCH (u: `{source_label.value}` {{id: edge.source}})
+            MATCH (v: `{destination_label.value}` {{id: edge.destination}})
+            MERGE (u)-[:`{relationship.value}`]->(v)
             """
         parameters = {
             "edges": [
-                {"source": edge.source_id, "destination": edge.destination_id} for edge in edges
+                {"source": edge.source.id_, "destination": edge.destination.id_} for edge in edges
             ]
         }
         return query_string, parameters
+    def _get_embedding_dimensions(self, graph_data: _GraphData) -> int | None:
+        """Embedding dimensions inferred from chunk nodes or None if it can't be determined."""
+        for node in graph_data.nodes:
+            if Label.CHUNK in node.labels and "embeddings" in node.properties:
+                return len(node.properties["embeddings"])
+        return None
 neo4j_destination_entry = DestinationRegistryEntry(
     connection_config=Neo4jConnectionConfig,

unstructured_ingest/v2/processes/connectors/sharepoint.py CHANGED Viewed

@@ -31,6 +31,7 @@ if TYPE_CHECKING:
     from office365.onedrive.driveitems.driveItem import DriveItem
 CONNECTOR_TYPE = "sharepoint"
+LEGACY_DEFAULT_PATH = "Shared Documents"
 class SharepointAccessConfig(OnedriveAccessConfig):
@@ -76,10 +77,14 @@ class SharepointIndexer(OnedriveIndexer):
         except ClientRequestException:
             logger.info("Site not found")
-        drive_items = await self.list_objects(
-            folder=site_drive_item, recursive=self.index_config.recursive
-        )
-        for drive_item in drive_items:
+        path = self.index_config.path
+        # Deprecated sharepoint sdk needed a default path. Microsoft Graph SDK does not.
+        if path and path != LEGACY_DEFAULT_PATH:
+            site_drive_item = site_drive_item.get_by_path(path).get().execute_query()
+        for drive_item in site_drive_item.get_files(
+            recursive=self.index_config.recursive
+        ).execute_query():
             file_data = await self.drive_item_to_file_data(drive_item=drive_item)
             yield file_data

unstructured_ingest/v2/processes/embedder.py CHANGED Viewed

@@ -92,18 +92,20 @@ class EmbedderConfig(BaseModel):
         return OctoAIEmbeddingEncoder(config=OctoAiEmbeddingConfig.model_validate(embedding_kwargs))
-    def get_bedrock_embedder(self) -> "BaseEmbeddingEncoder":
+    def get_bedrock_embedder(self, embedding_kwargs: dict) -> "BaseEmbeddingEncoder":
         from unstructured_ingest.embed.bedrock import (
             BedrockEmbeddingConfig,
             BedrockEmbeddingEncoder,
         )
+        embedding_kwargs = embedding_kwargs | {
+            "aws_access_key_id": self.embedding_aws_access_key_id,
+            "aws_secret_access_key": self.embedding_aws_secret_access_key.get_secret_value(),
+            "region_name": self.embedding_aws_region,
+        }
         return BedrockEmbeddingEncoder(
-            config=BedrockEmbeddingConfig(
-                aws_access_key_id=self.embedding_aws_access_key_id,
-                aws_secret_access_key=self.embedding_aws_secret_access_key.get_secret_value(),
-                region_name=self.embedding_aws_region,
-            )
+            config=BedrockEmbeddingConfig.model_validate(embedding_kwargs)
         )
     def get_vertexai_embedder(self, embedding_kwargs: dict) -> "BaseEmbeddingEncoder":
@@ -163,7 +165,7 @@ class EmbedderConfig(BaseModel):
             return self.get_octoai_embedder(embedding_kwargs=kwargs)
         if self.embedding_provider == "bedrock":
-            return self.get_bedrock_embedder()
+            return self.get_bedrock_embedder(embedding_kwargs=kwargs)
         if self.embedding_provider == "vertexai":
             return self.get_vertexai_embedder(embedding_kwargs=kwargs)

{unstructured_ingest-0.5.2.dist-info → unstructured_ingest-0.5.4.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
-Metadata-Version: 2.1
+Metadata-Version: 2.2
 Name: unstructured-ingest
-Version: 0.5.2
+Version: 0.5.4
 Summary: A library that prepares raw documents for downstream ML tasks.
 Home-page: https://github.com/Unstructured-IO/unstructured-ingest
 Author: Unstructured Technologies
@@ -22,13 +22,45 @@ Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Requires-Python: >=3.9.0,<3.14
 Description-Content-Type: text/markdown
 License-File: LICENSE.md
+Requires-Dist: opentelemetry-sdk
 Requires-Dist: pandas
-Requires-Dist: pydantic>=2.7
-Requires-Dist: dataclasses-json
 Requires-Dist: python-dateutil
-Requires-Dist: opentelemetry-sdk
-Requires-Dist: click
+Requires-Dist: dataclasses_json
 Requires-Dist: tqdm
+Requires-Dist: pydantic>=2.7
+Requires-Dist: click
+Provides-Extra: remote
+Requires-Dist: unstructured-client>=0.26.1; extra == "remote"
+Provides-Extra: csv
+Requires-Dist: unstructured[tsv]; extra == "csv"
+Provides-Extra: doc
+Requires-Dist: unstructured[docx]; extra == "doc"
+Provides-Extra: docx
+Requires-Dist: unstructured[docx]; extra == "docx"
+Provides-Extra: epub
+Requires-Dist: unstructured[epub]; extra == "epub"
+Provides-Extra: md
+Requires-Dist: unstructured[md]; extra == "md"
+Provides-Extra: msg
+Requires-Dist: unstructured[msg]; extra == "msg"
+Provides-Extra: odt
+Requires-Dist: unstructured[odt]; extra == "odt"
+Provides-Extra: org
+Requires-Dist: unstructured[org]; extra == "org"
+Provides-Extra: pdf
+Requires-Dist: unstructured[pdf]; extra == "pdf"
+Provides-Extra: ppt
+Requires-Dist: unstructured[pptx]; extra == "ppt"
+Provides-Extra: pptx
+Requires-Dist: unstructured[pptx]; extra == "pptx"
+Provides-Extra: rtf
+Requires-Dist: unstructured[rtf]; extra == "rtf"
+Provides-Extra: rst
+Requires-Dist: unstructured[rst]; extra == "rst"
+Provides-Extra: tsv
+Requires-Dist: unstructured[tsv]; extra == "tsv"
+Provides-Extra: xlsx
+Requires-Dist: unstructured[xlsx]; extra == "xlsx"
 Provides-Extra: airtable
 Requires-Dist: pyairtable; extra == "airtable"
 Provides-Extra: astradb
@@ -38,63 +70,37 @@ Requires-Dist: fsspec; extra == "azure"
 Requires-Dist: adlfs; extra == "azure"
 Provides-Extra: azure-ai-search
 Requires-Dist: azure-search-documents; extra == "azure-ai-search"
-Provides-Extra: bedrock
-Requires-Dist: boto3; extra == "bedrock"
-Requires-Dist: aioboto3; extra == "bedrock"
 Provides-Extra: biomed
 Requires-Dist: requests; extra == "biomed"
 Requires-Dist: bs4; extra == "biomed"
 Provides-Extra: box
-Requires-Dist: fsspec; extra == "box"
 Requires-Dist: boxfs; extra == "box"
+Requires-Dist: fsspec; extra == "box"
 Provides-Extra: chroma
 Requires-Dist: chromadb; extra == "chroma"
 Provides-Extra: clarifai
 Requires-Dist: clarifai; extra == "clarifai"
 Provides-Extra: confluence
-Requires-Dist: atlassian-python-api; extra == "confluence"
 Requires-Dist: requests; extra == "confluence"
+Requires-Dist: atlassian-python-api; extra == "confluence"
 Provides-Extra: couchbase
 Requires-Dist: couchbase; extra == "couchbase"
-Provides-Extra: csv
-Requires-Dist: unstructured[tsv]; extra == "csv"
-Provides-Extra: databricks-delta-tables
-Requires-Dist: databricks-sql-connector; extra == "databricks-delta-tables"
-Provides-Extra: databricks-volumes
-Requires-Dist: databricks-sdk; extra == "databricks-volumes"
 Provides-Extra: delta-table
-Requires-Dist: boto3; extra == "delta-table"
 Requires-Dist: deltalake; extra == "delta-table"
+Requires-Dist: boto3; extra == "delta-table"
 Provides-Extra: discord
 Requires-Dist: discord.py; extra == "discord"
-Provides-Extra: doc
-Requires-Dist: unstructured[docx]; extra == "doc"
-Provides-Extra: docx
-Requires-Dist: unstructured[docx]; extra == "docx"
 Provides-Extra: dropbox
-Requires-Dist: dropboxdrivefs; extra == "dropbox"
 Requires-Dist: fsspec; extra == "dropbox"
+Requires-Dist: dropboxdrivefs; extra == "dropbox"
 Provides-Extra: duckdb
 Requires-Dist: duckdb; extra == "duckdb"
 Provides-Extra: elasticsearch
 Requires-Dist: elasticsearch[async]; extra == "elasticsearch"
-Provides-Extra: embed-huggingface
-Requires-Dist: sentence-transformers; extra == "embed-huggingface"
-Provides-Extra: embed-mixedbreadai
-Requires-Dist: mixedbread-ai; extra == "embed-mixedbreadai"
-Provides-Extra: embed-octoai
-Requires-Dist: openai; extra == "embed-octoai"
-Requires-Dist: tiktoken; extra == "embed-octoai"
-Provides-Extra: embed-vertexai
-Requires-Dist: vertexai; extra == "embed-vertexai"
-Provides-Extra: embed-voyageai
-Requires-Dist: voyageai; extra == "embed-voyageai"
-Provides-Extra: epub
-Requires-Dist: unstructured[epub]; extra == "epub"
 Provides-Extra: gcs
+Requires-Dist: gcsfs; extra == "gcs"
 Requires-Dist: fsspec; extra == "gcs"
 Requires-Dist: bs4; extra == "gcs"
-Requires-Dist: gcsfs; extra == "gcs"
 Provides-Extra: github
 Requires-Dist: pygithub>1.58.0; extra == "github"
 Requires-Dist: requests; extra == "github"
@@ -113,97 +119,103 @@ Provides-Extra: kdbai
 Requires-Dist: kdbai-client>=1.4.0; extra == "kdbai"
 Provides-Extra: lancedb
 Requires-Dist: lancedb; extra == "lancedb"
-Provides-Extra: md
-Requires-Dist: unstructured[md]; extra == "md"
 Provides-Extra: milvus
 Requires-Dist: pymilvus; extra == "milvus"
 Provides-Extra: mongodb
 Requires-Dist: pymongo; extra == "mongodb"
-Provides-Extra: msg
-Requires-Dist: unstructured[msg]; extra == "msg"
 Provides-Extra: neo4j
-Requires-Dist: networkx; extra == "neo4j"
 Requires-Dist: cymple; extra == "neo4j"
-Requires-Dist: neo4j; extra == "neo4j"
+Requires-Dist: networkx; extra == "neo4j"
+Requires-Dist: neo4j-rust-ext; extra == "neo4j"
 Provides-Extra: notion
-Requires-Dist: htmlBuilder; extra == "notion"
-Requires-Dist: backoff; extra == "notion"
-Requires-Dist: notion-client; extra == "notion"
 Requires-Dist: httpx; extra == "notion"
-Provides-Extra: odt
-Requires-Dist: unstructured[odt]; extra == "odt"
+Requires-Dist: notion-client; extra == "notion"
+Requires-Dist: backoff; extra == "notion"
+Requires-Dist: htmlBuilder; extra == "notion"
 Provides-Extra: onedrive
 Requires-Dist: Office365-REST-Python-Client; extra == "onedrive"
-Requires-Dist: bs4; extra == "onedrive"
 Requires-Dist: msal; extra == "onedrive"
-Provides-Extra: openai
-Requires-Dist: openai; extra == "openai"
-Requires-Dist: tiktoken; extra == "openai"
+Requires-Dist: bs4; extra == "onedrive"
 Provides-Extra: opensearch
 Requires-Dist: opensearch-py; extra == "opensearch"
-Provides-Extra: org
-Requires-Dist: unstructured[org]; extra == "org"
 Provides-Extra: outlook
 Requires-Dist: Office365-REST-Python-Client; extra == "outlook"
 Requires-Dist: msal; extra == "outlook"
-Provides-Extra: pdf
-Requires-Dist: unstructured[pdf]; extra == "pdf"
 Provides-Extra: pinecone
 Requires-Dist: pinecone-client>=3.7.1; extra == "pinecone"
 Provides-Extra: postgres
 Requires-Dist: psycopg2-binary; extra == "postgres"
-Provides-Extra: ppt
-Requires-Dist: unstructured[pptx]; extra == "ppt"
-Provides-Extra: pptx
-Requires-Dist: unstructured[pptx]; extra == "pptx"
 Provides-Extra: qdrant
 Requires-Dist: qdrant-client; extra == "qdrant"
 Provides-Extra: reddit
 Requires-Dist: praw; extra == "reddit"
 Provides-Extra: redis
 Requires-Dist: redis; extra == "redis"
-Provides-Extra: remote
-Requires-Dist: unstructured-client>=0.26.1; extra == "remote"
-Provides-Extra: rst
-Requires-Dist: unstructured[rst]; extra == "rst"
-Provides-Extra: rtf
-Requires-Dist: unstructured[rtf]; extra == "rtf"
 Provides-Extra: s3
-Requires-Dist: s3fs; extra == "s3"
 Requires-Dist: fsspec; extra == "s3"
+Requires-Dist: s3fs; extra == "s3"
+Provides-Extra: sharepoint
+Requires-Dist: Office365-REST-Python-Client; extra == "sharepoint"
+Requires-Dist: msal; extra == "sharepoint"
 Provides-Extra: salesforce
 Requires-Dist: simple-salesforce; extra == "salesforce"
 Provides-Extra: sftp
-Requires-Dist: fsspec; extra == "sftp"
 Requires-Dist: paramiko; extra == "sftp"
-Provides-Extra: sharepoint
-Requires-Dist: Office365-REST-Python-Client; extra == "sharepoint"
-Requires-Dist: msal; extra == "sharepoint"
-Provides-Extra: singlestore
-Requires-Dist: singlestoredb; extra == "singlestore"
+Requires-Dist: fsspec; extra == "sftp"
 Provides-Extra: slack
-Requires-Dist: slack-sdk[optional]; extra == "slack"
+Requires-Dist: slack_sdk[optional]; extra == "slack"
 Provides-Extra: snowflake
-Requires-Dist: psycopg2-binary; extra == "snowflake"
 Requires-Dist: snowflake-connector-python; extra == "snowflake"
-Provides-Extra: togetherai
-Requires-Dist: together; extra == "togetherai"
-Provides-Extra: tsv
-Requires-Dist: unstructured[tsv]; extra == "tsv"
-Provides-Extra: vastdb
-Requires-Dist: vastdb; extra == "vastdb"
-Requires-Dist: pyarrow; extra == "vastdb"
-Requires-Dist: ibis; extra == "vastdb"
+Requires-Dist: psycopg2-binary; extra == "snowflake"
+Provides-Extra: wikipedia
+Requires-Dist: wikipedia; extra == "wikipedia"
+Provides-Extra: weaviate
+Requires-Dist: weaviate-client; extra == "weaviate"
+Provides-Extra: databricks-volumes
+Requires-Dist: databricks-sdk; extra == "databricks-volumes"
+Provides-Extra: databricks-delta-tables
+Requires-Dist: databricks-sql-connector; extra == "databricks-delta-tables"
+Provides-Extra: singlestore
+Requires-Dist: singlestoredb; extra == "singlestore"
 Provides-Extra: vectara
 Requires-Dist: requests; extra == "vectara"
 Requires-Dist: httpx; extra == "vectara"
 Requires-Dist: aiofiles; extra == "vectara"
-Provides-Extra: weaviate
-Requires-Dist: weaviate-client; extra == "weaviate"
-Provides-Extra: wikipedia
-Requires-Dist: wikipedia; extra == "wikipedia"
-Provides-Extra: xlsx
-Requires-Dist: unstructured[xlsx]; extra == "xlsx"
+Provides-Extra: vastdb
+Requires-Dist: pyarrow; extra == "vastdb"
+Requires-Dist: ibis; extra == "vastdb"
+Requires-Dist: vastdb; extra == "vastdb"
+Provides-Extra: embed-huggingface
+Requires-Dist: sentence-transformers; extra == "embed-huggingface"
+Provides-Extra: embed-octoai
+Requires-Dist: tiktoken; extra == "embed-octoai"
+Requires-Dist: openai; extra == "embed-octoai"
+Provides-Extra: embed-vertexai
+Requires-Dist: vertexai; extra == "embed-vertexai"
+Provides-Extra: embed-voyageai
+Requires-Dist: voyageai; extra == "embed-voyageai"
+Provides-Extra: embed-mixedbreadai
+Requires-Dist: mixedbread-ai; extra == "embed-mixedbreadai"
+Provides-Extra: openai
+Requires-Dist: tiktoken; extra == "openai"
+Requires-Dist: openai; extra == "openai"
+Provides-Extra: bedrock
+Requires-Dist: aioboto3; extra == "bedrock"
+Requires-Dist: boto3; extra == "bedrock"
+Provides-Extra: togetherai
+Requires-Dist: together; extra == "togetherai"
+Dynamic: author
+Dynamic: author-email
+Dynamic: classifier
+Dynamic: description
+Dynamic: description-content-type
+Dynamic: home-page
+Dynamic: keywords
+Dynamic: license
+Dynamic: provides-extra
+Dynamic: requires-dist
+Dynamic: requires-python
+Dynamic: summary
 # Unstructured Ingest

unstructured-ingest 0.5.2__py3-none-any.whl → 0.5.4__py3-none-any.whl

Potentially problematic release.

unstructured-ingest 0.5.2py3-none-any.whl → 0.5.4py3-none-any.whl