PyPI - unstructured-ingest - Versions diffs - 0.7.2__py3-none-any.whl → 1.0.2__py3-none-any.whl - Mend

unstructured-ingest 0.7.2py3-none-any.whl → 1.0.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of unstructured-ingest might be problematic. Click here for more details.

Files changed (187) hide show

unstructured_ingest/__version__.py +1 -1
unstructured_ingest/cli/README.md +28 -0
unstructured_ingest/embed/mixedbreadai.py +0 -1
unstructured_ingest/interfaces/upload_stager.py +2 -2
unstructured_ingest/interfaces/uploader.py +3 -3
unstructured_ingest/main.py +0 -0
unstructured_ingest/pipeline/interfaces.py +1 -1
unstructured_ingest/pipeline/pipeline.py +1 -1
unstructured_ingest/processes/chunker.py +4 -0
unstructured_ingest/processes/connectors/airtable.py +4 -2
unstructured_ingest/processes/connectors/astradb.py +48 -34
unstructured_ingest/processes/connectors/azure_ai_search.py +1 -1
unstructured_ingest/processes/connectors/confluence.py +0 -1
unstructured_ingest/processes/connectors/databricks/volumes_aws.py +1 -1
unstructured_ingest/processes/connectors/databricks/volumes_azure.py +2 -2
unstructured_ingest/processes/connectors/databricks/volumes_gcp.py +1 -1
unstructured_ingest/processes/connectors/databricks/volumes_table.py +1 -2
unstructured_ingest/processes/connectors/delta_table.py +1 -0
unstructured_ingest/processes/connectors/duckdb/base.py +2 -2
unstructured_ingest/processes/connectors/duckdb/duckdb.py +3 -3
unstructured_ingest/processes/connectors/duckdb/motherduck.py +3 -3
unstructured_ingest/processes/connectors/fsspec/s3.py +5 -3
unstructured_ingest/processes/connectors/gitlab.py +1 -2
unstructured_ingest/processes/connectors/google_drive.py +0 -2
unstructured_ingest/processes/connectors/ibm_watsonx/ibm_watsonx_s3.py +9 -7
unstructured_ingest/processes/connectors/kdbai.py +1 -0
unstructured_ingest/processes/connectors/outlook.py +1 -2
unstructured_ingest/processes/connectors/pinecone.py +0 -1
unstructured_ingest/processes/connectors/redisdb.py +28 -24
unstructured_ingest/processes/connectors/salesforce.py +1 -1
unstructured_ingest/processes/connectors/slack.py +1 -2
unstructured_ingest/processes/connectors/sql/databricks_delta_tables.py +5 -0
unstructured_ingest/processes/connectors/sql/postgres.py +7 -1
unstructured_ingest/processes/connectors/sql/singlestore.py +11 -6
unstructured_ingest/processes/connectors/sql/snowflake.py +5 -0
unstructured_ingest/processes/connectors/sql/sql.py +3 -4
unstructured_ingest/processes/connectors/sql/sqlite.py +5 -0
unstructured_ingest/processes/connectors/sql/vastdb.py +7 -3
unstructured_ingest/processes/connectors/vectara.py +0 -2
unstructured_ingest/processes/connectors/zendesk/zendesk.py +0 -2
unstructured_ingest/processes/embedder.py +2 -2
unstructured_ingest/processes/filter.py +1 -1
unstructured_ingest/processes/partitioner.py +4 -0
unstructured_ingest/processes/utils/blob_storage.py +2 -2
unstructured_ingest/unstructured_api.py +13 -8
unstructured_ingest/utils/data_prep.py +8 -32
unstructured_ingest-1.0.2.dist-info/METADATA +226 -0
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info}/RECORD +50 -184
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info}/WHEEL +1 -2
examples/__init__.py +0 -0
examples/airtable.py +0 -44
examples/azure_cognitive_search.py +0 -55
examples/chroma.py +0 -54
examples/couchbase.py +0 -55
examples/databricks_volumes_dest.py +0 -55
examples/databricks_volumes_source.py +0 -53
examples/delta_table.py +0 -45
examples/discord_example.py +0 -36
examples/elasticsearch.py +0 -49
examples/google_drive.py +0 -45
examples/kdbai.py +0 -54
examples/local.py +0 -36
examples/milvus.py +0 -44
examples/mongodb.py +0 -53
examples/opensearch.py +0 -50
examples/pinecone.py +0 -57
examples/s3.py +0 -38
examples/salesforce.py +0 -44
examples/sharepoint.py +0 -47
examples/singlestore.py +0 -49
examples/sql.py +0 -90
examples/vectara.py +0 -54
examples/weaviate.py +0 -44
test/__init__.py +0 -0
test/integration/__init__.py +0 -0
test/integration/chunkers/__init__.py +0 -0
test/integration/chunkers/test_chunkers.py +0 -31
test/integration/connectors/__init__.py +0 -0
test/integration/connectors/conftest.py +0 -38
test/integration/connectors/databricks/__init__.py +0 -0
test/integration/connectors/databricks/test_volumes_native.py +0 -273
test/integration/connectors/discord/__init__.py +0 -0
test/integration/connectors/discord/test_discord.py +0 -90
test/integration/connectors/duckdb/__init__.py +0 -0
test/integration/connectors/duckdb/conftest.py +0 -14
test/integration/connectors/duckdb/test_duckdb.py +0 -90
test/integration/connectors/duckdb/test_motherduck.py +0 -95
test/integration/connectors/elasticsearch/__init__.py +0 -0
test/integration/connectors/elasticsearch/conftest.py +0 -34
test/integration/connectors/elasticsearch/test_elasticsearch.py +0 -331
test/integration/connectors/elasticsearch/test_opensearch.py +0 -326
test/integration/connectors/sql/__init__.py +0 -0
test/integration/connectors/sql/test_databricks_delta_tables.py +0 -170
test/integration/connectors/sql/test_postgres.py +0 -201
test/integration/connectors/sql/test_singlestore.py +0 -182
test/integration/connectors/sql/test_snowflake.py +0 -244
test/integration/connectors/sql/test_sqlite.py +0 -168
test/integration/connectors/sql/test_vastdb.py +0 -34
test/integration/connectors/test_astradb.py +0 -287
test/integration/connectors/test_azure_ai_search.py +0 -254
test/integration/connectors/test_chroma.py +0 -136
test/integration/connectors/test_confluence.py +0 -111
test/integration/connectors/test_delta_table.py +0 -183
test/integration/connectors/test_dropbox.py +0 -151
test/integration/connectors/test_github.py +0 -49
test/integration/connectors/test_google_drive.py +0 -257
test/integration/connectors/test_jira.py +0 -67
test/integration/connectors/test_lancedb.py +0 -247
test/integration/connectors/test_milvus.py +0 -208
test/integration/connectors/test_mongodb.py +0 -335
test/integration/connectors/test_neo4j.py +0 -244
test/integration/connectors/test_notion.py +0 -152
test/integration/connectors/test_onedrive.py +0 -163
test/integration/connectors/test_pinecone.py +0 -387
test/integration/connectors/test_qdrant.py +0 -216
test/integration/connectors/test_redis.py +0 -143
test/integration/connectors/test_s3.py +0 -184
test/integration/connectors/test_sharepoint.py +0 -222
test/integration/connectors/test_vectara.py +0 -282
test/integration/connectors/test_zendesk.py +0 -120
test/integration/connectors/utils/__init__.py +0 -0
test/integration/connectors/utils/constants.py +0 -13
test/integration/connectors/utils/docker.py +0 -151
test/integration/connectors/utils/docker_compose.py +0 -59
test/integration/connectors/utils/validation/__init__.py +0 -0
test/integration/connectors/utils/validation/destination.py +0 -77
test/integration/connectors/utils/validation/equality.py +0 -76
test/integration/connectors/utils/validation/source.py +0 -331
test/integration/connectors/utils/validation/utils.py +0 -36
test/integration/connectors/weaviate/__init__.py +0 -0
test/integration/connectors/weaviate/conftest.py +0 -15
test/integration/connectors/weaviate/test_cloud.py +0 -39
test/integration/connectors/weaviate/test_local.py +0 -152
test/integration/embedders/__init__.py +0 -0
test/integration/embedders/conftest.py +0 -13
test/integration/embedders/test_azure_openai.py +0 -57
test/integration/embedders/test_bedrock.py +0 -103
test/integration/embedders/test_huggingface.py +0 -24
test/integration/embedders/test_mixedbread.py +0 -71
test/integration/embedders/test_octoai.py +0 -75
test/integration/embedders/test_openai.py +0 -74
test/integration/embedders/test_togetherai.py +0 -71
test/integration/embedders/test_vertexai.py +0 -63
test/integration/embedders/test_voyageai.py +0 -79
test/integration/embedders/utils.py +0 -66
test/integration/partitioners/__init__.py +0 -0
test/integration/partitioners/test_partitioner.py +0 -76
test/integration/utils.py +0 -15
test/unit/__init__.py +0 -0
test/unit/chunkers/__init__.py +0 -0
test/unit/chunkers/test_chunkers.py +0 -49
test/unit/connectors/__init__.py +0 -0
test/unit/connectors/ibm_watsonx/__init__.py +0 -0
test/unit/connectors/ibm_watsonx/test_ibm_watsonx_s3.py +0 -459
test/unit/connectors/motherduck/__init__.py +0 -0
test/unit/connectors/motherduck/test_base.py +0 -73
test/unit/connectors/sql/__init__.py +0 -0
test/unit/connectors/sql/test_sql.py +0 -152
test/unit/connectors/test_confluence.py +0 -71
test/unit/connectors/test_jira.py +0 -401
test/unit/embed/__init__.py +0 -0
test/unit/embed/test_mixedbreadai.py +0 -42
test/unit/embed/test_octoai.py +0 -27
test/unit/embed/test_openai.py +0 -28
test/unit/embed/test_vertexai.py +0 -25
test/unit/embed/test_voyageai.py +0 -24
test/unit/embedders/__init__.py +0 -0
test/unit/embedders/test_bedrock.py +0 -36
test/unit/embedders/test_huggingface.py +0 -48
test/unit/embedders/test_mixedbread.py +0 -37
test/unit/embedders/test_octoai.py +0 -35
test/unit/embedders/test_openai.py +0 -35
test/unit/embedders/test_togetherai.py +0 -37
test/unit/embedders/test_vertexai.py +0 -37
test/unit/embedders/test_voyageai.py +0 -38
test/unit/partitioners/__init__.py +0 -0
test/unit/partitioners/test_partitioner.py +0 -63
test/unit/test_error.py +0 -27
test/unit/test_html.py +0 -112
test/unit/test_interfaces.py +0 -26
test/unit/test_utils.py +0 -220
test/unit/utils/__init__.py +0 -0
test/unit/utils/data_generator.py +0 -32
unstructured_ingest-0.7.2.dist-info/METADATA +0 -383
unstructured_ingest-0.7.2.dist-info/top_level.txt +0 -3
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info}/entry_points.txt +0 -0
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info/licenses}/LICENSE.md +0 -0

examples/opensearch.py DELETED Viewed

@@ -1,50 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.opensearch import (
-    CONNECTOR_TYPE,
-    OpenSearchAccessConfig,
-    OpenSearchConnectionConfig,
-    OpenSearchUploaderConfig,
-    OpenSearchUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=OpenSearchConnectionConfig(
-            hosts="http://localhost:9247",
-            username="admin",
-            use_ssl=True,
-            access_config=OpenSearchAccessConfig(password="admin"),
-        ),
-        stager_config=OpenSearchUploadStagerConfig(index_name="ingest-test-destination"),
-        uploader_config=OpenSearchUploaderConfig(
-            index_name="ingest-test-destination", batch_size_bytes=150
-        ),
-    ).run()

examples/pinecone.py DELETED Viewed

@@ -1,57 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.pinecone import (
-    CONNECTOR_TYPE,
-    PineconeAccessConfig,
-    PineconeConnectionConfig,
-    PineconeUploaderConfig,
-    PineconeUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=PineconeConnectionConfig(
-            # You'll need to set PINECONE_API_KEY environment variable to run this example
-            access_config=PineconeAccessConfig(pinecone_api_key=os.getenv("PINECONE_API_KEY")),
-            index_name=os.getenv(
-                "PINECONE_INDEX",
-                default="your index name here. e.g. my-index,"
-                "or define in environment variable PINECONE_INDEX",
-            ),
-            environment=os.getenv(
-                "PINECONE_ENVIRONMENT",
-                default="your environment name here. e.g. us-east-1,"
-                "or define in environment variable PINECONE_ENVIRONMENT",
-            ),
-        ),
-        stager_config=PineconeUploadStagerConfig(),
-        uploader_config=PineconeUploaderConfig(batch_size=10, num_processes=2),
-    ).run()

examples/s3.py DELETED Viewed

@@ -1,38 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.fsspec.s3 import (
-    CONNECTOR_TYPE,
-    S3ConnectionConfig,
-    S3DownloaderConfig,
-    S3IndexerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalUploaderConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.filter import FiltererConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve()), verbose=True, iter_delete=True),
-        indexer_config=S3IndexerConfig(remote_url="s3://utic-dev-tech-fixtures/small-pdf-set/"),
-        downloader_config=S3DownloaderConfig(download_dir=download_path),
-        source_connection_config=S3ConnectionConfig(anonymous=True),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        uploader_config=LocalUploaderConfig(output_dir=str(output_path.resolve())),
-        filterer_config=FiltererConfig(max_file_size=900000),
-    ).run()

examples/salesforce.py DELETED Viewed

@@ -1,44 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalUploaderConfig,
-)
-from unstructured_ingest.processes.connectors.salesforce import (
-    CONNECTOR_TYPE,
-    SalesforceAccessConfig,
-    SalesforceConnectionConfig,
-    SalesforceDownloaderConfig,
-    SalesforceIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=SalesforceIndexerConfig(categories=["Campaign", "EmailMessage"]),
-        downloader_config=SalesforceDownloaderConfig(download_dir=download_path),
-        source_connection_config=SalesforceConnectionConfig(
-            SalesforceAccessConfig(
-                consumer_key=os.getenv("SALESFORCE_CONSUMER_KEY"),
-                private_key=os.getenv("SALESFORCE_PRIVATE_KEY"),
-            ),
-            username=os.getenv("SALESFORCE_USERNAME"),
-        ),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        uploader_config=LocalUploaderConfig(output_dir=str(output_path.resolve())),
-    ).run()

examples/sharepoint.py DELETED Viewed

@@ -1,47 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.connectors.local import (
-    LocalUploaderConfig,
-)
-from unstructured_ingest.processes.connectors.sharepoint import (
-    CONNECTOR_TYPE,
-    SharepointAccessConfig,
-    SharepointConnectionConfig,
-    SharepointDownloaderConfig,
-    SharepointIndexerConfig,
-    SharepointPermissionsConfig,
-)
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve()), tqdm=True, verbose=True),
-        indexer_config=SharepointIndexerConfig(),
-        downloader_config=SharepointDownloaderConfig(download_dir=download_path),
-        source_connection_config=SharepointConnectionConfig(
-            client_id=os.getenv("SHAREPOINT_CLIENT_ID"),
-            site=os.getenv("SHAREPOINT_SITE"),
-            access_config=SharepointAccessConfig(client_cred=os.getenv("SHAREPOINT_CRED")),
-            permissions_config=SharepointPermissionsConfig(
-                permissions_application_id=os.getenv("SHAREPOINT_PERMISSIONS_APP_ID"),
-                permissions_client_cred=os.getenv("SHAREPOINT_PERMISSIONS_APP_CRED"),
-                permissions_tenant=os.getenv("SHAREPOINT_PERMISSIONS_TENANT"),
-            ),
-        ),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        # chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        # embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        uploader_config=LocalUploaderConfig(output_dir=str(output_path.resolve())),
-    ).run()

examples/singlestore.py DELETED Viewed

@@ -1,49 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.singlestore import (
-    CONNECTOR_TYPE,
-    SingleStoreAccessConfig,
-    SingleStoreConnectionConfig,
-    SingleStoreUploaderConfig,
-    SingleStoreUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve()), tqdm=True, verbose=True),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=SingleStoreConnectionConfig(
-            access_config=SingleStoreAccessConfig(password="password"),
-            host="localhost",
-            port=3306,
-            database="ingest_test",
-            user="root",
-        ),
-        stager_config=SingleStoreUploadStagerConfig(),
-        uploader_config=SingleStoreUploaderConfig(table_name="elements"),
-    ).run()

examples/sql.py DELETED Viewed

@@ -1,90 +0,0 @@
-import os
-import sqlite3
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.sql import (
-    CONNECTOR_TYPE,
-    POSTGRESQL_DB,
-    SQLITE_DB,
-    SQLAccessConfig,
-    SQLConnectionConfig,
-    SQLUploaderConfig,
-    SQLUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-SQLITE_DB_PATH = "test-sql-db.sqlite"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    configs = {
-        "context": ProcessorConfig(work_dir=str(work_dir.resolve())),
-        "indexer_config": LocalIndexerConfig(input_path=str(docs_path.resolve()) + "/multisimple/"),
-        "downloader_config": LocalDownloaderConfig(download_dir=download_path),
-        "source_connection_config": LocalConnectionConfig(),
-        "partitioner_config": PartitionerConfig(strategy="fast"),
-        "chunker_config": ChunkerConfig(
-            chunking_strategy="by_title",
-            chunk_include_orig_elements=False,
-            chunk_max_characters=1500,
-            chunk_multipage_sections=True,
-        ),
-        "embedder_config": EmbedderConfig(embedding_provider="huggingface"),
-        "stager_config": SQLUploadStagerConfig(),
-        "uploader_config": SQLUploaderConfig(batch_size=10),
-    }
-    if os.path.exists(SQLITE_DB):
-        os.remove(SQLITE_DB)
-    connection = sqlite3.connect(database=SQLITE_DB)
-    query = None
-    script_path = (
-        Path(__file__).parent.parent.parent.parent.parent
-        / Path("test_e2e/env_setup/sql/sqlite-schema.sql")
-    ).resolve()
-    with open(script_path) as f:
-        query = f.read()
-    cursor = connection.cursor()
-    cursor.executescript(query)
-    connection.close()
-    # sqlite test first
-    Pipeline.from_configs(
-        destination_connection_config=SQLConnectionConfig(
-            db_type=SQLITE_DB,
-            database=SQLITE_DB_PATH,
-            access_config=SQLAccessConfig(),
-        ),
-        **configs,
-    ).run()
-    # now, pg with pgvector
-    Pipeline.from_configs(
-        destination_connection_config=SQLConnectionConfig(
-            db_type=POSTGRESQL_DB,
-            database="elements",
-            host="localhost",
-            port=5433,
-            access_config=SQLAccessConfig(username="unstructured", password="test"),
-        ),
-        **configs,
-    ).run()

examples/vectara.py DELETED Viewed

@@ -1,54 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.vectara import (
-    CONNECTOR_TYPE,
-    VectaraAccessConfig,
-    VectaraConnectionConfig,
-    VectaraUploaderConfig,
-    VectaraUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(input_path=str(docs_path.resolve()) + "/multisimple/"),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="by_title",
-            chunk_include_orig_elements=False,
-            chunk_max_characters=1500,
-            chunk_multipage_sections=True,
-        ),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=VectaraConnectionConfig(
-            access_config=VectaraAccessConfig(
-                oauth_client_id="fill oauth_client_id", oauth_secret="fill oauth_secret"
-            ),
-            customer_id="fill customer_id",
-            corpus_name="fill corpus_name",
-            corpus_key="fill corpus_key",
-            token_url="fill token_url",
-        ),
-        stager_config=VectaraUploadStagerConfig(batch_size=10),
-        uploader_config=VectaraUploaderConfig(),
-    ).run()

examples/weaviate.py DELETED Viewed

@@ -1,44 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.weaviate.local import (
-    CONNECTOR_TYPE,
-    LocalWeaviateConnectionConfig,
-    LocalWeaviateUploaderConfig,
-    LocalWeaviateUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(input_path=str(docs_path.resolve()) + "/multisimple/"),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=LocalWeaviateConnectionConfig(
-            # Connects to http://localhost:8080
-        ),
-        stager_config=LocalWeaviateUploadStagerConfig(),
-        uploader_config=LocalWeaviateUploaderConfig(
-            collection="elements", batch_size=10, dynamic_batch=False
-        ),
-    ).run()

test/__init__.py DELETED Viewed

File without changes

test/integration/__init__.py DELETED Viewed

File without changes

test/integration/chunkers/__init__.py DELETED Viewed

File without changes

test/integration/chunkers/test_chunkers.py DELETED Viewed

@@ -1,31 +0,0 @@
-import os
-from pathlib import Path
-import pytest
-from test.integration.utils import requires_env
-from unstructured_ingest.processes.chunker import Chunker, ChunkerConfig
-int_test_dir = Path(__file__).parent
-assets_dir = int_test_dir / "assets"
-chunker_files = [path for path in assets_dir.iterdir() if path.is_file()]
-@pytest.mark.parametrize("chunker_file", chunker_files, ids=[path.name for path in chunker_files])
-@pytest.mark.parametrize("strategy", ["basic", "by_title", "by_similarity", "by_page"])
-@requires_env("UNSTRUCTURED_API_KEY", "UNSTRUCTURED_API_URL")
-@pytest.mark.asyncio
-async def test_chunker_api(chunker_file: Path, strategy: str):
-    api_key = os.getenv("UNSTRUCTURED_API_KEY")
-    api_url = os.getenv("UNSTRUCTURED_API_URL")
-    chunker_config = ChunkerConfig(
-        chunking_strategy=strategy,
-        chunk_by_api=True,
-        chunk_api_key=api_key,
-        chunking_endpoint=api_url,
-    )
-    chunker = Chunker(config=chunker_config)
-    results = await chunker.run_async(elements_filepath=chunker_file)
-    assert results

test/integration/connectors/__init__.py DELETED Viewed

File without changes

test/integration/connectors/conftest.py DELETED Viewed

@@ -1,38 +0,0 @@
-import tempfile
-from pathlib import Path
-from typing import Generator
-import pytest
-from unstructured_ingest.logger import logger
-FILENAME = Path("DA-1p-with-duplicate-pages.pdf.json")
-@pytest.fixture
-def upload_file() -> Path:
-    int_test_dir = Path(__file__).parent
-    assets_dir = int_test_dir / "assets"
-    upload_file = assets_dir / FILENAME
-    assert upload_file.exists()
-    assert upload_file.is_file()
-    return upload_file
-@pytest.fixture
-def upload_file_ndjson() -> Path:
-    int_test_dir = Path(__file__).parent
-    assets_dir = int_test_dir / "assets"
-    upload_file = assets_dir / FILENAME.with_suffix(".ndjson")
-    assert upload_file.exists()
-    assert upload_file.is_file()
-    return upload_file
-@pytest.fixture
-def temp_dir() -> Generator[Path, None, None]:
-    with tempfile.TemporaryDirectory() as temp_dir:
-        temp_path = Path(temp_dir)
-        logger.info(f"Created temp dir '{temp_path}'")
-        yield temp_path
-        logger.info(f"Removing temp dir '{temp_path}'")

test/integration/connectors/databricks/__init__.py DELETED Viewed

File without changes

unstructured-ingest 0.7.2__py3-none-any.whl → 1.0.2__py3-none-any.whl

Potentially problematic release.

unstructured-ingest 0.7.2py3-none-any.whl → 1.0.2py3-none-any.whl