PyPI - unstructured-ingest - Versions diffs - 0.7.2__py3-none-any.whl → 1.0.2__py3-none-any.whl - Mend

unstructured-ingest 0.7.2py3-none-any.whl → 1.0.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of unstructured-ingest might be problematic. Click here for more details.

Files changed (187) hide show

unstructured_ingest/__version__.py +1 -1
unstructured_ingest/cli/README.md +28 -0
unstructured_ingest/embed/mixedbreadai.py +0 -1
unstructured_ingest/interfaces/upload_stager.py +2 -2
unstructured_ingest/interfaces/uploader.py +3 -3
unstructured_ingest/main.py +0 -0
unstructured_ingest/pipeline/interfaces.py +1 -1
unstructured_ingest/pipeline/pipeline.py +1 -1
unstructured_ingest/processes/chunker.py +4 -0
unstructured_ingest/processes/connectors/airtable.py +4 -2
unstructured_ingest/processes/connectors/astradb.py +48 -34
unstructured_ingest/processes/connectors/azure_ai_search.py +1 -1
unstructured_ingest/processes/connectors/confluence.py +0 -1
unstructured_ingest/processes/connectors/databricks/volumes_aws.py +1 -1
unstructured_ingest/processes/connectors/databricks/volumes_azure.py +2 -2
unstructured_ingest/processes/connectors/databricks/volumes_gcp.py +1 -1
unstructured_ingest/processes/connectors/databricks/volumes_table.py +1 -2
unstructured_ingest/processes/connectors/delta_table.py +1 -0
unstructured_ingest/processes/connectors/duckdb/base.py +2 -2
unstructured_ingest/processes/connectors/duckdb/duckdb.py +3 -3
unstructured_ingest/processes/connectors/duckdb/motherduck.py +3 -3
unstructured_ingest/processes/connectors/fsspec/s3.py +5 -3
unstructured_ingest/processes/connectors/gitlab.py +1 -2
unstructured_ingest/processes/connectors/google_drive.py +0 -2
unstructured_ingest/processes/connectors/ibm_watsonx/ibm_watsonx_s3.py +9 -7
unstructured_ingest/processes/connectors/kdbai.py +1 -0
unstructured_ingest/processes/connectors/outlook.py +1 -2
unstructured_ingest/processes/connectors/pinecone.py +0 -1
unstructured_ingest/processes/connectors/redisdb.py +28 -24
unstructured_ingest/processes/connectors/salesforce.py +1 -1
unstructured_ingest/processes/connectors/slack.py +1 -2
unstructured_ingest/processes/connectors/sql/databricks_delta_tables.py +5 -0
unstructured_ingest/processes/connectors/sql/postgres.py +7 -1
unstructured_ingest/processes/connectors/sql/singlestore.py +11 -6
unstructured_ingest/processes/connectors/sql/snowflake.py +5 -0
unstructured_ingest/processes/connectors/sql/sql.py +3 -4
unstructured_ingest/processes/connectors/sql/sqlite.py +5 -0
unstructured_ingest/processes/connectors/sql/vastdb.py +7 -3
unstructured_ingest/processes/connectors/vectara.py +0 -2
unstructured_ingest/processes/connectors/zendesk/zendesk.py +0 -2
unstructured_ingest/processes/embedder.py +2 -2
unstructured_ingest/processes/filter.py +1 -1
unstructured_ingest/processes/partitioner.py +4 -0
unstructured_ingest/processes/utils/blob_storage.py +2 -2
unstructured_ingest/unstructured_api.py +13 -8
unstructured_ingest/utils/data_prep.py +8 -32
unstructured_ingest-1.0.2.dist-info/METADATA +226 -0
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info}/RECORD +50 -184
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info}/WHEEL +1 -2
examples/__init__.py +0 -0
examples/airtable.py +0 -44
examples/azure_cognitive_search.py +0 -55
examples/chroma.py +0 -54
examples/couchbase.py +0 -55
examples/databricks_volumes_dest.py +0 -55
examples/databricks_volumes_source.py +0 -53
examples/delta_table.py +0 -45
examples/discord_example.py +0 -36
examples/elasticsearch.py +0 -49
examples/google_drive.py +0 -45
examples/kdbai.py +0 -54
examples/local.py +0 -36
examples/milvus.py +0 -44
examples/mongodb.py +0 -53
examples/opensearch.py +0 -50
examples/pinecone.py +0 -57
examples/s3.py +0 -38
examples/salesforce.py +0 -44
examples/sharepoint.py +0 -47
examples/singlestore.py +0 -49
examples/sql.py +0 -90
examples/vectara.py +0 -54
examples/weaviate.py +0 -44
test/__init__.py +0 -0
test/integration/__init__.py +0 -0
test/integration/chunkers/__init__.py +0 -0
test/integration/chunkers/test_chunkers.py +0 -31
test/integration/connectors/__init__.py +0 -0
test/integration/connectors/conftest.py +0 -38
test/integration/connectors/databricks/__init__.py +0 -0
test/integration/connectors/databricks/test_volumes_native.py +0 -273
test/integration/connectors/discord/__init__.py +0 -0
test/integration/connectors/discord/test_discord.py +0 -90
test/integration/connectors/duckdb/__init__.py +0 -0
test/integration/connectors/duckdb/conftest.py +0 -14
test/integration/connectors/duckdb/test_duckdb.py +0 -90
test/integration/connectors/duckdb/test_motherduck.py +0 -95
test/integration/connectors/elasticsearch/__init__.py +0 -0
test/integration/connectors/elasticsearch/conftest.py +0 -34
test/integration/connectors/elasticsearch/test_elasticsearch.py +0 -331
test/integration/connectors/elasticsearch/test_opensearch.py +0 -326
test/integration/connectors/sql/__init__.py +0 -0
test/integration/connectors/sql/test_databricks_delta_tables.py +0 -170
test/integration/connectors/sql/test_postgres.py +0 -201
test/integration/connectors/sql/test_singlestore.py +0 -182
test/integration/connectors/sql/test_snowflake.py +0 -244
test/integration/connectors/sql/test_sqlite.py +0 -168
test/integration/connectors/sql/test_vastdb.py +0 -34
test/integration/connectors/test_astradb.py +0 -287
test/integration/connectors/test_azure_ai_search.py +0 -254
test/integration/connectors/test_chroma.py +0 -136
test/integration/connectors/test_confluence.py +0 -111
test/integration/connectors/test_delta_table.py +0 -183
test/integration/connectors/test_dropbox.py +0 -151
test/integration/connectors/test_github.py +0 -49
test/integration/connectors/test_google_drive.py +0 -257
test/integration/connectors/test_jira.py +0 -67
test/integration/connectors/test_lancedb.py +0 -247
test/integration/connectors/test_milvus.py +0 -208
test/integration/connectors/test_mongodb.py +0 -335
test/integration/connectors/test_neo4j.py +0 -244
test/integration/connectors/test_notion.py +0 -152
test/integration/connectors/test_onedrive.py +0 -163
test/integration/connectors/test_pinecone.py +0 -387
test/integration/connectors/test_qdrant.py +0 -216
test/integration/connectors/test_redis.py +0 -143
test/integration/connectors/test_s3.py +0 -184
test/integration/connectors/test_sharepoint.py +0 -222
test/integration/connectors/test_vectara.py +0 -282
test/integration/connectors/test_zendesk.py +0 -120
test/integration/connectors/utils/__init__.py +0 -0
test/integration/connectors/utils/constants.py +0 -13
test/integration/connectors/utils/docker.py +0 -151
test/integration/connectors/utils/docker_compose.py +0 -59
test/integration/connectors/utils/validation/__init__.py +0 -0
test/integration/connectors/utils/validation/destination.py +0 -77
test/integration/connectors/utils/validation/equality.py +0 -76
test/integration/connectors/utils/validation/source.py +0 -331
test/integration/connectors/utils/validation/utils.py +0 -36
test/integration/connectors/weaviate/__init__.py +0 -0
test/integration/connectors/weaviate/conftest.py +0 -15
test/integration/connectors/weaviate/test_cloud.py +0 -39
test/integration/connectors/weaviate/test_local.py +0 -152
test/integration/embedders/__init__.py +0 -0
test/integration/embedders/conftest.py +0 -13
test/integration/embedders/test_azure_openai.py +0 -57
test/integration/embedders/test_bedrock.py +0 -103
test/integration/embedders/test_huggingface.py +0 -24
test/integration/embedders/test_mixedbread.py +0 -71
test/integration/embedders/test_octoai.py +0 -75
test/integration/embedders/test_openai.py +0 -74
test/integration/embedders/test_togetherai.py +0 -71
test/integration/embedders/test_vertexai.py +0 -63
test/integration/embedders/test_voyageai.py +0 -79
test/integration/embedders/utils.py +0 -66
test/integration/partitioners/__init__.py +0 -0
test/integration/partitioners/test_partitioner.py +0 -76
test/integration/utils.py +0 -15
test/unit/__init__.py +0 -0
test/unit/chunkers/__init__.py +0 -0
test/unit/chunkers/test_chunkers.py +0 -49
test/unit/connectors/__init__.py +0 -0
test/unit/connectors/ibm_watsonx/__init__.py +0 -0
test/unit/connectors/ibm_watsonx/test_ibm_watsonx_s3.py +0 -459
test/unit/connectors/motherduck/__init__.py +0 -0
test/unit/connectors/motherduck/test_base.py +0 -73
test/unit/connectors/sql/__init__.py +0 -0
test/unit/connectors/sql/test_sql.py +0 -152
test/unit/connectors/test_confluence.py +0 -71
test/unit/connectors/test_jira.py +0 -401
test/unit/embed/__init__.py +0 -0
test/unit/embed/test_mixedbreadai.py +0 -42
test/unit/embed/test_octoai.py +0 -27
test/unit/embed/test_openai.py +0 -28
test/unit/embed/test_vertexai.py +0 -25
test/unit/embed/test_voyageai.py +0 -24
test/unit/embedders/__init__.py +0 -0
test/unit/embedders/test_bedrock.py +0 -36
test/unit/embedders/test_huggingface.py +0 -48
test/unit/embedders/test_mixedbread.py +0 -37
test/unit/embedders/test_octoai.py +0 -35
test/unit/embedders/test_openai.py +0 -35
test/unit/embedders/test_togetherai.py +0 -37
test/unit/embedders/test_vertexai.py +0 -37
test/unit/embedders/test_voyageai.py +0 -38
test/unit/partitioners/__init__.py +0 -0
test/unit/partitioners/test_partitioner.py +0 -63
test/unit/test_error.py +0 -27
test/unit/test_html.py +0 -112
test/unit/test_interfaces.py +0 -26
test/unit/test_utils.py +0 -220
test/unit/utils/__init__.py +0 -0
test/unit/utils/data_generator.py +0 -32
unstructured_ingest-0.7.2.dist-info/METADATA +0 -383
unstructured_ingest-0.7.2.dist-info/top_level.txt +0 -3
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info}/entry_points.txt +0 -0
{unstructured_ingest-0.7.2.dist-info → unstructured_ingest-1.0.2.dist-info/licenses}/LICENSE.md +0 -0

examples/azure_cognitive_search.py DELETED Viewed

@@ -1,55 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.azure_ai_search import (
-    CONNECTOR_TYPE,
-    AzureAISearchAccessConfig,
-    AzureAISearchConnectionConfig,
-    AzureAISearchUploaderConfig,
-    AzureAISearchUploadStagerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    index_name = "ingest-test-destination"
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="by_title", chunk_include_orig_elements=False
-        ),
-        embedder_config=EmbedderConfig(
-            embedding_provider="openai", embedding_api_key=os.getenv("OPENAI_API_KEY")
-        ),
-        destination_connection_config=AzureAISearchConnectionConfig(
-            access_config=AzureAISearchAccessConfig(
-                azure_ai_search_key=os.getenv("AZURE_SEARCH_API_KEY")
-            ),
-            index=os.getenv("AZURE_SEARCH_INDEX"),
-            endpoint=os.getenv("AZURE_SEARCH_ENDPOINT"),
-        ),
-        uploader_config=AzureAISearchUploaderConfig(batch_size=10),
-        stager_config=AzureAISearchUploadStagerConfig(),
-    ).run()

examples/chroma.py DELETED Viewed

@@ -1,54 +0,0 @@
-import random
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.chroma import (
-    CONNECTOR_TYPE,
-    ChromaAccessConfig,
-    ChromaConnectionConfig,
-    ChromaUploaderConfig,
-    ChromaUploadStagerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(input_path=docs_path.resolve() / "multisimple"),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="by_title",
-            chunk_include_orig_elements=False,
-            chunk_max_characters=1500,
-            chunk_multipage_sections=True,
-        ),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=ChromaConnectionConfig(
-            access_config=ChromaAccessConfig(settings=None, headers=None),
-            host="localhost",
-            port=8047,
-            collection_name=f"test-collection-{random.randint(1000, 9999)}",
-            tenant="default_tenant",
-            database="default_database",
-        ),
-        stager_config=ChromaUploadStagerConfig(),
-        uploader_config=ChromaUploaderConfig(batch_size=10),
-    ).run()

examples/couchbase.py DELETED Viewed

@@ -1,55 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.couchbase import (
-    CONNECTOR_TYPE,
-    CouchbaseAccessConfig,
-    CouchbaseConnectionConfig,
-    CouchbaseUploaderConfig,
-    CouchbaseUploadStagerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(input_path=str(docs_path.resolve()) + "/multisimple/"),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="by_title",
-            chunk_include_orig_elements=False,
-            chunk_max_characters=1500,
-            chunk_multipage_sections=True,
-        ),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=CouchbaseConnectionConfig(
-            access_config=CouchbaseAccessConfig(
-                connection_string="couchbase://localhost",
-                username="Administrator",
-                password="password",
-            ),
-            bucket="example_bucket",
-            scope="example_scope",
-            collection="example_collection",
-        ),
-        stager_config=CouchbaseUploadStagerConfig(),
-        uploader_config=CouchbaseUploaderConfig(batch_size=10),
-    ).run()

examples/databricks_volumes_dest.py DELETED Viewed

@@ -1,55 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.databricks.volumes_native import (
-    CONNECTOR_TYPE,
-    DatabricksNativeVolumesAccessConfig,
-    DatabricksNativeVolumesConnectionConfig,
-    DatabricksNativeVolumesUploaderConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(input_path=str(docs_path.resolve()) + "/fake-text.txt"),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="basic",
-        ),
-        embedder_config=None,
-        destination_connection_config=DatabricksNativeVolumesConnectionConfig(
-            access_config=DatabricksNativeVolumesAccessConfig(
-                client_id=os.environ["DATABRICKS_CLIENT_ID"],
-                client_secret=os.environ["DATABRICKS_CLIENT_SECRET"],
-            ),
-            host=os.environ["DATABRICKS_HOST"],
-            catalog=os.environ["DATABRICKS_CATALOG"],
-            volume=os.environ["DATABRICKS_VOLUME"],
-            volume_path=os.environ["DATABRICKS_VOLUME_PATH"],
-        ),
-        uploader_config=DatabricksNativeVolumesUploaderConfig(
-            overwrite=True,
-            catalog=os.environ["DATABRICKS_CATALOG"],
-            volume=os.environ["DATABRICKS_VOLUME"],
-            volume_path=os.environ["DATABRICKS_VOLUME_PATH"],
-        ),
-    ).run()

examples/databricks_volumes_source.py DELETED Viewed

@@ -1,53 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.databricks.volumes_native import (
-    CONNECTOR_TYPE,
-    DatabricksNativeVolumesAccessConfig,
-    DatabricksNativeVolumesConnectionConfig,
-    DatabricksNativeVolumesDownloaderConfig,
-    DatabricksNativeVolumesIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalUploaderConfig,
-)
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=DatabricksNativeVolumesIndexerConfig(
-            host=os.environ["DATABRICKS_HOST"],
-            catalog=os.environ["DATABRICKS_CATALOG"],
-            volume=os.environ["DATABRICKS_VOLUME"],
-            volume_path=os.environ["DATABRICKS_VOLUME_PATH"],
-        ),
-        downloader_config=DatabricksNativeVolumesDownloaderConfig(download_dir=download_path),
-        source_connection_config=DatabricksNativeVolumesConnectionConfig(
-            access_config=DatabricksNativeVolumesAccessConfig(
-                client_id=os.environ["DATABRICKS_CLIENT_ID"],
-                client_secret=os.environ["DATABRICKS_CLIENT_SECRET"],
-            ),
-            host=os.environ["DATABRICKS_HOST"],
-            catalog=os.environ["DATABRICKS_CATALOG"],
-            volume=os.environ["DATABRICKS_VOLUME"],
-            volume_path=os.environ["DATABRICKS_VOLUME_PATH"],
-        ),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="basic",
-        ),
-        embedder_config=None,
-        uploader_config=LocalUploaderConfig(output_dir=str(output_path.resolve())),
-    ).run()

examples/delta_table.py DELETED Viewed

@@ -1,45 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.delta_table import (
-    CONNECTOR_TYPE,
-    DeltaTableAccessConfig,
-    DeltaTableConnectionConfig,
-    DeltaTableUploaderConfig,
-    DeltaTableUploadStagerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt",
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=DeltaTableConnectionConfig(
-            access_config=DeltaTableAccessConfig(), table_uri="example_uri"
-        ),
-        stager_config=DeltaTableUploadStagerConfig(),
-        uploader_config=DeltaTableUploaderConfig(),
-    ).run()

examples/discord_example.py DELETED Viewed

@@ -1,36 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.connectors.discord import (
-    CONNECTOR_TYPE,
-    DiscordAccessConfig,
-    DiscordConnectionConfig,
-    DiscordDownloaderConfig,
-    DiscordIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.local import LocalUploaderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve()), tqdm=True, verbose=True),
-        indexer_config=DiscordIndexerConfig(channels=os.environ["DISCORD_CHANNELS"].split(",")),
-        downloader_config=DiscordDownloaderConfig(limit=int(os.getenv("DISCORD_LIMIT", 100))),
-        source_connection_config=DiscordConnectionConfig(
-            access_config=DiscordAccessConfig(token=os.environ["DISCORD_TOKEN"])
-        ),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        # chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        # embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        uploader_config=LocalUploaderConfig(output_dir=str(output_path.resolve())),
-    ).run()

examples/elasticsearch.py DELETED Viewed

@@ -1,49 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.elasticsearch import (
-    CONNECTOR_TYPE,
-    ElasticsearchAccessConfig,
-    ElasticsearchConnectionConfig,
-    ElasticsearchUploaderConfig,
-    ElasticsearchUploadStagerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    index_name = "ingest-test-destination"
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=ElasticsearchConnectionConfig(
-            access_config=ElasticsearchAccessConfig(password=os.getenv("ELASTIC_PASSWORD")),
-            username=os.getenv("ELASTIC_USERNAME"),
-            hosts=["http://localhost:9200"],
-        ),
-        uploader_config=ElasticsearchUploaderConfig(index_name=index_name),
-        stager_config=ElasticsearchUploadStagerConfig(index_name=index_name),
-    ).run()

examples/google_drive.py DELETED Viewed

@@ -1,45 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.google_drive import (
-    CONNECTOR_TYPE,
-    GoogleDriveAccessConfig,
-    GoogleDriveConnectionConfig,
-    GoogleDriveDownloaderConfig,
-    GoogleDriveIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalUploaderConfig,
-)
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-if __name__ == "__main__":
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        # You'll need to set GOOGLE_DRIVE_SERVICE_KEY and GOOGLE_DRIVE_DRIVE_ID
-        # environment variable to run this example
-        source_connection_config=GoogleDriveConnectionConfig(
-            access_config=GoogleDriveAccessConfig(
-                service_account_key=os.environ.get("GOOGLE_DRIVE_SERVICE_KEY")
-            ),
-            drive_id=os.environ.get("GOOGLE_DRIVE_DRIVE_ID"),
-        ),
-        indexer_config=GoogleDriveIndexerConfig(
-            resursive=True,
-        ),
-        downloader_config=GoogleDriveDownloaderConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="basic",
-        ),
-        embedder_config=None,
-        uploader_config=LocalUploaderConfig(output_dir=output_path),
-    ).run()

examples/kdbai.py DELETED Viewed

@@ -1,54 +0,0 @@
-import os
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.kdbai import (
-    CONNECTOR_TYPE,
-    KdbaiConnectionConfig,
-    KdbaiUploaderConfig,
-    KdbaiUploadStagerConfig,
-)
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-input_path = docs_path.resolve() / "pdf" / "fake-memo.pdf"
-os.environ["KDBAI_API_KEY"] = "key"
-os.environ["KDBAI_ENDPOINT"] = "http://localhost"
-os.environ["KDBAI_DATABASE"] = "default"
-os.environ["KDBAI_TABLE"] = "table"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    logger.info(f"processing file(s): {input_path.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve()), tqdm=True, verbose=True),
-        indexer_config=LocalIndexerConfig(
-            input_path=docs_path.resolve() / "book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=KdbaiConnectionConfig(
-            endpoint=os.environ["KDBAI_ENDPOINT"],
-        ),
-        stager_config=KdbaiUploadStagerConfig(),
-        uploader_config=KdbaiUploaderConfig(
-            database_name=os.environ["KDBAI_DATABASE"], table_name=os.environ["KDBAI_TABLE"]
-        ),
-    ).run()

examples/local.py DELETED Viewed

@@ -1,36 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    CONNECTOR_TYPE,
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-    LocalUploaderConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/language-docs/UDHR_first_article_all.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        uploader_config=LocalUploaderConfig(output_dir=str(output_path.resolve())),
-    ).run()

examples/milvus.py DELETED Viewed

@@ -1,44 +0,0 @@
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.milvus import (
-    CONNECTOR_TYPE,
-    MilvusConnectionConfig,
-    MilvusUploaderConfig,
-    MilvusUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve()), tqdm=True, verbose=True),
-        indexer_config=LocalIndexerConfig(
-            input_path=str(docs_path.resolve()) + "/book-war-and-peace-1p.txt"
-        ),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(chunking_strategy="by_title"),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=MilvusConnectionConfig(
-            uri="http://localhost:19530", db_name="milvus"
-        ),
-        stager_config=MilvusUploadStagerConfig(),
-        uploader_config=MilvusUploaderConfig(collection_name="ingest_test"),
-    ).run()

examples/mongodb.py DELETED Viewed

@@ -1,53 +0,0 @@
-import random
-from pathlib import Path
-from unstructured_ingest.interfaces import ProcessorConfig
-from unstructured_ingest.logger import logger
-from unstructured_ingest.pipeline.pipeline import Pipeline
-from unstructured_ingest.processes.chunker import ChunkerConfig
-from unstructured_ingest.processes.connectors.local import (
-    LocalConnectionConfig,
-    LocalDownloaderConfig,
-    LocalIndexerConfig,
-)
-from unstructured_ingest.processes.connectors.mongodb import (
-    CONNECTOR_TYPE,
-    MongoDBAccessConfig,
-    MongoDBConnectionConfig,
-    MongoDBUploaderConfig,
-    MongoDBUploadStagerConfig,
-)
-from unstructured_ingest.processes.embedder import EmbedderConfig
-from unstructured_ingest.processes.partitioner import PartitionerConfig
-base_path = Path(__file__).parent.parent.parent.parent
-docs_path = base_path / "example-docs"
-work_dir = base_path / "tmp_ingest" / CONNECTOR_TYPE
-output_path = work_dir / "output"
-download_path = work_dir / "download"
-if __name__ == "__main__":
-    logger.info(f"writing all content in: {work_dir.resolve()}")
-    Pipeline.from_configs(
-        context=ProcessorConfig(work_dir=str(work_dir.resolve())),
-        indexer_config=LocalIndexerConfig(input_path=str(docs_path.resolve()) + "/multisimple/"),
-        downloader_config=LocalDownloaderConfig(download_dir=download_path),
-        source_connection_config=LocalConnectionConfig(),
-        partitioner_config=PartitionerConfig(strategy="fast"),
-        chunker_config=ChunkerConfig(
-            chunking_strategy="by_title",
-            chunk_include_orig_elements=False,
-            chunk_max_characters=1500,
-            chunk_multipage_sections=True,
-        ),
-        embedder_config=EmbedderConfig(embedding_provider="huggingface"),
-        destination_connection_config=MongoDBConnectionConfig(
-            access_config=MongoDBAccessConfig(uri=None),
-            host="localhost",
-            port=27017,
-            collection=f"test-collection-{random.randint(1000, 9999)}",
-            database="testDatabase",
-        ),
-        stager_config=MongoDBUploadStagerConfig(),
-        uploader_config=MongoDBUploaderConfig(batch_size=10),
-    ).run()

unstructured-ingest 0.7.2__py3-none-any.whl → 1.0.2__py3-none-any.whl

Potentially problematic release.

unstructured-ingest 0.7.2py3-none-any.whl → 1.0.2py3-none-any.whl