PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/writer/tus/gcs.py CHANGED Viewed

@@ -23,31 +23,33 @@ import asyncio
 import base64
 import json
 import os
+import socket
 import tempfile
 import uuid
 from concurrent.futures import ThreadPoolExecutor
 from copy import deepcopy
-from datetime import datetime
-from typing import AsyncIterator, Optional
+from typing import Optional
 from urllib.parse import quote_plus
 import aiohttp
 import backoff
-from nucliadb_protos.resources_pb2 import CloudFile
+import google.auth.compute_engine.credentials  # type: ignore
+import google.auth.transport.requests  # type: ignore
+import google.oauth2.credentials  # type: ignore
+from google.auth.exceptions import DefaultCredentialsError  # type: ignore
 from oauth2client.service_account import ServiceAccountCredentials  # type: ignore
 from nucliadb.writer import logger
 from nucliadb.writer.tus.dm import FileDataManager
 from nucliadb.writer.tus.exceptions import (
-    CloudFileNotFound,
     HTTPBadRequest,
-    HTTPNotFound,
     HTTPPreconditionFailed,
     ResumableURINotAvailable,
 )
 from nucliadb.writer.tus.storage import BlobStore, FileStorageManager
 from nucliadb.writer.tus.utils import to_str
-from nucliadb_utils.storages.gcs import CHUNK_SIZE, MIN_UPLOAD_SIZE
+from nucliadb_protos.resources_pb2 import CloudFile
+from nucliadb_utils.storages.gcs import CHUNK_SIZE, MIN_UPLOAD_SIZE, TIMEOUT
 class GoogleCloudException(Exception):
@@ -61,6 +63,12 @@ MAX_RETRIES = 5
 RETRIABLE_EXCEPTIONS = (
     GoogleCloudException,
     aiohttp.client_exceptions.ClientPayloadError,
+    aiohttp.client_exceptions.ClientConnectorError,
+    aiohttp.client_exceptions.ClientConnectionError,
+    aiohttp.client_exceptions.ClientOSError,
+    aiohttp.client_exceptions.ServerConnectionError,
+    aiohttp.client_exceptions.ServerDisconnectedError,
+    socket.gaierror,
 )
@@ -69,7 +77,7 @@ class GCloudBlobStore(BlobStore):
     loop = None
     upload_url: str
     object_base_url: str
-    json_credentials: str
+    json_credentials: Optional[str]
     bucket: str
     location: str
     project: str
@@ -83,9 +91,18 @@ class GCloudBlobStore(BlobStore):
         return {"AUTHORIZATION": f"Bearer {token}"}
     def _get_access_token(self):
-        access_token = self._credentials.get_access_token()
-        self._creation_access_token = datetime.now()
-        return access_token.access_token
+        if isinstance(
+            self._credentials, google.auth.compute_engine.credentials.Credentials
+        ) or isinstance(self._credentials, google.oauth2.credentials.Credentials):
+            # google default auth object
+            if self._credentials.expired or self._credentials.valid is False:
+                request = google.auth.transport.requests.Request()
+                self._credentials.refresh(request)
+            return self._credentials.token
+        else:
+            access_token = self._credentials.get_access_token()
+            return access_token.access_token
     async def finalize(self):
         if self.session is not None:
@@ -106,32 +123,35 @@ class GCloudBlobStore(BlobStore):
         self.project = project
         self.bucket_labels = bucket_labels
         self.object_base_url = object_base_url + "/storage/v1/b"
-        self.upload_url = (
-            object_base_url + "/upload/storage/v1/b/{bucket}/o?uploadType=resumable"
-        )  # noqa
+        self.upload_url = object_base_url + "/upload/storage/v1/b/{bucket}/o?uploadType=resumable"  # noqa
+        self.json_credentials = json_credentials
         self._credentials = None
-        if json_credentials is not None:
-            self.json_credentials_file = os.path.join(
-                tempfile.mkdtemp(), "gcs_credentials.json"
-            )
-            open(self.json_credentials_file, "w").write(
-                base64.b64decode(json_credentials).decode("utf-8")
-            )
+        if self.json_credentials is not None and self.json_credentials.strip() != "":
+            self.json_credentials_file = os.path.join(tempfile.mkdtemp(), "gcs_credentials.json")
+            with open(self.json_credentials_file, "w") as file:
+                file.write(base64.b64decode(self.json_credentials).decode("utf-8"))
             self._credentials = ServiceAccountCredentials.from_json_keyfile_name(
                 self.json_credentials_file, SCOPES
             )
+        else:
+            try:
+                self._credentials, self.project = google.auth.default()
+            except DefaultCredentialsError:
+                logger.warning("Setting up without credentials as couldn't find workload identity")
+                self._credentials = None
         loop = asyncio.get_event_loop()
-        self.session = aiohttp.ClientSession(loop=loop)
+        self.session = aiohttp.ClientSession(loop=loop, timeout=TIMEOUT)
     async def check_exists(self, bucket_name: str):
         if self.session is None:
             raise AttributeError()
         headers = await self.get_access_headers()
-        url = f"{self.object_base_url}/{bucket_name}?project={self.project}"
+        # Using object access url instead of bucket access to avoid
+        # giving admin permission to the SA, needed to GET a bucket
+        url = f"{self.object_base_url}/{bucket_name}/o"
         async with self.session.get(
             url,
             headers=headers,
@@ -170,9 +190,7 @@ class GCloudFileStorageManager(FileStorageManager):
     chunk_size = CHUNK_SIZE
     min_upload_size = MIN_UPLOAD_SIZE
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4)
     async def start(self, dm: FileDataManager, path: str, kbid: str):
         """Init an upload.
@@ -180,12 +198,15 @@ class GCloudFileStorageManager(FileStorageManager):
         _resumable_uri : uri to resumable upload
         _uri : finished uploaded image
         """
         if self.storage.session is None:
             raise AttributeError()
-        upload_file_id = dm.get("upload_file_id", str(uuid.uuid4()))
+        upload_file_id = dm.get("upload_file_id")
         if upload_file_id is not None:
             await self.delete_upload(upload_file_id, kbid)
+        else:
+            upload_file_id = str(uuid.uuid4())
         bucket = self.storage.get_bucket_name(kbid)
         init_url = "{}&name={}".format(
@@ -230,13 +251,9 @@ class GCloudFileStorageManager(FileStorageManager):
                 raise GoogleCloudException(text)
             resumable_uri = call.headers["Location"]
-        await dm.update(
-            resumable_uri=resumable_uri, upload_file_id=upload_file_id, path=path
-        )
+        await dm.update(resumable_uri=resumable_uri, upload_file_id=upload_file_id, path=path)
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4)
     async def delete_upload(self, uri, kbid):
         bucket = self.storage.get_bucket_name(kbid)
@@ -259,8 +276,7 @@ class GCloudFileStorageManager(FileStorageManager):
                 if resp.status not in (200, 204, 404):
                     if resp.status == 404:
                         logger.error(
-                            f"Attempt to delete not found gcloud: {data}, "
-                            f"status: {resp.status}",
+                            f"Attempt to delete not found gcloud: {data}, " f"status: {resp.status}",
                             exc_info=True,
                         )
                     else:
@@ -268,9 +284,7 @@ class GCloudFileStorageManager(FileStorageManager):
         else:
             raise AttributeError("No valid uri")
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4)
     async def _append(self, dm: FileDataManager, data, offset):
         if self.storage.session is None:
             raise AttributeError()
@@ -335,9 +349,7 @@ class GCloudFileStorageManager(FileStorageManager):
                 break
         return count
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=4)
     async def finish(self, dm: FileDataManager):
         if dm.size == 0:
             if self.storage.session is None:
@@ -363,46 +375,6 @@ class GCloudFileStorageManager(FileStorageManager):
         await dm.finish()
         return path
-    async def iter_data(self, uri, kbid: str, headers: Optional[dict[str, str]] = None):
-        if self.storage.session is None:
-            raise AttributeError()
-        if headers is None:
-            headers = {}
-        url = "{}/{}/o/{}".format(
-            self.storage.object_base_url,
-            self.storage.get_bucket_name(kbid),
-            quote_plus(uri),
-        )
-        headers_auth = await self.storage.get_access_headers()
-        headers.update(headers_auth)
-        async with self.storage.session.get(
-            url, headers=headers, params={"alt": "media"}, timeout=-1
-        ) as api_resp:
-            if api_resp.status not in (200, 206):
-                text = await api_resp.text()
-                if api_resp.status == 404:
-                    raise CloudFileNotFound("Google cloud file not found")
-                elif api_resp.status == 401:
-                    logger.warning(f"Invalid google cloud credentials error: {text}")
-                    raise HTTPNotFound(
-                        detail=f"Google cloud invalid credentials: {text}"
-                    )
-                raise GoogleCloudException(f"{api_resp.status}: {text}")
-            while True:
-                chunk = await api_resp.content.read(1024 * 1024)
-                if len(chunk) > 0:
-                    yield chunk
-                else:
-                    break
-    async def read_range(
-        self, uri: str, kbid: str, start: int, end: int
-    ) -> AsyncIterator[bytes]:
-        """
-        Iterate through ranges of data
-        """
-        async for chunk in self.iter_data(
-            uri, kbid, headers={"Range": f"bytes={start}-{end - 1}"}
-        ):
-            yield chunk
+    def validate_intermediate_chunk(self, uploaded_bytes: int):
+        if uploaded_bytes < self.min_upload_size:
+            raise ValueError(f"Intermediate chunks cannot be smaller than {self.min_upload_size} bytes")

nucliadb/writer/tus/local.py CHANGED Viewed

@@ -22,14 +22,13 @@ from __future__ import annotations
 import json
 import os
 import uuid
-from typing import AsyncIterator
+from typing import Any
 import aiofiles
-from nucliadb_protos.resources_pb2 import CloudFile
 from nucliadb.writer.tus.dm import FileDataManager
-from nucliadb.writer.tus.exceptions import CloudFileNotFound
 from nucliadb.writer.tus.storage import BlobStore, FileStorageManager
+from nucliadb_protos.resources_pb2 import CloudFile
 from nucliadb_utils.storages import CHUNK_SIZE
@@ -50,51 +49,24 @@ class LocalFileStorageManager(FileStorageManager):
         bucket = self.storage.get_bucket_name(kbid)
         upload_file_id = dm.get("upload_file_id", str(uuid.uuid4()))
         init_url = self.get_file_path(bucket, upload_file_id)
-        metadata_init_url = self.metadata_key(init_url)
         metadata = {
             "FILENAME": dm.filename,
             "CONTENT_TYPE": dm.content_type,
             "SIZE": dm.size,
         }
-        async with aiofiles.open(metadata_init_url, "w+") as resp:
-            await resp.write(json.dumps(metadata))
+        await self.set_metadata(kbid, upload_file_id, metadata)
         async with aiofiles.open(init_url, "wb+") as aio_fi:
             await aio_fi.write(b"")
-        await dm.update(upload_file_id=upload_file_id, path=path, bucket=bucket)
+        await dm.update(upload_file_id=upload_file_id, path=path, bucket=bucket, kbid=kbid)
-    async def iter_data(self, uri, kbid: str, headers=None):
-        bucket = self.storage.get_bucket_name(kbid)
-        file_path = self.get_file_path(bucket, uri)
-        async with aiofiles.open(file_path) as resp:
-            data = await resp.read(CHUNK_SIZE)
-            while data is not None:
-                yield data
-                data = await resp.read(CHUNK_SIZE)
-    async def read_range(
-        self, uri: str, kbid: str, start: int, end: int
-    ) -> AsyncIterator[bytes]:
-        """
-        Iterate through ranges of data
-        """
+    async def set_metadata(self, kbid: str, upload_file_id: str, metadata: dict[str, Any]):
         bucket = self.storage.get_bucket_name(kbid)
-        file_path = self.get_file_path(bucket, uri)
-        try:
-            async with aiofiles.open(file_path, "rb") as resp:
-                await resp.seek(start)
-                count = 0
-                data = await resp.read(CHUNK_SIZE)
-                while data and count < end:
-                    if count + len(data) > end:
-                        new_end = end - count
-                        data = data[:new_end]
-                    yield data
-                    count += len(data)
-                    data = await resp.read(CHUNK_SIZE)
-        except FileNotFoundError:
-            raise CloudFileNotFound()
+        init_url = self.get_file_path(bucket, upload_file_id)
+        metadata_init_url = self.metadata_key(init_url)
+        async with aiofiles.open(metadata_init_url, "w+") as resp:
+            await resp.write(json.dumps(metadata))
     async def append(self, dm: FileDataManager, iterable, offset) -> int:
         count = 0
@@ -118,6 +90,15 @@ class LocalFileStorageManager(FileStorageManager):
         upload_file_id = dm.get("upload_file_id")
         from_url = self.get_file_path(bucket, upload_file_id)
+        if dm.size > 0:
+            kbid = dm.get("kbid")
+            metadata = {
+                "FILENAME": dm.filename,
+                "CONTENT_TYPE": dm.content_type,
+                "SIZE": dm.size,
+            }
+            await self.set_metadata(kbid, upload_file_id, metadata)
         path = dm.get("path")
         to_url = self.get_file_path(bucket, path)
         to_url_dirs = os.path.dirname(to_url)
@@ -138,6 +119,9 @@ class LocalFileStorageManager(FileStorageManager):
         file_path = self.get_file_path(bucket, uri)
         os.remove(file_path)
+    def validate_intermediate_chunk(self, uploaded_bytes: int):
+        pass
 class LocalBlobStore(BlobStore):
     def __init__(self, local_testing_files: str):

nucliadb/writer/tus/s3.py CHANGED Viewed

@@ -19,21 +19,22 @@
 #
 from __future__ import annotations
+import base64
 import uuid
 from contextlib import AsyncExitStack
-from typing import AsyncIterator, Optional
+from typing import Optional
 import aiobotocore  # type: ignore
 import aiohttp
-import backoff  # type: ignore
+import backoff
 import botocore  # type: ignore
 from aiobotocore.session import AioSession  # type: ignore
-from nucliadb_protos.resources_pb2 import CloudFile
 from nucliadb.writer import logger
 from nucliadb.writer.tus.dm import FileDataManager
-from nucliadb.writer.tus.exceptions import CloudFileNotFound, ResumableURINotAvailable
+from nucliadb.writer.tus.exceptions import ResumableURINotAvailable
 from nucliadb.writer.tus.storage import BlobStore, FileStorageManager
+from nucliadb_protos.resources_pb2 import CloudFile
 from nucliadb_utils.storages.s3 import (
     CHUNK_SIZE,
     MIN_UPLOAD_SIZE,
@@ -53,9 +54,7 @@ class S3FileStorageManager(FileStorageManager):
     chunk_size = CHUNK_SIZE
     min_upload_size = MIN_UPLOAD_SIZE
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3)
     async def _abort_multipart(self, dm: FileDataManager):
         try:
             mpu = dm.get("mpu")
@@ -72,21 +71,25 @@ class S3FileStorageManager(FileStorageManager):
         if dm.get("mpu") is not None:
             await self._abort_multipart(dm)
+        custom_metadata: dict[str, str] = {
+            "base64_filename": base64.b64encode((dm.filename or "").encode()).decode(),
+            "content_type": dm.content_type or "",
+            "size": str(dm.size),
+        }
         await dm.update(
             path=path,
             upload_file_id=upload_file_id,
             multipart={"Parts": []},
             block=1,
-            mpu=await self._create_multipart(path, bucket),
+            mpu=await self._create_multipart(path, bucket, custom_metadata),
             bucket=bucket,
         )
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3
-    )
-    async def _create_multipart(self, path, bucket):
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3)
+    async def _create_multipart(self, path, bucket, custom_metadata: dict[str, str]):
         return await self.storage._s3aioclient.create_multipart_upload(
-            Bucket=bucket, Key=path
+            Bucket=bucket, Key=path, Metadata=custom_metadata
         )
     async def append(self, dm: FileDataManager, iterable, offset) -> int:
@@ -96,16 +99,12 @@ class S3FileStorageManager(FileStorageManager):
             size += len(chunk)
             part = await self._upload_part(dm, chunk)
             multipart = dm.get("multipart")
-            multipart["Parts"].append(
-                {"PartNumber": dm.get("block"), "ETag": part["ETag"]}
-            )
+            multipart["Parts"].append({"PartNumber": dm.get("block"), "ETag": part["ETag"]})
             await dm.update(multipart=multipart, block=dm.get("block") + 1)
         return size
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3)
     async def _upload_part(self, dm: FileDataManager, data):
         mpu = dm.get("mpu")
         if mpu is None:
@@ -128,18 +127,14 @@ class S3FileStorageManager(FileStorageManager):
         await dm.finish()
         return path
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3)
     async def _complete_multipart_upload(self, dm: FileDataManager):
         # if blocks is 0, it means the file is of zero length so we need to
         # trick it to finish a multiple part with no data.
         if dm.get("block") == 1:
             part = await self._upload_part(dm, b"")
             multipart = dm.get("multipart")
-            multipart["Parts"].append(
-                {"PartNumber": dm.get("block"), "ETag": part["ETag"]}
-            )
+            multipart["Parts"].append({"PartNumber": dm.get("block"), "ETag": part["ETag"]})
             await dm.update(multipart=multipart, block=dm.get("block") + 1)
         await self.storage._s3aioclient.complete_multipart_upload(
             Bucket=dm.get("bucket"),
@@ -148,45 +143,10 @@ class S3FileStorageManager(FileStorageManager):
             MultipartUpload=dm.get("multipart"),
         )
-    @backoff.on_exception(
-        backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3
-    )
+    @backoff.on_exception(backoff.expo, RETRIABLE_EXCEPTIONS, jitter=backoff.random_jitter, max_tries=3)
     async def _download(self, uri: str, kbid: str, **kwargs):
         bucket = self.storage.get_bucket_name(kbid)
-        return await self.storage._s3aioclient.get_object(
-            Bucket=bucket, Key=uri, **kwargs
-        )
-    async def iter_data(
-        self, uri: str, kbid: str, headers: Optional[dict[str, str]] = None
-    ):
-        if headers is None:
-            headers = {}
-        try:
-            downloader = await self._download(uri, kbid, **headers)
-        except self.storage._s3aioclient.exceptions.NoSuchKey:
-            raise CloudFileNotFound()
-        # we do not want to timeout ever from this...
-        # downloader['Body'].set_socket_timeout(999999)
-        stream = downloader["Body"]
-        data = await stream.read(CHUNK_SIZE)
-        while True:
-            if not data:
-                break
-            yield data
-            data = await stream.read(CHUNK_SIZE)
-    async def read_range(
-        self, uri, kbid: str, start: int, end: int
-    ) -> AsyncIterator[bytes]:
-        """
-        Iterate through ranges of data
-        """
-        async for chunk in self.iter_data(
-            uri, kbid, headers={"Range": f"bytes={start}-{end - 1}"}
-        ):
-            yield chunk
+        return await self.storage._s3aioclient.get_object(Bucket=bucket, Key=uri, **kwargs)
     async def delete_upload(self, uri: str, kbid: str):
         bucket = self.storage.get_bucket_name(kbid)
@@ -198,6 +158,10 @@ class S3FileStorageManager(FileStorageManager):
         else:
             raise AttributeError("No valid uri")
+    def validate_intermediate_chunk(self, uploaded_bytes: int):
+        if uploaded_bytes % self.min_upload_size != 0:
+            raise ValueError(f"Intermediate chunks need to be multiples of {self.min_upload_size} bytes")
 class S3BlobStore(BlobStore):
     async def check_exists(self, bucket_name: str) -> bool:
@@ -213,9 +177,7 @@ class S3BlobStore(BlobStore):
     async def create_bucket(self, bucket):
         exists = await self.check_exists(bucket)
         if not exists:
-            await create_bucket(
-                self._s3aioclient, bucket, self.bucket_tags, self.region_name
-            )
+            await create_bucket(self._s3aioclient, bucket, self.bucket_tags, self.region_name)
         return exists
     async def finalize(self):
@@ -247,9 +209,7 @@ class S3BlobStore(BlobStore):
             verify=verify_ssl,
             use_ssl=ssl,
             region_name=region_name,
-            config=aiobotocore.config.AioConfig(
-                None, max_pool_connections=max_pool_connections
-            ),
+            config=aiobotocore.config.AioConfig(None, max_pool_connections=max_pool_connections),
         )
         session = AioSession()
         self._s3aioclient = await self._exit_stack.enter_async_context(

nucliadb/writer/tus/storage.py CHANGED Viewed

@@ -21,15 +21,8 @@ from __future__ import annotations
 from typing import AsyncIterator, Optional
-from lru import LRU  # type: ignore
-from nucliadb_protos.resources_pb2 import CloudFile
-from starlette.responses import StreamingResponse
-from nucliadb.writer import logger
 from nucliadb.writer.tus.dm import FileDataManager
-from nucliadb.writer.tus.exceptions import HTTPRangeNotSatisfiable
-CACHED_BUCKETS = LRU(50)  # type: ignore
+from nucliadb_protos.resources_pb2 import CloudFile
 class BlobStore:
@@ -56,14 +49,9 @@ class FileStorageManager:
     chunk_size: int
     min_upload_size: Optional[int] = None
-    def __init__(self, storage):
+    def __init__(self, storage: BlobStore):
         self.storage = storage
-    def read_range(
-        self, uri: str, kbid: str, start: int, end: int
-    ) -> AsyncIterator[bytes]:
-        raise NotImplementedError()
     def iter_data(
         self, uri: str, kbid: str, headers: Optional[dict[str, str]] = None
     ) -> AsyncIterator[bytes]:
@@ -81,48 +69,6 @@ class FileStorageManager:
     async def delete_upload(self, uri, kbid):
         raise NotImplementedError()
-    async def full_download(self, content_length, content_type, upload_id):
-        return StreamingResponse(
-            self.iter_data(upload_id),
-            media_type=content_type,
-            headers={
-                "Content-Length": str(content_length),
-                "Content-Type": content_type,
-            },
-        )
-    async def range_download(
-        self, content_length, content_type, upload_id, range_header
-    ):
-        try:
-            start, _, end = range_header.split("bytes=")[-1].partition("-")
-            start = int(start)
-            if len(end) == 0:
-                # bytes=0- is valid
-                end = content_length - 1
-            end = int(end) + 1  # python is inclusive, http is exclusive
-        except (IndexError, ValueError):
-            # range errors fallback to full download
-            raise HTTPRangeNotSatisfiable(detail=f"Range not parsable {range_header}")
-        if start > end or start < 0:
-            raise HTTPRangeNotSatisfiable(detail="Invalid range {start}-{end}")
-        if end > content_length:
-            raise HTTPRangeNotSatisfiable(
-                detail="Invalid range {start}-{end}, too large end value"
-            )
-        logger.debug(f"Range request: {range_header}")
-        headers = {
-            "Content-Range": f"bytes {start}-{end - 1}/{content_length}",
-            "Content-Type": content_type,
-        }
-        return StreamingResponse(
-            self.read_range(upload_id, start, end),
-            media_type=content_type,
-            headers=headers,
-        )
     async def iterate_body_chunks(self, request, chunk_size):
         partial = b""
         remaining = b""
@@ -146,3 +92,6 @@ class FileStorageManager:
         if partial or remaining:
             yield partial + remaining
+    def validate_intermediate_chunk(self, uploaded_bytes: int):
+        raise NotImplementedError()

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl