PyPI - nucliadb - Versions diffs - 4.0.0.post542__py3-none-any.whl → 6.2.1.post2798__py3-none-any.whl - Mend

nucliadb 4.0.0.post542py3-none-any.whl → 6.2.1.post2798py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (418) hide show

migrations/0003_allfields_key.py +1 -35
migrations/0009_upgrade_relations_and_texts_to_v2.py +4 -2
migrations/0010_fix_corrupt_indexes.py +10 -10
migrations/0011_materialize_labelset_ids.py +1 -16
migrations/0012_rollover_shards.py +5 -10
migrations/0014_rollover_shards.py +4 -5
migrations/0015_targeted_rollover.py +5 -10
migrations/0016_upgrade_to_paragraphs_v2.py +25 -28
migrations/0017_multiple_writable_shards.py +2 -4
migrations/0018_purge_orphan_kbslugs.py +5 -7
migrations/0019_upgrade_to_paragraphs_v3.py +25 -28
migrations/0020_drain_nodes_from_cluster.py +3 -3
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +16 -19
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +30 -16
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +3 -11
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +174 -59
nucliadb/common/cluster/rebalance.py +27 -29
nucliadb/common/cluster/rollover.py +353 -194
nucliadb/common/cluster/settings.py +6 -0
nucliadb/common/cluster/standalone/grpc_node_binding.py +13 -64
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +2 -6
nucliadb/common/cluster/utils.py +29 -22
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +3 -0
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +7 -1
nucliadb/common/datamanagers/atomic.py +22 -4
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +83 -37
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +41 -103
nucliadb/common/datamanagers/rollover.py +76 -15
nucliadb/common/datamanagers/synonyms.py +1 -1
nucliadb/common/datamanagers/utils.py +15 -6
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/orm/test_orm_utils.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +29 -7
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +3 -0
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +11 -42
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exporter.py +5 -11
nucliadb/export_import/importer.py +5 -7
nucliadb/export_import/models.py +3 -3
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +25 -37
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +21 -19
nucliadb/ingest/consumer/consumer.py +82 -47
nucliadb/ingest/consumer/materializer.py +5 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +19 -17
nucliadb/ingest/consumer/shard_creator.py +2 -4
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +137 -105
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -16
nucliadb/ingest/fields/link.py +5 -10
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +200 -213
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +322 -197
nucliadb/ingest/orm/processor/__init__.py +2 -700
nucliadb/ingest/orm/processor/auditing.py +4 -23
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +249 -403
nucliadb/ingest/orm/utils.py +4 -4
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +70 -73
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -167
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +185 -412
nucliadb/ingest/settings.py +10 -20
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +242 -55
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +47 -30
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +1 -12
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +21 -88
nucliadb/reader/api/v1/export_import.py +1 -1
nucliadb/reader/api/v1/knowledgebox.py +10 -10
nucliadb/reader/api/v1/learning_config.py +2 -6
nucliadb/reader/api/v1/resource.py +62 -88
nucliadb/reader/api/v1/services.py +64 -83
nucliadb/reader/app.py +12 -29
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -28
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +1 -2
nucliadb/search/api/v1/ask.py +17 -10
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +16 -24
nucliadb/search/api/v1/find.py +36 -36
nucliadb/search/api/v1/knowledgebox.py +89 -60
nucliadb/search/api/v1/resource/ask.py +2 -8
nucliadb/search/api/v1/resource/search.py +49 -70
nucliadb/search/api/v1/search.py +44 -210
nucliadb/search/api/v1/suggest.py +39 -54
nucliadb/search/app.py +12 -32
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +136 -187
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +25 -58
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +571 -123
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -14
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +817 -266
nucliadb/search/search/chat/query.py +213 -309
nucliadb/{tests/migrations/__init__.py → search/search/cut.py} +8 -8
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -53
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +187 -223
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +305 -150
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +3 -32
nucliadb/search/search/summarize.py +7 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +8 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +7 -10
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +1 -3
nucliadb/standalone/purge.py +1 -1
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +3 -6
nucliadb/standalone/settings.py +9 -16
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +1 -1
nucliadb/train/api/v1/trainset.py +2 -4
nucliadb/train/app.py +10 -31
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +48 -39
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +19 -23
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +67 -14
nucliadb/writer/api/v1/field.py +16 -269
nucliadb/writer/api/v1/knowledgebox.py +218 -68
nucliadb/writer/api/v1/resource.py +68 -88
nucliadb/writer/api/v1/services.py +51 -70
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +143 -117
nucliadb/writer/app.py +6 -43
nucliadb/writer/back_pressure.py +16 -38
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -46
nucliadb/writer/resource/field.py +37 -128
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +6 -2
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +49 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2798.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2798.dist-info/RECORD +343 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -433
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -764
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -78
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -126
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -684
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_brain_vectors.py +0 -74
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -331
nucliadb/ingest/tests/unit/test_cache.py +0 -31
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -353
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -263
nucliadb/search/api/v1/resource/chat.py +0 -174
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -466
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -98
nucliadb/search/tests/unit/api/v1/test_ask.py +0 -120
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -99
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -211
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -270
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -153
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -525
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_migrations.py +0 -63
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -735
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -202
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -107
nucliadb/tests/migrations/test_migration_0017.py +0 -76
nucliadb/tests/migrations/test_migration_0018.py +0 -95
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -172
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -114
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -61
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -408
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -173
nucliadb/tests/unit/common/cluster/test_rebalance.py +0 -38
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -282
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -92
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -301
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -92
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -58
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -86
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -136
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -171
nucliadb/tests/utils/broker_messages/fields.py +0 -197
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -221
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -101
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -191
nucliadb/writer/tests/test_fields.py +0 -475
nucliadb/writer/tests/test_files.py +0 -740
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -133
nucliadb/writer/tests/test_resources.py +0 -476
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-4.0.0.post542.dist-info/METADATA +0 -135
nucliadb-4.0.0.post542.dist-info/RECORD +0 -462
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/entry_points.txt +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/top_level.txt +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/zip-safe +0 -0

nucliadb/ingest/consumer/service.py CHANGED Viewed

@@ -45,9 +45,7 @@ from .shard_creator import ShardCreatorHandler
 def _handle_task_result(task: asyncio.Task) -> None:
     e = task.exception()
     if e:
-        logger.exception(
-            "Loop stopped by exception. This should not happen. Exiting.", exc_info=e
-        )
+        logger.exception("Loop stopped by exception. This should not happen. Exiting.", exc_info=e)
         sys.exit(1)
@@ -87,9 +85,7 @@ async def start_ingest_consumers(
     if transaction_settings.transaction_local:
         raise ConfigurationError("Can not start ingest consumers in local mode")
-    while len(
-        manager.get_index_nodes()
-    ) == 0 and running_settings.running_environment not in (
+    while len(manager.get_index_nodes()) == 0 and running_settings.running_environment not in (
         "local",
         "test",
     ):
@@ -101,9 +97,9 @@ async def start_ingest_consumers(
     storage = await get_storage(service_name=service_name or SERVICE_NAME)
     nats_connection_manager = get_nats_manager()
-    max_concurrent_processing = asyncio.Semaphore(
-        settings.max_concurrent_ingest_processing
-    )
+    max_concurrent_processing = asyncio.Semaphore(settings.max_concurrent_ingest_processing)
+    consumer_finalizers = []
     for partition in settings.partitions:
         consumer = IngestConsumer(
@@ -115,8 +111,15 @@ async def start_ingest_consumers(
             lock=max_concurrent_processing,
         )
         await consumer.initialize()
+        consumer_finalizers.append(consumer.finalize)
-    return nats_connection_manager.finalize
+    async def _finalize():
+        # Finalize all the consumers and the nats connection manager
+        for consumer_finalize in consumer_finalizers:
+            await consumer_finalize()
+        await nats_connection_manager.finalize()
+    return _finalize
 async def start_ingest_processed_consumer(
@@ -132,9 +135,7 @@ async def start_ingest_processed_consumer(
     if transaction_settings.transaction_local:
         raise ConfigurationError("Can not start ingest consumers in local mode")
-    while len(
-        manager.get_index_nodes()
-    ) == 0 and running_settings.running_environment not in (
+    while len(manager.get_index_nodes()) == 0 and running_settings.running_environment not in (
         "local",
         "test",
     ):
@@ -161,19 +162,20 @@ async def start_ingest_processed_consumer(
 async def start_auditor() -> Callable[[], Awaitable[None]]:
     audit = get_audit()
     assert audit is not None
     pubsub = await get_pubsub()
     assert pubsub is not None, "Pubsub is not configured"
     storage = await get_storage(service_name=SERVICE_NAME)
     index_auditor = IndexAuditHandler(audit=audit, pubsub=pubsub)
-    resource_writes_auditor = ResourceWritesAuditHandler(
-        storage=storage, audit=audit, pubsub=pubsub
-    )
+    resource_writes_auditor = ResourceWritesAuditHandler(storage=storage, audit=audit, pubsub=pubsub)
     await index_auditor.initialize()
     await resource_writes_auditor.initialize()
     return partial(
-        asyncio.gather, index_auditor.finalize(), resource_writes_auditor.finalize()  # type: ignore
+        asyncio.gather,
+        index_auditor.finalize(),
+        resource_writes_auditor.finalize(),  # type: ignore
     )

nucliadb/ingest/consumer/shard_creator.py CHANGED Viewed

@@ -82,9 +82,7 @@ class ShardCreatorHandler:
             metrics.total_messages.inc({"type": "shard_creator", "action": "ignored"})
             return
-        self.task_handler.schedule(
-            notification.kbid, partial(self.process_kb, notification.kbid)
-        )
+        self.task_handler.schedule(notification.kbid, partial(self.process_kb, notification.kbid))
         metrics.total_messages.inc({"type": "shard_creator", "action": "scheduled"})
     @metrics.handler_histo.wrap({"type": "shard_creator"})
@@ -105,7 +103,7 @@ class ShardCreatorHandler:
         async with locking.distributed_lock(locking.NEW_SHARD_LOCK.format(kbid=kbid)):
             # remember, a lock will do at least 1+ reads and 1 write.
             # with heavy writes, this adds some simple k/v pressure
-            node, shard_id = choose_node(current_shard)
+            node, shard_id = choose_node(current_shard, use_nidx=True)
             shard: nodereader_pb2.Shard = await node.reader.GetShard(
                 nodereader_pb2.GetShardRequest(shard_id=noderesources_pb2.ShardId(id=shard_id))  # type: ignore
             )

nucliadb/ingest/consumer/utils.py CHANGED Viewed

@@ -48,9 +48,7 @@ class DelayedTaskHandler:
         for task in list(self.outstanding_tasks.values()):
             await task
-    def schedule(
-        self, key: str, handler: Callable[[], Coroutine[None, None, None]]
-    ) -> None:
+    def schedule(self, key: str, handler: Callable[[], Coroutine[None, None, None]]) -> None:
         if key in self.to_process:
             # already waiting to process this key, ignore
             return

nucliadb/ingest/fields/base.py CHANGED Viewed

@@ -21,14 +21,20 @@ from __future__ import annotations
 import enum
 from datetime import datetime
-from typing import Any, Optional, Type
+from typing import Any, Generic, Optional, Type, TypeVar
+from google.protobuf.message import DecodeError, Message
+from nucliadb.common import datamanagers
+from nucliadb.ingest.fields.exceptions import InvalidFieldClass, InvalidPBClass
 from nucliadb_protos.resources_pb2 import (
     CloudFile,
     ExtractedTextWrapper,
     ExtractedVectorsWrapper,
+    FieldAuthor,
     FieldComputedMetadata,
     FieldComputedMetadataWrapper,
+    FieldQuestionAnswers,
     FieldQuestionAnswerWrapper,
     LargeComputedMetadata,
     LargeComputedMetadataWrapper,
@@ -36,34 +42,33 @@ from nucliadb_protos.resources_pb2 import (
 )
 from nucliadb_protos.utils_pb2 import ExtractedText, VectorObject
 from nucliadb_protos.writer_pb2 import Error
-from nucliadb.ingest.fields.exceptions import InvalidFieldClass, InvalidPBClass
 from nucliadb_utils.storages.storage import Storage, StorageField
-KB_RESOURCE_FIELD = "/kbs/{kbid}/r/{uuid}/f/{type}/{field}"
-KB_RESOURCE_ERROR = "/kbs/{kbid}/r/{uuid}/f/{type}/{field}/error"
-SUBFIELDFIELDS = ["l", "c"]
+SUBFIELDFIELDS = ("c",)
 class FieldTypes(str, enum.Enum):
     FIELD_TEXT = "extracted_text"
     FIELD_VECTORS = "extracted_vectors"
+    FIELD_VECTORSET = "{vectorset}/extracted_vectors"
     FIELD_METADATA = "metadata"
     FIELD_LARGE_METADATA = "large_metadata"
     THUMBNAIL = "thumbnail"
     QUESTION_ANSWERS = "question_answers"
-class Field:
-    pbklass: Optional[Type] = None
+PbType = TypeVar("PbType", bound=Message)
+class Field(Generic[PbType]):
+    pbklass: Type[PbType]
     type: str = "x"
     value: Optional[Any]
     extracted_text: Optional[ExtractedText]
-    extracted_vectors: Optional[VectorObject]
+    extracted_vectors: dict[Optional[str], VectorObject]
     computed_metadata: Optional[FieldComputedMetadata]
     large_computed_metadata: Optional[LargeComputedMetadata]
-    question_answers: Optional[QuestionAnswers]
+    question_answers: Optional[FieldQuestionAnswers]
     def __init__(
         self,
@@ -77,7 +82,7 @@ class Field:
         self.value = None
         self.extracted_text: Optional[ExtractedText] = None
-        self.extracted_vectors = None
+        self.extracted_vectors = {}
         self.computed_metadata = None
         self.large_computed_metadata = None
         self.question_answers = None
@@ -112,44 +117,51 @@ class Field:
         return f"{self.uuid}/{self.type}/{self.id}"
     def get_storage_field(self, field_type: FieldTypes) -> StorageField:
-        return self.storage.file_extracted(
-            self.kbid, self.uuid, self.type, self.id, field_type.value
-        )
+        return self.storage.file_extracted(self.kbid, self.uuid, self.type, self.id, field_type.value)
+    def _get_extracted_vectors_storage_field(self, vectorset: Optional[str] = None) -> StorageField:
+        if vectorset:
+            key = FieldTypes.FIELD_VECTORSET.value.format(vectorset=vectorset)
+        else:
+            key = FieldTypes.FIELD_VECTORS.value
+        return self.storage.file_extracted(self.kbid, self.uuid, self.type, self.id, key)
-    async def db_get_value(self):
+    async def db_get_value(self) -> Optional[PbType]:
         if self.value is None:
-            payload = await self.resource.txn.get(
-                KB_RESOURCE_FIELD.format(
-                    kbid=self.kbid, uuid=self.uuid, type=self.type, field=self.id
-                )
+            payload = await datamanagers.fields.get_raw(
+                self.resource.txn,
+                kbid=self.kbid,
+                rid=self.uuid,
+                field_type=self.type,
+                field_id=self.id,
             )
             if payload is None:
-                return
+                return None
             self.value = self.pbklass()
             self.value.ParseFromString(payload)
         return self.value
     async def db_set_value(self, payload: Any):
-        await self.resource.txn.set(
-            KB_RESOURCE_FIELD.format(
-                kbid=self.kbid, uuid=self.uuid, type=self.type, field=self.id
-            ),
-            payload.SerializeToString(),
+        await datamanagers.fields.set(
+            self.resource.txn,
+            kbid=self.kbid,
+            rid=self.uuid,
+            field_type=self.type,
+            field_id=self.id,
+            value=payload,
         )
         self.value = payload
         self.resource.modified = True
     async def delete(self):
-        field_base_key = KB_RESOURCE_FIELD.format(
-            kbid=self.kbid, uuid=self.uuid, type=self.type, field=self.id
+        await datamanagers.fields.delete(
+            self.resource.txn,
+            kbid=self.kbid,
+            rid=self.uuid,
+            field_type=self.type,
+            field_id=self.id,
         )
-        # Make sure we explicitly delete the field and any nested key
-        keys_to_delete = []
-        async for key in self.resource.txn.keys(field_base_key):
-            keys_to_delete.append(key)
-        for key in keys_to_delete:
-            await self.resource.txn.delete(key)
         await self.delete_extracted_text()
         await self.delete_vectors()
         await self.delete_metadata()
@@ -169,9 +181,9 @@ class Field:
         except KeyError:
             pass
-    async def delete_vectors(self) -> None:
+    async def delete_vectors(self, vectorset: Optional[str] = None) -> None:
         # Try delete vectors
-        sf = self.get_storage_field(FieldTypes.FIELD_VECTORS)
+        sf = self._get_extracted_vectors_storage_field(vectorset)
         try:
             await self.storage.delete_upload(sf.key, sf.bucket)
         except KeyError:
@@ -185,53 +197,79 @@ class Field:
             pass
     async def get_error(self) -> Optional[Error]:
-        payload = await self.resource.txn.get(
-            KB_RESOURCE_ERROR.format(
-                kbid=self.kbid, uuid=self.uuid, type=self.type, field=self.id
-            )
+        return await datamanagers.fields.get_error(
+            self.resource.txn,
+            kbid=self.kbid,
+            rid=self.uuid,
+            field_type=self.type,
+            field_id=self.id,
         )
-        if payload is None:
-            return None
-        pberror = Error()
-        pberror.ParseFromString(payload)
-        return pberror
     async def set_error(self, error: Error) -> None:
-        await self.resource.txn.set(
-            KB_RESOURCE_ERROR.format(
-                kbid=self.kbid, uuid=self.uuid, type=self.type, field=self.id
-            ),
-            error.SerializeToString(),
+        await datamanagers.fields.set_error(
+            self.resource.txn,
+            kbid=self.kbid,
+            rid=self.uuid,
+            field_type=self.type,
+            field_id=self.id,
+            error=error,
         )
-    async def get_question_answers(self) -> Optional[QuestionAnswers]:
-        if self.question_answers is None:
+    async def get_question_answers(self, force=False) -> Optional[FieldQuestionAnswers]:
+        if self.question_answers is None or force:
             sf = self.get_storage_field(FieldTypes.QUESTION_ANSWERS)
-            payload = await self.storage.download_pb(sf, QuestionAnswers)
+            try:
+                payload = await self.storage.download_pb(sf, FieldQuestionAnswers)
+            except DecodeError:
+                deprecated_payload = await self.storage.download_pb(sf, QuestionAnswers)
+                if deprecated_payload is not None:
+                    payload = FieldQuestionAnswers()
+                    payload.question_answers.CopyFrom(deprecated_payload)
             if payload is not None:
                 self.question_answers = payload
         return self.question_answers
     async def set_question_answers(self, payload: FieldQuestionAnswerWrapper) -> None:
+        if self.type in SUBFIELDFIELDS:
+            try:
+                actual_payload: Optional[FieldQuestionAnswers] = await self.get_question_answers(
+                    force=True
+                )
+            except KeyError:
+                actual_payload = None
+        else:
+            actual_payload = None
         sf = self.get_storage_field(FieldTypes.QUESTION_ANSWERS)
-        if payload.HasField("file"):
-            raw_payload = await self.storage.downloadbytescf(payload.file)
-            pb = QuestionAnswers()
-            pb.ParseFromString(raw_payload.read())
-            raw_payload.flush()
-            self.question_answers = pb
+        if actual_payload is None:
+            # Its first question answer
+            if payload.HasField("file"):
+                await self.storage.normalize_binary(payload.file, sf)
+            else:
+                await self.storage.upload_pb(sf, payload.question_answers)
+                self.question_answers = payload.question_answers
         else:
-            self.question_answers = payload.question_answers
-        await self.storage.upload_pb(sf, self.question_answers)
+            if payload.HasField("file"):
+                raw_payload = await self.storage.downloadbytescf(payload.file)
+                pb = FieldQuestionAnswers()
+                pb.ParseFromString(raw_payload.read())
+                raw_payload.flush()
+                payload.question_answers.CopyFrom(pb)
+            # We know its payload.question_answers
+            for key, value in payload.question_answers.split_question_answers.items():
+                actual_payload.split_question_answers[key] = value
+            for key in payload.question_answers.deleted_splits:
+                if key in actual_payload.split_question_answers:
+                    del actual_payload.split_question_answers[key]
+            if payload.question_answers.HasField("question_answers") != "":
+                actual_payload.question_answers.CopyFrom(payload.question_answers.question_answers)
+            await self.storage.upload_pb(sf, actual_payload)
+            self.question_answers = actual_payload
     async def set_extracted_text(self, payload: ExtractedTextWrapper) -> None:
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[ExtractedText] = await self.get_extracted_text(
-                    force=True
-                )
+                actual_payload: Optional[ExtractedText] = await self.get_extracted_text(force=True)
             except KeyError:
                 actual_payload = None
         else:
@@ -271,23 +309,21 @@ class Field:
                 self.extracted_text = payload
         return self.extracted_text
-    async def set_vectors(
-        self, payload: ExtractedVectorsWrapper
-    ) -> tuple[Optional[VectorObject], bool, list[str]]:
+    async def set_vectors(self, payload: ExtractedVectorsWrapper) -> Optional[VectorObject]:
+        vectorset = payload.vectorset_id or None
         if self.type in SUBFIELDFIELDS:
             try:
                 actual_payload: Optional[VectorObject] = await self.get_vectors(
-                    force=True
+                    vectorset=vectorset,
+                    force=True,
                 )
             except KeyError:
                 actual_payload = None
         else:
             actual_payload = None
-        sf = self.get_storage_field(FieldTypes.FIELD_VECTORS)
+        sf = self._get_extracted_vectors_storage_field(vectorset)
         vo: Optional[VectorObject] = None
-        replace_field: bool = True
-        replace_splits = []
         if actual_payload is None:
             # Its first extracted text
             if payload.HasField("file"):
@@ -296,7 +332,7 @@ class Field:
             else:
                 await self.storage.upload_pb(sf, payload.vectors)
                 vo = payload.vectors
-                self.extracted_vectors = payload.vectors
+                self.extracted_vectors[vectorset] = payload.vectors
         else:
             if payload.HasField("file"):
                 raw_payload = await self.storage.downloadbytescf(payload.file)
@@ -304,36 +340,38 @@ class Field:
                 pb.ParseFromString(raw_payload.read())
                 raw_payload.flush()
                 payload.vectors.CopyFrom(pb)
-            vo = payload.vectors
+            vo = actual_payload
             # We know its payload.body
             for key, value in payload.vectors.split_vectors.items():
                 actual_payload.split_vectors[key].CopyFrom(value)
             for key in payload.vectors.deleted_splits:
                 if key in actual_payload.split_vectors:
-                    replace_splits.append(key)
                     del actual_payload.split_vectors[key]
             if len(payload.vectors.vectors.vectors) > 0:
-                replace_field = True
                 actual_payload.vectors.CopyFrom(payload.vectors.vectors)
             await self.storage.upload_pb(sf, actual_payload)
-            self.extracted_vectors = actual_payload
-        return vo, replace_field, replace_splits
-    async def get_vectors(self, force=False) -> Optional[VectorObject]:
-        if self.extracted_vectors is None or force:
-            sf = self.get_storage_field(FieldTypes.FIELD_VECTORS)
+            self.extracted_vectors[vectorset] = actual_payload
+        return vo
+    async def get_vectors(
+        self, vectorset: Optional[str] = None, force: bool = False
+    ) -> Optional[VectorObject]:
+        # compat with vectorsets coming from protobuffers where no value is
+        # empty string instead of None. This shouldn't be handled here but we
+        # have to make sure it gets the correct vectorset
+        vectorset = vectorset or None
+        if self.extracted_vectors.get(vectorset, None) is None or force:
+            sf = self._get_extracted_vectors_storage_field(vectorset)
             payload = await self.storage.download_pb(sf, VectorObject)
             if payload is not None:
-                self.extracted_vectors = payload
-        return self.extracted_vectors
+                self.extracted_vectors[vectorset] = payload
+        return self.extracted_vectors.get(vectorset, None)
-    async def set_field_metadata(
-        self, payload: FieldComputedMetadataWrapper
-    ) -> tuple[FieldComputedMetadata, list[str], dict[str, list[str]]]:
+    async def set_field_metadata(self, payload: FieldComputedMetadataWrapper) -> FieldComputedMetadata:
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[FieldComputedMetadata] = (
-                    await self.get_field_metadata(force=True)
+                actual_payload: Optional[FieldComputedMetadata] = await self.get_field_metadata(
+                    force=True
                 )
             except KeyError:
                 actual_payload = None
@@ -359,8 +397,6 @@ class Field:
                 metadata.thumbnail.CopyFrom(cf_split)
             metadata.last_index.FromDatetime(datetime.now())
-        replace_field = []
-        replace_splits = {}
         if actual_payload is None:
             # Its first metadata
             await self.storage.upload_pb(sf, payload.metadata)
@@ -371,22 +407,15 @@ class Field:
                 actual_payload.split_metadata[key].CopyFrom(value)
             for key in payload.metadata.deleted_splits:
                 if key in actual_payload.split_metadata:
-                    replace_splits[key] = [
-                        f"{x.start}-{x.end}"
-                        for x in actual_payload.split_metadata[key].paragraphs
-                    ]
                     del actual_payload.split_metadata[key]
             if payload.metadata.metadata:
                 actual_payload.metadata.CopyFrom(payload.metadata.metadata)
-                replace_field = [f"{x.start}-{x.end}" for x in metadata.paragraphs]
             await self.storage.upload_pb(sf, actual_payload)
             self.computed_metadata = actual_payload
-        return self.computed_metadata, replace_field, replace_splits
+        return self.computed_metadata
-    async def get_field_metadata(
-        self, force: bool = False
-    ) -> Optional[FieldComputedMetadata]:
+    async def get_field_metadata(self, force: bool = False) -> Optional[FieldComputedMetadata]:
         if self.computed_metadata is None or force:
             sf = self.get_storage_field(FieldTypes.FIELD_METADATA)
             payload = await self.storage.download_pb(sf, FieldComputedMetadata)
@@ -397,8 +426,8 @@ class Field:
     async def set_large_field_metadata(self, payload: LargeComputedMetadataWrapper):
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[LargeComputedMetadata] = (
-                    await self.get_large_field_metadata(force=True)
+                actual_payload: Optional[LargeComputedMetadata] = await self.get_large_field_metadata(
+                    force=True
                 )
             except KeyError:
                 actual_payload = None
@@ -434,9 +463,7 @@ class Field:
         return self.large_computed_metadata
-    async def get_large_field_metadata(
-        self, force: bool = False
-    ) -> Optional[LargeComputedMetadata]:
+    async def get_large_field_metadata(self, force: bool = False) -> Optional[LargeComputedMetadata]:
         if self.large_computed_metadata is None or force:
             sf = self.get_storage_field(FieldTypes.FIELD_LARGE_METADATA)
             payload = await self.storage.download_pb(
@@ -447,6 +474,11 @@ class Field:
                 self.large_computed_metadata = payload
         return self.large_computed_metadata
+    async def generated_by(self) -> FieldAuthor:
+        author = FieldAuthor()
+        author.user.SetInParent()
+        return author
     def serialize(self):
         return self.value.SerializeToString()

nucliadb/ingest/fields/conversation.py CHANGED Viewed

@@ -20,11 +20,9 @@
 import uuid
 from typing import Any, Optional
-from nucliadb_protos.resources_pb2 import CloudFile
-from nucliadb_protos.resources_pb2 import Conversation as PBConversation
-from nucliadb_protos.resources_pb2 import FieldConversation
 from nucliadb.ingest.fields.base import Field
+from nucliadb_protos.resources_pb2 import CloudFile, FieldConversation
+from nucliadb_protos.resources_pb2 import Conversation as PBConversation
 from nucliadb_utils.storages.storage import StorageField
 PAGE_SIZE = 200
@@ -36,7 +34,7 @@ class PageNotFound(Exception):
     pass
-class Conversation(Field):
+class Conversation(Field[PBConversation]):
     pbklass = PBConversation
     type: str = "c"
     value: dict[int, PBConversation]
@@ -120,6 +118,21 @@ class Conversation(Field):
         except PageNotFound:
             return None
+    async def get_full_conversation(self) -> Optional[PBConversation]:
+        """
+        Messages of a conversations may be stored across several pages.
+        This method fetches them all and returns a single complete conversation.
+        """
+        full_conv = PBConversation()
+        n_page = 1
+        while True:
+            page = await self.get_value(page=n_page)
+            if page is None:
+                break
+            full_conv.messages.extend(page.messages)
+            n_page += 1
+        return full_conv
     async def get_metadata(self) -> FieldConversation:
         if self.metadata is None:
             payload = await self.resource.txn.get(

nucliadb/ingest/fields/exceptions.py CHANGED Viewed

@@ -28,7 +28,4 @@ class InvalidPBClass(Exception):
     def __init__(self, source: Type, destination: Type):
         self.source = source
         self.destination = destination
-        super().__init__(
-            "Source and destination does not match "
-            f"{self.source} - {self.destination}"
-        )
+        super().__init__("Source and destination does not match " f"{self.source} - {self.destination}")

nucliadb/ingest/fields/file.py CHANGED Viewed

@@ -19,15 +19,14 @@
 #
 from typing import Any, Optional
-from nucliadb_protos.resources_pb2 import CloudFile, FieldFile, FileExtractedData
 from nucliadb.ingest.fields.base import Field
+from nucliadb_protos.resources_pb2 import CloudFile, FieldFile, FileExtractedData
 from nucliadb_utils.storages.storage import StorageField
 FILE_METADATA = "file_metadata"
-class File(Field):
+class File(Field[FieldFile]):
     pbklass = FieldFile
     value: FieldFile
     type: str = "f"
@@ -52,15 +51,13 @@ class File(Field):
         is_external_file = payload.file.source == CloudFile.Source.EXTERNAL
         if not is_external_file:
-            sf: StorageField = self.storage.file_field(
-                self.kbid, self.uuid, self.id, old_cf
-            )
+            sf: StorageField = self.storage.file_field(self.kbid, self.uuid, self.id, old_cf)
             cf: CloudFile = await self.storage.normalize_binary(payload.file, sf)
             payload.file.CopyFrom(cf)
         await self.db_set_value(payload)
-    async def get_value(self) -> FieldFile:
+    async def get_value(self) -> Optional[FieldFile]:
         return await self.db_get_value()
     async def set_file_extracted_data(self, file_extracted_data: FileExtractedData):
@@ -80,17 +77,13 @@ class File(Field):
             cf_file_page_preview: CloudFile = await self.storage.normalize_binary(
                 preview, sf_file_page_preview
             )
-            file_extracted_data.file_pages_previews.pages[page].CopyFrom(
-                cf_file_page_preview
-            )
+            file_extracted_data.file_pages_previews.pages[page].CopyFrom(cf_file_page_preview)
         for fileid, origincf in file_extracted_data.file_generated.items():
             sf_generated: StorageField = self.storage.file_extracted(
                 self.kbid, self.uuid, self.type, self.id, f"generated/{fileid}"
             )
-            cf_generated: CloudFile = await self.storage.normalize_binary(
-                origincf, sf_generated
-            )
+            cf_generated: CloudFile = await self.storage.normalize_binary(origincf, sf_generated)
             file_extracted_data.file_generated[fileid].CopyFrom(cf_generated)
         if file_extracted_data.HasField("file_thumbnail"):
@@ -113,7 +106,5 @@ class File(Field):
             sf: StorageField = self.storage.file_extracted(
                 self.kbid, self.uuid, self.type, self.id, FILE_METADATA
             )
-            self.file_extracted_data = await self.storage.download_pb(
-                sf, FileExtractedData
-            )
+            self.file_extracted_data = await self.storage.download_pb(sf, FileExtractedData)
         return self.file_extracted_data

nucliadb 4.0.0.post542__py3-none-any.whl → 6.2.1.post2798__py3-none-any.whl

nucliadb 4.0.0.post542py3-none-any.whl → 6.2.1.post2798py3-none-any.whl