PyPI - nucliadb - Versions diffs - 4.0.0.post542__py3-none-any.whl → 6.2.1.post2798__py3-none-any.whl - Mend

nucliadb 4.0.0.post542py3-none-any.whl → 6.2.1.post2798py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (418) hide show

migrations/0003_allfields_key.py +1 -35
migrations/0009_upgrade_relations_and_texts_to_v2.py +4 -2
migrations/0010_fix_corrupt_indexes.py +10 -10
migrations/0011_materialize_labelset_ids.py +1 -16
migrations/0012_rollover_shards.py +5 -10
migrations/0014_rollover_shards.py +4 -5
migrations/0015_targeted_rollover.py +5 -10
migrations/0016_upgrade_to_paragraphs_v2.py +25 -28
migrations/0017_multiple_writable_shards.py +2 -4
migrations/0018_purge_orphan_kbslugs.py +5 -7
migrations/0019_upgrade_to_paragraphs_v3.py +25 -28
migrations/0020_drain_nodes_from_cluster.py +3 -3
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +16 -19
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +30 -16
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +3 -11
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +174 -59
nucliadb/common/cluster/rebalance.py +27 -29
nucliadb/common/cluster/rollover.py +353 -194
nucliadb/common/cluster/settings.py +6 -0
nucliadb/common/cluster/standalone/grpc_node_binding.py +13 -64
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +2 -6
nucliadb/common/cluster/utils.py +29 -22
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +3 -0
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +7 -1
nucliadb/common/datamanagers/atomic.py +22 -4
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +83 -37
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +41 -103
nucliadb/common/datamanagers/rollover.py +76 -15
nucliadb/common/datamanagers/synonyms.py +1 -1
nucliadb/common/datamanagers/utils.py +15 -6
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/orm/test_orm_utils.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +29 -7
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +3 -0
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +11 -42
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exporter.py +5 -11
nucliadb/export_import/importer.py +5 -7
nucliadb/export_import/models.py +3 -3
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +25 -37
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +21 -19
nucliadb/ingest/consumer/consumer.py +82 -47
nucliadb/ingest/consumer/materializer.py +5 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +19 -17
nucliadb/ingest/consumer/shard_creator.py +2 -4
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +137 -105
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -16
nucliadb/ingest/fields/link.py +5 -10
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +200 -213
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +322 -197
nucliadb/ingest/orm/processor/__init__.py +2 -700
nucliadb/ingest/orm/processor/auditing.py +4 -23
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +249 -403
nucliadb/ingest/orm/utils.py +4 -4
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +70 -73
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -167
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +185 -412
nucliadb/ingest/settings.py +10 -20
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +242 -55
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +47 -30
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +1 -12
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +21 -88
nucliadb/reader/api/v1/export_import.py +1 -1
nucliadb/reader/api/v1/knowledgebox.py +10 -10
nucliadb/reader/api/v1/learning_config.py +2 -6
nucliadb/reader/api/v1/resource.py +62 -88
nucliadb/reader/api/v1/services.py +64 -83
nucliadb/reader/app.py +12 -29
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -28
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +1 -2
nucliadb/search/api/v1/ask.py +17 -10
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +16 -24
nucliadb/search/api/v1/find.py +36 -36
nucliadb/search/api/v1/knowledgebox.py +89 -60
nucliadb/search/api/v1/resource/ask.py +2 -8
nucliadb/search/api/v1/resource/search.py +49 -70
nucliadb/search/api/v1/search.py +44 -210
nucliadb/search/api/v1/suggest.py +39 -54
nucliadb/search/app.py +12 -32
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +136 -187
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +25 -58
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +571 -123
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -14
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +817 -266
nucliadb/search/search/chat/query.py +213 -309
nucliadb/{tests/migrations/__init__.py → search/search/cut.py} +8 -8
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -53
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +187 -223
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +305 -150
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +3 -32
nucliadb/search/search/summarize.py +7 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +8 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +7 -10
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +1 -3
nucliadb/standalone/purge.py +1 -1
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +3 -6
nucliadb/standalone/settings.py +9 -16
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +1 -1
nucliadb/train/api/v1/trainset.py +2 -4
nucliadb/train/app.py +10 -31
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +48 -39
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +19 -23
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +67 -14
nucliadb/writer/api/v1/field.py +16 -269
nucliadb/writer/api/v1/knowledgebox.py +218 -68
nucliadb/writer/api/v1/resource.py +68 -88
nucliadb/writer/api/v1/services.py +51 -70
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +143 -117
nucliadb/writer/app.py +6 -43
nucliadb/writer/back_pressure.py +16 -38
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -46
nucliadb/writer/resource/field.py +37 -128
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +6 -2
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +49 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2798.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2798.dist-info/RECORD +343 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -433
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -764
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -78
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -126
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -684
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_brain_vectors.py +0 -74
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -331
nucliadb/ingest/tests/unit/test_cache.py +0 -31
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -353
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -263
nucliadb/search/api/v1/resource/chat.py +0 -174
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -466
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -98
nucliadb/search/tests/unit/api/v1/test_ask.py +0 -120
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -99
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -211
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -270
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -153
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -525
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_migrations.py +0 -63
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -735
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -202
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -107
nucliadb/tests/migrations/test_migration_0017.py +0 -76
nucliadb/tests/migrations/test_migration_0018.py +0 -95
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -172
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -114
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -61
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -408
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -173
nucliadb/tests/unit/common/cluster/test_rebalance.py +0 -38
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -282
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -92
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -301
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -92
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -58
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -86
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -136
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -171
nucliadb/tests/utils/broker_messages/fields.py +0 -197
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -221
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -101
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -191
nucliadb/writer/tests/test_fields.py +0 -475
nucliadb/writer/tests/test_files.py +0 -740
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -133
nucliadb/writer/tests/test_resources.py +0 -476
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-4.0.0.post542.dist-info/METADATA +0 -135
nucliadb-4.0.0.post542.dist-info/RECORD +0 -462
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/entry_points.txt +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/top_level.txt +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2798.dist-info}/zip-safe +0 -0

nucliadb/ingest/orm/resource.py CHANGED Viewed

@@ -23,19 +23,33 @@ import asyncio
 import logging
 from concurrent.futures import ThreadPoolExecutor
 from functools import partial
-from typing import TYPE_CHECKING, Any, AsyncIterator, Optional, Type
+from typing import TYPE_CHECKING, Any, AsyncIterator, MutableMapping, Optional, Type
+from nucliadb.common import datamanagers
+from nucliadb.common.datamanagers.resources import KB_RESOURCE_SLUG
+from nucliadb.common.ids import FIELD_TYPE_PB_TO_STR, FieldId
+from nucliadb.common.maindb.driver import Transaction
+from nucliadb.ingest.fields.base import Field
+from nucliadb.ingest.fields.conversation import Conversation
+from nucliadb.ingest.fields.file import File
+from nucliadb.ingest.fields.generic import VALID_GENERIC_FIELDS, Generic
+from nucliadb.ingest.fields.link import Link
+from nucliadb.ingest.fields.text import Text
+from nucliadb.ingest.orm.brain import FilePagePositions, ResourceBrain
+from nucliadb.ingest.orm.metrics import processor_observer
+from nucliadb_models import content_types
+from nucliadb_models.common import CloudLink
+from nucliadb_models.content_types import GENERIC_MIME_TYPE
+from nucliadb_protos import utils_pb2, writer_pb2
 from nucliadb_protos.resources_pb2 import AllFieldIDs as PBAllFieldIDs
-from nucliadb_protos.resources_pb2 import Basic
-from nucliadb_protos.resources_pb2 import Basic as PBBasic
-from nucliadb_protos.resources_pb2 import CloudFile
-from nucliadb_protos.resources_pb2 import Conversation as PBConversation
-from nucliadb_protos.resources_pb2 import Extra as PBExtra
 from nucliadb_protos.resources_pb2 import (
+    Basic,
+    CloudFile,
     ExtractedTextWrapper,
     ExtractedVectorsWrapper,
     FieldClassifications,
     FieldComputedMetadataWrapper,
+    FieldFile,
     FieldID,
     FieldMetadata,
     FieldQuestionAnswerWrapper,
@@ -44,40 +58,27 @@ from nucliadb_protos.resources_pb2 import (
     FileExtractedData,
     LargeComputedMetadataWrapper,
     LinkExtractedData,
+    Metadata,
+    Paragraph,
+    ParagraphAnnotation,
 )
-from nucliadb_protos.resources_pb2 import Metadata
+from nucliadb_protos.resources_pb2 import Basic as PBBasic
+from nucliadb_protos.resources_pb2 import Conversation as PBConversation
+from nucliadb_protos.resources_pb2 import Extra as PBExtra
 from nucliadb_protos.resources_pb2 import Metadata as PBMetadata
 from nucliadb_protos.resources_pb2 import Origin as PBOrigin
-from nucliadb_protos.resources_pb2 import Paragraph, ParagraphAnnotation
 from nucliadb_protos.resources_pb2 import Relations as PBRelations
-from nucliadb_protos.train_pb2 import EnabledMetadata
-from nucliadb_protos.train_pb2 import Position as TrainPosition
 from nucliadb_protos.train_pb2 import (
+    EnabledMetadata,
     TrainField,
     TrainMetadata,
     TrainParagraph,
     TrainResource,
     TrainSentence,
 )
+from nucliadb_protos.train_pb2 import Position as TrainPosition
 from nucliadb_protos.utils_pb2 import Relation as PBRelation
 from nucliadb_protos.writer_pb2 import BrokerMessage
-from nucliadb.common import datamanagers
-from nucliadb.common.maindb.driver import Transaction
-from nucliadb.ingest.fields.base import Field
-from nucliadb.ingest.fields.conversation import Conversation
-from nucliadb.ingest.fields.date import Datetime
-from nucliadb.ingest.fields.file import File
-from nucliadb.ingest.fields.generic import VALID_GENERIC_FIELDS, Generic
-from nucliadb.ingest.fields.keywordset import Keywordset
-from nucliadb.ingest.fields.layout import Layout
-from nucliadb.ingest.fields.link import Link
-from nucliadb.ingest.fields.text import Text
-from nucliadb.ingest.orm.brain import FilePagePositions, ResourceBrain
-from nucliadb.ingest.orm.metrics import processor_observer
-from nucliadb_models.common import CloudLink
-from nucliadb_models.writer import GENERIC_MIME_TYPE
-from nucliadb_protos import utils_pb2, writer_pb2
 from nucliadb_utils.storages.storage import Storage
 if TYPE_CHECKING:  # pragma: no cover
@@ -85,33 +86,14 @@ if TYPE_CHECKING:  # pragma: no cover
 logger = logging.getLogger(__name__)
-KB_RESOURCE_FIELDS = "/kbs/{kbid}/r/{uuid}/f/"
-KB_RESOURCE_SLUG_BASE = "/kbs/{kbid}/s/"
-KB_RESOURCE_SLUG = f"{KB_RESOURCE_SLUG_BASE}{{slug}}"
 KB_FIELDS: dict[int, Type] = {
-    FieldType.LAYOUT: Layout,
     FieldType.TEXT: Text,
     FieldType.FILE: File,
     FieldType.LINK: Link,
-    FieldType.DATETIME: Datetime,
-    FieldType.KEYWORDSET: Keywordset,
     FieldType.GENERIC: Generic,
     FieldType.CONVERSATION: Conversation,
 }
-KB_REVERSE: dict[str, FieldType.ValueType] = {
-    "l": FieldType.LAYOUT,
-    "t": FieldType.TEXT,
-    "f": FieldType.FILE,
-    "u": FieldType.LINK,
-    "d": FieldType.DATETIME,
-    "k": FieldType.KEYWORDSET,
-    "a": FieldType.GENERIC,
-    "c": FieldType.CONVERSATION,
-}
-FIELD_TYPE_TO_ID = {v: k for k, v in KB_REVERSE.items()}
 _executor = ThreadPoolExecutor(10)
@@ -122,6 +104,8 @@ PB_TEXT_FORMAT_TO_MIMETYPE = {
     FieldText.Format.MARKDOWN: "text/markdown",
     FieldText.Format.JSON: "application/json",
     FieldText.Format.KEEP_MARKDOWN: "text/markdown",
+    FieldText.Format.JSONL: "application/x-ndjson",
+    FieldText.Format.PLAIN_BLANKLINE_SPLIT: "text/plain+blankline",
 }
 BASIC_IMMUTABLE_FIELDS = ("icon",)
@@ -173,9 +157,7 @@ class Resource:
     # Basic
     async def get_basic(self) -> Optional[PBBasic]:
         if self.basic is None:
-            basic = await datamanagers.resources.get_basic(
-                self.txn, kbid=self.kb.kbid, rid=self.uuid
-            )
+            basic = await datamanagers.resources.get_basic(self.txn, kbid=self.kb.kbid, rid=self.uuid)
             self.basic = basic if basic is not None else PBBasic()
         return self.basic
@@ -221,9 +203,7 @@ class Resource:
                         fields.append(field_id)
                     positions[field_id] = i
-                updated = [
-                    self.basic.fieldmetadata[positions[field]] for field in fields
-                ]
+                updated = [self.basic.fieldmetadata[positions[field]] for field in fields]
                 del self.basic.fieldmetadata[:]
                 self.basic.fieldmetadata.extend(updated)
@@ -244,11 +224,10 @@ class Resource:
                         self.indexer.apply_field_metadata(
                             field_id,
                             field_metadata,
-                            replace_field=[],
-                            replace_splits={},
                             page_positions=page_positions,
                             extracted_text=await field_obj.get_extracted_text(),
                             basic_user_field_metadata=user_field_metadata,
+                            replace_field=True,
                         )
         # Some basic fields are computed off field metadata.
@@ -264,9 +243,7 @@ class Resource:
     # Origin
     async def get_origin(self) -> Optional[PBOrigin]:
         if self.origin is None:
-            origin = await datamanagers.resources.get_origin(
-                self.txn, kbid=self.kb.kbid, rid=self.uuid
-            )
+            origin = await datamanagers.resources.get_origin(self.txn, kbid=self.kb.kbid, rid=self.uuid)
             self.origin = origin
         return self.origin
@@ -280,16 +257,12 @@ class Resource:
     # Extra
     async def get_extra(self) -> Optional[PBExtra]:
         if self.extra is None:
-            extra = await datamanagers.resources.get_extra(
-                self.txn, kbid=self.kb.kbid, rid=self.uuid
-            )
+            extra = await datamanagers.resources.get_extra(self.txn, kbid=self.kb.kbid, rid=self.uuid)
             self.extra = extra
         return self.extra
     async def set_extra(self, payload: PBExtra):
-        await datamanagers.resources.set_extra(
-            self.txn, kbid=self.kb.kbid, rid=self.uuid, extra=payload
-        )
+        await datamanagers.resources.set_extra(self.txn, kbid=self.kb.kbid, rid=self.uuid, extra=payload)
         self.modified = True
         self.extra = payload
@@ -329,7 +302,7 @@ class Resource:
         self.relations = relations
     @processor_observer.wrap({"type": "generate_index_message"})
-    async def generate_index_message(self) -> ResourceBrain:
+    async def generate_index_message(self, reindex: bool = False) -> ResourceBrain:
         brain = ResourceBrain(rid=self.uuid)
         origin = await self.get_origin()
         basic = await self.get_basic()
@@ -339,7 +312,7 @@ class Resource:
         await self.compute_global_tags(brain)
         fields = await self.get_fields(force=True)
         for (type_id, field_id), field in fields.items():
-            fieldid = FieldID(field_type=type_id, field=field_id)  # type: ignore
+            fieldid = FieldID(field_type=type_id, field=field_id)
             await self.compute_global_text_field(fieldid, brain)
             field_metadata = await field.get_field_metadata()
@@ -355,234 +328,66 @@ class Resource:
                         (
                             fm
                             for fm in basic.fieldmetadata
-                            if fm.field.field == field_id
-                            and fm.field.field_type == type_id
+                            if fm.field.field == field_id and fm.field.field_type == type_id
                         ),
                         None,
                     )
                 brain.apply_field_metadata(
                     field_key,
                     field_metadata,
-                    replace_field=[],
-                    replace_splits={},
                     page_positions=page_positions,
                     extracted_text=await field.get_extracted_text(),
                     basic_user_field_metadata=user_field_metadata,
+                    replace_field=reindex,
                 )
             if self.disable_vectors is False:
+                # XXX: while we don't remove the "default" vectorset concept, we
+                # need to do use None as the default one
                 vo = await field.get_vectors()
                 if vo is not None:
-                    dimension = await datamanagers.kb.get_matryoshka_vector_dimension(
-                        self.txn, kbid=self.kb.kbid
-                    )
+                    async with datamanagers.with_ro_transaction() as ro_txn:
+                        dimension = await datamanagers.kb.get_matryoshka_vector_dimension(
+                            ro_txn, kbid=self.kb.kbid
+                        )
                     brain.apply_field_vectors(
                         field_key,
                         vo,
                         matryoshka_vector_dimension=dimension,
+                        replace_field=reindex,
                     )
-        return brain
-    async def generate_field_vectors(
-        self,
-        bm: BrokerMessage,
-        type_id: FieldType.ValueType,
-        field_id: str,
-        field: Field,
-    ):
-        vo = await field.get_vectors()
-        if vo is None:
-            return
-        evw = ExtractedVectorsWrapper()
-        evw.field.field = field_id
-        evw.field.field_type = type_id  # type: ignore
-        evw.vectors.CopyFrom(vo)
-        bm.field_vectors.append(evw)
-    async def generate_field_large_computed_metadata(
-        self,
-        bm: BrokerMessage,
-        type_id: FieldType.ValueType,
-        field_id: str,
-        field: Field,
-    ):
-        lcm = await field.get_large_field_metadata()
-        if lcm is None:
-            return
-        lcmw = LargeComputedMetadataWrapper()
-        lcmw.field.field = field_id
-        lcmw.field.field_type = type_id  # type: ignore
-        lcmw.real.CopyFrom(lcm)
-        bm.field_large_metadata.append(lcmw)
-    async def generate_field_computed_metadata(
-        self,
-        bm: BrokerMessage,
-        type_id: FieldType.ValueType,
-        field_id: str,
-        field: Field,
-    ):
-        fcmw = FieldComputedMetadataWrapper()
-        fcmw.field.field = field_id
-        fcmw.field.field_type = type_id  # type: ignore
-        field_metadata = await field.get_field_metadata()
-        if field_metadata is not None:
-            fcmw.metadata.CopyFrom(field_metadata)
-            fcmw.field.field = field_id
-            fcmw.field.field_type = type_id  # type: ignore
-            bm.field_metadata.append(fcmw)
-            # Make sure cloud files are removed for exporting
-    async def generate_extracted_text(
-        self,
-        bm: BrokerMessage,
-        type_id: FieldType.ValueType,
-        field_id: str,
-        field: Field,
-    ):
-        etw = ExtractedTextWrapper()
-        etw.field.field = field_id
-        etw.field.field_type = type_id  # type: ignore
-        extracted_text = await field.get_extracted_text()
-        if extracted_text is not None:
-            etw.body.CopyFrom(extracted_text)
-            bm.extracted_text.append(etw)
-    async def generate_field(
-        self,
-        bm: BrokerMessage,
-        type_id: FieldType.ValueType,
-        field_id: str,
-        field: Field,
-    ):
-        # Used for exporting a field
-        if type_id == FieldType.TEXT:
-            value = await field.get_value()
-            bm.texts[field_id].CopyFrom(value)
-        elif type_id == FieldType.LINK:
-            value = await field.get_value()
-            bm.links[field_id].CopyFrom(value)
-        elif type_id == FieldType.FILE:
-            value = await field.get_value()
-            bm.files[field_id].CopyFrom(value)
-        elif type_id == FieldType.CONVERSATION:
-            value = await self.get_full_conversation(field)  # type: ignore
-            bm.conversations[field_id].CopyFrom(value)
-        elif type_id == FieldType.KEYWORDSET:
-            value = await field.get_value()
-            bm.keywordsets[field_id].CopyFrom(value)
-        elif type_id == FieldType.DATETIME:
-            value = await field.get_value()
-            bm.datetimes[field_id].CopyFrom(value)
-        elif type_id == FieldType.LAYOUT:
-            value = await field.get_value()
-            bm.layouts[field_id].CopyFrom(value)
-    async def get_full_conversation(
-        self,
-        conversation_field: Conversation,
-    ) -> Optional[PBConversation]:
-        """
-        Messages of a conversations may be stored across several pages.
-        This method fetches them all and returns a single complete conversation.
-        """
-        full_conv = PBConversation()
-        n_page = 1
-        while True:
-            page = await conversation_field.get_value(page=n_page)
-            if page is None:
-                break
-            full_conv.messages.extend(page.messages)
-            n_page += 1
-        return full_conv
-    async def generate_broker_message(self) -> BrokerMessage:
-        # full means downloading all the pointers
-        # minuts the ones to external files that are not PB
-        # Go for all fields and recreate brain
-        bm = BrokerMessage()
-        bm.kbid = self.kb.kbid
-        bm.uuid = self.uuid
-        basic = await self.get_basic()
-        if basic is not None:
-            bm.basic.CopyFrom(basic)
-        bm.slug = bm.basic.slug
-        origin = await self.get_origin()
-        if origin is not None:
-            bm.origin.CopyFrom(origin)
-        relations = await self.get_relations()
-        if relations is not None:
-            for relation in relations.relations:
-                bm.relations.append(relation)
-        fields = await self.get_fields(force=True)
-        for (type_id, field_id), field in fields.items():
-            # Value
-            await self.generate_field(bm, type_id, field_id, field)
-            # Extracted text
-            await self.generate_extracted_text(bm, type_id, field_id, field)
-            # Field Computed Metadata
-            await self.generate_field_computed_metadata(bm, type_id, field_id, field)
-            if type_id == FieldType.FILE and isinstance(field, File):
-                field_extracted_data = await field.get_file_extracted_data()
-                if field_extracted_data is not None:
-                    bm.file_extracted_data.append(field_extracted_data)
-            elif type_id == FieldType.LINK and isinstance(field, Link):
-                link_extracted_data = await field.get_link_extracted_data()
-                if link_extracted_data is not None:
-                    bm.link_extracted_data.append(link_extracted_data)
-            # Field vectors
-            await self.generate_field_vectors(bm, type_id, field_id, field)
-            # Large metadata
-            await self.generate_field_large_computed_metadata(
-                bm, type_id, field_id, field
-            )
-        return bm
+                vectorset_configs = []
+                async with datamanagers.with_ro_transaction() as ro_txn:
+                    async for vectorset_id, vectorset_config in datamanagers.vectorsets.iter(
+                        ro_txn, kbid=self.kb.kbid
+                    ):
+                        vectorset_configs.append(vectorset_config)
+                for vectorset_config in vectorset_configs:
+                    vo = await field.get_vectors(vectorset=vectorset_config.vectorset_id)
+                    if vo is not None:
+                        dimension = vectorset_config.vectorset_index_config.vector_dimension
+                        brain.apply_field_vectors(
+                            field_key,
+                            vo,
+                            vectorset=vectorset_config.vectorset_id,
+                            matryoshka_vector_dimension=dimension,
+                            replace_field=reindex,
+                        )
+        return brain
     # Fields
-    async def get_fields(
-        self, force: bool = False
-    ) -> dict[tuple[FieldType.ValueType, str], Field]:
+    async def get_fields(self, force: bool = False) -> dict[tuple[FieldType.ValueType, str], Field]:
         # Get all fields
         for type, field in await self.get_fields_ids(force=force):
             if (type, field) not in self.fields:
                 self.fields[(type, field)] = await self.get_field(field, type)
         return self.fields
-    async def _deprecated_scan_fields_ids(
-        self,
-    ) -> AsyncIterator[tuple[FieldType.ValueType, str]]:
-        logger.warning("Scanning fields ids. This is not optimal.")
-        prefix = KB_RESOURCE_FIELDS.format(kbid=self.kb.kbid, uuid=self.uuid)
-        allfields = set()
-        async for key in self.txn.keys(prefix, count=-1):
-            # The [6:8] `slicing purpose is to match exactly the two
-            # splitted parts corresponding to type and field, and nothing else!
-            type, field = key.split("/")[6:8]
-            type_id = KB_REVERSE.get(type)
-            if type_id is None:
-                raise AttributeError("Invalid field type")
-            result = (type_id, field)
-            if result not in allfields:
-                # fields can have errors that are stored in a subkey:
-                # - field key       -> kbs/kbid/r/ruuid/f/myfield
-                # - field error key -> kbs/kbid/r/ruuid/f/myfield/errors
-                # and that would return duplicates here.
-                yield result
-            allfields.add(result)
     async def _inner_get_fields_ids(self) -> list[tuple[FieldType.ValueType, str]]:
         # Use a set to make sure we don't have duplicate field ids
         result = set()
-        all_fields = await self.get_all_field_ids()
+        all_fields = await self.get_all_field_ids(for_update=False)
         if all_fields is not None:
             for f in all_fields.fields:
                 result.add((f.field_type, f.field))
@@ -599,9 +404,7 @@ class Resource:
                     result.add((FieldType.GENERIC, generic))
         return list(result)
-    async def get_fields_ids(
-        self, force: bool = False
-    ) -> list[tuple[FieldType.ValueType, str]]:
+    async def get_fields_ids(self, force: bool = False) -> list[tuple[FieldType.ValueType, str]]:
         """
         Get all ids of the fields of the resource and cache them.
         """
@@ -645,23 +448,20 @@ class Resource:
             if field in self.all_fields_keys:
                 self.all_fields_keys.remove(field)
-        field_key = self.generate_field_id(FieldID(field_type=type, field=key))  # type: ignore
-        vo = await field_obj.get_vectors()
-        if vo is not None:
-            self.indexer.delete_vectors(field_key=field_key, vo=vo)
+        field_key = self.generate_field_id(FieldID(field_type=type, field=key))
         metadata = await field_obj.get_field_metadata()
         if metadata is not None:
-            self.indexer.delete_metadata(field_key=field_key, metadata=metadata)
+            self.indexer.delete_field(field_key=field_key)
         await field_obj.delete()
     def has_field(self, type: FieldType.ValueType, field: str) -> bool:
         return (type, field) in self.fields
-    async def get_all_field_ids(self) -> Optional[PBAllFieldIDs]:
+    async def get_all_field_ids(self, *, for_update: bool) -> Optional[PBAllFieldIDs]:
         return await datamanagers.resources.get_all_field_ids(
-            self.txn, kbid=self.kb.kbid, rid=self.uuid
+            self.txn, kbid=self.kb.kbid, rid=self.uuid, for_update=for_update
         )
     async def set_all_field_ids(self, all_fields: PBAllFieldIDs):
@@ -677,7 +477,7 @@ class Resource:
         errors: Optional[list[writer_pb2.Error]] = None,
     ):
         needs_update = False
-        all_fields = await self.get_all_field_ids()
+        all_fields = await self.get_all_field_ids(for_update=True)
         if all_fields is None:
             needs_update = True
             all_fields = PBAllFieldIDs()
@@ -704,26 +504,11 @@ class Resource:
     @processor_observer.wrap({"type": "apply_fields"})
     async def apply_fields(self, message: BrokerMessage):
         message_updated_fields = []
-        for field, layout in message.layouts.items():
-            fid = FieldID(field_type=FieldType.LAYOUT, field=field)
-            await self.set_field(fid.field_type, fid.field, layout)
-            message_updated_fields.append(fid)
         for field, text in message.texts.items():
             fid = FieldID(field_type=FieldType.TEXT, field=field)
             await self.set_field(fid.field_type, fid.field, text)
             message_updated_fields.append(fid)
-        for field, keywordset in message.keywordsets.items():
-            fid = FieldID(field_type=FieldType.KEYWORDSET, field=field)
-            await self.set_field(fid.field_type, fid.field, keywordset)
-            message_updated_fields.append(fid)
-        for field, datetimeobj in message.datetimes.items():
-            fid = FieldID(field_type=FieldType.DATETIME, field=field)
-            await self.set_field(fid.field_type, fid.field, datetimeobj)
-            message_updated_fields.append(fid)
         for field, link in message.links.items():
             fid = FieldID(field_type=FieldType.LINK, field=field)
             await self.set_field(fid.field_type, fid.field, link)
@@ -742,13 +527,11 @@ class Resource:
         for fieldid in message.delete_fields:
             await self.delete_field(fieldid.field_type, fieldid.field)
-        if (
-            len(message_updated_fields)
-            or len(message.delete_fields)
-            or len(message.errors)
-        ):
+        if len(message_updated_fields) or len(message.delete_fields) or len(message.errors):
             await self.update_all_field_ids(
-                updated=message_updated_fields, deleted=message.delete_fields, errors=message.errors  # type: ignore
+                updated=message_updated_fields,
+                deleted=message.delete_fields,  # type: ignore
+                errors=message.errors,  # type: ignore
             )
     @processor_observer.wrap({"type": "apply_extracted"})
@@ -784,13 +567,15 @@ class Resource:
         for link_extracted_data in message.link_extracted_data:
             await self._apply_link_extracted_data(link_extracted_data)
-            await self.maybe_update_title_metadata(link_extracted_data)
+            await self.maybe_update_resource_title_from_link(link_extracted_data)
             extracted_languages.append(link_extracted_data.language)
         for file_extracted_data in message.file_extracted_data:
             await self._apply_file_extracted_data(file_extracted_data)
             extracted_languages.append(file_extracted_data.language)
+        await self.maybe_update_resource_title_from_file_extracted_data(message)
         # Metadata should go first
         for field_metadata in message.field_metadata:
             await self._apply_field_computed_metadata(field_metadata)
@@ -801,6 +586,7 @@ class Resource:
         # Upload to binary storage
         # Vector indexing
         if self.disable_vectors is False:
+            await self.get_fields(force=True)
             for field_vectors in message.field_vectors:
                 await self._apply_extracted_vectors(field_vectors)
@@ -826,9 +612,7 @@ class Resource:
             extracted_text.field,
         )
-    async def _apply_question_answers(
-        self, question_answers: FieldQuestionAnswerWrapper
-    ):
+    async def _apply_question_answers(self, question_answers: FieldQuestionAnswerWrapper):
         field = question_answers.field
         field_obj = await self.get_field(field.field, field.field_type, load=False)
         await field_obj.set_question_answers(question_answers)
@@ -848,19 +632,27 @@ class Resource:
         maybe_update_basic_summary(self.basic, link_extracted_data.description)
-    async def maybe_update_title_metadata(self, link_extracted_data: LinkExtractedData):
+    async def maybe_update_resource_title_from_link(self, link_extracted_data: LinkExtractedData):
+        """
+        When parsing link extracted data, we want to replace the resource title for the first link
+        that gets processed and has a title, and only if the current title is a URL, which we take
+        as a hint that the title was not set by the user.
+        """
         assert self.basic is not None
         if not link_extracted_data.title:
             return
         if not (self.basic.title.startswith("http") or self.basic.title == ""):
             return
         title = link_extracted_data.title
-        self.basic.title = title
+        await self.update_resource_title(title)
+    async def update_resource_title(self, computed_title: str) -> None:
+        assert self.basic is not None
+        self.basic.title = computed_title
         # Extracted text
         field = await self.get_field("title", FieldType.GENERIC, load=False)
         etw = ExtractedTextWrapper()
-        etw.body.text = title
+        etw.body.text = computed_title
         await field.set_extracted_text(etw)
         # Field computed metadata
@@ -872,11 +664,8 @@ class Resource:
         fcm = await field.get_field_metadata(force=True)
         if fcm is not None:
             fcmw.metadata.CopyFrom(fcm)
         fcmw.metadata.metadata.ClearField("paragraphs")
-        paragraph = Paragraph(
-            start=0, end=len(title), kind=Paragraph.TypeParagraph.TITLE
-        )
+        paragraph = Paragraph(start=0, end=len(computed_title), kind=Paragraph.TypeParagraph.TITLE)
         fcmw.metadata.metadata.paragraphs.append(paragraph)
         await field.set_field_metadata(fcmw)
@@ -893,9 +682,54 @@ class Resource:
         maybe_update_basic_icon(self.basic, file_extracted_data.icon)
         maybe_update_basic_thumbnail(self.basic, file_extracted_data.file_thumbnail)
-    async def _apply_field_computed_metadata(
-        self, field_metadata: FieldComputedMetadataWrapper
-    ):
+    async def _should_update_resource_title_from_file_metadata(self) -> bool:
+        """
+        We only want to update resource title from file metadata if the title is empty,
+        equal to the resource uuid or equal to any of the file filenames in the resource.
+        """
+        basic = await self.get_basic()
+        if basic is None:
+            return True
+        current_title = basic.title
+        if current_title == "":
+            # If the title is empty, we should update it
+            return True
+        if current_title == self.uuid:
+            # If the title is the same as the resource uuid, we should update it
+            return True
+        fields = await self.get_fields(force=True)
+        filenames = set()
+        for (field_type, _), field_obj in fields.items():
+            if field_type == FieldType.FILE:
+                field_value: Optional[FieldFile] = await field_obj.get_value()
+                if field_value is not None:
+                    if field_value.file.filename not in ("", None):
+                        filenames.add(field_value.file.filename)
+        if current_title in filenames:
+            # If the title is equal to any of the file filenames, we should update it
+            return True
+        return False
+    async def maybe_update_resource_title_from_file_extracted_data(self, message: BrokerMessage):
+        """
+        Update the resource title with the first file that has a title extracted.
+        """
+        if not await self._should_update_resource_title_from_file_metadata():
+            return
+        for fed in message.file_extracted_data:
+            if fed.title == "":
+                # Skip if the extracted title is empty
+                continue
+            fid = FieldId.from_pb(rid=self.uuid, field_type=FieldType.FILE, key=fed.field)
+            logger.info(
+                "Updating resource title from file extracted data",
+                extra={"kbid": self.kb.kbid, "field": fid.full(), "new_title": fed.title},
+            )
+            await self.update_resource_title(fed.title)
+            # Break after the first file with a title is found
+            break
+    async def _apply_field_computed_metadata(self, field_metadata: FieldComputedMetadataWrapper):
         assert self.basic is not None
         maybe_update_basic_summary(self.basic, field_metadata.metadata.metadata.summary)
@@ -904,17 +738,11 @@ class Resource:
             field_metadata.field.field_type,
             load=False,
         )
-        (
-            metadata,
-            replace_field,
-            replace_splits,
-        ) = await field_obj.set_field_metadata(field_metadata)
+        metadata = await field_obj.set_field_metadata(field_metadata)
         field_key = self.generate_field_id(field_metadata.field)
         page_positions: Optional[FilePagePositions] = None
-        if field_metadata.field.field_type == FieldType.FILE and isinstance(
-            field_obj, File
-        ):
+        if field_metadata.field.field_type == FieldType.FILE and isinstance(field_obj, File):
             page_positions = await get_file_page_positions(field_obj)
         user_field_metadata = next(
@@ -932,29 +760,24 @@ class Resource:
             self.indexer.apply_field_metadata,
             field_key,
             metadata,
-            replace_field=replace_field,
-            replace_splits=replace_splits,
             page_positions=page_positions,
             extracted_text=extracted_text,
             basic_user_field_metadata=user_field_metadata,
+            replace_field=True,
         )
         loop = asyncio.get_running_loop()
         await loop.run_in_executor(_executor, apply_field_metadata)
-        maybe_update_basic_thumbnail(
-            self.basic, field_metadata.metadata.metadata.thumbnail
-        )
+        maybe_update_basic_thumbnail(self.basic, field_metadata.metadata.metadata.thumbnail)
         add_field_classifications(self.basic, field_metadata)
     async def _apply_extracted_vectors(self, field_vectors: ExtractedVectorsWrapper):
-        if not self.has_field(
-            field_vectors.field.field_type, field_vectors.field.field
-        ):
+        # Store vectors in the resource
+        if not self.has_field(field_vectors.field.field_type, field_vectors.field.field):
             # skipping because field does not exist
-            logger.warning(
-                f'Field "{field_vectors.field.field}" does not exist, skipping vectors'
-            )
+            logger.warning(f'Field "{field_vectors.field.field}" does not exist, skipping vectors')
             return
         field_obj = await self.get_field(
@@ -962,22 +785,36 @@ class Resource:
             field_vectors.field.field_type,
             load=False,
         )
-        (
-            vo,
-            replace_field_sentences,
-            replace_splits_sentences,
-        ) = await field_obj.set_vectors(field_vectors)
+        vo = await field_obj.set_vectors(field_vectors)
+        # Prepare vectors to be indexed
         field_key = self.generate_field_id(field_vectors.field)
         if vo is not None:
-            dimension = await datamanagers.kb.get_matryoshka_vector_dimension(
-                self.txn, kbid=self.kb.kbid
-            )
+            vectorset_id = field_vectors.vectorset_id or None
+            if vectorset_id is None:
+                dimension = await datamanagers.kb.get_matryoshka_vector_dimension(
+                    self.txn, kbid=self.kb.kbid
+                )
+            else:
+                config = await datamanagers.vectorsets.get(
+                    self.txn, kbid=self.kb.kbid, vectorset_id=vectorset_id
+                )
+                if config is None:
+                    logger.warning(
+                        f"Trying to apply a resource on vectorset '{vectorset_id}' that doesn't exist."
+                    )
+                    return
+                dimension = config.vectorset_index_config.vector_dimension
+                if not dimension:
+                    raise ValueError(f"Vector dimension not set for vectorset '{vectorset_id}'")
             apply_field_vectors_partial = partial(
                 self.indexer.apply_field_vectors,
                 field_key,
                 vo,
-                replace_field=replace_field_sentences,
-                replace_splits=replace_splits_sentences,
+                vectorset=vectorset_id,
+                replace_field=True,
                 matryoshka_vector_dimension=dimension,
             )
             loop = asyncio.get_running_loop()
@@ -985,9 +822,7 @@ class Resource:
         else:
             raise AttributeError("VO not found on set")
-    async def _apply_field_large_metadata(
-        self, field_large_metadata: LargeComputedMetadataWrapper
-    ):
+    async def _apply_field_large_metadata(self, field_large_metadata: LargeComputedMetadataWrapper):
         field_obj = await self.get_field(
             field_large_metadata.field.field,
             field_large_metadata.field.field_type,
@@ -996,7 +831,7 @@ class Resource:
         await field_obj.set_large_field_metadata(field_large_metadata)
     def generate_field_id(self, field: FieldID) -> str:
-        return f"{FIELD_TYPE_TO_ID[field.field_type]}/{field.field}"
+        return f"{FIELD_TYPE_PB_TO_STR[field.field_type]}/{field.field}"
     async def compute_security(self, brain: ResourceBrain):
         security = await self.get_security()
@@ -1015,7 +850,7 @@ class Resource:
         brain.set_resource_metadata(basic=basic, origin=origin)
         for type, field in await self.get_fields_ids(force=True):
             fieldobj = await self.get_field(field, type, load=False)
-            fieldid = FieldID(field_type=type, field=field)  # type: ignore
+            fieldid = FieldID(field_type=type, field=field)
             fieldkey = self.generate_field_id(fieldid)
             extracted_metadata = await fieldobj.get_field_metadata()
             valid_user_field_metadata = None
@@ -1026,16 +861,16 @@ class Resource:
                 ):
                     valid_user_field_metadata = user_field_metadata
                     break
+            generated_by = await fieldobj.generated_by()
             brain.apply_field_labels(
                 fieldkey,
                 extracted_metadata,
                 self.uuid,
+                generated_by,
                 basic.usermetadata,
                 valid_user_field_metadata,
             )
-            if type == FieldType.KEYWORDSET:
-                field_data = await fieldobj.db_get_value()
-                brain.process_keywordset_fields(fieldkey, field_data)
     @processor_observer.wrap({"type": "compute_global_text"})
     async def compute_global_text(self):
@@ -1072,12 +907,10 @@ class Resource:
                 for fieldmetadata in self.basic.fieldmetadata:
                     field_id = self.generate_field_id(fieldmetadata.field)
                     for annotationparagraph in fieldmetadata.paragraphs:
-                        userdefinedparagraphclass[annotationparagraph.key] = (
-                            annotationparagraph
-                        )
+                        userdefinedparagraphclass[annotationparagraph.key] = annotationparagraph
         for (type_id, field_id), field in fields.items():
-            fieldid = FieldID(field_type=type_id, field=field_id)  # type: ignore
+            fieldid = FieldID(field_type=type_id, field=field_id)
             field_key = self.generate_field_id(fieldid)
             fm = await field.get_field_metadata()
             extracted_text = None
@@ -1092,9 +925,7 @@ class Resource:
             if fm is None:
                 continue
-            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [
-                (None, fm.metadata)
-            ]
+            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
             for subfield_metadata, splitted_metadata in fm.split_metadata.items():
                 field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -1105,7 +936,7 @@ class Resource:
                 entities: dict[str, str] = {}
                 if enabled_metadata.entities:
-                    entities.update(field_metadata.ner)
+                    _update_entities_dict(entities, field_metadata)
                 precomputed_vectors = {}
                 if vo is not None:
@@ -1116,9 +947,7 @@ class Resource:
                         vectors = vo.vectors
                         base_vector_key = f"{self.uuid}/{field_key}"
                     for index, vector in enumerate(vectors.vectors):
-                        vector_key = (
-                            f"{base_vector_key}/{index}/{vector.start}-{vector.end}"
-                        )
+                        vector_key = f"{base_vector_key}/{index}/{vector.start}-{vector.end}"
                         precomputed_vectors[vector_key] = vector.vector
                 if extracted_text is not None:
@@ -1129,11 +958,11 @@ class Resource:
                 for paragraph in field_metadata.paragraphs:
                     if subfield is not None:
-                        paragraph_key = f"{self.uuid}/{field_key}/{subfield}/{paragraph.start}-{paragraph.end}"
-                    else:
                         paragraph_key = (
-                            f"{self.uuid}/{field_key}/{paragraph.start}-{paragraph.end}"
+                            f"{self.uuid}/{field_key}/{subfield}/{paragraph.start}-{paragraph.end}"
                         )
+                    else:
+                        paragraph_key = f"{self.uuid}/{field_key}/{paragraph.start}-{paragraph.end}"
                     if enabled_metadata.labels:
                         metadata.labels.ClearField("field")
@@ -1147,7 +976,9 @@ class Resource:
                         if subfield is not None:
                             sentence_key = f"{self.uuid}/{field_key}/{subfield}/{index}/{sentence.start}-{sentence.end}"
                         else:
-                            sentence_key = f"{self.uuid}/{field_key}/{index}/{sentence.start}-{sentence.end}"
+                            sentence_key = (
+                                f"{self.uuid}/{field_key}/{index}/{sentence.start}-{sentence.end}"
+                            )
                         if vo is not None:
                             metadata.ClearField("vector")
@@ -1186,12 +1017,10 @@ class Resource:
                 for fieldmetadata in self.basic.fieldmetadata:
                     field_id = self.generate_field_id(fieldmetadata.field)
                     for annotationparagraph in fieldmetadata.paragraphs:
-                        userdefinedparagraphclass[annotationparagraph.key] = (
-                            annotationparagraph
-                        )
+                        userdefinedparagraphclass[annotationparagraph.key] = annotationparagraph
         for (type_id, field_id), field in fields.items():
-            fieldid = FieldID(field_type=type_id, field=field_id)  # type: ignore
+            fieldid = FieldID(field_type=type_id, field=field_id)
             field_key = self.generate_field_id(fieldid)
             fm = await field.get_field_metadata()
             extracted_text = None
@@ -1202,9 +1031,7 @@ class Resource:
             if fm is None:
                 continue
-            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [
-                (None, fm.metadata)
-            ]
+            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
             for subfield_metadata, splitted_metadata in fm.split_metadata.items():
                 field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -1215,7 +1042,7 @@ class Resource:
                 entities: dict[str, str] = {}
                 if enabled_metadata.entities:
-                    entities.update(field_metadata.ner)
+                    _update_entities_dict(entities, field_metadata)
                 if extracted_text is not None:
                     if subfield is not None:
@@ -1225,11 +1052,11 @@ class Resource:
                 for paragraph in field_metadata.paragraphs:
                     if subfield is not None:
-                        paragraph_key = f"{self.uuid}/{field_key}/{subfield}/{paragraph.start}-{paragraph.end}"
-                    else:
                         paragraph_key = (
-                            f"{self.uuid}/{field_key}/{paragraph.start}-{paragraph.end}"
+                            f"{self.uuid}/{field_key}/{subfield}/{paragraph.start}-{paragraph.end}"
                         )
+                    else:
+                        paragraph_key = f"{self.uuid}/{field_key}/{paragraph.start}-{paragraph.end}"
                     if enabled_metadata.labels:
                         metadata.labels.ClearField("paragraph")
@@ -1257,9 +1084,7 @@ class Resource:
                         yield pb_paragraph
-    async def iterate_fields(
-        self, enabled_metadata: EnabledMetadata
-    ) -> AsyncIterator[TrainField]:
+    async def iterate_fields(self, enabled_metadata: EnabledMetadata) -> AsyncIterator[TrainField]:
         fields = await self.get_fields(force=True)
         metadata = TrainMetadata()
         if enabled_metadata.labels:
@@ -1269,7 +1094,7 @@ class Resource:
                 metadata.labels.resource.extend(self.basic.usermetadata.classifications)
         for (type_id, field_id), field in fields.items():
-            fieldid = FieldID(field_type=type_id, field=field_id)  # type: ignore
+            fieldid = FieldID(field_type=type_id, field=field_id)
             fm = await field.get_field_metadata()
             extracted_text = None
@@ -1279,9 +1104,7 @@ class Resource:
             if fm is None:
                 continue
-            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [
-                (None, fm.metadata)
-            ]
+            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
             for subfield_metadata, splitted_metadata in fm.split_metadata.items():
                 field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -1298,7 +1121,7 @@ class Resource:
                 if enabled_metadata.entities:
                     metadata.ClearField("entities")
-                    metadata.entities.update(splitted_metadata.ner)
+                    _update_entities_dict(metadata.entities, splitted_metadata)
                 pb_field = TrainField()
                 pb_field.uuid = self.uuid
@@ -1306,9 +1129,7 @@ class Resource:
                 pb_field.metadata.CopyFrom(metadata)
                 yield pb_field
-    async def generate_train_resource(
-        self, enabled_metadata: EnabledMetadata
-    ) -> TrainResource:
+    async def generate_train_resource(self, enabled_metadata: EnabledMetadata) -> TrainResource:
         fields = await self.get_fields(force=True)
         metadata = TrainMetadata()
         if enabled_metadata.labels:
@@ -1335,9 +1156,7 @@ class Resource:
             if fm is None:
                 continue
-            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [
-                (None, fm.metadata)
-            ]
+            field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
             for subfield_metadata, splitted_metadata in fm.split_metadata.items():
                 field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -1346,7 +1165,7 @@ class Resource:
                     metadata.labels.field.extend(splitted_metadata.classifications)
                 if enabled_metadata.entities:
-                    metadata.entities.update(splitted_metadata.ner)
+                    _update_entities_dict(metadata.entities, splitted_metadata)
         pb_resource = TrainResource()
         pb_resource.uuid = self.uuid
@@ -1375,33 +1194,35 @@ def remove_field_classifications(basic: PBBasic, deleted_fields: list[FieldID]):
     Clean classifications of fields that have been deleted
     """
     field_classifications = [
-        fc
-        for fc in basic.computedmetadata.field_classifications
-        if fc.field not in deleted_fields
+        fc for fc in basic.computedmetadata.field_classifications if fc.field not in deleted_fields
     ]
     basic.computedmetadata.ClearField("field_classifications")
     basic.computedmetadata.field_classifications.extend(field_classifications)
-def add_field_classifications(
-    basic: PBBasic, fcmw: FieldComputedMetadataWrapper
-) -> bool:
+def add_field_classifications(basic: PBBasic, fcmw: FieldComputedMetadataWrapper) -> bool:
     """
     Returns whether some new field classifications were added
     """
-    if len(fcmw.metadata.metadata.classifications) == 0:
+    if len(fcmw.metadata.metadata.classifications) == 0 and all(
+        len(split.classifications) == 0 for split in fcmw.metadata.split_metadata.values()
+    ):
         return False
     remove_field_classifications(basic, [fcmw.field])
     fcfs = FieldClassifications()
     fcfs.field.CopyFrom(fcmw.field)
     fcfs.classifications.extend(fcmw.metadata.metadata.classifications)
+    for split_id, split in fcmw.metadata.split_metadata.items():
+        if split_id not in fcmw.metadata.deleted_splits:
+            fcfs.classifications.extend(split.classifications)
     basic.computedmetadata.field_classifications.append(fcfs)
     return True
-def add_entities_to_metadata(
-    entities: dict[str, str], local_text: str, metadata: TrainMetadata
-) -> None:
+def add_entities_to_metadata(entities: dict[str, str], local_text: str, metadata: TrainMetadata) -> None:
     for entity_key, entity_value in entities.items():
         if entity_key not in local_text:
             # Add the entity only if found in text
@@ -1415,9 +1236,7 @@ def add_entities_to_metadata(
         for _ in range(local_text.count(entity_key)):
             start = local_text.index(entity_key, last_occurrence_end)
             end = start + len(entity_key)
-            metadata.entity_positions[poskey].positions.append(
-                TrainPosition(start=start, end=end)
-            )
+            metadata.entity_positions[poskey].positions.append(TrainPosition(start=start, end=end))
             last_occurrence_end = end
@@ -1432,15 +1251,22 @@ def maybe_update_basic_icon(basic: PBBasic, mimetype: Optional[str]) -> bool:
     if basic.icon not in (None, "", "application/octet-stream", GENERIC_MIME_TYPE):
         # Icon already set or detected
         return False
     if not mimetype:
         return False
+    if not content_types.valid(mimetype):
+        logger.warning(
+            "Invalid mimetype. Skipping icon update.",
+            extra={"mimetype": mimetype, "rid": basic.uuid, "slug": basic.slug},
+        )
+        return False
     basic.icon = mimetype
     return True
-def maybe_update_basic_thumbnail(
-    basic: PBBasic, thumbnail: Optional[CloudFile]
-) -> bool:
+def maybe_update_basic_thumbnail(basic: PBBasic, thumbnail: Optional[CloudFile]) -> bool:
     if basic.thumbnail or thumbnail is None:
         return False
     basic.thumbnail = CloudLink.format_reader_download_uri(thumbnail.uri)
@@ -1482,3 +1308,23 @@ def extract_field_metadata_languages(
     for _, splitted_metadata in field_metadata.metadata.split_metadata.items():
         languages.add(splitted_metadata.language)
     return list(languages)
+def _update_entities_dict(target_entites_dict: MutableMapping[str, str], field_metadata: FieldMetadata):
+    """
+    Update the entities dict with the entities from the field metadata.
+    Method created to ease the transition from legacy ner field to new entities field.
+    """
+    # Data Augmentation + Processor entities
+    # This will overwrite entities detected from more than one data augmentation task
+    # TODO: Change TrainMetadata proto to accept multiple entities with the same text
+    entity_map = {
+        entity.text: entity.label
+        for data_augmentation_task_id, entities_wrapper in field_metadata.entities.items()
+        for entity in entities_wrapper.entities
+    }
+    target_entites_dict.update(entity_map)
+    # Legacy processor entities
+    # TODO: Remove once processor doesn't use this anymore and remove the positions and ner fields from the message
+    target_entites_dict.update(field_metadata.ner)

nucliadb 4.0.0.post542__py3-none-any.whl → 6.2.1.post2798__py3-none-any.whl

nucliadb 4.0.0.post542py3-none-any.whl → 6.2.1.post2798py3-none-any.whl