PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/ingest/orm/brain.py CHANGED Viewed

@@ -20,20 +20,27 @@
 import logging
 from copy import deepcopy
 from dataclasses import dataclass
-from typing import TYPE_CHECKING, Optional, Union
+from typing import Optional
-from google.protobuf.internal.containers import MessageMap
+from nucliadb.common import ids
+from nucliadb.ingest import logger
+from nucliadb.ingest.orm.utils import compute_paragraph_key
+from nucliadb_models.labels import BASE_LABELS, LABEL_HIDDEN, flatten_resource_labels
+from nucliadb_models.metadata import ResourceProcessingStatus
+from nucliadb_protos import utils_pb2
 from nucliadb_protos.noderesources_pb2 import IndexParagraph as BrainParagraph
-from nucliadb_protos.noderesources_pb2 import ParagraphMetadata
+from nucliadb_protos.noderesources_pb2 import (
+    ParagraphMetadata,
+    Representation,
+    ResourceID,
+)
 from nucliadb_protos.noderesources_pb2 import Position as TextPosition
-from nucliadb_protos.noderesources_pb2 import Representation
 from nucliadb_protos.noderesources_pb2 import Resource as PBBrainResource
-from nucliadb_protos.noderesources_pb2 import ResourceID
 from nucliadb_protos.resources_pb2 import (
     Basic,
     ExtractedText,
+    FieldAuthor,
     FieldComputedMetadata,
-    FieldKeywordset,
     FieldMetadata,
     Metadata,
     Origin,
@@ -41,28 +48,10 @@ from nucliadb_protos.resources_pb2 import (
     UserFieldMetadata,
     UserMetadata,
 )
-from nucliadb_protos.utils_pb2 import (
-    Relation,
-    RelationNode,
-    UserVectorSet,
-    UserVectorsList,
-    VectorObject,
-)
-from nucliadb.ingest import logger
-from nucliadb.ingest.orm.utils import compute_paragraph_key
-from nucliadb_models.labels import BASE_LABELS, flatten_resource_labels
-from nucliadb_models.metadata import ResourceProcessingStatus
-from nucliadb_protos import utils_pb2
-if TYPE_CHECKING:  # pragma: no cover
-    StatusValue = Union[Metadata.Status.V, int]
-else:
-    StatusValue = int
+from nucliadb_protos.utils_pb2 import Relation, RelationNode
 FilePagePositions = dict[int, tuple[int, int]]
 METADATA_STATUS_PB_TYPE_TO_NAME_MAP = {
     Metadata.Status.ERROR: ResourceProcessingStatus.ERROR.name,
     Metadata.Status.PROCESSED: ResourceProcessingStatus.PROCESSED.name,
@@ -83,7 +72,7 @@ class ResourceBrain:
         self.rid = rid
         ridobj = ResourceID(uuid=rid)
         self.brain: PBBrainResource = PBBrainResource(resource=ridobj)
-        self.labels: dict[str, list[str]] = deepcopy(BASE_LABELS)
+        self.labels: dict[str, set[str]] = deepcopy(BASE_LABELS)
     def apply_field_text(self, field_key: str, text: str):
         self.brain.texts[field_key].text = text
@@ -108,28 +97,30 @@ class ResourceBrain:
         self,
         field_key: str,
         metadata: FieldComputedMetadata,
-        replace_field: list[str],
-        replace_splits: dict[str, list[str]],
         page_positions: Optional[FilePagePositions],
         extracted_text: Optional[ExtractedText],
         basic_user_field_metadata: Optional[UserFieldMetadata] = None,
+        *,
+        replace_field: bool = False,
     ):
         # To check for duplicate paragraphs
         unique_paragraphs: set[str] = set()
         # Expose also user classifications
-        paragraph_classifications = self._get_paragraph_user_classifications(
+        user_paragraph_classifications = self._get_paragraph_user_classifications(
             basic_user_field_metadata
         )
         # We should set paragraphs and labels
         paragraph_pages = ParagraphPages(page_positions) if page_positions else None
         for subfield, metadata_split in metadata.split_metadata.items():
+            extracted_text_str = extracted_text.split_text[subfield] if extracted_text else None
             # For each split of this field
             for index, paragraph in enumerate(metadata_split.paragraphs):
                 key = f"{self.rid}/{field_key}/{subfield}/{paragraph.start}-{paragraph.end}"
-                denied_classifications = paragraph_classifications.denied.get(key, [])
+                denied_classifications = set(user_paragraph_classifications.denied.get(key, []))
                 position = TextPosition(
                     index=index,
                     start=paragraph.start,
@@ -161,9 +152,8 @@ class ResourceBrain:
                     index=index,
                     repeated_in_field=is_paragraph_repeated_in_field(
                         paragraph,
-                        extracted_text,
+                        extracted_text_str,
                         unique_paragraphs,
-                        split=subfield,
                     ),
                     metadata=ParagraphMetadata(
                         position=position,
@@ -171,22 +161,22 @@ class ResourceBrain:
                         representation=representation,
                     ),
                 )
-                p.labels.append(
-                    f"/k/{Paragraph.TypeParagraph.Name(paragraph.kind).lower()}"
+                paragraph_kind_label = f"/k/{Paragraph.TypeParagraph.Name(paragraph.kind).lower()}"
+                paragraph_labels = {paragraph_kind_label}
+                paragraph_labels.update(
+                    f"/l/{classification.labelset}/{classification.label}"
+                    for classification in paragraph.classifications
                 )
-                for classification in paragraph.classifications:
-                    label = f"/l/{classification.labelset}/{classification.label}"
-                    if label not in denied_classifications:
-                        p.labels.append(label)
-                # Add user annotated labels to paragraphs
-                extend_unique(p.labels, paragraph_classifications.valid.get(key, []))  # type: ignore
+                paragraph_labels.update(set(user_paragraph_classifications.valid.get(key, [])))
+                paragraph_labels.difference_update(denied_classifications)
+                p.labels.extend(list(paragraph_labels))
                 self.brain.paragraphs[field_key].paragraphs[key].CopyFrom(p)
+        extracted_text_str = extracted_text.text if extracted_text else None
         for index, paragraph in enumerate(metadata.metadata.paragraphs):
             key = f"{self.rid}/{field_key}/{paragraph.start}-{paragraph.end}"
-            denied_classifications = paragraph_classifications.denied.get(key, [])
+            denied_classifications = set(user_paragraph_classifications.denied.get(key, []))
             position = TextPosition(
                 index=index,
                 start=paragraph.start,
@@ -216,7 +206,7 @@ class ResourceBrain:
                 field=field_key,
                 index=index,
                 repeated_in_field=is_paragraph_repeated_in_field(
-                    paragraph, extracted_text, unique_paragraphs
+                    paragraph, extracted_text_str, unique_paragraphs
                 ),
                 metadata=ParagraphMetadata(
                     position=position,
@@ -224,161 +214,148 @@ class ResourceBrain:
                     representation=representation,
                 ),
             )
-            p.labels.append(
-                f"/k/{Paragraph.TypeParagraph.Name(paragraph.kind).lower()}"
+            paragraph_kind_label = f"/k/{Paragraph.TypeParagraph.Name(paragraph.kind).lower()}"
+            paragraph_labels = {paragraph_kind_label}
+            paragraph_labels.update(
+                f"/l/{classification.labelset}/{classification.label}"
+                for classification in paragraph.classifications
             )
-            for classification in paragraph.classifications:
-                label = f"/l/{classification.labelset}/{classification.label}"
-                if label not in denied_classifications:
-                    p.labels.append(label)
-            # Add user annotated labels to paragraphs
-            extend_unique(p.labels, paragraph_classifications.valid.get(key, []))  # type: ignore
+            paragraph_labels.update(set(user_paragraph_classifications.valid.get(key, [])))
+            paragraph_labels.difference_update(denied_classifications)
+            p.labels.extend(list(paragraph_labels))
             self.brain.paragraphs[field_key].paragraphs[key].CopyFrom(p)
+        if replace_field:
+            field_type, field_name = field_key.split("/")
+            full_field_id = ids.FieldId(rid=self.rid, type=field_type, key=field_name).full()
+            self.brain.paragraphs_to_delete.append(full_field_id)
         for relations in metadata.metadata.relations:
             for relation in relations.relations:
                 self.brain.relations.append(relation)
-        for split, sentences in replace_splits.items():
-            for sentence in sentences:
-                self.brain.paragraphs_to_delete.append(
-                    f"{self.rid}/{field_key}/{split}/{sentence}"
-                )
-        for sentence_to_delete in replace_field:
-            self.brain.paragraphs_to_delete.append(
-                f"{self.rid}/{field_key}/{sentence_to_delete}"
-            )
-    def delete_metadata(self, field_key: str, metadata: FieldComputedMetadata):
-        for subfield, metadata_split in metadata.split_metadata.items():
-            for paragraph in metadata_split.paragraphs:
-                self.brain.paragraphs_to_delete.append(
-                    f"{self.rid}/{field_key}/{subfield}/{paragraph.start}-{paragraph.end}"
-                )
-        for paragraph in metadata.metadata.paragraphs:
-            self.brain.sentences_to_delete.append(
-                f"{self.rid}/{field_key}/{paragraph.start}-{paragraph.end}"
-            )
-    def apply_user_vectors(
-        self,
-        field_key: str,
-        user_vectors: UserVectorSet,
-        vectors_to_delete: MessageMap[str, UserVectorsList],
-    ):
-        for vectorset, vectors in user_vectors.vectors.items():
-            for vector_id, user_vector in vectors.vectors.items():
-                self.brain.vectors[vectorset].vectors[
-                    f"{self.rid}/{field_key}/{vector_id}/{user_vector.start}-{user_vector.end}"
-                ].CopyFrom(user_vector)
-        for vectorset, vectorslist in vectors_to_delete.items():
-            for vector in vectorslist.vectors:
-                self.brain.vectors_to_delete[vectorset].vectors.append(
-                    f"{self.rid}/{field_key}/{vector}"
-                )
+    def delete_field(self, field_key: str):
+        ftype, fkey = field_key.split("/")
+        full_field_id = ids.FieldId(rid=self.rid, type=ftype, key=fkey).full()
+        self.brain.paragraphs_to_delete.append(full_field_id)
+        self.brain.sentences_to_delete.append(full_field_id)
     def apply_field_vectors(
         self,
-        field_key: str,
-        vo: VectorObject,
-        replace_field: bool,
-        replace_splits: list[str],
+        field_id: str,
+        vo: utils_pb2.VectorObject,
+        *,
+        vectorset: Optional[str] = None,
+        replace_field: bool = False,
+        matryoshka_vector_dimension: Optional[int] = None,
     ):
+        fid = ids.FieldId.from_string(f"{self.rid}/{field_id}")
         for subfield, vectors in vo.split_vectors.items():
+            _field_id = ids.FieldId(
+                rid=fid.rid,
+                type=fid.type,
+                key=fid.key,
+                subfield_id=subfield,
+            )
             # For each split of this field
             for index, vector in enumerate(vectors.vectors):
-                sparagraph = self.brain.paragraphs[field_key].paragraphs[
-                    f"{self.rid}/{field_key}/{subfield}/{vector.start_paragraph}-{vector.end_paragraph}"
-                ]
-                ssentence = sparagraph.sentences[
-                    f"{self.rid}/{field_key}/{subfield}/{index}/{vector.start}-{vector.end}"
-                ]
-                ssentence.ClearField("vector")  # clear first to prevent duplicates
-                ssentence.vector.extend(vector.vector)
-                # we only care about start/stop position of the paragraph for a given sentence here
-                # the key has the sentence position
-                ssentence.metadata.position.start = vector.start_paragraph
-                ssentence.metadata.position.end = vector.end_paragraph
-                ssentence.metadata.position.page_number = (
-                    sparagraph.metadata.position.page_number
-                )
-                ssentence.metadata.position.in_page = (
-                    sparagraph.metadata.position.in_page
-                )
-                ssentence.metadata.page_with_visual = (
-                    sparagraph.metadata.page_with_visual
+                paragraph_key = ids.ParagraphId(
+                    field_id=_field_id,
+                    paragraph_start=vector.start_paragraph,
+                    paragraph_end=vector.end_paragraph,
                 )
-                ssentence.metadata.representation.file = (
-                    sparagraph.metadata.representation.file
+                sentence_key = ids.VectorId(
+                    field_id=_field_id,
+                    index=index,
+                    vector_start=vector.start,
+                    vector_end=vector.end,
                 )
-                ssentence.metadata.representation.is_a_table = (
-                    sparagraph.metadata.representation.is_a_table
+                self._apply_field_vector(
+                    field_id,
+                    paragraph_key,
+                    sentence_key,
+                    vector,
+                    vectorset=vectorset,
+                    matryoshka_vector_dimension=matryoshka_vector_dimension,
                 )
-                ssentence.metadata.position.index = sparagraph.metadata.position.index
+        _field_id = ids.FieldId(
+            rid=fid.rid,
+            type=fid.type,
+            key=fid.key,
+        )
         for index, vector in enumerate(vo.vectors.vectors):
-            para_key = f"{self.rid}/{field_key}/{vector.start_paragraph}-{vector.end_paragraph}"
-            paragraph = self.brain.paragraphs[field_key].paragraphs[para_key]
-            sent_key = f"{self.rid}/{field_key}/{index}/{vector.start}-{vector.end}"
-            sentence = paragraph.sentences[sent_key]
-            sentence.ClearField("vector")  # clear first to prevent duplicates
-            sentence.vector.extend(vector.vector)
-            # we only care about start/stop position of the paragraph for a given sentence here
-            # the key has the sentence position
-            sentence.metadata.position.start = vector.start_paragraph
-            sentence.metadata.position.end = vector.end_paragraph
-            # does it make sense to copy forward paragraph values here?
-            sentence.metadata.position.page_number = (
-                paragraph.metadata.position.page_number
+            paragraph_key = ids.ParagraphId(
+                field_id=_field_id,
+                paragraph_start=vector.start_paragraph,
+                paragraph_end=vector.end_paragraph,
             )
-            sentence.metadata.position.in_page = paragraph.metadata.position.in_page
-            sentence.metadata.page_with_visual = paragraph.metadata.page_with_visual
-            sentence.metadata.representation.file = (
-                paragraph.metadata.representation.file
+            sentence_key = ids.VectorId(
+                field_id=_field_id,
+                index=index,
+                vector_start=vector.start,
+                vector_end=vector.end,
             )
-            sentence.metadata.representation.is_a_table = (
-                paragraph.metadata.representation.is_a_table
+            self._apply_field_vector(
+                field_id,
+                paragraph_key,
+                sentence_key,
+                vector,
+                vectorset=vectorset,
+                matryoshka_vector_dimension=matryoshka_vector_dimension,
             )
-            sentence.metadata.position.index = paragraph.metadata.position.index
+        if replace_field:
+            full_field_id = ids.FieldId(rid=self.rid, type=fid.type, key=fid.key).full()
+            if vectorset is None:
+                # DEPRECATED
+                self.brain.sentences_to_delete.append(full_field_id)
+            else:
+                self.brain.vector_prefixes_to_delete[vectorset].items.append(full_field_id)
+    def _apply_field_vector(
+        self,
+        field_id: str,
+        paragraph_key: ids.ParagraphId,
+        sentence_key: ids.VectorId,
+        vector: utils_pb2.Vector,
+        *,
+        vectorset: Optional[str],
+        matryoshka_vector_dimension: Optional[int] = None,
+    ):
+        paragraph_pb = self.brain.paragraphs[field_id].paragraphs[paragraph_key.full()]
+        if vectorset:
+            sentence_pb = paragraph_pb.vectorsets_sentences[vectorset].sentences[sentence_key.full()]
+        else:
+            sentence_pb = paragraph_pb.sentences[sentence_key.full()]
-        for split in replace_splits:
-            self.brain.sentences_to_delete.append(f"{self.rid}/{field_key}/{split}")
+        sentence_pb.ClearField("vector")  # clear first to prevent duplicates
-        if replace_field:
-            self.brain.sentences_to_delete.append(f"{self.rid}/{field_key}")
+        # cut vectors if a specific dimension is specified
+        if matryoshka_vector_dimension is not None:
+            sentence_pb.vector.extend(vector.vector[:matryoshka_vector_dimension])
+        else:
+            sentence_pb.vector.extend(vector.vector)
-    def delete_vectors(self, field_key: str, vo: VectorObject):
-        for subfield, vectors in vo.split_vectors.items():
-            for vector in vectors.vectors:
-                self.brain.sentences_to_delete.append(
-                    f"{self.rid}/{field_key}/{subfield}/{vector.start}-{vector.end}"
-                )
+        # we only care about start/stop position of the paragraph for a given sentence here
+        # the key has the sentence position
+        sentence_pb.metadata.position.start = vector.start_paragraph
+        sentence_pb.metadata.position.end = vector.end_paragraph
-        for vector in vo.vectors.vectors:
-            self.brain.sentences_to_delete.append(
-                f"{self.rid}/{field_key}/{vector.start}-{vector.end}"
-            )
+        # does it make sense to copy forward paragraph values here?
+        sentence_pb.metadata.position.page_number = paragraph_pb.metadata.position.page_number
+        sentence_pb.metadata.position.in_page = paragraph_pb.metadata.position.in_page
-    def set_processing_status(
-        self, basic: Basic, previous_status: Optional[Metadata.Status.ValueType]
-    ):
+        sentence_pb.metadata.page_with_visual = paragraph_pb.metadata.page_with_visual
+        sentence_pb.metadata.representation.file = paragraph_pb.metadata.representation.file
+        sentence_pb.metadata.representation.is_a_table = paragraph_pb.metadata.representation.is_a_table
+        sentence_pb.metadata.position.index = paragraph_pb.metadata.position.index
+    def set_processing_status(self, basic: Basic, previous_status: Optional[Metadata.Status.ValueType]):
         """
         We purposefully overwrite what we index as a status and DO NOT reflect
         actual status with what we index.
@@ -435,15 +412,11 @@ class ResourceBrain:
                 self.brain.metadata.modified.CopyFrom(origin.modified)
     def _set_resource_relations(self, basic: Basic, origin: Optional[Origin]):
-        relationnodedocument = RelationNode(
-            value=self.rid, ntype=RelationNode.NodeType.RESOURCE
-        )
+        relationnodedocument = RelationNode(value=self.rid, ntype=RelationNode.NodeType.RESOURCE)
         if origin is not None:
             # origin contributors
             for contrib in origin.colaborators:
-                relationnodeuser = RelationNode(
-                    value=contrib, ntype=RelationNode.NodeType.USER
-                )
+                relationnodeuser = RelationNode(value=contrib, ntype=RelationNode.NodeType.USER)
                 self.brain.relations.append(
                     Relation(
                         relation=Relation.COLAB,
@@ -472,115 +445,147 @@ class ResourceBrain:
     def _set_resource_labels(self, basic: Basic, origin: Optional[Origin]):
         if origin is not None:
             if origin.source_id:
-                self.labels["o"] = [origin.source_id]
+                self.labels["o"] = {origin.source_id}
             # origin tags
             for tag in origin.tags:
-                self.labels["t"].append(tag)
+                self.labels["t"].add(tag)
             # origin source
             if origin.source_id != "":
-                self.labels["u"].append(f"s/{origin.source_id}")
+                self.labels["u"].add(f"s/{origin.source_id}")
             if origin.path:
-                self.labels["p"].append(origin.path.lstrip("/"))
+                self.labels["p"].add(origin.path.lstrip("/"))
             # origin contributors
             for contrib in origin.colaborators:
-                self.labels["u"].append(f"o/{contrib}")
+                self.labels["u"].add(f"o/{contrib}")
             for key, value in origin.metadata.items():
-                self.labels["m"].append(f"{key[:255]}/{value[:255]}")
+                self.labels["m"].add(f"{key[:255]}/{value[:255]}")
         # icon
-        self.labels["n"].append(f"i/{basic.icon}")
+        self.labels["n"].add(f"i/{basic.icon}")
         # processing status
         status_tag = self.get_processing_status_tag(basic.metadata)
-        self.labels["n"].append(f"s/{status_tag}")
+        self.labels["n"].add(f"s/{status_tag}")
         # main language
         if basic.metadata.language:
-            self.labels["s"].append(f"p/{basic.metadata.language}")
+            self.labels["s"].add(f"p/{basic.metadata.language}")
         # all language
         for lang in basic.metadata.languages:
-            self.labels["s"].append(f"s/{lang}")
+            self.labels["s"].add(f"s/{lang}")
         # labels
         for classification in basic.usermetadata.classifications:
-            self.labels["l"].append(f"{classification.labelset}/{classification.label}")
+            self.labels["l"].add(f"{classification.labelset}/{classification.label}")
+        # hidden
+        if basic.hidden:
+            _, p1, p2 = LABEL_HIDDEN.split("/")
+            self.labels[p1].add(p2)
-        self.compute_labels()
+        self.brain.ClearField("labels")
+        self.brain.labels.extend(flatten_resource_labels(self.labels))
     def process_field_metadata(
         self,
         field_key: str,
         metadata: FieldMetadata,
-        labels: dict[str, list[str]],
+        labels: dict[str, set[str]],
         relation_node_document: RelationNode,
-        user_canceled_labels: list[str],
+        user_canceled_labels: set[str],
     ):
+        if metadata.mime_type != "":
+            labels["mt"].add(metadata.mime_type)
+        base_classification_relation = Relation(
+            relation=Relation.ABOUT,
+            source=relation_node_document,
+            to=RelationNode(
+                ntype=RelationNode.NodeType.LABEL,
+            ),
+        )
         for classification in metadata.classifications:
             label = f"{classification.labelset}/{classification.label}"
             if label not in user_canceled_labels:
-                labels["l"].append(label)
-                relation_node_label = RelationNode(
-                    value=label,
-                    ntype=RelationNode.NodeType.LABEL,
-                )
-                self.brain.relations.append(
-                    Relation(
-                        relation=Relation.ABOUT,
-                        source=relation_node_document,
-                        to=relation_node_label,
-                    )
-                )
+                labels["l"].add(label)
+                relation = Relation()
+                relation.CopyFrom(base_classification_relation)
+                relation.to.value = label
+                self.brain.relations.append(relation)
+        # Data Augmentation + Processor entities
+        base_entity_relation = Relation(
+            relation=Relation.ENTITY,
+            source=relation_node_document,
+            to=RelationNode(ntype=RelationNode.NodeType.ENTITY),
+        )
+        use_legacy_entities = True
+        for data_augmentation_task_id, entities in metadata.entities.items():
+            # If we recieved the entities from the processor here, we don't want to use the legacy entities
+            # TODO: Remove this when processor doesn't use this anymore
+            if data_augmentation_task_id == "processor":
+                use_legacy_entities = False
+            for ent in entities.entities:
+                entity_text = ent.text
+                entity_label = ent.label
+                # Seems like we don't care about where the entity is in the text
+                # entity_positions = entity.positions
+                labels["e"].add(
+                    f"{entity_label}/{entity_text}"
+                )  # Add data_augmentation_task_id as a prefix?
+                relation = Relation()
+                relation.CopyFrom(base_entity_relation)
+                relation.to.value = entity_text
+                relation.to.subtype = entity_label
+                self.brain.relations.append(relation)
-        for klass_entity, _ in metadata.positions.items():
-            labels["e"].append(klass_entity)
-            entity_array = klass_entity.split("/")
-            if len(entity_array) == 1:
+        # Legacy processor entities
+        # TODO: Remove once processor doesn't use this anymore and remove the positions and ner fields from the message
+        def _parse_entity(klass_entity: str) -> tuple[str, str]:
+            try:
+                klass, entity = klass_entity.split("/", 1)
+                return klass, entity
+            except ValueError:
                 raise AttributeError(f"Entity should be with type {klass_entity}")
-            elif len(entity_array) > 1:
-                klass = entity_array[0]
-                entity = "/".join(entity_array[1:])
-            relation_node_entity = RelationNode(
-                value=entity, ntype=RelationNode.NodeType.ENTITY, subtype=klass
-            )
-            rel = Relation(
-                relation=Relation.ENTITY,
-                source=relation_node_document,
-                to=relation_node_entity,
-            )
-            self.brain.relations.append(rel)
-    def process_keywordset_fields(self, field_key: str, field: FieldKeywordset):
-        # all field keywords
-        if field:
-            for keyword in field.keywords:
-                self.labels["f"].append(f"{field_key}/{keyword.value}")
-                self.labels["fg"].append(keyword.value)
+        if use_legacy_entities:
+            for klass_entity in metadata.positions.keys():
+                labels["e"].add(klass_entity)
+                klass, entity = _parse_entity(klass_entity)
+                relation = Relation()
+                relation.CopyFrom(base_entity_relation)
+                relation.to.value = entity
+                relation.to.subtype = klass
+                self.brain.relations.append(relation)
     def apply_field_labels(
         self,
         field_key: str,
         metadata: Optional[FieldComputedMetadata],
         uuid: str,
+        generated_by: FieldAuthor,
         basic_user_metadata: Optional[UserMetadata] = None,
         basic_user_fieldmetadata: Optional[UserFieldMetadata] = None,
     ):
+        user_canceled_labels: set[str] = set()
         if basic_user_metadata is not None:
-            user_canceled_labels = [
-                f"/l/{classification.labelset}/{classification.label}"
+            user_canceled_labels.update(
+                f"{classification.labelset}/{classification.label}"
                 for classification in basic_user_metadata.classifications
                 if classification.cancelled_by_user
-            ]
-        else:
-            user_canceled_labels = []
-        relation_node_resource = RelationNode(
-            value=uuid, ntype=RelationNode.NodeType.RESOURCE
-        )
-        labels: dict[str, list[str]] = {"l": [], "e": []}
+            )
+        relation_node_resource = RelationNode(value=uuid, ntype=RelationNode.NodeType.RESOURCE)
+        labels: dict[str, set[str]] = {
+            "l": set(),  # classification labels
+            "e": set(),  # entities
+            "mt": set(),  # mime type
+            "g/da": set(),  # generated by
+        }
         if metadata is not None:
             for meta in metadata.split_metadata.values():
                 self.process_field_metadata(
@@ -601,7 +606,7 @@ class ResourceBrain:
         if basic_user_fieldmetadata is not None:
             for token in basic_user_fieldmetadata.token:
                 if token.cancelled_by_user is False:
-                    labels["e"].append(f"{token.klass}/{token.token}")
+                    labels["e"].add(f"{token.klass}/{token.token}")
                     relation_node_entity = RelationNode(
                         value=token.token,
                         ntype=RelationNode.NodeType.ENTITY,
@@ -629,36 +634,33 @@ class ResourceBrain:
                             self.brain.paragraphs[field_key].paragraphs[
                                 paragraph_annotation.key
                             ].labels.append(label)
-        extend_unique(
-            self.brain.texts[field_key].labels, flatten_resource_labels(labels)  # type: ignore
-        )
-    def compute_labels(self):
-        extend_unique(self.brain.labels, flatten_resource_labels(self.labels))
+        if generated_by.WhichOneof("author") == "data_augmentation":
+            field_type, field_id = field_key.split("/")
+            da_task_id = ids.extract_data_augmentation_id(field_id)
+            if da_task_id is None:  # pragma: nocover
+                logger.warning(
+                    "Data augmentation field id has an unexpected format! Skipping label",
+                    extra={
+                        "rid": uuid,
+                        "field_id": field_id,
+                    },
+                )
+            else:
+                labels["g/da"].add(da_task_id)
-def get_paragraph_text(
-    extracted_text: ExtractedText, start: int, end: int, split: Optional[str] = None
-) -> str:
-    if split is not None:
-        text = extracted_text.split_text[split]
-    else:
-        text = extracted_text.text
-    return text[start:end]
+        self.brain.texts[field_key].labels.extend(flatten_resource_labels(labels))
 def is_paragraph_repeated_in_field(
     paragraph: Paragraph,
-    extracted_text: Optional[ExtractedText],
+    extracted_text: Optional[str],
     unique_paragraphs: set[str],
-    split: Optional[str] = None,
 ) -> bool:
     if extracted_text is None:
         return False
-    paragraph_text = get_paragraph_text(
-        extracted_text, start=paragraph.start, end=paragraph.end, split=split
-    )
+    paragraph_text = extracted_text[paragraph.start : paragraph.end]
     if len(paragraph_text) == 0:
         return False
@@ -695,12 +697,3 @@ class ParagraphPages:
             if len(self._materialized) > 0:
                 return self._materialized[-1]
             return 0
-def extend_unique(a: list, b: list):
-    """
-    Prevents extending with duplicate elements
-    """
-    for item in b:
-        if item not in a:
-            a.append(item)

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl