PyPI - nucliadb - Versions diffs - 4.0.0.post542__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 4.0.0.post542py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (418) hide show

migrations/0003_allfields_key.py +1 -35
migrations/0009_upgrade_relations_and_texts_to_v2.py +4 -2
migrations/0010_fix_corrupt_indexes.py +10 -10
migrations/0011_materialize_labelset_ids.py +1 -16
migrations/0012_rollover_shards.py +5 -10
migrations/0014_rollover_shards.py +4 -5
migrations/0015_targeted_rollover.py +5 -10
migrations/0016_upgrade_to_paragraphs_v2.py +25 -28
migrations/0017_multiple_writable_shards.py +2 -4
migrations/0018_purge_orphan_kbslugs.py +5 -7
migrations/0019_upgrade_to_paragraphs_v3.py +25 -28
migrations/0020_drain_nodes_from_cluster.py +3 -3
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +16 -19
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +30 -16
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +3 -11
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +174 -59
nucliadb/common/cluster/rebalance.py +27 -29
nucliadb/common/cluster/rollover.py +353 -194
nucliadb/common/cluster/settings.py +6 -0
nucliadb/common/cluster/standalone/grpc_node_binding.py +13 -64
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +2 -6
nucliadb/common/cluster/utils.py +29 -22
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +3 -0
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +7 -1
nucliadb/common/datamanagers/atomic.py +22 -4
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +83 -37
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +41 -103
nucliadb/common/datamanagers/rollover.py +76 -15
nucliadb/common/datamanagers/synonyms.py +1 -1
nucliadb/common/datamanagers/utils.py +15 -6
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/orm/test_orm_utils.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +29 -7
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +3 -0
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +11 -42
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exporter.py +5 -11
nucliadb/export_import/importer.py +5 -7
nucliadb/export_import/models.py +3 -3
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +25 -37
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +21 -19
nucliadb/ingest/consumer/consumer.py +82 -47
nucliadb/ingest/consumer/materializer.py +5 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +19 -17
nucliadb/ingest/consumer/shard_creator.py +2 -4
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +137 -105
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -16
nucliadb/ingest/fields/link.py +5 -10
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +200 -213
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +322 -197
nucliadb/ingest/orm/processor/__init__.py +2 -700
nucliadb/ingest/orm/processor/auditing.py +4 -23
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +249 -402
nucliadb/ingest/orm/utils.py +4 -4
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +64 -73
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -167
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +185 -412
nucliadb/ingest/settings.py +10 -20
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +242 -55
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +47 -30
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +1 -12
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +21 -88
nucliadb/reader/api/v1/export_import.py +1 -1
nucliadb/reader/api/v1/knowledgebox.py +10 -10
nucliadb/reader/api/v1/learning_config.py +2 -6
nucliadb/reader/api/v1/resource.py +62 -88
nucliadb/reader/api/v1/services.py +64 -83
nucliadb/reader/app.py +12 -29
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -28
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +1 -2
nucliadb/search/api/v1/ask.py +17 -10
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +16 -24
nucliadb/search/api/v1/find.py +36 -36
nucliadb/search/api/v1/knowledgebox.py +89 -60
nucliadb/search/api/v1/resource/ask.py +2 -8
nucliadb/search/api/v1/resource/search.py +49 -70
nucliadb/search/api/v1/search.py +44 -210
nucliadb/search/api/v1/suggest.py +39 -54
nucliadb/search/app.py +12 -32
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +136 -187
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +25 -58
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +571 -123
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -14
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +817 -266
nucliadb/search/search/chat/query.py +213 -309
nucliadb/{tests/migrations/__init__.py → search/search/cut.py} +8 -8
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -53
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +187 -223
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +305 -150
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +3 -32
nucliadb/search/search/summarize.py +7 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +8 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +7 -10
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +1 -3
nucliadb/standalone/purge.py +1 -1
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +3 -6
nucliadb/standalone/settings.py +9 -16
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +1 -1
nucliadb/train/api/v1/trainset.py +2 -4
nucliadb/train/app.py +10 -31
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +48 -39
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +19 -23
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +67 -14
nucliadb/writer/api/v1/field.py +16 -269
nucliadb/writer/api/v1/knowledgebox.py +218 -68
nucliadb/writer/api/v1/resource.py +68 -88
nucliadb/writer/api/v1/services.py +51 -70
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +114 -113
nucliadb/writer/app.py +6 -43
nucliadb/writer/back_pressure.py +16 -38
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -46
nucliadb/writer/resource/field.py +25 -127
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +6 -2
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +49 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -433
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -764
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -78
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -126
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -684
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_brain_vectors.py +0 -74
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -331
nucliadb/ingest/tests/unit/test_cache.py +0 -31
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -353
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -263
nucliadb/search/api/v1/resource/chat.py +0 -174
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -466
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -98
nucliadb/search/tests/unit/api/v1/test_ask.py +0 -120
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -99
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -211
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -270
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -153
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -525
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_migrations.py +0 -63
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -735
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -202
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -107
nucliadb/tests/migrations/test_migration_0017.py +0 -76
nucliadb/tests/migrations/test_migration_0018.py +0 -95
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -172
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -114
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -61
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -408
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -173
nucliadb/tests/unit/common/cluster/test_rebalance.py +0 -38
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -282
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -92
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -301
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -92
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -58
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -86
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -136
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -171
nucliadb/tests/utils/broker_messages/fields.py +0 -197
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -221
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -101
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -191
nucliadb/writer/tests/test_fields.py +0 -475
nucliadb/writer/tests/test_files.py +0 -740
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -133
nucliadb/writer/tests/test_resources.py +0 -476
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-4.0.0.post542.dist-info/METADATA +0 -135
nucliadb-4.0.0.post542.dist-info/RECORD +0 -462
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-4.0.0.post542.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/search/search/query.py CHANGED Viewed

@@ -19,19 +19,19 @@
 #
 import asyncio
 import json
+import string
 from datetime import datetime
 from typing import Any, Awaitable, Optional, Union
 from async_lru import alru_cache
-from nucliadb_protos.noderesources_pb2 import Resource
 from nucliadb.common import datamanagers
-from nucliadb.middleware.transaction import get_read_only_transaction
+from nucliadb.common.maindb.utils import get_driver
 from nucliadb.search import logger
 from nucliadb.search.predict import SendToPredictError, convert_relations
 from nucliadb.search.search.filters import (
     convert_to_node_filters,
-    flat_filter_labels,
+    flatten_filter_literals,
     has_classification_label_filters,
     split_labels_by_type,
     translate_label,
@@ -41,17 +41,22 @@ from nucliadb.search.search.metrics import (
     node_features,
     query_parse_dependency_observer,
 )
+from nucliadb.search.search.rank_fusion import (
+    RankFusionAlgorithm,
+)
+from nucliadb.search.search.rerankers import (
+    Reranker,
+)
 from nucliadb.search.utilities import get_predict
-from nucliadb_models.labels import translate_system_to_alias_label
+from nucliadb_models.internal.predict import QueryInfo
+from nucliadb_models.labels import LABEL_HIDDEN, translate_system_to_alias_label
 from nucliadb_models.metadata import ResourceProcessingStatus
 from nucliadb_models.search import (
     Filter,
     MaxTokens,
     MinScore,
-    QueryInfo,
     SearchOptions,
     SortField,
-    SortFieldMap,
     SortOptions,
     SortOrder,
     SortOrderMap,
@@ -59,6 +64,7 @@ from nucliadb_models.search import (
 )
 from nucliadb_models.security import RequestSecurity
 from nucliadb_protos import knowledgebox_pb2, nodereader_pb2, utils_pb2
+from nucliadb_protos.noderesources_pb2 import Resource
 from .exceptions import InvalidQueryError
@@ -67,7 +73,6 @@ INDEX_SORTABLE_FIELDS = [
     SortField.MODIFIED,
 ]
-MAX_VECTOR_RESULTS_ALLOWED = 2000
 DEFAULT_GENERIC_SEMANTIC_THRESHOLD = 0.7
@@ -82,6 +87,7 @@ class QueryParser:
     """
     _query_information_task: Optional[asyncio.Task] = None
+    _get_vectorset_task: Optional[asyncio.Task] = None
     _detected_entities_task: Optional[asyncio.Task] = None
     _entities_meta_cache_task: Optional[asyncio.Task] = None
     _deleted_entities_groups_task: Optional[asyncio.Task] = None
@@ -95,9 +101,9 @@ class QueryParser:
         kbid: str,
         features: list[SearchOptions],
         query: str,
-        filters: Union[list[str], list[Filter]],
-        page_number: int,
-        page_size: int,
+        label_filters: Union[list[str], list[Filter]],
+        keyword_filters: Union[list[str], list[Filter]],
+        top_k: int,
         min_score: MinScore,
         faceted: Optional[list[str]] = None,
         sort: Optional[SortOptions] = None,
@@ -107,6 +113,7 @@ class QueryParser:
         range_modification_end: Optional[datetime] = None,
         fields: Optional[list[str]] = None,
         user_vector: Optional[list[float]] = None,
+        vectorset: Optional[str] = None,
         with_duplicates: bool = False,
         with_status: Optional[ResourceProcessingStatus] = None,
         with_synonyms: bool = False,
@@ -114,17 +121,28 @@ class QueryParser:
         key_filters: Optional[list[str]] = None,
         security: Optional[RequestSecurity] = None,
         generative_model: Optional[str] = None,
-        rephrase: Optional[bool] = False,
+        rephrase: bool = False,
+        rephrase_prompt: Optional[str] = None,
         max_tokens: Optional[MaxTokens] = None,
+        hidden: Optional[bool] = None,
+        rank_fusion: Optional[RankFusionAlgorithm] = None,
+        reranker: Optional[Reranker] = None,
     ):
         self.kbid = kbid
         self.features = features
         self.query = query
-        self.filters: dict[str, Any] = convert_to_node_filters(filters)
-        self.flat_filter_labels: list[str] = []
+        self.hidden = hidden
+        if self.hidden is not None:
+            if self.hidden:
+                label_filters.append(Filter(all=[LABEL_HIDDEN]))  # type: ignore
+            else:
+                label_filters.append(Filter(none=[LABEL_HIDDEN]))  # type: ignore
+        self.label_filters: dict[str, Any] = convert_to_node_filters(label_filters)
+        self.flat_label_filters: list[str] = []
+        self.keyword_filters: dict[str, Any] = convert_to_node_filters(keyword_filters)
         self.faceted = faceted or []
-        self.page_number = page_number
-        self.page_size = page_size
+        self.top_k = top_k
         self.min_score = min_score
         self.sort = sort
         self.range_creation_start = range_creation_start
@@ -133,6 +151,7 @@ class QueryParser:
         self.range_modification_end = range_modification_end
         self.fields = fields or []
         self.user_vector = user_vector
+        self.vectorset = vectorset
         self.with_duplicates = with_duplicates
         self.with_status = with_status
         self.with_synonyms = with_synonyms
@@ -141,15 +160,18 @@ class QueryParser:
         self.security = security
         self.generative_model = generative_model
         self.rephrase = rephrase
+        self.rephrase_prompt = rephrase_prompt
         self.query_endpoint_used = False
-        if len(self.filters) > 0:
-            self.filters = translate_label_filters(self.filters)
-            self.flat_filter_labels = flat_filter_labels(self.filters)
+        if len(self.label_filters) > 0:
+            self.label_filters = translate_label_filters(self.label_filters)
+            self.flat_label_filters = flatten_filter_literals(self.label_filters)
         self.max_tokens = max_tokens
+        self.rank_fusion = rank_fusion
+        self.reranker = reranker
     @property
     def has_vector_search(self) -> bool:
-        return SearchOptions.VECTOR in self.features
+        return SearchOptions.SEMANTIC in self.features
     @property
     def has_relations_search(self) -> bool:
@@ -157,34 +179,62 @@ class QueryParser:
     def _get_query_information(self) -> Awaitable[QueryInfo]:
         if self._query_information_task is None:  # pragma: no cover
-            self._query_information_task = asyncio.create_task(
-                query_information(
-                    self.kbid, self.query, self.generative_model, self.rephrase
-                )
-            )
+            self._query_information_task = asyncio.create_task(self._query_information())
         return self._query_information_task
+    async def _query_information(self) -> QueryInfo:
+        vectorset = await self.select_query_vectorset()
+        return await query_information(
+            self.kbid, self.query, vectorset, self.generative_model, self.rephrase, self.rephrase_prompt
+        )
+    def _get_vectorset(self) -> Awaitable[Optional[str]]:
+        if self._get_vectorset_task is None:
+            self._get_vectorset_task = asyncio.create_task(self._select_vectorset())
+        return self._get_vectorset_task
+    async def _select_vectorset(self) -> Optional[str]:
+        if self.vectorset:
+            return self.vectorset
+        # When vectorset is not provided we get the default from Predict API
+        try:
+            query_information = await self._get_query_information()
+        except SendToPredictError:
+            return None
+        if query_information.sentence is None:
+            logger.error(
+                "Asking for a vectorset but /query didn't return one", extra={"kbid": self.kbid}
+            )
+            return None
+        for vectorset in query_information.sentence.vectors.keys():
+            self.vectorset = vectorset
+            break
+        return self.vectorset
     def _get_matryoshka_dimension(self) -> Awaitable[Optional[int]]:
         if self._get_matryoshka_dimension_task is None:
-            self._get_matryoshka_dimension_task = asyncio.create_task(
-                get_matryoshka_dimension_cached(self.kbid)
-            )
+            self._get_matryoshka_dimension_task = asyncio.create_task(self._matryoshka_dimension())
         return self._get_matryoshka_dimension_task
+    async def _matryoshka_dimension(self) -> Optional[int]:
+        vectorset = await self._select_vectorset()
+        return await get_matryoshka_dimension_cached(self.kbid, vectorset)
     def _get_detected_entities(self) -> Awaitable[list[utils_pb2.RelationNode]]:
         if self._detected_entities_task is None:  # pragma: no cover
-            self._detected_entities_task = asyncio.create_task(
-                detect_entities(self.kbid, self.query)
-            )
+            self._detected_entities_task = asyncio.create_task(detect_entities(self.kbid, self.query))
         return self._detected_entities_task
     def _get_entities_meta_cache(
         self,
     ) -> Awaitable[datamanagers.entities.EntitiesMetaCache]:
         if self._entities_meta_cache_task is None:
-            self._entities_meta_cache_task = asyncio.create_task(
-                get_entities_meta_cache(self.kbid)
-            )
+            self._entities_meta_cache_task = asyncio.create_task(get_entities_meta_cache(self.kbid))
         return self._entities_meta_cache_task
     def _get_deleted_entity_groups(self) -> Awaitable[list[str]]:
@@ -211,9 +261,7 @@ class QueryParser:
         This will schedule concurrent tasks for different data that needs to be pulled
         for the sake of the query being performed
         """
-        if len(self.filters) > 0 and has_classification_label_filters(
-            self.flat_filter_labels
-        ):
+        if len(self.label_filters) > 0 and has_classification_label_filters(self.flat_label_filters):
             asyncio.ensure_future(self._get_classification_labels())
         if self.has_vector_search and self.user_vector is None:
@@ -253,26 +301,28 @@ class QueryParser:
         autofilters = await self.parse_relation_search(request)
         await self.parse_synonyms(request)
         await self.parse_min_score(request, incomplete)
+        await self.adjust_page_size(request, self.rank_fusion, self.reranker)
         return request, incomplete, autofilters
     async def parse_filters(self, request: nodereader_pb2.SearchRequest) -> None:
-        if len(self.filters) > 0:
-            field_labels = self.flat_filter_labels
+        if len(self.label_filters) > 0:
+            field_labels = self.flat_label_filters
             paragraph_labels: list[str] = []
-            if has_classification_label_filters(self.flat_filter_labels):
+            if has_classification_label_filters(self.flat_label_filters):
                 classification_labels = await self._get_classification_labels()
                 field_labels, paragraph_labels = split_labels_by_type(
-                    self.flat_filter_labels, classification_labels
+                    self.flat_label_filters, classification_labels
                 )
-                check_supported_filters(self.filters, paragraph_labels)
+                check_supported_filters(self.label_filters, paragraph_labels)
             request.filter.field_labels.extend(field_labels)
             request.filter.paragraph_labels.extend(paragraph_labels)
-            request.filter.expression = json.dumps(self.filters)
+            request.filter.labels_expression = json.dumps(self.label_filters)
-        request.faceted.labels.extend(
-            [translate_label(facet) for facet in self.faceted]
-        )
+        if len(self.keyword_filters) > 0:
+            request.filter.keywords_expression = json.dumps(self.keyword_filters)
+        request.faceted.labels.extend([translate_label(facet) for facet in self.faceted])
         request.fields.extend(self.fields)
         if self.security is not None and len(self.security.groups) > 0:
@@ -322,9 +372,7 @@ class QueryParser:
                     order=SortOrder.DESC,
                     limit=None,
                 )
-            elif (
-                self.sort.field not in INDEX_SORTABLE_FIELDS and self.sort.limit is None
-            ):
+            elif self.sort.field not in INDEX_SORTABLE_FIELDS and self.sort.limit is None:
                 raise InvalidQueryError(
                     "sort_field",
                     f"Sort by '{self.sort.field}' requires setting a sort limit",
@@ -337,35 +385,32 @@ class QueryParser:
             # have consistent results, we must limit them
             request.result_per_page = self.sort.limit
         else:
-            request.result_per_page = self.page_number * self.page_size + self.page_size
+            request.result_per_page = self.top_k
-        sort_field = SortFieldMap[self.sort.field] if self.sort else None
+        sort_field = get_sort_field_proto(self.sort.field) if self.sort else None
         if sort_field is not None:
             request.order.sort_by = sort_field
             request.order.type = SortOrderMap[self.sort.order]  # type: ignore
-        if (
-            self.has_vector_search
-            and request.result_per_page > MAX_VECTOR_RESULTS_ALLOWED
-        ):
-            raise InvalidQueryError(
-                "page_size",
-                f"Pagination of semantic results limit reached: {MAX_VECTOR_RESULTS_ALLOWED}. If you want to paginate through all results, please disable the vector search feature.",  # noqa: E501
-            )
-    async def parse_min_score(
-        self, request: nodereader_pb2.SearchRequest, incomplete: bool
-    ) -> None:
+    async def parse_min_score(self, request: nodereader_pb2.SearchRequest, incomplete: bool) -> None:
         semantic_min_score = DEFAULT_GENERIC_SEMANTIC_THRESHOLD
         if self.min_score.semantic is not None:
             semantic_min_score = self.min_score.semantic
         elif self.has_vector_search and not incomplete:
             query_information = await self._get_query_information()
-            if query_information.semantic_threshold is not None:
-                semantic_min_score = query_information.semantic_threshold
+            vectorset = await self._select_vectorset()
+            if vectorset is not None:
+                semantic_threshold = query_information.semantic_thresholds.get(vectorset, None)
+                if semantic_threshold is not None:
+                    semantic_min_score = semantic_threshold
+                else:
+                    logger.warning(
+                        "Semantic threshold not found in query information, using default",
+                        extra={"kbid": self.kbid},
+                    )
             else:
                 logger.warning(
-                    "Semantic threshold not found in query information, using default",
+                    "Vectorset unset by user or predict, using default semantic threshold",
                     extra={"kbid": self.kbid},
                 )
         self.min_score.semantic = semantic_min_score
@@ -373,15 +418,34 @@ class QueryParser:
         request.min_score_bm25 = self.min_score.bm25
     def parse_document_search(self, request: nodereader_pb2.SearchRequest) -> None:
-        if SearchOptions.DOCUMENT in self.features:
+        if SearchOptions.FULLTEXT in self.features:
             request.document = True
             node_features.inc({"type": "documents"})
     def parse_paragraph_search(self, request: nodereader_pb2.SearchRequest) -> None:
-        if SearchOptions.PARAGRAPH in self.features:
+        if SearchOptions.KEYWORD in self.features:
             request.paragraph = True
             node_features.inc({"type": "paragraphs"})
+    async def select_query_vectorset(self) -> Optional[str]:
+        """Set and return the requested vectorset parameter (if used) validated
+        for the current KB.
+        """
+        if not self.vectorset:
+            return None
+        # validate vectorset
+        async with datamanagers.with_ro_transaction() as txn:
+            if not await datamanagers.vectorsets.exists(
+                txn, kbid=self.kbid, vectorset_id=self.vectorset
+            ):
+                raise InvalidQueryError(
+                    "vectorset",
+                    f"Vectorset {self.vectorset} doesn't exist in you Knowledge Box",
+                )
+        return self.vectorset
     async def parse_vector_search(self, request: nodereader_pb2.SearchRequest) -> bool:
         if not self.has_vector_search:
             return False
@@ -389,6 +453,11 @@ class QueryParser:
         node_features.inc({"type": "vectors"})
         incomplete = False
+        vectorset = await self._select_vectorset()
+        if vectorset is not None:
+            request.vectorset = vectorset
         query_vector = None
         if self.user_vector is None:
             try:
@@ -398,11 +467,24 @@ class QueryParser:
                 incomplete = True
             else:
                 if query_info and query_info.sentence:
-                    query_vector = query_info.sentence.data
+                    if vectorset:
+                        if vectorset in query_info.sentence.vectors:
+                            query_vector = query_info.sentence.vectors[vectorset]
+                        else:
+                            incomplete = True
+                    else:
+                        for vectorset_id, vector in query_info.sentence.vectors.items():
+                            if vector:
+                                query_vector = vector
+                                break
+                        else:
+                            incomplete = True
                 else:
                     incomplete = True
         else:
             query_vector = self.user_vector
         if query_vector is not None:
             matryoshka_dimension = await self._get_matryoshka_dimension()
             if matryoshka_dimension is not None:
@@ -410,11 +492,10 @@ class QueryParser:
                 # accordingly
                 query_vector = query_vector[:matryoshka_dimension]
             request.vector.extend(query_vector)
         return incomplete
-    async def parse_relation_search(
-        self, request: nodereader_pb2.SearchRequest
-    ) -> list[str]:
+    async def parse_relation_search(self, request: nodereader_pb2.SearchRequest) -> list[str]:
         autofilters = []
         if self.has_relations_search or self.autofilter:
             if not self.query_endpoint_used:
@@ -422,9 +503,7 @@ class QueryParser:
             else:
                 query_info_result = await self._get_query_information()
                 if query_info_result.entities:
-                    detected_entities = convert_relations(
-                        query_info_result.entities.dict()
-                    )
+                    detected_entities = convert_relations(query_info_result.entities.model_dump())
                 else:
                     detected_entities = []
             meta_cache = await self._get_entities_meta_cache()
@@ -432,9 +511,7 @@ class QueryParser:
             if self.has_relations_search:
                 request.relation_subgraph.entry_points.extend(detected_entities)
                 request.relation_subgraph.depth = 1
-                request.relation_subgraph.deleted_groups.extend(
-                    await self._get_deleted_entity_groups()
-                )
+                request.relation_subgraph.deleted_groups.extend(await self._get_deleted_entity_groups())
                 for group_id, deleted_entities in meta_cache.deleted_entities.items():
                     request.relation_subgraph.deleted_entities.append(
                         nodereader_pb2.EntitiesSubgraphRequest.DeletedEntities(
@@ -444,13 +521,21 @@ class QueryParser:
                 node_features.inc({"type": "relations"})
             if self.autofilter:
                 entity_filters = parse_entities_to_filters(request, detected_entities)
-                autofilters.extend(
-                    [translate_system_to_alias_label(e) for e in entity_filters]
-                )
+                autofilters.extend([translate_system_to_alias_label(e) for e in entity_filters])
         return autofilters
     async def parse_synonyms(self, request: nodereader_pb2.SearchRequest) -> None:
-        if not self.with_synonyms:
+        """
+        Replace the terms in the query with an expression that will make it match with the configured synonyms.
+        We're using the Tantivy's query language here: https://docs.rs/tantivy/latest/tantivy/query/struct.QueryParser.html
+        Example:
+        - Synonyms: Foo -> Bar, Baz
+        - Query: "What is Foo?"
+        - Advanced Query: "What is (Foo OR Bar OR Baz)?"
+        """
+        if not self.with_synonyms or not self.query:
+            # Nothing to do
             return
         if self.has_vector_search or self.has_relations_search:
@@ -459,27 +544,32 @@ class QueryParser:
                 "Search with custom synonyms is only supported on paragraph and document search",
             )
-        if not self.query:
-            # Nothing to do
-            return
         synonyms = await self._get_synomyns()
         if synonyms is None:
             # No synonyms found
             return
-        synonyms_found: list[str] = []
-        advanced_query = []
-        for term in self.query.split(" "):
-            advanced_query.append(term)
-            term_synonyms = synonyms.terms.get(term)
-            if term_synonyms is None or len(term_synonyms.synonyms) == 0:
-                # No synonyms found for this term
-                continue
-            synonyms_found.extend(term_synonyms.synonyms)
-        if len(synonyms_found):
-            request.advanced_query = " OR ".join(advanced_query + synonyms_found)
+        # Calculate term variants: 'term' -> '(term OR synonym1 OR synonym2)'
+        variants: dict[str, str] = {}
+        for term, term_synonyms in synonyms.terms.items():
+            if len(term_synonyms.synonyms) > 0:
+                variants[term] = "({})".format(" OR ".join([term] + list(term_synonyms.synonyms)))
+        # Split the query into terms
+        query_terms = self.query.split()
+        # Remove punctuation from the query terms
+        clean_query_terms = [term.strip(string.punctuation) for term in query_terms]
+        # Replace the original terms with the variants if the cleaned term is in the variants
+        term_with_synonyms_found = False
+        for index, clean_term in enumerate(clean_query_terms):
+            if clean_term in variants:
+                term_with_synonyms_found = True
+                query_terms[index] = query_terms[index].replace(clean_term, variants[clean_term])
+        if term_with_synonyms_found:
+            request.advanced_query = " ".join(query_terms)
             request.ClearField("body")
     async def get_visual_llm_enabled(self) -> bool:
@@ -501,17 +591,41 @@ class QueryParser:
             return self.max_tokens.answer
         return None
+    async def adjust_page_size(
+        self,
+        request: nodereader_pb2.SearchRequest,
+        rank_fusion: Optional[RankFusionAlgorithm],
+        reranker: Optional[Reranker],
+    ):
+        """Adjust requested page size depending on rank fusion and reranking algorithms.
+        Some rerankers want more results than the requested by the user so
+        reranking can have more choices.
+        """
+        rank_fusion_window = 0
+        if rank_fusion is not None:
+            rank_fusion_window = rank_fusion.window
+        reranker_window = 0
+        if reranker is not None:
+            reranker_window = reranker.window or 0
+        request.result_per_page = max(
+            request.result_per_page,
+            rank_fusion_window,
+            reranker_window,
+        )
 async def paragraph_query_to_pb(
     kbid: str,
-    features: list[SearchOptions],
     rid: str,
     query: str,
     fields: list[str],
     filters: list[str],
     faceted: list[str],
-    page_number: int,
-    page_size: int,
+    top_k: int,
     range_creation_start: Optional[datetime] = None,
     range_creation_end: Optional[datetime] = None,
     range_modification_start: Optional[datetime] = None,
@@ -519,13 +633,37 @@ async def paragraph_query_to_pb(
     sort: Optional[str] = None,
     sort_ord: str = SortOrder.DESC.value,
     with_duplicates: bool = False,
-) -> nodereader_pb2.ParagraphSearchRequest:
-    request = nodereader_pb2.ParagraphSearchRequest()
-    request.with_duplicates = with_duplicates
+) -> nodereader_pb2.SearchRequest:
+    request = nodereader_pb2.SearchRequest()
+    request.paragraph = True
     # We need to ask for all and cut later
     request.page_number = 0
-    request.result_per_page = page_number * page_size + page_size
+    request.result_per_page = top_k
+    request.body = query
+    # we don't have a specific filter only for resource_ids but key_filters
+    # parse "rid" and "rid/field" like ids, so it does the job
+    request.key_filters.append(rid)
+    if len(filters) > 0:
+        field_labels = filters
+        paragraph_labels: list[str] = []
+        if has_classification_label_filters(filters):
+            classification_labels = await get_classification_labels(kbid)
+            field_labels, paragraph_labels = split_labels_by_type(filters, classification_labels)
+        request.filter.field_labels.extend(field_labels)
+        request.filter.paragraph_labels.extend(paragraph_labels)
+    request.faceted.labels.extend([translate_label(facet) for facet in faceted])
+    request.fields.extend(fields)
+    if sort:
+        request.order.field = sort
+        request.order.type = sort_ord  # type: ignore
+    request.with_duplicates = with_duplicates
     if range_creation_start is not None:
         request.timestamps.from_created.FromDatetime(range_creation_start)
@@ -539,26 +677,6 @@ async def paragraph_query_to_pb(
     if range_modification_end is not None:
         request.timestamps.to_modified.FromDatetime(range_modification_end)
-    if SearchOptions.PARAGRAPH in features:
-        request.uuid = rid
-        request.body = query
-        if len(filters) > 0:
-            field_labels = filters
-            paragraph_labels: list[str] = []
-            if has_classification_label_filters(filters):
-                classification_labels = await get_classification_labels(kbid)
-                field_labels, paragraph_labels = split_labels_by_type(
-                    filters, classification_labels
-                )
-            request.filter.field_labels.extend(field_labels)
-            request.filter.paragraph_labels.extend(paragraph_labels)
-        request.faceted.labels.extend([translate_label(facet) for facet in faceted])
-        if sort:
-            request.order.field = sort
-            request.order.type = sort_ord  # type: ignore
-        request.fields.extend(fields)
     return request
@@ -566,11 +684,13 @@ async def paragraph_query_to_pb(
 async def query_information(
     kbid: str,
     query: str,
+    semantic_model: Optional[str],
     generative_model: Optional[str] = None,
     rephrase: bool = False,
+    rephrase_prompt: Optional[str] = None,
 ) -> QueryInfo:
     predict = get_predict()
-    return await predict.query(kbid, query, generative_model, rephrase)
+    return await predict.query(kbid, query, semantic_model, generative_model, rephrase, rephrase_prompt)
 @query_parse_dependency_observer.wrap({"type": "detect_entities"})
@@ -610,9 +730,7 @@ def expand_entities(
                 )
         if entity.value in duplicated_entities_by_value[entity.subtype]:
-            source_duplicate = duplicated_entities_by_value[entity.subtype][
-                entity.value
-            ]
+            source_duplicate = duplicated_entities_by_value[entity.subtype][entity.value]
             result_entities[source_duplicate] = utils_pb2.RelationNode(
                 ntype=utils_pb2.RelationNode.NodeType.ENTITY,
                 subtype=entity.subtype,
@@ -651,10 +769,10 @@ def parse_entities_to_filters(
         # So far, autofilters feature will only yield 'and' expressions with the detected entities.
         # More complex autofilters can be added here if we leverage the query endpoint.
         expanded_expression = {"and": [{"literal": entity} for entity in added_filters]}
-        if request.filter.expression:
-            expression = json.loads(request.filter.expression)
+        if request.filter.labels_expression:
+            expression = json.loads(request.filter.labels_expression)
             expanded_expression["and"].append(expression)
-        request.filter.expression = json.dumps(expanded_expression)
+        request.filter.labels_expression = json.dumps(expanded_expression)
     return added_filters
@@ -668,6 +786,7 @@ def suggest_query_to_pb(
     range_creation_end: Optional[datetime] = None,
     range_modification_start: Optional[datetime] = None,
     range_modification_end: Optional[datetime] = None,
+    hidden: Optional[bool] = None,
 ) -> nodereader_pb2.SuggestRequest:
     request = nodereader_pb2.SuggestRequest()
@@ -677,10 +796,21 @@ def suggest_query_to_pb(
     if SuggestOptions.PARAGRAPH in features:
         request.features.append(nodereader_pb2.SuggestFeatures.PARAGRAPHS)
-        filters = [translate_label(fltr) for fltr in filters]
-        request.filter.field_labels.extend(filters)
         request.fields.extend(fields)
+        if hidden is not None:
+            if hidden:
+                filters.append(Filter(all=[LABEL_HIDDEN]))  # type: ignore
+            else:
+                filters.append(Filter(none=[LABEL_HIDDEN]))  # type: ignore
+        expression = convert_to_node_filters(filters)
+        if expression:
+            expression = translate_label_filters(expression)
+        request.filter.field_labels.extend(flatten_filter_literals(expression))
+        request.filter.labels_expression = json.dumps(expression)
     if range_creation_start is not None:
         request.timestamps.from_created.FromDatetime(range_creation_start)
     if range_creation_end is not None:
@@ -705,28 +835,26 @@ PROCESSING_STATUS_TO_PB_MAP = {
 @query_parse_dependency_observer.wrap({"type": "synonyms"})
 async def get_kb_synonyms(kbid: str) -> Optional[knowledgebox_pb2.Synonyms]:
-    txn = await get_read_only_transaction()
-    return await datamanagers.synonyms.get(txn, kbid=kbid)
+    async with get_driver().transaction(read_only=True) as txn:
+        return await datamanagers.synonyms.get(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "entities_meta_cache"})
 async def get_entities_meta_cache(kbid: str) -> datamanagers.entities.EntitiesMetaCache:
-    txn = await get_read_only_transaction()
-    return await datamanagers.entities.get_entities_meta_cache(txn, kbid=kbid)
+    async with get_driver().transaction(read_only=True) as txn:
+        return await datamanagers.entities.get_entities_meta_cache(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "deleted_entities_groups"})
 async def get_deleted_entity_groups(kbid: str) -> list[str]:
-    txn = await get_read_only_transaction()
-    return list(
-        (await datamanagers.entities.get_deleted_groups(txn, kbid=kbid)).entities_groups
-    )
+    async with get_driver().transaction(read_only=True) as txn:
+        return list((await datamanagers.entities.get_deleted_groups(txn, kbid=kbid)).entities_groups)
 @query_parse_dependency_observer.wrap({"type": "classification_labels"})
 async def get_classification_labels(kbid: str) -> knowledgebox_pb2.Labels:
-    txn = await get_read_only_transaction()
-    return await datamanagers.labels.get_labels(txn, kbid=kbid)
+    async with get_driver().transaction(read_only=True) as txn:
+        return await datamanagers.labels.get_labels(txn, kbid=kbid)
 def check_supported_filters(filters: dict[str, Any], paragraph_labels: list[str]):
@@ -745,8 +873,16 @@ def check_supported_filters(filters: dict[str, Any], paragraph_labels: list[str]
             "Paragraph labels can only be used with 'all' filter",
         )
     for term in filters["and"]:
-        # Nested expressions are not allowed with paragraph labels
-        if "literal" not in term:
+        # Nested expressions are not allowed with paragraph labels (only "literal" and "not(literal)")
+        if "not" in term:
+            subterm = term["not"]
+            if "literal" not in subterm:
+                # AND (NOT( X )) where X is anything other than a literal
+                raise InvalidQueryError(
+                    "filters",
+                    "Paragraph labels can only be used with 'all' filter",
+                )
+        elif "literal" not in term:
             raise InvalidQueryError(
                 "filters",
                 "Paragraph labels can only be used with 'all' filter",
@@ -754,12 +890,31 @@ def check_supported_filters(filters: dict[str, Any], paragraph_labels: list[str]
 @alru_cache(maxsize=None)
-async def get_matryoshka_dimension_cached(kbid: str) -> Optional[int]:
+async def get_matryoshka_dimension_cached(kbid: str, vectorset: Optional[str]) -> Optional[int]:
     # This can be safely cached as the matryoshka dimension is not expected to change
-    return await get_matryoshka_dimension(kbid)
+    return await get_matryoshka_dimension(kbid, vectorset)
 @query_parse_dependency_observer.wrap({"type": "matryoshka_dimension"})
-async def get_matryoshka_dimension(kbid: str) -> Optional[int]:
-    txn = await get_read_only_transaction()
-    return await datamanagers.kb.get_matryoshka_vector_dimension(txn, kbid=kbid)
+async def get_matryoshka_dimension(kbid: str, vectorset: Optional[str]) -> Optional[int]:
+    async with get_driver().transaction(read_only=True) as txn:
+        matryoshka_dimension = None
+        if not vectorset:
+            # XXX this should be migrated once we remove the "default" vectorset
+            # concept
+            matryoshka_dimension = await datamanagers.kb.get_matryoshka_vector_dimension(txn, kbid=kbid)
+        else:
+            vectorset_config = await datamanagers.vectorsets.get(txn, kbid=kbid, vectorset_id=vectorset)
+            if vectorset_config is not None and vectorset_config.vectorset_index_config.vector_dimension:
+                matryoshka_dimension = vectorset_config.vectorset_index_config.vector_dimension
+        return matryoshka_dimension
+def get_sort_field_proto(obj: SortField) -> Optional[nodereader_pb2.OrderBy.OrderField.ValueType]:
+    return {
+        SortField.SCORE: None,
+        SortField.CREATED: nodereader_pb2.OrderBy.OrderField.CREATED,
+        SortField.MODIFIED: nodereader_pb2.OrderBy.OrderField.MODIFIED,
+        SortField.TITLE: None,
+    }[obj]

nucliadb 4.0.0.post542__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 4.0.0.post542py3-none-any.whl → 6.2.1.post2777py3-none-any.whl