PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/search/search/query.py CHANGED Viewed

@@ -19,24 +19,19 @@
 #
 import asyncio
 import json
+import string
 from datetime import datetime
 from typing import Any, Awaitable, Optional, Union
 from async_lru import alru_cache
-from nucliadb_protos.noderesources_pb2 import Resource
 from nucliadb.common import datamanagers
-from nucliadb.ingest.orm.synonyms import Synonyms
-from nucliadb.middleware.transaction import get_read_only_transaction
+from nucliadb.common.maindb.utils import get_driver
 from nucliadb.search import logger
-from nucliadb.search.predict import (
-    PredictVectorMissing,
-    SendToPredictError,
-    convert_relations,
-)
+from nucliadb.search.predict import SendToPredictError, convert_relations
 from nucliadb.search.search.filters import (
     convert_to_node_filters,
-    flat_filter_labels,
+    flatten_filter_literals,
     has_classification_label_filters,
     split_labels_by_type,
     translate_label,
@@ -46,27 +41,30 @@ from nucliadb.search.search.metrics import (
     node_features,
     query_parse_dependency_observer,
 )
+from nucliadb.search.search.rank_fusion import (
+    RankFusionAlgorithm,
+)
+from nucliadb.search.search.rerankers import (
+    Reranker,
+)
 from nucliadb.search.utilities import get_predict
-from nucliadb_models.labels import translate_system_to_alias_label
+from nucliadb_models.internal.predict import QueryInfo
+from nucliadb_models.labels import LABEL_HIDDEN, translate_system_to_alias_label
 from nucliadb_models.metadata import ResourceProcessingStatus
 from nucliadb_models.search import (
     Filter,
+    MaxTokens,
     MinScore,
-    QueryInfo,
     SearchOptions,
-    SentenceSearch,
     SortField,
-    SortFieldMap,
     SortOptions,
     SortOrder,
     SortOrderMap,
     SuggestOptions,
-    TokenSearch,
 )
 from nucliadb_models.security import RequestSecurity
 from nucliadb_protos import knowledgebox_pb2, nodereader_pb2, utils_pb2
-from nucliadb_utils import const
-from nucliadb_utils.utilities import has_feature
+from nucliadb_protos.noderesources_pb2 import Resource
 from .exceptions import InvalidQueryError
@@ -75,6 +73,8 @@ INDEX_SORTABLE_FIELDS = [
     SortField.MODIFIED,
 ]
+DEFAULT_GENERIC_SEMANTIC_THRESHOLD = 0.7
 class QueryParser:
     """
@@ -86,14 +86,14 @@ class QueryParser:
     query parsing.
     """
-    _min_score_task: Optional[asyncio.Task] = None
     _query_information_task: Optional[asyncio.Task] = None
-    _convert_vectors_task: Optional[asyncio.Task] = None
+    _get_vectorset_task: Optional[asyncio.Task] = None
     _detected_entities_task: Optional[asyncio.Task] = None
     _entities_meta_cache_task: Optional[asyncio.Task] = None
     _deleted_entities_groups_task: Optional[asyncio.Task] = None
     _synonyms_task: Optional[asyncio.Task] = None
     _get_classification_labels_task: Optional[asyncio.Task] = None
+    _get_matryoshka_dimension_task: Optional[asyncio.Task] = None
     def __init__(
         self,
@@ -101,9 +101,9 @@ class QueryParser:
         kbid: str,
         features: list[SearchOptions],
         query: str,
-        filters: Union[list[str], list[Filter]],
-        page_number: int,
-        page_size: int,
+        label_filters: Union[list[str], list[Filter]],
+        keyword_filters: Union[list[str], list[Filter]],
+        top_k: int,
         min_score: MinScore,
         faceted: Optional[list[str]] = None,
         sort: Optional[SortOptions] = None,
@@ -121,16 +121,28 @@ class QueryParser:
         key_filters: Optional[list[str]] = None,
         security: Optional[RequestSecurity] = None,
         generative_model: Optional[str] = None,
-        rephrase: Optional[bool] = False,
+        rephrase: bool = False,
+        rephrase_prompt: Optional[str] = None,
+        max_tokens: Optional[MaxTokens] = None,
+        hidden: Optional[bool] = None,
+        rank_fusion: Optional[RankFusionAlgorithm] = None,
+        reranker: Optional[Reranker] = None,
     ):
         self.kbid = kbid
         self.features = features
         self.query = query
-        self.filters: dict[str, Any] = convert_to_node_filters(filters)
-        self.flat_filter_labels: list[str] = []
+        self.hidden = hidden
+        if self.hidden is not None:
+            if self.hidden:
+                label_filters.append(Filter(all=[LABEL_HIDDEN]))  # type: ignore
+            else:
+                label_filters.append(Filter(none=[LABEL_HIDDEN]))  # type: ignore
+        self.label_filters: dict[str, Any] = convert_to_node_filters(label_filters)
+        self.flat_label_filters: list[str] = []
+        self.keyword_filters: dict[str, Any] = convert_to_node_filters(keyword_filters)
         self.faceted = faceted or []
-        self.page_number = page_number
-        self.page_size = page_size
+        self.top_k = top_k
         self.min_score = min_score
         self.sort = sort
         self.range_creation_start = range_creation_start
@@ -148,65 +160,81 @@ class QueryParser:
         self.security = security
         self.generative_model = generative_model
         self.rephrase = rephrase
-        self.query_endpoint_enabled = has_feature(
-            const.Features.PREDICT_QUERY_ENDPOINT,
-            default=False,
-            context={"kbid": self.kbid},
+        self.rephrase_prompt = rephrase_prompt
+        self.query_endpoint_used = False
+        if len(self.label_filters) > 0:
+            self.label_filters = translate_label_filters(self.label_filters)
+            self.flat_label_filters = flatten_filter_literals(self.label_filters)
+        self.max_tokens = max_tokens
+        self.rank_fusion = rank_fusion
+        self.reranker = reranker
+    @property
+    def has_vector_search(self) -> bool:
+        return SearchOptions.SEMANTIC in self.features
+    @property
+    def has_relations_search(self) -> bool:
+        return SearchOptions.RELATIONS in self.features
+    def _get_query_information(self) -> Awaitable[QueryInfo]:
+        if self._query_information_task is None:  # pragma: no cover
+            self._query_information_task = asyncio.create_task(self._query_information())
+        return self._query_information_task
+    async def _query_information(self) -> QueryInfo:
+        vectorset = await self.select_query_vectorset()
+        return await query_information(
+            self.kbid, self.query, vectorset, self.generative_model, self.rephrase, self.rephrase_prompt
         )
-        if len(self.filters) > 0:
-            self.filters = translate_label_filters(self.filters)
-            self.flat_filter_labels = flat_filter_labels(self.filters)
+    def _get_vectorset(self) -> Awaitable[Optional[str]]:
+        if self._get_vectorset_task is None:
+            self._get_vectorset_task = asyncio.create_task(self._select_vectorset())
+        return self._get_vectorset_task
-    def _get_default_semantic_min_score(self) -> Awaitable[float]:
-        if self._min_score_task is None:  # pragma: no cover
-            self._min_score_task = asyncio.create_task(
-                get_default_semantic_min_score(self.kbid)
-            )
-        return self._min_score_task
+    async def _select_vectorset(self) -> Optional[str]:
+        if self.vectorset:
+            return self.vectorset
-    def _get_converted_vectors(self) -> Awaitable[list[float]]:
-        if self._convert_vectors_task is None:  # pragma: no cover
-            self._convert_vectors_task = asyncio.create_task(
-                convert_vectors(self.kbid, self.query)
-            )
-        return self._convert_vectors_task
+        # When vectorset is not provided we get the default from Predict API
-    def _get_query_information(self) -> Awaitable[QueryInfo]:
-        if self.query_endpoint_enabled is False:
-            # XXX Can be removed once query endpoint is fully enabled
-            async def static_query():
-                return QueryInfo(
-                    visual_llm=False,
-                    max_context=300_000,
-                    entities=TokenSearch(tokens=[], time=0.0),
-                    sentence=SentenceSearch(data=[], time=0.0),
-                    query=self.query,
-                )
+        try:
+            query_information = await self._get_query_information()
+        except SendToPredictError:
+            return None
-            return static_query()
-        if self._query_information_task is None:  # pragma: no cover
-            self._query_information_task = asyncio.create_task(
-                query_information(
-                    self.kbid, self.query, self.generative_model, self.rephrase
-                )
+        if query_information.sentence is None:
+            logger.error(
+                "Asking for a vectorset but /query didn't return one", extra={"kbid": self.kbid}
             )
-        return self._query_information_task
+            return None
+        for vectorset in query_information.sentence.vectors.keys():
+            self.vectorset = vectorset
+            break
+        return self.vectorset
+    def _get_matryoshka_dimension(self) -> Awaitable[Optional[int]]:
+        if self._get_matryoshka_dimension_task is None:
+            self._get_matryoshka_dimension_task = asyncio.create_task(self._matryoshka_dimension())
+        return self._get_matryoshka_dimension_task
+    async def _matryoshka_dimension(self) -> Optional[int]:
+        vectorset = await self._select_vectorset()
+        return await get_matryoshka_dimension_cached(self.kbid, vectorset)
     def _get_detected_entities(self) -> Awaitable[list[utils_pb2.RelationNode]]:
         if self._detected_entities_task is None:  # pragma: no cover
-            self._detected_entities_task = asyncio.create_task(
-                detect_entities(self.kbid, self.query)
-            )
+            self._detected_entities_task = asyncio.create_task(detect_entities(self.kbid, self.query))
         return self._detected_entities_task
     def _get_entities_meta_cache(
         self,
     ) -> Awaitable[datamanagers.entities.EntitiesMetaCache]:
         if self._entities_meta_cache_task is None:
-            self._entities_meta_cache_task = asyncio.create_task(
-                get_entities_meta_cache(self.kbid)
-            )
+            self._entities_meta_cache_task = asyncio.create_task(get_entities_meta_cache(self.kbid))
         return self._entities_meta_cache_task
     def _get_deleted_entity_groups(self) -> Awaitable[list[str]]:
@@ -233,28 +261,17 @@ class QueryParser:
         This will schedule concurrent tasks for different data that needs to be pulled
         for the sake of the query being performed
         """
-        if len(self.filters) > 0 and has_classification_label_filters(
-            self.flat_filter_labels
-        ):
+        if len(self.label_filters) > 0 and has_classification_label_filters(self.flat_label_filters):
             asyncio.ensure_future(self._get_classification_labels())
-        if self.min_score.semantic is None:
-            asyncio.ensure_future(self._get_default_semantic_min_score())
-        if SearchOptions.VECTOR in self.features and self.user_vector is None:
-            if self.query_endpoint_enabled:
-                asyncio.ensure_future(self._get_query_information())
-            else:
-                asyncio.ensure_future(self._get_converted_vectors())
-        if (SearchOptions.RELATIONS in self.features or self.autofilter) and len(
-            self.query
-        ) > 0:
-            if (
-                not self.query_endpoint_enabled
-                or SearchOptions.VECTOR not in self.features
-                or self.user_vector is not None
-            ):
-                self.query_endpoint_enabled = False
+        if self.has_vector_search and self.user_vector is None:
+            self.query_endpoint_used = True
+            asyncio.ensure_future(self._get_query_information())
+            asyncio.ensure_future(self._get_matryoshka_dimension())
+        if (self.has_relations_search or self.autofilter) and len(self.query) > 0:
+            if not self.query_endpoint_used:
+                # If we only need to detect entities, we don't need the query endpoint
                 asyncio.ensure_future(self._get_detected_entities())
             asyncio.ensure_future(self._get_entities_meta_cache())
             asyncio.ensure_future(self._get_deleted_entity_groups())
@@ -273,6 +290,8 @@ class QueryParser:
         request.body = self.query
         request.with_duplicates = self.with_duplicates
+        self.parse_sorting(request)
         await self._schedule_dependency_tasks()
         await self.parse_filters(request)
@@ -281,30 +300,29 @@ class QueryParser:
         incomplete = await self.parse_vector_search(request)
         autofilters = await self.parse_relation_search(request)
         await self.parse_synonyms(request)
-        self.parse_sorting(request)
-        await self.parse_min_score(request)
+        await self.parse_min_score(request, incomplete)
+        await self.adjust_page_size(request, self.rank_fusion, self.reranker)
         return request, incomplete, autofilters
     async def parse_filters(self, request: nodereader_pb2.SearchRequest) -> None:
-        if len(self.filters) > 0:
-            field_labels = self.flat_filter_labels
+        if len(self.label_filters) > 0:
+            field_labels = self.flat_label_filters
             paragraph_labels: list[str] = []
-            if has_classification_label_filters(self.flat_filter_labels):
+            if has_classification_label_filters(self.flat_label_filters):
                 classification_labels = await self._get_classification_labels()
                 field_labels, paragraph_labels = split_labels_by_type(
-                    self.flat_filter_labels, classification_labels
+                    self.flat_label_filters, classification_labels
                 )
-                check_supported_filters(self.filters, paragraph_labels)
+                check_supported_filters(self.label_filters, paragraph_labels)
             request.filter.field_labels.extend(field_labels)
             request.filter.paragraph_labels.extend(paragraph_labels)
-            request.filter.expression = json.dumps(self.filters)
+            request.filter.labels_expression = json.dumps(self.label_filters)
-        request.faceted.labels.extend(
-            [translate_label(facet) for facet in self.faceted]
-        )
+        if len(self.keyword_filters) > 0:
+            request.filter.keywords_expression = json.dumps(self.keyword_filters)
+        request.faceted.labels.extend([translate_label(facet) for facet in self.faceted])
         request.fields.extend(self.fields)
         if self.security is not None and len(self.security.groups) > 0:
@@ -354,9 +372,7 @@ class QueryParser:
                     order=SortOrder.DESC,
                     limit=None,
                 )
-            elif (
-                self.sort.field not in INDEX_SORTABLE_FIELDS and self.sort.limit is None
-            ):
+            elif self.sort.field not in INDEX_SORTABLE_FIELDS and self.sort.limit is None:
                 raise InvalidQueryError(
                     "sort_field",
                     f"Sort by '{self.sort.field}' requires setting a sort limit",
@@ -369,95 +385,133 @@ class QueryParser:
             # have consistent results, we must limit them
             request.result_per_page = self.sort.limit
         else:
-            request.result_per_page = self.page_number * self.page_size + self.page_size
+            request.result_per_page = self.top_k
-        sort_field = SortFieldMap[self.sort.field] if self.sort else None
+        sort_field = get_sort_field_proto(self.sort.field) if self.sort else None
         if sort_field is not None:
             request.order.sort_by = sort_field
             request.order.type = SortOrderMap[self.sort.order]  # type: ignore
-    async def parse_min_score(self, request: nodereader_pb2.SearchRequest) -> None:
-        if self.min_score.semantic is None:
-            self.min_score.semantic = await self._get_default_semantic_min_score()
+    async def parse_min_score(self, request: nodereader_pb2.SearchRequest, incomplete: bool) -> None:
+        semantic_min_score = DEFAULT_GENERIC_SEMANTIC_THRESHOLD
+        if self.min_score.semantic is not None:
+            semantic_min_score = self.min_score.semantic
+        elif self.has_vector_search and not incomplete:
+            query_information = await self._get_query_information()
+            vectorset = await self._select_vectorset()
+            if vectorset is not None:
+                semantic_threshold = query_information.semantic_thresholds.get(vectorset, None)
+                if semantic_threshold is not None:
+                    semantic_min_score = semantic_threshold
+                else:
+                    logger.warning(
+                        "Semantic threshold not found in query information, using default",
+                        extra={"kbid": self.kbid},
+                    )
+            else:
+                logger.warning(
+                    "Vectorset unset by user or predict, using default semantic threshold",
+                    extra={"kbid": self.kbid},
+                )
+        self.min_score.semantic = semantic_min_score
         request.min_score_semantic = self.min_score.semantic
         request.min_score_bm25 = self.min_score.bm25
     def parse_document_search(self, request: nodereader_pb2.SearchRequest) -> None:
-        if SearchOptions.DOCUMENT in self.features:
+        if SearchOptions.FULLTEXT in self.features:
             request.document = True
             node_features.inc({"type": "documents"})
     def parse_paragraph_search(self, request: nodereader_pb2.SearchRequest) -> None:
-        if SearchOptions.PARAGRAPH in self.features:
+        if SearchOptions.KEYWORD in self.features:
             request.paragraph = True
             node_features.inc({"type": "paragraphs"})
+    async def select_query_vectorset(self) -> Optional[str]:
+        """Set and return the requested vectorset parameter (if used) validated
+        for the current KB.
+        """
+        if not self.vectorset:
+            return None
+        # validate vectorset
+        async with datamanagers.with_ro_transaction() as txn:
+            if not await datamanagers.vectorsets.exists(
+                txn, kbid=self.kbid, vectorset_id=self.vectorset
+            ):
+                raise InvalidQueryError(
+                    "vectorset",
+                    f"Vectorset {self.vectorset} doesn't exist in you Knowledge Box",
+                )
+        return self.vectorset
     async def parse_vector_search(self, request: nodereader_pb2.SearchRequest) -> bool:
-        if SearchOptions.VECTOR not in self.features:
+        if not self.has_vector_search:
             return False
         node_features.inc({"type": "vectors"})
         incomplete = False
-        if self.vectorset is not None:
-            request.vectorset = self.vectorset
-            node_features.inc({"type": "vectorset"})
+        vectorset = await self._select_vectorset()
+        if vectorset is not None:
+            request.vectorset = vectorset
+        query_vector = None
         if self.user_vector is None:
-            if self.query_endpoint_enabled:
-                try:
-                    query_info = await self._get_query_information()
-                    if query_info and query_info.sentence:
-                        request.vector.extend(query_info.sentence.data)
-                    else:
-                        incomplete = True
-                except SendToPredictError as err:
-                    logger.warning(
-                        f"Errors on predict api trying to embedd query: {err}"
-                    )
-                    incomplete = True
-                except PredictVectorMissing:
-                    logger.warning("Predict api returned an empty vector")
-                    incomplete = True
+            try:
+                query_info = await self._get_query_information()
+            except SendToPredictError as err:
+                logger.warning(f"Errors on predict api trying to embedd query: {err}")
+                incomplete = True
             else:
-                try:
-                    request.vector.extend(await self._get_converted_vectors())
-                except SendToPredictError as err:
-                    logger.warning(
-                        f"Errors on predict api trying to embedd query: {err}"
-                    )
-                    incomplete = True
-                except PredictVectorMissing:
-                    logger.warning("Predict api returned an empty vector")
+                if query_info and query_info.sentence:
+                    if vectorset:
+                        if vectorset in query_info.sentence.vectors:
+                            query_vector = query_info.sentence.vectors[vectorset]
+                        else:
+                            incomplete = True
+                    else:
+                        for vectorset_id, vector in query_info.sentence.vectors.items():
+                            if vector:
+                                query_vector = vector
+                                break
+                        else:
+                            incomplete = True
+                else:
                     incomplete = True
         else:
-            request.vector.extend(self.user_vector)
+            query_vector = self.user_vector
+        if query_vector is not None:
+            matryoshka_dimension = await self._get_matryoshka_dimension()
+            if matryoshka_dimension is not None:
+                # KB using a matryoshka embeddings model, cut the query vector
+                # accordingly
+                query_vector = query_vector[:matryoshka_dimension]
+            request.vector.extend(query_vector)
         return incomplete
-    async def parse_relation_search(
-        self, request: nodereader_pb2.SearchRequest
-    ) -> list[str]:
+    async def parse_relation_search(self, request: nodereader_pb2.SearchRequest) -> list[str]:
         autofilters = []
-        relations_search = SearchOptions.RELATIONS in self.features
-        if relations_search or self.autofilter:
-            if not self.query_endpoint_enabled:
+        if self.has_relations_search or self.autofilter:
+            if not self.query_endpoint_used:
                 detected_entities = await self._get_detected_entities()
             else:
                 query_info_result = await self._get_query_information()
                 if query_info_result.entities:
-                    detected_entities = convert_relations(
-                        query_info_result.entities.dict()
-                    )
+                    detected_entities = convert_relations(query_info_result.entities.model_dump())
                 else:
                     detected_entities = []
             meta_cache = await self._get_entities_meta_cache()
             detected_entities = expand_entities(meta_cache, detected_entities)
-            if relations_search:
+            if self.has_relations_search:
                 request.relation_subgraph.entry_points.extend(detected_entities)
                 request.relation_subgraph.depth = 1
-                request.relation_subgraph.deleted_groups.extend(
-                    await self._get_deleted_entity_groups()
-                )
+                request.relation_subgraph.deleted_groups.extend(await self._get_deleted_entity_groups())
                 for group_id, deleted_entities in meta_cache.deleted_entities.items():
                     request.relation_subgraph.deleted_entities.append(
                         nodereader_pb2.EntitiesSubgraphRequest.DeletedEntities(
@@ -467,67 +521,111 @@ class QueryParser:
                 node_features.inc({"type": "relations"})
             if self.autofilter:
                 entity_filters = parse_entities_to_filters(request, detected_entities)
-                autofilters.extend(
-                    [translate_system_to_alias_label(e) for e in entity_filters]
-                )
+                autofilters.extend([translate_system_to_alias_label(e) for e in entity_filters])
         return autofilters
     async def parse_synonyms(self, request: nodereader_pb2.SearchRequest) -> None:
-        if not self.with_synonyms:
+        """
+        Replace the terms in the query with an expression that will make it match with the configured synonyms.
+        We're using the Tantivy's query language here: https://docs.rs/tantivy/latest/tantivy/query/struct.QueryParser.html
+        Example:
+        - Synonyms: Foo -> Bar, Baz
+        - Query: "What is Foo?"
+        - Advanced Query: "What is (Foo OR Bar OR Baz)?"
+        """
+        if not self.with_synonyms or not self.query:
+            # Nothing to do
             return
-        if (
-            SearchOptions.VECTOR in self.features
-            or SearchOptions.RELATIONS in self.features
-        ):
+        if self.has_vector_search or self.has_relations_search:
             raise InvalidQueryError(
                 "synonyms",
                 "Search with custom synonyms is only supported on paragraph and document search",
             )
-        if not self.query:
-            # Nothing to do
-            return
         synonyms = await self._get_synomyns()
         if synonyms is None:
             # No synonyms found
             return
-        synonyms_found: list[str] = []
-        advanced_query = []
-        for term in self.query.split(" "):
-            advanced_query.append(term)
-            term_synonyms = synonyms.terms.get(term)
-            if term_synonyms is None or len(term_synonyms.synonyms) == 0:
-                # No synonyms found for this term
-                continue
-            synonyms_found.extend(term_synonyms.synonyms)
-        if len(synonyms_found):
-            request.advanced_query = " OR ".join(advanced_query + synonyms_found)
+        # Calculate term variants: 'term' -> '(term OR synonym1 OR synonym2)'
+        variants: dict[str, str] = {}
+        for term, term_synonyms in synonyms.terms.items():
+            if len(term_synonyms.synonyms) > 0:
+                variants[term] = "({})".format(" OR ".join([term] + list(term_synonyms.synonyms)))
+        # Split the query into terms
+        query_terms = self.query.split()
+        # Remove punctuation from the query terms
+        clean_query_terms = [term.strip(string.punctuation) for term in query_terms]
+        # Replace the original terms with the variants if the cleaned term is in the variants
+        term_with_synonyms_found = False
+        for index, clean_term in enumerate(clean_query_terms):
+            if clean_term in variants:
+                term_with_synonyms_found = True
+                query_terms[index] = query_terms[index].replace(clean_term, variants[clean_term])
+        if term_with_synonyms_found:
+            request.advanced_query = " ".join(query_terms)
             request.ClearField("body")
     async def get_visual_llm_enabled(self) -> bool:
         return (await self._get_query_information()).visual_llm
-    async def get_max_context(self) -> int:
-        # Multiple by 3 is to have a good margin and guess
-        # between characters and tokens. This will be fully properly
-        # cut at the NUA API.
-        return (await self._get_query_information()).max_context * 3
+    async def get_max_tokens_context(self) -> int:
+        model_max = (await self._get_query_information()).max_context
+        if self.max_tokens is not None and self.max_tokens.context is not None:
+            if self.max_tokens.context > model_max:
+                raise InvalidQueryError(
+                    "max_tokens.context",
+                    f"Max context tokens is higher than the model's limit of {model_max}",
+                )
+            return self.max_tokens.context
+        return model_max
+    def get_max_tokens_answer(self) -> Optional[int]:
+        if self.max_tokens is not None and self.max_tokens.answer is not None:
+            return self.max_tokens.answer
+        return None
+    async def adjust_page_size(
+        self,
+        request: nodereader_pb2.SearchRequest,
+        rank_fusion: Optional[RankFusionAlgorithm],
+        reranker: Optional[Reranker],
+    ):
+        """Adjust requested page size depending on rank fusion and reranking algorithms.
+        Some rerankers want more results than the requested by the user so
+        reranking can have more choices.
+        """
+        rank_fusion_window = 0
+        if rank_fusion is not None:
+            rank_fusion_window = rank_fusion.window
+        reranker_window = 0
+        if reranker is not None:
+            reranker_window = reranker.window or 0
+        request.result_per_page = max(
+            request.result_per_page,
+            rank_fusion_window,
+            reranker_window,
+        )
 async def paragraph_query_to_pb(
     kbid: str,
-    features: list[SearchOptions],
     rid: str,
     query: str,
     fields: list[str],
     filters: list[str],
     faceted: list[str],
-    page_number: int,
-    page_size: int,
+    top_k: int,
     range_creation_start: Optional[datetime] = None,
     range_creation_end: Optional[datetime] = None,
     range_modification_start: Optional[datetime] = None,
@@ -535,13 +633,37 @@ async def paragraph_query_to_pb(
     sort: Optional[str] = None,
     sort_ord: str = SortOrder.DESC.value,
     with_duplicates: bool = False,
-) -> nodereader_pb2.ParagraphSearchRequest:
-    request = nodereader_pb2.ParagraphSearchRequest()
-    request.with_duplicates = with_duplicates
+) -> nodereader_pb2.SearchRequest:
+    request = nodereader_pb2.SearchRequest()
+    request.paragraph = True
     # We need to ask for all and cut later
     request.page_number = 0
-    request.result_per_page = page_number * page_size + page_size
+    request.result_per_page = top_k
+    request.body = query
+    # we don't have a specific filter only for resource_ids but key_filters
+    # parse "rid" and "rid/field" like ids, so it does the job
+    request.key_filters.append(rid)
+    if len(filters) > 0:
+        field_labels = filters
+        paragraph_labels: list[str] = []
+        if has_classification_label_filters(filters):
+            classification_labels = await get_classification_labels(kbid)
+            field_labels, paragraph_labels = split_labels_by_type(filters, classification_labels)
+        request.filter.field_labels.extend(field_labels)
+        request.filter.paragraph_labels.extend(paragraph_labels)
+    request.faceted.labels.extend([translate_label(facet) for facet in faceted])
+    request.fields.extend(fields)
+    if sort:
+        request.order.field = sort
+        request.order.type = sort_ord  # type: ignore
+    request.with_duplicates = with_duplicates
     if range_creation_start is not None:
         request.timestamps.from_created.FromDatetime(range_creation_start)
@@ -555,44 +677,20 @@ async def paragraph_query_to_pb(
     if range_modification_end is not None:
         request.timestamps.to_modified.FromDatetime(range_modification_end)
-    if SearchOptions.PARAGRAPH in features:
-        request.uuid = rid
-        request.body = query
-        if len(filters) > 0:
-            field_labels = filters
-            paragraph_labels: list[str] = []
-            if has_classification_label_filters(filters):
-                classification_labels = await get_classification_labels(kbid)
-                field_labels, paragraph_labels = split_labels_by_type(
-                    filters, classification_labels
-                )
-            request.filter.field_labels.extend(field_labels)
-            request.filter.paragraph_labels.extend(paragraph_labels)
-        request.faceted.labels.extend([translate_label(facet) for facet in faceted])
-        if sort:
-            request.order.field = sort
-            request.order.type = sort_ord  # type: ignore
-        request.fields.extend(fields)
     return request
-@query_parse_dependency_observer.wrap({"type": "convert_vectors"})
-async def convert_vectors(kbid: str, query: str) -> list[float]:
-    predict = get_predict()
-    return await predict.convert_sentence_to_vector(kbid, query)
 @query_parse_dependency_observer.wrap({"type": "query_information"})
 async def query_information(
     kbid: str,
     query: str,
+    semantic_model: Optional[str],
     generative_model: Optional[str] = None,
     rephrase: bool = False,
+    rephrase_prompt: Optional[str] = None,
 ) -> QueryInfo:
     predict = get_predict()
-    return await predict.query(kbid, query, generative_model, rephrase)
+    return await predict.query(kbid, query, semantic_model, generative_model, rephrase, rephrase_prompt)
 @query_parse_dependency_observer.wrap({"type": "detect_entities"})
@@ -632,9 +730,7 @@ def expand_entities(
                 )
         if entity.value in duplicated_entities_by_value[entity.subtype]:
-            source_duplicate = duplicated_entities_by_value[entity.subtype][
-                entity.value
-            ]
+            source_duplicate = duplicated_entities_by_value[entity.subtype][entity.value]
             result_entities[source_duplicate] = utils_pb2.RelationNode(
                 ntype=utils_pb2.RelationNode.NodeType.ENTITY,
                 subtype=entity.subtype,
@@ -667,13 +763,16 @@ def parse_entities_to_filters(
         if entity_filter not in request.filter.field_labels:
             request.filter.field_labels.append(entity_filter)
             added_filters.append(entity_filter)
     # We need to expand the filter expression with the automatically detected entities.
     if len(added_filters) > 0:
+        # So far, autofilters feature will only yield 'and' expressions with the detected entities.
+        # More complex autofilters can be added here if we leverage the query endpoint.
         expanded_expression = {"and": [{"literal": entity} for entity in added_filters]}
-        if request.filter.expression:
-            expression = json.loads(request.filter.expression)
-            expanded_expression["and"].extend(expression)
-        request.filter.expression = json.dumps(expanded_expression)
+        if request.filter.labels_expression:
+            expression = json.loads(request.filter.labels_expression)
+            expanded_expression["and"].append(expression)
+        request.filter.labels_expression = json.dumps(expanded_expression)
     return added_filters
@@ -687,6 +786,7 @@ def suggest_query_to_pb(
     range_creation_end: Optional[datetime] = None,
     range_modification_start: Optional[datetime] = None,
     range_modification_end: Optional[datetime] = None,
+    hidden: Optional[bool] = None,
 ) -> nodereader_pb2.SuggestRequest:
     request = nodereader_pb2.SuggestRequest()
@@ -696,10 +796,21 @@ def suggest_query_to_pb(
     if SuggestOptions.PARAGRAPH in features:
         request.features.append(nodereader_pb2.SuggestFeatures.PARAGRAPHS)
-        filters = [translate_label(fltr) for fltr in filters]
-        request.filter.field_labels.extend(filters)
         request.fields.extend(fields)
+        if hidden is not None:
+            if hidden:
+                filters.append(Filter(all=[LABEL_HIDDEN]))  # type: ignore
+            else:
+                filters.append(Filter(none=[LABEL_HIDDEN]))  # type: ignore
+        expression = convert_to_node_filters(filters)
+        if expression:
+            expression = translate_label_filters(expression)
+        request.filter.field_labels.extend(flatten_filter_literals(expression))
+        request.filter.labels_expression = json.dumps(expression)
     if range_creation_start is not None:
         request.timestamps.from_created.FromDatetime(range_creation_start)
     if range_creation_end is not None:
@@ -722,49 +833,28 @@ PROCESSING_STATUS_TO_PB_MAP = {
 }
-@query_parse_dependency_observer.wrap({"type": "min_score"})
-async def get_kb_model_default_min_score(kbid: str) -> Optional[float]:
-    txn = await get_read_only_transaction()
-    model = await datamanagers.kb.get_model_metadata(txn, kbid=kbid)
-    if model.HasField("default_min_score"):
-        return model.default_min_score
-    else:
-        return None
-@alru_cache(maxsize=None)
-async def get_default_semantic_min_score(kbid: str) -> float:
-    fallback = 0.7
-    model_min_score = await get_kb_model_default_min_score(kbid)
-    if model_min_score is not None:
-        return model_min_score
-    return fallback
 @query_parse_dependency_observer.wrap({"type": "synonyms"})
 async def get_kb_synonyms(kbid: str) -> Optional[knowledgebox_pb2.Synonyms]:
-    txn = await get_read_only_transaction()
-    return await Synonyms(txn, kbid).get()
+    async with get_driver().transaction(read_only=True) as txn:
+        return await datamanagers.synonyms.get(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "entities_meta_cache"})
 async def get_entities_meta_cache(kbid: str) -> datamanagers.entities.EntitiesMetaCache:
-    txn = await get_read_only_transaction()
-    return await datamanagers.entities.get_entities_meta_cache(txn, kbid=kbid)
+    async with get_driver().transaction(read_only=True) as txn:
+        return await datamanagers.entities.get_entities_meta_cache(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "deleted_entities_groups"})
 async def get_deleted_entity_groups(kbid: str) -> list[str]:
-    txn = await get_read_only_transaction()
-    return list(
-        (await datamanagers.entities.get_deleted_groups(txn, kbid=kbid)).entities_groups
-    )
+    async with get_driver().transaction(read_only=True) as txn:
+        return list((await datamanagers.entities.get_deleted_groups(txn, kbid=kbid)).entities_groups)
 @query_parse_dependency_observer.wrap({"type": "classification_labels"})
 async def get_classification_labels(kbid: str) -> knowledgebox_pb2.Labels:
-    txn = await get_read_only_transaction()
-    return await datamanagers.labels.get_labels(txn, kbid=kbid)
+    async with get_driver().transaction(read_only=True) as txn:
+        return await datamanagers.labels.get_labels(txn, kbid=kbid)
 def check_supported_filters(filters: dict[str, Any], paragraph_labels: list[str]):
@@ -783,9 +873,48 @@ def check_supported_filters(filters: dict[str, Any], paragraph_labels: list[str]
             "Paragraph labels can only be used with 'all' filter",
         )
     for term in filters["and"]:
-        # Nested expressions are not allowed with paragraph labels
-        if "literal" not in term:
+        # Nested expressions are not allowed with paragraph labels (only "literal" and "not(literal)")
+        if "not" in term:
+            subterm = term["not"]
+            if "literal" not in subterm:
+                # AND (NOT( X )) where X is anything other than a literal
+                raise InvalidQueryError(
+                    "filters",
+                    "Paragraph labels can only be used with 'all' filter",
+                )
+        elif "literal" not in term:
             raise InvalidQueryError(
                 "filters",
                 "Paragraph labels can only be used with 'all' filter",
             )
+@alru_cache(maxsize=None)
+async def get_matryoshka_dimension_cached(kbid: str, vectorset: Optional[str]) -> Optional[int]:
+    # This can be safely cached as the matryoshka dimension is not expected to change
+    return await get_matryoshka_dimension(kbid, vectorset)
+@query_parse_dependency_observer.wrap({"type": "matryoshka_dimension"})
+async def get_matryoshka_dimension(kbid: str, vectorset: Optional[str]) -> Optional[int]:
+    async with get_driver().transaction(read_only=True) as txn:
+        matryoshka_dimension = None
+        if not vectorset:
+            # XXX this should be migrated once we remove the "default" vectorset
+            # concept
+            matryoshka_dimension = await datamanagers.kb.get_matryoshka_vector_dimension(txn, kbid=kbid)
+        else:
+            vectorset_config = await datamanagers.vectorsets.get(txn, kbid=kbid, vectorset_id=vectorset)
+            if vectorset_config is not None and vectorset_config.vectorset_index_config.vector_dimension:
+                matryoshka_dimension = vectorset_config.vectorset_index_config.vector_dimension
+        return matryoshka_dimension
+def get_sort_field_proto(obj: SortField) -> Optional[nodereader_pb2.OrderBy.OrderField.ValueType]:
+    return {
+        SortField.SCORE: None,
+        SortField.CREATED: nodereader_pb2.OrderBy.OrderField.CREATED,
+        SortField.MODIFIED: nodereader_pb2.OrderBy.OrderField.MODIFIED,
+        SortField.TITLE: None,
+    }[obj]

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl