PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/search/api/v1/find.py CHANGED Viewed

@@ -18,33 +18,37 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import json
-from datetime import datetime
 from typing import Optional, Union
 from fastapi import Body, Header, Query, Request, Response
 from fastapi.openapi.models import Example
 from fastapi_versioning import version
-from pydantic.error_wrappers import ValidationError
+from pydantic import ValidationError
 from nucliadb.common.datamanagers.exceptions import KnowledgeBoxNotFound
 from nucliadb.models.responses import HTTPClientError
 from nucliadb.search import predict
 from nucliadb.search.api.v1.router import KB_PREFIX, api
 from nucliadb.search.api.v1.utils import fastapi_query
+from nucliadb.search.search import cache
 from nucliadb.search.search.exceptions import InvalidQueryError
 from nucliadb.search.search.find import find
-from nucliadb.search.search.utils import min_score_from_query_params
+from nucliadb.search.search.utils import maybe_log_request_payload, min_score_from_query_params
 from nucliadb_models.common import FieldTypeName
 from nucliadb_models.resource import ExtractedDataTypeName, NucliaDBRoles
 from nucliadb_models.search import (
     FindRequest,
     KnowledgeboxFindResults,
     NucliaDBClientType,
+    RankFusionName,
+    Reranker,
+    RerankerName,
     ResourceProperties,
     SearchOptions,
     SearchParamDefaults,
 )
 from nucliadb_models.security import RequestSecurity
+from nucliadb_models.utils import DateTime
 from nucliadb_utils.authentication import requires
 from nucliadb_utils.exceptions import LimitsExceededError
@@ -54,7 +58,7 @@ FIND_EXAMPLES = {
         description="Perform a hybrid search that will return text and semantic results matching the query",
         value={
             "query": "How can I be an effective product manager?",
-            "features": [SearchOptions.PARAGRAPH, SearchOptions.VECTOR],
+            "features": [SearchOptions.KEYWORD, SearchOptions.SEMANTIC],
         },
     )
 }
@@ -63,7 +67,7 @@ FIND_EXAMPLES = {
 @api.get(
     f"/{KB_PREFIX}/{{kbid}}/find",
     status_code=200,
-    name="Find Knowledge Box",
+    summary="Find Knowledge Box",
     description="Find on a Knowledge Box",
     response_model=KnowledgeboxFindResults,
     response_model_exclude_unset=True,
@@ -78,39 +82,35 @@ async def find_knowledgebox(
     query: str = fastapi_query(SearchParamDefaults.query),
     fields: list[str] = fastapi_query(SearchParamDefaults.fields),
     filters: list[str] = fastapi_query(SearchParamDefaults.filters),
-    page_number: int = fastapi_query(SearchParamDefaults.page_number),
-    page_size: int = fastapi_query(SearchParamDefaults.page_size),
+    top_k: Optional[int] = fastapi_query(SearchParamDefaults.top_k),
     min_score: Optional[float] = Query(
         default=None,
-        description="Minimum similarity score to filter vector index results. If not specified, the default minimum score of the semantic model associated to the Knowledge Box will be used. Check out the documentation for more information on how to use this parameter: https://docs.nuclia.dev/docs/docs/using/search/#minimum-score",  # noqa: E501
+        description="Minimum similarity score to filter vector index results. If not specified, the default minimum score of the semantic model associated to the Knowledge Box will be used. Check out the documentation for more information on how to use this parameter: https://docs.nuclia.dev/docs/rag/advanced/search#minimum-score",  # noqa: E501
         deprecated=True,
     ),
     min_score_semantic: Optional[float] = Query(
         default=None,
-        description="Minimum semantic similarity score to filter vector index results. If not specified, the default minimum score of the semantic model associated to the Knowledge Box will be used. Check out the documentation for more information on how to use this parameter: https://docs.nuclia.dev/docs/docs/using/search/#minimum-score",  # noqa: E501
+        description="Minimum semantic similarity score to filter vector index results. If not specified, the default minimum score of the semantic model associated to the Knowledge Box will be used. Check out the documentation for more information on how to use this parameter: https://docs.nuclia.dev/docs/rag/advanced/search#minimum-score",  # noqa: E501
     ),
     min_score_bm25: float = Query(
         default=0,
         description="Minimum bm25 score to filter paragraph and document index results",
         ge=0,
     ),
-    range_creation_start: Optional[datetime] = fastapi_query(
-        SearchParamDefaults.range_creation_start
-    ),
-    range_creation_end: Optional[datetime] = fastapi_query(
-        SearchParamDefaults.range_creation_end
-    ),
-    range_modification_start: Optional[datetime] = fastapi_query(
+    vectorset: Optional[str] = fastapi_query(SearchParamDefaults.vectorset),
+    range_creation_start: Optional[DateTime] = fastapi_query(SearchParamDefaults.range_creation_start),
+    range_creation_end: Optional[DateTime] = fastapi_query(SearchParamDefaults.range_creation_end),
+    range_modification_start: Optional[DateTime] = fastapi_query(
         SearchParamDefaults.range_modification_start
     ),
-    range_modification_end: Optional[datetime] = fastapi_query(
+    range_modification_end: Optional[DateTime] = fastapi_query(
         SearchParamDefaults.range_modification_end
     ),
     features: list[SearchOptions] = fastapi_query(
         SearchParamDefaults.search_features,
         default=[
-            SearchOptions.PARAGRAPH,
-            SearchOptions.VECTOR,
+            SearchOptions.KEYWORD,
+            SearchOptions.SEMANTIC,
         ],
     ),
     debug: bool = fastapi_query(SearchParamDefaults.debug),
@@ -119,13 +119,14 @@ async def find_knowledgebox(
     field_type_filter: list[FieldTypeName] = fastapi_query(
         SearchParamDefaults.field_type_filter, alias="field_type"
     ),
-    extracted: list[ExtractedDataTypeName] = fastapi_query(
-        SearchParamDefaults.extracted
-    ),
+    extracted: list[ExtractedDataTypeName] = fastapi_query(SearchParamDefaults.extracted),
     with_duplicates: bool = fastapi_query(SearchParamDefaults.with_duplicates),
     with_synonyms: bool = fastapi_query(SearchParamDefaults.with_synonyms),
     autofilter: bool = fastapi_query(SearchParamDefaults.autofilter),
     security_groups: list[str] = fastapi_query(SearchParamDefaults.security_groups),
+    show_hidden: bool = fastapi_query(SearchParamDefaults.show_hidden),
+    rank_fusion: RankFusionName = fastapi_query(SearchParamDefaults.rank_fusion),
+    reranker: Union[RerankerName, Reranker] = fastapi_query(SearchParamDefaults.reranker),
     x_ndb_client: NucliaDBClientType = Header(NucliaDBClientType.API),
     x_nucliadb_user: str = Header(""),
     x_forwarded_for: str = Header(""),
@@ -138,11 +139,9 @@ async def find_knowledgebox(
             query=query,
             fields=fields,
             filters=filters,
-            page_number=page_number,
-            page_size=page_size,
-            min_score=min_score_from_query_params(
-                min_score_bm25, min_score_semantic, min_score
-            ),
+            top_k=top_k,  # type: ignore
+            min_score=min_score_from_query_params(min_score_bm25, min_score_semantic, min_score),
+            vectorset=vectorset,
             range_creation_end=range_creation_end,
             range_creation_start=range_creation_start,
             range_modification_end=range_modification_end,
@@ -157,20 +156,21 @@ async def find_knowledgebox(
             with_synonyms=with_synonyms,
             autofilter=autofilter,
             security=security,
+            show_hidden=show_hidden,
+            rank_fusion=rank_fusion,
+            reranker=reranker,
         )
     except ValidationError as exc:
         detail = json.loads(exc.json())
         return HTTPClientError(status_code=422, detail=detail)
-    return await _find_endpoint(
-        response, kbid, item, x_ndb_client, x_nucliadb_user, x_forwarded_for
-    )
+    return await _find_endpoint(response, kbid, item, x_ndb_client, x_nucliadb_user, x_forwarded_for)
 @api.post(
     f"/{KB_PREFIX}/{{kbid}}/find",
     status_code=200,
-    name="Find Knowledge Box",
+    summary="Find Knowledge Box",
     description="Find on a Knowledge Box",
     response_model=KnowledgeboxFindResults,
     response_model_exclude_unset=True,
@@ -187,9 +187,7 @@ async def find_post_knowledgebox(
     x_nucliadb_user: str = Header(""),
     x_forwarded_for: str = Header(""),
 ) -> Union[KnowledgeboxFindResults, HTTPClientError]:
-    return await _find_endpoint(
-        response, kbid, item, x_ndb_client, x_nucliadb_user, x_forwarded_for
-    )
+    return await _find_endpoint(response, kbid, item, x_ndb_client, x_nucliadb_user, x_forwarded_for)
 async def _find_endpoint(
@@ -201,11 +199,13 @@ async def _find_endpoint(
     x_forwarded_for: str,
 ) -> Union[KnowledgeboxFindResults, HTTPClientError]:
     try:
-        results, incomplete, _ = await find(
-            kbid, item, x_ndb_client, x_nucliadb_user, x_forwarded_for
-        )
-        response.status_code = 206 if incomplete else 200
-        return results
+        maybe_log_request_payload(kbid, "/find", item)
+        with cache.request_caches():
+            results, incomplete, _ = await find(
+                kbid, item, x_ndb_client, x_nucliadb_user, x_forwarded_for
+            )
+            response.status_code = 206 if incomplete else 200
+            return results
     except KnowledgeBoxNotFound:
         return HTTPClientError(status_code=404, detail="Knowledge Box not found")
     except LimitsExceededError as exc:
@@ -214,6 +214,6 @@ async def _find_endpoint(
         return HTTPClientError(status_code=412, detail=str(exc))
     except predict.ProxiedPredictAPIError as err:
         return HTTPClientError(
-            status_code=503,
-            detail=f"Inference service unavailable. {err.status}: {err.detail}",
+            status_code=err.status,
+            detail=err.detail,
         )

nucliadb/search/api/v1/knowledgebox.py CHANGED Viewed

@@ -24,29 +24,35 @@ from fastapi import HTTPException, Request
 from fastapi_versioning import version
 from grpc import StatusCode as GrpcStatusCode
 from grpc.aio import AioRpcError
-from nucliadb_protos.noderesources_pb2 import Shard
-from nucliadb_protos.writer_pb2 import ShardObject as PBShardObject
-from nucliadb_protos.writer_pb2 import Shards
 from nucliadb.common import datamanagers
 from nucliadb.common.cluster.exceptions import ShardsNotFound
 from nucliadb.common.cluster.manager import choose_node
 from nucliadb.common.cluster.utils import get_shard_manager
+from nucliadb.common.constants import AVG_PARAGRAPH_SIZE_BYTES
+from nucliadb.common.counters import IndexCounts
+from nucliadb.common.external_index_providers.manager import get_external_index_manager
+from nucliadb.common.models_utils import from_proto
 from nucliadb.search import logger
 from nucliadb.search.api.v1.router import KB_PREFIX, api
 from nucliadb.search.api.v1.utils import fastapi_query
 from nucliadb.search.search.shards import get_shard
 from nucliadb.search.settings import settings
+from nucliadb_models.internal.shards import KnowledgeboxShards
 from nucliadb_models.resource import NucliaDBRoles
 from nucliadb_models.search import (
     KnowledgeboxCounters,
-    KnowledgeboxShards,
     SearchParamDefaults,
 )
+from nucliadb_protos.noderesources_pb2 import Shard
+from nucliadb_protos.writer_pb2 import ShardObject as PBShardObject
+from nucliadb_protos.writer_pb2 import Shards
 from nucliadb_telemetry import errors
+from nucliadb_utils import const
 from nucliadb_utils.authentication import requires, requires_one
+from nucliadb_utils.utilities import has_feature
-AVG_PARAGRAPH_SIZE_BYTES = 10_000
+MAX_PARAGRAPHS_FOR_SMALL_KB = 250_000
 @api.get(
@@ -68,7 +74,7 @@ async def knowledgebox_shards(request: Request, kbid: str) -> KnowledgeboxShards
             status_code=404,
             detail="The knowledgebox or its shards configuration is missing",
         )
-    return KnowledgeboxShards.from_message(shards)
+    return from_proto.kb_shards(shards)
 @api.get(
@@ -84,24 +90,85 @@ async def knowledgebox_shards(request: Request, kbid: str) -> KnowledgeboxShards
 async def knowledgebox_counters(
     request: Request,
     kbid: str,
-    vectorset: str = fastapi_query(SearchParamDefaults.vectorset),
     debug: bool = fastapi_query(SearchParamDefaults.debug),
 ) -> KnowledgeboxCounters:
-    shard_manager = get_shard_manager()
     try:
-        shard_groups: list[PBShardObject] = await shard_manager.get_shards_by_kbid(kbid)
+        return await _kb_counters(kbid, debug=debug)
     except ShardsNotFound:
         raise HTTPException(
             status_code=404,
             detail="The knowledgebox or its shards configuration is missing",
         )
+async def _kb_counters(
+    kbid: str,
+    debug: bool = False,
+) -> KnowledgeboxCounters:
+    """
+    Resources count is calculated from maindb and cached
+    Field count is calculated from the index node cluster
+    Paragraphs and Sentences count is calculated from the index node cluster or the external index provider.
+    Index size is estimated from the paragraphs count.
+    """
+    counters = KnowledgeboxCounters(
+        resources=0,
+        paragraphs=0,
+        fields=0,
+        sentences=0,
+        index_size=0,
+    )
+    external_index_manager = await get_external_index_manager(kbid)
+    if external_index_manager is not None:
+        index_counts = await external_index_manager.get_index_counts()
+        counters.paragraphs = index_counts.paragraphs
+        counters.sentences = index_counts.sentences
+        is_small_kb = index_counts.paragraphs < MAX_PARAGRAPHS_FOR_SMALL_KB
+        resource_count = await get_resources_count(kbid, force_calculate=is_small_kb)
+        # TODO: Find a way to query the fields count from the external index provider or use the catalog
+        counters.resources = counters.fields = resource_count
+    else:
+        node_index_counts, queried_shards = await get_node_index_counts(kbid)
+        counters.fields = node_index_counts.fields
+        counters.paragraphs = node_index_counts.paragraphs
+        counters.sentences = node_index_counts.sentences
+        is_small_kb = node_index_counts.paragraphs < MAX_PARAGRAPHS_FOR_SMALL_KB
+        resource_count = await get_resources_count(kbid, force_calculate=is_small_kb)
+        counters.resources = resource_count
+    counters.index_size = counters.paragraphs * AVG_PARAGRAPH_SIZE_BYTES
+    if debug and queried_shards is not None:
+        counters.shards = queried_shards
+    return counters
+async def get_resources_count(kbid: str, force_calculate: bool = False) -> int:
+    async with datamanagers.with_ro_transaction() as txn:
+        if force_calculate:
+            # For small kbs, this is faster and more up to date
+            resource_count = await datamanagers.resources.calculate_number_of_resources(txn, kbid=kbid)
+        else:
+            resource_count = await datamanagers.resources.get_number_of_resources(txn, kbid=kbid)
+            if resource_count == -1:
+                # WARNING: standalone, this value will never be cached
+                resource_count = await datamanagers.resources.calculate_number_of_resources(
+                    txn, kbid=kbid
+                )
+    return resource_count
+async def get_node_index_counts(kbid: str) -> tuple[IndexCounts, list[str]]:
+    """
+    Get the index counts for a knowledgebox that has an index in the index node cluster.
+    """
+    shard_manager = get_shard_manager()
+    shard_groups: list[PBShardObject] = await shard_manager.get_shards_by_kbid(kbid)
     ops = []
     queried_shards = []
     for shard_object in shard_groups:
         try:
-            node, shard_id = choose_node(shard_object)
+            node, shard_id = choose_node(
+                shard_object, use_nidx=has_feature(const.Features.NIDX_READS, context={"kbid": kbid})
+            )
         except KeyError:
             raise HTTPException(
                 status_code=500,
@@ -111,7 +178,7 @@ async def knowledgebox_counters(
             if shard_id is not None:
                 # At least one node is alive for this shard group
                 # let's add it ot the query list if has a valid value
-                ops.append(get_shard(node, shard_id, vectorset=vectorset))
+                ops.append(get_shard(node, shard_id))
                 queried_shards.append(shard_id)
     if not ops:
@@ -122,7 +189,7 @@ async def knowledgebox_counters(
         )
     try:
-        results: Optional[list[Shard]] = await asyncio.wait_for(  # type: ignore
+        results: Optional[list[Shard]] = await asyncio.wait_for(
             asyncio.gather(*ops, return_exceptions=True),  # type: ignore
             timeout=settings.search_timeout,
         )
@@ -139,56 +206,17 @@ async def knowledgebox_counters(
     if results is None:
         raise HTTPException(status_code=503, detail=f"No shards found")
-    field_count = 0
-    paragraph_count = 0
-    sentence_count = 0
+    counts = IndexCounts(
+        fields=0,
+        paragraphs=0,
+        sentences=0,
+    )
     for shard in results:
         if isinstance(shard, Exception):
             logger.error("Error getting shard info", exc_info=shard)
             errors.capture_exception(shard)
-            raise HTTPException(
-                status_code=500, detail=f"Error while geting shard data"
-            )
-        field_count += shard.fields
-        paragraph_count += shard.paragraphs
-        sentence_count += shard.sentences
-    async with datamanagers.with_transaction() as txn:
-        try:
-            if len(shard_groups) <= 1:
-                # for smaller kbs, this is faster and more up to date
-                resource_count = (
-                    await datamanagers.resources.calculate_number_of_resources(
-                        txn, kbid=kbid
-                    )
-                )
-            else:
-                resource_count = await datamanagers.resources.get_number_of_resources(
-                    txn, kbid=kbid
-                )
-                if resource_count == -1:
-                    # WARNING: standalone, this value will never be cached
-                    resource_count = (
-                        await datamanagers.resources.calculate_number_of_resources(
-                            txn, kbid=kbid
-                        )
-                    )
-        except Exception as exc:
-            errors.capture_exception(exc)
-            raise HTTPException(
-                status_code=500, detail="Couldn't retrieve counters right now"
-            )
-    counters = KnowledgeboxCounters(
-        resources=resource_count,
-        paragraphs=paragraph_count,
-        fields=field_count,
-        sentences=sentence_count,
-        index_size=paragraph_count * AVG_PARAGRAPH_SIZE_BYTES,
-    )
-    if debug:
-        counters.shards = queried_shards
-    return counters
+            raise HTTPException(status_code=500, detail=f"Error while geting shard data")
+        counts.fields += shard.fields
+        counts.paragraphs += shard.paragraphs
+        counts.sentences += shard.sentences
+    return counts, queried_shards

nucliadb/search/api/v1/predict_proxy.py CHANGED Viewed

@@ -39,7 +39,7 @@ DESCRIPTION = "Convenience endpoint that proxies requests to the Predict API. It
 @api.get(
     path=f"/{KB_PREFIX}/{{kbid}}/predict/{{endpoint}}",
     status_code=200,
-    name="Predict API Proxy",
+    summary="Predict API Proxy",
     description=DESCRIPTION,
     response_model=None,
     tags=["Search"],
@@ -47,7 +47,7 @@ DESCRIPTION = "Convenience endpoint that proxies requests to the Predict API. It
 @api.post(
     path=f"/{KB_PREFIX}/{{kbid}}/predict/{{endpoint}}",
     status_code=200,
-    name="Predict API Proxy",
+    summary="Predict API Proxy",
     description=DESCRIPTION,
     response_model=None,
     tags=["Search"],

nucliadb/search/api/v1/resource/ask.py CHANGED Viewed

@@ -17,146 +17,95 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Union
+from typing import Optional, Union
-from fastapi import Body, Header, Request, Response
-from fastapi.openapi.models import Example
+from fastapi import Header, Request, Response
 from fastapi_versioning import version
-from nucliadb_protos.resources_pb2 import FieldComputedMetadata
-from nucliadb_protos.utils_pb2 import ExtractedText
+from starlette.responses import StreamingResponse
-from nucliadb.common.maindb.utils import get_driver
-from nucliadb.ingest.orm.knowledgebox import KnowledgeBox
+from nucliadb.common import datamanagers
 from nucliadb.models.responses import HTTPClientError
-from nucliadb.search import SERVICE_NAME, logger
-from nucliadb.search.api.v1.router import KB_PREFIX, api
-from nucliadb.search.predict import SendToPredictError
-from nucliadb.search.search.exceptions import InvalidQueryError, ResourceNotFoundError
-from nucliadb.search.utilities import get_predict
+from nucliadb.search.api.v1.router import KB_PREFIX, RESOURCE_SLUG_PREFIX, api
 from nucliadb_models.resource import NucliaDBRoles
-from nucliadb_models.search import AskRequest, AskResponse, TextBlocks
-from nucliadb_utils import const
+from nucliadb_models.search import AskRequest, NucliaDBClientType, SyncAskResponse
 from nucliadb_utils.authentication import requires
-from nucliadb_utils.exceptions import LimitsExceededError
-from nucliadb_utils.utilities import get_storage, has_feature
-ASK_EXAMPLES = {
-    "Ask a Resource": Example(
-        summary="Ask a question to the document",
-        description="Ask a question to the document. The whole document is sent as context to the generative AI",
-        value={
-            "question": "Does this document contain personal information?",
-        },
-    )
-}
+from ..ask import create_ask_response
 @api.post(
     f"/{KB_PREFIX}/{{kbid}}/resource/{{rid}}/ask",
     status_code=200,
-    name="Ask a Resource",
-    summary="Ask a question to a resource",
-    description="Ask to the complete content of the resource",
+    summary="Ask a resource (by id)",
+    description="Ask questions to a resource",
     tags=["Search"],
-    response_model=None,
-    # TODO: set to True once feature is fully enabled
-    include_in_schema=False,
+    response_model=SyncAskResponse,
 )
 @requires(NucliaDBRoles.READER)
 @version(1)
-async def resource_ask_endpoint(
+async def resource_ask_endpoint_by_uuid(
     request: Request,
-    response: Response,
     kbid: str,
     rid: str,
-    item: AskRequest = Body(
-        openapi_examples=ASK_EXAMPLES, description="Ask a question payload"
+    item: AskRequest,
+    x_ndb_client: NucliaDBClientType = Header(NucliaDBClientType.API),
+    x_nucliadb_user: str = Header(""),
+    x_forwarded_for: str = Header(""),
+    x_synchronous: bool = Header(
+        False,
+        description="When set to true, outputs response as JSON in a non-streaming way. "
+        "This is slower and requires waiting for entire answer to be ready.",
     ),
-    x_nucliadb_user: str = Header("", description="User Id", include_in_schema=False),
-) -> Union[AskResponse, HTTPClientError]:
-    if not has_feature(const.Features.ASK_YOUR_DOCUMENTS):
-        return HTTPClientError(status_code=404, detail="Feature not yet available")
-    try:
-        return await resource_ask(kbid, rid, item, user_id=x_nucliadb_user)
-    except ResourceNotFoundError:
-        return HTTPClientError(status_code=404, detail="Resource not found")
-    except LimitsExceededError as exc:
-        return HTTPClientError(status_code=exc.status_code, detail=exc.detail)
-    except SendToPredictError:
-        return HTTPClientError(status_code=503, detail="Ask service not available")
-    except InvalidQueryError as exc:
-        return HTTPClientError(status_code=412, detail=str(exc))
+) -> Union[StreamingResponse, HTTPClientError, Response]:
+    return await create_ask_response(
+        kbid,
+        item,
+        x_nucliadb_user,
+        x_ndb_client,
+        x_forwarded_for,
+        x_synchronous,
+        resource=rid,
+    )
-async def resource_ask(
+@api.post(
+    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_SLUG_PREFIX}/{{slug}}/ask",
+    status_code=200,
+    summary="Ask a resource (by slug)",
+    description="Ask questions to a resource",
+    tags=["Search"],
+    response_model=SyncAskResponse,
+)
+@requires(NucliaDBRoles.READER)
+@version(1)
+async def resource_ask_endpoint_by_slug(
+    request: Request,
     kbid: str,
-    rid: str,
+    slug: str,
     item: AskRequest,
-    user_id: str,
-) -> AskResponse:
-    blocks = await get_resource_text_blocks(kbid, rid)
-    predict = get_predict()
-    answer = await predict.ask_document(kbid, item.question, blocks, user_id)
-    return AskResponse(answer=answer)
-async def get_resource_text_blocks(kbid: str, rid: str) -> TextBlocks:
-    """
-    Iterate over all fields of the resource and get its extracted text.
-    Slice file extracted texts by paragraphs.
-    """
-    blocks = []
-    driver = get_driver()
-    storage = await get_storage(service_name=SERVICE_NAME)
-    async with driver.transaction() as txn:
-        kb = KnowledgeBox(txn, storage, kbid)
-        orm_resource = await kb.get(rid)
-        if orm_resource is None:
-            raise ResourceNotFoundError()
-        for field_type, field_id in await orm_resource.get_fields_ids():
-            field_obj = await orm_resource.get_field(field_id, field_type, load=False)
-            etxt = await field_obj.get_extracted_text()
-            if etxt is None:
-                logger.warning(
-                    f"Skipping field {field_id}, as it does not have extracted text yet!"
-                )
-                continue
-            fcm = await field_obj.get_field_metadata()
-            if fcm is None:
-                logger.warning(f"Field metadata not found for {field_id}")
-                blocks.append(get_field_blocks(etxt))
-            else:
-                blocks.append(get_field_blocks_split_by_paragraphs(etxt, fcm))
-    return blocks
-def get_field_blocks_split_by_paragraphs(
-    etxt: ExtractedText, fcm: FieldComputedMetadata
-) -> list[str]:
-    block = []
-    for paragraph in fcm.metadata.paragraphs:
-        block.append(etxt.text[paragraph.start : paragraph.end])
-    for split, metadata in fcm.split_metadata.items():
-        for split_paragraph in metadata.paragraphs:
-            split_text = etxt.split_text.get(split)
-            if split_text is None:
-                logger.warning(f"Split {split} not found in extracted text")
-                continue
-            block.append(split_text[split_paragraph.start : split_paragraph.end])
-    return block
+    x_ndb_client: NucliaDBClientType = Header(NucliaDBClientType.API),
+    x_nucliadb_user: str = Header(""),
+    x_forwarded_for: str = Header(""),
+    x_synchronous: bool = Header(
+        False,
+        description="When set to true, outputs response as JSON in a non-streaming way. "
+        "This is slower and requires waiting for entire answer to be ready.",
+    ),
+) -> Union[StreamingResponse, HTTPClientError, Response]:
+    resource_id = await get_resource_uuid_by_slug(kbid, slug)
+    if resource_id is None:
+        return HTTPClientError(status_code=404, detail="Resource not found")
+    return await create_ask_response(
+        kbid,
+        item,
+        x_nucliadb_user,
+        x_ndb_client,
+        x_forwarded_for,
+        x_synchronous,
+        resource=resource_id,
+    )
-def get_field_blocks(etxt: ExtractedText) -> list[str]:
-    blocks = []
-    if etxt.text:
-        blocks.append(etxt.text)
-    for split_etxt in etxt.split_text.values():
-        if split_etxt:
-            blocks.append(split_etxt)
-    return blocks
+async def get_resource_uuid_by_slug(kbid: str, slug: str) -> Optional[str]:
+    async with datamanagers.with_ro_transaction() as txn:
+        return await datamanagers.resources.get_resource_uuid_from_slug(txn, kbid=kbid, slug=slug)

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl