PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/search/search/metrics.py CHANGED Viewed

@@ -17,10 +17,81 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
+import contextlib
+import time
+from typing import Optional
 from nucliadb_telemetry import metrics
 merge_observer = metrics.Observer("merge_results", labels={"type": ""})
 node_features = metrics.Counter("nucliadb_node_features", labels={"type": ""})
-query_parse_dependency_observer = metrics.Observer(
-    "query_parse_dependency", labels={"type": ""}
+query_parse_dependency_observer = metrics.Observer("query_parse_dependency", labels={"type": ""})
+buckets = [
+    0.005,
+    0.01,
+    0.025,
+    0.05,
+    0.075,
+    0.1,
+    0.25,
+    0.5,
+    0.75,
+    1.0,
+    2.5,
+    5.0,
+    7.5,
+    10.0,
+    30.0,
+    60.0,
+    metrics.INF,
+]
+generative_first_chunk_histogram = metrics.Histogram(
+    name="generative_first_chunk",
+    buckets=buckets,
+)
+rag_histogram = metrics.Histogram(
+    name="rag",
+    labels={"step": ""},
+    buckets=buckets,
 )
+class RAGMetrics:
+    def __init__(self):
+        self.global_start = time.monotonic()
+        self._start_times: dict[str, float] = {}
+        self._end_times: dict[str, float] = {}
+        self.first_chunk_yielded_at: Optional[float] = None
+    @contextlib.contextmanager
+    def time(self, step: str):
+        self._start(step)
+        try:
+            yield
+        finally:
+            self._end(step)
+    def steps(self) -> dict[str, float]:
+        return {step: self.elapsed(step) for step in self._end_times.keys()}
+    def elapsed(self, step: str) -> float:
+        return self._end_times[step] - self._start_times[step]
+    def record_first_chunk_yielded(self):
+        self.first_chunk_yielded_at = time.monotonic()
+        generative_first_chunk_histogram.observe(self.first_chunk_yielded_at - self.global_start)
+    def get_first_chunk_time(self) -> Optional[float]:
+        if self.first_chunk_yielded_at is None:
+            return None
+        return self.first_chunk_yielded_at - self.global_start
+    def _start(self, step: str):
+        self._start_times[step] = time.monotonic()
+    def _end(self, step: str):
+        self._end_times[step] = time.monotonic()
+        elapsed = self.elapsed(step)
+        rag_histogram.observe(elapsed, labels={"step": step})

nucliadb/search/search/paragraphs.py CHANGED Viewed

@@ -17,20 +17,16 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
-import asyncio
 import logging
 import re
 import string
 from typing import Optional
-from nucliadb_protos.utils_pb2 import ExtractedText
+from nucliadb.common.ids import FIELD_TYPE_STR_TO_PB, ParagraphId
 from nucliadb.ingest.fields.base import Field
-from nucliadb.ingest.orm.resource import KB_REVERSE
 from nucliadb.ingest.orm.resource import Resource as ResourceORM
-from nucliadb_telemetry import metrics
-from .cache import get_resource_from_cache
+from nucliadb.search.search import cache
+from nucliadb_telemetry import errors, metrics
 logger = logging.getLogger(__name__)
 PRE_WORD = string.punctuation + " "
@@ -56,62 +52,6 @@ GET_PARAGRAPH_LATENCY = metrics.Observer(
 )
-EXTRACTED_CACHE_OPS = metrics.Counter(
-    "nucliadb_extracted_text_cache_ops", labels={"type": ""}
-)
-class ExtractedTextCache:
-    """
-    Used to cache extracted text from a resource in memory during
-    the process of search results serialization.
-    """
-    def __init__(self):
-        self.locks = {}
-        self.values = {}
-    def get_value(self, key: str) -> Optional[ExtractedText]:
-        return self.values.get(key)
-    def get_lock(self, key: str) -> asyncio.Lock:
-        return self.locks.setdefault(key, asyncio.Lock())
-    def set_value(self, key: str, value: ExtractedText) -> None:
-        self.values[key] = value
-    def clear(self):
-        self.values.clear()
-        self.locks.clear()
-async def get_field_extracted_text(
-    field: Field, cache: Optional[ExtractedTextCache] = None
-) -> Optional[ExtractedText]:
-    if cache is None:
-        return await field.get_extracted_text()
-    key = f"{field.kbid}/{field.uuid}/{field.id}"
-    extracted_text = cache.get_value(key)
-    if extracted_text is not None:
-        EXTRACTED_CACHE_OPS.inc({"type": "hit"})
-        return extracted_text
-    async with cache.get_lock(key):
-        # Check again in case another task already fetched it
-        extracted_text = cache.get_value(key)
-        if extracted_text is not None:
-            EXTRACTED_CACHE_OPS.inc({"type": "hit"})
-            return extracted_text
-        EXTRACTED_CACHE_OPS.inc({"type": "miss"})
-        extracted_text = await field.get_extracted_text()
-        if extracted_text is not None:
-            # Only cache if we actually have extracted text
-            cache.set_value(key, extracted_text)
-        return extracted_text
 @GET_PARAGRAPH_LATENCY.wrap({"type": "full"})
 async def get_paragraph_from_full_text(
     *,
@@ -119,16 +59,23 @@ async def get_paragraph_from_full_text(
     start: int,
     end: int,
     split: Optional[str] = None,
-    extracted_text_cache: Optional[ExtractedTextCache] = None,
+    log_on_missing_field: bool = True,
 ) -> str:
     """
     Pull paragraph from full text stored in database.
     This requires downloading the full text and then slicing it.
     """
-    extracted_text = await get_field_extracted_text(field, cache=extracted_text_cache)
+    extracted_text = await cache.get_field_extracted_text(field)
     if extracted_text is None:
-        logger.warning(f"{field} extracted_text does not exist on DB yet")
+        if log_on_missing_field:
+            logger.warning(
+                "Extracted_text for field does not exist on DB. This should not happen.",
+                extra={
+                    "field_id": field.resource_unique_id,
+                    "kbid": field.kbid,
+                },
+            )
         return ""
     if split not in (None, ""):
@@ -141,39 +88,46 @@ async def get_paragraph_from_full_text(
 async def get_paragraph_text(
     *,
     kbid: str,
-    rid: str,
-    field: str,
-    start: int,
-    end: int,
-    split: Optional[str] = None,
+    paragraph_id: ParagraphId,
     highlight: bool = False,
     ematches: Optional[list[str]] = None,
     matches: Optional[list[str]] = None,
     orm_resource: Optional[
         ResourceORM
     ] = None,  # allow passing in orm_resource to avoid extra DB calls or txn issues
-    extracted_text_cache: Optional[ExtractedTextCache] = None,
+    log_on_missing_field: bool = True,
 ) -> str:
+    rid = paragraph_id.rid
+    field_type = paragraph_id.field_id.type
+    field_key = paragraph_id.field_id.key
     if orm_resource is None:
-        orm_resource = await get_resource_from_cache(kbid, rid)
+        orm_resource = await cache.get_resource(kbid, rid)
         if orm_resource is None:
-            logger.error(f"{kbid}/{rid}:{field} does not exist on DB")
+            if log_on_missing_field:
+                logger.warning(
+                    "Resource does not exist on DB. This should not happen.",
+                    extra={"resource_id": rid, "kbid": kbid, "field": f"{field_type}/{field_key}"},
+                )
             return ""
-    _, field_type, field = field.split("/")
-    field_type_int = KB_REVERSE[field_type]
-    field_obj = await orm_resource.get_field(field, field_type_int, load=False)
+    field_type_int = FIELD_TYPE_STR_TO_PB[field_type]
+    field_obj = await orm_resource.get_field(field_key, field_type_int, load=False)
     text = await get_paragraph_from_full_text(
         field=field_obj,
-        start=start,
-        end=end,
-        split=split,
-        extracted_text_cache=extracted_text_cache,
+        start=paragraph_id.paragraph_start,
+        end=paragraph_id.paragraph_end,
+        split=paragraph_id.field_id.subfield_id,
+        log_on_missing_field=log_on_missing_field,
     )
     if highlight:
-        text = highlight_paragraph(text, words=matches, ematches=ematches)
+        try:
+            text = highlight_paragraph(text, words=matches, ematches=ematches)
+        except Exception as ex:
+            errors.capture_exception(ex)
+            logger.exception("Error highlighting paragraph", extra={"kbid": kbid})
     return text
@@ -191,19 +145,17 @@ async def get_text_sentence(
     Leave separated from get paragraph for now until we understand the differences
     better.
     """
-    orm_resource = await get_resource_from_cache(kbid, rid)
+    orm_resource = await cache.get_resource(kbid, rid)
     if orm_resource is None:
         logger.warning(f"{rid} does not exist on DB")
         return ""
-    field_type_int = KB_REVERSE[field_type]
+    field_type_int = FIELD_TYPE_STR_TO_PB[field_type]
     field_obj = await orm_resource.get_field(field, field_type_int, load=False)
     extracted_text = await field_obj.get_extracted_text()
     if extracted_text is None:
-        logger.info(
-            f"{rid} {field} {field_type_int} extracted_text does not exist on DB"
-        )
+        logger.info(f"{rid} {field} {field_type_int} extracted_text does not exist on DB")
         return ""
     start = start - 1
     if start < 0:
@@ -216,36 +168,42 @@ async def get_text_sentence(
     return splitted_text
-def get_regex(some_string: str) -> str:
-    return r"\b" + some_string.lower() + r"\b"
 def highlight_paragraph(
     text: str, words: Optional[list[str]] = None, ematches: Optional[list[str]] = None
 ) -> str:
+    """
+    Highlight `text` with <mark></mark> tags around the words in `words` and `ematches`.
+    Parameters:
+    - text: The text to highlight.
+    - words: A list of words to highlight.
+    - ematches: A list of exact matches to highlight.
+    Returns:
+    - The highlighted text.
+    """
+    REGEX_TEMPLATE = r"(^|\s)({text})(\s|$)"
     text_lower = text.lower()
     marks = [0] * (len(text_lower) + 1)
-    if ematches is not None:
-        for quote in ematches:
-            quote_regex = get_regex(quote.lower())
-            try:
-                for match in re.finditer(quote_regex, text_lower):
-                    start, end = match.span()
-                    marks[start] = 1
-                    marks[end] = 2
-            except re.error:
-                logger.warning(
-                    f"Regex errors while highlighting text. Regex: {quote_regex}"
-                )
-                continue
+    ematches = ematches or []
+    for quote in ematches:
+        quote_regex = REGEX_TEMPLATE.format(text=re.escape(quote.lower()))
+        try:
+            for match in re.finditer(quote_regex, text_lower):
+                start, end = match.span(2)
+                marks[start] = 1
+                marks[end] = 2
+        except re.error:
+            logger.warning(f"Regex errors while highlighting text. Regex: {quote_regex}")
+            continue
     words = words or []
     for word in words:
-        word_regex = get_regex(word.lower())
+        word_regex = REGEX_TEMPLATE.format(text=re.escape(word.lower()))
         try:
             for match in re.finditer(word_regex, text_lower):
-                start, end = match.span()
+                start, end = match.span(2)
                 if marks[start] == 0 and marks[end] == 0:
                     marks[start] = 1
                     marks[end] = 2

nucliadb/search/search/pgcatalog.py ADDED Viewed

@@ -0,0 +1,233 @@
+# Copyright (C) 2021 Bosutech XXI S.L.
+#
+# nucliadb is offered under the AGPL v3.0 and as commercial software.
+# For commercial licensing, contact us at info@nuclia.com.
+#
+# AGPL:
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+#
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+# GNU Affero General Public License for more details.
+#
+# You should have received a copy of the GNU Affero General Public License
+# along with this program. If not, see <http://www.gnu.org/licenses/>.
+#
+import logging
+from collections import defaultdict
+from typing import Any, cast
+from psycopg.rows import dict_row
+from nucliadb.common.maindb.pg import PGDriver
+from nucliadb.common.maindb.utils import get_driver
+from nucliadb.search.search.query_parser.models import CatalogQuery
+from nucliadb_models.labels import translate_system_to_alias_label
+from nucliadb_models.metadata import ResourceProcessingStatus
+from nucliadb_models.search import (
+    ResourceResult,
+    Resources,
+    SortField,
+    SortOrder,
+)
+from nucliadb_telemetry import metrics
+from .filters import translate_label
+observer = metrics.Observer("pg_catalog_search", labels={"op": ""})
+logger = logging.getLogger(__name__)
+def _filter_operands(operands):
+    literals = []
+    nonliterals = []
+    for operand in operands:
+        op, params = next(iter(operand.items()))
+        if op == "literal":
+            literals.append(params)
+        else:
+            nonliterals.append(operand)
+    return literals, nonliterals
+def _convert_filter(filter, filter_params):
+    op, operands = next(iter(filter.items()))
+    if op == "literal":
+        param_name = f"param{len(filter_params)}"
+        filter_params[param_name] = [operands]
+        return f"labels @> %({param_name})s"
+    elif op in ("and", "or"):
+        array_op = "@>" if op == "and" else "&&"
+        sql = []
+        literals, nonliterals = _filter_operands(operands)
+        if literals:
+            param_name = f"param{len(filter_params)}"
+            filter_params[param_name] = literals
+            sql.append(f"labels {array_op} %({param_name})s")
+        for nonlit in nonliterals:
+            sql.append(_convert_filter(nonlit, filter_params))
+        return "(" + f" {op.upper()} ".join(sql) + ")"
+    elif op == "not":
+        return f"(NOT {_convert_filter(operands, filter_params)})"
+    else:
+        raise ValueError(f"Invalid operator {op}")
+def _prepare_query(catalog_query: CatalogQuery):
+    filter_sql = ["kbid = %(kbid)s"]
+    filter_params: dict[str, Any] = {"kbid": catalog_query.kbid}
+    if catalog_query.query:
+        # This is doing tokenization inside the SQL server (to keep the index updated). We could move it to
+        # the python code at update/query time if it ever becomes a problem but for now, a single regex
+        # executed per query is not a problem.
+        filter_sql.append(
+            "regexp_split_to_array(lower(title), '\\W') @> regexp_split_to_array(lower(%(query)s), '\\W')"
+        )
+        filter_params["query"] = catalog_query.query
+    if catalog_query.filters.creation.after:
+        filter_sql.append("created_at > %(created_at_start)s")
+        filter_params["created_at_start"] = catalog_query.filters.creation.after
+    if catalog_query.filters.creation.before:
+        filter_sql.append("created_at < %(created_at_end)s")
+        filter_params["created_at_end"] = catalog_query.filters.creation.before
+    if catalog_query.filters.modification.after:
+        filter_sql.append("modified_at > %(modified_at_start)s")
+        filter_params["modified_at_start"] = catalog_query.filters.modification.after
+    if catalog_query.filters.modification.before:
+        filter_sql.append("modified_at < %(modified_at_end)s")
+        filter_params["modified_at_end"] = catalog_query.filters.modification.before
+    if catalog_query.filters.labels:
+        filter_sql.append(_convert_filter(catalog_query.filters.labels, filter_params))
+    order_sql = ""
+    if catalog_query.sort:
+        if catalog_query.sort.field == SortField.CREATED:
+            order_field = "created_at"
+        elif catalog_query.sort.field == SortField.MODIFIED:
+            order_field = "modified_at"
+        elif catalog_query.sort.field == SortField.TITLE:
+            order_field = "title"
+        else:
+            # Deprecated order by score, use created_at instead
+            order_field = "created_at"
+        if catalog_query.sort.order == SortOrder.ASC:
+            order_dir = "ASC"
+        else:
+            order_dir = "DESC"
+        order_sql = f" ORDER BY {order_field} {order_dir}"
+    if catalog_query.filters.with_status:
+        filter_sql.append("labels && %(status)s")
+        if catalog_query.filters.with_status == ResourceProcessingStatus.PROCESSED:
+            filter_params["status"] = ["/n/s/PROCESSED", "/n/s/ERROR"]
+        else:
+            filter_params["status"] = ["/n/s/PENDING"]
+    return (
+        f"SELECT * FROM catalog WHERE {' AND '.join(filter_sql)}{order_sql}",
+        filter_params,
+    )
+def _pg_driver() -> PGDriver:
+    return cast(PGDriver, get_driver())
+@observer.wrap({"op": "search"})
+async def pgcatalog_search(catalog_query: CatalogQuery) -> Resources:
+    # Prepare SQL query
+    query, query_params = _prepare_query(catalog_query)
+    async with _pg_driver()._get_connection() as conn, conn.cursor(row_factory=dict_row) as cur:
+        facets = {}
+        # Faceted search
+        if catalog_query.faceted:
+            with observer({"op": "facets"}):
+                tmp_facets: dict[str, dict[str, int]] = {
+                    translate_label(f): defaultdict(int) for f in catalog_query.faceted
+                }
+                facet_filters = " OR ".join(f"label LIKE '{f}/%%'" for f in tmp_facets.keys())
+                for facet in tmp_facets.keys():
+                    if not (
+                        facet.startswith("/n/s") or facet.startswith("/n/i") or facet.startswith("/l")
+                    ):
+                        logger.warn(
+                            f"Unexpected facet used at catalog: {facet}, kbid={catalog_query.kbid}"
+                        )
+                await cur.execute(
+                    f"SELECT label, COUNT(*) FROM (SELECT unnest(labels) AS label FROM ({query}) fc) nl WHERE ({facet_filters}) GROUP BY 1 ORDER BY 1",
+                    query_params,
+                )
+                for row in await cur.fetchall():
+                    label = row["label"]
+                    label_parts = label.split("/")
+                    parent = "/".join(label_parts[:-1])
+                    count = row["count"]
+                    if parent in tmp_facets:
+                        tmp_facets[parent][translate_system_to_alias_label(label)] = count
+                    # No need to get recursive because our facets are at most 3 levels deep (e.g: /l/set/label)
+                    if len(label_parts) >= 3:
+                        grandparent = "/".join(label_parts[:-2])
+                        if grandparent in tmp_facets:
+                            tmp_facets[grandparent][translate_system_to_alias_label(parent)] += count
+                facets = {translate_system_to_alias_label(k): v for k, v in tmp_facets.items()}
+        # Totals
+        with observer({"op": "totals"}):
+            await cur.execute(
+                f"SELECT COUNT(*) FROM ({query}) fc",
+                query_params,
+            )
+            total = (await cur.fetchone())["count"]  # type: ignore
+        # Query
+        with observer({"op": "query"}):
+            offset = catalog_query.page_size * catalog_query.page_number
+            await cur.execute(
+                f"{query} LIMIT %(page_size)s OFFSET %(offset)s",
+                {
+                    **query_params,
+                    "page_size": catalog_query.page_size,
+                    "offset": offset,
+                },
+            )
+            data = await cur.fetchall()
+    return Resources(
+        facets=facets,
+        results=[
+            ResourceResult(
+                rid=str(r["rid"]).replace("-", ""),
+                field="title",
+                field_type="a",
+                labels=[label for label in r["labels"] if label.startswith("/l/")],
+                score=0,
+            )
+            for r in data
+        ],
+        query=catalog_query.query,
+        total=total,
+        page_number=catalog_query.page_number,
+        page_size=catalog_query.page_size,
+        next_page=(offset + len(data) < total),
+        min_score=0,
+    )

nucliadb/search/search/predict_proxy.py CHANGED Viewed

@@ -84,5 +84,5 @@ async def predict_proxy(
 async def exists_kb(kbid: str) -> bool:
-    async with datamanagers.with_transaction(read_only=True) as txn:
+    async with datamanagers.with_ro_transaction() as txn:
         return await datamanagers.kb.exists_kb(txn, kbid=kbid)

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl