PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/common/external_index_providers/pinecone.py ADDED Viewed

@@ -0,0 +1,933 @@
+# Copyright (C) 2021 Bosutech XXI S.L.
+#
+# nucliadb is offered under the AGPL v3.0 and as commercial software.
+# For commercial licensing, contact us at info@nuclia.com.
+#
+# AGPL:
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as
+# published by the Free Software Foundation, either version 3 of the
+# License, or (at your option) any later version.
+#
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
+# GNU Affero General Public License for more details.
+#
+# You should have received a copy of the GNU Affero General Public License
+# along with this program. If not, see <http://www.gnu.org/licenses/>.
+#
+import asyncio
+import json
+import logging
+from copy import deepcopy
+from typing import Any, Iterator, Optional
+from uuid import uuid4
+import backoff
+from cachetools import TTLCache
+from pydantic import BaseModel
+from nucliadb.common.counters import IndexCounts
+from nucliadb.common.external_index_providers.base import (
+    ExternalIndexManager,
+    ExternalIndexProviderType,
+    QueryResults,
+    TextBlockMatch,
+    VectorsetExternalIndex,
+)
+from nucliadb.common.external_index_providers.exceptions import ExternalIndexCreationError
+from nucliadb.common.ids import FieldId, ParagraphId, VectorId
+from nucliadb_models.search import SCORE_TYPE, TextPosition
+from nucliadb_protos import knowledgebox_pb2 as kb_pb2
+from nucliadb_protos import utils_pb2
+from nucliadb_protos.nodereader_pb2 import SearchRequest, Timestamps
+from nucliadb_protos.noderesources_pb2 import IndexParagraph, Resource, VectorSentence
+from nucliadb_telemetry.metrics import Observer
+from nucliadb_utils.aiopynecone.client import DataPlane, FilterOperator, LogicalOperator
+from nucliadb_utils.aiopynecone.exceptions import (
+    MetadataTooLargeError,
+    PineconeAPIError,
+)
+from nucliadb_utils.aiopynecone.models import QueryResponse
+from nucliadb_utils.aiopynecone.models import Vector as PineconeVector
+from nucliadb_utils.utilities import get_endecryptor, get_pinecone
+logger = logging.getLogger(__name__)
+manager_observer = Observer("pinecone_index_manager", labels={"operation": ""})
+DISCARDED_LABEL_PREFIXES = [
+    # NER-related labels are not supported in the Pinecone integration because right now
+    # the number of detected entities is unbounded and may exceed the vector metadata size limit.
+    "/e/",
+    # Processing status labels are only needed for the catalog endpoint.
+    "/n/s",
+]
+# To avoid querying the Pinecone API for the same index stats multiple times in a short period of time
+COUNTERS_CACHE = TTLCache(maxsize=1024, ttl=60)  # type: ignore
+class PineconeQueryResults(QueryResults):
+    type: ExternalIndexProviderType = ExternalIndexProviderType.PINECONE
+    results: QueryResponse
+    def iter_matching_text_blocks(self) -> Iterator[TextBlockMatch]:
+        for order, matching_vector in enumerate(self.results.matches):
+            try:
+                vector_id = VectorId.from_string(matching_vector.id)
+                paragraph_id = ParagraphId.from_vector_id(vector_id)
+            except ValueError:  # pragma: no cover
+                logger.error(f"Invalid Pinecone vector id: {matching_vector.id}")
+                continue
+            vector_metadata = VectorMetadata.model_validate(matching_vector.metadata)  # noqa
+            yield TextBlockMatch(
+                paragraph_id=paragraph_id,
+                text=None,  # To be filled by the results hydrator
+                score=matching_vector.score,
+                score_type=SCORE_TYPE.VECTOR,
+                order=order,
+                fuzzy_search=False,  # semantic search doesn't use fuzziness
+                is_a_table=vector_metadata.is_a_table or False,
+                page_with_visual=vector_metadata.page_with_visual or False,
+                representation_file=vector_metadata.representation_file,
+                paragraph_labels=vector_metadata.paragraph_labels or [],
+                field_labels=vector_metadata.field_labels or [],
+                position=TextPosition(
+                    page_number=vector_metadata.page_number,
+                    index=vector_id.index or 0,
+                    start=paragraph_id.paragraph_start,
+                    end=paragraph_id.paragraph_end,
+                    start_seconds=list(map(int, vector_metadata.position_start_seconds or [])),
+                    end_seconds=list(map(int, vector_metadata.position_end_seconds or [])),
+                ),
+            )
+class IndexHostNotFound(Exception): ...
+class VectorMetadata(BaseModel):
+    """
+    This class models what we index at Pinecone's metadata attribute for each vector.
+    https://docs.pinecone.io/guides/data/filter-with-metadata
+    """
+    # Id filtering
+    rid: str
+    field_type: str
+    field_id: str
+    # Date range filtering
+    date_created: Optional[int] = None
+    date_modified: Optional[int] = None
+    # Label filtering
+    paragraph_labels: Optional[list[str]] = None
+    field_labels: Optional[list[str]] = None
+    # Security
+    security_public: bool = True
+    security_ids_with_access: Optional[list[str]] = None
+    # Position
+    position_start_seconds: Optional[list[str]] = None
+    position_end_seconds: Optional[list[str]] = None
+    page_number: Optional[int] = None
+    # AI-tables metadata
+    page_with_visual: Optional[bool] = None
+    is_a_table: Optional[bool] = None
+    representation_file: Optional[str] = None
+class PineconeIndexManager(ExternalIndexManager):
+    type = ExternalIndexProviderType.PINECONE
+    supports_rollover = True
+    def __init__(
+        self,
+        kbid: str,
+        api_key: str,
+        indexes: dict[str, kb_pb2.PineconeIndexMetadata],
+        upsert_parallelism: int = 3,
+        delete_parallelism: int = 2,
+        upsert_timeout: float = 10.0,
+        delete_timeout: float = 10.0,
+        query_timeout: float = 10.0,
+        default_vectorset: Optional[str] = None,
+        rollover_indexes: Optional[dict[str, kb_pb2.PineconeIndexMetadata]] = None,
+    ):
+        super().__init__(kbid=kbid)
+        assert api_key != ""
+        self.api_key = api_key
+        self.indexes = indexes
+        self.rollover_indexes = rollover_indexes or {}
+        self.pinecone = get_pinecone()
+        self.upsert_parallelism = upsert_parallelism
+        self.delete_parallelism = delete_parallelism
+        self.upsert_timeout = upsert_timeout
+        self.delete_timeout = delete_timeout
+        self.query_timeout = query_timeout
+        self.default_vectorset = default_vectorset
+    def get_data_plane(self, index_host: str) -> DataPlane:
+        return self.pinecone.data_plane(api_key=self.api_key, index_host=index_host)
+    @classmethod
+    async def create_indexes(
+        cls,
+        kbid: str,
+        request: kb_pb2.CreateExternalIndexProviderMetadata,
+        indexes: list[VectorsetExternalIndex],
+    ) -> kb_pb2.StoredExternalIndexProviderMetadata:
+        created_indexes = []
+        metadata = kb_pb2.StoredExternalIndexProviderMetadata(
+            type=kb_pb2.ExternalIndexProviderType.PINECONE
+        )
+        api_key = request.pinecone_config.api_key
+        metadata.pinecone_config.encrypted_api_key = get_endecryptor().encrypt(api_key)
+        metadata.pinecone_config.serverless_cloud = request.pinecone_config.serverless_cloud
+        pinecone = get_pinecone().control_plane(api_key=api_key)
+        serverless_cloud = to_pinecone_serverless_cloud_payload(request.pinecone_config.serverless_cloud)
+        for index in indexes:
+            vectorset_id = index.vectorset_id
+            index_name = PineconeIndexManager.get_index_name()
+            index_dimension = index.dimension
+            similarity_metric = to_pinecone_index_metric(index.similarity)
+            logger.info(
+                "Creating pincone index",
+                extra={
+                    "kbid": kbid,
+                    "index_name": index_name,
+                    "similarity": similarity_metric,
+                    "vector_dimension": index_dimension,
+                    "vectorset_id": vectorset_id,
+                    "cloud": serverless_cloud,
+                },
+            )
+            try:
+                index_host = await pinecone.create_index(
+                    name=index_name,
+                    dimension=index_dimension,
+                    metric=similarity_metric,
+                    serverless_cloud=serverless_cloud,
+                )
+                created_indexes.append(index_name)
+            except PineconeAPIError as exc:
+                # Try index creation rollback
+                for index_name in created_indexes:
+                    try:
+                        await cls._delete_index(api_key, index_name)
+                    except Exception:
+                        logger.exception("Could not rollback created pinecone indexes")
+                raise ExternalIndexCreationError("pinecone", exc.message) from exc
+            metadata.pinecone_config.indexes[vectorset_id].CopyFrom(
+                kb_pb2.PineconeIndexMetadata(
+                    index_name=index_name,
+                    index_host=index_host,
+                    vector_dimension=index.dimension,
+                    similarity=index.similarity,
+                )
+            )
+        return metadata
+    @classmethod
+    async def delete_indexes(
+        cls,
+        kbid: str,
+        stored: kb_pb2.StoredExternalIndexProviderMetadata,
+    ) -> None:
+        api_key = get_endecryptor().decrypt(stored.pinecone_config.encrypted_api_key)
+        # Delete all indexes stored in the config and passed as parameters
+        for index_metadata in stored.pinecone_config.indexes.values():
+            index_name = index_metadata.index_name
+            try:
+                logger.info("Deleting pincone index", extra={"kbid": kbid, "index_name": index_name})
+                await cls._delete_index(api_key, index_name)
+            except Exception:
+                logger.exception(
+                    "Error deleting pinecone index", extra={"kbid": kbid, "index_name": index_name}
+                )
+    @classmethod
+    @backoff.on_exception(
+        backoff.expo,
+        (PineconeAPIError,),
+        jitter=backoff.random_jitter,
+        max_tries=3,
+    )
+    async def _delete_index(cls, api_key: str, index_name: str) -> None:
+        control_plane = get_pinecone().control_plane(api_key=api_key)
+        await control_plane.delete_index(index_name)
+    async def rollover_create_indexes(
+        self, stored: kb_pb2.StoredExternalIndexProviderMetadata
+    ) -> kb_pb2.StoredExternalIndexProviderMetadata:
+        result = kb_pb2.StoredExternalIndexProviderMetadata()
+        result.CopyFrom(stored)
+        control_plane = get_pinecone().control_plane(api_key=self.api_key)
+        created_indexes = []
+        cloud = to_pinecone_serverless_cloud_payload(stored.pinecone_config.serverless_cloud)
+        try:
+            for vectorset_id, index in stored.pinecone_config.indexes.items():
+                rollover_index_name = PineconeIndexManager.get_index_name()
+                index_dimension = index.vector_dimension
+                similarity_metric = to_pinecone_index_metric(index.similarity)
+                logger.info(
+                    "Creating pincone rollover index",
+                    extra={
+                        "kbid": self.kbid,
+                        "index_name": index.index_name,
+                        "rollover_index_name": rollover_index_name,
+                        "similarity": similarity_metric,
+                        "vector_dimension": index_dimension,
+                        "vectorset_id": vectorset_id,
+                    },
+                )
+                try:
+                    index_host = await control_plane.create_index(
+                        name=rollover_index_name,
+                        dimension=index_dimension,
+                        metric=similarity_metric,
+                        serverless_cloud=cloud,
+                    )
+                    result.pinecone_config.indexes[vectorset_id].MergeFrom(
+                        kb_pb2.PineconeIndexMetadata(
+                            index_name=rollover_index_name,
+                            index_host=index_host,
+                            vector_dimension=index_dimension,
+                            similarity=index.similarity,
+                        )
+                    )
+                    created_indexes.append(rollover_index_name)
+                except PineconeAPIError as exc:
+                    raise ExternalIndexCreationError("pinecone", exc.message) from exc
+        except Exception:
+            # Rollback any created indexes
+            for index_name in created_indexes:
+                try:
+                    await self.__class__._delete_index(self.api_key, index_name)
+                except Exception:
+                    logger.exception(
+                        f"Could not rollback created pinecone index",
+                        extra={
+                            "kbid": self.kbid,
+                            "index_name": index_name,
+                        },
+                    )
+            raise
+        # Wait for all indexes to be in the ready state
+        wait_tasks = []
+        for index_name in created_indexes:
+            wait_tasks.append(
+                asyncio.create_task(self.wait_for_index_ready(index_name, max_wait_seconds=60))
+            )
+        if len(wait_tasks) > 0:
+            try:
+                await asyncio.gather(*wait_tasks)
+            except asyncio.TimeoutError:
+                logger.warning(
+                    "Timeout waiting for pinecone indexes to be ready",
+                    extra={"kbid": self.kbid, "indexes": created_indexes},
+                )
+        # Clear the rollover indexes and update the stored metadata
+        self.rollover_indexes.clear()
+        self.rollover_indexes = dict(result.pinecone_config.indexes)
+        return result
+    async def wait_for_index_ready(self, index_name: str, max_wait_seconds: int = 10) -> None:
+        """
+        Wait for an index to be ready.
+        Params:
+        - `name`: The name of the index to wait for.
+        - `max_wait_seconds`: The maximum number of seconds to wait.
+        """
+        control_plane = self.pinecone.control_plane(api_key=self.api_key)
+        for _ in range(max_wait_seconds):
+            try:
+                index = await control_plane.describe_index(index_name)
+                if index.status.ready:
+                    return
+            except PineconeAPIError:
+                logger.exception(
+                    "Failed to describe index while waiting for it to become ready.",
+                    extra={"kbid": self.kbid, "index_name": index_name},
+                )
+            await asyncio.sleep(1)
+        raise TimeoutError(f"Index {index_name} did not become ready after {max_wait_seconds} seconds.")
+    async def rollover_cutover_indexes(self) -> None:
+        assert len(self.rollover_indexes) > 0, "No rollover indexes to cutover to"
+        control_plane = self.pinecone.control_plane(api_key=self.api_key)
+        for index in self.indexes.values():
+            index_name = index.index_name
+            try:
+                await control_plane.delete_index(index.index_name)
+            except Exception:
+                logger.exception(
+                    "Error deleting pinecone index on cutover",
+                    extra={"kbid": self.kbid, "index_name": index_name},
+                )
+        self.indexes.clear()
+        self.indexes.update(self.rollover_indexes)
+    @classmethod
+    def get_index_name(cls) -> str:
+        """
+        Index names can't be longer than 45 characters and can only contain
+        alphanumeric lowercase characters: https://docs.pinecone.io/troubleshooting/restrictions-on-index-names
+        We generate a unique id for each pinecone index created.
+        `nuclia-` is prepended to easily identify which indexes are created by Nuclia.
+        Example:
+        >>> get_index_name()
+        'nuclia-2d899e8a0af54ac9a5addbd483d02ec9'
+        """
+        return f"nuclia-{uuid4().hex}"
+    async def _delete_resource_to_index(self, index_host: str, resource_uuid: str) -> None:
+        data_plane = self.get_data_plane(index_host=index_host)
+        with manager_observer({"operation": "delete_by_resource_prefix"}):
+            await data_plane.delete_by_id_prefix(
+                id_prefix=resource_uuid,
+                max_parallel_batches=self.delete_parallelism,
+                batch_timeout=self.delete_timeout,
+            )
+    async def _delete_resource(self, resource_uuid: str) -> None:
+        """
+        Deletes by resource uuid on all indexes in parallel.
+        """
+        delete_tasks = []
+        for index in self.indexes.values():
+            index_host = index.index_host
+            delete_tasks.append(
+                asyncio.create_task(
+                    self._delete_resource_to_index(
+                        index_host=index_host,
+                        resource_uuid=resource_uuid,
+                    )
+                )
+            )
+        if len(delete_tasks) > 0:
+            await asyncio.gather(*delete_tasks)
+    def get_vectorsets_in_resource(self, index_data: Resource) -> set[str]:
+        vectorsets: set[str] = set()
+        for _, paragraph in iter_paragraphs(index_data):
+            if not paragraph.sentences and not paragraph.vectorsets_sentences:
+                continue
+            if paragraph.sentences and self.default_vectorset:
+                vectorsets.add(self.default_vectorset)
+            for vectorset_id, vectorsets_sentences in paragraph.vectorsets_sentences.items():
+                if vectorsets_sentences.sentences:
+                    vectorsets.add(vectorset_id)
+            # Once we have found at least one paragraph with vectors, we can stop iterating
+            return vectorsets
+        return vectorsets
+    def get_index_host(self, vectorset_id: str, rollover: bool = False) -> str:
+        if rollover:
+            return self.rollover_indexes[vectorset_id].index_host
+        else:
+            return self.indexes[vectorset_id].index_host
+    def get_prefixes_to_delete(self, index_data: Resource) -> set[str]:
+        prefixes_to_delete = set()
+        # TODO: migrate to vector_prefixes_to_delete
+        for field_id in index_data.sentences_to_delete:
+            try:
+                delete_vid = VectorId.from_string(field_id)
+                prefixes_to_delete.add(delete_vid.field_id.full())
+            except ValueError:  # pragma: no cover
+                try:
+                    delete_field = FieldId.from_string(field_id)
+                    prefixes_to_delete.add(delete_field.full())
+                except ValueError:
+                    logger.warning(f"Invalid id to delete sentences from: {field_id}.")
+                    continue
+        for paragraph_id in index_data.paragraphs_to_delete:
+            try:
+                delete_pid = ParagraphId.from_string(paragraph_id)
+                prefixes_to_delete.add(delete_pid.field_id.full())
+            except ValueError:  # pragma: no cover
+                try:
+                    delete_field = FieldId.from_string(paragraph_id)
+                    prefixes_to_delete.add(delete_field.full())
+                except ValueError:
+                    logger.warning(f"Invalid id to delete: {paragraph_id}. ParagraphId expected.")
+                    continue
+        return prefixes_to_delete
+    async def _index_resource(
+        self, resource_uuid: str, index_data: Resource, to_rollover_indexes: bool = False
+    ) -> None:
+        """
+        Index NucliaDB resource into a Pinecone index.
+        Handles multiple vectorsets.
+        The algorithm is as follows:
+        - First, get the vectorsets for which we have vectors to upsert.
+        - Then, delete any previously existing vectors with the same field prefixes on all vectorsets.
+        - Then, iterate the fields and the paragraphs to compute the base metadata for each vector.
+        - After that, iterate the sentences now, and compute the list of vectors to upsert, and extend the vector
+          metadata with any specific sentence metadata. This is done for each vectorset.
+        - Finally, upsert the vectors to each vectorset index in parallel.
+        """
+        vectorsets = self.get_vectorsets_in_resource(index_data)
+        prefixes_to_delete = self.get_prefixes_to_delete(index_data)
+        delete_tasks = []
+        for vectorset in vectorsets:
+            index_host = self.get_index_host(vectorset_id=vectorset, rollover=to_rollover_indexes)
+            delete_tasks.append(
+                asyncio.create_task(
+                    self._delete_by_prefix_to_index(
+                        index_host=index_host,
+                        prefixes_to_delete=prefixes_to_delete,
+                    )
+                )
+            )
+        if len(delete_tasks) > 0:
+            await asyncio.gather(*delete_tasks)
+        with manager_observer({"operation": "compute_base_vector_metadatas"}):
+            base_vector_metadatas: dict[str, VectorMetadata] = await self.compute_base_vector_metadatas(
+                index_data, resource_uuid
+            )
+        with manager_observer({"operation": "compute_vectorset_vectors"}):
+            vectorset_vectors: dict[str, list[PineconeVector]] = await self.compute_vectorset_vectors(
+                index_data, base_vector_metadatas
+            )
+        upsert_tasks = []
+        for vectorset_id, vectors in vectorset_vectors.items():
+            index_host = self.get_index_host(vectorset_id=vectorset_id, rollover=to_rollover_indexes)
+            upsert_tasks.append(
+                asyncio.create_task(
+                    self._upsert_to_index(
+                        index_host=index_host,
+                        vectors=vectors,
+                    )
+                )
+            )
+        if len(upsert_tasks) > 0:
+            await asyncio.gather(*upsert_tasks)
+    async def _upsert_to_index(self, index_host: str, vectors: list[PineconeVector]) -> None:
+        if len(vectors) == 0:  # pragma: no cover
+            return
+        data_plane = self.get_data_plane(index_host=index_host)
+        with manager_observer({"operation": "upsert_in_batches"}):
+            await data_plane.upsert_in_batches(
+                vectors=vectors,
+                max_parallel_batches=self.upsert_parallelism,
+                batch_timeout=self.upsert_timeout,
+            )
+    async def _delete_by_prefix_to_index(self, index_host: str, prefixes_to_delete: set[str]) -> None:
+        if len(prefixes_to_delete) == 0:  # pragma: no cover
+            return
+        data_plane = self.get_data_plane(index_host=index_host)
+        with manager_observer({"operation": "delete_by_prefix"}):
+            for prefix in prefixes_to_delete:
+                await data_plane.delete_by_id_prefix(
+                    id_prefix=prefix,
+                    max_parallel_batches=self.delete_parallelism,
+                    batch_timeout=self.delete_timeout,
+                )
+    async def compute_base_vector_metadatas(
+        self, index_data: Resource, resource_uuid: str
+    ) -> dict[str, VectorMetadata]:
+        # This is a CPU bound operation and when the number of vectors is large, it can take a
+        # long time (around a second).
+        # Ideally, we would use a ProcessPoolExecutor to parallelize the computation of the metadata, but
+        # the Resource protobuf is not pickleable, so we can't use it in a ProcessPoolExecutor. This will
+        # be less of a problem when we move pinecone indexing to its own consumer.
+        return await asyncio.to_thread(self._compute_base_vector_metadatas, index_data, resource_uuid)
+    def _compute_base_vector_metadatas(
+        self, index_data: Resource, resource_uuid: str
+    ) -> dict[str, VectorMetadata]:
+        """
+        Compute the base metadata for each vector in the resource.
+        This metadata is common to all vectors in the same paragraph, for all vectorsets.
+        """
+        metadatas: dict[str, VectorMetadata] = {}
+        security_public = True
+        security_ids_with_access = None
+        if index_data.HasField("security"):
+            security_public = False
+            security_ids_with_access = list(set(index_data.security.access_groups))
+        resource_labels = set(index_data.labels)
+        date_created = index_data.metadata.created.ToSeconds()
+        date_modified = index_data.metadata.modified.ToSeconds()
+        # First off, iterate the fields and the paragraphs to compute the metadata for
+        # each vector, specifically the labels that will be used for filtering.
+        for field_id, text_info in index_data.texts.items():
+            field_labels = set(text_info.labels)
+            field_paragraphs = index_data.paragraphs.get(field_id)
+            if field_paragraphs is None:
+                logger.info(
+                    "Paragraphs not found for field",
+                    extra={"kbid": self.kbid, "rid": resource_uuid, "field_id": field_id},
+                )
+                continue
+            paragraph: IndexParagraph
+            for paragraph_id, paragraph in field_paragraphs.paragraphs.items():
+                fid = ParagraphId.from_string(paragraph_id).field_id
+                vector_metadata = VectorMetadata(
+                    rid=resource_uuid,
+                    field_type=fid.type,
+                    field_id=fid.key,
+                    date_created=date_created,
+                    date_modified=date_modified,
+                    security_public=security_public,
+                    security_ids_with_access=security_ids_with_access,
+                )
+                metadatas[paragraph_id] = vector_metadata
+                final_field_labels = resource_labels.union(field_labels)
+                if final_field_labels:
+                    vector_metadata.field_labels = unique(discard_labels(list(final_field_labels)))
+                final_paragraph_labels = paragraph.labels
+                if final_paragraph_labels:
+                    vector_metadata.paragraph_labels = unique(
+                        discard_labels(list(final_paragraph_labels))
+                    )
+        return metadatas
+    async def compute_vectorset_vectors(
+        self, index_data: Resource, base_vector_metadatas: dict[str, VectorMetadata]
+    ) -> dict[str, list[PineconeVector]]:
+        # This is a CPU bound operation and when the number of vectors is large, it can take a
+        # long time (around a second).
+        # Ideally, we would use a ProcessPoolExecutor to parallelize the computation of the metadata, but
+        # the Resource protobuf is not pickleable, so we can't use it in a ProcessPoolExecutor. This will
+        # be less of a problem when we move pinecone indexing to its own consumer.
+        return await asyncio.to_thread(
+            self._compute_vectorset_vectors, index_data, base_vector_metadatas
+        )
+    def _compute_vectorset_vectors(
+        self, index_data: Resource, base_vector_metadatas: dict[str, VectorMetadata]
+    ) -> dict[str, list[PineconeVector]]:
+        vectorset_vectors: dict[str, list[PineconeVector]] = {}
+        for index_paragraph_id, index_paragraph in iter_paragraphs(index_data):
+            # We must compute the vectors for each vectorset present the paragraph.
+            vectorset_iterators = {}
+            if index_paragraph.sentences and self.default_vectorset:
+                vectorset_iterators[self.default_vectorset] = index_paragraph.sentences.items()
+            for vectorset_id, vector_sentences in index_paragraph.vectorsets_sentences.items():
+                if vector_sentences.sentences:
+                    vectorset_iterators[vectorset_id] = vector_sentences.sentences.items()
+            vector_sentence: VectorSentence
+            for vectorset_id, sentences_iterator in vectorset_iterators.items():
+                for sentence_id, vector_sentence in sentences_iterator:
+                    vector_metadata_to_copy = base_vector_metadatas.get(index_paragraph_id)
+                    if vector_metadata_to_copy is None:
+                        logger.warning(
+                            f"Metadata not found for sentences of paragraph {index_paragraph_id}"
+                        )
+                        continue
+                    # Copy the initial metadata collected at paragraph parsing in case
+                    # the metadata is different for each vectorset
+                    vector_metadata = deepcopy(vector_metadata_to_copy)
+                    # AI-tables metadata
+                    if vector_sentence.metadata.page_with_visual:
+                        vector_metadata.page_with_visual = True
+                    if vector_sentence.metadata.representation.is_a_table:
+                        vector_metadata.is_a_table = True
+                    if vector_sentence.metadata.representation.file:
+                        vector_metadata.representation_file = (
+                            vector_sentence.metadata.representation.file
+                        )
+                    # Video positions
+                    if len(vector_sentence.metadata.position.start_seconds):
+                        vector_metadata.position_start_seconds = list(
+                            map(str, vector_sentence.metadata.position.start_seconds)
+                        )
+                    if len(vector_sentence.metadata.position.end_seconds):
+                        vector_metadata.position_end_seconds = list(
+                            map(str, vector_sentence.metadata.position.end_seconds)
+                        )
+                    vector_metadata.page_number = vector_sentence.metadata.position.page_number
+                    try:
+                        pc_vector = PineconeVector(
+                            id=sentence_id,
+                            values=list(vector_sentence.vector),
+                            metadata=vector_metadata.model_dump(exclude_none=True),
+                        )
+                    except MetadataTooLargeError as exc:  # pragma: no cover
+                        logger.error(f"Invalid Pinecone vector. Metadata is too large. Skipping: {exc}")
+                        continue
+                    vectors = vectorset_vectors.setdefault(vectorset_id, [])
+                    vectors.append(pc_vector)
+        return vectorset_vectors
+    async def _query(self, request: SearchRequest) -> PineconeQueryResults:
+        if len(request.vector) == 0:
+            return PineconeQueryResults(results=QueryResponse(matches=[]))
+        vectorset_id = request.vectorset or self.default_vectorset or "__default__"
+        index_host = self.get_index_host(vectorset_id=vectorset_id)
+        data_plane = self.get_data_plane(index_host=index_host)
+        filter = convert_to_pinecone_filter(request)
+        top_k = (request.page_number + 1) * request.result_per_page
+        query_results = await data_plane.query(
+            vector=list(request.vector),
+            top_k=top_k,
+            include_values=False,
+            include_metadata=True,
+            filter=filter,
+            timeout=self.query_timeout,
+        )
+        # filter by min score manually, as Pinecone don't implement this feature
+        results = QueryResponse(
+            matches=[
+                match for match in query_results.matches if match.score >= request.min_score_semantic
+            ]
+        )
+        return PineconeQueryResults(results=results)
+    async def _get_index_counts(self) -> IndexCounts:
+        if self.kbid in COUNTERS_CACHE:
+            # Cache hit
+            return COUNTERS_CACHE[self.kbid]
+        total = IndexCounts(
+            fields=0,
+            paragraphs=0,
+            sentences=0,
+        )
+        tasks = []
+        vectorset_results: dict[str, IndexCounts] = {}
+        for vectorset_id in self.indexes.keys():
+            tasks.append(
+                asyncio.create_task(self._get_vectorset_index_counts(vectorset_id, vectorset_results))
+            )
+        if len(tasks) > 0:
+            await asyncio.gather(*tasks)
+        for _, counts in vectorset_results.items():
+            total.paragraphs += counts.paragraphs
+            total.sentences += counts.sentences
+        COUNTERS_CACHE[self.kbid] = total
+        return total
+    async def _get_vectorset_index_counts(
+        self, vectorset_id: str, results: dict[str, IndexCounts]
+    ) -> None:
+        index_host = self.get_index_host(vectorset_id=vectorset_id)
+        data_plane = self.get_data_plane(index_host=index_host)
+        try:
+            index_stats = await data_plane.stats()
+            results[vectorset_id] = IndexCounts(
+                fields=0,
+                paragraphs=index_stats.totalVectorCount,
+                sentences=index_stats.totalVectorCount,
+            )
+        except Exception:
+            logger.exception(
+                "Error getting index stats",
+                extra={"kbid": self.kbid, "provider": self.type.value, "index_host": index_host},
+            )
+def discard_labels(labels: list[str]) -> list[str]:
+    return [
+        label
+        for label in labels
+        if not any(label.startswith(prefix) for prefix in DISCARDED_LABEL_PREFIXES)
+    ]
+def unique(labels: list[str]) -> list[str]:
+    return list(set(labels))
+def convert_to_pinecone_filter(request: SearchRequest) -> Optional[dict[str, Any]]:
+    """
+    Returns a Pinecone filter from a SearchRequest so that RAG features supported by Nuclia
+    can be used on Pinecone indexes.
+    """
+    and_terms = []
+    if request.HasField("filter"):
+        # Label filtering
+        if len(request.filter.paragraph_labels) > 0 and len(request.filter.field_labels) > 0:
+            raise ValueError("Cannot filter by paragraph and field labels at the same request")
+        decoded_expression: dict[str, Any] = json.loads(request.filter.labels_expression)
+        if len(request.filter.paragraph_labels) > 0:
+            and_terms.append(convert_label_filter_expression("paragraph_labels", decoded_expression))
+        else:
+            and_terms.append(convert_label_filter_expression("field_labels", decoded_expression))
+    if request.HasField("timestamps"):
+        # Date range filtering
+        and_terms.extend(convert_timestamp_filter(request.timestamps))
+    if len(request.key_filters) > 0:
+        # Filter by resource_id
+        and_terms.append({"rid": {FilterOperator.IN: list(set(request.key_filters))}})
+    if len(request.security.access_groups):
+        # Security filtering
+        security_term = {
+            LogicalOperator.OR: [
+                {"security_public": {"$eq": True}},
+                {
+                    "security_ids_with_access": {
+                        FilterOperator.IN: list(set(request.security.access_groups))
+                    }
+                },
+            ]
+        }
+        and_terms.append(security_term)
+    if len(request.fields) > 0:
+        # Filter by field_id
+        fields_term = {
+            "field_id": {FilterOperator.IN: list({field_id.strip("/") for field_id in request.fields})}
+        }
+        and_terms.append(fields_term)
+    if len(and_terms) == 0:
+        return None
+    if len(and_terms) == 1:
+        return and_terms[0]
+    return {LogicalOperator.AND: and_terms}
+def convert_label_filter_expression(
+    field: str, expression: dict[str, Any], negative: bool = False
+) -> dict[str, Any]:
+    """
+    Converts internal label filter expressions to Pinecone's metadata query language.
+    Note: Since Pinecone does not support negation of expressions, we need to use De Morgan's laws to
+    convert the expression to a positive one.
+    """
+    if "literal" in expression:
+        if negative:
+            return {field: {FilterOperator.NOT_IN: [expression["literal"]]}}
+        else:
+            return {field: {FilterOperator.IN: [expression["literal"]]}}
+    if "and" in expression:
+        if negative:
+            return {
+                LogicalOperator.OR: [
+                    convert_label_filter_expression(field, sub_expression, negative=True)
+                    for sub_expression in expression["and"]
+                ]
+            }
+        else:
+            return {
+                LogicalOperator.AND: [
+                    convert_label_filter_expression(field, sub_expression)
+                    for sub_expression in expression["and"]
+                ]
+            }
+    if "or" in expression:
+        if negative:
+            return {
+                LogicalOperator.AND: [
+                    convert_label_filter_expression(field, sub_expression, negative=True)
+                    for sub_expression in expression["or"]
+                ]
+            }
+        else:
+            return {
+                LogicalOperator.OR: [
+                    convert_label_filter_expression(field, sub_expression)
+                    for sub_expression in expression["or"]
+                ]
+            }
+    if "not" in expression:
+        return convert_label_filter_expression(field, expression["not"], negative=True)
+    raise ValueError(f"Invalid label filter expression: {expression}")
+def convert_timestamp_filter(timestamps: Timestamps) -> list[dict[str, Any]]:
+    """
+    Allows to filter by date_created and date_modified fields in Pinecone.
+    Powers date range filtering at NucliaDB.
+    """
+    and_terms = []
+    if timestamps.HasField("from_modified"):
+        and_terms.append(
+            {
+                "date_modified": {
+                    FilterOperator.GREATER_THAN_OR_EQUAL: timestamps.from_modified.ToSeconds()
+                }
+            }
+        )
+    if timestamps.HasField("to_modified"):
+        and_terms.append(
+            {"date_modified": {FilterOperator.LESS_THAN_OR_EQUAL: timestamps.to_modified.ToSeconds()}}
+        )
+    if timestamps.HasField("from_created"):
+        and_terms.append(
+            {"date_created": {FilterOperator.GREATER_THAN_OR_EQUAL: timestamps.from_created.ToSeconds()}}
+        )
+    if timestamps.HasField("to_created"):
+        and_terms.append(
+            {"date_created": {FilterOperator.LESS_THAN_OR_EQUAL: timestamps.to_created.ToSeconds()}}
+        )
+    return and_terms
+def iter_paragraphs(resource: Resource) -> Iterator[tuple[str, IndexParagraph]]:
+    for _, paragraphs in resource.paragraphs.items():
+        for paragraph_id, paragraph in paragraphs.paragraphs.items():
+            yield paragraph_id, paragraph
+def to_pinecone_index_metric(similarity: utils_pb2.VectorSimilarity.ValueType) -> str:
+    return {
+        utils_pb2.VectorSimilarity.COSINE: "cosine",
+        utils_pb2.VectorSimilarity.DOT: "dotproduct",
+    }[similarity]
+def to_pinecone_serverless_cloud_payload(
+    serverless: kb_pb2.PineconeServerlessCloud.ValueType,
+) -> dict[str, str]:
+    return {
+        kb_pb2.PineconeServerlessCloud.AWS_EU_WEST_1: {
+            "cloud": "aws",
+            "region": "eu-west-1",
+        },
+        kb_pb2.PineconeServerlessCloud.AWS_US_EAST_1: {
+            "cloud": "aws",
+            "region": "us-east-1",
+        },
+        kb_pb2.PineconeServerlessCloud.AWS_US_WEST_2: {
+            "cloud": "aws",
+            "region": "us-west-2",
+        },
+        kb_pb2.PineconeServerlessCloud.AZURE_EASTUS2: {
+            "cloud": "azure",
+            "region": "eastus2",
+        },
+        kb_pb2.PineconeServerlessCloud.GCP_US_CENTRAL1: {
+            "cloud": "gcp",
+            "region": "us-central1",
+        },
+    }[serverless]

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl