PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/migrator/datamanager.py CHANGED Viewed

@@ -47,17 +47,19 @@ class MigrationsDataManager:
         self.driver = driver
     async def schedule_all_kbs(self, target_version: int) -> None:
+        # Get all kb ids
+        async with self.driver.transaction(read_only=True) as txn:
+            kbids = [kbid async for kbid, _ in datamanagers.kb.get_kbs(txn)]
+        # Schedule the migrations
         async with self.driver.transaction() as txn:
-            async for kbid, _ in datamanagers.kb.get_kbs(txn):
-                await txn.set(
-                    MIGRATIONS_KEY.format(kbid=kbid), str(target_version).encode()
-                )
+            for kbid in kbids:
+                await txn.set(MIGRATIONS_KEY.format(kbid=kbid), str(target_version).encode())
             await txn.commit()
-    async def get_kb_migrations(self, limit: int = 100) -> list[str]:
+    async def get_kb_migrations(self) -> list[str]:
         keys = []
         async with self.driver.transaction() as txn:
-            async for key in txn.keys(MIGRATIONS_CONTAINER_KEY, count=limit):
+            async for key in txn.keys(MIGRATIONS_CONTAINER_KEY):
                 keys.append(key.split("/")[-1])
         return keys
@@ -68,7 +70,7 @@ class MigrationsDataManager:
             await txn.commit()
     async def get_kb_info(self, kbid: str) -> Optional[KnowledgeBoxInfo]:
-        async with self.driver.transaction() as txn:
+        async with self.driver.transaction(read_only=True) as txn:
             kb_config = await datamanagers.kb.get_config(txn, kbid=kbid)
             if kb_config is None:
                 return None
@@ -76,7 +78,7 @@ class MigrationsDataManager:
     async def update_kb_info(self, *, kbid: str, current_version: int) -> None:
         async with self.driver.transaction() as txn:
-            kb_config = await datamanagers.kb.get_config(txn, kbid=kbid)
+            kb_config = await datamanagers.kb.get_config(txn, kbid=kbid, for_update=True)
             if kb_config is None:
                 raise Exception(f"KB {kbid} does not exist")
             kb_config.migration_version = current_version
@@ -84,15 +86,13 @@ class MigrationsDataManager:
             await txn.commit()
     async def get_global_info(self) -> GlobalInfo:
-        async with self.driver.transaction() as txn:
+        async with self.driver.transaction(read_only=True) as txn:
             raw_pb = await txn.get(MIGRATION_INFO_KEY)
         if raw_pb is None:
             return GlobalInfo(current_version=0, target_version=None)
         pb = migrations_pb2.MigrationInfo()
         pb.ParseFromString(raw_pb)
-        return GlobalInfo(
-            current_version=pb.current_version, target_version=pb.target_version
-        )
+        return GlobalInfo(current_version=pb.current_version, target_version=pb.target_version)
     async def update_global_info(
         self,
@@ -101,7 +101,7 @@ class MigrationsDataManager:
         target_version: Union[int, None, _Unset] = _UNSET,
     ) -> None:
         async with self.driver.transaction() as txn:
-            raw_pb = await txn.get(MIGRATION_INFO_KEY)
+            raw_pb = await txn.get(MIGRATION_INFO_KEY, for_update=True)
             pb = migrations_pb2.MigrationInfo()
             if raw_pb is not None:
                 pb.ParseFromString(raw_pb)

nucliadb/migrator/migrator.py CHANGED Viewed

@@ -22,22 +22,20 @@ import logging
 from typing import Optional
 from nucliadb.common import locking
-from nucliadb.common.cluster.rollover import rollover_kb_shards
+from nucliadb.common.cluster.rollover import rollover_kb_index
+from nucliadb.common.cluster.settings import in_standalone_mode
+from nucliadb.common.maindb.pg import PGDriver
 from nucliadb.migrator.context import ExecutionContext
-from nucliadb.migrator.utils import get_migrations
+from nucliadb.migrator.utils import get_migrations, get_pg_migrations
 from nucliadb_telemetry import errors, metrics
-migration_observer = metrics.Observer(
-    "nucliadb_migrations", labels={"type": "kb", "target_version": ""}
-)
+migration_observer = metrics.Observer("nucliadb_migrations", labels={"type": "kb", "target_version": ""})
 logger = logging.getLogger(__name__)
-async def run_kb_migrations(
-    context: ExecutionContext, kbid: str, target_version: int
-) -> None:
+async def run_kb_migrations(context: ExecutionContext, kbid: str, target_version: int) -> None:
     async with locking.distributed_lock(f"migration-{kbid}"):
         kb_info = await context.data_manager.get_kb_info(kbid)
         if kb_info is None:
@@ -45,9 +43,7 @@ async def run_kb_migrations(
             await context.data_manager.delete_kb_migration(kbid=kbid)
             return
-        migrations = get_migrations(
-            from_version=kb_info.current_version, to_version=target_version
-        )
+        migrations = get_migrations(from_version=kb_info.current_version, to_version=target_version)
         for migration in migrations:
             migration_info = {
@@ -57,15 +53,11 @@ async def run_kb_migrations(
             }
             try:
-                logger.warning("Migrating KB", extra=migration_info)
-                with migration_observer(
-                    {"type": "kb", "target_version": str(migration.version)}
-                ):
-                    await migration.module.migrate_kb(context, kbid)  # type: ignore
-                logger.warning("Finished KB Migration", extra=migration_info)
-                await context.data_manager.update_kb_info(
-                    kbid=kbid, current_version=migration.version
-                )
+                logger.info("Migrating KB", extra=migration_info)
+                with migration_observer({"type": "kb", "target_version": str(migration.version)}):
+                    await migration.module.migrate_kb(context, kbid)
+                logger.info("Finished KB Migration", extra=migration_info)
+                await context.data_manager.update_kb_info(kbid=kbid, current_version=migration.version)
             except Exception as exc:
                 errors.capture_exception(exc)
                 logger.exception("Failed to migrate KB", extra=migration_info)
@@ -73,9 +65,7 @@ async def run_kb_migrations(
         refreshed_kb_info = await context.data_manager.get_kb_info(kbid=kbid)
         if refreshed_kb_info is None:
-            logger.warning(
-                "KB not found. This should not happen.", extra={"kbid": kbid}
-            )
+            logger.warning("KB not found. This should not happen.", extra={"kbid": kbid})
             return
         assert refreshed_kb_info.current_version == target_version
@@ -87,12 +77,14 @@ async def run_all_kb_migrations(context: ExecutionContext, target_version: int)
     Schedule all KB migrations to run in parallel. Only a certain number of migrations will run at the same time.
     If any of the migrations fail, the whole process will fail.
     """
-    to_migrate = await context.data_manager.get_kb_migrations(limit=-1)
+    to_migrate = await context.data_manager.get_kb_migrations()
     if len(to_migrate) == 0:
         return
-    max_concurrent = context.settings.max_concurrent_migrations
+    if in_standalone_mode():
+        max_concurrent = 1
+    else:
+        max_concurrent = context.settings.max_concurrent_migrations
     semaphore = asyncio.Semaphore(max_concurrent)
     logger.info(
@@ -150,15 +142,11 @@ async def run_global_migrations(context: ExecutionContext, target_version: int)
             "to_version": migration.version,
         }
         try:
-            logger.warning("Migrating", extra=migration_info)
-            with migration_observer(
-                {"type": "global", "target_version": str(migration.version)}
-            ):
-                await migration.module.migrate(context)  # type: ignore
-            await context.data_manager.update_global_info(
-                current_version=migration.version
-            )
-            logger.warning("Finished migration", extra=migration_info)
+            logger.info("Migrating", extra=migration_info)
+            with migration_observer({"type": "global", "target_version": str(migration.version)}):
+                await migration.module.migrate(context)
+            await context.data_manager.update_global_info(current_version=migration.version)
+            logger.info("Finished migration", extra=migration_info)
         except Exception as exc:
             errors.capture_exception(exc)
             logger.exception("Failed to migrate", extra=migration_info)
@@ -174,7 +162,7 @@ async def run_rollover_in_parallel(
 ) -> None:
     async with max_concurrent:
         try:
-            await rollover_kb_shards(context, kbid)
+            await rollover_kb_index(context, kbid)
             await context.data_manager.delete_kb_rollover(kbid=kbid)
         except Exception as exc:
             errors.capture_exception(exc)
@@ -218,8 +206,40 @@ async def run_rollovers(context: ExecutionContext) -> None:
         raise Exception(f"Failed to migrate KBs. Failures: {failures}")
+async def run_pg_schema_migrations(driver: PGDriver):
+    migrations = get_pg_migrations()
+    # The migration uses two transactions. The former is only used to get a lock (pg_advisory_lock)
+    # without having to worry about correctly unlocking it (postgres unlocks it when the transaction ends)
+    async with driver.transaction() as tx_lock, tx_lock.connection.cursor() as cur_lock:  # type: ignore[attr-defined]
+        await cur_lock.execute(
+            "CREATE TABLE IF NOT EXISTS migrations (version INT PRIMARY KEY, migrated_at TIMESTAMP NOT NULL DEFAULT NOW())"
+        )
+        await tx_lock.commit()
+        await cur_lock.execute("SELECT pg_advisory_xact_lock(3116614845278015934)")
+        await cur_lock.execute("SELECT version FROM migrations")
+        migrated = [r[0] for r in await cur_lock.fetchall()]
+        for version, migration in migrations:
+            if version in migrated:
+                continue
+            # Gets a new transaction for each migration, so if they get interrupted we at least
+            # save the state of the last finished transaction
+            async with driver.transaction() as tx, tx.connection.cursor() as cur:  # type: ignore[attr-defined]
+                await migration.migrate(tx)
+                await cur.execute("INSERT INTO migrations (version) VALUES (%s)", (version,))
+                await tx.commit()
 async def run(context: ExecutionContext, target_version: Optional[int] = None) -> None:
-    async with locking.distributed_lock("migration"):
+    # Run schema migrations first, since they create the `resources` table needed for the lock below
+    # Schema migrations use their own locking system
+    if isinstance(context.kv_driver, PGDriver):
+        await run_pg_schema_migrations(context.kv_driver)
+    async with locking.distributed_lock(locking.MIGRATIONS_LOCK):
         # before we move to managed migrations, see if there are any rollovers
         # scheduled and run them
         await run_rollovers(context)

nucliadb/migrator/settings.py CHANGED Viewed

@@ -20,9 +20,10 @@
 from typing import Optional
 import pydantic
+import pydantic_settings
-class Settings(pydantic.BaseSettings):
+class Settings(pydantic_settings.BaseSettings):
     redis_url: Optional[str] = None
     max_concurrent_migrations: int = pydantic.Field(
         default=5,

nucliadb/migrator/utils.py CHANGED Viewed

@@ -17,13 +17,12 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
+import importlib
 import logging
 import os
 import types
 from functools import lru_cache
-import migrations
 from .models import Migration
 logger = logging.getLogger(__name__)
@@ -33,14 +32,27 @@ MIGRATION_DIR = os.path.sep.join(
 )
+def get_pg_migrations() -> list[tuple[int, types.ModuleType]]:
+    output = []
+    for filename in os.listdir(os.path.join(MIGRATION_DIR, "pg")):
+        if filename.endswith(".py") and filename != "__init__.py":
+            module_name = filename[:-3]
+            version = int(module_name.split("_")[0])
+            module = importlib.import_module(f"migrations.pg.{module_name}")
+            if not hasattr(module, "migrate"):
+                raise Exception(f"Missing `migrate` function in {module_name}")
+            output.append((version, module))
+    output.sort()
+    return output
 def get_migration_modules() -> list[tuple[types.ModuleType, int]]:
     output = []
     for filename in os.listdir(MIGRATION_DIR):
         if filename.endswith(".py") and filename != "__init__.py":
             module_name = filename[:-3]
             version = int(module_name.split("_")[0])
-            __import__(f"migrations.{module_name}")
-            module = getattr(migrations, module_name)
+            module = importlib.import_module(f"migrations.{module_name}")
             if not hasattr(module, "migrate"):
                 raise Exception(f"Missing `migrate` function in {module_name}")
             if not hasattr(module, "migrate_kb"):
@@ -49,17 +61,13 @@ def get_migration_modules() -> list[tuple[types.ModuleType, int]]:
     return output
-def get_migrations(
-    from_version: int = 0, to_version: int = 99999999
-) -> list[Migration]:
+def get_migrations(from_version: int = 0, to_version: int = 99999999) -> list[Migration]:
     migrations: list[Migration] = []
     for module, version in get_migration_modules():
         migrations.append(Migration(version=version, module=module))
     migrations.sort(key=lambda m: m.version)
-    return [
-        m for m in migrations if m.version > from_version and m.version <= to_version
-    ]
+    return [m for m in migrations if m.version > from_version and m.version <= to_version]
 @lru_cache(maxsize=None)

nucliadb/purge/__init__.py CHANGED Viewed

@@ -18,10 +18,9 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import asyncio
+import importlib.metadata
 from typing import AsyncGenerator
-import pkg_resources
 from nucliadb.common.cluster.exceptions import NodeError, ShardNotFound
 from nucliadb.common.cluster.utils import setup_cluster, teardown_cluster
 from nucliadb.common.maindb.driver import Driver
@@ -31,6 +30,9 @@ from nucliadb.ingest.orm.knowledgebox import (
     KB_TO_DELETE,
     KB_TO_DELETE_BASE,
     KB_TO_DELETE_STORAGE_BASE,
+    KB_VECTORSET_TO_DELETE,
+    KB_VECTORSET_TO_DELETE_BASE,
+    RESOURCE_TO_DELETE_STORAGE_BASE,
     KnowledgeBox,
 )
 from nucliadb_telemetry import errors
@@ -41,7 +43,7 @@ from nucliadb_utils.utilities import get_storage
 async def _iter_keys(driver: Driver, match: str) -> AsyncGenerator[str, None]:
     async with driver.transaction(read_only=True) as keys_txn:
-        async for key in keys_txn.keys(match=match, count=-1):
+        async for key in keys_txn.keys(match=match):
             yield key
@@ -52,9 +54,7 @@ async def purge_kb(driver: Driver):
         try:
             kbid = key.split("/")[2]
         except Exception:
-            logger.warning(
-                f"  X Skipping purge {key}, wrong key format, expected {KB_TO_DELETE_BASE}"
-            )
+            logger.warning(f"  X Skipping purge {key}, wrong key format, expected {KB_TO_DELETE_BASE}")
             continue
         try:
@@ -62,15 +62,11 @@ async def purge_kb(driver: Driver):
             logger.info(f"  √ Successfully Purged {kbid}")
         except ShardNotFound as exc:
             errors.capture_exception(exc)
-            logger.error(
-                f"  X At least one shard was unavailable while purging {kbid}, skipping"
-            )
+            logger.error(f"  X At least one shard was unavailable while purging {kbid}, skipping")
             continue
         except NodeError as exc:
             errors.capture_exception(exc)
-            logger.error(
-                f"  X At least one node was unavailable while purging {kbid}, skipping"
-            )
+            logger.error(f"  X At least one node was unavailable while purging {kbid}, skipping")
             continue
         except Exception as exc:
@@ -82,10 +78,10 @@ async def purge_kb(driver: Driver):
         # Now delete the tikv delete mark
         try:
-            txn = await driver.begin()
-            key_to_purge = KB_TO_DELETE.format(kbid=kbid)
-            await txn.delete(key_to_purge)
-            await txn.commit()
+            async with driver.transaction() as txn:
+                key_to_purge = KB_TO_DELETE.format(kbid=kbid)
+                await txn.delete(key_to_purge)
+                await txn.commit()
             logger.info(f"  √ Deleted {key_to_purge}")
         except Exception as exc:
             errors.capture_exception(exc)
@@ -112,16 +108,12 @@ async def purge_kb_storage(driver: Driver, storage: Storage):
         delete_marker = False
         if conflict:
-            logger.info(
-                f"  . Nothing was deleted for {key}, (Bucket not yet empty), will try next time"
-            )
+            logger.info(f"  . Nothing was deleted for {key}, (Bucket not yet empty), will try next time")
             # Just in case something failed while setting a lifecycle policy to
             # remove all elements from the bucket, reschedule it
             await storage.schedule_delete_kb(kbid)
         elif not deleted:
-            logger.info(
-                f"  ! Expected bucket for {key} was not found, will delete marker"
-            )
+            logger.info(f"  ! Expected bucket for {key} was not found, will delete marker")
             delete_marker = True
         elif deleted:
             logger.info("  √ Bucket successfully deleted")
@@ -129,19 +121,122 @@ async def purge_kb_storage(driver: Driver, storage: Storage):
         if delete_marker:
             try:
-                txn = await driver.begin()
-                await txn.delete(key)
+                async with driver.transaction() as txn:
+                    await txn.delete(key)
+                    await txn.commit()
                 logger.info(f"  √ Deleted storage deletion marker {key}")
             except Exception as exc:
                 errors.capture_exception(exc)
                 logger.info(f"  X Error while deleting key {key}")
-                await txn.abort()
-            else:
-                await txn.commit()
     logger.info("FINISH PURGING KB STORAGE")
+async def purge_deleted_resource_storage(driver: Driver, storage: Storage) -> None:
+    """
+    Remove from storage all resources marked as deleted.
+    Returns the number of resources purged.
+    """
+    logger.info("Starting purge of deleted resource storage")
+    to_purge = await _count_resources_storage_to_purge(driver)
+    logger.info(f"Found {to_purge} resources to purge")
+    while True:
+        try:
+            purged = await _purge_resources_storage_batch(driver, storage, batch_size=100)
+            if not purged:
+                logger.info("No more resources to purge found")
+                return
+            logger.info(f"Purged {purged} resources")
+        except asyncio.CancelledError:
+            logger.info("Purge of deleted resource storage was cancelled")
+            return
+async def _count_resources_storage_to_purge(driver: Driver) -> int:
+    """
+    Count the number of resources marked as deleted in storage.
+    """
+    async with driver.transaction(read_only=True) as txn:
+        return await txn.count(match=RESOURCE_TO_DELETE_STORAGE_BASE)
+async def _purge_resources_storage_batch(driver: Driver, storage: Storage, batch_size: int = 100) -> int:
+    """
+    Remove from storage a batch of resources marked as deleted. Returns the
+    number of resources purged.
+    """
+    # Get the keys of the resources to delete in batches of 100
+    to_delete_batch = []
+    async with driver.transaction(read_only=True) as txn:
+        async for key in txn.keys(match=RESOURCE_TO_DELETE_STORAGE_BASE, count=batch_size):
+            to_delete_batch.append(key)
+    if not to_delete_batch:
+        return 0
+    # Delete the resources blobs from storage
+    logger.info(f"Purging {len(to_delete_batch)} deleted resources")
+    tasks = []
+    for key in to_delete_batch:
+        kbid, resource_id = key.split("/")[-2:]
+        tasks.append(asyncio.create_task(storage.delete_resource(kbid, resource_id)))
+    await asyncio.gather(*tasks)
+    # Delete the schedule-to-delete keys
+    async with driver.transaction() as txn:
+        for key in to_delete_batch:
+            await txn.delete(key)
+        await txn.commit()
+    return len(to_delete_batch)
+async def purge_kb_vectorsets(driver: Driver, storage: Storage):
+    """Vectors for a vectorset are stored in a key inside each resource. Iterate
+    through all resources of the KB and remove any storage object containing
+    vectors for the specific vectorset to purge.
+    """
+    logger.info("START PURGING KB VECTORSETS")
+    purged = []
+    async for key in _iter_keys(driver, KB_VECTORSET_TO_DELETE_BASE):
+        logger.info(f"Purging vectorsets {key}")
+        try:
+            _base, kbid, vectorset = key.lstrip("/").split("/")
+        except ValueError:
+            logger.info(f"  X Skipping purge {key}, wrong key format, expected {KB_VECTORSET_TO_DELETE}")
+            continue
+        try:
+            async with driver.transaction(read_only=True) as txn:
+                kb = KnowledgeBox(txn, storage, kbid)
+                async for resource in kb.iterate_resources():
+                    fields = await resource.get_fields(force=True)
+            # we don't need the maindb transaction anymore to remove vectors from storage
+            for field in fields.values():
+                await field.delete_vectors(vectorset)
+        except Exception as exc:
+            errors.capture_exception(exc)
+            logger.error(
+                f"  X ERROR while executing KB vectorset purge, skipping",
+                exc_info=exc,
+                extra={"kbid": kbid},
+            )
+            continue
+        purged.append(key)
+    async with driver.transaction() as txn:
+        for key in purged:
+            await txn.delete(key)
+        await txn.commit()
+    logger.info("FINISH PURGING KB VECTORSETS")
 async def main():
     """
     This script will purge all knowledge boxes marked to be deleted in maindb.
@@ -153,17 +248,28 @@ async def main():
         service_name=SERVICE_NAME,
     )
     try:
+        purge_resources_storage_task = asyncio.create_task(
+            purge_deleted_resource_storage(driver, storage)
+        )
         await purge_kb(driver)
         await purge_kb_storage(driver, storage)
+        await purge_kb_vectorsets(driver, storage)
+        await purge_resources_storage_task
+    except Exception as ex:  # pragma: no cover
+        logger.exception("Unhandled exception on purge command")
+        errors.capture_exception(ex)
     finally:
-        await storage.finalize()
-        await teardown_driver()
-        await teardown_cluster()
+        try:
+            purge_resources_storage_task.cancel()
+            await storage.finalize()
+            await teardown_driver()
+            await teardown_cluster()
+        except Exception:  # pragma: no cover
+            logger.exception("Error tearing down utilities on purge command")
+            pass
 def run() -> int:  # pragma: no cover
     setup_logging()
-    errors.setup_error_handling(pkg_resources.get_distribution("nucliadb").version)
+    errors.setup_error_handling(importlib.metadata.distribution("nucliadb").version)
     return asyncio.run(main())

nucliadb/purge/orphan_shards.py CHANGED Viewed

@@ -19,11 +19,11 @@
 import argparse
 import asyncio
+import importlib.metadata
 from dataclasses import dataclass
 from typing import Optional
-import pkg_resources
-from grpc.aio import AioRpcError  # type: ignore
+from grpc.aio import AioRpcError
 from nucliadb.common import datamanagers
 from nucliadb.common.cluster import manager
@@ -86,7 +86,7 @@ async def detect_orphan_shards(driver: Driver) -> dict[str, ShardLocation]:
     orphan_shard_ids = indexed_shards.keys() - stored_shards.keys()
     orphan_shards: dict[str, ShardLocation] = {}
     unavailable_nodes: set[str] = set()
-    async with datamanagers.with_transaction() as txn:
+    async with datamanagers.with_ro_transaction() as txn:
         for shard_id in orphan_shard_ids:
             node_id = indexed_shards[shard_id].node_id
             node = manager.get_index_node(node_id)  # type: ignore
@@ -99,9 +99,7 @@ async def detect_orphan_shards(driver: Driver) -> dict[str, ShardLocation]:
             # Shards with knwon KB ids can be checked and ignore those comming from
             # an ongoing migration/rollover
             if kbid != UNKNOWN_KB:
-                skip = await datamanagers.rollover.is_rollover_shard(
-                    txn, kbid=kbid, shard_id=shard_id
-                )
+                skip = await datamanagers.rollover.is_rollover_shard(txn, kbid=kbid, shard_id=shard_id)
                 if skip:
                     continue
@@ -133,18 +131,14 @@ async def _get_stored_shards(driver: Driver) -> dict[str, ShardLocation]:
             try:
                 kb_shards = await shards_manager.get_shards_by_kbid(kbid)
             except ShardsNotFound:
-                logger.warning(
-                    "KB not found while looking for orphan shards", extra={"kbid": kbid}
-                )
+                logger.warning("KB not found while looking for orphan shards", extra={"kbid": kbid})
                 continue
             else:
                 for shard_object_pb in kb_shards:
                     for shard_replica_pb in shard_object_pb.replicas:
                         shard_replica_id = shard_replica_pb.shard.id
                         node_id = shard_replica_pb.node
-                        stored_shards[shard_replica_id] = ShardLocation(
-                            kbid=kbid, node_id=node_id
-                        )
+                        stored_shards[shard_replica_id] = ShardLocation(kbid=kbid, node_id=node_id)
     return stored_shards
@@ -264,6 +258,6 @@ async def main():
 def run() -> int:  # pragma: no cover
     setup_logging()
-    errors.setup_error_handling(pkg_resources.get_distribution("nucliadb").version)
+    errors.setup_error_handling(importlib.metadata.distribution("nucliadb").version)
     return asyncio.run(main())

nucliadb/reader/__init__.py CHANGED Viewed

@@ -29,9 +29,7 @@ API_PREFIX = "api"
 class EndpointFilter(logging.Filter):
     def filter(self, record: logging.LogRecord) -> bool:
         return (
-            record.args is not None
-            and len(record.args) >= 3
-            and record.args[2] not in ("/", "/metrics")  # type: ignore
+            record.args is not None and len(record.args) >= 3 and record.args[2] not in ("/", "/metrics")  # type: ignore
         )

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl