PyPI - nucliadb - Versions diffs - 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl - Mend

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (431) hide show

migrations/0002_rollover_shards.py +1 -2
migrations/0003_allfields_key.py +2 -37
migrations/0004_rollover_shards.py +1 -2
migrations/0005_rollover_shards.py +1 -2
migrations/0006_rollover_shards.py +2 -4
migrations/0008_cleanup_leftover_rollover_metadata.py +1 -2
migrations/0009_upgrade_relations_and_texts_to_v2.py +5 -4
migrations/0010_fix_corrupt_indexes.py +11 -12
migrations/0011_materialize_labelset_ids.py +2 -18
migrations/0012_rollover_shards.py +6 -12
migrations/0013_rollover_shards.py +2 -4
migrations/0014_rollover_shards.py +5 -7
migrations/0015_targeted_rollover.py +6 -12
migrations/0016_upgrade_to_paragraphs_v2.py +27 -32
migrations/0017_multiple_writable_shards.py +3 -6
migrations/0018_purge_orphan_kbslugs.py +59 -0
migrations/0019_upgrade_to_paragraphs_v3.py +66 -0
migrations/0020_drain_nodes_from_cluster.py +83 -0
nucliadb/standalone/tests/unit/test_run.py → migrations/0021_overwrite_vectorsets_key.py +17 -18
nucliadb/tests/unit/test_openapi.py → migrations/0022_fix_paragraph_deletion_bug.py +16 -11
migrations/0023_backfill_pg_catalog.py +80 -0
migrations/0025_assign_models_to_kbs_v2.py +113 -0
migrations/0026_fix_high_cardinality_content_types.py +61 -0
migrations/0027_rollover_texts3.py +73 -0
nucliadb/ingest/fields/date.py → migrations/pg/0001_bootstrap.py +10 -12
migrations/pg/0002_catalog.py +42 -0
nucliadb/ingest/tests/unit/test_settings.py → migrations/pg/0003_catalog_kbid_index.py +5 -3
nucliadb/common/cluster/base.py +41 -24
nucliadb/common/cluster/discovery/base.py +6 -14
nucliadb/common/cluster/discovery/k8s.py +9 -19
nucliadb/common/cluster/discovery/manual.py +1 -3
nucliadb/common/cluster/discovery/single.py +1 -2
nucliadb/common/cluster/discovery/utils.py +1 -3
nucliadb/common/cluster/grpc_node_dummy.py +11 -16
nucliadb/common/cluster/index_node.py +10 -19
nucliadb/common/cluster/manager.py +223 -102
nucliadb/common/cluster/rebalance.py +42 -37
nucliadb/common/cluster/rollover.py +377 -204
nucliadb/common/cluster/settings.py +16 -9
nucliadb/common/cluster/standalone/grpc_node_binding.py +24 -76
nucliadb/common/cluster/standalone/index_node.py +4 -11
nucliadb/common/cluster/standalone/service.py +2 -6
nucliadb/common/cluster/standalone/utils.py +9 -6
nucliadb/common/cluster/utils.py +43 -29
nucliadb/common/constants.py +20 -0
nucliadb/common/context/__init__.py +6 -4
nucliadb/common/context/fastapi.py +8 -5
nucliadb/{tests/knowledgeboxes/__init__.py → common/counters.py} +8 -2
nucliadb/common/datamanagers/__init__.py +24 -5
nucliadb/common/datamanagers/atomic.py +102 -0
nucliadb/common/datamanagers/cluster.py +5 -5
nucliadb/common/datamanagers/entities.py +6 -16
nucliadb/common/datamanagers/fields.py +84 -0
nucliadb/common/datamanagers/kb.py +101 -24
nucliadb/common/datamanagers/labels.py +26 -56
nucliadb/common/datamanagers/processing.py +2 -6
nucliadb/common/datamanagers/resources.py +214 -117
nucliadb/common/datamanagers/rollover.py +77 -16
nucliadb/{ingest/orm → common/datamanagers}/synonyms.py +16 -28
nucliadb/common/datamanagers/utils.py +19 -11
nucliadb/common/datamanagers/vectorsets.py +110 -0
nucliadb/common/external_index_providers/base.py +257 -0
nucliadb/{ingest/tests/unit/test_cache.py → common/external_index_providers/exceptions.py} +9 -8
nucliadb/common/external_index_providers/manager.py +101 -0
nucliadb/common/external_index_providers/pinecone.py +933 -0
nucliadb/common/external_index_providers/settings.py +52 -0
nucliadb/common/http_clients/auth.py +3 -6
nucliadb/common/http_clients/processing.py +6 -11
nucliadb/common/http_clients/utils.py +1 -3
nucliadb/common/ids.py +240 -0
nucliadb/common/locking.py +43 -13
nucliadb/common/maindb/driver.py +11 -35
nucliadb/common/maindb/exceptions.py +6 -6
nucliadb/common/maindb/local.py +22 -9
nucliadb/common/maindb/pg.py +206 -111
nucliadb/common/maindb/utils.py +13 -44
nucliadb/common/models_utils/from_proto.py +479 -0
nucliadb/common/models_utils/to_proto.py +60 -0
nucliadb/common/nidx.py +260 -0
nucliadb/export_import/datamanager.py +25 -19
nucliadb/export_import/exceptions.py +8 -0
nucliadb/export_import/exporter.py +20 -7
nucliadb/export_import/importer.py +6 -11
nucliadb/export_import/models.py +5 -5
nucliadb/export_import/tasks.py +4 -4
nucliadb/export_import/utils.py +94 -54
nucliadb/health.py +1 -3
nucliadb/ingest/app.py +15 -11
nucliadb/ingest/consumer/auditing.py +30 -147
nucliadb/ingest/consumer/consumer.py +96 -52
nucliadb/ingest/consumer/materializer.py +10 -12
nucliadb/ingest/consumer/pull.py +12 -27
nucliadb/ingest/consumer/service.py +20 -19
nucliadb/ingest/consumer/shard_creator.py +7 -14
nucliadb/ingest/consumer/utils.py +1 -3
nucliadb/ingest/fields/base.py +139 -188
nucliadb/ingest/fields/conversation.py +18 -5
nucliadb/ingest/fields/exceptions.py +1 -4
nucliadb/ingest/fields/file.py +7 -25
nucliadb/ingest/fields/link.py +11 -16
nucliadb/ingest/fields/text.py +9 -4
nucliadb/ingest/orm/brain.py +255 -262
nucliadb/ingest/orm/broker_message.py +181 -0
nucliadb/ingest/orm/entities.py +36 -51
nucliadb/ingest/orm/exceptions.py +12 -0
nucliadb/ingest/orm/knowledgebox.py +334 -278
nucliadb/ingest/orm/processor/__init__.py +2 -697
nucliadb/ingest/orm/processor/auditing.py +117 -0
nucliadb/ingest/orm/processor/data_augmentation.py +164 -0
nucliadb/ingest/orm/processor/pgcatalog.py +84 -0
nucliadb/ingest/orm/processor/processor.py +752 -0
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +280 -520
nucliadb/ingest/orm/utils.py +25 -31
nucliadb/ingest/partitions.py +3 -9
nucliadb/ingest/processing.py +76 -81
nucliadb/ingest/py.typed +0 -0
nucliadb/ingest/serialize.py +37 -173
nucliadb/ingest/service/__init__.py +1 -3
nucliadb/ingest/service/writer.py +186 -577
nucliadb/ingest/settings.py +13 -22
nucliadb/ingest/utils.py +3 -6
nucliadb/learning_proxy.py +264 -51
nucliadb/metrics_exporter.py +30 -19
nucliadb/middleware/__init__.py +1 -3
nucliadb/migrator/command.py +1 -3
nucliadb/migrator/datamanager.py +13 -13
nucliadb/migrator/migrator.py +57 -37
nucliadb/migrator/settings.py +2 -1
nucliadb/migrator/utils.py +18 -10
nucliadb/purge/__init__.py +139 -33
nucliadb/purge/orphan_shards.py +7 -13
nucliadb/reader/__init__.py +1 -3
nucliadb/reader/api/models.py +3 -14
nucliadb/reader/api/v1/__init__.py +0 -1
nucliadb/reader/api/v1/download.py +27 -94
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +13 -13
nucliadb/reader/api/v1/learning_config.py +8 -12
nucliadb/reader/api/v1/resource.py +67 -93
nucliadb/reader/api/v1/services.py +70 -125
nucliadb/reader/app.py +16 -46
nucliadb/reader/lifecycle.py +18 -4
nucliadb/reader/py.typed +0 -0
nucliadb/reader/reader/notifications.py +10 -31
nucliadb/search/__init__.py +1 -3
nucliadb/search/api/v1/__init__.py +2 -2
nucliadb/search/api/v1/ask.py +112 -0
nucliadb/search/api/v1/catalog.py +184 -0
nucliadb/search/api/v1/feedback.py +17 -25
nucliadb/search/api/v1/find.py +41 -41
nucliadb/search/api/v1/knowledgebox.py +90 -62
nucliadb/search/api/v1/predict_proxy.py +2 -2
nucliadb/search/api/v1/resource/ask.py +66 -117
nucliadb/search/api/v1/resource/search.py +51 -72
nucliadb/search/api/v1/router.py +1 -0
nucliadb/search/api/v1/search.py +50 -197
nucliadb/search/api/v1/suggest.py +40 -54
nucliadb/search/api/v1/summarize.py +9 -5
nucliadb/search/api/v1/utils.py +2 -1
nucliadb/search/app.py +16 -48
nucliadb/search/lifecycle.py +10 -3
nucliadb/search/predict.py +176 -188
nucliadb/search/py.typed +0 -0
nucliadb/search/requesters/utils.py +41 -63
nucliadb/search/search/cache.py +149 -20
nucliadb/search/search/chat/ask.py +918 -0
nucliadb/search/{tests/unit/test_run.py → search/chat/exceptions.py} +14 -13
nucliadb/search/search/chat/images.py +41 -17
nucliadb/search/search/chat/prompt.py +851 -282
nucliadb/search/search/chat/query.py +274 -267
nucliadb/{writer/resource/slug.py → search/search/cut.py} +8 -6
nucliadb/search/search/fetch.py +43 -36
nucliadb/search/search/filters.py +9 -15
nucliadb/search/search/find.py +214 -54
nucliadb/search/search/find_merge.py +408 -391
nucliadb/search/search/hydrator.py +191 -0
nucliadb/search/search/merge.py +198 -234
nucliadb/search/search/metrics.py +73 -2
nucliadb/search/search/paragraphs.py +64 -106
nucliadb/search/search/pgcatalog.py +233 -0
nucliadb/search/search/predict_proxy.py +1 -1
nucliadb/search/search/query.py +386 -257
nucliadb/search/search/query_parser/exceptions.py +22 -0
nucliadb/search/search/query_parser/models.py +101 -0
nucliadb/search/search/query_parser/parser.py +183 -0
nucliadb/search/search/rank_fusion.py +204 -0
nucliadb/search/search/rerankers.py +270 -0
nucliadb/search/search/shards.py +4 -38
nucliadb/search/search/summarize.py +14 -18
nucliadb/search/search/utils.py +27 -4
nucliadb/search/settings.py +15 -1
nucliadb/standalone/api_router.py +4 -10
nucliadb/standalone/app.py +17 -14
nucliadb/standalone/auth.py +7 -21
nucliadb/standalone/config.py +9 -12
nucliadb/standalone/introspect.py +5 -5
nucliadb/standalone/lifecycle.py +26 -25
nucliadb/standalone/migrations.py +58 -0
nucliadb/standalone/purge.py +9 -8
nucliadb/standalone/py.typed +0 -0
nucliadb/standalone/run.py +25 -18
nucliadb/standalone/settings.py +10 -14
nucliadb/standalone/versions.py +15 -5
nucliadb/tasks/consumer.py +8 -12
nucliadb/tasks/producer.py +7 -6
nucliadb/tests/config.py +53 -0
nucliadb/train/__init__.py +1 -3
nucliadb/train/api/utils.py +1 -2
nucliadb/train/api/v1/shards.py +2 -2
nucliadb/train/api/v1/trainset.py +4 -6
nucliadb/train/app.py +14 -47
nucliadb/train/generator.py +10 -19
nucliadb/train/generators/field_classifier.py +7 -19
nucliadb/train/generators/field_streaming.py +156 -0
nucliadb/train/generators/image_classifier.py +12 -18
nucliadb/train/generators/paragraph_classifier.py +5 -9
nucliadb/train/generators/paragraph_streaming.py +6 -9
nucliadb/train/generators/question_answer_streaming.py +19 -20
nucliadb/train/generators/sentence_classifier.py +9 -15
nucliadb/train/generators/token_classifier.py +45 -36
nucliadb/train/generators/utils.py +14 -18
nucliadb/train/lifecycle.py +7 -3
nucliadb/train/nodes.py +23 -32
nucliadb/train/py.typed +0 -0
nucliadb/train/servicer.py +13 -21
nucliadb/train/settings.py +2 -6
nucliadb/train/types.py +13 -10
nucliadb/train/upload.py +3 -6
nucliadb/train/uploader.py +20 -25
nucliadb/train/utils.py +1 -1
nucliadb/writer/__init__.py +1 -3
nucliadb/writer/api/constants.py +0 -5
nucliadb/{ingest/fields/keywordset.py → writer/api/utils.py} +13 -10
nucliadb/writer/api/v1/export_import.py +102 -49
nucliadb/writer/api/v1/field.py +196 -620
nucliadb/writer/api/v1/knowledgebox.py +221 -71
nucliadb/writer/api/v1/learning_config.py +2 -2
nucliadb/writer/api/v1/resource.py +114 -216
nucliadb/writer/api/v1/services.py +64 -132
nucliadb/writer/api/v1/slug.py +61 -0
nucliadb/writer/api/v1/transaction.py +67 -0
nucliadb/writer/api/v1/upload.py +184 -215
nucliadb/writer/app.py +11 -61
nucliadb/writer/back_pressure.py +62 -43
nucliadb/writer/exceptions.py +0 -4
nucliadb/writer/lifecycle.py +21 -15
nucliadb/writer/py.typed +0 -0
nucliadb/writer/resource/audit.py +2 -1
nucliadb/writer/resource/basic.py +48 -62
nucliadb/writer/resource/field.py +45 -135
nucliadb/writer/resource/origin.py +1 -2
nucliadb/writer/settings.py +14 -5
nucliadb/writer/tus/__init__.py +17 -15
nucliadb/writer/tus/azure.py +111 -0
nucliadb/writer/tus/dm.py +17 -5
nucliadb/writer/tus/exceptions.py +1 -3
nucliadb/writer/tus/gcs.py +56 -84
nucliadb/writer/tus/local.py +21 -37
nucliadb/writer/tus/s3.py +28 -68
nucliadb/writer/tus/storage.py +5 -56
nucliadb/writer/vectorsets.py +125 -0
nucliadb-6.2.1.post2777.dist-info/METADATA +148 -0
nucliadb-6.2.1.post2777.dist-info/RECORD +343 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/WHEEL +1 -1
nucliadb/common/maindb/redis.py +0 -194
nucliadb/common/maindb/tikv.py +0 -412
nucliadb/ingest/fields/layout.py +0 -58
nucliadb/ingest/tests/conftest.py +0 -30
nucliadb/ingest/tests/fixtures.py +0 -771
nucliadb/ingest/tests/integration/consumer/__init__.py +0 -18
nucliadb/ingest/tests/integration/consumer/test_auditing.py +0 -80
nucliadb/ingest/tests/integration/consumer/test_materializer.py +0 -89
nucliadb/ingest/tests/integration/consumer/test_pull.py +0 -144
nucliadb/ingest/tests/integration/consumer/test_service.py +0 -81
nucliadb/ingest/tests/integration/consumer/test_shard_creator.py +0 -68
nucliadb/ingest/tests/integration/ingest/test_ingest.py +0 -691
nucliadb/ingest/tests/integration/ingest/test_processing_engine.py +0 -95
nucliadb/ingest/tests/integration/ingest/test_relations.py +0 -272
nucliadb/ingest/tests/unit/consumer/__init__.py +0 -18
nucliadb/ingest/tests/unit/consumer/test_auditing.py +0 -140
nucliadb/ingest/tests/unit/consumer/test_consumer.py +0 -69
nucliadb/ingest/tests/unit/consumer/test_pull.py +0 -60
nucliadb/ingest/tests/unit/consumer/test_shard_creator.py +0 -139
nucliadb/ingest/tests/unit/consumer/test_utils.py +0 -67
nucliadb/ingest/tests/unit/orm/__init__.py +0 -19
nucliadb/ingest/tests/unit/orm/test_brain.py +0 -247
nucliadb/ingest/tests/unit/orm/test_processor.py +0 -131
nucliadb/ingest/tests/unit/orm/test_resource.py +0 -275
nucliadb/ingest/tests/unit/test_partitions.py +0 -40
nucliadb/ingest/tests/unit/test_processing.py +0 -171
nucliadb/middleware/transaction.py +0 -117
nucliadb/reader/api/v1/learning_collector.py +0 -63
nucliadb/reader/tests/__init__.py +0 -19
nucliadb/reader/tests/conftest.py +0 -31
nucliadb/reader/tests/fixtures.py +0 -136
nucliadb/reader/tests/test_list_resources.py +0 -75
nucliadb/reader/tests/test_reader_file_download.py +0 -273
nucliadb/reader/tests/test_reader_resource.py +0 -379
nucliadb/reader/tests/test_reader_resource_field.py +0 -219
nucliadb/search/api/v1/chat.py +0 -258
nucliadb/search/api/v1/resource/chat.py +0 -94
nucliadb/search/tests/__init__.py +0 -19
nucliadb/search/tests/conftest.py +0 -33
nucliadb/search/tests/fixtures.py +0 -199
nucliadb/search/tests/node.py +0 -465
nucliadb/search/tests/unit/__init__.py +0 -18
nucliadb/search/tests/unit/api/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/__init__.py +0 -19
nucliadb/search/tests/unit/api/v1/resource/test_ask.py +0 -67
nucliadb/search/tests/unit/api/v1/resource/test_chat.py +0 -97
nucliadb/search/tests/unit/api/v1/test_chat.py +0 -96
nucliadb/search/tests/unit/api/v1/test_predict_proxy.py +0 -98
nucliadb/search/tests/unit/api/v1/test_summarize.py +0 -93
nucliadb/search/tests/unit/search/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/__init__.py +0 -18
nucliadb/search/tests/unit/search/requesters/test_utils.py +0 -210
nucliadb/search/tests/unit/search/search/__init__.py +0 -19
nucliadb/search/tests/unit/search/search/test_shards.py +0 -45
nucliadb/search/tests/unit/search/search/test_utils.py +0 -82
nucliadb/search/tests/unit/search/test_chat_prompt.py +0 -266
nucliadb/search/tests/unit/search/test_fetch.py +0 -108
nucliadb/search/tests/unit/search/test_filters.py +0 -125
nucliadb/search/tests/unit/search/test_paragraphs.py +0 -157
nucliadb/search/tests/unit/search/test_predict_proxy.py +0 -106
nucliadb/search/tests/unit/search/test_query.py +0 -201
nucliadb/search/tests/unit/test_app.py +0 -79
nucliadb/search/tests/unit/test_find_merge.py +0 -112
nucliadb/search/tests/unit/test_merge.py +0 -34
nucliadb/search/tests/unit/test_predict.py +0 -584
nucliadb/standalone/tests/__init__.py +0 -19
nucliadb/standalone/tests/conftest.py +0 -33
nucliadb/standalone/tests/fixtures.py +0 -38
nucliadb/standalone/tests/unit/__init__.py +0 -18
nucliadb/standalone/tests/unit/test_api_router.py +0 -61
nucliadb/standalone/tests/unit/test_auth.py +0 -169
nucliadb/standalone/tests/unit/test_introspect.py +0 -35
nucliadb/standalone/tests/unit/test_versions.py +0 -68
nucliadb/tests/benchmarks/__init__.py +0 -19
nucliadb/tests/benchmarks/test_search.py +0 -99
nucliadb/tests/conftest.py +0 -32
nucliadb/tests/fixtures.py +0 -736
nucliadb/tests/knowledgeboxes/philosophy_books.py +0 -203
nucliadb/tests/knowledgeboxes/ten_dummy_resources.py +0 -109
nucliadb/tests/migrations/__init__.py +0 -19
nucliadb/tests/migrations/test_migration_0017.py +0 -80
nucliadb/tests/tikv.py +0 -240
nucliadb/tests/unit/__init__.py +0 -19
nucliadb/tests/unit/common/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/__init__.py +0 -19
nucliadb/tests/unit/common/cluster/discovery/test_k8s.py +0 -170
nucliadb/tests/unit/common/cluster/standalone/__init__.py +0 -18
nucliadb/tests/unit/common/cluster/standalone/test_service.py +0 -113
nucliadb/tests/unit/common/cluster/standalone/test_utils.py +0 -59
nucliadb/tests/unit/common/cluster/test_cluster.py +0 -399
nucliadb/tests/unit/common/cluster/test_kb_shard_manager.py +0 -178
nucliadb/tests/unit/common/cluster/test_rollover.py +0 -279
nucliadb/tests/unit/common/maindb/__init__.py +0 -18
nucliadb/tests/unit/common/maindb/test_driver.py +0 -127
nucliadb/tests/unit/common/maindb/test_tikv.py +0 -53
nucliadb/tests/unit/common/maindb/test_utils.py +0 -81
nucliadb/tests/unit/common/test_context.py +0 -36
nucliadb/tests/unit/export_import/__init__.py +0 -19
nucliadb/tests/unit/export_import/test_datamanager.py +0 -37
nucliadb/tests/unit/export_import/test_utils.py +0 -294
nucliadb/tests/unit/migrator/__init__.py +0 -19
nucliadb/tests/unit/migrator/test_migrator.py +0 -87
nucliadb/tests/unit/tasks/__init__.py +0 -19
nucliadb/tests/unit/tasks/conftest.py +0 -42
nucliadb/tests/unit/tasks/test_consumer.py +0 -93
nucliadb/tests/unit/tasks/test_producer.py +0 -95
nucliadb/tests/unit/tasks/test_tasks.py +0 -60
nucliadb/tests/unit/test_field_ids.py +0 -49
nucliadb/tests/unit/test_health.py +0 -84
nucliadb/tests/unit/test_kb_slugs.py +0 -54
nucliadb/tests/unit/test_learning_proxy.py +0 -252
nucliadb/tests/unit/test_metrics_exporter.py +0 -77
nucliadb/tests/unit/test_purge.py +0 -138
nucliadb/tests/utils/__init__.py +0 -74
nucliadb/tests/utils/aiohttp_session.py +0 -44
nucliadb/tests/utils/broker_messages/__init__.py +0 -167
nucliadb/tests/utils/broker_messages/fields.py +0 -181
nucliadb/tests/utils/broker_messages/helpers.py +0 -33
nucliadb/tests/utils/entities.py +0 -78
nucliadb/train/api/v1/check.py +0 -60
nucliadb/train/tests/__init__.py +0 -19
nucliadb/train/tests/conftest.py +0 -29
nucliadb/train/tests/fixtures.py +0 -342
nucliadb/train/tests/test_field_classification.py +0 -122
nucliadb/train/tests/test_get_entities.py +0 -80
nucliadb/train/tests/test_get_info.py +0 -51
nucliadb/train/tests/test_get_ontology.py +0 -34
nucliadb/train/tests/test_get_ontology_count.py +0 -63
nucliadb/train/tests/test_image_classification.py +0 -222
nucliadb/train/tests/test_list_fields.py +0 -39
nucliadb/train/tests/test_list_paragraphs.py +0 -73
nucliadb/train/tests/test_list_resources.py +0 -39
nucliadb/train/tests/test_list_sentences.py +0 -71
nucliadb/train/tests/test_paragraph_classification.py +0 -123
nucliadb/train/tests/test_paragraph_streaming.py +0 -118
nucliadb/train/tests/test_question_answer_streaming.py +0 -239
nucliadb/train/tests/test_sentence_classification.py +0 -143
nucliadb/train/tests/test_token_classification.py +0 -136
nucliadb/train/tests/utils.py +0 -108
nucliadb/writer/layouts/__init__.py +0 -51
nucliadb/writer/layouts/v1.py +0 -59
nucliadb/writer/resource/vectors.py +0 -120
nucliadb/writer/tests/__init__.py +0 -19
nucliadb/writer/tests/conftest.py +0 -31
nucliadb/writer/tests/fixtures.py +0 -192
nucliadb/writer/tests/test_fields.py +0 -486
nucliadb/writer/tests/test_files.py +0 -743
nucliadb/writer/tests/test_knowledgebox.py +0 -49
nucliadb/writer/tests/test_reprocess_file_field.py +0 -139
nucliadb/writer/tests/test_resources.py +0 -546
nucliadb/writer/tests/test_service.py +0 -137
nucliadb/writer/tests/test_tus.py +0 -203
nucliadb/writer/tests/utils.py +0 -35
nucliadb/writer/tus/pg.py +0 -125
nucliadb-2.46.1.post382.dist-info/METADATA +0 -134
nucliadb-2.46.1.post382.dist-info/RECORD +0 -451
{nucliadb/ingest/tests → migrations/pg}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration → common/external_index_providers}/__init__.py +0 -0
/nucliadb/{ingest/tests/integration/ingest → common/models_utils}/__init__.py +0 -0
/nucliadb/{ingest/tests/unit → search/search/query_parser}/__init__.py +0 -0
/nucliadb/{ingest/tests → tests}/vectors.py +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/entry_points.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/top_level.txt +0 -0
{nucliadb-2.46.1.post382.dist-info → nucliadb-6.2.1.post2777.dist-info}/zip-safe +0 -0

nucliadb/export_import/utils.py CHANGED Viewed

@@ -18,25 +18,27 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import functools
-from io import BytesIO
 from typing import AsyncGenerator, AsyncIterator, Callable, Optional
-import nats.errors
 from google.protobuf.message import DecodeError as ProtobufDecodeError
+from nucliadb import learning_proxy
 from nucliadb.common import datamanagers
 from nucliadb.common.context import ApplicationContext
 from nucliadb.export_import import logger
 from nucliadb.export_import.datamanager import ExportImportDataManager
 from nucliadb.export_import.exceptions import (
     ExportStreamExhausted,
+    IncompatibleExport,
     WrongExportStreamFormat,
 )
 from nucliadb.export_import.models import ExportedItemType, ExportItem, Metadata
+from nucliadb.ingest.orm.broker_message import generate_broker_message
 from nucliadb_models.export_import import Status
 from nucliadb_protos import knowledgebox_pb2 as kb_pb2
 from nucliadb_protos import resources_pb2, writer_pb2
 from nucliadb_utils.const import Streams
+from nucliadb_utils.transaction import MaxTransactionSizeExceededError
 BinaryStream = AsyncGenerator[bytes, None]
 BinaryStreamGenerator = Callable[[int], BinaryStream]
@@ -50,7 +52,6 @@ PROCESSING_BM_FIELDS = [
     "field_metadata",
     "field_vectors",
     "field_large_metadata",
-    "user_vectors",
 ]
 # Broker message fields that are populated by the nucliadb writer component
@@ -59,9 +60,6 @@ WRITER_BM_FIELDS = [
     "files",
     "texts",
     "conversations",
-    "layouts",
-    "keywordsets",
-    "datetimes",
 ]
@@ -88,7 +86,7 @@ async def transaction_commit(
             wait=False,
             target_subject=Streams.INGEST_PROCESSED.subject,
         )
-    except nats.errors.MaxPayloadError:
+    except MaxTransactionSizeExceededError:
         stored_key = await context.blob_storage.set_stream_message(
             kbid=bm.kbid, rid=bm.uuid, data=bm.SerializeToString()
         )
@@ -151,23 +149,17 @@ async def set_entities_groups(
     context: ApplicationContext, kbid: str, entities_groups: kb_pb2.EntitiesGroups
 ) -> None:
     async with datamanagers.with_transaction() as txn:
-        await datamanagers.entities.set_entities_groups(
-            txn, kbid=kbid, entities_groups=entities_groups
-        )
+        await datamanagers.entities.set_entities_groups(txn, kbid=kbid, entities_groups=entities_groups)
         await txn.commit()
-async def set_labels(
-    context: ApplicationContext, kbid: str, labels: kb_pb2.Labels
-) -> None:
+async def set_labels(context: ApplicationContext, kbid: str, labels: kb_pb2.Labels) -> None:
     async with datamanagers.with_transaction() as txn:
         await datamanagers.labels.set_labels(txn, kbid=kbid, labels=labels)
         await txn.commit()
-async def iter_kb_resource_uuids(
-    context: ApplicationContext, kbid: str
-) -> AsyncGenerator[str, None]:
+async def iter_kb_resource_uuids(context: ApplicationContext, kbid: str) -> AsyncGenerator[str, None]:
     async for rid in datamanagers.resources.iterate_resource_ids(kbid=kbid):
         yield rid
@@ -175,8 +167,13 @@ async def iter_kb_resource_uuids(
 async def get_broker_message(
     context: ApplicationContext, kbid: str, rid: str
 ) -> Optional[writer_pb2.BrokerMessage]:
-    async with datamanagers.with_transaction() as txn:
-        return await datamanagers.resources.get_broker_message(txn, kbid=kbid, rid=rid)
+    async with datamanagers.with_ro_transaction() as txn:
+        resource = await datamanagers.resources.get_resource(txn, kbid=kbid, rid=rid)
+        if resource is None:
+            return None
+        resource.disable_vectors = False
+        resource.txn = txn
+        return await generate_broker_message(resource)
 def get_cloud_files(bm: writer_pb2.BrokerMessage) -> list[resources_pb2.CloudFile]:
@@ -184,6 +181,10 @@ def get_cloud_files(bm: writer_pb2.BrokerMessage) -> list[resources_pb2.CloudFil
     binaries: list[resources_pb2.CloudFile] = []
     for file_field in bm.files.values():
         if file_field.HasField("file"):
+            if file_field.file.source == resources_pb2.CloudFile.Source.EXTERNAL:
+                # Binaries of externally hosted files are not
+                # to be downloaded and stored in the export file
+                continue
             _clone_collect_cf(binaries, file_field.file)
     for conversation in bm.conversations.values():
@@ -191,11 +192,6 @@ def get_cloud_files(bm: writer_pb2.BrokerMessage) -> list[resources_pb2.CloudFil
             for attachment in message.content.attachments:
                 _clone_collect_cf(binaries, attachment)
-    for layout in bm.layouts.values():
-        for block in layout.body.blocks.values():
-            if block.HasField("file"):
-                _clone_collect_cf(binaries, block.file)
     for field_extracted_data in bm.file_extracted_data:
         if field_extracted_data.HasField("file_thumbnail"):
             _clone_collect_cf(binaries, field_extracted_data.file_thumbnail)
@@ -213,6 +209,8 @@ def get_cloud_files(bm: writer_pb2.BrokerMessage) -> list[resources_pb2.CloudFil
             _clone_collect_cf(binaries, link_extracted_data.link_preview)
         if link_extracted_data.HasField("link_image"):
             _clone_collect_cf(binaries, link_extracted_data.link_image)
+        for file_generated in link_extracted_data.file_generated.values():
+            _clone_collect_cf(binaries, file_generated)
     for field_metadata in bm.field_metadata:
         if field_metadata.metadata.metadata.HasField("thumbnail"):
@@ -225,9 +223,7 @@ def get_cloud_files(bm: writer_pb2.BrokerMessage) -> list[resources_pb2.CloudFil
     return binaries
-def _clone_collect_cf(
-    binaries: list[resources_pb2.CloudFile], origin: resources_pb2.CloudFile
-):
+def _clone_collect_cf(binaries: list[resources_pb2.CloudFile], origin: resources_pb2.CloudFile):
     cf = resources_pb2.CloudFile()
     cf.CopyFrom(origin)
     # Mark the cloud file of the broker message being exported as export source
@@ -244,43 +240,21 @@ async def download_binary(
 async def get_entities(context: ApplicationContext, kbid: str) -> kb_pb2.EntitiesGroups:
-    async with datamanagers.with_transaction() as txn:
+    async with datamanagers.with_ro_transaction() as txn:
         return await datamanagers.entities.get_entities_groups(txn, kbid=kbid)
 async def get_labels(context: ApplicationContext, kbid: str) -> kb_pb2.Labels:
-    async with datamanagers.with_transaction() as txn:
+    async with datamanagers.with_ro_transaction() as txn:
         return await datamanagers.labels.get_labels(txn, kbid=kbid)
-class EndOfStream(Exception):
-    ...
+class EndOfStream(Exception): ...
 class ExportStream:
     """
     Models a stream of export bytes that can be read from asynchronously.
-    """
-    def __init__(self, export: BytesIO):
-        self.export = export
-        self.read_bytes = 0
-        self._length = len(export.getvalue())
-    async def read(self, n_bytes):
-        """
-        Reads n_bytes from the export stream.
-        Raises ExportStreamExhausted if there are no more bytes to read.
-        """
-        if self.read_bytes == self._length:
-            raise ExportStreamExhausted()
-        chunk = self.export.read(n_bytes)
-        self.read_bytes += len(chunk)
-        return chunk
-class IteratorExportStream(ExportStream):
-    """
     Adapts the parent class to be able to read bytes yielded from an async iterator.
     """
@@ -325,8 +299,8 @@ class ExportStreamReader:
     yields the deserialized export items ready to be imported.
     """
-    def __init__(self, export_stream: ExportStream):
-        self.stream = export_stream
+    def __init__(self, stream: AsyncGenerator[bytes, None]):
+        self.stream = ExportStream(stream)
     @property
     def read_bytes(self) -> int:
@@ -401,6 +375,26 @@ class ExportStreamReader:
             raise WrongExportStreamFormat() from ex
         return labels
+    async def maybe_read_learning_config(
+        self,
+    ) -> tuple[Optional[learning_proxy.LearningConfiguration], bytes]:
+        """
+        Tries to read a learning config from the beginning of the stream.
+        Returs the learning config if found. It also returns any leftover bytes that
+        may have been read from the network into memory that need to be yielded and imported.
+        """
+        # We assume that the learning config is the first item in the export stream.
+        try:
+            type_bytes = await self.stream.read(3)
+        except ExportStreamExhausted:
+            return None, self.stream.buffer
+        if type_bytes != ExportedItemType.LEARNING_CONFIG.value.encode():
+            # Backward compatible code for old exports that don't have a learning config.
+            return None, type_bytes + self.stream.buffer
+        data = await self.read_item()
+        lconfig = learning_proxy.LearningConfiguration.model_validate_json(data)
+        return lconfig, self.stream.buffer
     async def iter_items(self) -> AsyncGenerator[ExportItem, None]:
         while True:
             try:
@@ -411,7 +405,7 @@ class ExportStreamReader:
                     ExportedItemType.ENTITIES: self.read_entities,
                     ExportedItemType.LABELS: self.read_labels,
                 }[item_type]
-                data = await read_data_func()  # type: ignore
+                data = await read_data_func()
                 yield item_type, data
             except ExportStreamExhausted:
                 break
@@ -476,3 +470,49 @@ class TaskRetryHandler:
                 await self.dm.set_metadata(self.type, metadata)
         return wrapper
+async def get_learning_config(
+    kbid: str,
+) -> Optional[learning_proxy.LearningConfiguration]:
+    return await learning_proxy.get_configuration(kbid)
+def stream_compatible_with_kb(
+    kbid: str, stream: AsyncGenerator[bytes, None]
+) -> AsyncGenerator[bytes, None]:
+    """
+    Wrapper around an export stream that checks if the export is compatible with the destination knowledge box.
+    """
+    async def wrapped() -> AsyncGenerator[bytes, None]:
+        # Read the a few bytes from the beginning of the stream to check the semantic model.
+        # If the semantic model is not compatible, raise an exception.
+        # If there are leftover bytes, yield them.
+        leftover_bytes = await _check_semantic_model_compatibility(kbid, stream)
+        if len(leftover_bytes) > 0:
+            yield leftover_bytes
+        # Now yield the rest of the stream
+        async for chunk in stream:
+            yield chunk
+    return wrapped()
+async def _check_semantic_model_compatibility(kbid: str, stream: AsyncGenerator[bytes, None]) -> bytes:
+    stream_reader = ExportStreamReader(stream)
+    lconfig, leftover_bytes = await stream_reader.maybe_read_learning_config()
+    if lconfig is None:
+        logger.warning("Learning config not found on the export stream. Export may be incompatible.")
+        return leftover_bytes
+    kb_lconfig = await get_learning_config(kbid)
+    if kb_lconfig is None:
+        logger.warning("No learning config found on the knowledge box. Export may be incompatible.")
+        return leftover_bytes
+    if kb_lconfig.semantic_model == lconfig.semantic_model:
+        logger.info(f"Semantic model match: {kb_lconfig.semantic_model}")
+        return leftover_bytes
+    raise IncompatibleExport(
+        f"Cannot import. Semantic model mismatch: {kb_lconfig.semantic_model} != {lconfig.semantic_model}"
+    )

nucliadb/health.py CHANGED Viewed

@@ -78,9 +78,7 @@ async def grpc_health_check(health_servicer) -> None:
         for check in _health_checks:
             if not check():
                 logger.info(f"Health check failed on {check.__name__}")
-                await health_servicer.set(
-                    "", health_pb2.HealthCheckResponse.NOT_SERVING
-                )
+                await health_servicer.set("", health_pb2.HealthCheckResponse.NOT_SERVING)
                 break
         else:
             await health_servicer.set("", health_pb2.HealthCheckResponse.SERVING)

nucliadb/ingest/app.py CHANGED Viewed

@@ -18,10 +18,9 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import asyncio
+import importlib.metadata
 from typing import Awaitable, Callable
-import pkg_resources
 from nucliadb import health
 from nucliadb.common.cluster.discovery.utils import (
     setup_cluster_discovery,
@@ -30,10 +29,12 @@ from nucliadb.common.cluster.discovery.utils import (
 from nucliadb.common.cluster.settings import settings as cluster_settings
 from nucliadb.common.cluster.utils import setup_cluster, teardown_cluster
 from nucliadb.common.context import ApplicationContext
+from nucliadb.common.nidx import start_nidx_utility
 from nucliadb.export_import.tasks import get_exports_consumer, get_imports_consumer
 from nucliadb.ingest import SERVICE_NAME
 from nucliadb.ingest.consumer import service as consumer_service
 from nucliadb.ingest.partitions import assign_partitions
+from nucliadb.ingest.processing import start_processing_engine, stop_processing_engine
 from nucliadb.ingest.service import start_grpc
 from nucliadb.ingest.settings import settings
 from nucliadb_telemetry import errors
@@ -46,10 +47,12 @@ from nucliadb_utils.utilities import (
     start_audit_utility,
     start_indexing_utility,
     start_nats_manager,
+    start_partitioning_utility,
     start_transaction_utility,
     stop_audit_utility,
     stop_indexing_utility,
     stop_nats_manager,
+    stop_partitioning_utility,
     stop_transaction_utility,
 )
@@ -59,15 +62,17 @@ async def initialize() -> list[Callable[[], Awaitable[None]]]:
     await setup_cluster()
     await start_transaction_utility(SERVICE_NAME)
-    if (
-        not cluster_settings.standalone_mode
-        and indexing_settings.index_jetstream_servers is not None
-    ):
+    if not cluster_settings.standalone_mode and indexing_settings.index_jetstream_servers is not None:
         await start_indexing_utility(SERVICE_NAME)
+    start_partitioning_utility()
+    await start_nidx_utility()
     await start_audit_utility(SERVICE_NAME)
     finalizers = [
+        stop_partitioning_utility,
         stop_transaction_utility,
         stop_indexing_utility,
         stop_audit_utility,
@@ -123,8 +128,7 @@ async def main_consumer():  # pragma: no cover
     ingest_consumers = await consumer_service.start_ingest_consumers(SERVICE_NAME)
     await run_until_exit(
-        [grpc_health_finalizer, pull_workers, ingest_consumers, metrics_server.shutdown]
-        + finalizers
+        [grpc_health_finalizer, pull_workers, ingest_consumers, metrics_server.shutdown] + finalizers
     )
@@ -138,12 +142,13 @@ async def main_orm_grpc():  # pragma: no cover
 async def main_ingest_processed_consumer():  # pragma: no cover
     finalizers = await initialize()
+    await start_processing_engine()
     metrics_server = await serve_metrics()
     grpc_health_finalizer = await health.start_grpc_health_service(settings.grpc_port)
     consumer = await consumer_service.start_ingest_processed_consumer(SERVICE_NAME)
     await run_until_exit(
-        [grpc_health_finalizer, consumer, metrics_server.shutdown] + finalizers
+        [grpc_health_finalizer, consumer, metrics_server.shutdown, stop_processing_engine] + finalizers
     )
@@ -181,10 +186,9 @@ async def main_subscriber_workers():  # pragma: no cover
 def setup_configuration():  # pragma: no cover
     setup_logging()
     assign_partitions(settings)
-    errors.setup_error_handling(pkg_resources.get_distribution("nucliadb").version)
+    errors.setup_error_handling(importlib.metadata.distribution("nucliadb").version)
     if asyncio._get_running_loop() is not None:
         raise RuntimeError("cannot be called from a running event loop")

nucliadb/ingest/consumer/auditing.py CHANGED Viewed

@@ -23,14 +23,11 @@ import logging
 import uuid
 from functools import partial
-from nucliadb_protos.resources_pb2 import FieldType
+from nucliadb.common import datamanagers
 from nucliadb.common.cluster.exceptions import ShardsNotFound
 from nucliadb.common.cluster.manager import choose_node
 from nucliadb.common.cluster.utils import get_shard_manager
-from nucliadb.common.maindb.driver import Driver
-from nucliadb.ingest.orm.knowledgebox import KnowledgeBox
-from nucliadb.ingest.orm.resource import Resource
+from nucliadb.common.constants import AVG_PARAGRAPH_SIZE_BYTES
 from nucliadb_protos import audit_pb2, nodereader_pb2, noderesources_pb2, writer_pb2
 from nucliadb_utils import const
 from nucliadb_utils.audit.audit import AuditStorage
@@ -62,12 +59,10 @@ class IndexAuditHandler:
     def __init__(
         self,
         *,
-        driver: Driver,
         audit: AuditStorage,
         pubsub: PubSubDriver,
         check_delay: float = 5.0,
     ):
-        self.driver = driver
         self.audit = audit
         self.pubsub = pubsub
         self.shard_manager = get_shard_manager()
@@ -98,17 +93,15 @@ class IndexAuditHandler:
             metrics.total_messages.inc({"action": "ignored", "type": "audit_counter"})
             return
-        self.task_handler.schedule(
-            notification.kbid, partial(self.process_kb, notification.kbid)
-        )
+        self.task_handler.schedule(notification.kbid, partial(self.process_kb, notification.kbid))
         metrics.total_messages.inc({"action": "scheduled", "type": "audit_counter"})
     @metrics.handler_histo.wrap({"type": "audit_counter"})
     async def process_kb(self, kbid: str) -> None:
         try:
-            shard_groups: list[
-                writer_pb2.ShardObject
-            ] = await self.shard_manager.get_shards_by_kbid(kbid)
+            shard_groups: list[writer_pb2.ShardObject] = await self.shard_manager.get_shards_by_kbid(
+                kbid
+            )
         except ShardsNotFound:
             logger.warning(f"No shards found for kbid {kbid}, skipping")
             return
@@ -119,7 +112,8 @@ class IndexAuditHandler:
         total_paragraphs = 0
         for shard_obj in shard_groups:
-            node, shard_id = choose_node(shard_obj)
+            # TODO: Uses node for auditing, don't want to suddenly change metrics
+            node, shard_id = choose_node(shard_obj, use_nidx=False)
             shard: nodereader_pb2.Shard = await node.reader.GetShard(
                 nodereader_pb2.GetShardRequest(shard_id=noderesources_pb2.ShardId(id=shard_id))  # type: ignore
             )
@@ -127,12 +121,18 @@ class IndexAuditHandler:
             total_fields += shard.fields
             total_paragraphs += shard.paragraphs
-        await self.audit.report(
+        async with datamanagers.with_ro_transaction() as txn:
+            num_vectorsets = (
+                len([vs async for vs in datamanagers.vectorsets.iter(txn=txn, kbid=kbid)]) or 1
+            )
+        self.audit.report_storage(
             kbid=kbid,
-            audit_type=audit_pb2.AuditRequest.AuditType.INDEXED,
-            kb_counter=audit_pb2.AuditKBCounter(
-                fields=total_fields, paragraphs=total_paragraphs
-            ),
+            paragraphs=total_paragraphs,
+            fields=total_fields,
+            bytes=total_paragraphs  # This is an estimation of bytes stored in a KB
+            * AVG_PARAGRAPH_SIZE_BYTES
+            * num_vectorsets,
         )
@@ -147,12 +147,10 @@ class ResourceWritesAuditHandler:
     def __init__(
         self,
         *,
-        driver: Driver,
         storage: Storage,
         audit: AuditStorage,
         pubsub: PubSubDriver,
     ):
-        self.driver = driver
         self.storage = storage
         self.audit = audit
         self.pubsub = pubsub
@@ -169,117 +167,6 @@ class ResourceWritesAuditHandler:
     async def finalize(self) -> None:
         await self.pubsub.unsubscribe(self.subscription_id)
-    def iterate_auditable_fields(
-        self,
-        resource_keys: list[tuple[FieldType.ValueType, str]],
-        message: writer_pb2.BrokerMessage,
-    ):
-        """
-        Generator that emits the combined list of field ids from both
-        the existing resource and message that needs to be considered
-        in the audit of fields.
-        """
-        yielded = set()
-        # Include all fields present in the message we are processing
-        for field_id in message.files.keys():
-            key = (field_id, writer_pb2.FieldType.FILE)
-            yield key
-            yielded.add(key)
-        for field_id in message.conversations.keys():
-            key = (field_id, writer_pb2.FieldType.CONVERSATION)
-            yield key
-            yielded.add(key)
-        for field_id in message.layouts.keys():
-            key = (field_id, writer_pb2.FieldType.LAYOUT)
-            yield key
-            yielded.add(key)
-        for field_id in message.texts.keys():
-            key = (field_id, writer_pb2.FieldType.TEXT)
-            yield key
-            yielded.add(key)
-        for field_id in message.keywordsets.keys():
-            key = (field_id, writer_pb2.FieldType.KEYWORDSET)
-            yield key
-            yielded.add(key)
-        for field_id in message.datetimes.keys():
-            key = (field_id, writer_pb2.FieldType.DATETIME)
-            yield key
-            yielded.add(key)
-        for field_id in message.links.keys():
-            key = (field_id, writer_pb2.FieldType.LINK)
-            yield key
-            yielded.add(key)
-        for field_type, field_id in resource_keys:
-            if field_type is writer_pb2.FieldType.GENERIC:
-                continue
-            if not (
-                field_id in message.files
-                or message.type is writer_pb2.BrokerMessage.MessageType.DELETE
-            ):
-                continue
-            # Avoid duplicates
-            if (field_type, field_id) in yielded:
-                continue
-            yield (field_id, field_type)
-    async def collect_audit_fields(
-        self, message: writer_pb2.BrokerMessage
-    ) -> list[audit_pb2.AuditField]:
-        if message.type == writer_pb2.BrokerMessage.MessageType.DELETE:
-            # If we are fully deleting a resource we won't iterate the delete_fields (if any).
-            # Make no sense as we already collected all resource fields as deleted
-            return []
-        audit_storage_fields: list[audit_pb2.AuditField] = []
-        async with self.driver.transaction() as txn:
-            kb = KnowledgeBox(txn, self.storage, message.kbid)
-            resource = Resource(txn, self.storage, kb, message.uuid)
-            field_keys = await resource.get_fields_ids()
-            for field_id, field_type in self.iterate_auditable_fields(
-                field_keys, message
-            ):
-                auditfield = audit_pb2.AuditField()
-                auditfield.field_type = field_type
-                auditfield.field_id = field_id
-                if field_type is writer_pb2.FieldType.FILE:
-                    auditfield.filename = message.files[field_id].file.filename
-                # The field did exist, so we are overwriting it, with a modified file
-                # in case of a file
-                auditfield.action = audit_pb2.AuditField.FieldAction.MODIFIED
-                if field_type is writer_pb2.FieldType.FILE:
-                    auditfield.size = message.files[field_id].file.size
-                audit_storage_fields.append(auditfield)
-            for fieldid in message.delete_fields or []:
-                field = await resource.get_field(
-                    fieldid.field, writer_pb2.FieldType.FILE, load=True
-                )
-                audit_field = audit_pb2.AuditField()
-                audit_field.action = audit_pb2.AuditField.FieldAction.DELETED
-                audit_field.field_id = fieldid.field
-                audit_field.field_type = fieldid.field_type
-                if fieldid.field_type is writer_pb2.FieldType.FILE:
-                    val = await field.get_value()
-                    audit_field.size = 0
-                    if val is not None:
-                        audit_field.filename = val.file.filename
-                audit_storage_fields.append(audit_field)
-        return audit_storage_fields
     async def handle_message(self, raw_data) -> None:
         data = self.pubsub.parse(raw_data)
         notification = writer_pb2.Notification()
@@ -289,27 +176,23 @@ class ResourceWritesAuditHandler:
             metrics.total_messages.inc({"action": "ignored", "type": "audit_fields"})
             return
-        message = notification.message
-        if message.source == message.MessageSource.PROCESSOR:
+        message_audit: writer_pb2.Audit = notification.message_audit
+        if message_audit.message_source == writer_pb2.BrokerMessage.MessageSource.PROCESSOR:
             metrics.total_messages.inc({"action": "ignored", "type": "audit_fields"})
             return
-        logger.info(
-            {"message": "Processing field audit for kbid", "kbid": notification.kbid}
-        )
+        logger.info({"message": "Processing field audit for kbid", "kbid": notification.kbid})
         metrics.total_messages.inc({"action": "scheduled", "type": "audit_fields"})
         with metrics.handler_histo({"type": "audit_fields"}):
-            audit_fields = await self.collect_audit_fields(message)
-            field_metadata = [fi.field for fi in message.field_metadata]
-            when = message.audit.when if message.audit.HasField("when") else None
-            await self.audit.report(
-                kbid=message.kbid,
+            when = message_audit.when if message_audit.HasField("when") else None
+            self.audit.report_and_send(
+                kbid=message_audit.kbid,
                 when=when,
-                user=message.audit.user,
-                rid=message.uuid,
-                origin=message.audit.origin,
-                field_metadata=field_metadata,
+                user=message_audit.user,
+                rid=message_audit.uuid,
+                origin=message_audit.origin,
+                field_metadata=list(message_audit.field_metadata),
                 audit_type=AUDIT_TYPES.get(notification.write_type),
-                audit_fields=audit_fields,
+                audit_fields=list(message_audit.audit_fields),
             )

nucliadb 2.46.1.post382__py3-none-any.whl → 6.2.1.post2777__py3-none-any.whl

nucliadb 2.46.1.post382py3-none-any.whl → 6.2.1.post2777py3-none-any.whl