PyPI - nucliadb - Versions diffs - 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (246) hide show

migrations/0023_backfill_pg_catalog.py +8 -4
migrations/0028_extracted_vectors_reference.py +1 -1
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +8 -4
migrations/0039_backfill_converation_splits_metadata.py +106 -0
migrations/0040_migrate_search_configurations.py +79 -0
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/__init__.py +79 -0
nucliadb/common/catalog/dummy.py +36 -0
nucliadb/common/catalog/interface.py +85 -0
nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} +330 -232
nucliadb/common/catalog/utils.py +56 -0
nucliadb/common/cluster/manager.py +8 -23
nucliadb/common/cluster/rebalance.py +484 -112
nucliadb/common/cluster/rollover.py +36 -9
nucliadb/common/cluster/settings.py +4 -9
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +9 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +5 -34
nucliadb/common/external_index_providers/settings.py +1 -27
nucliadb/common/filter_expression.py +129 -41
nucliadb/common/http_clients/exceptions.py +8 -0
nucliadb/common/http_clients/processing.py +16 -23
nucliadb/common/http_clients/utils.py +3 -0
nucliadb/common/ids.py +82 -58
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +22 -5
nucliadb/common/vector_index_config.py +1 -1
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +10 -8
nucliadb/ingest/consumer/service.py +5 -30
nucliadb/ingest/consumer/shard_creator.py +16 -5
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +37 -49
nucliadb/ingest/fields/conversation.py +55 -9
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +89 -57
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +128 -113
nucliadb/ingest/orm/knowledgebox.py +91 -59
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +98 -153
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +82 -71
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/partitions.py +12 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +15 -114
nucliadb/ingest/settings.py +36 -15
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +23 -26
nucliadb/metrics_exporter.py +20 -6
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +4 -11
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +37 -9
nucliadb/reader/api/v1/learning_config.py +33 -14
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +3 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +15 -19
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +328 -0
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +28 -8
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +33 -19
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -42
nucliadb/search/search/chat/ask.py +131 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +453 -32
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +49 -0
nucliadb/search/search/hydrator/fields.py +217 -0
nucliadb/search/search/hydrator/images.py +130 -0
nucliadb/search/search/hydrator/paragraphs.py +323 -0
nucliadb/search/search/hydrator/resources.py +60 -0
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +24 -7
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +44 -18
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -48
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +5 -6
nucliadb/search/search/query_parser/parsers/catalog.py +7 -11
nucliadb/search/search/query_parser/parsers/common.py +21 -13
nucliadb/search/search/query_parser/parsers/find.py +6 -29
nucliadb/search/search/query_parser/parsers/graph.py +18 -28
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -56
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +6 -7
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +5 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +4 -10
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +15 -14
nucliadb/writer/api/v1/knowledgebox.py +18 -56
nucliadb/writer/api/v1/learning_config.py +5 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +43 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +5 -7
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +15 -22
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +10 -11
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb/common/external_index_providers/pinecone.py +0 -894
nucliadb/ingest/orm/processor/pgcatalog.py +0 -129
nucliadb/search/search/hydrator.py +0 -197
nucliadb-6.7.2.post4874.dist-info/RECORD +0 -383
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/ingest/serialize.py CHANGED Viewed

@@ -18,7 +18,6 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Optional, Union
 import nucliadb_models as models
 from nucliadb.common import datamanagers
@@ -32,15 +31,22 @@ from nucliadb.ingest.fields.link import Link
 from nucliadb.ingest.orm.knowledgebox import KnowledgeBox
 from nucliadb.ingest.orm.resource import Resource as ORMResource
 from nucliadb_models.common import FieldTypeName
+from nucliadb_models.metadata import Extra, Origin, Relation
 from nucliadb_models.resource import (
     ConversationFieldData,
     ConversationFieldExtractedData,
     Error,
     ExtractedDataType,
     ExtractedDataTypeName,
+    ExtractedText,
+    FieldComputedMetadata,
+    FieldQuestionAnswers,
+    FileExtractedData,
     FileFieldData,
     FileFieldExtractedData,
     GenericFieldData,
+    LargeComputedMetadata,
+    LinkExtractedData,
     LinkFieldData,
     LinkFieldExtractedData,
     QueueType,
@@ -48,6 +54,7 @@ from nucliadb_models.resource import (
     ResourceData,
     TextFieldData,
     TextFieldExtractedData,
+    VectorObject,
 )
 from nucliadb_models.search import ResourceProperties
 from nucliadb_models.security import ResourceSecurity
@@ -56,84 +63,15 @@ from nucliadb_protos.writer_pb2 import FieldStatus
 from nucliadb_utils.utilities import get_storage
-async def set_resource_field_extracted_data(
-    field: Field,
-    field_data: ExtractedDataType,
-    field_type_name: FieldTypeName,
-    wanted_extracted_data: list[ExtractedDataTypeName],
-) -> None:
-    if field_data is None:
-        return
-    if ExtractedDataTypeName.TEXT in wanted_extracted_data:
-        data_et = await field.get_extracted_text()
-        if data_et is not None:
-            field_data.text = from_proto.extracted_text(data_et)
-    metadata_wanted = ExtractedDataTypeName.METADATA in wanted_extracted_data
-    shortened_metadata_wanted = ExtractedDataTypeName.SHORTENED_METADATA in wanted_extracted_data
-    if metadata_wanted or shortened_metadata_wanted:
-        data_fcm = await field.get_field_metadata()
-        if data_fcm is not None:
-            field_data.metadata = from_proto.field_computed_metadata(
-                data_fcm, shortened=shortened_metadata_wanted and not metadata_wanted
-            )
-    if ExtractedDataTypeName.LARGE_METADATA in wanted_extracted_data:
-        data_lcm = await field.get_large_field_metadata()
-        if data_lcm is not None:
-            field_data.large_metadata = from_proto.large_computed_metadata(data_lcm)
-    if ExtractedDataTypeName.VECTOR in wanted_extracted_data:
-        # XXX: our extracted API is not vectorset-compatible, so we'll get the
-        # first vectorset and return the values. Ideally, we should provide a
-        # way to select a vectorset
-        vectorset_id = None
-        async with datamanagers.with_ro_transaction() as txn:
-            async for vectorset_id, vs in datamanagers.vectorsets.iter(
-                txn=txn,
-                kbid=field.resource.kb.kbid,
-            ):
-                break
-        assert vectorset_id is not None, "All KBs must have at least a vectorset"
-        data_vec = await field.get_vectors(vectorset_id, vs.storage_key_kind)
-        if data_vec is not None:
-            field_data.vectors = from_proto.vector_object(data_vec)
-    if ExtractedDataTypeName.QA in wanted_extracted_data:
-        qa = await field.get_question_answers()
-        if qa is not None:
-            field_data.question_answers = from_proto.field_question_answers(qa)
-    if (
-        isinstance(field, File)
-        and isinstance(field_data, FileFieldExtractedData)
-        and ExtractedDataTypeName.FILE in wanted_extracted_data
-    ):
-        data_fed = await field.get_file_extracted_data()
-        if data_fed is not None:
-            field_data.file = from_proto.file_extracted_data(data_fed)
-    if (
-        isinstance(field, Link)
-        and isinstance(field_data, LinkFieldExtractedData)
-        and ExtractedDataTypeName.LINK in wanted_extracted_data
-    ):
-        data_led = await field.get_link_extracted_data()
-        if data_led is not None:
-            field_data.link = from_proto.link_extracted_data(data_led)
 async def serialize(
     kbid: str,
-    rid: Optional[str],
+    rid: str | None,
     show: list[ResourceProperties],
     field_type_filter: list[FieldTypeName],
     extracted: list[ExtractedDataTypeName],
-    service_name: Optional[str] = None,
-    slug: Optional[str] = None,
-) -> Optional[Resource]:
+    service_name: str | None = None,
+    slug: str | None = None,
+) -> Resource | None:
     driver = get_driver()
     async with driver.ro_transaction() as txn:
         return await managed_serialize(
@@ -148,45 +86,56 @@ async def serialize(
         )
-async def serialize_field_errors(
-    field: Field,
-    serialized: Union[
-        TextFieldData, FileFieldData, LinkFieldData, ConversationFieldData, GenericFieldData
-    ],
-):
-    status = await field.get_status()
-    if status is None:
-        status = FieldStatus()
-    serialized.status = status.Status.Name(status.status)
-    if status.errors:
-        serialized.errors = []
-        for error in status.errors:
-            serialized.errors.append(
-                Error(
-                    body=error.source_error.error,
-                    code=error.source_error.code,
-                    code_str=writer_pb2.Error.ErrorCode.Name(error.source_error.code),
-                    created=error.created.ToDatetime(),
-                    severity=writer_pb2.Error.Severity.Name(error.source_error.severity),
-                )
-            )
-        serialized.error = serialized.errors[-1]
 async def managed_serialize(
     txn: Transaction,
     kbid: str,
-    rid: Optional[str],
+    rid: str | None,
     show: list[ResourceProperties],
     field_type_filter: list[FieldTypeName],
     extracted: list[ExtractedDataTypeName],
-    service_name: Optional[str] = None,
-    slug: Optional[str] = None,
-) -> Optional[Resource]:
+    service_name: str | None = None,
+    slug: str | None = None,
+) -> Resource | None:
     orm_resource = await get_orm_resource(txn, kbid, rid=rid, slug=slug, service_name=service_name)
     if orm_resource is None:
         return None
+    return await serialize_resource(orm_resource, show, field_type_filter, extracted)
+async def get_orm_resource(
+    txn: Transaction,
+    kbid: str,
+    rid: str | None,
+    slug: str | None = None,
+    service_name: str | None = None,
+) -> ORMResource | None:
+    storage = await get_storage(service_name=service_name)
+    kb = KnowledgeBox(txn, storage, kbid)
+    if rid is None:
+        if slug is None:
+            raise ValueError("Either rid or slug parameters should be used")
+        rid = await kb.get_resource_uuid_by_slug(slug)
+        if rid is None:
+            # Could not find resource uuid from slug
+            return None
+    orm_resource = await kb.get(rid)
+    if orm_resource is None:
+        return None
+    return orm_resource
+async def serialize_resource(
+    orm_resource: ORMResource,
+    show: list[ResourceProperties],
+    field_type_filter: list[FieldTypeName],
+    extracted: list[ExtractedDataTypeName],
+) -> Resource:
     resource = Resource(id=orm_resource.uuid)
     include_values = ResourceProperties.VALUES in show
@@ -230,29 +179,18 @@ async def managed_serialize(
             resource.queue = QueueType[orm_resource.basic.QueueType.Name(orm_resource.basic.queue)]
             if ResourceProperties.RELATIONS in show:
-                relations = await orm_resource.get_user_relations()
-                resource.usermetadata.relations = [
-                    from_proto.relation(rel) for rel in relations.relations
-                ]
+                resource.usermetadata.relations = await serialize_user_relations(orm_resource)
     if ResourceProperties.ORIGIN in show:
-        await orm_resource.get_origin()
-        if orm_resource.origin is not None:
-            resource.origin = from_proto.origin(orm_resource.origin)
+        resource.origin = await serialize_origin(orm_resource)
     if ResourceProperties.EXTRA in show:
-        await orm_resource.get_extra()
-        if orm_resource.extra is not None:
-            resource.extra = from_proto.extra(orm_resource.extra)
+        resource.extra = await serialize_extra(orm_resource)
     include_errors = ResourceProperties.ERRORS in show
     if ResourceProperties.SECURITY in show:
-        await orm_resource.get_security()
-        resource.security = ResourceSecurity(access_groups=[])
-        if orm_resource.security is not None:
-            for gid in orm_resource.security.access_groups:
-                resource.security.access_groups.append(gid)
+        resource.security = await serialize_security(orm_resource)
     if (field_type_filter and (include_values or include_extracted_data)) or include_errors:
         await orm_resource.get_fields()
@@ -360,38 +298,157 @@ async def managed_serialize(
     return resource
-async def get_orm_resource(
-    txn: Transaction,
-    kbid: str,
-    rid: Optional[str],
-    slug: Optional[str] = None,
-    service_name: Optional[str] = None,
-) -> Optional[ORMResource]:
-    storage = await get_storage(service_name=service_name)
+async def serialize_origin(resource: ORMResource) -> Origin | None:
+    origin = await resource.get_origin()
+    if origin is None:
+        return None
-    kb = KnowledgeBox(txn, storage, kbid)
+    return from_proto.origin(origin)
-    if rid is None:
-        if slug is None:
-            raise ValueError("Either rid or slug parameters should be used")
-        rid = await kb.get_resource_uuid_by_slug(slug)
-        if rid is None:
-            # Could not find resource uuid from slug
-            return None
+async def serialize_extra(resource: ORMResource) -> Extra | None:
+    extra = await resource.get_extra()
+    if extra is None:
+        return None
+    return from_proto.extra(extra)
-    orm_resource = await kb.get(rid)
-    if orm_resource is None:
+async def serialize_user_relations(resource: ORMResource) -> list[Relation]:
+    relations = await resource.get_user_relations()
+    return [from_proto.relation(rel) for rel in relations.relations]
+async def serialize_security(resource: ORMResource) -> ResourceSecurity:
+    security = ResourceSecurity(access_groups=[])
+    security_pb = await resource.get_security()
+    if security_pb is not None:
+        for gid in security_pb.access_groups:
+            security.access_groups.append(gid)
+    return security
+async def serialize_field_errors(
+    field: Field,
+    serialized: (
+        TextFieldData | FileFieldData | LinkFieldData | ConversationFieldData | GenericFieldData
+    ),
+):
+    status = await field.get_status()
+    if status is None:
+        status = FieldStatus()
+    serialized.status = status.Status.Name(status.status)
+    if status.errors:
+        serialized.errors = []
+        for error in status.errors:
+            serialized.errors.append(
+                Error(
+                    body=error.source_error.error,
+                    code=error.source_error.code,
+                    code_str=writer_pb2.Error.ErrorCode.Name(error.source_error.code),
+                    created=error.created.ToDatetime(),
+                    severity=writer_pb2.Error.Severity.Name(error.source_error.severity),
+                )
+            )
+        serialized.error = serialized.errors[-1]
+async def set_resource_field_extracted_data(
+    field: Field,
+    field_data: ExtractedDataType,
+    field_type_name: FieldTypeName,
+    wanted_extracted_data: list[ExtractedDataTypeName],
+) -> None:
+    if field_data is None:
+        return
+    if ExtractedDataTypeName.TEXT in wanted_extracted_data:
+        field_data.text = await serialize_extracted_text(field)
+    metadata_wanted = ExtractedDataTypeName.METADATA in wanted_extracted_data
+    shortened_metadata_wanted = ExtractedDataTypeName.SHORTENED_METADATA in wanted_extracted_data
+    if metadata_wanted or shortened_metadata_wanted:
+        field_data.metadata = await serialize_extracted_metadata(
+            field, shortened=shortened_metadata_wanted and not metadata_wanted
+        )
+    if ExtractedDataTypeName.LARGE_METADATA in wanted_extracted_data:
+        field_data.large_metadata = await serialize_extracted_large_metadata(field)
+    if ExtractedDataTypeName.VECTOR in wanted_extracted_data:
+        field_data.vectors = await serialize_extracted_vectors(field)
+    if ExtractedDataTypeName.QA in wanted_extracted_data:
+        field_data.question_answers = await serialize_extracted_question_answers(field)
+    if (
+        isinstance(field, File)
+        and isinstance(field_data, FileFieldExtractedData)
+        and ExtractedDataTypeName.FILE in wanted_extracted_data
+    ):
+        field_data.file = await serialize_file_extracted_data(field)
+    if (
+        isinstance(field, Link)
+        and isinstance(field_data, LinkFieldExtractedData)
+        and ExtractedDataTypeName.LINK in wanted_extracted_data
+    ):
+        field_data.link = await serialize_link_extracted_data(field)
+async def serialize_extracted_text(field: Field) -> ExtractedText | None:
+    data_et = await field.get_extracted_text()
+    if data_et is None:
         return None
+    return from_proto.extracted_text(data_et)
-    return orm_resource
+async def serialize_extracted_metadata(field: Field, *, shortened: bool) -> FieldComputedMetadata | None:
+    data_fcm = await field.get_field_metadata()
+    if data_fcm is None:
+        return None
+    return from_proto.field_computed_metadata(data_fcm, shortened)
-async def get_resource_uuid_by_slug(
-    kbid: str, slug: str, service_name: Optional[str] = None
-) -> Optional[str]:
-    storage = await get_storage(service_name=service_name)
-    driver = get_driver()
-    async with driver.ro_transaction() as txn:
-        kb = KnowledgeBox(txn, storage, kbid)
-        return await kb.get_resource_uuid_by_slug(slug)
+async def serialize_extracted_large_metadata(field: Field) -> LargeComputedMetadata | None:
+    data_lcm = await field.get_large_field_metadata()
+    if data_lcm is None:
+        return None
+    return from_proto.large_computed_metadata(data_lcm)
+async def serialize_extracted_vectors(field: Field) -> VectorObject | None:
+    # XXX: our extracted API is not vectorset-compatible, so we'll get the
+    # first vectorset and return the values. Ideally, we should provide a
+    # way to select a vectorset
+    vectorset_id = None
+    async with datamanagers.with_ro_transaction() as txn:
+        async for vectorset_id, vs in datamanagers.vectorsets.iter(txn=txn, kbid=field.kbid):
+            break
+    assert vectorset_id is not None, "All KBs must have at least a vectorset"
+    data_vec = await field.get_vectors(vectorset_id, vs.storage_key_kind)
+    if data_vec is None:
+        return None
+    return from_proto.vector_object(data_vec)
+async def serialize_extracted_question_answers(field: Field) -> FieldQuestionAnswers | None:
+    qa = await field.get_question_answers()
+    if qa is None:
+        return None
+    return from_proto.field_question_answers(qa)
+async def serialize_file_extracted_data(field: File) -> FileExtractedData | None:
+    data_fed = await field.get_file_extracted_data()
+    if data_fed is None:
+        return None
+    return from_proto.file_extracted_data(data_fed)
+async def serialize_link_extracted_data(field: Link) -> LinkExtractedData | None:
+    data_led = await field.get_link_extracted_data()
+    if data_led is None:
+        return None
+    return from_proto.link_extracted_data(data_led)

nucliadb/ingest/service/writer.py CHANGED Viewed

@@ -18,12 +18,11 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import uuid
-from typing import AsyncIterator
+from collections.abc import AsyncIterator
 from nucliadb.backups import tasks as backup_tasks
 from nucliadb.backups import utils as backup_utils
 from nucliadb.common import datamanagers
-from nucliadb.common.cluster.exceptions import AlreadyExists, EntitiesGroupNotFound
 from nucliadb.common.cluster.utils import get_shard_manager
 from nucliadb.common.datamanagers.exceptions import KnowledgeBoxNotFound
 from nucliadb.common.external_index_providers.exceptions import ExternalIndexCreationError
@@ -49,7 +48,6 @@ from nucliadb_protos.knowledgebox_pb2 import (
 )
 from nucliadb_protos.writer_pb2 import (
     BrokerMessage,
-    DelEntitiesRequest,
     GetEntitiesGroupRequest,
     GetEntitiesGroupResponse,
     GetEntitiesRequest,
@@ -58,12 +56,7 @@ from nucliadb_protos.writer_pb2 import (
     IndexStatus,
     ListEntitiesGroupsRequest,
     ListEntitiesGroupsResponse,
-    NewEntitiesGroupRequest,
-    NewEntitiesGroupResponse,
     OpStatusWriter,
-    SetEntitiesRequest,
-    UpdateEntitiesGroupRequest,
-    UpdateEntitiesGroupResponse,
     WriterStatusRequest,
     WriterStatusResponse,
 )
@@ -126,6 +119,7 @@ class WriterServicer(writer_pb2_grpc.WriterServicer):
                 external_index_provider=request.external_index_provider,
                 hidden_resources_enabled=request.hidden_resources_enabled,
                 hidden_resources_hide_on_creation=request.hidden_resources_hide_on_creation,
+                prewarm_enabled=request.prewarm_enabled,
             )
         except KnowledgeBoxConflict:
@@ -167,11 +161,17 @@ class WriterServicer(writer_pb2_grpc.WriterServicer):
             )
         try:
-            async with self.driver.rw_transaction() as txn:
-                kbid = await KnowledgeBoxORM.update(
-                    txn, uuid=request.uuid, slug=request.slug, config=request.config
-                )
-                await txn.commit()
+            kbid = await KnowledgeBoxORM.update(
+                self.driver,
+                kbid=request.uuid,
+                slug=request.slug,
+                title=request.config.title or None,
+                description=request.config.description or None,
+                external_index_provider=request.config.external_index_provider or None,
+                hidden_resources_enabled=request.config.hidden_resources_enabled,
+                hidden_resources_hide_on_creation=request.config.hidden_resources_hide_on_creation,
+                prewarm_enabled=request.config.prewarm_enabled,
+            )
         except KnowledgeBoxNotFound:
             return UpdateKnowledgeBoxResponse(status=KnowledgeBoxResponseStatus.NOTFOUND)
         except Exception:
@@ -217,29 +217,6 @@ class WriterServicer(writer_pb2_grpc.WriterServicer):
             logger.info(f"Processed {message.uuid}")
         return response
-    async def NewEntitiesGroup(  # type: ignore
-        self, request: NewEntitiesGroupRequest, context=None
-    ) -> NewEntitiesGroupResponse:
-        response = NewEntitiesGroupResponse()
-        async with self.driver.ro_transaction() as ro_txn:
-            kbobj = await self.proc.get_kb_obj(ro_txn, request.kb)
-            if kbobj is None:
-                response.status = NewEntitiesGroupResponse.Status.KB_NOT_FOUND
-                return response
-        async with self.driver.rw_transaction() as txn:
-            kbobj.txn = txn
-            entities_manager = EntitiesManager(kbobj, txn)
-            try:
-                await entities_manager.create_entities_group(request.group, request.entities)
-            except AlreadyExists:
-                response.status = NewEntitiesGroupResponse.Status.ALREADY_EXISTS
-                return response
-            await txn.commit()
-            response.status = NewEntitiesGroupResponse.Status.OK
-            return response
     async def GetEntities(  # type: ignore
         self, request: GetEntitiesRequest, context=None
     ) -> GetEntitiesResponse:
@@ -313,81 +290,6 @@ class WriterServicer(writer_pb2_grpc.WriterServicer):
             return response
-    async def SetEntities(self, request: SetEntitiesRequest, context=None) -> OpStatusWriter:  # type: ignore
-        response = OpStatusWriter()
-        async with self.driver.ro_transaction() as ro_txn:
-            kbobj = await self.proc.get_kb_obj(ro_txn, request.kb)
-            if kbobj is None:
-                response.status = OpStatusWriter.Status.NOTFOUND
-                return response
-        async with self.driver.rw_transaction() as txn:
-            kbobj.txn = txn
-            entities_manager = EntitiesManager(kbobj, txn)
-            try:
-                await entities_manager.set_entities_group(request.group, request.entities)
-            except Exception as e:
-                errors.capture_exception(e)
-                logger.error("Error in ingest gRPC servicer", exc_info=True)
-                response.status = OpStatusWriter.Status.ERROR
-            else:
-                response.status = OpStatusWriter.Status.OK
-                await txn.commit()
-            return response
-    async def UpdateEntitiesGroup(  # type: ignore
-        self, request: UpdateEntitiesGroupRequest, context=None
-    ) -> UpdateEntitiesGroupResponse:
-        response = UpdateEntitiesGroupResponse()
-        async with self.driver.ro_transaction() as ro_txn:
-            kbobj = await self.proc.get_kb_obj(ro_txn, request.kb)
-            if kbobj is None:
-                response.status = UpdateEntitiesGroupResponse.Status.KB_NOT_FOUND
-                return response
-        async with self.driver.rw_transaction() as txn:
-            kbobj.txn = txn
-            entities_manager = EntitiesManager(kbobj, txn)
-            try:
-                await entities_manager.set_entities_group_metadata(
-                    request.group,
-                    title=request.title,
-                    color=request.color,
-                )
-                updates = {**request.add, **request.update}
-                await entities_manager.update_entities(request.group, updates)
-                await entities_manager.delete_entities(request.group, request.delete)  # type: ignore
-            except EntitiesGroupNotFound:
-                response.status = UpdateEntitiesGroupResponse.Status.ENTITIES_GROUP_NOT_FOUND
-                return response
-            await txn.commit()
-            response.status = UpdateEntitiesGroupResponse.Status.OK
-            return response
-    async def DelEntities(self, request: DelEntitiesRequest, context=None) -> OpStatusWriter:  # type: ignore
-        response = OpStatusWriter()
-        async with self.driver.ro_transaction() as ro_txn:
-            kbobj = await self.proc.get_kb_obj(ro_txn, request.kb)
-            if kbobj is None:
-                response.status = OpStatusWriter.Status.NOTFOUND
-                return response
-        async with self.driver.rw_transaction() as txn:
-            kbobj.txn = txn
-            entities_manager = EntitiesManager(kbobj, txn)
-            try:
-                await entities_manager.delete_entities_group(request.group)
-            except Exception as e:
-                errors.capture_exception(e)
-                logger.error("Error in ingest gRPC servicer", exc_info=True)
-                response.status = OpStatusWriter.Status.ERROR
-            else:
-                await txn.commit()
-                response.status = OpStatusWriter.Status.OK
-            return response
     async def Status(  # type: ignore
         self, request: WriterStatusRequest, context=None
     ) -> WriterStatusResponse:
@@ -406,8 +308,7 @@ class WriterServicer(writer_pb2_grpc.WriterServicer):
     async def Index(self, request: IndexResource, context=None) -> IndexStatus:  # type: ignore
         async with self.driver.ro_transaction() as txn:
-            kbobj = KnowledgeBoxORM(txn, self.storage, request.kbid)
-            resobj = ResourceORM(txn, self.storage, kbobj, request.rid)
+            resobj = ResourceORM(txn, self.storage, request.kbid, request.rid)
             bm = await generate_broker_message(resobj)
             transaction = get_transaction_utility()
             partitioning = get_partitioning()
@@ -421,7 +322,7 @@ class WriterServicer(writer_pb2_grpc.WriterServicer):
         try:
             async with self.driver.rw_transaction() as txn:
                 kbobj = KnowledgeBoxORM(txn, self.storage, request.kbid)
-                resobj = ResourceORM(txn, self.storage, kbobj, request.rid)
+                resobj = ResourceORM(txn, self.storage, request.kbid, request.rid)
                 resobj.disable_vectors = not request.reindex_vectors
                 index_message = await get_resource_index_message(resobj, reindex=True)
                 shard = await self.proc.get_or_assign_resource_shard(txn, kbobj, request.rid)

nucliadb 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl