PyPI - nucliadb - Versions diffs - 6.9.1.post5192__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.9.1.post5192py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (231) hide show

migrations/0023_backfill_pg_catalog.py +2 -2
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +2 -2
migrations/0039_backfill_converation_splits_metadata.py +2 -2
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/interface.py +12 -12
nucliadb/common/catalog/pg.py +41 -29
nucliadb/common/catalog/utils.py +3 -3
nucliadb/common/cluster/manager.py +5 -4
nucliadb/common/cluster/rebalance.py +483 -114
nucliadb/common/cluster/rollover.py +25 -9
nucliadb/common/cluster/settings.py +3 -8
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +4 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +4 -5
nucliadb/common/filter_expression.py +128 -40
nucliadb/common/http_clients/processing.py +12 -23
nucliadb/common/ids.py +6 -4
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +3 -4
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +3 -8
nucliadb/ingest/consumer/service.py +3 -3
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +28 -49
nucliadb/ingest/fields/conversation.py +12 -12
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +78 -64
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +4 -4
nucliadb/ingest/orm/knowledgebox.py +18 -27
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +27 -27
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +72 -70
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +3 -109
nucliadb/ingest/settings.py +3 -4
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +11 -11
nucliadb/metrics_exporter.py +5 -4
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +3 -4
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/learning_config.py +24 -4
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +2 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +11 -15
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +25 -25
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +7 -7
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +24 -17
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -23
nucliadb/search/search/chat/ask.py +88 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +449 -36
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +3 -152
nucliadb/search/search/hydrator/fields.py +92 -50
nucliadb/search/search/hydrator/images.py +7 -7
nucliadb/search/search/hydrator/paragraphs.py +42 -26
nucliadb/search/search/hydrator/resources.py +20 -16
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +10 -9
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +13 -9
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -20
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +4 -5
nucliadb/search/search/query_parser/parsers/catalog.py +5 -6
nucliadb/search/search/query_parser/parsers/common.py +5 -6
nucliadb/search/search/query_parser/parsers/find.py +6 -26
nucliadb/search/search/query_parser/parsers/graph.py +13 -23
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -53
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +5 -6
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +2 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +2 -2
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +7 -11
nucliadb/writer/api/v1/knowledgebox.py +3 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +7 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +1 -3
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +5 -6
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +9 -10
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb-6.9.1.post5192.dist-info/RECORD +0 -392
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/ingest/fields/base.py CHANGED Viewed

@@ -24,7 +24,7 @@ import enum
 import logging
 from collections import defaultdict
 from datetime import datetime
-from typing import TYPE_CHECKING, Any, Generic, Optional, Type, TypeVar
+from typing import TYPE_CHECKING, Any, Generic, TypeVar
 from google.protobuf.message import DecodeError, Message
@@ -47,10 +47,8 @@ from nucliadb_protos.resources_pb2 import (
 )
 from nucliadb_protos.utils_pb2 import ExtractedText, VectorObject
 from nucliadb_protos.writer_pb2 import Error, FieldStatus
-from nucliadb_utils import const
 from nucliadb_utils.storages.exceptions import CouldNotCopyNotFound
 from nucliadb_utils.storages.storage import Storage, StorageField
-from nucliadb_utils.utilities import has_feature
 logger = logging.getLogger(__name__)
@@ -77,27 +75,27 @@ PbType = TypeVar("PbType", bound=Message)
 class Field(Generic[PbType]):
-    pbklass: Type[PbType]
+    pbklass: type[PbType]
     type: str = "x"
-    value: Optional[Any]
-    extracted_text: Optional[ExtractedText]
-    extracted_vectors: dict[Optional[str], VectorObject]
-    computed_metadata: Optional[FieldComputedMetadata]
-    large_computed_metadata: Optional[LargeComputedMetadata]
-    question_answers: Optional[FieldQuestionAnswers]
+    value: Any | None
+    extracted_text: ExtractedText | None
+    extracted_vectors: dict[str | None, VectorObject]
+    computed_metadata: FieldComputedMetadata | None
+    large_computed_metadata: LargeComputedMetadata | None
+    question_answers: FieldQuestionAnswers | None
     def __init__(
         self,
         id: str,
         resource: Resource,
-        pb: Optional[Any] = None,
-        value: Optional[Any] = None,
+        pb: Any | None = None,
+        value: Any | None = None,
     ):
         if self.pbklass is None:
             raise InvalidFieldClass()
         self.value = None
-        self.extracted_text: Optional[ExtractedText] = None
+        self.extracted_text: ExtractedText | None = None
         self.extracted_vectors = {}
         self.computed_metadata = None
         self.large_computed_metadata = None
@@ -120,7 +118,7 @@ class Field(Generic[PbType]):
     @property
     def kbid(self) -> str:
-        return self.resource.kb.kbid
+        return self.resource.kbid
     @property
     def uuid(self) -> str:
@@ -161,7 +159,7 @@ class Field(Generic[PbType]):
         return self.storage.file_extracted(self.kbid, self.uuid, self.type, self.id, key)
-    async def db_get_value(self) -> Optional[PbType]:
+    async def db_get_value(self) -> PbType | None:
         if self.value is None:
             payload = await datamanagers.fields.get_raw(
                 self.resource.txn,
@@ -224,21 +222,6 @@ class Field(Generic[PbType]):
     ) -> None:
         # Try delete vectors
         sf = self._get_extracted_vectors_storage_field(vectorset, storage_key_kind)
-        if has_feature(const.Features.DEBUG_MISSING_VECTORS):
-            # This is a very chatty log. It is just a temporary hint while debugging an issue.
-            logger.info(
-                "Deleting vectors from storage",
-                extra={
-                    "kbid": self.kbid,
-                    "rid": self.resource.uuid,
-                    "field": f"{self.type}/{self.id}",
-                    "vectorset": vectorset,
-                    "storage_key_kind": storage_key_kind,
-                    "key": sf.key,
-                    "bucket": sf.bucket,
-                },
-            )
         try:
             await self.storage.delete_upload(sf.key, sf.bucket)
         except KeyError:
@@ -251,7 +234,7 @@ class Field(Generic[PbType]):
         except KeyError:
             pass
-    async def get_error(self) -> Optional[Error]:
+    async def get_error(self) -> Error | None:
         return await datamanagers.fields.get_error(
             self.resource.txn,
             kbid=self.kbid,
@@ -270,7 +253,7 @@ class Field(Generic[PbType]):
             error=error,
         )
-    async def get_status(self) -> Optional[FieldStatus]:
+    async def get_status(self) -> FieldStatus | None:
         return await datamanagers.fields.get_status(
             self.resource.txn,
             kbid=self.kbid,
@@ -289,7 +272,7 @@ class Field(Generic[PbType]):
             status=status,
         )
-    async def get_question_answers(self, force=False) -> Optional[FieldQuestionAnswers]:
+    async def get_question_answers(self, force=False) -> FieldQuestionAnswers | None:
         if self.question_answers is None or force:
             sf = self.get_storage_field(FieldTypes.QUESTION_ANSWERS)
             try:
@@ -306,9 +289,7 @@ class Field(Generic[PbType]):
     async def set_question_answers(self, payload: FieldQuestionAnswerWrapper) -> None:
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[FieldQuestionAnswers] = await self.get_question_answers(
-                    force=True
-                )
+                actual_payload: FieldQuestionAnswers | None = await self.get_question_answers(force=True)
             except KeyError:
                 actual_payload = None
         else:
@@ -341,7 +322,7 @@ class Field(Generic[PbType]):
             self.question_answers = actual_payload
     async def set_extracted_text(self, payload: ExtractedTextWrapper) -> None:
-        actual_payload: Optional[ExtractedText] = None
+        actual_payload: ExtractedText | None = None
         if self.type in SUBFIELDFIELDS:
             # Try to get the previously extracted text protobuf if it exists so we can merge it with the new splits
             # coming from the processing payload.
@@ -392,7 +373,7 @@ class Field(Generic[PbType]):
             await self.storage.upload_pb(sf, actual_payload)
             self.extracted_text = actual_payload
-    async def get_extracted_text(self, force=False) -> Optional[ExtractedText]:
+    async def get_extracted_text(self, force=False) -> ExtractedText | None:
         if self.extracted_text is None or force:
             async with self.locks["extracted_text"]:
                 # Value could have been fetched while waiting for the lock
@@ -408,10 +389,10 @@ class Field(Generic[PbType]):
         payload: ExtractedVectorsWrapper,
         vectorset: str,
         storage_key_kind: VectorSetConfig.StorageKeyKind.ValueType,
-    ) -> Optional[VectorObject]:
+    ) -> VectorObject | None:
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[VectorObject] = await self.get_vectors(
+                actual_payload: VectorObject | None = await self.get_vectors(
                     vectorset=vectorset,
                     storage_key_kind=storage_key_kind,
                     force=True,
@@ -422,7 +403,7 @@ class Field(Generic[PbType]):
             actual_payload = None
         sf = self._get_extracted_vectors_storage_field(vectorset, storage_key_kind)
-        vo: Optional[VectorObject] = None
+        vo: VectorObject | None = None
         if actual_payload is None:
             # Its first extracted vectors
             if payload.HasField("file"):
@@ -474,7 +455,7 @@ class Field(Generic[PbType]):
         vectorset: str,
         storage_key_kind: VectorSetConfig.StorageKeyKind.ValueType,
         force: bool = False,
-    ) -> Optional[VectorObject]:
+    ) -> VectorObject | None:
         if self.extracted_vectors.get(vectorset, None) is None or force:
             sf = self._get_extracted_vectors_storage_field(vectorset, storage_key_kind)
             payload = await self.storage.download_pb(sf, VectorObject)
@@ -485,9 +466,7 @@ class Field(Generic[PbType]):
     async def set_field_metadata(self, payload: FieldComputedMetadataWrapper) -> FieldComputedMetadata:
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[FieldComputedMetadata] = await self.get_field_metadata(
-                    force=True
-                )
+                actual_payload: FieldComputedMetadata | None = await self.get_field_metadata(force=True)
             except KeyError:
                 actual_payload = None
         else:
@@ -530,7 +509,7 @@ class Field(Generic[PbType]):
         return self.computed_metadata
-    async def get_field_metadata(self, force: bool = False) -> Optional[FieldComputedMetadata]:
+    async def get_field_metadata(self, force: bool = False) -> FieldComputedMetadata | None:
         if self.computed_metadata is None or force:
             async with self.locks["field_metadata"]:
                 # Value could have been fetched while waiting for the lock
@@ -544,7 +523,7 @@ class Field(Generic[PbType]):
     async def set_large_field_metadata(self, payload: LargeComputedMetadataWrapper):
         if self.type in SUBFIELDFIELDS:
             try:
-                actual_payload: Optional[LargeComputedMetadata] = await self.get_large_field_metadata(
+                actual_payload: LargeComputedMetadata | None = await self.get_large_field_metadata(
                     force=True
                 )
             except KeyError:
@@ -554,7 +533,7 @@ class Field(Generic[PbType]):
         sf = self.get_storage_field(FieldTypes.FIELD_LARGE_METADATA)
-        new_payload: Optional[LargeComputedMetadata] = None
+        new_payload: LargeComputedMetadata | None = None
         if payload.HasField("file"):
             new_payload = LargeComputedMetadata()
             data = await self.storage.downloadbytescf(payload.file)
@@ -581,7 +560,7 @@ class Field(Generic[PbType]):
         return self.large_computed_metadata
-    async def get_large_field_metadata(self, force: bool = False) -> Optional[LargeComputedMetadata]:
+    async def get_large_field_metadata(self, force: bool = False) -> LargeComputedMetadata | None:
         if self.large_computed_metadata is None or force:
             sf = self.get_storage_field(FieldTypes.FIELD_LARGE_METADATA)
             payload = await self.storage.download_pb(

nucliadb/ingest/fields/conversation.py CHANGED Viewed

@@ -18,14 +18,14 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import uuid
-from typing import Any, Optional
+from typing import Any
 from nucliadb.ingest.fields.base import Field
-from nucliadb_protos.resources_pb2 import CloudFile, FieldConversation, SplitMetadata, SplitsMetadata
+from nucliadb_protos.resources_pb2 import CloudFile, FieldConversation, SplitsMetadata
 from nucliadb_protos.resources_pb2 import Conversation as PBConversation
 from nucliadb_utils.storages.storage import StorageField
-MAX_CONVERSATION_MESSAGES = 50 * 1024
+MAX_CONVERSATION_MESSAGES = None  # No limit
 PAGE_SIZE = 200
@@ -42,7 +42,7 @@ class Conversation(Field[PBConversation]):
     pbklass = PBConversation
     type: str = "c"
     value: dict[int, PBConversation]
-    metadata: Optional[FieldConversation]
+    metadata: FieldConversation | None
     _created: bool = False
@@ -50,12 +50,12 @@ class Conversation(Field[PBConversation]):
         self,
         id: str,
         resource: Any,
-        pb: Optional[Any] = None,
-        value: Optional[dict[int, PBConversation]] = None,
+        pb: Any | None = None,
+        value: dict[int, PBConversation] | None = None,
     ):
-        super(Conversation, self).__init__(id, resource, pb, value)
+        super().__init__(id, resource, pb, value)
         self.value = {}
-        self._splits_metadata: Optional[SplitsMetadata] = None
+        self._splits_metadata: SplitsMetadata | None = None
         self.metadata = None
     async def delete_value(self):
@@ -76,7 +76,7 @@ class Conversation(Field[PBConversation]):
         metadata.split_strategy = payload.split_strategy
         # Get the last page if it exists
-        last_page: Optional[PBConversation] = None
+        last_page: PBConversation | None = None
         if self._created is False and metadata.pages > 0:
             try:
                 last_page = await self.db_get_value(page=metadata.pages)
@@ -92,7 +92,7 @@ class Conversation(Field[PBConversation]):
         # to support the hybrid-onprem deployment as the attachments must be stored
         # at the storage services of the client's premises.
         for message in payload.messages:
-            self._splits_metadata.metadata.setdefault(message.ident, SplitMetadata())
+            self._splits_metadata.metadata.get_or_create(message.ident)
             new_message_files = []
             for idx, file in enumerate(message.content.attachments):
                 if self.storage.needs_move(file, self.kbid):
@@ -138,7 +138,7 @@ class Conversation(Field[PBConversation]):
         await self.db_set_metadata(metadata)
         await self.set_splits_metadata(self._splits_metadata)
-    async def get_value(self, page: Optional[int] = None) -> Optional[PBConversation]:
+    async def get_value(self, page: int | None = None) -> PBConversation | None:
         # If no page was requested, force fetch of metadata
         # and set the page to the last page
         if page is None and self.metadata is None:
@@ -153,7 +153,7 @@ class Conversation(Field[PBConversation]):
         except PageNotFound:
             return None
-    async def get_full_conversation(self) -> Optional[PBConversation]:
+    async def get_full_conversation(self) -> PBConversation | None:
         """
         Messages of a conversations may be stored across several pages.
         This method fetches them all and returns a single complete conversation.

nucliadb/ingest/fields/exceptions.py CHANGED Viewed

@@ -17,7 +17,6 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Type
 class InvalidFieldClass(Exception):
@@ -25,7 +24,7 @@ class InvalidFieldClass(Exception):
 class InvalidPBClass(Exception):
-    def __init__(self, source: Type, destination: Type):
+    def __init__(self, source: type, destination: type):
         self.source = source
         self.destination = destination
         super().__init__(f"Source and destination does not match {self.source} - {self.destination}")

nucliadb/ingest/fields/file.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Any, Optional
+from typing import Any
 from nucliadb.ingest.fields.base import Field
 from nucliadb_protos.resources_pb2 import CloudFile, FieldFile, FileExtractedData
@@ -30,22 +30,22 @@ class File(Field[FieldFile]):
     pbklass = FieldFile
     value: FieldFile
     type: str = "f"
-    file_extracted_data: Optional[FileExtractedData]
+    file_extracted_data: FileExtractedData | None
     def __init__(
         self,
         id: str,
         resource: Any,
-        pb: Optional[Any] = None,
-        value: Optional[str] = None,
+        pb: Any | None = None,
+        value: str | None = None,
     ):
-        super(File, self).__init__(id, resource, pb, value)
+        super().__init__(id, resource, pb, value)
         self.file_extracted_data = None
     async def set_value(self, payload: FieldFile):
         old_file = await self.get_value()
         if old_file is None:
-            old_cf: Optional[CloudFile] = None
+            old_cf: CloudFile | None = None
         else:
             old_cf = old_file.file
@@ -57,7 +57,7 @@ class File(Field[FieldFile]):
         await self.db_set_value(payload)
-    async def get_value(self) -> Optional[FieldFile]:
+    async def get_value(self) -> FieldFile | None:
         return await self.db_get_value()
     async def set_file_extracted_data(self, file_extracted_data: FileExtractedData):
@@ -101,10 +101,24 @@ class File(Field[FieldFile]):
         await self.storage.upload_pb(sf, file_extracted_data)
         self.file_extracted_data = file_extracted_data
-    async def get_file_extracted_data(self) -> Optional[FileExtractedData]:
+    async def get_file_extracted_data(self) -> FileExtractedData | None:
         if self.file_extracted_data is None:
             sf: StorageField = self.storage.file_extracted(
                 self.kbid, self.uuid, self.type, self.id, FILE_METADATA
             )
             self.file_extracted_data = await self.storage.download_pb(sf, FileExtractedData)
         return self.file_extracted_data
+    async def thumbnail(self) -> StorageField | None:
+        """Access the file field thumbnail."""
+        fed = await self.get_file_extracted_data()
+        if fed is None:
+            return None
+        if not fed.HasField("file_thumbnail"):
+            return None
+        sf: StorageField = self.storage.file_extracted(
+            self.kbid, self.uuid, self.type, self.id, "file_thumbnail"
+        )
+        sf.field = fed.file_thumbnail
+        return sf

nucliadb/ingest/fields/link.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Any, Optional
+from typing import Any
 from nucliadb.ingest.fields.base import Field
 from nucliadb_protos.resources_pb2 import CloudFile, FieldLink, LinkExtractedData
@@ -30,22 +30,22 @@ class Link(Field[FieldLink]):
     pbklass = FieldLink
     value: FieldLink
     type: str = "u"
-    link_extracted_data: Optional[LinkExtractedData]
+    link_extracted_data: LinkExtractedData | None
     def __init__(
         self,
         id: str,
         resource: Any,
-        pb: Optional[Any] = None,
-        value: Optional[str] = None,
+        pb: Any | None = None,
+        value: str | None = None,
     ):
-        super(Link, self).__init__(id, resource, pb, value)
+        super().__init__(id, resource, pb, value)
         self.link_extracted_data = None
     async def set_value(self, payload: FieldLink):
         await self.db_set_value(payload)
-    async def get_value(self) -> Optional[FieldLink]:
+    async def get_value(self) -> FieldLink | None:
         return await self.db_get_value()
     async def set_link_extracted_data(self, link_extracted_data: LinkExtractedData):
@@ -88,7 +88,7 @@ class Link(Field[FieldLink]):
         await self.storage.upload_pb(sf, link_extracted_data)
         self.link_extracted_data = link_extracted_data
-    async def get_link_extracted_data(self) -> Optional[LinkExtractedData]:
+    async def get_link_extracted_data(self) -> LinkExtractedData | None:
         if self.link_extracted_data is None:
             sf: StorageField = self.storage.file_extracted(
                 self.kbid, self.uuid, self.type, self.id, LINK_METADATA

nucliadb/ingest/fields/text.py CHANGED Viewed

@@ -19,7 +19,6 @@
 #
 import hashlib
-from typing import Optional
 from nucliadb.ingest.fields.base import Field
 from nucliadb.ingest.fields.exceptions import FieldAuthorNotFound
@@ -39,8 +38,8 @@ class Text(Field[FieldText]):
     async def set_value(self, payload: FieldText):
         if payload.md5 == "":
-            payload.md5 = hashlib.md5(payload.body.encode()).hexdigest()
+            payload.md5 = hashlib.md5(payload.body.encode(), usedforsecurity=False).hexdigest()
         await self.db_set_value(payload)
-    async def get_value(self) -> Optional[FieldText]:
+    async def get_value(self) -> FieldText | None:
         return await self.db_get_value()

nucliadb 6.9.1.post5192__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.9.1.post5192py3-none-any.whl → 6.10.0.post5705py3-none-any.whl