PyPI - nucliadb - Versions diffs - 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (246) hide show

migrations/0023_backfill_pg_catalog.py +8 -4
migrations/0028_extracted_vectors_reference.py +1 -1
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +8 -4
migrations/0039_backfill_converation_splits_metadata.py +106 -0
migrations/0040_migrate_search_configurations.py +79 -0
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/__init__.py +79 -0
nucliadb/common/catalog/dummy.py +36 -0
nucliadb/common/catalog/interface.py +85 -0
nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} +330 -232
nucliadb/common/catalog/utils.py +56 -0
nucliadb/common/cluster/manager.py +8 -23
nucliadb/common/cluster/rebalance.py +484 -112
nucliadb/common/cluster/rollover.py +36 -9
nucliadb/common/cluster/settings.py +4 -9
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +9 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +5 -34
nucliadb/common/external_index_providers/settings.py +1 -27
nucliadb/common/filter_expression.py +129 -41
nucliadb/common/http_clients/exceptions.py +8 -0
nucliadb/common/http_clients/processing.py +16 -23
nucliadb/common/http_clients/utils.py +3 -0
nucliadb/common/ids.py +82 -58
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +22 -5
nucliadb/common/vector_index_config.py +1 -1
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +10 -8
nucliadb/ingest/consumer/service.py +5 -30
nucliadb/ingest/consumer/shard_creator.py +16 -5
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +37 -49
nucliadb/ingest/fields/conversation.py +55 -9
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +89 -57
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +128 -113
nucliadb/ingest/orm/knowledgebox.py +91 -59
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +98 -153
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +82 -71
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/partitions.py +12 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +15 -114
nucliadb/ingest/settings.py +36 -15
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +23 -26
nucliadb/metrics_exporter.py +20 -6
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +4 -11
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +37 -9
nucliadb/reader/api/v1/learning_config.py +33 -14
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +3 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +15 -19
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +328 -0
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +28 -8
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +33 -19
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -42
nucliadb/search/search/chat/ask.py +131 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +453 -32
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +49 -0
nucliadb/search/search/hydrator/fields.py +217 -0
nucliadb/search/search/hydrator/images.py +130 -0
nucliadb/search/search/hydrator/paragraphs.py +323 -0
nucliadb/search/search/hydrator/resources.py +60 -0
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +24 -7
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +44 -18
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -48
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +5 -6
nucliadb/search/search/query_parser/parsers/catalog.py +7 -11
nucliadb/search/search/query_parser/parsers/common.py +21 -13
nucliadb/search/search/query_parser/parsers/find.py +6 -29
nucliadb/search/search/query_parser/parsers/graph.py +18 -28
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -56
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +6 -7
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +5 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +4 -10
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +15 -14
nucliadb/writer/api/v1/knowledgebox.py +18 -56
nucliadb/writer/api/v1/learning_config.py +5 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +43 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +5 -7
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +15 -22
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +10 -11
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb/common/external_index_providers/pinecone.py +0 -894
nucliadb/ingest/orm/processor/pgcatalog.py +0 -129
nucliadb/search/search/hydrator.py +0 -197
nucliadb-6.7.2.post4874.dist-info/RECORD +0 -383
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/search/predict.py CHANGED Viewed

@@ -22,9 +22,9 @@ import json
 import logging
 import os
 import random
+from collections.abc import AsyncGenerator
 from dataclasses import dataclass
 from enum import Enum
-from typing import AsyncGenerator, Optional
 from unittest.mock import AsyncMock, Mock
 import aiohttp
@@ -144,7 +144,7 @@ class AnswerStatusCode(str, Enum):
 @dataclass
 class RephraseResponse:
     rephrased_query: str
-    use_chat_history: Optional[bool]
+    use_chat_history: bool | None
 async def start_predict_engine():
@@ -176,18 +176,18 @@ def convert_relations(data: dict[str, list[dict[str, str]]]) -> list[RelationNod
 class PredictEngine:
     def __init__(
         self,
-        cluster_url: Optional[str] = None,
-        public_url: Optional[str] = None,
-        nuclia_service_account: Optional[str] = None,
-        zone: Optional[str] = None,
+        cluster_url: str | None = None,
+        public_url: str | None = None,
+        nuclia_service_account: str | None = None,
+        zone: str | None = None,
         onprem: bool = False,
         local_predict: bool = False,
-        local_predict_headers: Optional[dict[str, str]] = None,
+        local_predict_headers: dict[str, str] | None = None,
     ):
         self.nuclia_service_account = nuclia_service_account
         self.cluster_url = cluster_url
         if public_url is not None:
-            self.public_url: Optional[str] = public_url.format(zone=zone)
+            self.public_url: str | None = public_url.format(zone=zone)
         else:
             self.public_url = None
         self.zone = zone
@@ -294,7 +294,7 @@ class PredictEngine:
     @predict_observer.wrap({"type": "chat_ndjson"})
     async def chat_query_ndjson(
-        self, kbid: str, item: ChatModel, extra_headers: Optional[dict[str, str]] = None
+        self, kbid: str, item: ChatModel, extra_headers: dict[str, str] | None = None
     ) -> tuple[str, str, AsyncGenerator[GenerativeChunk, None]]:
         """
         Chat query using the new stream format
@@ -383,7 +383,7 @@ class PredictEngine:
     @predict_observer.wrap({"type": "summarize"})
     async def summarize(
-        self, kbid: str, item: SummarizeModel, extra_headers: Optional[dict[str, str]] = None
+        self, kbid: str, item: SummarizeModel, extra_headers: dict[str, str] | None = None
     ) -> SummarizedResponse:
         try:
             self.check_nua_key_is_configured_for_onprem()
@@ -447,6 +447,10 @@ class DummyPredictEngine(PredictEngine):
         self.cluster_url = "http://localhost:8000"
         self.public_url = "http://localhost:8000"
         self.calls = []
+        self.ndjson_reasoning = [
+            b'{"chunk": {"type": "reasoning", "text": "dummy "}}\n',
+            b'{"chunk": {"type": "reasoning", "text": "reasoning"}}\n',
+        ]
         self.ndjson_answer = [
             b'{"chunk": {"type": "text", "text": "valid "}}\n',
             b'{"chunk": {"type": "text", "text": "answer "}}\n',
@@ -477,13 +481,16 @@ class DummyPredictEngine(PredictEngine):
         return RephraseResponse(rephrased_query=DUMMY_REPHRASE_QUERY, use_chat_history=None)
     async def chat_query_ndjson(
-        self, kbid: str, item: ChatModel, extra_headers: Optional[dict[str, str]] = None
+        self, kbid: str, item: ChatModel, extra_headers: dict[str, str] | None = None
     ) -> tuple[str, str, AsyncGenerator[GenerativeChunk, None]]:
         self.calls.append(("chat_query_ndjson", item))
         async def generate():
-            for item in self.ndjson_answer:
-                yield GenerativeChunk.model_validate_json(item)
+            if item.reasoning is not False:
+                for chunk in self.ndjson_reasoning:
+                    yield GenerativeChunk.model_validate_json(chunk)
+            for chunk in self.ndjson_answer:
+                yield GenerativeChunk.model_validate_json(chunk)
         return (DUMMY_LEARNING_ID, DUMMY_LEARNING_MODEL, generate())
@@ -517,10 +524,17 @@ class DummyPredictEngine(PredictEngine):
                 timings[vectorset_id] = 0.010
         # and fake data with the passed one too
-        model = item.semantic_models[0] if item.semantic_models else "<PREDICT-DEFAULT-SEMANTIC-MODEL>"
-        semantic_thresholds[model] = self.default_semantic_threshold
-        vectors[model] = base_vector
-        timings[model] = 0.0
+        if item.semantic_models is not None:
+            for model in item.semantic_models:
+                semantic_thresholds[model] = self.default_semantic_threshold
+                vectors[model] = base_vector
+                timings[model] = 0.0
+        if len(vectors) == 0:
+            model = "<PREDICT-DEFAULT-SEMANTIC-MODEL>"
+            semantic_thresholds[model] = self.default_semantic_threshold
+            vectors[model] = base_vector
+            timings[model] = 0.0
         return QueryInfo(
             language="en",
@@ -533,7 +547,7 @@ class DummyPredictEngine(PredictEngine):
                 vectors=vectors,
                 timings=timings,
             ),
-            query=model,
+            query=item.text or "<PREDICT-QUERY>",
             rephrased_query="<REPHRASED-QUERY>" if item.rephrase or item.query_image else None,
         )
@@ -546,7 +560,7 @@ class DummyPredictEngine(PredictEngine):
             return DUMMY_RELATION_NODE
     async def summarize(
-        self, kbid: str, item: SummarizeModel, extra_headers: Optional[dict[str, str]] = None
+        self, kbid: str, item: SummarizeModel, extra_headers: dict[str, str] | None = None
     ) -> SummarizedResponse:
         self.calls.append(("summarize", (kbid, item)))
         response = SummarizedResponse(

nucliadb/search/predict_models.py CHANGED Viewed

@@ -19,7 +19,6 @@
 from base64 import b64decode, b64encode
 from enum import Enum
-from typing import Optional
 from google.protobuf.message import DecodeError, Message
 from pydantic import BaseModel, ConfigDict, Field, field_validator
@@ -77,7 +76,7 @@ class RunAgentsRequest(BaseModel):
         default_factory=list,
         title="An optional list of Data Augmentation Agent IDs to run. If empty, all configured agents that match the filters are run.",
     )
-    filters: Optional[list[NameOperationFilter]] = Field(
+    filters: list[NameOperationFilter] | None = Field(
         default=None,
         title="Filters to select which Data Augmentation Agents are applied to the text. If empty, all configured agents for the Knowledge Box are applied.",
     )
@@ -93,7 +92,7 @@ class AppliedDataAugmentation(BaseModel):
         # Since we have protos as fields, we need to enable arbitrary_types_allowed
         arbitrary_types_allowed=True,
     )
-    qas: Optional[QuestionAnswers] = Field(
+    qas: QuestionAnswers | None = Field(
         default=None,
         description="Question and answers generated by the Question Answers agent",
     )
@@ -107,7 +106,7 @@ class AppliedDataAugmentation(BaseModel):
     )
     @field_validator("qas", mode="before")
-    def validate_qas(cls, qas: Optional[str]) -> Optional[QuestionAnswers]:
+    def validate_qas(cls, qas: str | None) -> QuestionAnswers | None:
         if qas is None:
             return None
         try:
@@ -171,8 +170,8 @@ class QueryModel(BaseModel):
     Model to represent a query request
     """
-    text: Optional[str] = Field(default=None, description="The query text to be processed")
-    query_image: Optional[Image] = Field(
+    text: str | None = Field(default=None, description="The query text to be processed")
+    query_image: Image | None = Field(
         default=None,
         description="Image to be considered as part of the query.  Even if the `rephrase` parameter is set to `false`, the rephrasing process will occur, combining the provided text with the image's visual features in the rephrased query.",
     )
@@ -180,7 +179,7 @@ class QueryModel(BaseModel):
         default=False,
         description="If true, the model will rephrase the input text before processing",
     )
-    rephrase_prompt: Optional[str] = Field(
+    rephrase_prompt: str | None = Field(
         default=None,
         description="Custom prompt for rephrasing the input text",
         examples=[
@@ -192,11 +191,11 @@ QUESTION: {question}
 Please return ONLY the question without any explanation.""",
         ],
     )
-    generative_model: Optional[str] = Field(
+    generative_model: str | None = Field(
         default=None,
         description="The generative model to use for rephrasing",
     )
-    semantic_models: Optional[list[str]] = Field(
+    semantic_models: list[str] | None = Field(
         default=None,
         description="Semantic models to compute the sentence vector for, if not provided, it will only compute the sentence vector for default semantic model in the Knowledge box's configuration.",
     )

nucliadb/search/requesters/utils.py CHANGED Viewed

@@ -19,8 +19,9 @@
 import asyncio
 import json
+from collections.abc import Sequence
 from enum import Enum, auto
-from typing import Any, Optional, Sequence, TypeVar, Union, overload
+from typing import TypeVar, overload
 from fastapi import HTTPException
 from google.protobuf.json_format import MessageToDict
@@ -60,7 +61,7 @@ METHODS = {
     Method.GRAPH: graph_search_shard,
 }
-REQUEST_TYPE = Union[SuggestRequest, SearchRequest, GraphSearchRequest]
+REQUEST_TYPE = SuggestRequest | SearchRequest | GraphSearchRequest
 T = TypeVar(
     "T",
@@ -75,7 +76,7 @@ async def nidx_query(
     kbid: str,
     method: Method,
     pb_query: SuggestRequest,
-    timeout: Optional[float] = None,
+    timeout: float | None = None,
 ) -> tuple[list[SuggestResponse], list[str]]: ...
@@ -84,7 +85,7 @@ async def nidx_query(
     kbid: str,
     method: Method,
     pb_query: SearchRequest,
-    timeout: Optional[float] = None,
+    timeout: float | None = None,
 ) -> tuple[list[SearchResponse], list[str]]: ...
@@ -93,7 +94,7 @@ async def nidx_query(
     kbid: str,
     method: Method,
     pb_query: GraphSearchRequest,
-    timeout: Optional[float] = None,
+    timeout: float | None = None,
 ) -> tuple[list[GraphSearchResponse], list[str]]: ...
@@ -101,8 +102,8 @@ async def nidx_query(
     kbid: str,
     method: Method,
     pb_query: REQUEST_TYPE,
-    timeout: Optional[float] = None,
-) -> tuple[Sequence[Union[T, BaseException]], list[str]]:
+    timeout: float | None = None,
+) -> tuple[Sequence[T | BaseException], list[str]]:
     timeout = timeout or settings.search_timeout
     shard_manager = get_shard_manager()
     try:
@@ -133,7 +134,7 @@ async def nidx_query(
         )
     try:
-        results: list[Union[T, BaseException]] = await asyncio.wait_for(
+        results: list[T | BaseException] = await asyncio.wait_for(
             asyncio.gather(*ops, return_exceptions=True),
             timeout=timeout,
         )
@@ -159,13 +160,13 @@ async def nidx_query(
     return results, queried_shards
-def validate_nidx_query_results(results: list[Any]) -> Optional[HTTPException]:
+def validate_nidx_query_results(results: list[T | BaseException]) -> HTTPException | None:
     """
     Validate the results of a nidx query and return an exception if any error is found
     Handling of exception is responsibility of caller.
     """
-    if results is None or len(results) == 0:
+    if len(results) == 0:
         return HTTPException(status_code=500, detail=f"Error while executing shard queries. No results.")
     for result in results:

nucliadb/search/search/cache.py CHANGED Viewed

@@ -19,9 +19,6 @@
 import contextlib
 import logging
-from typing import Optional
-import backoff
 from nucliadb.common.cache import (
     extracted_text_cache,
@@ -41,26 +38,35 @@ from nucliadb_utils.utilities import get_storage
 logger = logging.getLogger(__name__)
-async def get_resource(kbid: str, uuid: str) -> Optional[ResourceORM]:
+async def get_resource(kbid: str, uuid: str) -> ResourceORM | None:
     """
     Will try to get the resource from the cache, if it's not there it will fetch it from the ORM and cache it.
     """
     resource_cache = get_resource_cache()
     if resource_cache is None:
         logger.warning("Resource cache not set")
-        return await _orm_get_resource(kbid, uuid)
+        async with get_driver().ro_transaction() as txn:
+            storage = await get_storage(service_name=SERVICE_NAME)
+            kb = KnowledgeBoxORM(txn, storage, kbid)
+            return await kb.get(uuid)
     return await resource_cache.get(kbid, uuid)
-async def _orm_get_resource(kbid: str, uuid: str) -> Optional[ResourceORM]:
-    async with get_driver().ro_transaction() as txn:
-        storage = await get_storage(service_name=SERVICE_NAME)
-        kb = KnowledgeBoxORM(txn, storage, kbid)
-        return await kb.get(uuid)
+async def get_field(kbid: str, field_id: FieldId) -> Field | None:
+    rid = field_id.rid
+    orm_resource = await get_resource(kbid, rid)
+    if orm_resource is None:
+        return None
+    field_obj = await orm_resource.get_field(
+        key=field_id.key,
+        type=field_id.pb_type,
+        load=False,
+    )
+    return field_obj
-async def get_field_extracted_text(field: Field) -> Optional[ExtractedText]:
+async def get_field_extracted_text(field: Field) -> ExtractedText | None:
     if field.extracted_text is not None:
         return field.extracted_text
@@ -74,36 +80,6 @@ async def get_field_extracted_text(field: Field) -> Optional[ExtractedText]:
     return extracted_text
-@backoff.on_exception(backoff.expo, (Exception,), jitter=backoff.random_jitter, max_tries=3)
-async def field_get_extracted_text(field: Field) -> Optional[ExtractedText]:
-    try:
-        return await field.get_extracted_text()
-    except Exception:
-        logger.warning(
-            "Error getting extracted text for field. Retrying",
-            exc_info=True,
-            extra={
-                "kbid": field.kbid,
-                "resource_id": field.resource.uuid,
-                "field": f"{field.type}/{field.id}",
-            },
-        )
-        raise
-async def get_extracted_text_from_field_id(kbid: str, field: FieldId) -> Optional[ExtractedText]:
-    rid = field.rid
-    orm_resource = await get_resource(kbid, rid)
-    if orm_resource is None:
-        return None
-    field_obj = await orm_resource.get_field(
-        key=field.key,
-        type=field.pb_type,
-        load=False,
-    )
-    return await get_field_extracted_text(field_obj)
 @contextlib.contextmanager
 def request_caches():
     """
@@ -115,7 +91,8 @@ def request_caches():
     Makes sure to clean the caches at the end of the context manager.
     >>> with request_caches():
     ...     resource = await get_resource(kbid, uuid)
-    ...     extracted_text = await get_extracted_text_from_field_id(kbid, rid, field_id)
+    ...     field = await get_field(kbid, field_id)
+    ...     extracted_text = await get_field_extracted_text(field)
     """
     # This cache size is an arbitrary number, once we have a metric in place and

nucliadb 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl