PyPI - nucliadb - Versions diffs - 6.9.1.post5192__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.9.1.post5192py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (231) hide show

migrations/0023_backfill_pg_catalog.py +2 -2
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +2 -2
migrations/0039_backfill_converation_splits_metadata.py +2 -2
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/interface.py +12 -12
nucliadb/common/catalog/pg.py +41 -29
nucliadb/common/catalog/utils.py +3 -3
nucliadb/common/cluster/manager.py +5 -4
nucliadb/common/cluster/rebalance.py +483 -114
nucliadb/common/cluster/rollover.py +25 -9
nucliadb/common/cluster/settings.py +3 -8
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +4 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +4 -5
nucliadb/common/filter_expression.py +128 -40
nucliadb/common/http_clients/processing.py +12 -23
nucliadb/common/ids.py +6 -4
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +3 -4
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +3 -8
nucliadb/ingest/consumer/service.py +3 -3
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +28 -49
nucliadb/ingest/fields/conversation.py +12 -12
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +78 -64
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +4 -4
nucliadb/ingest/orm/knowledgebox.py +18 -27
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +27 -27
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +72 -70
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +3 -109
nucliadb/ingest/settings.py +3 -4
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +11 -11
nucliadb/metrics_exporter.py +5 -4
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +3 -4
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/learning_config.py +24 -4
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +2 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +11 -15
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +25 -25
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +7 -7
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +24 -17
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -23
nucliadb/search/search/chat/ask.py +88 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +449 -36
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +3 -152
nucliadb/search/search/hydrator/fields.py +92 -50
nucliadb/search/search/hydrator/images.py +7 -7
nucliadb/search/search/hydrator/paragraphs.py +42 -26
nucliadb/search/search/hydrator/resources.py +20 -16
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +10 -9
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +13 -9
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -20
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +4 -5
nucliadb/search/search/query_parser/parsers/catalog.py +5 -6
nucliadb/search/search/query_parser/parsers/common.py +5 -6
nucliadb/search/search/query_parser/parsers/find.py +6 -26
nucliadb/search/search/query_parser/parsers/graph.py +13 -23
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -53
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +5 -6
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +2 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +2 -2
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +7 -11
nucliadb/writer/api/v1/knowledgebox.py +3 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +7 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +1 -3
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +5 -6
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +9 -10
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb-6.9.1.post5192.dist-info/RECORD +0 -392
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/search/search/query.py CHANGED Viewed

@@ -18,17 +18,13 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 from datetime import datetime
-from typing import Any, Optional
+from typing import Any
 from nidx_protos import nodereader_pb2
 from nidx_protos.noderesources_pb2 import Resource
-from nucliadb.common import datamanagers
 from nucliadb.common.exceptions import InvalidQueryError
 from nucliadb.common.filter_expression import add_and_expression, parse_expression
-from nucliadb.search.search.filters import (
-    translate_label,
-)
 from nucliadb.search.search.query_parser.fetcher import Fetcher
 from nucliadb_models.filters import FilterExpression
 from nucliadb_models.labels import LABEL_HIDDEN
@@ -38,7 +34,6 @@ from nucliadb_models.search import (
     SortOrder,
     SuggestOptions,
 )
-from nucliadb_protos import utils_pb2
 from .query_parser.old_filters import OldFilterParams, parse_old_filters
@@ -47,16 +42,16 @@ async def paragraph_query_to_pb(
     kbid: str,
     rid: str,
     query: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
     fields: list[str],
     filters: list[str],
     faceted: list[str],
     top_k: int,
-    range_creation_start: Optional[datetime] = None,
-    range_creation_end: Optional[datetime] = None,
-    range_modification_start: Optional[datetime] = None,
-    range_modification_end: Optional[datetime] = None,
-    sort: Optional[str] = None,
+    range_creation_start: datetime | None = None,
+    range_creation_end: datetime | None = None,
+    range_modification_start: datetime | None = None,
+    range_modification_end: datetime | None = None,
+    sort: str | None = None,
     sort_ord: str = SortOrder.DESC.value,
     with_duplicates: bool = False,
 ) -> nodereader_pb2.SearchRequest:
@@ -119,86 +114,19 @@ async def paragraph_query_to_pb(
     return request
-def expand_entities(
-    meta_cache: datamanagers.entities.EntitiesMetaCache,
-    detected_entities: list[utils_pb2.RelationNode],
-) -> list[utils_pb2.RelationNode]:
-    """
-    Iterate through duplicated entities in a kb.
-    The algorithm first makes it so we can look up duplicates by source and
-    by the referenced entity and expands from both directions.
-    """
-    result_entities = {entity.value: entity for entity in detected_entities}
-    duplicated_entities = meta_cache.duplicate_entities
-    duplicated_entities_by_value = meta_cache.duplicate_entities_by_value
-    for entity in detected_entities[:]:
-        if entity.subtype not in duplicated_entities:
-            continue
-        if entity.value in duplicated_entities[entity.subtype]:
-            for duplicate in duplicated_entities[entity.subtype][entity.value]:
-                result_entities[duplicate] = utils_pb2.RelationNode(
-                    ntype=utils_pb2.RelationNode.NodeType.ENTITY,
-                    subtype=entity.subtype,
-                    value=duplicate,
-                )
-        if entity.value in duplicated_entities_by_value[entity.subtype]:
-            source_duplicate = duplicated_entities_by_value[entity.subtype][entity.value]
-            result_entities[source_duplicate] = utils_pb2.RelationNode(
-                ntype=utils_pb2.RelationNode.NodeType.ENTITY,
-                subtype=entity.subtype,
-                value=source_duplicate,
-            )
-            if source_duplicate in duplicated_entities[entity.subtype]:
-                for duplicate in duplicated_entities[entity.subtype][source_duplicate]:
-                    if duplicate == entity.value:
-                        continue
-                    result_entities[duplicate] = utils_pb2.RelationNode(
-                        ntype=utils_pb2.RelationNode.NodeType.ENTITY,
-                        subtype=entity.subtype,
-                        value=duplicate,
-                    )
-    return list(result_entities.values())
-def apply_entities_filter(
-    request: nodereader_pb2.SearchRequest,
-    detected_entities: list[utils_pb2.RelationNode],
-) -> list[str]:
-    added_filters = []
-    for entity_filter in [
-        f"/e/{entity.subtype}/{entity.value}"
-        for entity in detected_entities
-        if entity.ntype == utils_pb2.RelationNode.NodeType.ENTITY
-    ]:
-        if entity_filter not in added_filters:
-            added_filters.append(entity_filter)
-            # Add the entity to the filter expression (with AND)
-            entity_expr = nodereader_pb2.FilterExpression()
-            entity_expr.facet.facet = translate_label(entity_filter)
-            add_and_expression(request.field_filter, entity_expr)
-    return added_filters
 async def suggest_query_to_pb(
     kbid: str,
     features: list[SuggestOptions],
     query: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
     fields: list[str],
     filters: list[str],
     faceted: list[str],
-    range_creation_start: Optional[datetime] = None,
-    range_creation_end: Optional[datetime] = None,
-    range_modification_start: Optional[datetime] = None,
-    range_modification_end: Optional[datetime] = None,
-    hidden: Optional[bool] = None,
+    range_creation_start: datetime | None = None,
+    range_creation_end: datetime | None = None,
+    range_modification_start: datetime | None = None,
+    range_modification_end: datetime | None = None,
+    hidden: bool | None = None,
 ) -> nodereader_pb2.SuggestRequest:
     request = nodereader_pb2.SuggestRequest()
@@ -305,7 +233,7 @@ def check_supported_filters(filters: dict[str, Any], paragraph_labels: list[str]
             )
-def get_sort_field_proto(obj: SortField) -> Optional[nodereader_pb2.OrderBy.OrderField.ValueType]:
+def get_sort_field_proto(obj: SortField) -> nodereader_pb2.OrderBy.OrderField.ValueType | None:
     return {
         SortField.SCORE: None,
         SortField.CREATED: nodereader_pb2.OrderBy.OrderField.CREATED,

nucliadb/search/search/query_parser/fetcher.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import asyncio
-from typing import Optional, TypeVar, Union
+from typing import TypeVar
 from async_lru import alru_cache
 from typing_extensions import TypeIs
@@ -29,15 +29,10 @@ from nucliadb.common.maindb.utils import get_driver
 from nucliadb.search import logger
 from nucliadb.search.predict import SendToPredictError, convert_relations
 from nucliadb.search.predict_models import QueryModel
-from nucliadb.search.search.metrics import (
-    query_parse_dependency_observer,
-)
+from nucliadb.search.search.metrics import query_parse_dependency_observer
 from nucliadb.search.utilities import get_predict
 from nucliadb_models.internal.predict import QueryInfo
-from nucliadb_models.search import (
-    Image,
-    MaxTokens,
-)
+from nucliadb_models.search import Image, MaxTokens
 from nucliadb_protos import knowledgebox_pb2, utils_pb2
@@ -53,23 +48,22 @@ not_cached = NotCached()
 T = TypeVar("T")
-def is_cached(field: Union[T, NotCached]) -> TypeIs[T]:
+def is_cached(field: T | NotCached) -> TypeIs[T]:
     return not isinstance(field, NotCached)
 class FetcherCache:
-    predict_query_info: Union[Optional[QueryInfo], NotCached] = not_cached
+    predict_query_info: QueryInfo | None | NotCached = not_cached
     # semantic search
-    vectorset: Union[str, NotCached] = not_cached
+    vectorset: str | NotCached = not_cached
-    labels: Union[knowledgebox_pb2.Labels, NotCached] = not_cached
+    labels: knowledgebox_pb2.Labels | NotCached = not_cached
-    synonyms: Union[Optional[knowledgebox_pb2.Synonyms], NotCached] = not_cached
+    synonyms: knowledgebox_pb2.Synonyms | None | NotCached = not_cached
-    entities_meta_cache: Union[datamanagers.entities.EntitiesMetaCache, NotCached] = not_cached
-    deleted_entity_groups: Union[list[str], NotCached] = not_cached
-    detected_entities: Union[list[utils_pb2.RelationNode], NotCached] = not_cached
+    deleted_entity_groups: list[str] | NotCached = not_cached
+    detected_entities: list[utils_pb2.RelationNode] | NotCached = not_cached
 class Fetcher:
@@ -90,12 +84,12 @@ class Fetcher:
         kbid: str,
         *,
         query: str,
-        user_vector: Optional[list[float]],
-        vectorset: Optional[str],
+        user_vector: list[float] | None,
+        vectorset: str | None,
         rephrase: bool,
-        rephrase_prompt: Optional[str],
-        generative_model: Optional[str],
-        query_image: Optional[Image],
+        rephrase_prompt: str | None,
+        generative_model: str | None,
+        query_image: Image | None,
     ):
         self.kbid = kbid
         self.query = query
@@ -112,11 +106,11 @@ class Fetcher:
     # Semantic search
-    async def get_matryoshka_dimension(self) -> Optional[int]:
+    async def get_matryoshka_dimension(self) -> int | None:
         vectorset = await self.get_vectorset()
-        return await get_matryoshka_dimension_cached(self.kbid, vectorset)
+        return await self.get_matryoshka_dimension_cached(self.kbid, vectorset)
-    async def _get_user_vectorset(self) -> Optional[str]:
+    async def get_user_vectorset(self) -> str | None:
         """Returns the user's requested vectorset and validates if it does exist
         in the KB.
@@ -124,7 +118,7 @@ class Fetcher:
         async with self.locks.setdefault("user_vectorset", asyncio.Lock()):
             if not self.user_vectorset_validated:
                 if self.user_vectorset is not None:
-                    await validate_vectorset(self.kbid, self.user_vectorset)
+                    await self.validate_vectorset(self.kbid, self.user_vectorset)
             self.user_vectorset_validated = True
             return self.user_vectorset
@@ -137,7 +131,7 @@ class Fetcher:
             if is_cached(self.cache.vectorset):
                 return self.cache.vectorset
-            user_vectorset = await self._get_user_vectorset()
+            user_vectorset = await self.get_user_vectorset()
             if user_vectorset:
                 # user explicitly asked for a vectorset
                 self.cache.vectorset = user_vectorset
@@ -170,7 +164,7 @@ class Fetcher:
             self.cache.vectorset = vectorset
             return vectorset
-    async def get_query_vector(self) -> Optional[list[float]]:
+    async def get_query_vector(self) -> list[float] | None:
         if self.user_vector is not None:
             query_vector = self.user_vector
         else:
@@ -206,13 +200,20 @@ class Fetcher:
         return query_vector
-    async def get_rephrased_query(self) -> Optional[str]:
+    async def get_rephrased_query(self) -> str | None:
         query_info = await self._predict_query_endpoint()
         if query_info is None:
             return None
         return query_info.rephrased_query
-    async def get_semantic_min_score(self) -> Optional[float]:
+    def get_cached_rephrased_query(self) -> str | None:
+        if not is_cached(self.cache.predict_query_info):
+            return None
+        if self.cache.predict_query_info is None:
+            return None
+        return self.cache.predict_query_info.rephrased_query
+    async def get_semantic_min_score(self) -> float | None:
         query_info = await self._predict_query_endpoint()
         if query_info is None:
             return None
@@ -234,24 +235,6 @@ class Fetcher:
     # Entities
-    async def get_entities_meta_cache(self) -> datamanagers.entities.EntitiesMetaCache:
-        async with self.locks.setdefault("entities_meta_cache", asyncio.Lock()):
-            if is_cached(self.cache.entities_meta_cache):
-                return self.cache.entities_meta_cache
-            entities_meta_cache = await get_entities_meta_cache(self.kbid)
-            self.cache.entities_meta_cache = entities_meta_cache
-            return entities_meta_cache
-    async def get_deleted_entity_groups(self) -> list[str]:
-        async with self.locks.setdefault("deleted_entity_groups", asyncio.Lock()):
-            if is_cached(self.cache.deleted_entity_groups):
-                return self.cache.deleted_entity_groups
-            deleted_entity_groups = await get_deleted_entity_groups(self.kbid)
-            self.cache.deleted_entity_groups = deleted_entity_groups
-            return deleted_entity_groups
     async def get_detected_entities(self) -> list[utils_pb2.RelationNode]:
         async with self.locks.setdefault("detected_entities", asyncio.Lock()):
             if is_cached(self.cache.detected_entities):
@@ -275,7 +258,7 @@ class Fetcher:
     # Synonyms
-    async def get_synonyms(self) -> Optional[knowledgebox_pb2.Synonyms]:
+    async def get_synonyms(self) -> knowledgebox_pb2.Synonyms | None:
         async with self.locks.setdefault("synonyms", asyncio.Lock()):
             if is_cached(self.cache.synonyms):
                 return self.cache.synonyms
@@ -293,7 +276,7 @@ class Fetcher:
         return query_info.visual_llm
-    async def get_max_context_tokens(self, max_tokens: Optional[MaxTokens]) -> int:
+    async def get_max_context_tokens(self, max_tokens: MaxTokens | None) -> int:
         query_info = await self._predict_query_endpoint()
         if query_info is None:
             raise SendToPredictError("Error while using predict's query endpoint")
@@ -308,21 +291,21 @@ class Fetcher:
             return max_tokens.context
         return model_max
-    def get_max_answer_tokens(self, max_tokens: Optional[MaxTokens]) -> Optional[int]:
+    def get_max_answer_tokens(self, max_tokens: MaxTokens | None) -> int | None:
         if max_tokens is not None and max_tokens.answer is not None:
             return max_tokens.answer
         return None
     # Predict API
-    async def _predict_query_endpoint(self) -> Optional[QueryInfo]:
+    async def _predict_query_endpoint(self) -> QueryInfo | None:
         async with self.locks.setdefault("predict_query_endpoint", asyncio.Lock()):
             if is_cached(self.cache.predict_query_info):
                 return self.cache.predict_query_info
             # we can't call get_vectorset, as it would do a recirsive loop between
             # functions, so we'll manually parse it
-            vectorset = await self._get_user_vectorset()
+            vectorset = await self.get_user_vectorset()
             try:
                 query_info = await query_information(
                     self.kbid,
@@ -348,24 +331,28 @@ class Fetcher:
         return detected_entities
+    async def validate_vectorset(self, kbid: str, vectorset: str):
+        async with datamanagers.with_ro_transaction() as txn:
+            if not await datamanagers.vectorsets.exists(txn, kbid=kbid, vectorset_id=vectorset):
+                raise InvalidQueryError(
+                    "vectorset", f"Vectorset {vectorset} doesn't exist in your Knowledge Box"
+                )
-async def validate_vectorset(kbid: str, vectorset: str):
-    async with datamanagers.with_ro_transaction() as txn:
-        if not await datamanagers.vectorsets.exists(txn, kbid=kbid, vectorset_id=vectorset):
-            raise InvalidQueryError(
-                "vectorset", f"Vectorset {vectorset} doesn't exist in you Knowledge Box"
-            )
+    @alru_cache(maxsize=10)
+    async def get_matryoshka_dimension_cached(self, kbid: str, vectorset: str) -> int | None:
+        # This can be safely cached as the matryoshka dimension is not expected to change
+        return await get_matryoshka_dimension(kbid, vectorset)
 @query_parse_dependency_observer.wrap({"type": "query_information"})
 async def query_information(
     kbid: str,
     query: str,
-    semantic_model: Optional[str],
-    generative_model: Optional[str] = None,
+    semantic_model: str | None,
+    generative_model: str | None = None,
     rephrase: bool = False,
-    rephrase_prompt: Optional[str] = None,
-    query_image: Optional[Image] = None,
+    rephrase_prompt: str | None = None,
+    query_image: Image | None = None,
 ) -> QueryInfo:
     predict = get_predict()
     item = QueryModel(
@@ -385,14 +372,8 @@ async def detect_entities(kbid: str, query: str) -> list[utils_pb2.RelationNode]
     return await predict.detect_entities(kbid, query)
-@alru_cache(maxsize=None)
-async def get_matryoshka_dimension_cached(kbid: str, vectorset: str) -> Optional[int]:
-    # This can be safely cached as the matryoshka dimension is not expected to change
-    return await get_matryoshka_dimension(kbid, vectorset)
 @query_parse_dependency_observer.wrap({"type": "matryoshka_dimension"})
-async def get_matryoshka_dimension(kbid: str, vectorset: Optional[str]) -> Optional[int]:
+async def get_matryoshka_dimension(kbid: str, vectorset: str | None) -> int | None:
     async with get_driver().ro_transaction() as txn:
         matryoshka_dimension = None
         if not vectorset:
@@ -414,18 +395,6 @@ async def get_classification_labels(kbid: str) -> knowledgebox_pb2.Labels:
 @query_parse_dependency_observer.wrap({"type": "synonyms"})
-async def get_kb_synonyms(kbid: str) -> Optional[knowledgebox_pb2.Synonyms]:
+async def get_kb_synonyms(kbid: str) -> knowledgebox_pb2.Synonyms | None:
     async with get_driver().ro_transaction() as txn:
         return await datamanagers.synonyms.get(txn, kbid=kbid)
-@query_parse_dependency_observer.wrap({"type": "entities_meta_cache"})
-async def get_entities_meta_cache(kbid: str) -> datamanagers.entities.EntitiesMetaCache:
-    async with get_driver().ro_transaction() as txn:
-        return await datamanagers.entities.get_entities_meta_cache(txn, kbid=kbid)
-@query_parse_dependency_observer.wrap({"type": "deleted_entities_groups"})
-async def get_deleted_entity_groups(kbid: str) -> list[str]:
-    async with get_driver().ro_transaction() as txn:
-        return list((await datamanagers.entities.get_deleted_groups(txn, kbid=kbid)).entities_groups)

nucliadb/search/search/query_parser/models.py CHANGED Viewed

@@ -18,7 +18,6 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 from datetime import datetime
-from typing import Optional, Union
 from nidx_protos import nodereader_pb2
 from pydantic import BaseModel, ConfigDict, Field
@@ -26,6 +25,7 @@ from pydantic import BaseModel, ConfigDict, Field
 from nucliadb.search.search.query_parser.fetcher import Fetcher
 from nucliadb_models import search as search_models
 from nucliadb_models.graph.requests import GraphPathQuery
+from nucliadb_models.search import MAX_RANK_FUSION_WINDOW
 from nucliadb_protos import utils_pb2
 ### Retrieval
@@ -46,7 +46,7 @@ KeywordQuery = _TextQuery
 class SemanticQuery(BaseModel):
-    query: Optional[list[float]]
+    query: list[float] | None
     vectorset: str
     min_score: float
@@ -66,11 +66,11 @@ class GraphQuery(BaseModel):
 class Query(BaseModel):
-    fulltext: Optional[FulltextQuery] = None
-    keyword: Optional[KeywordQuery] = None
-    semantic: Optional[SemanticQuery] = None
-    relation: Optional[RelationQuery] = None
-    graph: Optional[GraphQuery] = None
+    fulltext: FulltextQuery | None = None
+    keyword: KeywordQuery | None = None
+    semantic: SemanticQuery | None = None
+    relation: RelationQuery | None = None
+    graph: GraphQuery | None = None
 # filters
@@ -79,29 +79,28 @@ class Query(BaseModel):
 class Filters(BaseModel):
     model_config = ConfigDict(arbitrary_types_allowed=True)
-    field_expression: Optional[nodereader_pb2.FilterExpression] = None
-    paragraph_expression: Optional[nodereader_pb2.FilterExpression] = None
+    field_expression: nodereader_pb2.FilterExpression | None = None
+    paragraph_expression: nodereader_pb2.FilterExpression | None = None
     filter_expression_operator: nodereader_pb2.FilterOperator.ValueType = (
         nodereader_pb2.FilterOperator.AND
     )
-    autofilter: Optional[list[utils_pb2.RelationNode]] = None
     facets: list[str] = Field(default_factory=list)
-    hidden: Optional[bool] = None
-    security: Optional[search_models.RequestSecurity] = None
+    hidden: bool | None = None
+    security: search_models.RequestSecurity | None = None
     with_duplicates: bool = False
 class DateTimeFilter(BaseModel):
-    after: Optional[datetime] = None  # aka, start
-    before: Optional[datetime] = None  # aka, end
+    after: datetime | None = None  # aka, start
+    before: datetime | None = None  # aka, end
 # rank fusion
 class RankFusion(BaseModel):
-    window: int = Field(le=500)
+    window: int = Field(le=MAX_RANK_FUSION_WINDOW)
 class ReciprocalRankFusion(RankFusion):
@@ -122,7 +121,7 @@ class PredictReranker(BaseModel):
     window: int = Field(le=200)
-Reranker = Union[NoopReranker, PredictReranker]
+Reranker = NoopReranker | PredictReranker
 # retrieval and generation operations
@@ -131,8 +130,8 @@ class UnitRetrieval(BaseModel):
     query: Query
     top_k: int
     filters: Filters = Field(default_factory=Filters)
-    rank_fusion: Optional[RankFusion] = None
-    reranker: Optional[Reranker] = None
+    rank_fusion: RankFusion | None = None
+    reranker: Reranker | None = None
 # TODO: augmentation things: hydration...
@@ -141,7 +140,7 @@ class UnitRetrieval(BaseModel):
 class Generation(BaseModel):
     use_visual_llm: bool
     max_context_tokens: int
-    max_answer_tokens: Optional[int]
+    max_answer_tokens: int | None
 class ParsedQuery(BaseModel):
@@ -149,7 +148,7 @@ class ParsedQuery(BaseModel):
     fetcher: Fetcher
     retrieval: UnitRetrieval
-    generation: Optional[Generation] = None
+    generation: Generation | None = None
 ### Graph

nucliadb/search/search/query_parser/old_filters.py CHANGED Viewed

@@ -20,7 +20,6 @@
 from dataclasses import dataclass
 from datetime import datetime
-from typing import Optional, Union
 from nidx_protos.nodereader_pb2 import FilterExpression
@@ -36,19 +35,19 @@ from .fetcher import Fetcher
 @dataclass
 class OldFilterParams:
-    label_filters: Union[list[str], list[Filter]]
-    keyword_filters: Union[list[str], list[Filter]]
-    range_creation_start: Optional[datetime] = None
-    range_creation_end: Optional[datetime] = None
-    range_modification_start: Optional[datetime] = None
-    range_modification_end: Optional[datetime] = None
-    fields: Optional[list[str]] = None
-    key_filters: Optional[list[str]] = None
+    label_filters: list[str] | list[Filter]
+    keyword_filters: list[str] | list[Filter]
+    range_creation_start: datetime | None = None
+    range_creation_end: datetime | None = None
+    range_modification_start: datetime | None = None
+    range_modification_end: datetime | None = None
+    fields: list[str] | None = None
+    key_filters: list[str] | None = None
 async def parse_old_filters(
     old: OldFilterParams, fetcher: Fetcher
-) -> tuple[Optional[FilterExpression], Optional[FilterExpression]]:
+) -> tuple[FilterExpression | None, FilterExpression | None]:
     filters = []
     paragraph_filter_expression = None
@@ -128,6 +127,7 @@ async def parse_old_filters(
                 f.field.field_type = parts[1]
                 if len(parts) > 2:
                     f.field.field_id = parts[2]
+                expr.bool_and.operands.append(f)
             key_exprs.append(expr)
         if len(key_exprs) == 1:
@@ -149,8 +149,8 @@ async def parse_old_filters(
 def convert_label_filter_to_expressions(
-    fltr: Union[str, Filter], classification_labels: knowledgebox_pb2.Labels
-) -> tuple[Optional[FilterExpression], Optional[FilterExpression]]:
+    fltr: str | Filter, classification_labels: knowledgebox_pb2.Labels
+) -> tuple[FilterExpression | None, FilterExpression | None]:
     if isinstance(fltr, str):
         fltr = translate_label(fltr)
         f = FilterExpression()
@@ -174,7 +174,7 @@ def convert_label_filter_to_expressions(
 def split_labels(
     labels: list[str], classification_labels: knowledgebox_pb2.Labels, combinator: str, negate: bool
-) -> tuple[Optional[FilterExpression], Optional[FilterExpression]]:
+) -> tuple[FilterExpression | None, FilterExpression | None]:
     field = []
     paragraph = []
     for label in labels:
@@ -223,13 +223,14 @@ def is_paragraph_label(label: str, classification_labels: knowledgebox_pb2.Label
     if not label.startswith("/l/"):
         return False
     # Classification labels should have the form /l/labelset/label
+    # REVIEW: there's no technical reason why this has to be like this (/l/labelset could be valid)
     parts = label.split("/")
     if len(parts) < 4:
         return False
     labelset_id = parts[2]
     try:
-        labelset: Optional[knowledgebox_pb2.LabelSet] = classification_labels.labelset.get(labelset_id)
+        labelset: knowledgebox_pb2.LabelSet | None = classification_labels.labelset.get(labelset_id)
         if labelset is None:
             return False
         return knowledgebox_pb2.LabelSet.LabelSetKind.PARAGRAPHS in labelset.kind
@@ -238,19 +239,19 @@ def is_paragraph_label(label: str, classification_labels: knowledgebox_pb2.Label
         return False
-def convert_keyword_filter_to_expression(fltr: Union[str, Filter]) -> FilterExpression:
+def convert_keyword_filter_to_expression(fltr: str | Filter) -> FilterExpression:
     if isinstance(fltr, str):
         return convert_keyword_to_expression(fltr)
     f = FilterExpression()
     if fltr.all:
-        f.bool_and.operands.extend((convert_keyword_to_expression(f) for f in fltr.all))
+        f.bool_and.operands.extend(convert_keyword_to_expression(f) for f in fltr.all)
     if fltr.any:
-        f.bool_or.operands.extend((convert_keyword_to_expression(f) for f in fltr.any))
+        f.bool_or.operands.extend(convert_keyword_to_expression(f) for f in fltr.any)
     if fltr.none:
-        f.bool_not.bool_or.operands.extend((convert_keyword_to_expression(f) for f in fltr.none))
+        f.bool_not.bool_or.operands.extend(convert_keyword_to_expression(f) for f in fltr.none)
     if fltr.not_all:
-        f.bool_not.bool_and.operands.extend((convert_keyword_to_expression(f) for f in fltr.not_all))
+        f.bool_not.bool_and.operands.extend(convert_keyword_to_expression(f) for f in fltr.not_all)
     return f

nucliadb/search/search/query_parser/parsers/ask.py CHANGED Viewed

@@ -17,7 +17,8 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Optional
+from typing_extensions import assert_never
 from nucliadb.search.search.query_parser.fetcher import Fetcher
 from nucliadb.search.search.query_parser.models import (
@@ -26,7 +27,7 @@ from nucliadb.search.search.query_parser.models import (
 from nucliadb_models.search import AskRequest, MaxTokens
-async def parse_ask(kbid: str, item: AskRequest, *, fetcher: Optional[Fetcher] = None) -> Generation:
+async def parse_ask(kbid: str, item: AskRequest, *, fetcher: Fetcher | None = None) -> Generation:
     fetcher = fetcher or fetcher_for_ask(kbid, item)
     parser = _AskParser(kbid, item, fetcher)
     return await parser.parse()
@@ -64,9 +65,7 @@ class _AskParser:
         elif isinstance(self.item.max_tokens, MaxTokens):
             max_tokens = self.item.max_tokens
         else:  # pragma: no cover
-            # This is a trick so mypy generates an error if this branch can be reached,
-            # that is, if we are missing some ifs
-            _a: int = "a"
+            assert_never(self.item.max_tokens)
         max_context_tokens = await self.fetcher.get_max_context_tokens(max_tokens)
         max_answer_tokens = self.fetcher.get_max_answer_tokens(max_tokens)

nucliadb 6.9.1.post5192__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.9.1.post5192py3-none-any.whl → 6.10.0.post5705py3-none-any.whl