PyPI - nucliadb - Versions diffs - 6.7.2.post4862__py3-none-any.whl → 6.9.2.post5282__py3-none-any.whl - Mend

nucliadb 6.7.2.post4862py3-none-any.whl → 6.9.2.post5282py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of nucliadb might be problematic. Click here for more details.

Files changed (126) hide show

migrations/0016_upgrade_to_paragraphs_v2.py +1 -1
migrations/0017_multiple_writable_shards.py +1 -1
migrations/0018_purge_orphan_kbslugs.py +1 -1
migrations/0019_upgrade_to_paragraphs_v3.py +1 -1
migrations/0021_overwrite_vectorsets_key.py +1 -1
migrations/0023_backfill_pg_catalog.py +7 -3
migrations/0025_assign_models_to_kbs_v2.py +3 -3
migrations/0027_rollover_texts3.py +1 -1
migrations/0028_extracted_vectors_reference.py +1 -1
migrations/0029_backfill_field_status.py +1 -1
migrations/0032_remove_old_relations.py +1 -1
migrations/0036_backfill_catalog_slug.py +1 -1
migrations/0037_backfill_catalog_facets.py +1 -1
migrations/0038_backfill_catalog_field_labels.py +7 -3
migrations/0039_backfill_converation_splits_metadata.py +106 -0
migrations/0040_migrate_search_configurations.py +79 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/backups/create.py +3 -3
nucliadb/backups/restore.py +3 -3
nucliadb/common/cache.py +1 -1
nucliadb/common/catalog/__init__.py +79 -0
nucliadb/common/catalog/dummy.py +36 -0
nucliadb/common/catalog/interface.py +85 -0
nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} +294 -208
nucliadb/common/catalog/utils.py +56 -0
nucliadb/common/cluster/manager.py +3 -19
nucliadb/common/cluster/rebalance.py +484 -110
nucliadb/common/cluster/rollover.py +29 -0
nucliadb/common/cluster/settings.py +1 -1
nucliadb/common/cluster/utils.py +26 -0
nucliadb/common/datamanagers/atomic.py +6 -0
nucliadb/common/datamanagers/utils.py +2 -2
nucliadb/common/external_index_providers/manager.py +1 -29
nucliadb/common/external_index_providers/settings.py +1 -27
nucliadb/common/filter_expression.py +16 -33
nucliadb/common/http_clients/exceptions.py +8 -0
nucliadb/common/http_clients/processing.py +4 -0
nucliadb/common/http_clients/utils.py +3 -0
nucliadb/common/ids.py +77 -55
nucliadb/common/locking.py +4 -4
nucliadb/common/maindb/driver.py +11 -1
nucliadb/common/maindb/local.py +1 -1
nucliadb/common/maindb/pg.py +1 -1
nucliadb/common/nidx.py +19 -1
nucliadb/common/vector_index_config.py +1 -1
nucliadb/export_import/datamanager.py +3 -3
nucliadb/ingest/consumer/pull.py +7 -0
nucliadb/ingest/consumer/service.py +2 -27
nucliadb/ingest/consumer/shard_creator.py +17 -6
nucliadb/ingest/fields/base.py +9 -17
nucliadb/ingest/fields/conversation.py +47 -1
nucliadb/ingest/orm/brain_v2.py +21 -3
nucliadb/ingest/orm/index_message.py +126 -111
nucliadb/ingest/orm/knowledgebox.py +84 -43
nucliadb/ingest/orm/processor/auditing.py +1 -1
nucliadb/ingest/orm/processor/processor.py +95 -149
nucliadb/ingest/orm/processor/sequence_manager.py +1 -1
nucliadb/ingest/orm/resource.py +10 -1
nucliadb/ingest/partitions.py +12 -1
nucliadb/ingest/serialize.py +2 -2
nucliadb/ingest/service/writer.py +26 -19
nucliadb/ingest/settings.py +33 -11
nucliadb/learning_proxy.py +12 -15
nucliadb/metrics_exporter.py +17 -4
nucliadb/migrator/datamanager.py +11 -17
nucliadb/migrator/migrator.py +2 -2
nucliadb/purge/__init__.py +12 -17
nucliadb/purge/orphan_shards.py +2 -2
nucliadb/reader/api/v1/knowledgebox.py +40 -12
nucliadb/reader/api/v1/learning_config.py +30 -10
nucliadb/reader/api/v1/resource.py +2 -2
nucliadb/reader/api/v1/services.py +1 -1
nucliadb/reader/reader/notifications.py +1 -1
nucliadb/search/api/v1/__init__.py +1 -0
nucliadb/search/api/v1/catalog.py +4 -4
nucliadb/search/api/v1/find.py +1 -4
nucliadb/search/api/v1/hydrate.py +328 -0
nucliadb/search/api/v1/resource/ask.py +21 -1
nucliadb/search/api/v1/search.py +1 -4
nucliadb/search/predict.py +9 -2
nucliadb/search/search/cache.py +1 -20
nucliadb/search/search/chat/ask.py +50 -8
nucliadb/search/search/chat/prompt.py +47 -15
nucliadb/search/search/chat/query.py +8 -1
nucliadb/search/search/fetch.py +1 -1
nucliadb/search/search/find.py +1 -6
nucliadb/search/search/{hydrator.py → hydrator/__init__.py} +5 -4
nucliadb/search/search/hydrator/fields.py +175 -0
nucliadb/search/search/hydrator/images.py +130 -0
nucliadb/search/search/hydrator/paragraphs.py +307 -0
nucliadb/search/search/hydrator/resources.py +56 -0
nucliadb/search/search/metrics.py +16 -0
nucliadb/search/search/predict_proxy.py +33 -11
nucliadb/search/search/query.py +0 -23
nucliadb/search/search/query_parser/fetcher.py +5 -5
nucliadb/search/search/query_parser/models.py +1 -30
nucliadb/search/search/query_parser/parsers/ask.py +1 -1
nucliadb/search/search/query_parser/parsers/catalog.py +4 -7
nucliadb/search/search/query_parser/parsers/common.py +16 -7
nucliadb/search/search/query_parser/parsers/find.py +0 -11
nucliadb/search/search/query_parser/parsers/graph.py +5 -5
nucliadb/search/search/query_parser/parsers/search.py +0 -11
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +4 -11
nucliadb/search/search/rerankers.py +1 -1
nucliadb/search/search/summarize.py +1 -1
nucliadb/standalone/run.py +3 -0
nucliadb/tasks/retries.py +4 -4
nucliadb/train/generators/sentence_classifier.py +2 -8
nucliadb/train/generators/utils.py +1 -1
nucliadb/train/nodes.py +4 -4
nucliadb/train/servicer.py +1 -1
nucliadb/train/uploader.py +1 -1
nucliadb/writer/api/v1/field.py +14 -9
nucliadb/writer/api/v1/knowledgebox.py +15 -52
nucliadb/writer/api/v1/learning_config.py +5 -4
nucliadb/writer/api/v1/resource.py +2 -2
nucliadb/writer/resource/field.py +38 -2
nucliadb/writer/tus/azure.py +4 -4
nucliadb/writer/tus/gcs.py +11 -17
{nucliadb-6.7.2.post4862.dist-info → nucliadb-6.9.2.post5282.dist-info}/METADATA +9 -10
{nucliadb-6.7.2.post4862.dist-info → nucliadb-6.9.2.post5282.dist-info}/RECORD +124 -114
nucliadb/common/external_index_providers/pinecone.py +0 -894
nucliadb/ingest/orm/processor/pgcatalog.py +0 -129
{nucliadb-6.7.2.post4862.dist-info → nucliadb-6.9.2.post5282.dist-info}/WHEEL +0 -0
{nucliadb-6.7.2.post4862.dist-info → nucliadb-6.9.2.post5282.dist-info}/entry_points.txt +0 -0
{nucliadb-6.7.2.post4862.dist-info → nucliadb-6.9.2.post5282.dist-info}/top_level.txt +0 -0

nucliadb/search/search/query.py CHANGED Viewed

@@ -26,9 +26,6 @@ from nidx_protos.noderesources_pb2 import Resource
 from nucliadb.common import datamanagers
 from nucliadb.common.exceptions import InvalidQueryError
 from nucliadb.common.filter_expression import add_and_expression, parse_expression
-from nucliadb.search.search.filters import (
-    translate_label,
-)
 from nucliadb.search.search.query_parser.fetcher import Fetcher
 from nucliadb_models.filters import FilterExpression
 from nucliadb_models.labels import LABEL_HIDDEN
@@ -166,26 +163,6 @@ def expand_entities(
     return list(result_entities.values())
-def apply_entities_filter(
-    request: nodereader_pb2.SearchRequest,
-    detected_entities: list[utils_pb2.RelationNode],
-) -> list[str]:
-    added_filters = []
-    for entity_filter in [
-        f"/e/{entity.subtype}/{entity.value}"
-        for entity in detected_entities
-        if entity.ntype == utils_pb2.RelationNode.NodeType.ENTITY
-    ]:
-        if entity_filter not in added_filters:
-            added_filters.append(entity_filter)
-            # Add the entity to the filter expression (with AND)
-            entity_expr = nodereader_pb2.FilterExpression()
-            entity_expr.facet.facet = translate_label(entity_filter)
-            add_and_expression(request.field_filter, entity_expr)
-    return added_filters
 async def suggest_query_to_pb(
     kbid: str,
     features: list[SuggestOptions],

nucliadb/search/search/query_parser/fetcher.py CHANGED Viewed

@@ -393,7 +393,7 @@ async def get_matryoshka_dimension_cached(kbid: str, vectorset: str) -> Optional
 @query_parse_dependency_observer.wrap({"type": "matryoshka_dimension"})
 async def get_matryoshka_dimension(kbid: str, vectorset: Optional[str]) -> Optional[int]:
-    async with get_driver().transaction(read_only=True) as txn:
+    async with get_driver().ro_transaction() as txn:
         matryoshka_dimension = None
         if not vectorset:
             # XXX this should be migrated once we remove the "default" vectorset
@@ -409,23 +409,23 @@ async def get_matryoshka_dimension(kbid: str, vectorset: Optional[str]) -> Optio
 @query_parse_dependency_observer.wrap({"type": "classification_labels"})
 async def get_classification_labels(kbid: str) -> knowledgebox_pb2.Labels:
-    async with get_driver().transaction(read_only=True) as txn:
+    async with get_driver().ro_transaction() as txn:
         return await datamanagers.labels.get_labels(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "synonyms"})
 async def get_kb_synonyms(kbid: str) -> Optional[knowledgebox_pb2.Synonyms]:
-    async with get_driver().transaction(read_only=True) as txn:
+    async with get_driver().ro_transaction() as txn:
         return await datamanagers.synonyms.get(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "entities_meta_cache"})
 async def get_entities_meta_cache(kbid: str) -> datamanagers.entities.EntitiesMetaCache:
-    async with get_driver().transaction(read_only=True) as txn:
+    async with get_driver().ro_transaction() as txn:
         return await datamanagers.entities.get_entities_meta_cache(txn, kbid=kbid)
 @query_parse_dependency_observer.wrap({"type": "deleted_entities_groups"})
 async def get_deleted_entity_groups(kbid: str) -> list[str]:
-    async with get_driver().transaction(read_only=True) as txn:
+    async with get_driver().ro_transaction() as txn:
         return list((await datamanagers.entities.get_deleted_groups(txn, kbid=kbid)).entities_groups)

nucliadb/search/search/query_parser/models.py CHANGED Viewed

@@ -17,9 +17,8 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from dataclasses import dataclass
 from datetime import datetime
-from typing import Literal, Optional, Union
+from typing import Optional, Union
 from nidx_protos import nodereader_pb2
 from pydantic import BaseModel, ConfigDict, Field
@@ -86,7 +85,6 @@ class Filters(BaseModel):
         nodereader_pb2.FilterOperator.AND
     )
-    autofilter: Optional[list[utils_pb2.RelationNode]] = None
     facets: list[str] = Field(default_factory=list)
     hidden: Optional[bool] = None
     security: Optional[search_models.RequestSecurity] = None
@@ -153,33 +151,6 @@ class ParsedQuery(BaseModel):
     generation: Optional[Generation] = None
-### Catalog
-@dataclass
-class CatalogExpression:
-    @dataclass
-    class Date:
-        field: Union[Literal["created_at"], Literal["modified_at"]]
-        since: Optional[datetime]
-        until: Optional[datetime]
-    bool_and: Optional[list["CatalogExpression"]] = None
-    bool_or: Optional[list["CatalogExpression"]] = None
-    bool_not: Optional["CatalogExpression"] = None
-    date: Optional[Date] = None
-    facet: Optional[str] = None
-    resource_id: Optional[str] = None
-class CatalogQuery(BaseModel):
-    kbid: str
-    query: Optional[search_models.CatalogQuery]
-    filters: Optional[CatalogExpression]
-    sort: search_models.SortOptions
-    faceted: list[str]
-    page_size: int
-    page_number: int
 ### Graph

nucliadb/search/search/query_parser/parsers/ask.py CHANGED Viewed

@@ -63,7 +63,7 @@ class _AskParser:
             )
         elif isinstance(self.item.max_tokens, MaxTokens):
             max_tokens = self.item.max_tokens
-        else:  # pragma: nocover
+        else:  # pragma: no cover
             # This is a trick so mypy generates an error if this branch can be reached,
             # that is, if we are missing some ifs
             _a: int = "a"

nucliadb/search/search/query_parser/parsers/catalog.py CHANGED Viewed

@@ -19,13 +19,10 @@
 #
 from nucliadb.common import datamanagers
+from nucliadb.common.catalog.interface import CatalogExpression, CatalogQuery
 from nucliadb.common.exceptions import InvalidQueryError
-from nucliadb.common.filter_expression import FacetFilterTypes, facet_from_filter
+from nucliadb.common.filter_expression import FacetFilter, facet_from_filter
 from nucliadb.search.search.filters import translate_label
-from nucliadb.search.search.query_parser.models import (
-    CatalogExpression,
-    CatalogQuery,
-)
 from nucliadb_models import search as search_models
 from nucliadb_models.filters import (
     And,
@@ -185,14 +182,14 @@ async def parse_filter_expression(expr: ResourceFilterExpression, kbid: str) ->
             if rid is None:
                 raise InvalidQueryError("slug", f"Cannot find slug {expr.slug}")
             cat.resource_id = rid
-        else:  # pragma: nocover
+        else:  # pragma: no cover
             # Cannot happen due to model validation
             raise ValueError("Resource needs id or slug")
     elif isinstance(expr, DateCreated):
         cat.date = CatalogExpression.Date(field="created_at", since=expr.since, until=expr.until)
     elif isinstance(expr, DateModified):
         cat.date = CatalogExpression.Date(field="modified_at", since=expr.since, until=expr.until)
-    elif isinstance(expr, FacetFilterTypes):
+    elif isinstance(expr, FacetFilter):
         cat.facet = facet_from_filter(expr)
     else:
         # This is a trick so mypy generates an error if this branch can be reached,

nucliadb/search/search/query_parser/parsers/common.py CHANGED Viewed

@@ -21,7 +21,6 @@ import re
 import string
 from typing import Optional, Union
-from nucliadb.common.exceptions import InvalidQueryError
 from nucliadb.search import logger
 from nucliadb.search.search.query_parser.fetcher import Fetcher
 from nucliadb.search.search.query_parser.models import (
@@ -32,15 +31,20 @@ from nucliadb_models import search as search_models
 DEFAULT_GENERIC_SEMANTIC_THRESHOLD = 0.7
-# -* is an invalid query in tantivy and it won't return results but if you add some whitespaces
-# between - and *, it will actually trigger a tantivy bug and panic
-INVALID_QUERY = re.compile(r"- +\*")
+def validate_query_syntax(query: str) -> str:
+    """Filter some queries that panic tantivy, better than returning the 500"""
-def validate_query_syntax(query: str):
-    # Filter some queries that panic tantivy, better than returning the 500
+    # -* is an invalid query in tantivy and it won't return results but if you add some whitespaces
+    # between - and *, it will actually trigger a tantivy bug and panic
+    INVALID_QUERY = re.compile(r"- *\*+")
     if INVALID_QUERY.search(query):
-        raise InvalidQueryError("query", "Invalid query syntax")
+        # remove the * and extra spaces, as it's probably what doesn't have
+        # meaning in both cases: -* and - *
+        fixed = re.sub(INVALID_QUERY, "- ", query)
+        query = fixed
+    return query
 def is_empty_query(request: search_models.BaseSearchRequest) -> bool:
@@ -85,6 +89,7 @@ async def parse_keyword_query(
     fetcher: Fetcher,
 ) -> KeywordQuery:
     query = item.query
     # If there was a rephrase with image, we should use the rephrased query for keyword search
     rephrased_query = await fetcher.get_rephrased_query()
     if item.query_image is not None and rephrased_query is not None:
@@ -98,6 +103,10 @@ async def parse_keyword_query(
             query = synonyms_query
             is_synonyms_query = True
+    # after all query transformations, pass a validator that can fix some
+    # queries that trigger a panic on the index
+    query = validate_query_syntax(query)
     min_score = parse_keyword_min_score(item.min_score)
     return KeywordQuery(

nucliadb/search/search/query_parser/parsers/find.py CHANGED Viewed

@@ -57,7 +57,6 @@ from .common import (
     parse_semantic_query,
     parse_top_k,
     should_disable_vector_search,
-    validate_query_syntax,
 )
@@ -146,8 +145,6 @@ class _FindParser:
         return retrieval
     def _validate_request(self):
-        validate_query_syntax(self.item.query)
         # synonyms are not compatible with vector/graph search
         if (
             self.item.with_synonyms
@@ -256,17 +253,9 @@ class _FindParser:
             else:
                 filter_operator = nodereader_pb2.FilterOperator.AND
-        autofilter = None
-        if self.item.autofilter:
-            if self._query.relation is not None:
-                autofilter = self._query.relation.entry_points
-            else:
-                autofilter = await self._get_detected_entities()
         hidden = await filter_hidden_resources(self.kbid, self.item.show_hidden)
         return Filters(
-            autofilter=autofilter,
             facets=[],
             field_expression=field_expr,
             paragraph_expression=paragraph_expr,

nucliadb/search/search/query_parser/parsers/graph.py CHANGED Viewed

@@ -153,7 +153,7 @@ def parse_path_query(expr: graph_requests.GraphPathQuery) -> nodereader_pb2.Grap
     elif isinstance(expr, graph_requests.Generated):
         _set_generated_to_pb(expr, pb)
-    else:  # pragma: nocover
+    else:  # pragma: no cover
         # This is a trick so mypy generates an error if this branch can be reached,
         # that is, if we are missing some ifs
         _a: int = "a"
@@ -182,7 +182,7 @@ def _parse_node_query(expr: graph_requests.GraphNodesQuery) -> nodereader_pb2.Gr
     elif isinstance(expr, graph_requests.Generated):
         _set_generated_to_pb(expr, pb)
-    else:  # pragma: nocover
+    else:  # pragma: no cover
         # This is a trick so mypy generates an error if this branch can be reached,
         # that is, if we are missing some ifs
         _a: int = "a"
@@ -212,7 +212,7 @@ def _parse_relation_query(
     elif isinstance(expr, graph_requests.Generated):
         _set_generated_to_pb(expr, pb)
-    else:  # pragma: nocover
+    else:  # pragma: no cover
         # This is a trick so mypy generates an error if this branch can be reached,
         # that is, if we are missing some ifs
         _a: int = "a"
@@ -230,7 +230,7 @@ def _set_node_to_pb(node: graph_requests.GraphNode, pb: nodereader_pb2.GraphQuer
             pb.fuzzy.kind = nodereader_pb2.GraphQuery.Node.MatchLocation.PREFIX
             pb.fuzzy.distance = 1
-        else:  # pragma: nocover
+        else:  # pragma: no cover
             # This is a trick so mypy generates an error if this branch can be reached,
             # that is, if we are missing some ifs
             _a: int = "a"
@@ -263,7 +263,7 @@ def _set_generated_to_pb(generated: graph_requests.Generated, pb: nodereader_pb2
         pb.facet.facet = facet
-    else:  # pragma: nocover
+    else:  # pragma: no cover
         # This is a trick so mypy generates an error if this branch can be reached,
         # that is, if we are missing some ifs
         _a: int = "a"

nucliadb/search/search/query_parser/parsers/search.py CHANGED Viewed

@@ -51,7 +51,6 @@ from .common import (
     parse_semantic_query,
     parse_top_k,
     should_disable_vector_search,
-    validate_query_syntax,
 )
 INDEX_SORTABLE_FIELDS = [
@@ -128,8 +127,6 @@ class _SearchParser:
         return retrieval
     def _validate_request(self):
-        validate_query_syntax(self.item.query)
         # synonyms are not compatible with vector/graph search
         if (
             self.item.with_synonyms
@@ -254,17 +251,9 @@ class _SearchParser:
             else:
                 filter_operator = nodereader_pb2.FilterOperator.AND
-        autofilter = None
-        if self.item.autofilter:
-            if self._query.relation is not None:
-                autofilter = self._query.relation.entry_points
-            else:
-                autofilter = await self._get_detected_entities()
         hidden = await filter_hidden_resources(self.kbid, self.item.show_hidden)
         return Filters(
-            autofilter=autofilter,
             facets=self.item.faceted,
             field_expression=field_expr,
             paragraph_expression=paragraph_expr,

nucliadb/search/search/query_parser/parsers/unit_retrieval.py CHANGED Viewed

@@ -25,10 +25,10 @@ from nidx_protos.nodereader_pb2 import SearchRequest
 from nucliadb.common.filter_expression import add_and_expression
 from nucliadb.search.search.filters import translate_label
 from nucliadb.search.search.metrics import node_features, query_parser_observer
-from nucliadb.search.search.query import apply_entities_filter, get_sort_field_proto
+from nucliadb.search.search.query import get_sort_field_proto
 from nucliadb.search.search.query_parser.models import ParsedQuery, PredictReranker, UnitRetrieval
 from nucliadb.search.search.query_parser.parsers.graph import parse_path_query
-from nucliadb_models.labels import LABEL_HIDDEN, translate_system_to_alias_label
+from nucliadb_models.labels import LABEL_HIDDEN
 from nucliadb_models.search import SortOrderMap
 from nucliadb_protos import utils_pb2
@@ -36,7 +36,7 @@ from nucliadb_protos import utils_pb2
 @query_parser_observer.wrap({"type": "convert_retrieval_to_proto"})
 async def legacy_convert_retrieval_to_proto(
     parsed: ParsedQuery,
-) -> tuple[SearchRequest, bool, list[str], Optional[str]]:
+) -> tuple[SearchRequest, bool, Optional[str]]:
     converter = _Converter(parsed.retrieval)
     request = converter.into_search_request()
@@ -44,13 +44,12 @@ async def legacy_convert_retrieval_to_proto(
     # needed. We should find a better abstraction
     incomplete = is_incomplete(parsed.retrieval)
-    autofilter = converter._autofilter
     rephrased_query = None
     if parsed.retrieval.query.semantic:
         rephrased_query = await parsed.fetcher.get_rephrased_query()
-    return request, incomplete, autofilter, rephrased_query
+    return request, incomplete, rephrased_query
 @query_parser_observer.wrap({"type": "convert_retrieval_to_proto"})
@@ -65,8 +64,6 @@ class _Converter:
         self.req = nodereader_pb2.SearchRequest()
         self.retrieval = retrieval
-        self._autofilter: list[str] = []
     def into_search_request(self) -> nodereader_pb2.SearchRequest:
         """Generate a SearchRequest proto from a retrieval operation."""
         self._apply_text_queries()
@@ -235,10 +232,6 @@ class _Converter:
             self.req.paragraph_filter.CopyFrom(self.retrieval.filters.paragraph_expression)
         self.req.filter_operator = self.retrieval.filters.filter_expression_operator
-        if self.retrieval.filters.autofilter:
-            entity_filters = apply_entities_filter(self.req, self.retrieval.filters.autofilter)
-            self._autofilter.extend([translate_system_to_alias_label(e) for e in entity_filters])
         if self.retrieval.filters.hidden is not None:
             expr = nodereader_pb2.FilterExpression()
             if self.retrieval.filters.hidden:

nucliadb/search/search/rerankers.py CHANGED Viewed

@@ -181,7 +181,7 @@ def get_reranker(reranker: parser_models.Reranker) -> Reranker:
     elif isinstance(reranker, parser_models.PredictReranker):
         algorithm = PredictReranker(reranker.window)
-    else:  # pragma: nocover
+    else:  # pragma: no cover
         # This is a trick so mypy generates an error if this branch can be reached,
         # that is, if we are missing some ifs
         _a: int = "a"

nucliadb/search/search/summarize.py CHANGED Viewed

@@ -77,7 +77,7 @@ async def get_extracted_texts(kbid: str, resource_uuids_or_slugs: list[str]) ->
     tasks = []
     # Schedule getting extracted text for each field of each resource
-    async with driver.transaction(read_only=True) as txn:
+    async with driver.ro_transaction() as txn:
         if not await datamanagers.kb.exists_kb(txn, kbid=kbid):
             raise datamanagers.exceptions.KnowledgeBoxNotFound(kbid)

nucliadb/standalone/run.py CHANGED Viewed

@@ -116,6 +116,9 @@ def run():
     if nuclia_settings.nuclia_service_account:
         settings_to_output["NUA API key"] = "Configured ✔"
         settings_to_output["NUA API zone"] = nuclia_settings.nuclia_zone
+        settings_to_output["NUA API url"] = (
+            nuclia_settings.nuclia_public_url.format(zone=nuclia_settings.nuclia_zone) + "/api"
+        )
     settings_to_output_fmted = "\n".join(
         [f"||      - {k}:{' ' * (27 - len(k))}{v}" for k, v in settings_to_output.items()]

nucliadb/tasks/retries.py CHANGED Viewed

@@ -151,7 +151,7 @@ class TaskRetryHandler:
 async def _get_metadata(kv_driver: Driver, metadata_key: str) -> Optional[TaskMetadata]:
-    async with kv_driver.transaction(read_only=True) as txn:
+    async with kv_driver.ro_transaction() as txn:
         metadata = await txn.get(metadata_key)
         if metadata is None:
             return None
@@ -159,7 +159,7 @@ async def _get_metadata(kv_driver: Driver, metadata_key: str) -> Optional[TaskMe
 async def _set_metadata(kv_driver: Driver, metadata_key: str, metadata: TaskMetadata) -> None:
-    async with kv_driver.transaction() as txn:
+    async with kv_driver.rw_transaction() as txn:
         await txn.set(metadata_key, metadata.model_dump_json().encode())
         await txn.commit()
@@ -188,7 +188,7 @@ async def purge_batch(
     """
     Returns the next start key and the number of purged records. If start is None, it means there are no more records to purge.
     """
-    async with kv_driver.transaction() as txn:
+    async with kv_driver.rw_transaction() as txn:
         txn = cast(PGTransaction, txn)
         async with txn.connection.cursor() as cur:
             await cur.execute(
@@ -226,7 +226,7 @@ async def purge_batch(
     while len(to_delete) > 0:
         batch = to_delete[:delete_batch_size]
         to_delete = to_delete[delete_batch_size:]
-        async with kv_driver.transaction() as txn:
+        async with kv_driver.rw_transaction() as txn:
             for key in batch:
                 logger.info("Purging task metadata", extra={"key": key})
                 await txn.delete(key)

nucliadb/train/generators/sentence_classifier.py CHANGED Viewed

@@ -116,10 +116,7 @@ async def get_sentences(kbid: str, result: str) -> list[str]:
     if split is not None:
         text = extracted_text.split_text[split]
         for paragraph in field_metadata.split_metadata[split].paragraphs:
-            if paragraph.key == "":
-                key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
-            else:
-                key = paragraph.key
+            key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
             if key == result:
                 for sentence in paragraph.sentences:
                     splitted_text = text[sentence.start : sentence.end]
@@ -127,10 +124,7 @@ async def get_sentences(kbid: str, result: str) -> list[str]:
     else:
         text = extracted_text.text
         for paragraph in field_metadata.metadata.paragraphs:
-            if paragraph.key == "":
-                key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
-            else:
-                key = paragraph.key
+            key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
             if key == result:
                 for sentence in paragraph.sentences:
                     splitted_text = text[sentence.start : sentence.end]

nucliadb/train/generators/utils.py CHANGED Viewed

@@ -41,7 +41,7 @@ async def get_resource_from_cache_or_db(kbid: str, uuid: str) -> Optional[Resour
 async def _get_resource_from_db(kbid: str, uuid: str) -> Optional[ResourceORM]:
     storage = await get_storage(service_name=SERVICE_NAME)
-    async with get_driver().transaction(read_only=True) as transaction:
+    async with get_driver().ro_transaction() as transaction:
         kb = KnowledgeBoxORM(transaction, storage, kbid)
         return await kb.get(uuid)

nucliadb/train/nodes.py CHANGED Viewed

@@ -81,7 +81,7 @@ class TrainShardManager(manager.KBShardManager):
         return manager
     async def kb_sentences(self, request: GetSentencesRequest) -> AsyncIterator[TrainSentence]:
-        async with self.driver.transaction(read_only=True) as txn:
+        async with self.driver.ro_transaction() as txn:
             kb = KnowledgeBox(txn, self.storage, request.kb.uuid)
             if request.uuid != "":
                 # Filter by uuid
@@ -95,7 +95,7 @@ class TrainShardManager(manager.KBShardManager):
                         yield sentence
     async def kb_paragraphs(self, request: GetParagraphsRequest) -> AsyncIterator[TrainParagraph]:
-        async with self.driver.transaction(read_only=True) as txn:
+        async with self.driver.ro_transaction() as txn:
             kb = KnowledgeBox(txn, self.storage, request.kb.uuid)
             if request.uuid != "":
                 # Filter by uuid
@@ -109,7 +109,7 @@ class TrainShardManager(manager.KBShardManager):
                         yield paragraph
     async def kb_fields(self, request: GetFieldsRequest) -> AsyncIterator[TrainField]:
-        async with self.driver.transaction(read_only=True) as txn:
+        async with self.driver.ro_transaction() as txn:
             kb = KnowledgeBox(txn, self.storage, request.kb.uuid)
             if request.uuid != "":
                 # Filter by uuid
@@ -123,7 +123,7 @@ class TrainShardManager(manager.KBShardManager):
                         yield field
     async def kb_resources(self, request: GetResourcesRequest) -> AsyncIterator[TrainResource]:
-        async with self.driver.transaction(read_only=True) as txn:
+        async with self.driver.ro_transaction() as txn:
             kb = KnowledgeBox(txn, self.storage, request.kb.uuid)
             base = KB_RESOURCE_SLUG_BASE.format(kbid=request.kb.uuid)
             async for key in txn.keys(match=base):

nucliadb/train/servicer.py CHANGED Viewed

@@ -89,7 +89,7 @@ class TrainServicer(train_pb2_grpc.TrainServicer):
     ) -> GetEntitiesResponse:
         kbid = request.kb.uuid
         response = GetEntitiesResponse()
-        async with self.proc.driver.transaction(read_only=True) as txn:
+        async with self.proc.driver.ro_transaction() as txn:
             entities_manager = await self.proc.get_kb_entities_manager(txn, kbid)
             if entities_manager is None:
                 await txn.abort()

nucliadb/train/uploader.py CHANGED Viewed

@@ -75,7 +75,7 @@ class UploadServicer:
     ) -> GetEntitiesResponse:
         kbid = request.kb.uuid
         response = GetEntitiesResponse()
-        async with self.proc.driver.transaction(read_only=True) as txn:
+        async with self.proc.driver.ro_transaction() as txn:
             kbobj = await self.proc.get_kb_obj(txn, request.kb)
             if kbobj is None:
                 response.status = GetEntitiesResponse.Status.NOTFOUND

nucliadb/writer/api/v1/field.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 from inspect import iscoroutinefunction
-from typing import TYPE_CHECKING, Annotated, Callable, Optional, Type, Union
+from typing import TYPE_CHECKING, Annotated, Callable, List, Optional, Type, Union
 import pydantic
 from fastapi import HTTPException, Query, Response
@@ -249,9 +249,10 @@ async def parse_conversation_field_adapter(
     writer: BrokerMessage,
     toprocess: PushPayload,
     resource_classifications: ResourceClassifications,
+    replace_field: bool = False,
 ):
     return await parse_conversation_field(
-        field_id, field_payload, writer, toprocess, kbid, rid, resource_classifications
+        field_id, field_payload, writer, toprocess, kbid, rid, resource_classifications, replace_field
     )
@@ -380,7 +381,9 @@ async def add_resource_field_conversation_rslug_prefix(
     field_id: FieldIdString,
     field_payload: models.InputConversationField,
 ) -> ResourceFieldAdded:
-    return await add_field_to_resource_by_slug(request, kbid, rslug, field_id, field_payload)
+    return await add_field_to_resource_by_slug(
+        request, kbid, rslug, field_id, field_payload, replace_field=True
+    )
 @api.put(
@@ -399,7 +402,7 @@ async def add_resource_field_conversation_rid_prefix(
     field_id: FieldIdString,
     field_payload: models.InputConversationField,
 ) -> ResourceFieldAdded:
-    return await add_field_to_resource(request, kbid, rid, field_id, field_payload)
+    return await add_field_to_resource(request, kbid, rid, field_id, field_payload, replace_field=True)
 @api.put(
@@ -460,13 +463,15 @@ async def append_messages_to_conversation_field_rslug_prefix(
     kbid: str,
     rslug: str,
     field_id: FieldIdString,
-    messages: list[models.InputMessage],
+    messages: List[models.InputMessage],
 ) -> ResourceFieldAdded:
     try:
         field = models.InputConversationField(messages=messages)
     except pydantic.ValidationError as e:
         raise HTTPException(status_code=422, detail=str(e))
-    return await add_field_to_resource_by_slug(request, kbid, rslug, field_id, field)
+    return await add_field_to_resource_by_slug(
+        request, kbid, rslug, field_id, field, replace_field=False
+    )
 @api.put(
@@ -483,13 +488,13 @@ async def append_messages_to_conversation_field_rid_prefix(
     kbid: str,
     rid: str,
     field_id: FieldIdString,
-    messages: list[models.InputMessage],
+    messages: List[models.InputMessage],
 ) -> ResourceFieldAdded:
     try:
         field = models.InputConversationField(messages=messages)
     except pydantic.ValidationError as e:
         raise HTTPException(status_code=422, detail=str(e))
-    return await add_field_to_resource(request, kbid, rid, field_id, field)
+    return await add_field_to_resource(request, kbid, rid, field_id, field, replace_field=False)
 @api.delete(
@@ -572,7 +577,7 @@ async def reprocess_file_field(
     storage = await get_storage(service_name=SERVICE_NAME)
     driver = get_driver()
-    async with driver.transaction(read_only=True) as txn:
+    async with driver.ro_transaction() as txn:
         kb = KnowledgeBox(txn, storage, kbid)
         resource = await kb.get(rid)

nucliadb 6.7.2.post4862__py3-none-any.whl → 6.9.2.post5282__py3-none-any.whl

Potentially problematic release.

nucliadb 6.7.2.post4862py3-none-any.whl → 6.9.2.post5282py3-none-any.whl