PyPI - nucliadb - Versions diffs - 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (246) hide show

migrations/0023_backfill_pg_catalog.py +8 -4
migrations/0028_extracted_vectors_reference.py +1 -1
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +8 -4
migrations/0039_backfill_converation_splits_metadata.py +106 -0
migrations/0040_migrate_search_configurations.py +79 -0
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/__init__.py +79 -0
nucliadb/common/catalog/dummy.py +36 -0
nucliadb/common/catalog/interface.py +85 -0
nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} +330 -232
nucliadb/common/catalog/utils.py +56 -0
nucliadb/common/cluster/manager.py +8 -23
nucliadb/common/cluster/rebalance.py +484 -112
nucliadb/common/cluster/rollover.py +36 -9
nucliadb/common/cluster/settings.py +4 -9
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +9 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +5 -34
nucliadb/common/external_index_providers/settings.py +1 -27
nucliadb/common/filter_expression.py +129 -41
nucliadb/common/http_clients/exceptions.py +8 -0
nucliadb/common/http_clients/processing.py +16 -23
nucliadb/common/http_clients/utils.py +3 -0
nucliadb/common/ids.py +82 -58
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +22 -5
nucliadb/common/vector_index_config.py +1 -1
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +10 -8
nucliadb/ingest/consumer/service.py +5 -30
nucliadb/ingest/consumer/shard_creator.py +16 -5
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +37 -49
nucliadb/ingest/fields/conversation.py +55 -9
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +89 -57
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +128 -113
nucliadb/ingest/orm/knowledgebox.py +91 -59
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +98 -153
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +82 -71
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/partitions.py +12 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +15 -114
nucliadb/ingest/settings.py +36 -15
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +23 -26
nucliadb/metrics_exporter.py +20 -6
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +4 -11
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +37 -9
nucliadb/reader/api/v1/learning_config.py +33 -14
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +3 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +15 -19
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +328 -0
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +28 -8
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +33 -19
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -42
nucliadb/search/search/chat/ask.py +131 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +453 -32
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +49 -0
nucliadb/search/search/hydrator/fields.py +217 -0
nucliadb/search/search/hydrator/images.py +130 -0
nucliadb/search/search/hydrator/paragraphs.py +323 -0
nucliadb/search/search/hydrator/resources.py +60 -0
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +24 -7
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +44 -18
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -48
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +5 -6
nucliadb/search/search/query_parser/parsers/catalog.py +7 -11
nucliadb/search/search/query_parser/parsers/common.py +21 -13
nucliadb/search/search/query_parser/parsers/find.py +6 -29
nucliadb/search/search/query_parser/parsers/graph.py +18 -28
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -56
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +6 -7
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +5 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +4 -10
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +15 -14
nucliadb/writer/api/v1/knowledgebox.py +18 -56
nucliadb/writer/api/v1/learning_config.py +5 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +43 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +5 -7
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +15 -22
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +10 -11
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb/common/external_index_providers/pinecone.py +0 -894
nucliadb/ingest/orm/processor/pgcatalog.py +0 -129
nucliadb/search/search/hydrator.py +0 -197
nucliadb-6.7.2.post4874.dist-info/RECORD +0 -383
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/train/generators/image_classifier.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, Optional
+from collections.abc import AsyncGenerator
 from nucliadb.train.generators.utils import batchify
 from nucliadb_models.filters import FilterExpression
@@ -33,7 +33,7 @@ def image_classification_batch_generator(
     kbid: str,
     trainset: TrainSet,
     shard_replica_id: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
 ) -> AsyncGenerator[ImageClassificationBatch, None]:
     generator = generate_image_classification_payloads(kbid, trainset, shard_replica_id)
     batch_generator = batchify(generator, trainset.batch_size, ImageClassificationBatch)

nucliadb/train/generators/paragraph_classifier.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, Optional
+from collections.abc import AsyncGenerator
 from fastapi import HTTPException
 from nidx_protos.nodereader_pb2 import StreamRequest
@@ -38,7 +38,7 @@ def paragraph_classification_batch_generator(
     kbid: str,
     trainset: TrainSet,
     shard_replica_id: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
 ) -> AsyncGenerator[ParagraphClassificationBatch, None]:
     if len(trainset.filter.labels) != 1:
         raise HTTPException(

nucliadb/train/generators/paragraph_streaming.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, Optional
+from collections.abc import AsyncGenerator
 from nidx_protos.nodereader_pb2 import StreamRequest
@@ -38,7 +38,7 @@ def paragraph_streaming_batch_generator(
     kbid: str,
     trainset: TrainSet,
     shard_replica_id: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
 ) -> AsyncGenerator[ParagraphStreamingBatch, None]:
     generator = generate_paragraph_streaming_payloads(kbid, trainset, shard_replica_id)
     batch_generator = batchify(generator, trainset.batch_size, ParagraphStreamingBatch)

nucliadb/train/generators/question_answer_streaming.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, Optional
+from collections.abc import AsyncGenerator
 from nidx_protos.nodereader_pb2 import StreamRequest
@@ -47,7 +47,7 @@ def question_answer_batch_generator(
     kbid: str,
     trainset: TrainSet,
     shard_replica_id: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
 ) -> AsyncGenerator[QuestionAnswerStreamingBatch, None]:
     generator = generate_question_answer_streaming_payloads(kbid, trainset, shard_replica_id)
     batch_generator = batchify(generator, trainset.batch_size, QuestionAnswerStreamingBatch)

nucliadb/train/generators/sentence_classifier.py CHANGED Viewed

@@ -18,7 +18,7 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, Optional
+from collections.abc import AsyncGenerator
 from fastapi import HTTPException
 from nidx_protos.nodereader_pb2 import StreamRequest
@@ -40,7 +40,7 @@ def sentence_classification_batch_generator(
     kbid: str,
     trainset: TrainSet,
     shard_replica_id: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
 ) -> AsyncGenerator[SentenceClassificationBatch, None]:
     if len(trainset.filter.labels) == 0:
         raise HTTPException(
@@ -116,10 +116,7 @@ async def get_sentences(kbid: str, result: str) -> list[str]:
     if split is not None:
         text = extracted_text.split_text[split]
         for paragraph in field_metadata.split_metadata[split].paragraphs:
-            if paragraph.key == "":
-                key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
-            else:
-                key = paragraph.key
+            key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
             if key == result:
                 for sentence in paragraph.sentences:
                     splitted_text = text[sentence.start : sentence.end]
@@ -127,10 +124,7 @@ async def get_sentences(kbid: str, result: str) -> list[str]:
     else:
         text = extracted_text.text
         for paragraph in field_metadata.metadata.paragraphs:
-            if paragraph.key == "":
-                key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
-            else:
-                key = paragraph.key
+            key = f"{rid}/{field_type}/{field}/{paragraph.start}-{paragraph.end}"
             if key == result:
                 for sentence in paragraph.sentences:
                     splitted_text = text[sentence.start : sentence.end]

nucliadb/train/generators/token_classifier.py CHANGED Viewed

@@ -19,7 +19,8 @@
 #
 from collections import OrderedDict
-from typing import AsyncGenerator, Optional, cast
+from collections.abc import AsyncGenerator
+from typing import cast
 from nidx_protos.nodereader_pb2 import StreamFilter, StreamRequest
@@ -43,7 +44,7 @@ def token_classification_batch_generator(
     kbid: str,
     trainset: TrainSet,
     shard_replica_id: str,
-    filter_expression: Optional[FilterExpression],
+    filter_expression: FilterExpression | None,
 ) -> AsyncGenerator[TokenClassificationBatch, None]:
     generator = generate_token_classification_payloads(kbid, trainset, shard_replica_id)
     batch_generator = batchify(generator, trainset.batch_size, TokenClassificationBatch)

nucliadb/train/generators/utils.py CHANGED Viewed

@@ -18,7 +18,8 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Any, AsyncGenerator, AsyncIterator, Optional, Type
+from collections.abc import AsyncGenerator, AsyncIterator
+from typing import Any
 from nucliadb.common.cache import get_resource_cache
 from nucliadb.common.ids import FIELD_TYPE_STR_TO_PB
@@ -30,16 +31,16 @@ from nucliadb.train.types import T
 from nucliadb_utils.utilities import get_storage
-async def get_resource_from_cache_or_db(kbid: str, uuid: str) -> Optional[ResourceORM]:
+async def get_resource_from_cache_or_db(kbid: str, uuid: str) -> ResourceORM | None:
     resource_cache = get_resource_cache()
     if resource_cache is None:
-        return await _get_resource_from_db(kbid, uuid)
         logger.warning("Resource cache is not set")
+        return await _get_resource_from_db(kbid, uuid)
     return await resource_cache.get(kbid, uuid)
-async def _get_resource_from_db(kbid: str, uuid: str) -> Optional[ResourceORM]:
+async def _get_resource_from_db(kbid: str, uuid: str) -> ResourceORM | None:
     storage = await get_storage(service_name=SERVICE_NAME)
     async with get_driver().ro_transaction() as transaction:
         kb = KnowledgeBoxORM(transaction, storage, kbid)
@@ -81,7 +82,7 @@ async def get_paragraph(kbid: str, paragraph_id: str) -> str:
 async def batchify(
-    producer: AsyncIterator[Any], size: int, batch_klass: Type[T]
+    producer: AsyncIterator[Any], size: int, batch_klass: type[T]
 ) -> AsyncGenerator[T, None]:
     # NOTE: we are supposing all protobuffers have a data field
     batch = []

nucliadb/train/nodes.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncIterator, Optional
+from collections.abc import AsyncIterator
 from nucliadb.common import datamanagers
 from nucliadb.common.cluster import manager
@@ -62,7 +62,7 @@ class TrainShardManager(manager.KBShardManager):
         return shard_object.nidx_shard_id
-    async def get_kb_obj(self, txn: Transaction, kbid: str) -> Optional[KnowledgeBox]:
+    async def get_kb_obj(self, txn: Transaction, kbid: str) -> KnowledgeBox | None:
         if kbid is None:
             return None
@@ -72,7 +72,7 @@ class TrainShardManager(manager.KBShardManager):
         kbobj = KnowledgeBox(txn, self.storage, kbid)
         return kbobj
-    async def get_kb_entities_manager(self, txn: Transaction, kbid: str) -> Optional[EntitiesManager]:
+    async def get_kb_entities_manager(self, txn: Transaction, kbid: str) -> EntitiesManager | None:
         kbobj = await self.get_kb_obj(txn, kbid)
         if kbobj is None:
             return None

nucliadb/train/resource.py CHANGED Viewed

@@ -19,7 +19,7 @@
 #
 from __future__ import annotations
-from typing import AsyncIterator, MutableMapping, Optional
+from collections.abc import AsyncIterator, MutableMapping
 from nucliadb.common import datamanagers
 from nucliadb.ingest.orm.resource import Resource
@@ -69,9 +69,7 @@ async def iterate_sentences(
             # return any
             vectorset_id = None
             async with datamanagers.with_ro_transaction() as txn:
-                async for vectorset_id, vs in datamanagers.vectorsets.iter(
-                    txn=txn, kbid=resource.kb.kbid
-                ):
+                async for vectorset_id, vs in datamanagers.vectorsets.iter(txn=txn, kbid=resource.kbid):
                     break
             assert vectorset_id is not None, "All KBs must have at least a vectorset"
             vo = await field.get_vectors(vectorset_id, vs.storage_key_kind)
@@ -81,7 +79,7 @@ async def iterate_sentences(
         if fm is None:
             continue
-        field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
+        field_metadatas: list[tuple[str | None, FieldMetadata]] = [(None, fm.metadata)]
         for subfield_metadata, splitted_metadata in fm.split_metadata.items():
             field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -188,7 +186,7 @@ async def iterate_paragraphs(
         if fm is None:
             continue
-        field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
+        field_metadatas: list[tuple[str | None, FieldMetadata]] = [(None, fm.metadata)]
         for subfield_metadata, splitted_metadata in fm.split_metadata.items():
             field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -264,7 +262,7 @@ async def iterate_fields(
         if fm is None:
             continue
-        field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
+        field_metadatas: list[tuple[str | None, FieldMetadata]] = [(None, fm.metadata)]
         for subfield_metadata, splitted_metadata in fm.split_metadata.items():
             field_metadatas.append((subfield_metadata, splitted_metadata))
@@ -319,7 +317,7 @@ async def generate_train_resource(
         if fm is None:
             continue
-        field_metadatas: list[tuple[Optional[str], FieldMetadata]] = [(None, fm.metadata)]
+        field_metadatas: list[tuple[str | None, FieldMetadata]] = [(None, fm.metadata)]
         for subfield_metadata, splitted_metadata in fm.split_metadata.items():
             field_metadatas.append((subfield_metadata, splitted_metadata))

nucliadb/train/settings.py CHANGED Viewed

@@ -17,17 +17,16 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Optional
 from nucliadb.ingest.settings import DriverSettings
 class Settings(DriverSettings):
     grpc_port: int = 8031
-    train_grpc_address: Optional[str] = None
+    train_grpc_address: str | None = None
-    nuclia_learning_url: Optional[str] = "https://nuclia.cloud/api/v1/learning/"
-    nuclia_learning_apikey: Optional[str] = None
+    nuclia_learning_url: str | None = "https://nuclia.cloud/api/v1/learning/"
+    nuclia_learning_apikey: str | None = None
     internal_counter_api: str = "http://search.nuclia.svc.cluster.local:8030/api/v1/kb/{kbid}/counters"

nucliadb/train/types.py CHANGED Viewed

@@ -17,20 +17,20 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import TypeVar, Union
+from typing import TypeVar
 from nucliadb_protos import dataset_pb2 as dpb
-TrainBatch = Union[
-    dpb.FieldClassificationBatch,
-    dpb.ImageClassificationBatch,
-    dpb.ParagraphClassificationBatch,
-    dpb.ParagraphStreamingBatch,
-    dpb.QuestionAnswerStreamingBatch,
-    dpb.SentenceClassificationBatch,
-    dpb.TokenClassificationBatch,
-    dpb.FieldStreamingBatch,
-]
+TrainBatch = (
+    dpb.FieldClassificationBatch
+    | dpb.ImageClassificationBatch
+    | dpb.ParagraphClassificationBatch
+    | dpb.ParagraphStreamingBatch
+    | dpb.QuestionAnswerStreamingBatch
+    | dpb.SentenceClassificationBatch
+    | dpb.TokenClassificationBatch
+    | dpb.FieldStreamingBatch
+)
 T = TypeVar(
     "T",

nucliadb/train/upload.py CHANGED Viewed

@@ -20,8 +20,9 @@
 import argparse
 import asyncio
 import importlib.metadata
+import inspect
 from asyncio import tasks
-from typing import Callable
+from collections.abc import Callable
 from nucliadb.train.uploader import start_upload
 from nucliadb_telemetry import errors
@@ -89,7 +90,7 @@ def run() -> None:
     finally:
         try:
             for finalizer in finalizers:
-                if asyncio.iscoroutinefunction(finalizer):
+                if inspect.iscoroutinefunction(finalizer):
                     loop.run_until_complete(finalizer())
                 else:
                     finalizer()

nucliadb/train/uploader.py CHANGED Viewed

@@ -17,7 +17,6 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Optional
 import aiohttp
@@ -97,7 +96,7 @@ class UploadServicer:
             response.status = GetLabelsResponse.Status.NOTFOUND
             return response
         response.kb.uuid = kbid
-        labels: Optional[Labels] = await datamanagers.atomic.labelset.get_all(kbid=kbid)
+        labels: Labels | None = await datamanagers.atomic.labelset.get_all(kbid=kbid)
         if labels is not None:
             response.labels.CopyFrom(labels)
         return response

nucliadb/train/utils.py CHANGED Viewed

@@ -17,7 +17,6 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Optional
 from grpc import aio
 from grpc_health.v1 import health, health_pb2_grpc
@@ -37,7 +36,7 @@ from nucliadb_utils.utilities import (
 )
-async def start_train_grpc(service_name: Optional[str] = None):
+async def start_train_grpc(service_name: str | None = None):
     actual_service = get_utility(Utility.TRAIN)
     if actual_service is not None:
         return

nucliadb/writer/api/v1/export_import.py CHANGED Viewed

@@ -17,8 +17,8 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
+from collections.abc import AsyncGenerator
 from datetime import datetime
-from typing import AsyncGenerator
 from uuid import uuid4
 from fastapi_versioning import version
@@ -66,6 +66,7 @@ from nucliadb_utils.authentication import requires_one
     summary="Start an export of a Knowledge Box",
     tags=["Knowledge Boxes"],
     response_model=CreateExportResponse,
+    include_in_schema=False,
 )
 @requires_one([NucliaDBRoles.MANAGER, NucliaDBRoles.WRITER])
 @version(1)
@@ -91,6 +92,7 @@ async def start_kb_export_endpoint(request: Request, kbid: str):
     tags=["Knowledge Boxes"],
     response_model=NewImportedKbResponse,
     openapi_extra={"x-hidden-operation": True},
+    include_in_schema=False,
 )
 @requires_one([NucliaDBRoles.MANAGER, NucliaDBRoles.WRITER])
 @version(1)
@@ -140,6 +142,7 @@ async def kb_create_and_import_endpoint(request: Request):
     summary="Start an import to a Knowledge Box",
     tags=["Knowledge Boxes"],
     response_model=CreateImportResponse,
+    include_in_schema=False,
 )
 @requires_one([NucliaDBRoles.MANAGER, NucliaDBRoles.WRITER])
 @version(1)

nucliadb/writer/api/v1/field.py CHANGED Viewed

@@ -17,8 +17,9 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
+from collections.abc import Callable
 from inspect import iscoroutinefunction
-from typing import TYPE_CHECKING, Annotated, Callable, Optional, Type, Union
+from typing import TYPE_CHECKING, Annotated
 import pydantic
 from fastapi import HTTPException, Query, Response
@@ -72,12 +73,7 @@ if TYPE_CHECKING:  # pragma: no cover
 else:
     FIELD_TYPE_NAME_TO_FIELD_TYPE_MAP: dict[models.FieldTypeName, int]
-FieldModelType = Union[
-    models.TextField,
-    models.LinkField,
-    models.InputConversationField,
-    models.FileField,
-]
+FieldModelType = models.TextField | models.LinkField | models.InputConversationField | models.FileField
 FIELD_TYPE_NAME_TO_FIELD_TYPE_MAP = {
     models.FieldTypeName.FILE: resources_pb2.FieldType.FILE,
@@ -249,9 +245,10 @@ async def parse_conversation_field_adapter(
     writer: BrokerMessage,
     toprocess: PushPayload,
     resource_classifications: ResourceClassifications,
+    replace_field: bool = False,
 ):
     return await parse_conversation_field(
-        field_id, field_payload, writer, toprocess, kbid, rid, resource_classifications
+        field_id, field_payload, writer, toprocess, kbid, rid, resource_classifications, replace_field
     )
@@ -277,7 +274,7 @@ async def parse_file_field_adapter(
     )
-FIELD_PARSERS_MAP: dict[Type, Callable] = {
+FIELD_PARSERS_MAP: dict[type, Callable] = {
     models.TextField: parse_text_field_adapter,
     models.LinkField: parse_link_field_adapter,
     models.InputConversationField: parse_conversation_field_adapter,
@@ -380,7 +377,9 @@ async def add_resource_field_conversation_rslug_prefix(
     field_id: FieldIdString,
     field_payload: models.InputConversationField,
 ) -> ResourceFieldAdded:
-    return await add_field_to_resource_by_slug(request, kbid, rslug, field_id, field_payload)
+    return await add_field_to_resource_by_slug(
+        request, kbid, rslug, field_id, field_payload, replace_field=True
+    )
 @api.put(
@@ -399,7 +398,7 @@ async def add_resource_field_conversation_rid_prefix(
     field_id: FieldIdString,
     field_payload: models.InputConversationField,
 ) -> ResourceFieldAdded:
-    return await add_field_to_resource(request, kbid, rid, field_id, field_payload)
+    return await add_field_to_resource(request, kbid, rid, field_id, field_payload, replace_field=True)
 @api.put(
@@ -466,7 +465,9 @@ async def append_messages_to_conversation_field_rslug_prefix(
         field = models.InputConversationField(messages=messages)
     except pydantic.ValidationError as e:
         raise HTTPException(status_code=422, detail=str(e))
-    return await add_field_to_resource_by_slug(request, kbid, rslug, field_id, field)
+    return await add_field_to_resource_by_slug(
+        request, kbid, rslug, field_id, field, replace_field=False
+    )
 @api.put(
@@ -489,7 +490,7 @@ async def append_messages_to_conversation_field_rid_prefix(
         field = models.InputConversationField(messages=messages)
     except pydantic.ValidationError as e:
         raise HTTPException(status_code=422, detail=str(e))
-    return await add_field_to_resource(request, kbid, rid, field_id, field)
+    return await add_field_to_resource(request, kbid, rid, field_id, field, replace_field=False)
 @api.delete(
@@ -545,7 +546,7 @@ async def reprocess_file_field(
     rid: str,
     field_id: FieldIdString,
     x_nucliadb_user: Annotated[str, X_NUCLIADB_USER] = "",
-    x_file_password: Annotated[Optional[str], X_FILE_PASSWORD] = None,
+    x_file_password: Annotated[str | None, X_FILE_PASSWORD] = None,
     reset_title: bool = Query(
         default=False,
         description="Reset the title of the resource so that the file or link computed titles are set after processing.",

nucliadb/writer/api/v1/knowledgebox.py CHANGED Viewed

@@ -17,10 +17,9 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-import asyncio
 from functools import partial
-from fastapi import HTTPException
+from fastapi import BackgroundTasks, HTTPException
 from fastapi_versioning import version
 from starlette.requests import Request
@@ -36,10 +35,6 @@ from nucliadb.writer import logger
 from nucliadb.writer.api.utils import only_for_onprem
 from nucliadb.writer.api.v1.router import KB_PREFIX, KBS_PREFIX, api
 from nucliadb.writer.utilities import get_processing
-from nucliadb_models.external_index_providers import (
-    ExternalIndexProviderType,
-    PineconeServerlessCloud,
-)
 from nucliadb_models.resource import (
     KnowledgeBoxConfig,
     KnowledgeBoxObj,
@@ -118,20 +113,6 @@ async def create_kb(item: KnowledgeBoxConfig) -> tuple[str, str]:
     external_index_provider = knowledgebox_pb2.CreateExternalIndexProviderMetadata(
         type=knowledgebox_pb2.ExternalIndexProviderType.UNSET,
     )
-    if (
-        item.external_index_provider
-        and item.external_index_provider.type == ExternalIndexProviderType.PINECONE
-    ):
-        pinecone_api_key = item.external_index_provider.api_key
-        serverless_pb = to_pinecone_serverless_cloud_pb(item.external_index_provider.serverless_cloud)
-        external_index_provider = knowledgebox_pb2.CreateExternalIndexProviderMetadata(
-            type=knowledgebox_pb2.ExternalIndexProviderType.PINECONE,
-            pinecone_config=knowledgebox_pb2.CreatePineconeConfig(
-                api_key=pinecone_api_key,
-                serverless_cloud=serverless_pb,
-            ),
-        )
     try:
         (kbid, slug) = await KnowledgeBox.create(
             driver,
@@ -165,8 +146,6 @@ async def create_kb(item: KnowledgeBoxConfig) -> tuple[str, str]:
 @requires(NucliaDBRoles.MANAGER)
 @version(1)
 async def update_kb(request: Request, kbid: str, item: KnowledgeBoxConfig) -> KnowledgeBoxObjID:
-    driver = get_driver()
-    config = None
     if (
         item.slug
         or item.title
@@ -174,29 +153,24 @@ async def update_kb(request: Request, kbid: str, item: KnowledgeBoxConfig) -> Kn
         or item.hidden_resources_enabled
         or item.hidden_resources_hide_on_creation
     ):
-        config = knowledgebox_pb2.KnowledgeBoxConfig(
-            slug=item.slug or "",
-            title=item.title or "",
-            description=item.description or "",
-            hidden_resources_enabled=item.hidden_resources_enabled,
-            hidden_resources_hide_on_creation=item.hidden_resources_hide_on_creation,
-        )
-    try:
-        async with driver.rw_transaction() as txn:
+        try:
+            driver = get_driver()
             await KnowledgeBox.update(
-                txn,
-                uuid=kbid,
+                driver,
+                kbid=kbid,
                 slug=item.slug,
-                config=config,
+                title=item.title,
+                description=item.description,
+                hidden_resources_enabled=item.hidden_resources_enabled,
+                hidden_resources_hide_on_creation=item.hidden_resources_hide_on_creation,
             )
-            await txn.commit()
-    except datamanagers.exceptions.KnowledgeBoxNotFound:
-        raise HTTPException(status_code=404, detail="Knowledge box does not exist")
-    except Exception as exc:
-        logger.exception("Could not update KB", exc_info=exc, extra={"kbid": kbid})
-        raise HTTPException(status_code=500, detail="Error updating knowledge box")
-    else:
-        return KnowledgeBoxObjID(uuid=kbid)
+        except datamanagers.exceptions.KnowledgeBoxNotFound:
+            raise HTTPException(status_code=404, detail="Knowledge box does not exist")
+        except Exception as exc:
+            logger.exception("Could not update KB", exc_info=exc, extra={"kbid": kbid})
+            raise HTTPException(status_code=500, detail="Error updating knowledge box")
+    return KnowledgeBoxObjID(uuid=kbid)
 @only_for_onprem
@@ -209,7 +183,7 @@ async def update_kb(request: Request, kbid: str, item: KnowledgeBoxConfig) -> Kn
 )
 @requires(NucliaDBRoles.MANAGER)
 @version(1)
-async def delete_kb(request: Request, kbid: str) -> KnowledgeBoxObj:
+async def delete_kb(request: Request, kbid: str, background: BackgroundTasks) -> KnowledgeBoxObj:
     driver = get_driver()
     try:
         await KnowledgeBox.delete(driver, kbid=kbid)
@@ -233,18 +207,6 @@ async def delete_kb(request: Request, kbid: str) -> KnowledgeBoxObj:
     # be nice and notify processing this KB is being deleted so we waste
     # resources
     processing = get_processing()
-    asyncio.create_task(processing.delete_from_processing(kbid=kbid))
+    background.add_task(processing.delete_from_processing, kbid=kbid)
     return KnowledgeBoxObj(uuid=kbid)
-def to_pinecone_serverless_cloud_pb(
-    serverless: PineconeServerlessCloud,
-) -> knowledgebox_pb2.PineconeServerlessCloud.ValueType:
-    return {
-        PineconeServerlessCloud.AWS_EU_WEST_1: knowledgebox_pb2.PineconeServerlessCloud.AWS_EU_WEST_1,
-        PineconeServerlessCloud.AWS_US_EAST_1: knowledgebox_pb2.PineconeServerlessCloud.AWS_US_EAST_1,
-        PineconeServerlessCloud.AWS_US_WEST_2: knowledgebox_pb2.PineconeServerlessCloud.AWS_US_WEST_2,
-        PineconeServerlessCloud.AZURE_EASTUS2: knowledgebox_pb2.PineconeServerlessCloud.AZURE_EASTUS2,
-        PineconeServerlessCloud.GCP_US_CENTRAL1: knowledgebox_pb2.PineconeServerlessCloud.GCP_US_CENTRAL1,
-    }[serverless]

nucliadb/writer/api/v1/learning_config.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from fastapi import Request
+from fastapi import Header, Request
 from fastapi_versioning import version
 from nuclia_models.config.proto import ExtractConfig, SplitConfiguration
@@ -55,10 +55,11 @@ async def set_configuration(
 @requires_one([NucliaDBRoles.MANAGER, NucliaDBRoles.WRITER])
 @version(1)
 async def patch_configuration(
-    request: Request,
-    kbid: str,
+    request: Request, kbid: str, x_nucliadb_account: str = Header(default="", include_in_schema=False)
 ):
-    return await learning_config_proxy(request, "PATCH", f"/config/{kbid}")
+    return await learning_config_proxy(
+        request, "PATCH", f"/config/{kbid}", headers={"account-id": x_nucliadb_account}
+    )
 @api.post(

nucliadb 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl