PyPI - nucliadb - Versions diffs - 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (246) hide show

migrations/0023_backfill_pg_catalog.py +8 -4
migrations/0028_extracted_vectors_reference.py +1 -1
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +8 -4
migrations/0039_backfill_converation_splits_metadata.py +106 -0
migrations/0040_migrate_search_configurations.py +79 -0
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/__init__.py +79 -0
nucliadb/common/catalog/dummy.py +36 -0
nucliadb/common/catalog/interface.py +85 -0
nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} +330 -232
nucliadb/common/catalog/utils.py +56 -0
nucliadb/common/cluster/manager.py +8 -23
nucliadb/common/cluster/rebalance.py +484 -112
nucliadb/common/cluster/rollover.py +36 -9
nucliadb/common/cluster/settings.py +4 -9
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +9 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +5 -34
nucliadb/common/external_index_providers/settings.py +1 -27
nucliadb/common/filter_expression.py +129 -41
nucliadb/common/http_clients/exceptions.py +8 -0
nucliadb/common/http_clients/processing.py +16 -23
nucliadb/common/http_clients/utils.py +3 -0
nucliadb/common/ids.py +82 -58
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +22 -5
nucliadb/common/vector_index_config.py +1 -1
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +10 -8
nucliadb/ingest/consumer/service.py +5 -30
nucliadb/ingest/consumer/shard_creator.py +16 -5
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +37 -49
nucliadb/ingest/fields/conversation.py +55 -9
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +89 -57
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +128 -113
nucliadb/ingest/orm/knowledgebox.py +91 -59
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +98 -153
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +82 -71
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/partitions.py +12 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +15 -114
nucliadb/ingest/settings.py +36 -15
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +23 -26
nucliadb/metrics_exporter.py +20 -6
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +4 -11
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +37 -9
nucliadb/reader/api/v1/learning_config.py +33 -14
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +3 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +15 -19
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +328 -0
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +28 -8
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +33 -19
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -42
nucliadb/search/search/chat/ask.py +131 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +453 -32
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +49 -0
nucliadb/search/search/hydrator/fields.py +217 -0
nucliadb/search/search/hydrator/images.py +130 -0
nucliadb/search/search/hydrator/paragraphs.py +323 -0
nucliadb/search/search/hydrator/resources.py +60 -0
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +24 -7
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +44 -18
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -48
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +5 -6
nucliadb/search/search/query_parser/parsers/catalog.py +7 -11
nucliadb/search/search/query_parser/parsers/common.py +21 -13
nucliadb/search/search/query_parser/parsers/find.py +6 -29
nucliadb/search/search/query_parser/parsers/graph.py +18 -28
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -56
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +6 -7
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +5 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +4 -10
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +15 -14
nucliadb/writer/api/v1/knowledgebox.py +18 -56
nucliadb/writer/api/v1/learning_config.py +5 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +43 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +5 -7
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +15 -22
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +10 -11
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb/common/external_index_providers/pinecone.py +0 -894
nucliadb/ingest/orm/processor/pgcatalog.py +0 -129
nucliadb/search/search/hydrator.py +0 -197
nucliadb-6.7.2.post4874.dist-info/RECORD +0 -383
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/openapi.py CHANGED Viewed

@@ -33,11 +33,11 @@ def is_versioned_route(route):
 def extract_openapi(application, version, commit_id, app_name):
-    app = [
+    app = next(
         route.app
         for route in application.routes
         if is_versioned_route(route) and route.app.version == version
-    ][0]
+    )
     document = get_openapi(
         title=app.title,
         version=app.version,

nucliadb/purge/__init__.py CHANGED Viewed

@@ -19,7 +19,8 @@
 #
 import asyncio
 import importlib.metadata
-from typing import AsyncGenerator
+from collections.abc import AsyncGenerator
+from itertools import batched  # type: ignore
 from nucliadb.common import datamanagers
 from nucliadb.common.cluster.exceptions import NodeError, ShardNotFound
@@ -233,7 +234,7 @@ async def purge_kb_vectorsets(driver: Driver, storage: Storage):
                     fields.extend((await resource.get_fields(force=True)).values())
             logger.info(f"Purging {len(fields)} fields for vectorset {vectorset}", extra={"kbid": kbid})
-            for fields_batch in batchify(fields, 20):
+            for fields_batch in batched(fields, n=20):
                 tasks = []
                 for field in fields_batch:
                     if purge_payload.storage_key_kind == VectorSetConfig.StorageKeyKind.UNSET:
@@ -317,9 +318,3 @@ def run() -> int:  # pragma: no cover
     setup_logging()
     errors.setup_error_handling(importlib.metadata.distribution("nucliadb").version)
     return asyncio.run(main())
-def batchify(iterable, n=1):
-    """Yield successive n-sized chunks from iterable."""
-    for i in range(0, len(iterable), n):
-        yield iterable[i : i + n]

nucliadb/purge/orphan_shards.py CHANGED Viewed

@@ -20,7 +20,6 @@
 import argparse
 import asyncio
 import importlib.metadata
-from typing import Optional
 from grpc.aio import AioRpcError
 from nidx_protos import nodereader_pb2, noderesources_pb2
@@ -113,7 +112,7 @@ async def _get_stored_shards(driver: Driver) -> dict[str, ShardKb]:
     return stored_shards
-async def _get_kbid(shard_id: str) -> Optional[str]:
+async def _get_kbid(shard_id: str) -> str | None:
     kbid = None
     try:
         req = nodereader_pb2.GetShardRequest()

nucliadb/reader/__init__.py CHANGED Viewed

@@ -19,6 +19,8 @@
 #
 import logging
+from fastapi import Header
 SERVICE_NAME = "nucliadb.reader"
 logger = logging.getLogger(SERVICE_NAME)
@@ -35,3 +37,6 @@ class EndpointFilter(logging.Filter):
 # Add filter to the logger
 logging.getLogger("uvicorn.access").addFilter(EndpointFilter())
+RANGE_HEADER = Header(description="Standard HTTP Range header that enable multipart requests")

nucliadb/reader/api/models.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import TYPE_CHECKING, Any, Optional, Union
+from typing import TYPE_CHECKING, Any
 from pydantic import BaseModel
@@ -33,14 +33,7 @@ from nucliadb_models.resource import (
 )
 if TYPE_CHECKING:  # pragma: no cover
-    ValueType = Optional[
-        Union[
-            models.FieldText,
-            models.FieldFile,
-            models.FieldLink,
-            models.Conversation,
-        ]
-    ]
+    ValueType = models.FieldText | models.FieldFile | models.FieldLink | models.Conversation | None
 else:
     # without Any, pydantic fails to anything as validate() fails using the Union
     ValueType = Any
@@ -50,10 +43,10 @@ class ResourceField(BaseModel):
     field_type: FieldTypeName
     field_id: str
     value: ValueType = None
-    extracted: Optional[ExtractedDataType] = None
-    error: Optional[Error] = None
-    status: Optional[str] = None
-    errors: Optional[list[Error]] = None
+    extracted: ExtractedDataType | None = None
+    error: Error | None = None
+    status: str | None = None
+    errors: list[Error] | None = None
 FIELD_NAME_TO_EXTRACTED_DATA_FIELD_MAP: dict[FieldTypeName, Any] = {

nucliadb/reader/api/v1/download.py CHANGED Viewed

@@ -18,20 +18,18 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import urllib.parse
-from enum import Enum
-from typing import Optional
+from typing import Annotated
 from fastapi import HTTPException
 from fastapi.requests import Request
 from fastapi.responses import Response
 from fastapi_versioning import version
-from starlette.datastructures import Headers
 from starlette.responses import StreamingResponse
+from nucliadb.common import datamanagers
 from nucliadb.common.ids import FIELD_TYPE_PB_TO_STR
 from nucliadb.common.models_utils import to_proto
-from nucliadb.ingest.serialize import get_resource_uuid_by_slug
-from nucliadb.reader import SERVICE_NAME, logger
+from nucliadb.reader import RANGE_HEADER, SERVICE_NAME, logger
 from nucliadb_models.common import FieldTypeName
 from nucliadb_models.resource import NucliaDBRoles
 from nucliadb_utils.authentication import requires_one
@@ -41,13 +39,8 @@ from nucliadb_utils.utilities import get_storage
 from .router import KB_PREFIX, RESOURCE_PREFIX, RSLUG_PREFIX, api
-class DownloadType(Enum):
-    EXTRACTED = "extracted"
-    FIELD = "field"
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download extracted binary file (by slug)",
@@ -61,12 +54,20 @@ async def download_extract_file_rslug_prefix(
     field_type: FieldTypeName,
     field_id: str,
     download_field: str,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_extract_file(request, kbid, field_type, field_id, download_field, rslug=rslug)
+    return await _download_extract_file(
+        kbid,
+        field_type,
+        field_id,
+        download_field,
+        rslug=rslug,
+        range_request=range,
+    )
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download extracted binary file (by id)",
@@ -80,18 +81,21 @@ async def download_extract_file_rid_prefix(
     field_type: FieldTypeName,
     field_id: str,
     download_field: str,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_extract_file(request, kbid, field_type, field_id, download_field, rid=rid)
+    return await _download_extract_file(
+        kbid, field_type, field_id, download_field, rid=rid, range_request=range
+    )
 async def _download_extract_file(
-    request: Request,
     kbid: str,
     field_type: FieldTypeName,
     field_id: str,
     download_field: str,
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    rid: str | None = None,
+    rslug: str | None = None,
+    range_request: str | None = None,
 ) -> Response:
     rid = await _get_resource_uuid_from_params(kbid, rid, rslug)
@@ -102,7 +106,7 @@ async def _download_extract_file(
     sf = storage.file_extracted(kbid, rid, field_type_letter, field_id, download_field)
-    return await download_api(sf, request.headers)
+    return await download_api(sf, range_request)
 @api.get(
@@ -119,8 +123,9 @@ async def download_field_file_rslug_prefix(
     rslug: str,
     field_id: str,
     inline: bool = False,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_field_file(request, kbid, field_id, rslug=rslug, inline=inline)
+    return await _download_field_file(kbid, field_id, rslug=rslug, range_request=range, inline=inline)
 @api.get(
@@ -137,16 +142,17 @@ async def download_field_file_rid_prefix(
     rid: str,
     field_id: str,
     inline: bool = False,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_field_file(request, kbid, field_id, rid=rid, inline=inline)
+    return await _download_field_file(kbid, field_id, rid=rid, range_request=range, inline=inline)
 async def _download_field_file(
-    request: Request,
     kbid: str,
     field_id: str,
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    rid: str | None = None,
+    rslug: str | None = None,
+    range_request: str | None = None,
     inline: bool = False,
 ) -> Response:
     rid = await _get_resource_uuid_from_params(kbid, rid, rslug)
@@ -155,11 +161,11 @@ async def _download_field_file(
     sf = storage.file_field(kbid, rid, field_id)
-    return await download_api(sf, request.headers, inline=inline)
+    return await download_api(sf, range_request=range_request, inline=inline)
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download conversation binary field (by slug)",
@@ -173,14 +179,20 @@ async def download_field_conversation_rslug_prefix(
     field_id: str,
     message_id: str,
     file_num: int,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
     return await _download_field_conversation_attachment(
-        request, kbid, field_id, message_id, file_num, rslug=rslug
+        kbid,
+        field_id,
+        message_id,
+        file_num,
+        rslug=rslug,
+        range_request=range,
     )
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download conversation binary field (by id)",
@@ -194,20 +206,26 @@ async def download_field_conversation_attachment_rid_prefix(
     field_id: str,
     message_id: str,
     file_num: int,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
     return await _download_field_conversation_attachment(
-        request, kbid, field_id, message_id, file_num, rid=rid
+        kbid,
+        field_id,
+        message_id,
+        file_num,
+        rid=rid,
+        range_request=range,
     )
 async def _download_field_conversation_attachment(
-    request: Request,
     kbid: str,
     field_id: str,
     message_id: str,
     file_num: int,
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    rid: str | None = None,
+    rslug: str | None = None,
+    range_request: str | None = None,
 ) -> Response:
     rid = await _get_resource_uuid_from_params(kbid, rid, rslug)
@@ -217,11 +235,11 @@ async def _download_field_conversation_attachment(
         kbid, rid, field_id, message_id, attachment_index=file_num
     )
-    return await download_api(sf, request.headers)
+    return await download_api(sf, range_request)
-async def download_api(sf: StorageField, headers: Headers, inline: bool = False):
-    metadata: Optional[ObjectMetadata] = await sf.exists()
+async def download_api(sf: StorageField, range_request: str | None = None, inline: bool = False):
+    metadata: ObjectMetadata | None = await sf.exists()
     if metadata is None:
         raise HTTPException(status_code=404, detail="Specified file doesn't exist")
@@ -240,9 +258,8 @@ async def download_api(sf: StorageField, headers: Headers, inline: bool = False)
     }
     range = Range()
-    if "range" in headers and file_size > -1:
+    if range_request and file_size > -1:
         status_code = 206
-        range_request = headers["range"]
         try:
             start, end, range_size = parse_media_range(range_request, file_size)
         except NotImplementedError:
@@ -295,13 +312,17 @@ async def download_api(sf: StorageField, headers: Headers, inline: bool = False)
     )
-async def _get_resource_uuid_from_params(kbid, rid: Optional[str], rslug: Optional[str]) -> str:
+async def _get_resource_uuid_from_params(kbid, rid: str | None, rslug: str | None) -> str:
     if not any([rid, rslug]):
         raise ValueError("Either rid or slug must be set")
     if not rid:
         # Attempt to get it from slug
-        rid = await get_resource_uuid_by_slug(kbid, rslug, service_name=SERVICE_NAME)  # type: ignore
+        rid = await datamanagers.atomic.resources.get_resource_uuid_from_slug(
+            kbid=kbid,
+            # mypy doesn't infer that we already checked for slug to be something
+            slug=rslug,  # type: ignore[arg-type]
+        )
         if rid is None:
             raise HTTPException(status_code=404, detail="Resource does not exist")

nucliadb/reader/api/v1/export_import.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, AsyncIterable, Union
+from collections.abc import AsyncGenerator, AsyncIterable
 from fastapi.responses import StreamingResponse
 from fastapi_versioning import version
@@ -108,7 +108,7 @@ async def download_export_and_delete(
 @version(1)
 async def get_export_status_endpoint(
     request: Request, kbid: str, export_id: str
-) -> Union[StatusResponse, HTTPClientError]:
+) -> StatusResponse | HTTPClientError:
     context = get_app_context(request.app)
     if not await exists_kb(kbid):
         return HTTPClientError(status_code=404, detail="Knowledge Box not found")
@@ -127,7 +127,7 @@ async def get_export_status_endpoint(
 @version(1)
 async def get_import_status_endpoint(
     request: Request, kbid: str, import_id: str
-) -> Union[StatusResponse, HTTPClientError]:
+) -> StatusResponse | HTTPClientError:
     context = get_app_context(request.app)
     if not await exists_kb(kbid):
         return HTTPClientError(status_code=404, detail="Knowledge Box not found")
@@ -137,7 +137,7 @@ async def get_import_status_endpoint(
 async def _get_status(
     context: ApplicationContext, type: str, kbid: str, id: str
-) -> Union[StatusResponse, HTTPClientError]:
+) -> StatusResponse | HTTPClientError:
     if type not in ("export", "import"):
         raise ValueError(f"Incorrect type: {type}")

nucliadb/reader/api/v1/knowledgebox.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from fastapi import HTTPException
+from fastapi import Header, HTTPException
 from fastapi_versioning import version
 from starlette.requests import Request
@@ -44,12 +44,20 @@ from nucliadb_utils.authentication import requires, requires_one
 )
 @requires(NucliaDBRoles.MANAGER)
 @version(1)
-async def get_kbs(request: Request, prefix: str = "") -> KnowledgeBoxList:
+async def get_kbs(
+    request: Request,
+    prefix: str = "",
+    x_nucliadb_account: str = Header(default="", include_in_schema=False),
+) -> KnowledgeBoxList:
     driver = get_driver()
     async with driver.ro_transaction() as txn:
         response = KnowledgeBoxList()
         async for kbid, slug in datamanagers.kb.get_kbs(txn, prefix=prefix):
-            response.kbs.append(KnowledgeBoxObjSummary(slug=slug or None, uuid=kbid))
+            response.kbs.append(
+                KnowledgeBoxObjSummary(
+                    slug=user_kb_slug(slug, account_id=x_nucliadb_account) or None, uuid=kbid
+                )
+            )
         return response
@@ -62,7 +70,9 @@ async def get_kbs(request: Request, prefix: str = "") -> KnowledgeBoxList:
 )
 @requires_one([NucliaDBRoles.MANAGER, NucliaDBRoles.READER])
 @version(1)
-async def get_kb(request: Request, kbid: str) -> KnowledgeBoxObj:
+async def get_kb(
+    request: Request, kbid: str, x_nucliadb_account: str = Header(default="", include_in_schema=False)
+) -> KnowledgeBoxObj:
     driver = get_driver()
     async with driver.ro_transaction() as txn:
         kb_config = await datamanagers.kb.get_config(txn, kbid=kbid)
@@ -71,7 +81,7 @@ async def get_kb(request: Request, kbid: str) -> KnowledgeBoxObj:
         return KnowledgeBoxObj(
             uuid=kbid,
-            slug=kb_config.slug,
+            slug=user_kb_slug(kb_config.slug, account_id=x_nucliadb_account),
             config=from_proto.knowledgebox_config(kb_config),
         )
@@ -85,12 +95,18 @@ async def get_kb(request: Request, kbid: str) -> KnowledgeBoxObj:
 )
 @requires_one([NucliaDBRoles.MANAGER, NucliaDBRoles.READER])
 @version(1)
-async def get_kb_by_slug(request: Request, slug: str) -> KnowledgeBoxObj:
+async def get_kb_by_slug(
+    request: Request, slug: str, x_nucliadb_account: str = Header(default="", include_in_schema=False)
+) -> KnowledgeBoxObj:
     driver = get_driver()
     async with driver.ro_transaction() as txn:
-        kbid = await datamanagers.kb.get_kb_uuid(txn, slug=slug)
+        # For cloud, the account id is prepended in order to be able to reuse the same slug in different accounts.
+        kbid = await datamanagers.kb.get_kb_uuid(txn, slug=f"{x_nucliadb_account}:{slug}")
         if kbid is None:
-            raise HTTPException(status_code=404, detail="Knowledge Box does not exist")
+            # For onprem, the slug is fully controlled by the user
+            kbid = await datamanagers.kb.get_kb_uuid(txn, slug=slug)
+            if kbid is None:
+                raise HTTPException(status_code=404, detail="Knowledge Box does not exist")
         kb_config = await datamanagers.kb.get_config(txn, kbid=kbid)
         if kb_config is None:
@@ -98,6 +114,18 @@ async def get_kb_by_slug(request: Request, slug: str) -> KnowledgeBoxObj:
         return KnowledgeBoxObj(
             uuid=kbid,
-            slug=kb_config.slug,
+            slug=user_kb_slug(kb_config.slug, account_id=x_nucliadb_account),
             config=from_proto.knowledgebox_config(kb_config),
         )
+def user_kb_slug(stored_slug: str, account_id: str) -> str:
+    if account_id != "":
+        # On cloud deployments, backend prepends the account id to the user-defined slug.
+        # This is required to make kb slugs reused across different accounts using the same nucliadb.
+        # We strip it so the user does not see it.
+        return stored_slug.split(f"{account_id}:")[-1]
+    else:
+        # On on-prem deployments, the account_id is set to "" by default and we don't need to strip
+        # anything as the backend is not invovled in the kb creation process.
+        return stored_slug

nucliadb/reader/api/v1/learning_config.py CHANGED Viewed

@@ -17,9 +17,8 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Dict
-from fastapi import Request
+from fastapi import Header, Request
 from fastapi_versioning import version
 from nuclia_models.config.proto import ExtractConfig, SplitConfiguration
@@ -35,7 +34,7 @@ from nucliadb_utils.settings import is_onprem_nucliadb
     path=f"/{KB_PREFIX}/{{kbid}}/models/{{model_id}}/{{filename:path}}",
     status_code=200,
     summary="Download the Knowledege Box model",
-    description="Download the trained model or any other generated file as a result of a training task on a Knowledge Box.",  # noqa
+    description="Download the trained model or any other generated file as a result of a training task on a Knowledge Box.",
     response_model=None,
     tags=["Models"],
 )
@@ -60,15 +59,11 @@ async def download_model(
 )
 @requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])
 @version(1)
-async def get_configuration(
-    request: Request,
-    kbid: str,
-):
+async def get_configuration(request: Request, kbid: str):
     return await learning_config_proxy(
         request,
         "GET",
         f"/config/{kbid}",
-        extra_headers={"X-STF-USER": request.headers.get("X-NUCLIADB-USER", "")},
     )
@@ -108,7 +103,6 @@ async def get_model(
         request,
         "GET",
         f"/models/{kbid}/model/{model_id}",
-        extra_headers={"X-STF-USER": request.headers.get("X-NUCLIADB-USER", "")},
     )
@@ -123,10 +117,35 @@ async def get_model(
 @requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])
 @version(1)
 async def get_schema_for_configuration_updates(
-    request: Request,
-    kbid: str,
+    request: Request, kbid: str, x_nucliadb_account: str = Header(default="", include_in_schema=False)
 ):
-    return await learning_config_proxy(request, "GET", f"/schema/{kbid}")
+    return await learning_config_proxy(
+        request,
+        "GET",
+        f"/schema/{kbid}",
+        headers={"account-id": x_nucliadb_account},
+    )
+@api.get(
+    path=f"/{KB_PREFIX}/{{kbid}}/generative_providers",
+    status_code=200,
+    summary="Available models for a knowledge box",
+    description="Get all available models for a knowledge box grouped by provider",
+    response_model=None,
+    tags=["Models"],
+)
+@requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])
+@version(1)
+async def get_models_group_by_providers(
+    request: Request, kbid: str, x_nucliadb_account: str = Header(default="", include_in_schema=False)
+):
+    return await learning_config_proxy(
+        request,
+        "GET",
+        f"/generative_providers/{kbid}",
+        headers={"account-id": x_nucliadb_account},
+    )
 @api.get(
@@ -153,7 +172,7 @@ async def get_schema_for_configuration_creation(
     status_code=200,
     summary="Learning extract strategies",
     description="Get available extract strategies ",
-    response_model=Dict[str, ExtractConfig],
+    response_model=dict[str, ExtractConfig],
     tags=["Extract Strategies"],
 )
 @requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])
@@ -190,7 +209,7 @@ async def get_extract_strategy_from_id(
     status_code=200,
     summary="Learning split strategies",
     description="Get available split strategies ",
-    response_model=Dict[str, SplitConfiguration],
+    response_model=dict[str, SplitConfiguration],
     tags=["Split Strategies"],
 )
 @requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])

nucliadb 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl