PyPI - nucliadb - Versions diffs - 6.9.1.post5192__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.9.1.post5192py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (231) hide show

migrations/0023_backfill_pg_catalog.py +2 -2
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +2 -2
migrations/0039_backfill_converation_splits_metadata.py +2 -2
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/interface.py +12 -12
nucliadb/common/catalog/pg.py +41 -29
nucliadb/common/catalog/utils.py +3 -3
nucliadb/common/cluster/manager.py +5 -4
nucliadb/common/cluster/rebalance.py +483 -114
nucliadb/common/cluster/rollover.py +25 -9
nucliadb/common/cluster/settings.py +3 -8
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +4 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +4 -5
nucliadb/common/filter_expression.py +128 -40
nucliadb/common/http_clients/processing.py +12 -23
nucliadb/common/ids.py +6 -4
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +3 -4
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +3 -8
nucliadb/ingest/consumer/service.py +3 -3
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +28 -49
nucliadb/ingest/fields/conversation.py +12 -12
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +78 -64
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +4 -4
nucliadb/ingest/orm/knowledgebox.py +18 -27
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +27 -27
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +72 -70
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +3 -109
nucliadb/ingest/settings.py +3 -4
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +11 -11
nucliadb/metrics_exporter.py +5 -4
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +3 -4
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/learning_config.py +24 -4
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +2 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +11 -15
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +25 -25
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +7 -7
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +24 -17
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -23
nucliadb/search/search/chat/ask.py +88 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +449 -36
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +3 -152
nucliadb/search/search/hydrator/fields.py +92 -50
nucliadb/search/search/hydrator/images.py +7 -7
nucliadb/search/search/hydrator/paragraphs.py +42 -26
nucliadb/search/search/hydrator/resources.py +20 -16
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +10 -9
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +13 -9
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -20
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +4 -5
nucliadb/search/search/query_parser/parsers/catalog.py +5 -6
nucliadb/search/search/query_parser/parsers/common.py +5 -6
nucliadb/search/search/query_parser/parsers/find.py +6 -26
nucliadb/search/search/query_parser/parsers/graph.py +13 -23
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -53
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +5 -6
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +2 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +2 -2
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +7 -11
nucliadb/writer/api/v1/knowledgebox.py +3 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +7 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +1 -3
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +5 -6
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +9 -10
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb-6.9.1.post5192.dist-info/RECORD +0 -392
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.9.1.post5192.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/openapi.py CHANGED Viewed

@@ -33,11 +33,11 @@ def is_versioned_route(route):
 def extract_openapi(application, version, commit_id, app_name):
-    app = [
+    app = next(
         route.app
         for route in application.routes
         if is_versioned_route(route) and route.app.version == version
-    ][0]
+    )
     document = get_openapi(
         title=app.title,
         version=app.version,

nucliadb/purge/__init__.py CHANGED Viewed

@@ -19,7 +19,8 @@
 #
 import asyncio
 import importlib.metadata
-from typing import AsyncGenerator
+from collections.abc import AsyncGenerator
+from itertools import batched  # type: ignore
 from nucliadb.common import datamanagers
 from nucliadb.common.cluster.exceptions import NodeError, ShardNotFound
@@ -233,7 +234,7 @@ async def purge_kb_vectorsets(driver: Driver, storage: Storage):
                     fields.extend((await resource.get_fields(force=True)).values())
             logger.info(f"Purging {len(fields)} fields for vectorset {vectorset}", extra={"kbid": kbid})
-            for fields_batch in batchify(fields, 20):
+            for fields_batch in batched(fields, n=20):
                 tasks = []
                 for field in fields_batch:
                     if purge_payload.storage_key_kind == VectorSetConfig.StorageKeyKind.UNSET:
@@ -317,9 +318,3 @@ def run() -> int:  # pragma: no cover
     setup_logging()
     errors.setup_error_handling(importlib.metadata.distribution("nucliadb").version)
     return asyncio.run(main())
-def batchify(iterable, n=1):
-    """Yield successive n-sized chunks from iterable."""
-    for i in range(0, len(iterable), n):
-        yield iterable[i : i + n]

nucliadb/purge/orphan_shards.py CHANGED Viewed

@@ -20,7 +20,6 @@
 import argparse
 import asyncio
 import importlib.metadata
-from typing import Optional
 from grpc.aio import AioRpcError
 from nidx_protos import nodereader_pb2, noderesources_pb2
@@ -113,7 +112,7 @@ async def _get_stored_shards(driver: Driver) -> dict[str, ShardKb]:
     return stored_shards
-async def _get_kbid(shard_id: str) -> Optional[str]:
+async def _get_kbid(shard_id: str) -> str | None:
     kbid = None
     try:
         req = nodereader_pb2.GetShardRequest()

nucliadb/reader/__init__.py CHANGED Viewed

@@ -19,6 +19,8 @@
 #
 import logging
+from fastapi import Header
 SERVICE_NAME = "nucliadb.reader"
 logger = logging.getLogger(SERVICE_NAME)
@@ -35,3 +37,6 @@ class EndpointFilter(logging.Filter):
 # Add filter to the logger
 logging.getLogger("uvicorn.access").addFilter(EndpointFilter())
+RANGE_HEADER = Header(description="Standard HTTP Range header that enable multipart requests")

nucliadb/reader/api/models.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import TYPE_CHECKING, Any, Optional, Union
+from typing import TYPE_CHECKING, Any
 from pydantic import BaseModel
@@ -33,14 +33,7 @@ from nucliadb_models.resource import (
 )
 if TYPE_CHECKING:  # pragma: no cover
-    ValueType = Optional[
-        Union[
-            models.FieldText,
-            models.FieldFile,
-            models.FieldLink,
-            models.Conversation,
-        ]
-    ]
+    ValueType = models.FieldText | models.FieldFile | models.FieldLink | models.Conversation | None
 else:
     # without Any, pydantic fails to anything as validate() fails using the Union
     ValueType = Any
@@ -50,10 +43,10 @@ class ResourceField(BaseModel):
     field_type: FieldTypeName
     field_id: str
     value: ValueType = None
-    extracted: Optional[ExtractedDataType] = None
-    error: Optional[Error] = None
-    status: Optional[str] = None
-    errors: Optional[list[Error]] = None
+    extracted: ExtractedDataType | None = None
+    error: Error | None = None
+    status: str | None = None
+    errors: list[Error] | None = None
 FIELD_NAME_TO_EXTRACTED_DATA_FIELD_MAP: dict[FieldTypeName, Any] = {

nucliadb/reader/api/v1/download.py CHANGED Viewed

@@ -18,20 +18,18 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import urllib.parse
-from enum import Enum
-from typing import Optional
+from typing import Annotated
 from fastapi import HTTPException
 from fastapi.requests import Request
 from fastapi.responses import Response
 from fastapi_versioning import version
-from starlette.datastructures import Headers
 from starlette.responses import StreamingResponse
+from nucliadb.common import datamanagers
 from nucliadb.common.ids import FIELD_TYPE_PB_TO_STR
 from nucliadb.common.models_utils import to_proto
-from nucliadb.ingest.serialize import get_resource_uuid_by_slug
-from nucliadb.reader import SERVICE_NAME, logger
+from nucliadb.reader import RANGE_HEADER, SERVICE_NAME, logger
 from nucliadb_models.common import FieldTypeName
 from nucliadb_models.resource import NucliaDBRoles
 from nucliadb_utils.authentication import requires_one
@@ -41,13 +39,8 @@ from nucliadb_utils.utilities import get_storage
 from .router import KB_PREFIX, RESOURCE_PREFIX, RSLUG_PREFIX, api
-class DownloadType(Enum):
-    EXTRACTED = "extracted"
-    FIELD = "field"
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download extracted binary file (by slug)",
@@ -61,12 +54,20 @@ async def download_extract_file_rslug_prefix(
     field_type: FieldTypeName,
     field_id: str,
     download_field: str,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_extract_file(request, kbid, field_type, field_id, download_field, rslug=rslug)
+    return await _download_extract_file(
+        kbid,
+        field_type,
+        field_id,
+        download_field,
+        rslug=rslug,
+        range_request=range,
+    )
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/{{field_type}}/{{field_id}}/download/extracted/{{download_field:path}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download extracted binary file (by id)",
@@ -80,18 +81,21 @@ async def download_extract_file_rid_prefix(
     field_type: FieldTypeName,
     field_id: str,
     download_field: str,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_extract_file(request, kbid, field_type, field_id, download_field, rid=rid)
+    return await _download_extract_file(
+        kbid, field_type, field_id, download_field, rid=rid, range_request=range
+    )
 async def _download_extract_file(
-    request: Request,
     kbid: str,
     field_type: FieldTypeName,
     field_id: str,
     download_field: str,
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    rid: str | None = None,
+    rslug: str | None = None,
+    range_request: str | None = None,
 ) -> Response:
     rid = await _get_resource_uuid_from_params(kbid, rid, rslug)
@@ -102,7 +106,7 @@ async def _download_extract_file(
     sf = storage.file_extracted(kbid, rid, field_type_letter, field_id, download_field)
-    return await download_api(sf, request.headers)
+    return await download_api(sf, range_request)
 @api.get(
@@ -119,8 +123,9 @@ async def download_field_file_rslug_prefix(
     rslug: str,
     field_id: str,
     inline: bool = False,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_field_file(request, kbid, field_id, rslug=rslug, inline=inline)
+    return await _download_field_file(kbid, field_id, rslug=rslug, range_request=range, inline=inline)
 @api.get(
@@ -137,16 +142,17 @@ async def download_field_file_rid_prefix(
     rid: str,
     field_id: str,
     inline: bool = False,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
-    return await _download_field_file(request, kbid, field_id, rid=rid, inline=inline)
+    return await _download_field_file(kbid, field_id, rid=rid, range_request=range, inline=inline)
 async def _download_field_file(
-    request: Request,
     kbid: str,
     field_id: str,
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    rid: str | None = None,
+    rslug: str | None = None,
+    range_request: str | None = None,
     inline: bool = False,
 ) -> Response:
     rid = await _get_resource_uuid_from_params(kbid, rid, rslug)
@@ -155,11 +161,11 @@ async def _download_field_file(
     sf = storage.file_field(kbid, rid, field_id)
-    return await download_api(sf, request.headers, inline=inline)
+    return await download_api(sf, range_request=range_request, inline=inline)
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download conversation binary field (by slug)",
@@ -173,14 +179,20 @@ async def download_field_conversation_rslug_prefix(
     field_id: str,
     message_id: str,
     file_num: int,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
     return await _download_field_conversation_attachment(
-        request, kbid, field_id, message_id, file_num, rslug=rslug
+        kbid,
+        field_id,
+        message_id,
+        file_num,
+        rslug=rslug,
+        range_request=range,
     )
 @api.get(
-    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",  # noqa
+    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}/conversation/{{field_id}}/download/field/{{message_id}}/{{file_num}}",
     tags=["Resource fields"],
     status_code=200,
     summary="Download conversation binary field (by id)",
@@ -194,20 +206,26 @@ async def download_field_conversation_attachment_rid_prefix(
     field_id: str,
     message_id: str,
     file_num: int,
+    range: Annotated[str | None, RANGE_HEADER] = None,
 ) -> Response:
     return await _download_field_conversation_attachment(
-        request, kbid, field_id, message_id, file_num, rid=rid
+        kbid,
+        field_id,
+        message_id,
+        file_num,
+        rid=rid,
+        range_request=range,
     )
 async def _download_field_conversation_attachment(
-    request: Request,
     kbid: str,
     field_id: str,
     message_id: str,
     file_num: int,
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    rid: str | None = None,
+    rslug: str | None = None,
+    range_request: str | None = None,
 ) -> Response:
     rid = await _get_resource_uuid_from_params(kbid, rid, rslug)
@@ -217,11 +235,11 @@ async def _download_field_conversation_attachment(
         kbid, rid, field_id, message_id, attachment_index=file_num
     )
-    return await download_api(sf, request.headers)
+    return await download_api(sf, range_request)
-async def download_api(sf: StorageField, headers: Headers, inline: bool = False):
-    metadata: Optional[ObjectMetadata] = await sf.exists()
+async def download_api(sf: StorageField, range_request: str | None = None, inline: bool = False):
+    metadata: ObjectMetadata | None = await sf.exists()
     if metadata is None:
         raise HTTPException(status_code=404, detail="Specified file doesn't exist")
@@ -240,9 +258,8 @@ async def download_api(sf: StorageField, headers: Headers, inline: bool = False)
     }
     range = Range()
-    if "range" in headers and file_size > -1:
+    if range_request and file_size > -1:
         status_code = 206
-        range_request = headers["range"]
         try:
             start, end, range_size = parse_media_range(range_request, file_size)
         except NotImplementedError:
@@ -295,13 +312,17 @@ async def download_api(sf: StorageField, headers: Headers, inline: bool = False)
     )
-async def _get_resource_uuid_from_params(kbid, rid: Optional[str], rslug: Optional[str]) -> str:
+async def _get_resource_uuid_from_params(kbid, rid: str | None, rslug: str | None) -> str:
     if not any([rid, rslug]):
         raise ValueError("Either rid or slug must be set")
     if not rid:
         # Attempt to get it from slug
-        rid = await get_resource_uuid_by_slug(kbid, rslug, service_name=SERVICE_NAME)  # type: ignore
+        rid = await datamanagers.atomic.resources.get_resource_uuid_from_slug(
+            kbid=kbid,
+            # mypy doesn't infer that we already checked for slug to be something
+            slug=rslug,  # type: ignore[arg-type]
+        )
         if rid is None:
             raise HTTPException(status_code=404, detail="Resource does not exist")

nucliadb/reader/api/v1/export_import.py CHANGED Viewed

@@ -17,7 +17,7 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import AsyncGenerator, AsyncIterable, Union
+from collections.abc import AsyncGenerator, AsyncIterable
 from fastapi.responses import StreamingResponse
 from fastapi_versioning import version
@@ -108,7 +108,7 @@ async def download_export_and_delete(
 @version(1)
 async def get_export_status_endpoint(
     request: Request, kbid: str, export_id: str
-) -> Union[StatusResponse, HTTPClientError]:
+) -> StatusResponse | HTTPClientError:
     context = get_app_context(request.app)
     if not await exists_kb(kbid):
         return HTTPClientError(status_code=404, detail="Knowledge Box not found")
@@ -127,7 +127,7 @@ async def get_export_status_endpoint(
 @version(1)
 async def get_import_status_endpoint(
     request: Request, kbid: str, import_id: str
-) -> Union[StatusResponse, HTTPClientError]:
+) -> StatusResponse | HTTPClientError:
     context = get_app_context(request.app)
     if not await exists_kb(kbid):
         return HTTPClientError(status_code=404, detail="Knowledge Box not found")
@@ -137,7 +137,7 @@ async def get_import_status_endpoint(
 async def _get_status(
     context: ApplicationContext, type: str, kbid: str, id: str
-) -> Union[StatusResponse, HTTPClientError]:
+) -> StatusResponse | HTTPClientError:
     if type not in ("export", "import"):
         raise ValueError(f"Incorrect type: {type}")

nucliadb/reader/api/v1/learning_config.py CHANGED Viewed

@@ -17,7 +17,6 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Dict
 from fastapi import Header, Request
 from fastapi_versioning import version
@@ -35,7 +34,7 @@ from nucliadb_utils.settings import is_onprem_nucliadb
     path=f"/{KB_PREFIX}/{{kbid}}/models/{{model_id}}/{{filename:path}}",
     status_code=200,
     summary="Download the Knowledege Box model",
-    description="Download the trained model or any other generated file as a result of a training task on a Knowledge Box.",  # noqa
+    description="Download the trained model or any other generated file as a result of a training task on a Knowledge Box.",
     response_model=None,
     tags=["Models"],
 )
@@ -128,6 +127,27 @@ async def get_schema_for_configuration_updates(
     )
+@api.get(
+    path=f"/{KB_PREFIX}/{{kbid}}/generative_providers",
+    status_code=200,
+    summary="Available models for a knowledge box",
+    description="Get all available models for a knowledge box grouped by provider",
+    response_model=None,
+    tags=["Models"],
+)
+@requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])
+@version(1)
+async def get_models_group_by_providers(
+    request: Request, kbid: str, x_nucliadb_account: str = Header(default="", include_in_schema=False)
+):
+    return await learning_config_proxy(
+        request,
+        "GET",
+        f"/generative_providers/{kbid}",
+        headers={"account-id": x_nucliadb_account},
+    )
 @api.get(
     path=f"/nua/schema",
     status_code=200,
@@ -152,7 +172,7 @@ async def get_schema_for_configuration_creation(
     status_code=200,
     summary="Learning extract strategies",
     description="Get available extract strategies ",
-    response_model=Dict[str, ExtractConfig],
+    response_model=dict[str, ExtractConfig],
     tags=["Extract Strategies"],
 )
 @requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])
@@ -189,7 +209,7 @@ async def get_extract_strategy_from_id(
     status_code=200,
     summary="Learning split strategies",
     description="Get available split strategies ",
-    response_model=Dict[str, SplitConfiguration],
+    response_model=dict[str, SplitConfiguration],
     tags=["Split Strategies"],
 )
 @requires_one([NucliaDBRoles.READER, NucliaDBRoles.MANAGER])

nucliadb/reader/api/v1/resource.py CHANGED Viewed

@@ -17,11 +17,12 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
-from typing import Optional, Union
+from typing import cast
 from fastapi import Header, HTTPException, Query, Request, Response
 from fastapi_versioning import version
+from nucliadb.common import datamanagers
 from nucliadb.common.datamanagers.resources import KB_RESOURCE_SLUG_BASE
 from nucliadb.common.maindb.utils import get_driver
 from nucliadb.common.models_utils import from_proto, to_proto
@@ -58,6 +59,57 @@ from nucliadb_utils.authentication import requires, requires_one
 from nucliadb_utils.utilities import get_audit, get_storage
+@api.head(
+    f"/{KB_PREFIX}/{{kbid}}/{RESOURCE_PREFIX}/{{rid}}",
+    status_code=200,
+    summary="Head Resource (by id)",
+    responses={404: {"description": "Resource does not exist"}},
+    tags=["Resources"],
+)
+@requires(NucliaDBRoles.READER)
+@version(1)
+async def head_resource_by_uuid(
+    request: Request,
+    kbid: str,
+    rid: str,
+):
+    return await head_resource(kbid=kbid, rid=rid)
+@api.head(
+    f"/{KB_PREFIX}/{{kbid}}/{RSLUG_PREFIX}/{{rslug}}",
+    status_code=200,
+    summary="Head Resource (by slug)",
+    responses={404: {"description": "Resource does not exist"}},
+    tags=["Resources"],
+)
+@requires(NucliaDBRoles.READER)
+@version(1)
+async def head_resource_by_slug(
+    request: Request,
+    kbid: str,
+    rslug: str,
+):
+    return await head_resource(kbid=kbid, rslug=rslug)
+async def head_resource(
+    *,
+    kbid: str,
+    rslug: str | None = None,
+    rid: str | None = None,
+) -> None:
+    if all([rslug, rid]) or not any([rslug, rid]):
+        raise ValueError("Either rid or rslug must be provided, but not both")
+    if rid is None:
+        rslug = cast(str, rslug)
+        rid = await datamanagers.atomic.resources.get_resource_uuid_from_slug(kbid=kbid, slug=rslug)
+        if rid is None:
+            raise HTTPException(status_code=404, detail="Resource does not exist")
+    if not await datamanagers.atomic.resources.resource_exists(kbid=kbid, rid=rid):
+        raise HTTPException(status_code=404, detail="Resource does not exist")
 @api.get(
     f"/{KB_PREFIX}/{{kbid}}/resources",
     status_code=200,
@@ -211,8 +263,8 @@ async def get_resource_by_slug(
 async def _get_resource(
     *,
-    rslug: Optional[str] = None,
-    rid: Optional[str] = None,
+    rslug: str | None = None,
+    rid: str | None = None,
     kbid: str,
     show: list[ResourceProperties],
     field_type_filter: list[FieldTypeName],
@@ -269,7 +321,7 @@ async def get_resource_field_rslug_prefix(
     ),
     # not working with latest pydantic/fastapi
     # page: Union[Literal["last", "first"], int] = Query("last"),
-    page: Union[str, int] = Query("last"),
+    page: str | int = Query("last"),
 ) -> Response:
     return await _get_resource_field(
         kbid,
@@ -309,7 +361,7 @@ async def get_resource_field_rid_prefix(
     ),
     # not working with latest pydantic/fastapi
     # page: Union[Literal["last", "first"], int] = Query("last"),
-    page: Union[str, int] = Query("last"),
+    page: str | int = Query("last"),
 ) -> Response:
     return await _get_resource_field(
         kbid,
@@ -328,9 +380,9 @@ async def _get_resource_field(
     field_id: str,
     show: list[ResourceFieldProperties],
     extracted: list[ExtractedDataTypeName],
-    page: Union[str, int],
-    rid: Optional[str] = None,
-    rslug: Optional[str] = None,
+    page: str | int,
+    rid: str | None = None,
+    rslug: str | None = None,
 ) -> Response:
     storage = await get_storage(service_name=SERVICE_NAME)
     driver = get_driver()
@@ -344,7 +396,7 @@ async def _get_resource_field(
             if rid is None:
                 raise HTTPException(status_code=404, detail="Resource does not exist")
-        resource = ORMResource(txn, storage, kb, rid)
+        resource = ORMResource(txn, storage, kbid, rid)
         field = await resource.get_field(field_id, pb_field_id, load=True)
         if field is None:
             raise HTTPException(status_code=404, detail="Knowledge Box does not exist")

nucliadb/reader/api/v1/services.py CHANGED Viewed

@@ -18,9 +18,8 @@
 # along with this program. If not, see <http://www.gnu.org/licenses/>.
 #
 import asyncio
-from typing import Optional, Union
-from fastapi import HTTPException
+from fastapi import HTTPException, Path
 from fastapi.responses import StreamingResponse
 from fastapi_versioning import version
 from google.protobuf.json_format import MessageToDict
@@ -69,7 +68,7 @@ from nucliadb_utils.utilities import get_ingest, get_storage
 @version(1)
 async def get_entities(
     request: Request, kbid: str, show_entities: bool = False
-) -> Union[KnowledgeBoxEntities, HTTPClientError]:
+) -> KnowledgeBoxEntities | HTTPClientError:
     if show_entities:
         return HTTPClientError(
             status_code=400,
@@ -169,7 +168,14 @@ async def get_labelsets(kbid: str) -> KnowledgeBoxLabels:
 )
 @requires(NucliaDBRoles.READER)
 @version(1)
-async def get_labelset_endpoint(request: Request, kbid: str, labelset: str) -> LabelSet:
+async def get_labelset_endpoint(
+    request: Request,
+    kbid: str,
+    labelset: str = Path(
+        title="The ID of the labelset to get. This is a unique identifier that should be used at search time.",
+        examples=["categories", "movie-genres", "document-types"],
+    ),
+) -> LabelSet:
     try:
         return await get_labelset(kbid, labelset)
     except KnowledgeBoxNotFound:
@@ -186,7 +192,7 @@ async def get_labelset(kbid: str, labelset_id: str) -> LabelSet:
     kb_exists = await datamanagers.atomic.kb.exists_kb(kbid=kbid)
     if not kb_exists:
         raise KnowledgeBoxNotFound()
-    labelset: Optional[writer_pb2.LabelSet] = await datamanagers.atomic.labelset.get(
+    labelset: writer_pb2.LabelSet | None = await datamanagers.atomic.labelset.get(
         kbid=kbid, labelset_id=labelset_id
     )
     if labelset is None:
@@ -222,17 +228,15 @@ async def get_custom_synonyms(request: Request, kbid: str):
     f"/{KB_PREFIX}/{{kbid}}/notifications",
     status_code=200,
     summary="Knowledge Box Notifications Stream",
-    description="Provides a stream of activity notifications for the given Knowledge Box. The stream will be automatically closed after 2 minutes.",  # noqa: E501
+    description="Provides a stream of activity notifications for the given Knowledge Box. The stream will be automatically closed after 2 minutes.",
     tags=["Knowledge Box Services"],
-    response_description="Each line of the response is a Base64-encoded JSON object representing a notification. Refer to [the internal documentation](https://github.com/nuclia/nucliadb/blob/main/docs/tutorials/KB_NOTIFICATIONS.md) for a more detailed explanation of each notification type.",  # noqa: E501
+    response_description="Each line of the response is a Base64-encoded JSON object representing a notification. Refer to [the internal documentation](https://github.com/nuclia/nucliadb/blob/main/docs/tutorials/KB_NOTIFICATIONS.md) for a more detailed explanation of each notification type.",
     response_model=None,
     responses={"404": {"description": "Knowledge Box not found"}},
 )
 @requires(NucliaDBRoles.READER)
 @version(1)
-async def notifications_endpoint(
-    request: Request, kbid: str
-) -> Union[StreamingResponse, HTTPClientError]:
+async def notifications_endpoint(request: Request, kbid: str) -> StreamingResponse | HTTPClientError:
     if in_standalone_mode():
         return HTTPClientError(
             status_code=404,
@@ -274,10 +278,10 @@ async def exists_kb(kbid: str) -> bool:
 async def processing_status(
     request: Request,
     kbid: str,
-    cursor: Optional[str] = None,
-    scheduled: Optional[bool] = None,
+    cursor: str | None = None,
+    scheduled: bool | None = None,
     limit: int = 20,
-) -> Union[processing.RequestsResults, HTTPClientError]:
+) -> processing.RequestsResults | HTTPClientError:
     if not await exists_kb(kbid=kbid):
         return HTTPClientError(status_code=404, detail="Knowledge Box not found")
@@ -294,7 +298,7 @@ async def processing_status(
         async def _composition(
             result: processing.RequestsResult,
-        ) -> Optional[processing.RequestsResult]:
+        ) -> processing.RequestsResult | None:
             async with max_simultaneous:
                 resource = await kb.get(result.resource_id)
                 if resource is None:

nucliadb 6.9.1.post5192__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.9.1.post5192py3-none-any.whl → 6.10.0.post5705py3-none-any.whl