PyPI - nucliadb-models - Versions diffs - 6.9.6.post5453__py3-none-any.whl → 6.11.1.post5822__py3-none-any.whl - Mend

nucliadb-models 6.9.6.post5453py3-none-any.whl → 6.11.1.post5822py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (35) hide show

nucliadb_models/agents/ingestion.py +4 -4
nucliadb_models/augment.py +294 -24
nucliadb_models/common.py +57 -57
nucliadb_models/configuration.py +8 -8
nucliadb_models/content_types.py +13 -11
nucliadb_models/conversation.py +25 -26
nucliadb_models/entities.py +17 -18
nucliadb_models/external_index_providers.py +1 -2
nucliadb_models/extracted.py +82 -83
nucliadb_models/file.py +10 -11
nucliadb_models/filters.py +79 -75
nucliadb_models/graph/requests.py +40 -48
nucliadb_models/graph/responses.py +13 -1
nucliadb_models/hydration.py +48 -50
nucliadb_models/internal/predict.py +7 -9
nucliadb_models/internal/shards.py +2 -3
nucliadb_models/labels.py +18 -11
nucliadb_models/link.py +18 -19
nucliadb_models/metadata.py +66 -54
nucliadb_models/notifications.py +3 -3
nucliadb_models/processing.py +1 -2
nucliadb_models/resource.py +85 -102
nucliadb_models/retrieval.py +147 -0
nucliadb_models/search.py +300 -276
nucliadb_models/security.py +2 -3
nucliadb_models/text.py +7 -8
nucliadb_models/trainset.py +1 -2
nucliadb_models/utils.py +2 -3
nucliadb_models/vectors.py +2 -5
nucliadb_models/writer.py +56 -57
{nucliadb_models-6.9.6.post5453.dist-info → nucliadb_models-6.11.1.post5822.dist-info}/METADATA +1 -1
nucliadb_models-6.11.1.post5822.dist-info/RECORD +41 -0
{nucliadb_models-6.9.6.post5453.dist-info → nucliadb_models-6.11.1.post5822.dist-info}/WHEEL +1 -1
nucliadb_models-6.9.6.post5453.dist-info/RECORD +0 -40
{nucliadb_models-6.9.6.post5453.dist-info → nucliadb_models-6.11.1.post5822.dist-info}/top_level.txt +0 -0

nucliadb_models/content_types.py CHANGED Viewed

@@ -14,7 +14,6 @@
 import mimetypes
-from typing import Optional
 GENERIC_MIME_TYPE = "application/generic"
@@ -26,7 +25,9 @@ NUCLIA_CUSTOM_CONTENT_TYPES = {
 EXTRA_VALID_CONTENT_TYPES = {
     "application/font-woff",
+    "application/javascript",
     "application/mp4",
+    "application/rtf",
     "application/toml",
     "application/vnd.jgraph.mxfile",
     "application/vnd.ms-excel.sheet.macroenabled.12",
@@ -38,6 +39,7 @@ EXTRA_VALID_CONTENT_TYPES = {
     "application/x-git",
     "application/x-gzip",
     "application/x-iwork-pages-sffpages",
+    "application/x-javascript",
     "application/x-mach-binary",
     "application/x-mobipocket-ebook",
     "application/x-ms-shortcut",
@@ -46,10 +48,15 @@ EXTRA_VALID_CONTENT_TYPES = {
     "application/x-openscad",
     "application/x-sql",
     "application/x-zip-compressed",
+    "application/x-zip",
     "application/zstd",
+    "audio/m4a",
     "audio/vnd.dlna.adts",
     "audio/wav",
     "audio/x-m4a",
+    "image/svg+xml",
+    "image/tif",
+    "image/x-ico",
     "model/stl",
     "multipart/form-data",
     "text/jsx",
@@ -58,26 +65,21 @@ EXTRA_VALID_CONTENT_TYPES = {
     "text/rtf",
     "text/x-c++",
     "text/x-java-source",
+    "text/x-javascript",
     "text/x-log",
     "text/x-python-script",
     "text/x-ruby-script",
     "text/yaml",
-    "video/x-m4v",
-    "video/YouTube",
-    "image/tif",
+    "video/mkv",
     "video/qt",
     "video/webp",
-    "application/rtf",
-    "application/x-zip",
-    "video/mkv",
-    "image/x-ico",
-    "audio/m4a",
-    "image/svg+xml",
+    "video/x-m4v",
     "video/x-msvideo",
+    "video/YouTube",
 } | NUCLIA_CUSTOM_CONTENT_TYPES
-def guess(filename: str) -> Optional[str]:
+def guess(filename: str) -> str | None:
     """
     Guess the content type of a file based on its filename.
     Returns None if the content type could not be guessed.

nucliadb_models/conversation.py CHANGED Viewed

@@ -14,7 +14,6 @@
 #
 from datetime import datetime
 from enum import Enum
-from typing import List, Optional
 from pydantic import BaseModel, Field, field_validator
@@ -37,10 +36,10 @@ class MessageFormat(Enum):
 class MessageContent(BaseModel):
-    text: Optional[str] = None
-    format: Optional[MessageFormat] = None
-    attachments: Optional[List[CloudLink]] = None
-    attachments_fields: List[FieldRef] = []
+    text: str | None = None
+    format: MessageFormat | None = None
+    attachments: list[CloudLink] | None = None
+    attachments_fields: list[FieldRef] = []
 class MessageType(Enum):
@@ -50,12 +49,12 @@ class MessageType(Enum):
 class Message(BaseModel):
-    timestamp: Optional[DateTime] = None
-    who: Optional[str] = None
-    to: Optional[List[str]] = []
+    timestamp: DateTime | None = None
+    who: str | None = None
+    to: list[str] | None = []
     content: MessageContent
-    ident: Optional[str] = None
-    type_: Optional[MessageType] = Field(None, alias="type")
+    ident: str | None = None
+    type_: MessageType | None = Field(None, alias="type")
 class Conversation(BaseModel):
@@ -64,7 +63,7 @@ class Conversation(BaseModel):
     a conversation in the field level.
     """
-    messages: Optional[List[Message]] = []
+    messages: list[Message] | None = []
 class FieldConversation(BaseModel):
@@ -75,11 +74,11 @@ class FieldConversation(BaseModel):
     This class is used mainly when exposing a conversation in the resource level
     """
-    pages: Optional[int] = None
-    size: Optional[int] = None
-    total: Optional[int] = None
-    extract_strategy: Optional[str] = None
-    split_strategy: Optional[str] = None
+    pages: int | None = None
+    size: int | None = None
+    total: int | None = None
+    extract_strategy: str | None = None
+    split_strategy: str | None = None
 # Creation and update classes (Those used on writer endpoints)
@@ -88,18 +87,18 @@ class FieldConversation(BaseModel):
 class InputMessageContent(BaseModel):
     text: str = Field()
     format: MessageFormat = MessageFormat.PLAIN
-    attachments: List[FileB64] = Field(default=[], max_length=50)
-    attachments_fields: List[FieldRef] = Field(default=[], max_length=50)
+    attachments: list[FileB64] = Field(default=[], max_length=50)
+    attachments_fields: list[FieldRef] = Field(default=[], max_length=50)
 class InputMessage(BaseModel):
-    timestamp: Optional[datetime] = Field(
+    timestamp: datetime | None = Field(
         default=None, description="Time at which the message was sent, in ISO 8601 format."
     )
-    who: Optional[str] = Field(
+    who: str | None = Field(
         default=None, description="Sender of the message, e.g. 'user' or 'assistant'"
     )
-    to: List[str] = Field(
+    to: list[str] = Field(
         default_factory=list,
         description="List of recipients of the message, e.g. ['assistant'] or ['user']",
         max_length=100,
@@ -109,7 +108,7 @@ class InputMessage(BaseModel):
         description="Unique identifier for the message. Must be unique within the conversation.",
         max_length=128,
     )
-    type_: Optional[MessageType] = Field(None, alias="type")
+    type_: MessageType | None = Field(None, alias="type")
     @field_validator("ident", mode="after")
     @classmethod
@@ -126,22 +125,22 @@ class InputMessage(BaseModel):
 class InputConversationField(BaseModel):
-    messages: List[InputMessage] = Field(
+    messages: list[InputMessage] = Field(
         default_factory=list,
         description="List of messages in the conversation field. Each message must have a unique ident. A single conversation can contain up to 51,200 messages. You can add up to 2,048 messages per request.",
     )
-    extract_strategy: Optional[str] = Field(
+    extract_strategy: str | None = Field(
         default=None,
         description="Id of the Nuclia extract strategy used at processing time. If not set, the default strategy was used. Extract strategies are defined at the learning configuration api.",
     )
-    split_strategy: Optional[str] = Field(
+    split_strategy: str | None = Field(
         default=None,
         description="Id of the Nuclia split strategy used at processing time. If not set, the default strategy was used. Split strategies are defined at the learning configuration api.",
     )
     @field_validator("messages", mode="after")
     @classmethod
-    def idents_are_unique(cls, value: List[InputMessage]) -> List[InputMessage]:
+    def idents_are_unique(cls, value: list[InputMessage]) -> list[InputMessage]:
         seen_idents = set()
         for message in value:
             if message.ident in seen_idents:

nucliadb_models/entities.py CHANGED Viewed

@@ -13,7 +13,6 @@
 # limitations under the License.
 #
-from typing import Dict, List, Optional
 from pydantic import BaseModel, Field
@@ -21,50 +20,50 @@ from pydantic import BaseModel, Field
 class Entity(BaseModel):
     value: str
     merged: bool = False
-    represents: List[str] = []
+    represents: list[str] = []
 class EntitiesGroupSummary(BaseModel):
-    title: Optional[str] = Field(default=None, description="Title of the entities group")
-    color: Optional[str] = Field(
+    title: str | None = Field(default=None, description="Title of the entities group")
+    color: str | None = Field(
         default=None,
         description="Color of the entities group. This is for display purposes only.",
     )
     custom: bool = Field(default=False, description="Denotes if it has been created by the user")
-    entities: Dict[str, Entity] = Field(
+    entities: dict[str, Entity] = Field(
         default={},
         title="[Deprecated] Entities in the group",
-        description="This field is deprecated and will be removed in future versions. It will always be empty. Use the /api/v1/kb/{kbid}/entitiesgroup/{group} endpoint to get the entities of a group.",  # noqa: E501
+        description="This field is deprecated and will be removed in future versions. It will always be empty. Use the /api/v1/kb/{kbid}/entitiesgroup/{group} endpoint to get the entities of a group.",
     )
 class EntitiesGroup(BaseModel):
-    title: Optional[str] = Field(default=None, description="Title of the entities group")
-    color: Optional[str] = Field(
+    title: str | None = Field(default=None, description="Title of the entities group")
+    color: str | None = Field(
         default=None,
         description="Color of the entities group. This is for display purposes only.",
     )
     custom: bool = Field(default=False, description="Denotes if it has been created by the user")
-    entities: Dict[str, Entity] = {}
+    entities: dict[str, Entity] = {}
 class KnowledgeBoxEntities(BaseModel):
     uuid: str
-    groups: Dict[str, EntitiesGroupSummary] = {}
+    groups: dict[str, EntitiesGroupSummary] = {}
 class CreateEntitiesGroupPayload(BaseModel):
     group: str
-    entities: Dict[str, Entity] = {}
-    title: Optional[str] = None
-    color: Optional[str] = None
+    entities: dict[str, Entity] = {}
+    title: str | None = None
+    color: str | None = None
 class UpdateEntitiesGroupPayload(BaseModel):
-    title: Optional[str] = None
-    color: Optional[str] = None
+    title: str | None = None
+    color: str | None = None
-    add: Dict[str, Entity] = {}
-    update: Dict[str, Entity] = {}
-    delete: List[str] = []
+    add: dict[str, Entity] = {}
+    update: dict[str, Entity] = {}
+    delete: list[str] = []

nucliadb_models/external_index_providers.py CHANGED Viewed

@@ -14,7 +14,6 @@
 #
 from enum import Enum
-from typing import Union
 from pydantic import BaseModel
@@ -36,4 +35,4 @@ class DummyIndexProvider(ExternalIndexProviderBase):
     type: ExternalIndexProviderType = ExternalIndexProviderType.UNSET
-ExternalIndexProvider = Union[DummyIndexProvider,]
+ExternalIndexProvider = DummyIndexProvider

nucliadb_models/extracted.py CHANGED Viewed

@@ -13,9 +13,8 @@
 # limitations under the License.
 #
 from datetime import datetime
-from typing import Dict, List, Optional
-from pydantic import BaseModel
+from pydantic import BaseModel, Field
 from .common import (
     Classification,
@@ -27,27 +26,27 @@ from .metadata import Relation
 class ExtractedText(BaseModel):
-    text: Optional[str] = None
-    split_text: Optional[Dict[str, str]] = None
-    deleted_splits: Optional[List[str]] = None
+    text: str | None = None
+    split_text: dict[str, str] | None = None
+    deleted_splits: list[str] | None = None
 class Vector(BaseModel):
-    start: Optional[int] = None
-    end: Optional[int] = None
-    start_paragraph: Optional[int] = None
-    end_paragraph: Optional[int] = None
-    vector: Optional[List[float]] = None
+    start: int | None = None
+    end: int | None = None
+    start_paragraph: int | None = None
+    end_paragraph: int | None = None
+    vector: list[float] | None = None
 class Vectors(BaseModel):
-    vectors: Optional[List[Vector]] = None
+    vectors: list[Vector] | None = None
 class VectorObject(BaseModel):
-    vectors: Optional[Vectors] = None
-    split_vectors: Optional[Dict[str, Vectors]] = None
-    deleted_splits: Optional[List[str]] = None
+    vectors: Vectors | None = None
+    split_vectors: dict[str, Vectors] | None = None
+    deleted_splits: list[str] | None = None
 class Position(BaseModel):
@@ -56,14 +55,14 @@ class Position(BaseModel):
 class Positions(BaseModel):
-    position: List[Position]
+    position: list[Position]
     entity: str
 class FieldEntity(BaseModel):
     text: str
     label: str
-    positions: List[Position]
+    positions: list[Position]
 class FieldEntities(BaseModel):
@@ -71,91 +70,91 @@ class FieldEntities(BaseModel):
     Wrapper for the entities extracted from a field (required because protobuf doesn't support lists of lists)
     """
-    entities: List[FieldEntity]
+    entities: list[FieldEntity]
 class FieldMetadata(BaseModel):
-    links: List[str]
-    paragraphs: List[Paragraph]
-    ner: Dict[str, str]  # TODO: Remove once processor doesn't use this anymore
-    entities: Dict[str, FieldEntities]
-    classifications: List[Classification]
-    last_index: Optional[datetime] = None
-    last_understanding: Optional[datetime] = None
-    last_extract: Optional[datetime] = None
-    last_summary: Optional[datetime] = None
-    last_processing_start: Optional[datetime] = None
-    thumbnail: Optional[CloudLink] = None
-    language: Optional[str] = None
-    summary: Optional[str] = None
-    positions: Dict[str, Positions]  # TODO: Remove once processor doesn't use this anymore
-    relations: Optional[List[Relation]] = None
-    mime_type: Optional[str] = None
+    links: list[str]
+    paragraphs: list[Paragraph]
+    ner: dict[str, str]  # TODO: Remove once processor doesn't use this anymore
+    entities: dict[str, FieldEntities]
+    classifications: list[Classification]
+    last_index: datetime | None = None
+    last_understanding: datetime | None = None
+    last_extract: datetime | None = None
+    last_summary: datetime | None = None
+    last_processing_start: datetime | None = None
+    thumbnail: CloudLink | None = None
+    language: str | None = None
+    summary: str | None = None
+    positions: dict[str, Positions]  # TODO: Remove once processor doesn't use this anymore
+    relations: list[Relation] | None = None
+    mime_type: str | None = None
 class FieldComputedMetadata(BaseModel):
     metadata: FieldMetadata
-    split_metadata: Optional[Dict[str, FieldMetadata]] = None
-    deleted_splits: Optional[List[str]] = None
+    split_metadata: dict[str, FieldMetadata] | None = None
+    deleted_splits: list[str] | None = None
 class Entity(BaseModel):
-    token: Optional[str] = None
-    root: Optional[str] = None
-    type: Optional[str] = None
+    token: str | None = None
+    root: str | None = None
+    type: str | None = None
 class FieldLargeMetadata(BaseModel):
-    entities: Optional[List[Entity]] = None
-    tokens: Optional[Dict[str, int]] = None
+    entities: list[Entity] | None = None
+    tokens: dict[str, int] | None = None
 class LargeComputedMetadata(BaseModel):
-    metadata: Optional[FieldLargeMetadata] = None
-    split_metadata: Optional[Dict[str, FieldLargeMetadata]] = None
-    deleted_splits: Optional[List[str]] = None
+    metadata: FieldLargeMetadata | None = None
+    split_metadata: dict[str, FieldLargeMetadata] | None = None
+    deleted_splits: list[str] | None = None
 class LinkExtractedData(BaseModel):
-    date: Optional[datetime] = None
-    language: Optional[str] = None
-    title: Optional[str] = None
-    metadata: Optional[Dict[str, str]] = None
-    link_thumbnail: Optional[CloudLink] = None
-    link_preview: Optional[CloudLink] = None
-    field: Optional[str] = None
-    link_image: Optional[CloudLink] = None
-    description: Optional[str] = None
-    type: Optional[str] = None
-    embed: Optional[str] = None
-    file_generated: Optional[Dict[str, CloudLink]] = None
+    date: datetime | None = None
+    language: str | None = None
+    title: str | None = None
+    metadata: dict[str, str] | None = None
+    link_thumbnail: CloudLink | None = None
+    link_preview: CloudLink | None = None
+    field: str | None = Field(default=None, title="Link Extracted Data Field")
+    link_image: CloudLink | None = None
+    description: str | None = None
+    type: str | None = None
+    embed: str | None = None
+    file_generated: dict[str, CloudLink] | None = None
 class NestedPosition(BaseModel):
-    start: Optional[int] = None
-    end: Optional[int] = None
-    page: Optional[int] = None
+    start: int | None = None
+    end: int | None = None
+    page: int | None = Field(default=None, title="Position Page")
 class NestedListPosition(BaseModel):
-    positions: List[NestedPosition]
+    positions: list[NestedPosition]
 class Row(BaseModel):
-    cell: Optional[List[str]] = None
+    cell: list[str] | None = None
 class Sheet(BaseModel):
-    rows: Optional[List[Row]] = None
+    rows: list[Row] | None = None
 class RowsPreview(BaseModel):
-    sheets: Optional[Dict[str, Sheet]] = None
+    sheets: dict[str, Sheet] | None = None
 class PagePositions(BaseModel):
-    start: Optional[int] = None
-    end: Optional[int] = None
+    start: int | None = None
+    end: int | None = None
 class PageStructurePage(BaseModel):
@@ -174,32 +173,32 @@ class PageStructureToken(BaseModel):
 class PageStructure(BaseModel):
     page: PageStructurePage
-    tokens: List[PageStructureToken]
+    tokens: list[PageStructureToken]
 class FilePages(BaseModel):
-    pages: Optional[List[CloudLink]] = None
-    positions: Optional[List[PagePositions]] = None
-    structures: Optional[List[PageStructure]] = None
+    pages: list[CloudLink] | None = None
+    positions: list[PagePositions] | None = None
+    structures: list[PageStructure] | None = None
 class FileExtractedData(BaseModel):
-    language: Optional[str] = None
-    md5: Optional[str] = None
-    metadata: Optional[Dict[str, str]] = None
-    nested: Optional[Dict[str, str]] = None
-    file_generated: Optional[Dict[str, CloudLink]] = None
-    file_rows_previews: Optional[Dict[str, RowsPreview]] = None
-    file_preview: Optional[CloudLink] = None
-    file_pages_previews: Optional[FilePages] = None
-    file_thumbnail: Optional[CloudLink] = None
-    field: Optional[str] = None
-    icon: Optional[str] = None
-    nested_position: Optional[Dict[str, NestedPosition]] = None
-    nested_list_position: Optional[Dict[str, NestedListPosition]] = None
+    language: str | None = None
+    md5: str | None = None
+    metadata: dict[str, str] | None = None
+    nested: dict[str, str] | None = None
+    file_generated: dict[str, CloudLink] | None = None
+    file_rows_previews: dict[str, RowsPreview] | None = None
+    file_preview: CloudLink | None = None
+    file_pages_previews: FilePages | None = None
+    file_thumbnail: CloudLink | None = None
+    field: str | None = None
+    icon: str | None = None
+    nested_position: dict[str, NestedPosition] | None = None
+    nested_list_position: dict[str, NestedListPosition] | None = None
 class FieldQuestionAnswers(BaseModel):
     question_answers: QuestionAnswers
-    split_question_answers: Optional[Dict[str, QuestionAnswers]] = None
-    deleted_splits: Optional[List[str]] = None
+    split_question_answers: dict[str, QuestionAnswers] | None = None
+    deleted_splits: list[str] | None = None

nucliadb_models/file.py CHANGED Viewed

@@ -13,7 +13,6 @@
 # limitations under the License.
 #
 from datetime import datetime
-from typing import Optional
 from pydantic import BaseModel, Field
@@ -26,16 +25,16 @@ from nucliadb_models.common import CloudLink, File
 class FieldFile(BaseModel):
-    added: Optional[datetime] = None
-    file: Optional[CloudLink] = None
-    language: Optional[str] = None
-    password: Optional[str] = None
+    added: datetime | None = None
+    file: CloudLink | None = None
+    language: str | None = None
+    password: str | None = None
     external: bool = False
-    extract_strategy: Optional[str] = Field(
+    extract_strategy: str | None = Field(
         default=None,
         description="Id of the Nuclia extract strategy used at processing time. If not set, the default strategy was used. Extract strategies are defined at the learning configuration api.",
     )
-    split_strategy: Optional[str] = Field(
+    split_strategy: str | None = Field(
         default=None,
         description="Id of the Nuclia split strategy used at processing time. If not set, the default strategy was used. Split strategies are defined at the learning configuration api.",
     )
@@ -45,14 +44,14 @@ class FieldFile(BaseModel):
 class FileField(BaseModel):
-    language: Optional[str] = None
-    password: Optional[str] = None
+    language: str | None = None
+    password: str | None = None
     file: File
-    extract_strategy: Optional[str] = Field(
+    extract_strategy: str | None = Field(
         default=None,
         description="Id of the Nuclia extract strategy to use at processing time. If not set, the default strategy will be used. Extract strategies are defined at the learning configuration api.",
     )
-    split_strategy: Optional[str] = Field(
+    split_strategy: str | None = Field(
         default=None,
         description="Id of the Nuclia split strategy used at processing time. If not set, the default strategy was used. Split strategies are defined at the learning configuration api.",
     )

nucliadb-models 6.9.6.post5453__py3-none-any.whl → 6.11.1.post5822__py3-none-any.whl

nucliadb-models 6.9.6.post5453py3-none-any.whl → 6.11.1.post5822py3-none-any.whl