PyPI - nucliadb - Versions diffs - 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl - Mend

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (246) hide show

migrations/0023_backfill_pg_catalog.py +8 -4
migrations/0028_extracted_vectors_reference.py +1 -1
migrations/0029_backfill_field_status.py +3 -4
migrations/0032_remove_old_relations.py +2 -3
migrations/0038_backfill_catalog_field_labels.py +8 -4
migrations/0039_backfill_converation_splits_metadata.py +106 -0
migrations/0040_migrate_search_configurations.py +79 -0
migrations/0041_reindex_conversations.py +137 -0
migrations/pg/0010_shards_index.py +34 -0
nucliadb/search/api/v1/resource/utils.py → migrations/pg/0011_catalog_statistics.py +5 -6
migrations/pg/0012_catalog_statistics_undo.py +26 -0
nucliadb/backups/create.py +2 -15
nucliadb/backups/restore.py +4 -15
nucliadb/backups/tasks.py +4 -1
nucliadb/common/back_pressure/cache.py +2 -3
nucliadb/common/back_pressure/materializer.py +7 -13
nucliadb/common/back_pressure/settings.py +6 -6
nucliadb/common/back_pressure/utils.py +1 -0
nucliadb/common/cache.py +9 -9
nucliadb/common/catalog/__init__.py +79 -0
nucliadb/common/catalog/dummy.py +36 -0
nucliadb/common/catalog/interface.py +85 -0
nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} +330 -232
nucliadb/common/catalog/utils.py +56 -0
nucliadb/common/cluster/manager.py +8 -23
nucliadb/common/cluster/rebalance.py +484 -112
nucliadb/common/cluster/rollover.py +36 -9
nucliadb/common/cluster/settings.py +4 -9
nucliadb/common/cluster/utils.py +34 -8
nucliadb/common/context/__init__.py +7 -8
nucliadb/common/context/fastapi.py +1 -2
nucliadb/common/datamanagers/__init__.py +2 -4
nucliadb/common/datamanagers/atomic.py +9 -2
nucliadb/common/datamanagers/cluster.py +1 -2
nucliadb/common/datamanagers/fields.py +3 -4
nucliadb/common/datamanagers/kb.py +6 -6
nucliadb/common/datamanagers/labels.py +2 -3
nucliadb/common/datamanagers/resources.py +10 -33
nucliadb/common/datamanagers/rollover.py +5 -7
nucliadb/common/datamanagers/search_configurations.py +1 -2
nucliadb/common/datamanagers/synonyms.py +1 -2
nucliadb/common/datamanagers/utils.py +4 -4
nucliadb/common/datamanagers/vectorsets.py +4 -4
nucliadb/common/external_index_providers/base.py +32 -5
nucliadb/common/external_index_providers/manager.py +5 -34
nucliadb/common/external_index_providers/settings.py +1 -27
nucliadb/common/filter_expression.py +129 -41
nucliadb/common/http_clients/exceptions.py +8 -0
nucliadb/common/http_clients/processing.py +16 -23
nucliadb/common/http_clients/utils.py +3 -0
nucliadb/common/ids.py +82 -58
nucliadb/common/locking.py +1 -2
nucliadb/common/maindb/driver.py +9 -8
nucliadb/common/maindb/local.py +5 -5
nucliadb/common/maindb/pg.py +9 -8
nucliadb/common/nidx.py +22 -5
nucliadb/common/vector_index_config.py +1 -1
nucliadb/export_import/datamanager.py +4 -3
nucliadb/export_import/exporter.py +11 -19
nucliadb/export_import/importer.py +13 -6
nucliadb/export_import/tasks.py +2 -0
nucliadb/export_import/utils.py +6 -18
nucliadb/health.py +2 -2
nucliadb/ingest/app.py +8 -8
nucliadb/ingest/consumer/consumer.py +8 -10
nucliadb/ingest/consumer/pull.py +10 -8
nucliadb/ingest/consumer/service.py +5 -30
nucliadb/ingest/consumer/shard_creator.py +16 -5
nucliadb/ingest/consumer/utils.py +1 -1
nucliadb/ingest/fields/base.py +37 -49
nucliadb/ingest/fields/conversation.py +55 -9
nucliadb/ingest/fields/exceptions.py +1 -2
nucliadb/ingest/fields/file.py +22 -8
nucliadb/ingest/fields/link.py +7 -7
nucliadb/ingest/fields/text.py +2 -3
nucliadb/ingest/orm/brain_v2.py +89 -57
nucliadb/ingest/orm/broker_message.py +2 -4
nucliadb/ingest/orm/entities.py +10 -209
nucliadb/ingest/orm/index_message.py +128 -113
nucliadb/ingest/orm/knowledgebox.py +91 -59
nucliadb/ingest/orm/processor/auditing.py +1 -3
nucliadb/ingest/orm/processor/data_augmentation.py +1 -2
nucliadb/ingest/orm/processor/processor.py +98 -153
nucliadb/ingest/orm/processor/sequence_manager.py +1 -2
nucliadb/ingest/orm/resource.py +82 -71
nucliadb/ingest/orm/utils.py +1 -1
nucliadb/ingest/partitions.py +12 -1
nucliadb/ingest/processing.py +17 -17
nucliadb/ingest/serialize.py +202 -145
nucliadb/ingest/service/writer.py +15 -114
nucliadb/ingest/settings.py +36 -15
nucliadb/ingest/utils.py +1 -2
nucliadb/learning_proxy.py +23 -26
nucliadb/metrics_exporter.py +20 -6
nucliadb/middleware/__init__.py +82 -1
nucliadb/migrator/datamanager.py +4 -11
nucliadb/migrator/migrator.py +1 -2
nucliadb/migrator/models.py +1 -2
nucliadb/migrator/settings.py +1 -2
nucliadb/models/internal/augment.py +614 -0
nucliadb/models/internal/processing.py +19 -19
nucliadb/openapi.py +2 -2
nucliadb/purge/__init__.py +3 -8
nucliadb/purge/orphan_shards.py +1 -2
nucliadb/reader/__init__.py +5 -0
nucliadb/reader/api/models.py +6 -13
nucliadb/reader/api/v1/download.py +59 -38
nucliadb/reader/api/v1/export_import.py +4 -4
nucliadb/reader/api/v1/knowledgebox.py +37 -9
nucliadb/reader/api/v1/learning_config.py +33 -14
nucliadb/reader/api/v1/resource.py +61 -9
nucliadb/reader/api/v1/services.py +18 -14
nucliadb/reader/app.py +3 -1
nucliadb/reader/reader/notifications.py +1 -2
nucliadb/search/api/v1/__init__.py +3 -0
nucliadb/search/api/v1/ask.py +3 -4
nucliadb/search/api/v1/augment.py +585 -0
nucliadb/search/api/v1/catalog.py +15 -19
nucliadb/search/api/v1/find.py +16 -22
nucliadb/search/api/v1/hydrate.py +328 -0
nucliadb/search/api/v1/knowledgebox.py +1 -2
nucliadb/search/api/v1/predict_proxy.py +1 -2
nucliadb/search/api/v1/resource/ask.py +28 -8
nucliadb/search/api/v1/resource/ingestion_agents.py +5 -6
nucliadb/search/api/v1/resource/search.py +9 -11
nucliadb/search/api/v1/retrieve.py +130 -0
nucliadb/search/api/v1/search.py +28 -32
nucliadb/search/api/v1/suggest.py +11 -14
nucliadb/search/api/v1/summarize.py +1 -2
nucliadb/search/api/v1/utils.py +2 -2
nucliadb/search/app.py +3 -2
nucliadb/search/augmentor/__init__.py +21 -0
nucliadb/search/augmentor/augmentor.py +232 -0
nucliadb/search/augmentor/fields.py +704 -0
nucliadb/search/augmentor/metrics.py +24 -0
nucliadb/search/augmentor/paragraphs.py +334 -0
nucliadb/search/augmentor/resources.py +238 -0
nucliadb/search/augmentor/utils.py +33 -0
nucliadb/search/lifecycle.py +3 -1
nucliadb/search/predict.py +33 -19
nucliadb/search/predict_models.py +8 -9
nucliadb/search/requesters/utils.py +11 -10
nucliadb/search/search/cache.py +19 -42
nucliadb/search/search/chat/ask.py +131 -59
nucliadb/search/search/chat/exceptions.py +3 -5
nucliadb/search/search/chat/fetcher.py +201 -0
nucliadb/search/search/chat/images.py +6 -4
nucliadb/search/search/chat/old_prompt.py +1375 -0
nucliadb/search/search/chat/parser.py +510 -0
nucliadb/search/search/chat/prompt.py +563 -615
nucliadb/search/search/chat/query.py +453 -32
nucliadb/search/search/chat/rpc.py +85 -0
nucliadb/search/search/fetch.py +3 -4
nucliadb/search/search/filters.py +8 -11
nucliadb/search/search/find.py +33 -31
nucliadb/search/search/find_merge.py +124 -331
nucliadb/search/search/graph_strategy.py +14 -12
nucliadb/search/search/hydrator/__init__.py +49 -0
nucliadb/search/search/hydrator/fields.py +217 -0
nucliadb/search/search/hydrator/images.py +130 -0
nucliadb/search/search/hydrator/paragraphs.py +323 -0
nucliadb/search/search/hydrator/resources.py +60 -0
nucliadb/search/search/ingestion_agents.py +5 -5
nucliadb/search/search/merge.py +90 -94
nucliadb/search/search/metrics.py +24 -7
nucliadb/search/search/paragraphs.py +7 -9
nucliadb/search/search/predict_proxy.py +44 -18
nucliadb/search/search/query.py +14 -86
nucliadb/search/search/query_parser/fetcher.py +51 -82
nucliadb/search/search/query_parser/models.py +19 -48
nucliadb/search/search/query_parser/old_filters.py +20 -19
nucliadb/search/search/query_parser/parsers/ask.py +5 -6
nucliadb/search/search/query_parser/parsers/catalog.py +7 -11
nucliadb/search/search/query_parser/parsers/common.py +21 -13
nucliadb/search/search/query_parser/parsers/find.py +6 -29
nucliadb/search/search/query_parser/parsers/graph.py +18 -28
nucliadb/search/search/query_parser/parsers/retrieve.py +207 -0
nucliadb/search/search/query_parser/parsers/search.py +15 -56
nucliadb/search/search/query_parser/parsers/unit_retrieval.py +8 -29
nucliadb/search/search/rank_fusion.py +18 -13
nucliadb/search/search/rerankers.py +6 -7
nucliadb/search/search/retrieval.py +300 -0
nucliadb/search/search/summarize.py +5 -6
nucliadb/search/search/utils.py +3 -4
nucliadb/search/settings.py +1 -2
nucliadb/standalone/api_router.py +1 -1
nucliadb/standalone/app.py +4 -3
nucliadb/standalone/auth.py +5 -6
nucliadb/standalone/lifecycle.py +2 -2
nucliadb/standalone/run.py +5 -4
nucliadb/standalone/settings.py +5 -6
nucliadb/standalone/versions.py +3 -4
nucliadb/tasks/consumer.py +13 -8
nucliadb/tasks/models.py +2 -1
nucliadb/tasks/producer.py +3 -3
nucliadb/tasks/retries.py +8 -7
nucliadb/train/api/utils.py +1 -3
nucliadb/train/api/v1/shards.py +1 -2
nucliadb/train/api/v1/trainset.py +1 -2
nucliadb/train/app.py +1 -1
nucliadb/train/generator.py +4 -4
nucliadb/train/generators/field_classifier.py +2 -2
nucliadb/train/generators/field_streaming.py +6 -6
nucliadb/train/generators/image_classifier.py +2 -2
nucliadb/train/generators/paragraph_classifier.py +2 -2
nucliadb/train/generators/paragraph_streaming.py +2 -2
nucliadb/train/generators/question_answer_streaming.py +2 -2
nucliadb/train/generators/sentence_classifier.py +4 -10
nucliadb/train/generators/token_classifier.py +3 -2
nucliadb/train/generators/utils.py +6 -5
nucliadb/train/nodes.py +3 -3
nucliadb/train/resource.py +6 -8
nucliadb/train/settings.py +3 -4
nucliadb/train/types.py +11 -11
nucliadb/train/upload.py +3 -2
nucliadb/train/uploader.py +1 -2
nucliadb/train/utils.py +1 -2
nucliadb/writer/api/v1/export_import.py +4 -1
nucliadb/writer/api/v1/field.py +15 -14
nucliadb/writer/api/v1/knowledgebox.py +18 -56
nucliadb/writer/api/v1/learning_config.py +5 -4
nucliadb/writer/api/v1/resource.py +9 -20
nucliadb/writer/api/v1/services.py +10 -132
nucliadb/writer/api/v1/upload.py +73 -72
nucliadb/writer/app.py +8 -2
nucliadb/writer/resource/basic.py +12 -15
nucliadb/writer/resource/field.py +43 -5
nucliadb/writer/resource/origin.py +7 -0
nucliadb/writer/settings.py +2 -3
nucliadb/writer/tus/__init__.py +2 -3
nucliadb/writer/tus/azure.py +5 -7
nucliadb/writer/tus/dm.py +3 -3
nucliadb/writer/tus/exceptions.py +3 -4
nucliadb/writer/tus/gcs.py +15 -22
nucliadb/writer/tus/s3.py +2 -3
nucliadb/writer/tus/storage.py +3 -3
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/METADATA +10 -11
nucliadb-6.10.0.post5705.dist-info/RECORD +410 -0
nucliadb/common/datamanagers/entities.py +0 -139
nucliadb/common/external_index_providers/pinecone.py +0 -894
nucliadb/ingest/orm/processor/pgcatalog.py +0 -129
nucliadb/search/search/hydrator.py +0 -197
nucliadb-6.7.2.post4874.dist-info/RECORD +0 -383
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/WHEEL +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/entry_points.txt +0 -0
{nucliadb-6.7.2.post4874.dist-info → nucliadb-6.10.0.post5705.dist-info}/top_level.txt +0 -0

nucliadb/{search/search/pgcatalog.py → common/catalog/pg.py} RENAMED Viewed

@@ -21,116 +21,186 @@
 import logging
 import re
 from collections import defaultdict
-from typing import Any, Literal, Union, cast
+from typing import Any, Literal, cast
 from psycopg import AsyncCursor, sql
 from psycopg.rows import DictRow, dict_row
-from nucliadb.common.maindb.pg import PGDriver
+from typing_extensions import assert_never
+from nucliadb.common.catalog.interface import (
+    Catalog,
+    CatalogExpression,
+    CatalogQuery,
+    CatalogResourceData,
+)
+from nucliadb.common.exceptions import InvalidQueryError
+from nucliadb.common.maindb.driver import Transaction
+from nucliadb.common.maindb.pg import PGDriver, PGTransaction
 from nucliadb.common.maindb.utils import get_driver
-from nucliadb.search.search.query_parser.models import CatalogExpression, CatalogQuery
 from nucliadb_models import search as search_models
-from nucliadb_models.labels import translate_system_to_alias_label
-from nucliadb_models.search import CatalogFacetsRequest, ResourceResult, Resources, SortField, SortOrder
+from nucliadb_models.labels import translate_alias_to_system_label, translate_system_to_alias_label
+from nucliadb_models.search import (
+    CatalogFacetsRequest,
+    ResourceResult,
+    Resources,
+    SortField,
+    SortOrder,
+)
 from nucliadb_telemetry import metrics
-from .filters import translate_label
+write_observer = metrics.Observer("pg_catalog_write", labels={"type": ""})
+search_observer = metrics.Observer("pg_catalog_search", labels={"op": ""})
-observer = metrics.Observer("pg_catalog_search", labels={"op": ""})
 logger = logging.getLogger(__name__)
 SPLIT_REGEX = re.compile(r"\W")
-def _filter_operands(operands: list[CatalogExpression]) -> tuple[list[str], list[CatalogExpression]]:
-    facets = []
-    nonfacets = []
-    for op in operands:
-        if op.facet:
-            facets.append(op.facet)
-        else:
-            nonfacets.append(op)
-    return facets, nonfacets
+def _pg_transaction(txn: Transaction) -> PGTransaction:
+    return cast(PGTransaction, txn)
-def _convert_filter(expr: CatalogExpression, filter_params: dict[str, Any]) -> sql.Composable:
-    if expr.bool_and:
-        return _convert_boolean_op(expr.bool_and, "and", filter_params)
-    elif expr.bool_or:
-        return _convert_boolean_op(expr.bool_or, "or", filter_params)
-    elif expr.bool_not:
-        return sql.SQL("(NOT {})").format(_convert_filter(expr.bool_not, filter_params))
-    elif expr.date:
-        return _convert_date_filter(expr.date, filter_params)
-    elif expr.facet:
-        param_name = f"param{len(filter_params)}"
-        filter_params[param_name] = [expr.facet]
-        if expr.facet == "/n/s/PROCESSED":
-            # Optimization for the most common case, we know PROCESSED is a full label and can use the smaller labels index
-            # This is needed because PROCESSED is present in most catalog entries and PG is unlikely to use any index
-            # for it, falling back to executing the extract_facets function which can be slow
-            return sql.SQL("labels @> {}").format(sql.Placeholder(param_name))
-        else:
-            return sql.SQL("extract_facets(labels) @> {}").format(sql.Placeholder(param_name))
-    elif expr.resource_id:
-        param_name = f"param{len(filter_params)}"
-        filter_params[param_name] = [expr.resource_id]
-        return sql.SQL("rid = {}").format(sql.Placeholder(param_name))
-    else:
-        return sql.SQL("")
+def _pg_driver() -> PGDriver:
+    return cast(PGDriver, get_driver())
-def _convert_boolean_op(
-    operands: list[CatalogExpression],
-    op: Union[Literal["and"], Literal["or"]],
-    filter_params: dict[str, Any],
-) -> sql.Composable:
-    array_op = sql.SQL("@>" if op == "and" else "&&")
-    operands_sql: list[sql.Composable] = []
-    facets, nonfacets = _filter_operands(operands)
-    if facets:
-        param_name = f"param{len(filter_params)}"
-        if facets == ["/n/s/PROCESSED"]:
-            # Optimization for the most common case, we know PROCESSED is a full label and can use the smaller labels index
-            # This is needed because PROCESSED is present in most catalog entries and PG is unlikely to use any index
-            # for it, falling back to executing the extract_facets function which can be slow
-            operands_sql.append(sql.SQL("labels @> {}").format(sql.Placeholder(param_name)))
-        else:
-            operands_sql.append(
-                sql.SQL("extract_facets(labels) {} {}").format(array_op, sql.Placeholder(param_name))
+class PGCatalog(Catalog):
+    @write_observer.wrap({"type": "update"})
+    async def update(self, txn: Transaction, kbid: str, rid: str, data: CatalogResourceData):
+        async with _pg_transaction(txn).connection.cursor() as cur:
+            await cur.execute(
+                """
+                INSERT INTO catalog
+                (kbid, rid, title, created_at, modified_at, labels, slug)
+                VALUES
+                (%(kbid)s, %(rid)s, %(title)s, %(created_at)s, %(modified_at)s, %(labels)s, %(slug)s)
+                ON CONFLICT (kbid, rid) DO UPDATE SET
+                title = excluded.title,
+                created_at = excluded.created_at,
+                modified_at = excluded.modified_at,
+                labels = excluded.labels,
+                slug = excluded.slug""",
+                {
+                    "kbid": kbid,
+                    "rid": rid,
+                    "title": data.title,
+                    "created_at": data.created_at,
+                    "modified_at": data.modified_at,
+                    "labels": data.labels,
+                    "slug": data.slug,
+                },
+            )
+            await cur.execute(
+                "DELETE FROM catalog_facets WHERE kbid = %(kbid)s AND rid = %(rid)s",
+                {
+                    "kbid": kbid,
+                    "rid": rid,
+                },
+            )
+            await cur.execute(
+                "INSERT INTO catalog_facets (kbid, rid, facet) SELECT %(kbid)s AS kbid, %(rid)s AS rid, unnest(%(facets)s::text[]) AS facet",
+                {
+                    "kbid": kbid,
+                    "rid": rid,
+                    "facets": list(extract_facets(data.labels)),
+                },
             )
-        filter_params[param_name] = facets
-    for nonfacet in nonfacets:
-        operands_sql.append(_convert_filter(nonfacet, filter_params))
-    return sql.SQL("({})").format(sql.SQL(f" {op.upper()} ").join(operands_sql))
+    @write_observer.wrap({"type": "delete"})
+    async def delete(self, txn: Transaction, kbid: str, rid: str):
+        async with _pg_transaction(txn).connection.cursor() as cur:
+            await cur.execute(
+                "DELETE FROM catalog where kbid = %(kbid)s AND rid = %(rid)s", {"kbid": kbid, "rid": rid}
+            )
-def _convert_date_filter(date: CatalogExpression.Date, filter_params: dict[str, Any]) -> sql.Composable:
-    if date.since and date.until:
-        since_name = f"param{len(filter_params)}"
-        filter_params[since_name] = date.since
-        until_name = f"param{len(filter_params)}"
-        filter_params[until_name] = date.until
-        return sql.SQL("{field} BETWEEN {since} AND {until}").format(
-            field=sql.Identifier(date.field),
-            since=sql.Placeholder(since_name),
-            until=sql.Placeholder(until_name),
-        )
-    elif date.since:
-        since_name = f"param{len(filter_params)}"
-        filter_params[since_name] = date.since
-        return sql.SQL("{field} > {since}").format(
-            field=sql.Identifier(date.field), since=sql.Placeholder(since_name)
-        )
-    elif date.until:
-        until_name = f"param{len(filter_params)}"
-        filter_params[until_name] = date.until
-        return sql.SQL("{field} < {until}").format(
-            field=sql.Identifier(date.field), until=sql.Placeholder(until_name)
+    @search_observer.wrap({"op": "search"})
+    async def search(self, catalog_query: CatalogQuery) -> Resources:
+        # Prepare SQL query
+        query, query_params = _prepare_query_filters(catalog_query)
+        async with _pg_driver()._get_connection() as conn, conn.cursor(row_factory=dict_row) as cur:
+            facets = {}
+            # Faceted search
+            if catalog_query.faceted:
+                with search_observer({"op": "facets"}):
+                    tmp_facets: dict[str, dict[str, int]] = {
+                        translate_label(f): defaultdict(int) for f in catalog_query.faceted
+                    }
+                    if catalog_query.filters is None:
+                        await _faceted_search_unfiltered(cur, catalog_query, tmp_facets)
+                    else:
+                        await _faceted_search_filtered(
+                            cur, catalog_query, tmp_facets, query, query_params
+                        )
+                    facets = {translate_system_to_alias_label(k): v for k, v in tmp_facets.items()}
+            # Totals
+            with search_observer({"op": "totals"}):
+                await cur.execute(
+                    sql.SQL("SELECT COUNT(*) FROM ({}) fc").format(query),
+                    query_params,
+                )
+                total = (await cur.fetchone())["count"]  # type: ignore
+            # Query
+            with search_observer({"op": "query"}):
+                query, query_params = _prepare_query(catalog_query)
+                await cur.execute(query, query_params)
+                data = await cur.fetchall()
+        return Resources(
+            facets=facets,
+            results=[
+                ResourceResult(
+                    rid=str(r["rid"]).replace("-", ""),
+                    field="title",
+                    field_type="a",
+                    labels=[label for label in r["labels"] if label.startswith("/l/")],
+                    score=0,
+                )
+                for r in data
+            ],
+            query=catalog_query.query.query if catalog_query.query else "",
+            total=total,
+            page_number=catalog_query.page_number,
+            page_size=catalog_query.page_size,
+            next_page=(catalog_query.page_size * catalog_query.page_number + len(data) < total),
+            min_score=0,
         )
-    else:
-        raise ValueError(f"Invalid date operator")
+    @search_observer.wrap({"op": "catalog_facets"})
+    async def facets(self, kbid: str, request: CatalogFacetsRequest) -> dict[str, int]:
+        async with _pg_driver()._get_connection() as conn, conn.cursor() as cur:
+            prefix_filters: list[sql.Composable] = []
+            prefix_params: dict[str, Any] = {}
+            for cnt, prefix in enumerate(request.prefixes):
+                prefix_sql = sql.SQL("facet LIKE {}").format(sql.Placeholder(f"prefix{cnt}"))
+                prefix_params[f"prefix{cnt}"] = f"{prefix.prefix}%"
+                if prefix.depth is not None:
+                    prefix_parts = len(prefix.prefix.split("/"))
+                    depth_sql = sql.SQL("SPLIT_PART(facet, '/', {}) = ''").format(
+                        sql.Placeholder(f"depth{cnt}")
+                    )
+                    prefix_params[f"depth{cnt}"] = prefix_parts + prefix.depth + 1
+                    prefix_sql = sql.SQL("({} AND {})").format(prefix_sql, depth_sql)
+                prefix_filters.append(prefix_sql)
+            filter_sql: sql.Composable
+            if prefix_filters:
+                filter_sql = sql.SQL("AND {}").format(sql.SQL(" OR ").join(prefix_filters))
+            else:
+                filter_sql = sql.SQL("")
+            await cur.execute(
+                sql.SQL(
+                    "SELECT facet, COUNT(*) FROM catalog_facets WHERE kbid = %(kbid)s {} GROUP BY facet"
+                ).format(filter_sql),
+                {"kbid": kbid, **prefix_params},
+            )
+            return {k: v for k, v in await cur.fetchall()}
 def _prepare_query_filters(catalog_query: CatalogQuery) -> tuple[sql.Composable, dict[str, Any]]:
@@ -149,42 +219,16 @@ def _prepare_query_filters(catalog_query: CatalogQuery) -> tuple[sql.Composable,
     )
-def _prepare_query_search(query: search_models.CatalogQuery, params: dict[str, Any]) -> sql.Composable:
-    if query.match == search_models.CatalogQueryMatch.Exact:
-        params["query"] = query.query
-        return sql.SQL("{} = %(query)s").format(sql.Identifier(query.field.value))
-    elif query.match == search_models.CatalogQueryMatch.StartsWith:
-        params["query"] = query.query + "%"
-        if query.field == search_models.CatalogQueryField.Title:
-            # Insensitive search supported by pg_trgm for title
-            return sql.SQL("{} ILIKE %(query)s").format(sql.Identifier(query.field.value))
+def _filter_operands(operands: list[CatalogExpression]) -> tuple[list[str], list[CatalogExpression]]:
+    facets = []
+    nonfacets = []
+    for op in operands:
+        if op.facet:
+            facets.append(op.facet)
         else:
-            # Sensitive search for slug (btree does not support ILIKE and slugs are all lowercase anyway)
-            return sql.SQL("{} LIKE %(query)s").format(sql.Identifier(query.field.value))
-    # The rest of operators only supported by title
-    elif query.match == search_models.CatalogQueryMatch.Words:
-        # This is doing tokenization inside the SQL server (to keep the index updated). We could move it to
-        # the python code at update/query time if it ever becomes a problem but for now, a single regex
-        # executed per query is not a problem.
+            nonfacets.append(op)
-        # Remove zero-length words from the split
-        params["query"] = [word.lower() for word in SPLIT_REGEX.split(query.query) if word]
-        return sql.SQL("regexp_split_to_array(lower(title), '\\W') @> %(query)s")
-    elif query.match == search_models.CatalogQueryMatch.Fuzzy:
-        params["query"] = query.query
-        # Note: the operator is %>, We use %%> for psycopg escaping
-        return sql.SQL("title %%> %(query)s")
-    elif query.match == search_models.CatalogQueryMatch.EndsWith:
-        params["query"] = "%" + query.query
-        return sql.SQL("title ILIKE %(query)s")
-    elif query.match == search_models.CatalogQueryMatch.Contains:
-        params["query"] = "%" + query.query + "%"
-        return sql.SQL("title ILIKE %(query)s")
-    else:  # pragma: nocover
-        # This is a trick so mypy generates an error if this branch can be reached,
-        # that is, if we are missing some ifs
-        _a: int = "a"
-        return sql.SQL("")
+    return facets, nonfacets
 def _prepare_query(catalog_query: CatalogQuery) -> tuple[sql.Composed, dict[str, Any]]:
@@ -219,98 +263,51 @@ def _prepare_query(catalog_query: CatalogQuery) -> tuple[sql.Composed, dict[str,
     return query, filter_params
-def _pg_driver() -> PGDriver:
-    return cast(PGDriver, get_driver())
-@observer.wrap({"op": "search"})
-async def pgcatalog_search(catalog_query: CatalogQuery) -> Resources:
-    # Prepare SQL query
-    query, query_params = _prepare_query_filters(catalog_query)
-    async with _pg_driver()._get_connection() as conn, conn.cursor(row_factory=dict_row) as cur:
-        facets = {}
-        # Faceted search
-        if catalog_query.faceted:
-            with observer({"op": "facets"}):
-                tmp_facets: dict[str, dict[str, int]] = {
-                    translate_label(f): defaultdict(int) for f in catalog_query.faceted
-                }
-                if catalog_query.filters is None:
-                    await _faceted_search_unfiltered(cur, catalog_query, tmp_facets)
-                else:
-                    await _faceted_search_filtered(cur, catalog_query, tmp_facets, query, query_params)
-                facets = {translate_system_to_alias_label(k): v for k, v in tmp_facets.items()}
-        # Totals
-        with observer({"op": "totals"}):
-            await cur.execute(
-                sql.SQL("SELECT COUNT(*) FROM ({}) fc").format(query),
-                query_params,
-            )
-            total = (await cur.fetchone())["count"]  # type: ignore
-        # Query
-        with observer({"op": "query"}):
-            query, query_params = _prepare_query(catalog_query)
-            await cur.execute(query, query_params)
-            data = await cur.fetchall()
-    return Resources(
-        facets=facets,
-        results=[
-            ResourceResult(
-                rid=str(r["rid"]).replace("-", ""),
-                field="title",
-                field_type="a",
-                labels=[label for label in r["labels"] if label.startswith("/l/")],
-                score=0,
-            )
-            for r in data
-        ],
-        query=catalog_query.query.query if catalog_query.query else "",
-        total=total,
-        page_number=catalog_query.page_number,
-        page_size=catalog_query.page_size,
-        next_page=(catalog_query.page_size * catalog_query.page_number + len(data) < total),
-        min_score=0,
-    )
 async def _faceted_search_unfiltered(
     cur: AsyncCursor[DictRow], catalog_query: CatalogQuery, tmp_facets: dict[str, dict[str, int]]
 ):
     facet_params: dict[str, Any] = {}
     facet_sql: sql.Composable
-    if len(tmp_facets) <= 5:
-        # Asking for few facets, strictly filter to what we need in the query
-        prefixes_sql = []
-        for cnt, prefix in enumerate(tmp_facets.keys()):
-            prefixes_sql.append(
-                sql.SQL("(facet LIKE {} AND POSITION('/' IN RIGHT(facet, {})) = 0)").format(
-                    sql.Placeholder(f"facet_{cnt}"), sql.Placeholder(f"facet_len_{cnt}")
+    if list(tmp_facets.keys()) == ["/n/s"]:
+        # Special case when querying only for status. We know the list of possible facets and optimize
+        # by asking for each facet separately which makes better use of the index
+        sqls = []
+        for status in ["PENDING", "PROCESSED", "ERROR", "EMPTY"]:
+            sqls.append(
+                sql.SQL(
+                    "SELECT facet, COUNT(*) FROM catalog_facets WHERE kbid = %(kbid)s AND facet = '/n/s/{}' GROUP BY facet".format(
+                        status
+                    )
                 )
             )
-            facet_params[f"facet_{cnt}"] = f"{prefix}/%"
-            facet_params[f"facet_len_{cnt}"] = -(len(prefix) + 1)
-        facet_sql = sql.SQL("AND {}").format(sql.SQL(" OR ").join(prefixes_sql))
-    elif all((facet.startswith("/l") or facet.startswith("/n/i") for facet in tmp_facets.keys())):
-        # Special case for the catalog query, which can have many facets asked for
-        # Filter for the categories (icon and labels) in the query, filter the rest in the code below
-        facet_sql = sql.SQL("AND (facet LIKE '/l/%%' OR facet like '/n/i/%%')")
+        await cur.execute(sql.SQL(" UNION ").join(sqls), {"kbid": catalog_query.kbid})
     else:
-        # Worst case: ask for all facets and filter here. This is faster than applying lots of filters
-        facet_sql = sql.SQL("")
+        if len(tmp_facets) <= 5:
+            # Asking for few facets, strictly filter to what we need in the query
+            prefixes_sql = []
+            for cnt, prefix in enumerate(tmp_facets.keys()):
+                prefixes_sql.append(
+                    sql.SQL("(facet LIKE {} AND POSITION('/' IN RIGHT(facet, {})) = 0)").format(
+                        sql.Placeholder(f"facet_{cnt}"), sql.Placeholder(f"facet_len_{cnt}")
+                    )
+                )
+                facet_params[f"facet_{cnt}"] = f"{prefix}/%"
+                facet_params[f"facet_len_{cnt}"] = -(len(prefix) + 1)
+            facet_sql = sql.SQL("AND {}").format(sql.SQL(" OR ").join(prefixes_sql))
+        elif all(facet.startswith("/l") or facet.startswith("/n/i") for facet in tmp_facets.keys()):
+            # Special case for the catalog query, which can have many facets asked for
+            # Filter for the categories (icon and labels) in the query, filter the rest in the code below
+            facet_sql = sql.SQL("AND (facet LIKE '/l/%%' OR facet like '/n/i/%%')")
+        else:
+            # Worst case: ask for all facets and filter here. This is faster than applying lots of filters
+            facet_sql = sql.SQL("")
-    await cur.execute(
-        sql.SQL(
-            "SELECT facet, COUNT(*) FROM catalog_facets WHERE kbid = %(kbid)s {} GROUP BY facet"
-        ).format(facet_sql),
-        {"kbid": catalog_query.kbid, **facet_params},
-    )
+        await cur.execute(
+            sql.SQL(
+                "SELECT facet, COUNT(*) FROM catalog_facets WHERE kbid = %(kbid)s {} GROUP BY facet"
+            ).format(facet_sql),
+            {"kbid": catalog_query.kbid, **facet_params},
+        )
     # Only keep the facets we asked for
     for row in await cur.fetchall():
@@ -360,33 +357,134 @@ async def _faceted_search_filtered(
                 tmp_facets[grandparent][translate_system_to_alias_label(parent)] += count
-@observer.wrap({"op": "catalog_facets"})
-async def pgcatalog_facets(kbid: str, request: CatalogFacetsRequest) -> dict[str, int]:
-    async with _pg_driver()._get_connection() as conn, conn.cursor() as cur:
-        prefix_filters: list[sql.Composable] = []
-        prefix_params: dict[str, Any] = {}
-        for cnt, prefix in enumerate(request.prefixes):
-            prefix_sql = sql.SQL("facet LIKE {}").format(sql.Placeholder(f"prefix{cnt}"))
-            prefix_params[f"prefix{cnt}"] = f"{prefix.prefix}%"
-            if prefix.depth is not None:
-                prefix_parts = len(prefix.prefix.split("/"))
-                depth_sql = sql.SQL("SPLIT_PART(facet, '/', {}) = ''").format(
-                    sql.Placeholder(f"depth{cnt}")
-                )
-                prefix_params[f"depth{cnt}"] = prefix_parts + prefix.depth + 1
-                prefix_sql = sql.SQL("({} AND {})").format(prefix_sql, depth_sql)
-            prefix_filters.append(prefix_sql)
+def _prepare_query_search(query: search_models.CatalogQuery, params: dict[str, Any]) -> sql.Composable:
+    if query.match == search_models.CatalogQueryMatch.Exact:
+        params["query"] = query.query
+        return sql.SQL("{} = %(query)s").format(sql.Identifier(query.field.value))
+    elif query.match == search_models.CatalogQueryMatch.StartsWith:
+        params["query"] = query.query + "%"
+        if query.field == search_models.CatalogQueryField.Title:
+            # Insensitive search supported by pg_trgm for title
+            return sql.SQL("{} ILIKE %(query)s").format(sql.Identifier(query.field.value))
+        else:
+            # Sensitive search for slug (btree does not support ILIKE and slugs are all lowercase anyway)
+            return sql.SQL("{} LIKE %(query)s").format(sql.Identifier(query.field.value))
+    # The rest of operators only supported by title
+    elif query.match == search_models.CatalogQueryMatch.Words:
+        # This is doing tokenization inside the SQL server (to keep the index updated). We could move it to
+        # the python code at update/query time if it ever becomes a problem but for now, a single regex
+        # executed per query is not a problem.
+        # Remove zero-length words from the split
+        params["query"] = [word.lower() for word in SPLIT_REGEX.split(query.query) if word]
+        return sql.SQL("regexp_split_to_array(lower(title), '\\W') @> %(query)s")
+    elif query.match == search_models.CatalogQueryMatch.Fuzzy:
+        params["query"] = query.query
+        # Note: the operator is %>, We use %%> for psycopg escaping
+        return sql.SQL("title %%> %(query)s")
+    elif query.match == search_models.CatalogQueryMatch.EndsWith:
+        params["query"] = "%" + query.query
+        return sql.SQL("title ILIKE %(query)s")
+    elif query.match == search_models.CatalogQueryMatch.Contains:
+        params["query"] = "%" + query.query + "%"
+        return sql.SQL("title ILIKE %(query)s")
+    else:  # pragma: no cover
+        assert_never(query.match)
-        filter_sql: sql.Composable
-        if prefix_filters:
-            filter_sql = sql.SQL("AND {}").format(sql.SQL(" OR ").join(prefix_filters))
+def _convert_filter(expr: CatalogExpression, filter_params: dict[str, Any]) -> sql.Composable:
+    if expr.bool_and:
+        return _convert_boolean_op(expr.bool_and, "and", filter_params)
+    elif expr.bool_or:
+        return _convert_boolean_op(expr.bool_or, "or", filter_params)
+    elif expr.bool_not:
+        return sql.SQL("(NOT {})").format(_convert_filter(expr.bool_not, filter_params))
+    elif expr.date:
+        return _convert_date_filter(expr.date, filter_params)
+    elif expr.facet:
+        param_name = f"param{len(filter_params)}"
+        filter_params[param_name] = [expr.facet]
+        if expr.facet == "/n/s/PROCESSED":
+            # Optimization for the most common case, we know PROCESSED is a full label and can use the smaller labels index
+            # This is needed because PROCESSED is present in most catalog entries and PG is unlikely to use any index
+            # for it, falling back to executing the extract_facets function which can be slow
+            return sql.SQL("labels @> {}").format(sql.Placeholder(param_name))
         else:
-            filter_sql = sql.SQL("")
+            return sql.SQL("extract_facets(labels) @> {}").format(sql.Placeholder(param_name))
+    elif expr.resource_id:
+        param_name = f"param{len(filter_params)}"
+        filter_params[param_name] = [expr.resource_id]
+        return sql.SQL("rid = {}").format(sql.Placeholder(param_name))
+    else:
+        return sql.SQL("")
-        await cur.execute(
-            sql.SQL(
-                "SELECT facet, COUNT(*) FROM catalog_facets WHERE kbid = %(kbid)s {} GROUP BY facet"
-            ).format(filter_sql),
-            {"kbid": kbid, **prefix_params},
+def _convert_boolean_op(
+    operands: list[CatalogExpression],
+    op: Literal["and"] | Literal["or"],
+    filter_params: dict[str, Any],
+) -> sql.Composable:
+    array_op = sql.SQL("@>" if op == "and" else "&&")
+    operands_sql: list[sql.Composable] = []
+    facets, nonfacets = _filter_operands(operands)
+    if facets:
+        param_name = f"param{len(filter_params)}"
+        if facets == ["/n/s/PROCESSED"]:
+            # Optimization for the most common case, we know PROCESSED is a full label and can use the smaller labels index
+            # This is needed because PROCESSED is present in most catalog entries and PG is unlikely to use any index
+            # for it, falling back to executing the extract_facets function which can be slow
+            operands_sql.append(sql.SQL("labels @> {}").format(sql.Placeholder(param_name)))
+        else:
+            operands_sql.append(
+                sql.SQL("extract_facets(labels) {} {}").format(array_op, sql.Placeholder(param_name))
+            )
+        filter_params[param_name] = facets
+    for nonfacet in nonfacets:
+        operands_sql.append(_convert_filter(nonfacet, filter_params))
+    return sql.SQL("({})").format(sql.SQL(f" {op.upper()} ").join(operands_sql))
+def _convert_date_filter(date: CatalogExpression.Date, filter_params: dict[str, Any]) -> sql.Composable:
+    if date.since and date.until:
+        since_name = f"param{len(filter_params)}"
+        filter_params[since_name] = date.since
+        until_name = f"param{len(filter_params)}"
+        filter_params[until_name] = date.until
+        return sql.SQL("{field} BETWEEN {since} AND {until}").format(
+            field=sql.Identifier(date.field),
+            since=sql.Placeholder(since_name),
+            until=sql.Placeholder(until_name),
         )
-        return {k: v for k, v in await cur.fetchall()}
+    elif date.since:
+        since_name = f"param{len(filter_params)}"
+        filter_params[since_name] = date.since
+        return sql.SQL("{field} > {since}").format(
+            field=sql.Identifier(date.field), since=sql.Placeholder(since_name)
+        )
+    elif date.until:
+        until_name = f"param{len(filter_params)}"
+        filter_params[until_name] = date.until
+        return sql.SQL("{field} < {until}").format(
+            field=sql.Identifier(date.field), until=sql.Placeholder(until_name)
+        )
+    else:
+        raise ValueError(f"Invalid date operator")
+def translate_label(literal: str) -> str:
+    if len(literal) == 0:
+        raise InvalidQueryError("filters", "Invalid empty label")
+    if literal[0] != "/":
+        raise InvalidQueryError("filters", f"Invalid label. It must start with a `/`: {literal}")
+    return translate_alias_to_system_label(literal)
+def extract_facets(labels: list[str]) -> set[str]:
+    facets = set()
+    for label in labels:
+        parts = label.split("/")
+        facet = ""
+        for part in parts[1:]:
+            facet += f"/{part}"
+            facets.add(facet)
+    return facets

nucliadb 6.7.2.post4874__py3-none-any.whl → 6.10.0.post5705__py3-none-any.whl

nucliadb 6.7.2.post4874py3-none-any.whl → 6.10.0.post5705py3-none-any.whl