PyPI - ckanext-search-tweaks - Versions diffs - 0.4.12__py3-none-any.whl → 0.6.0__py3-none-any.whl - Mend

ckanext-search-tweaks 0.4.12py3-none-any.whl → 0.6.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (36) hide show

ckanext/search_tweaks/query_popularity/score.py ADDED Viewed

@@ -0,0 +1,165 @@
+from __future__ import annotations
+from collections import defaultdict
+from datetime import datetime, timedelta
+import logging
+from hashlib import md5
+from typing import Any, Iterable, cast
+from operator import itemgetter
+from ckan.lib.redis import connect_to_redis
+import ckan.plugins.toolkit as tk
+from redis import Redis
+from . import config
+log = logging.getLogger(__name__)
+connect_to_redis: Any
+class Score:
+    redis: Redis[bytes]
+    date_format = "%Y-%m-%d %H-%M"
+    def __init__(self):
+        self.redis = connect_to_redis()
+        site = tk.config["ckan.site_id"]
+        self.prefix = f"{site}:search_tweaks:qp"
+    def export(self):
+        data: dict[bytes, dict[str, Any]] = {
+            hash: {"query": query, "records": []}
+            for hash, query in self.redis.hgetall(self.trans_key()).items()
+        }
+        for k, v in self.redis.hscan_iter(self.distribution_key()):
+            date_str, q_hash = k.split(b"/", 1)
+            try:
+                date = datetime.strptime(date_str.decode(), self.date_format)
+            except ValueError:
+                continue
+            data[q_hash]["records"].append({"date": date, "count": int(v)})
+        return list(data.values())
+    def save(self, q: str):
+        q = q.strip()
+        q_hash = self.hash(q)
+        if self.is_ignored(q_hash):
+            return
+        if self.is_throttling(q_hash):
+            return
+        self.redis.hset(self.trans_key(), q_hash, q)
+        date_stem = self.format_date_stem(self.now())
+        self.redis.hincrby(self.distribution_key(), f"{date_stem}/{q_hash}", 1)
+    def drop(self, q: str):
+        q_hash = self.hash(q)
+        dk = self.distribution_key()
+        series = self.redis.hscan_iter(dk, f"*/{q_hash}")
+        keys = list(map(itemgetter(0), series))
+        if keys:
+            self.redis.hdel(dk, *keys)
+        self.redis.hdel(self.trans_key(), q_hash)
+        self.redis.zrem(self.score_key(), q_hash)
+    def is_throttling(self, q_hash: str):
+        user = tk.current_user.name
+        throttle_key = f"{self.prefix}:throttle:{user}:{q_hash}"
+        if self.redis.exists(throttle_key):
+            return True
+        self.redis.set(throttle_key, 1, ex=config.throttle())
+        return False
+    def reset(self):
+        keys = self.redis.keys(f"{self.prefix}:*")
+        if keys:
+            self.redis.delete(*keys)
+    def refresh(self):
+        max_age = timedelta(seconds=config.max_age())
+        dk = self.distribution_key()
+        sk = self.score_key()
+        expired_dist: set[bytes] = set()
+        distribution = cast(
+            "Iterable[tuple[bytes, bytes]]",
+            self.redis.hscan_iter(dk),
+        )
+        scores: dict[bytes, float] = defaultdict(float)
+        for k, v in distribution:
+            date_str, q_hash = k.split(b"/", 1)
+            try:
+                date = datetime.strptime(date_str.decode(), self.date_format)
+            except ValueError:
+                log.error("Remove invalid key %s", k)
+                expired_dist.add(k)
+                continue
+            age = self.now() - date
+            if age > max_age:
+                expired_dist.add(k)
+                continue
+            scores[q_hash] += int(v) / (age.seconds // config.obsoletion_period() + 1)
+        if expired_dist:
+            self.redis.hdel(dk, *expired_dist)
+        expired_scores: set[bytes] = set()
+        for k, v in self.redis.zscan_iter(sk):
+            if k not in scores:
+                expired_scores.add(k)
+                continue
+        if scores:
+            self.redis.zadd(sk, cast(Any, scores))
+        if expired_scores:
+            self.redis.zrem(sk, *expired_scores)
+            self.redis.hdel(self.trans_key(), *expired_scores)
+    def hash(self, q: str):
+        return md5(q.encode()).hexdigest()
+    def is_ignored(self, q_hash: str):
+        return self.redis.sismember(self.ignore_key(), q_hash)
+    def ignore(self, q: str):
+        return self.redis.sadd(self.ignore_key(), self.hash(q))
+    def now(self):
+        return datetime.utcnow()
+    def score_key(self):
+        return f"{self.prefix}:score"
+    def trans_key(self):
+        return f"{self.prefix}:trans"
+    def ignore_key(self):
+        return f"{self.prefix}:ignore"
+    def distribution_key(self):
+        return f"{self.prefix}:distribution"
+    def format_date_stem(self, date: datetime):
+        return date.strftime(self.date_format)
+    def stats(self, num: int) -> Iterable[dict[str, Any]]:
+        scores: list[tuple[bytes, float]] = self.redis.zrange(
+            self.score_key(), 0, num - 1, desc=True, withscores=True
+        )
+        trans_key = self.trans_key()
+        for k, v in scores:
+            yield {"query": self.redis.hget(trans_key, k), "score": v}

ckanext/search_tweaks/query_relevance/__init__.py CHANGED Viewed

@@ -1,6 +1,5 @@
 from __future__ import annotations
 import contextlib
-from typing import Optional
 from urllib.parse import urlparse, parse_qs
@@ -14,7 +13,7 @@ from .score import QueryScore, normalize_query
 __all__ = ["QueryScore", "normalize_query", "update_score_by_url"]
-def update_score_by_url(pkg: model.Package, ref: Optional[str] = None) -> bool:
+def update_score_by_url(pkg: model.Package, ref: str | None = None) -> bool:
     """Make given package more relevant for the current search query."""
     if tk.request:
         ref = ref or tk.request.referrer

ckanext/search_tweaks/query_relevance/cli.py CHANGED Viewed

@@ -29,9 +29,7 @@ def import_source(source, date):
         for row in reader:
             pkg = model.Package.get(row["package_id"])
             if not pkg:
-                click.secho(
-                    f"Package {row['package_id']} does not exists", fg="red"
-                )
+                click.secho(f"Package {row['package_id']} does not exists", fg="red")
                 continue
             score = QueryScore(pkg.id, row["search_query"])
             score.reset()
@@ -58,7 +56,7 @@ def export(output):
 def align():
     """Remove old records."""
     rows = QueryScore.get_all()
-    for (id_, query, _) in rows:
+    for id_, query, _ in rows:
         score = QueryScore(id_, query)
         score.align()
@@ -80,9 +78,7 @@ def safe_export(ctx, days, file):
     conn = connect_to_redis()
     uptime = conn.info()["uptime_in_days"]
     if uptime >= days:
-        click.secho(
-            f"Redis runs for {uptime} days. Creating snapshot..", fg="green"
-        )
+        click.secho(f"Redis runs for {uptime} days. Creating snapshot..", fg="green")
         ctx.invoke(export, output=click.File("w")(file))
     else:
         click.secho(

ckanext/search_tweaks/query_relevance/plugin.py CHANGED Viewed

@@ -1,16 +1,15 @@
 from __future__ import annotations
 from string import Template
-from typing import Any, Optional
+from typing import Any
 import ckan.plugins as plugins
 import ckan.plugins.toolkit as tk
-from . import QueryScore, normalize_query, update_score_by_url
-from ..cli import attach_relevance_command
-from ..interfaces import ISearchTweaks
-from .. import feature_disabled
-from . import cli
+from ckanext.search_tweaks import feature_disabled
+from ckanext.search_tweaks.cli import attach_relevance_command
+from ckanext.search_tweaks.interfaces import ISearchTweaks
+from . import QueryScore, cli, normalize_query, update_score_by_url
 CONFIG_BOOST_STRING = "ckanext.search_tweaks.query_relevance.boost_function"
 CONFIG_RELEVANCE_PREFIX = "ckanext.search_tweaks.query_relevance.field_prefix"
@@ -31,12 +30,10 @@ class QueryRelevancePlugin(plugins.SingletonPlugin):
     # IPackageController
-    def before_index(self, pkg_dict):
-        prefix = tk.config.get(
-            CONFIG_RELEVANCE_PREFIX, DEFAULT_RELEVANCE_PREFIX
-        )
+    def before_dataset_index(self, pkg_dict):
+        prefix = tk.config.get(CONFIG_RELEVANCE_PREFIX, DEFAULT_RELEVANCE_PREFIX)
-        for (_, query, score) in QueryScore.get_for(pkg_dict["id"]):
+        for _, query, score in QueryScore.get_for(pkg_dict["id"]):
             query = query.replace(" ", "_")
             pkg_dict[prefix + query] = score
@@ -50,31 +47,28 @@ class QueryRelevancePlugin(plugins.SingletonPlugin):
     # ISearchTweaks
-    def get_search_boost_fn(
-        self, search_params: dict[str, Any]
-    ) -> Optional[str]:
+    def get_search_boost_fn(self, search_params: dict[str, Any]) -> str | None:
         if feature_disabled("query_boost", search_params):
-            return
+            return None
-        prefix = tk.config.get(
-            CONFIG_RELEVANCE_PREFIX, DEFAULT_RELEVANCE_PREFIX
-        )
+        prefix = tk.config.get(CONFIG_RELEVANCE_PREFIX, DEFAULT_RELEVANCE_PREFIX)
         disabled = tk.asbool(
             search_params.get("extras", {}).get(
-                "ext_search_tweaks_disable_relevance", False
-            )
+                "ext_search_tweaks_disable_relevance",
+                False,
+            ),
         )
         if not search_params.get("q") or disabled:
-            return
+            return None
         normalized = normalize_query(search_params["q"]).replace(" ", "_")
         if not normalized:
-            return
+            return None
         field = prefix + normalized
         boost_string = Template(
-            tk.config.get(CONFIG_BOOST_STRING, DEFAULT_BOOST_STRING)
+            tk.config.get(CONFIG_BOOST_STRING, DEFAULT_BOOST_STRING),
         )
         return boost_string.safe_substitute({"field": field})

ckanext/search_tweaks/query_relevance/score.py CHANGED Viewed

@@ -34,7 +34,7 @@ class QueryScore:
         query: str,
         *,
         normalize: bool = True,
-        storage_class: Optional[Type[ScoreStorage]] = None
+        storage_class: Optional[Type[ScoreStorage]] = None,
     ):
         if normalize:
             query = normalize_query(query)

ckanext/search_tweaks/query_relevance/storage.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from __future__ import annotations
 from abc import ABC, abstractclassmethod, abstractmethod
 from datetime import date, timedelta
-from typing import Any, Iterable, Optional, cast, Tuple
+from typing import Any, Iterable, cast, Tuple
 import ckan.plugins.toolkit as tk
 from ckan.lib.redis import connect_to_redis, Redis
@@ -37,7 +37,7 @@ class ScoreStorage(ABC):
     @classmethod
     @abstractclassmethod
-    def scan(cls, id_: Optional[str] = None) -> Iterable[ScanItem]:
+    def scan(cls, id_: str | None = None) -> Iterable[ScanItem]:
         """Get all the scores."""
         ...
@@ -53,11 +53,10 @@ class ScoreStorage(ABC):
     def align(self) -> None:
         """Make some cleanup in order to maintain fast and correct value."""
-        pass
 class RedisScoreStorage(ScoreStorage):
-    _conn: Optional[Redis] = None
+    _conn: Redis | None = None
     @property
     def conn(self):
@@ -109,13 +108,10 @@ class PermanentRedisScoreStorage(RedisScoreStorage):
         return f"{self._common_key_part()}:{self.id}"
     @classmethod
-    def scan(cls, id_: Optional[str] = None) -> Iterable[ScanItem]:
+    def scan(cls, id_: str | None = None) -> Iterable[ScanItem]:
         conn = cls.connect()
         common_key = cls._common_key_part()
-        if id_:
-            pattern = f"{common_key}:{id_}"
-        else:
-            pattern = f"{common_key}:*"
+        pattern = f"{common_key}:{id_}" if id_ else f"{common_key}:*"
         for key in conn.keys(pattern):
             _, row_id = key.rsplit(b":", 1)
             for query, score in conn.hgetall(key).items():
@@ -169,13 +165,10 @@ class DailyRedisScoreStorage(RedisScoreStorage):
         return date.today().isoformat()
     @classmethod
-    def scan(cls, id_: Optional[str] = None) -> Iterable[ScanItem]:
+    def scan(cls, id_: str | None = None) -> Iterable[ScanItem]:
         conn = cls.connect()
         common_key = cls._common_key_part()
-        if id_:
-            pattern = f"{common_key}:{id_}:*"
-        else:
-            pattern = f"{common_key}:*"
+        pattern = f"{common_key}:{id_}:*" if id_ else f"{common_key}:*"
         for key in conn.keys(pattern):
             _, id_, query = key.decode().rsplit(":", 2)
             yield id_, query, cls(id_, query).get()

ckanext/search_tweaks/shared.py ADDED Viewed

@@ -0,0 +1,13 @@
+from __future__ import annotations
+from typing import Any
+import ckan.plugins.toolkit as tk
+def feature_disabled(feature: str, search_params: dict[str, Any]) -> bool:
+    return tk.asbool(
+        search_params.get("extras", {}).get(
+            f"ext_search_tweaks_disable_{feature}",
+            False,
+        ),
+    )

ckanext/search_tweaks/spellcheck/helpers.py CHANGED Viewed

@@ -1,16 +1,12 @@
 from __future__ import annotations
 from functools import total_ordering
-from typing import Any, Optional
+from typing import Any
 import ckan.plugins.toolkit as tk
 from ckan.lib.search.common import make_connection
-from . import (
-    get_spellcheck_params,
-    CONFIG_SHOW_ONLY_MORE,
-    DEFAULT_SHOW_ONLY_MORE,
-)
+from . import CONFIG_SHOW_ONLY_MORE, DEFAULT_SHOW_ONLY_MORE, get_spellcheck_params
 CONFIG_MAX_SUGGESTIONS = "ckanext.search_tweaks.spellcheck.max_suggestions"
 CONFIG_SUGGESTION_FOR_SINGLE = (
@@ -28,7 +24,7 @@ def get_helpers():
 def spellcheck_did_you_mean(
-    q: str, min_hits: int = 0, max_suggestions: int = None
+    q: str, min_hits: int = 0, max_suggestions: int = None,
 ) -> list[str]:
     """Return optimal query that can be used instead of the current one.
@@ -45,20 +41,18 @@ def spellcheck_did_you_mean(
     spellcheck = _do_spellcheck(q)
     show_only_more = tk.asbool(
-        tk.config.get(CONFIG_SHOW_ONLY_MORE, DEFAULT_SHOW_ONLY_MORE)
+        tk.config.get(CONFIG_SHOW_ONLY_MORE, DEFAULT_SHOW_ONLY_MORE),
     )
     if not show_only_more:
         min_hits = -1
     if not max_suggestions:
         max_suggestions = tk.asint(
-            tk.config.get(CONFIG_MAX_SUGGESTIONS, DEFAULT_MAX_SUGGESTIONS)
+            tk.config.get(CONFIG_MAX_SUGGESTIONS, DEFAULT_MAX_SUGGESTIONS),
         )
     use_suggestion_for_single = tk.asbool(
-        tk.config.get(
-            CONFIG_SUGGESTION_FOR_SINGLE, DEFAULT_SUGGESTION_FOR_SINGLE
-        )
+        tk.config.get(CONFIG_SUGGESTION_FOR_SINGLE, DEFAULT_SUGGESTION_FOR_SINGLE),
     )
     terms = q.split()
     if len(terms) == 1 and use_suggestion_for_single:
@@ -66,9 +60,7 @@ def spellcheck_did_you_mean(
         return spellcheck.suggestions.get(terms[0], [])[:max_suggestions]
     collations = [
-        str(c)
-        for c in spellcheck.best_collations(max_suggestions)
-        if min_hits < c
+        str(c) for c in spellcheck.best_collations(max_suggestions) if min_hits < c
     ]
     if len(collations) < max_suggestions:
@@ -79,11 +71,7 @@ def spellcheck_did_you_mean(
         # TODO: check min hits
         new_q = " ".join(
-            [
-                spellcheck.suggestions[w][0]
-                for w in terms
-                if w in spellcheck.suggestions
-            ]
+            [spellcheck.suggestions[w][0] for w in terms if w in spellcheck.suggestions],
         )
         if new_q:
             collations.append(new_q)
@@ -142,13 +130,17 @@ class SpellcheckResult:
     suggestions: dict[str, list[str]]
     def __repr__(self):
-        return f"<Spellcheck(collations={self.collations}, suggestions={self.suggestions})>"
+        return (
+            "<Spellcheck("
+            + f"collations={self.collations}, suggestions={self.suggestions}"
+            + ")>"
+        )
     def __init__(self, collations: list[Any], suggestions: list[Any]):
         self.collations = [Collation(item) for item in collations[1::2]]
         self.suggestions = dict(
-            zip(suggestions[::2], [s["suggestion"] for s in suggestions[1::2]])
+            zip(suggestions[::2], [s["suggestion"] for s in suggestions[1::2]]),
         )
-    def best_collations(self, n: Optional[int] = None) -> list[Collation]:
+    def best_collations(self, n: int | None = None) -> list[Collation]:
         return sorted(self.collations, reverse=True)[:n]

ckanext/search_tweaks/spellcheck/plugin.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import ckan.plugins as p
 import ckan.plugins.toolkit as tk
-from ..cli import attach_main_command
+from ckanext.search_tweaks.cli import attach_main_command
 from . import cli, helpers

ckanext/search_tweaks/tests/query_relevance/test_plugin.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import pytest
 import ckan.model as model
 import ckanext.search_tweaks.query_relevance as relevance
@@ -45,9 +46,7 @@ class TestPathHasScore:
     )
     def test_group_referrer(self, path, has_score, monkeypatch):
         pkg = model.Package(type="dataset")
-        monkeypatch.setattr(
-            model.Group, "get", lambda _: model.Group(name="valid")
-        )
+        monkeypatch.setattr(model.Group, "get", lambda _: model.Group(name="valid"))
         assert relevance._path_has_score_for(path, pkg) is has_score

ckanext/search_tweaks/tests/query_relevance/test_storage.py CHANGED Viewed

@@ -27,7 +27,7 @@ class TestStorages:
         assert sorted(list(storage.scan())) == sorted(
             [
                 ("key", "query", 10),
-            ]
+            ],
         )
         s2 = storage("second key", "second query")
@@ -37,7 +37,7 @@ class TestStorages:
             [
                 ("key", "query", 100),
                 ("second key", "second query", 5),
-            ]
+            ],
         )
         s3 = storage("key", "extra query")
@@ -47,14 +47,14 @@ class TestStorages:
                 ("key", "query", 100),
                 ("key", "extra query", 1),
                 ("second key", "second query", 5),
-            ]
+            ],
         )
         assert sorted(list(storage.scan("key"))) == sorted(
             [
                 ("key", "query", 100),
                 ("key", "extra query", 1),
-            ]
+            ],
         )
     def test_missing_key(self, storage):

ckanext/search_tweaks/tests/spellcheck/test_plugin.py CHANGED Viewed

@@ -6,24 +6,18 @@ from bs4 import BeautifulSoup
 import ckan.plugins as p
 import ckan.plugins.toolkit as tk
 from ckan.tests.factories import Dataset
-from ckanext.search_tweaks.spellcheck import (
-    CONFIG_SHOW_ONLY_MORE,
-    rebuild_dictionary,
-)
+from ckanext.search_tweaks.spellcheck import CONFIG_SHOW_ONLY_MORE, rebuild_dictionary
-@pytest.mark.ckan_config(
-    "ckan.plugins", "search_tweaks search_tweaks_spellcheck"
-)
+@pytest.mark.ckan_config("ckan.plugins", "search_tweaks search_tweaks_spellcheck")
 @pytest.mark.usefixtures("with_plugins")
 class TestSpellcheck:
     def test_plugin_loaded(self):
         assert p.plugin_loaded("search_tweaks_spellcheck")
-@pytest.mark.ckan_config(
-    "ckan.plugins", "search_tweaks search_tweaks_spellcheck"
-)
+@pytest.mark.ckan_config("ckan.plugins", "search_tweaks search_tweaks_spellcheck")
 @pytest.mark.usefixtures("with_plugins", "with_request_context")
 class TestDidYouMeanSnippet:
     def test_empty_without_data(self):
@@ -41,9 +35,7 @@ class TestDidYouMeanSnippet:
 @pytest.mark.ckanext_search_tweaks_modified_schema
-@pytest.mark.ckan_config(
-    "ckan.plugins", "search_tweaks search_tweaks_spellcheck"
-)
+@pytest.mark.ckan_config("ckan.plugins", "search_tweaks search_tweaks_spellcheck")
 @pytest.mark.usefixtures("with_plugins", "clean_db", "clean_index")
 class TestHelper:
     def test_recommendations(self):
@@ -56,7 +48,7 @@ class TestHelper:
         assert helper("do nat touc me") == ["do not touch me"]
         assert helper("pic", 3) == [
-            "pick"
+            "pick",
         ]  # min_hits fucked up because of single-term match
         assert helper("pic", 1) == ["pick"]
@@ -69,7 +61,7 @@ class TestHelper:
         assert helper("pock", 1) == ["pick"]
         assert helper("pick", 3) == [
-            "pock"
+            "pock",
         ]  # min_hits fucked up because of single-term match
         monkeypatch.setitem(ckan_config, CONFIG_SHOW_ONLY_MORE, "off")

ckanext-search-tweaks 0.4.12__py3-none-any.whl → 0.6.0__py3-none-any.whl

ckanext-search-tweaks 0.4.12py3-none-any.whl → 0.6.0py3-none-any.whl