PyPI - ftmq - Versions diffs - 4.1.1__tar.gz → 4.3.2__tar.gz - Mend

ftmq 4.1.1tar.gz → 4.3.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

{ftmq-4.1.1 → ftmq-4.3.2}/PKG-INFO +12 -9
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/__init__.py +1 -1
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/cli.py +81 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/dataset.py +1 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/__init__.py +1 -1
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/base.py +1 -1
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/__init__.py +1 -1
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/dataset.py +143 -15
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/loader.py +13 -5
ftmq-4.3.2/ftmq/store/fragments/store.py +71 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/lake.py +1 -1
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/util.py +80 -12
{ftmq-4.1.1 → ftmq-4.3.2}/pyproject.toml +14 -13
ftmq-4.1.1/ftmq/store/fragments/store.py +0 -43
{ftmq-4.1.1 → ftmq-4.3.2}/LICENSE +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/NOTICE +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/README.md +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/aggregate.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/aggregations.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/enums.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/filters.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/io.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/logging.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/__init__.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/entity.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/mixins.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/stats.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/query.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/similar.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/sql.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/aleph.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/settings.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/utils.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/level.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/memory.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/redis.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/sql.py +0 -0
{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/types.py +0 -0

{ftmq-4.1.1 → ftmq-4.3.2}/PKG-INFO RENAMED Viewed

@@ -1,8 +1,10 @@
-Metadata-Version: 2.3
+Metadata-Version: 2.4
 Name: ftmq
-Version: 4.1.1
+Version: 4.3.2
 Summary: followthemoney query dsl and io helpers
 License: AGPLv3+
+License-File: LICENSE
+License-File: NOTICE
 Author: Simon Wörpel
 Author-email: simon.woerpel@pm.me
 Requires-Python: >=3.11,<4
@@ -19,24 +21,25 @@ Provides-Extra: postgres
 Provides-Extra: redis
 Provides-Extra: sql
 Requires-Dist: alephclient (>=2.6.0,<3.0.0) ; extra == "aleph"
-Requires-Dist: anystore (>=0.3.9,<0.4.0)
+Requires-Dist: anystore (>=0.4.0,<0.5.0)
 Requires-Dist: click (>=8.2.1,<9.0.0)
 Requires-Dist: click-default-group (>=1.2.4,<2.0.0)
-Requires-Dist: deltalake (>=1.1.2,<2.0.0) ; extra == "lake"
-Requires-Dist: duckdb (>=1.3.2,<2.0.0) ; extra == "lake"
+Requires-Dist: deltalake (>=1.2.1,<2.0.0) ; extra == "lake"
+Requires-Dist: duckdb (>=1.4.1,<2.0.0) ; extra == "lake"
 Requires-Dist: fakeredis (>=2.26.2,<3.0.0) ; extra == "redis"
-Requires-Dist: followthemoney (>=4.1.1,<5.0.0)
+Requires-Dist: followthemoney (>=4.3.2,<5.0.0)
 Requires-Dist: furl (>=2.1.4,<3.0.0) ; extra == "aleph"
-Requires-Dist: nomenklatura (>=4.1.0,<5.0.0)
+Requires-Dist: nomenklatura (>=4.1.10,<5.0.0)
 Requires-Dist: orjson (>=3.10.18,<4.0.0)
-Requires-Dist: pandas (>=2.3.1,<3.0.0) ; extra == "lake"
+Requires-Dist: pandas (>=2.3.3,<3.0.0) ; extra == "lake"
 Requires-Dist: plyvel (>=1.5.1,<2.0.0) ; extra == "level"
-Requires-Dist: psycopg2 (>=2.9.10,<3.0.0) ; extra == "postgres"
+Requires-Dist: psycopg[pool] (>=3.2.9,<4.0.0) ; extra == "postgres"
 Requires-Dist: pyarrow (>=21.0.0,<22.0.0) ; extra == "lake"
 Requires-Dist: pycountry (>=24.6.1,<25.0.0)
 Requires-Dist: pydantic (>=2.11.3,<3.0.0)
 Requires-Dist: pyicu (>=2.15.2,<3.0.0)
 Requires-Dist: redis (>=5.2.1,<6.0.0) ; extra == "redis"
+Requires-Dist: rigour (>=1.4.1,<2.0.0)
 Requires-Dist: sqlalchemy (>=2.0.36,<3.0.0) ; extra == "postgres"
 Requires-Dist: sqlalchemy (>=2.0.36,<3.0.0) ; extra == "sql"
 Project-URL: Documentation, https://docs.investigraph.dev/lib/ftmq

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/__init__.py RENAMED Viewed

@@ -2,7 +2,7 @@ from ftmq.io import smart_read_proxies, smart_write_proxies
 from ftmq.query import Query
 from ftmq.util import make_entity
-__version__ = "4.1.1"
+__version__ = "4.3.2"
 __all__ = [
     "smart_read_proxies",
     "smart_write_proxies",

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/cli.py RENAMED Viewed

@@ -1,3 +1,5 @@
+from datetime import datetime
 import click
 from anystore.io import smart_write, smart_write_json, smart_write_model
 from click_default_group import DefaultGroup
@@ -11,6 +13,9 @@ from ftmq.model.dataset import Catalog, Dataset
 from ftmq.model.stats import Collector
 from ftmq.query import Query
 from ftmq.store import get_store
+from ftmq.store.fragments import get_fragments
+from ftmq.store.fragments import get_store as get_fragments_store
+from ftmq.store.fragments.settings import Settings as FragmentsSettings
 from ftmq.util import apply_dataset, parse_unknown_filters
 log = get_logger(__name__)
@@ -311,6 +316,82 @@ def store_iterate(
     smart_write_proxies(output_uri, store.iterate())
+@cli.group()
+def fragments():
+    pass
+fragments_settings = FragmentsSettings()
+@fragments.command("list-datasets")
+@click.option(
+    "-i",
+    "--input-uri",
+    default=fragments_settings.database_uri,
+    show_default=True,
+    help="input file or uri",
+)
+@click.option(
+    "-o", "--output-uri", default="-", show_default=True, help="output file or uri"
+)
+def fragments_list_datasets(
+    input_uri: str = fragments_settings.database_uri,
+    output_uri: str = "-",
+):
+    """
+    List datasets within a fragments store
+    """
+    store = get_fragments_store(input_uri)
+    datasets = [ds.name for ds in store.all()]
+    smart_write(output_uri, "\n".join(datasets).encode() + b"\n")
+@fragments.command("iterate")
+@click.option(
+    "-i",
+    "--input-uri",
+    default=fragments_settings.database_uri,
+    show_default=True,
+    help="fragments store input uri",
+)
+@click.option(
+    "-o", "--output-uri", default="-", show_default=True, help="output file or uri"
+)
+@click.option("-d", "--dataset", required=True, help="Dataset name to iterate")
+@click.option("-s", "--schema", default=None, help="Filter by schema")
+@click.option(
+    "--since",
+    default=None,
+    help="Filter by timestamp (since), ISO format: YYYY-MM-DDTHH:MM:SS",
+)
+@click.option(
+    "--until",
+    default=None,
+    help="Filter by timestamp (until), ISO format: YYYY-MM-DDTHH:MM:SS",
+)
+def fragments_iterate(
+    input_uri: str = fragments_settings.database_uri,
+    output_uri: str = "-",
+    dataset: str = None,
+    schema: str | None = None,
+    since: str | None = None,
+    until: str | None = None,
+):
+    """
+    Iterate all entities from a fragments dataset
+    """
+    fragments = get_fragments(dataset, database_uri=input_uri)
+    # Parse timestamp strings to datetime objects
+    since_dt = datetime.fromisoformat(since) if since else None
+    until_dt = datetime.fromisoformat(until) if until else None
+    smart_write_proxies(
+        output_uri, fragments.iterate(schema=schema, since=since_dt, until=until_dt)
+    )
 @cli.command("aggregate")
 @click.option(
     "-i", "--input-uri", default="-", show_default=True, help="input file or uri"

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/dataset.py RENAMED Viewed

@@ -16,6 +16,7 @@ ContentType = Literal["documents", "structured", "mixed"]
 class Dataset(BaseModel, _DatasetModel):
+    prefix: str | None = None
     maintainer: DataPublisher | None = None
     stats: DatasetStats = DatasetStats()
     git_repo: AnyUrl | None = None

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/__init__.py RENAMED Viewed

@@ -1,7 +1,7 @@
-from functools import cache
 from pathlib import Path
 from urllib.parse import urlparse
+from anystore.functools import weakref_cache as cache
 from anystore.types import Uri
 from followthemoney.dataset.dataset import Dataset
 from nomenklatura import Resolver, settings

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/base.py RENAMED Viewed

@@ -1,7 +1,7 @@
-from functools import cache
 from typing import Generator, Iterable
 from urllib.parse import urlparse
+from anystore.functools import weakref_cache as cache
 from followthemoney import DefaultDataset
 from followthemoney.dataset.dataset import Dataset
 from nomenklatura import store as nk

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/__init__.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from functools import cache
+from anystore.functools import weakref_cache as cache
 from ftmq.store.fragments.dataset import Fragments
 from ftmq.store.fragments.settings import Settings

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/dataset.py RENAMED Viewed

@@ -1,4 +1,5 @@
 import logging
+from contextlib import contextmanager
 from datetime import datetime
 from typing import Generator, Iterable, TypeAlias
@@ -9,6 +10,7 @@ from normality import slugify
 from sqlalchemy import (
     JSON,
     Column,
+    Connection,
     DateTime,
     String,
     Table,
@@ -28,16 +30,42 @@ from ftmq.util import make_dataset
 log = logging.getLogger(__name__)
 UNDEFINED = (OperationalError,)
 try:
-    from psycopg2.errors import UndefinedTable
+    from psycopg.errors import UndefinedTable
     UNDEFINED = (UndefinedTable, *UNDEFINED)
 except ImportError:
-    pass
+    try:
+        from psycopg2.errors import UndefinedTable
+        UNDEFINED = (UndefinedTable, *UNDEFINED)
+    except ImportError:
+        pass
 EntityFragments: TypeAlias = Generator[EntityProxy, None, None]
+@contextmanager
+def disable_timeout(conn: Connection, store):
+    # for long running iterations (e.g. re-index in OpenAleph), for postgres we
+    # don't want to get cancelled if a idle_in_transaction_timeout is configured
+    # on the server
+    if store.is_postgres:
+        raw_conn = conn.connection.driver_connection
+        with raw_conn.cursor() as cursor:
+            cursor.execute("SET idle_in_transaction_session_timeout = 0")
+    try:
+        yield conn
+    finally:
+        if store.is_postgres:
+            try:
+                raw_conn = conn.connection.driver_connection
+                with raw_conn.cursor() as cursor:
+                    cursor.execute("SET idle_in_transaction_session_timeout = DEFAULT")
+            except Exception:
+                pass  # Connection might be closed
 class Fragments(object):
     def __init__(self, store, name, origin=NULL_ORIGIN):
         self.store = store
@@ -104,7 +132,9 @@ class Fragments(object):
     def bulk(self, size=1000):
         return BulkLoader(self, size)
-    def fragments(self, entity_ids=None, fragment=None):
+    def fragments(
+        self, entity_ids=None, fragment=None, schema=None, since=None, until=None
+    ):
         stmt = self.table.select()
         entity_ids = ensure_list(entity_ids)
         if len(entity_ids) == 1:
@@ -113,25 +143,42 @@ class Fragments(object):
             stmt = stmt.where(self.table.c.id.in_(entity_ids))
         if fragment is not None:
             stmt = stmt.where(self.table.c.fragment == fragment)
+        if schema is not None:
+            if self.store.is_postgres:
+                stmt = stmt.where(self.table.c.entity["schema"].astext == schema)
+            else:
+                # SQLite JSON support - use json_extract function
+                stmt = stmt.where(
+                    func.json_extract(self.table.c.entity, "$.schema") == schema
+                )
+        if since is not None:
+            stmt = stmt.where(self.table.c.timestamp >= since)
+        if until is not None:
+            stmt = stmt.where(self.table.c.timestamp <= until)
         stmt = stmt.order_by(self.table.c.id)
         # stmt = stmt.order_by(self.table.c.origin)
         # stmt = stmt.order_by(self.table.c.fragment)
         conn = self.store.engine.connect()
         try:
-            conn = conn.execution_options(stream_results=True)
-            for ent in conn.execute(stmt):
-                data = {"id": ent.id, "datasets": [self.name], **ent.entity}
-                if ent.origin != NULL_ORIGIN:
-                    data["origin"] = ent.origin
-                yield data
+            with disable_timeout(conn, self.store) as conn:
+                conn = conn.execution_options(stream_results=True)
+                for ent in conn.execute(stmt):
+                    data = {"id": ent.id, "datasets": [self.name], **ent.entity}
+                    if ent.origin != NULL_ORIGIN:
+                        data["origin"] = ent.origin
+                    yield data
         except Exception:
             self.reset()
             raise
         finally:
             conn.close()
-    def partials(self, entity_id=None, skip_errors=False) -> EntityFragments:
-        for fragment in self.fragments(entity_ids=entity_id):
+    def partials(
+        self, entity_id=None, skip_errors=False, schema=None, since=None, until=None
+    ) -> EntityFragments:
+        for fragment in self.fragments(
+            entity_ids=entity_id, schema=schema, since=since, until=until
+        ):
             try:
                 yield EntityProxy.from_dict(fragment, cleaned=True)
             except Exception:
@@ -140,18 +187,32 @@ class Fragments(object):
                     continue
                 raise
-    def iterate(self, entity_id=None, skip_errors=False) -> EntityFragments:
+    def iterate(
+        self, entity_id=None, skip_errors=False, schema=None, since=None, until=None
+    ) -> EntityFragments:
+        if entity_id is None:
+            log.info("Using batched iteration for complete dataset.")
+            yield from self.iterate_batched(
+                skip_errors=skip_errors, schema=schema, since=since, until=until
+            )
+            return
         entity = None
         invalid = None
         fragments = 1
-        for partial in self.partials(entity_id=entity_id, skip_errors=skip_errors):
+        for partial in self.partials(
+            entity_id=entity_id,
+            skip_errors=skip_errors,
+            schema=schema,
+            since=since,
+            until=until,
+        ):
             if partial.id == invalid:
                 continue
             if entity is not None:
                 if entity.id == partial.id:
                     fragments += 1
                     if fragments % 10000 == 0:
-                        log.debug(
+                        log.warning(
                             "[%s:%s] aggregated %d fragments...",
                             entity.schema.name,
                             entity.id,
@@ -176,11 +237,76 @@ class Fragments(object):
         if entity is not None:
             yield entity
+    def iterate_batched(
+        self, skip_errors=False, batch_size=10_000, schema=None, since=None, until=None
+    ) -> EntityFragments:
+        """
+        For large datasets an overall sort is not feasible, so we iterate in
+        sorted batched IDs.
+        """
+        for entity_ids in self.get_sorted_id_batches(
+            batch_size, schema=schema, since=since, until=until
+        ):
+            yield from self.iterate(
+                entity_id=entity_ids,
+                skip_errors=skip_errors,
+                schema=schema,
+                since=since,
+                until=until,
+            )
+    def get_sorted_id_batches(
+        self, batch_size=10_000, schema=None, since=None, until=None
+    ) -> Generator[list[str], None, None]:
+        """
+        Get sorted ID batches to speed up iteration and useful to parallelize
+        processing of iterator Entities
+        """
+        last_id = None
+        with self.store.engine.connect() as conn:
+            while True:
+                stmt = select(self.table.c.id).distinct()
+                if last_id is not None:
+                    stmt = stmt.where(self.table.c.id > last_id)
+                if schema is not None:
+                    if self.store.is_postgres:
+                        stmt = stmt.where(
+                            self.table.c.entity["schema"].astext == schema
+                        )
+                    else:
+                        # SQLite JSON support - use json_extract function
+                        stmt = stmt.where(
+                            func.json_extract(self.table.c.entity, "$.schema") == schema
+                        )
+                if since is not None:
+                    stmt = stmt.where(self.table.c.timestamp >= since)
+                if until is not None:
+                    stmt = stmt.where(self.table.c.timestamp <= until)
+                stmt = stmt.order_by(self.table.c.id).limit(batch_size)
+                try:
+                    res = conn.execute(stmt)
+                    entity_ids = [r.id for r in res.fetchall()]
+                    if not entity_ids:
+                        return
+                    yield entity_ids
+                    last_id = entity_ids[-1]
+                except Exception:
+                    self.reset()
+                    raise
+    def get_sorted_ids(
+        self, batch_size=10_000, schema=None, since=None, until=None
+    ) -> Generator[str, None, None]:
+        """Get sorted IDs, optionally filtered by schema"""
+        for batch in self.get_sorted_id_batches(batch_size, schema, since, until):
+            yield from batch
     def statements(
         self,
         entity_ids: Iterable[str] | None = None,
         origin: str | None = None,
         since: datetime | None = None,
+        until: datetime | None = None,
     ) -> Statements:
         """Iterate unsorted statements with its fragment origins"""
         stmt = self.table.select()
@@ -192,7 +318,9 @@ class Fragments(object):
         if origin is not None:
             stmt = stmt.where(self.table.c.origin == origin)
         if since is not None:
-            stmt = stmt.where(self.table.c.timestamp > since)
+            stmt = stmt.where(self.table.c.timestamp >= since)
+        if until is not None:
+            stmt = stmt.where(self.table.c.timestamp <= until)
         conn = self.store.engine.connect()
         default_dataset = make_dataset(self.name)
         try:

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/loader.py RENAMED Viewed

@@ -26,11 +26,16 @@ EXCEPTIONS = (
     TimeoutError,
 )
 try:
-    from psycopg2 import DatabaseError, OperationalError
+    from psycopg import DatabaseError, OperationalError
     EXCEPTIONS = (DatabaseError, OperationalError, *EXCEPTIONS)
 except ImportError:
-    pass
+    try:
+        from psycopg2 import DatabaseError, OperationalError
+        EXCEPTIONS = (DatabaseError, OperationalError, *EXCEPTIONS)
+    except ImportError:
+        pass
 log = logging.getLogger(__name__)
@@ -50,9 +55,12 @@ class BulkLoader(object):
         else:
             entity = dict(entity)
         id_ = entity.pop("id")
-        self.buffer[(id_, origin, fragment)] = entity
-        if len(self.buffer) >= self.size:
-            self.flush()
+        if id_:
+            self.buffer[(id_, origin, fragment)] = entity
+            if len(self.buffer) >= self.size:
+                self.flush()
+        else:
+            log.warning("Entity has no ID!")
     def _store_values(self, conn, values):
         table = self.dataset.table

ftmq-4.3.2/ftmq/store/fragments/store.py ADDED Viewed

@@ -0,0 +1,71 @@
+from sqlalchemy import MetaData, create_engine
+from sqlalchemy import inspect as sqlalchemy_inspect
+from ftmq.store.fragments.dataset import Fragments
+from ftmq.store.fragments.utils import NULL_ORIGIN
+class Store(object):
+    """A database containing multiple tables that represent
+    FtM-store datasets."""
+    PREFIX = "ftm"
+    def _adjust_psycopg3_uri(self, database_uri: str) -> str:
+        """Adjust PostgreSQL URI to use psycopg3 dialect if psycopg is available."""
+        if database_uri.startswith(("postgresql://", "postgres://")):
+            try:
+                import psycopg  # noqa: F401
+                # Use psycopg3 dialect for better performance and compatibility
+                if database_uri.startswith("postgresql://"):
+                    return database_uri.replace(
+                        "postgresql://", "postgresql+psycopg://", 1
+                    )
+                elif database_uri.startswith("postgres://"):
+                    return database_uri.replace(
+                        "postgres://", "postgresql+psycopg://", 1
+                    )
+            except ImportError:
+                # Fall back to psycopg2 if psycopg3 is not available
+                pass
+        return database_uri
+    def __init__(
+        self,
+        database_uri: str,
+        **config,
+    ):
+        self.database_uri = self._adjust_psycopg3_uri(database_uri)
+        # Configure connection pooling for psycopg3
+        config.setdefault("pool_size", 1)
+        if self.database_uri.startswith("postgresql+psycopg://"):
+            config.setdefault("max_overflow", 5)
+            config.setdefault("pool_timeout", 60)
+            config.setdefault("pool_recycle", 3600)
+            config.setdefault("pool_pre_ping", True)
+        self.engine = create_engine(self.database_uri, future=True, **config)
+        self.is_postgres = self.engine.dialect.name == "postgresql"
+        self.meta = MetaData()
+    def get(self, name, origin=NULL_ORIGIN):
+        return Fragments(self, name, origin=origin)
+    def all(self, origin=NULL_ORIGIN):
+        prefix = f"{self.PREFIX}_"
+        inspect = sqlalchemy_inspect(self.engine)
+        for table in inspect.get_table_names():
+            if table.startswith(prefix):
+                name = table[len(prefix) :]
+                yield Fragments(self, name, origin=origin)
+    def close(self):
+        self.engine.dispose()
+    def __len__(self):
+        return len(list(self.all()))
+    def __repr__(self):
+        return "<Store(%r)>" % self.engine

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/lake.py RENAMED Viewed

@@ -18,7 +18,6 @@ Layout:
     ```
 """
-from functools import cache
 from pathlib import Path
 from typing import Any, Generator, Iterable
 from urllib.parse import urlparse
@@ -26,6 +25,7 @@ from urllib.parse import urlparse
 import duckdb
 import numpy as np
 import pandas as pd
+from anystore.functools import weakref_cache as cache
 from anystore.lock import Lock
 from anystore.logging import get_logger
 from anystore.store.fs import Store as FSStore

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/util.py RENAMED Viewed

@@ -1,10 +1,11 @@
-from functools import cache, lru_cache
-from typing import Any, Generator, Iterable, Type
+from functools import lru_cache
+from typing import Any, Generator, Type
 import pycountry
-from anystore.types import SDict
+from anystore.functools import weakref_cache as cache
+from anystore.types import SDict, StrGenerator
 from banal import ensure_list, is_listish
-from followthemoney import E
+from followthemoney import E, model
 from followthemoney.compare import _normalize_names
 from followthemoney.dataset import Dataset
 from followthemoney.entity import ValueEntity
@@ -12,7 +13,10 @@ from followthemoney.proxy import EntityProxy
 from followthemoney.schema import Schema
 from followthemoney.types import registry
 from followthemoney.util import make_entity_id, sanitize_text
-from normality import collapse_spaces, slugify
+from normality import latinize_text, slugify, squash_spaces
+from rigour.names import Name, Symbol, tag_org_name, tag_person_name
+from rigour.names.tokenize import normalize_name
+from rigour.text.scripts import can_latinize
 from ftmq.enums import Comparators
 from ftmq.types import Entity
@@ -317,7 +321,7 @@ def clean_string(value: Any) -> str | None:
     value = sanitize_text(value)
     if value is None:
         return
-    return collapse_spaces(value)
+    return squash_spaces(value)
 def clean_name(value: Any) -> str | None:
@@ -377,18 +381,21 @@ def make_fingerprint(value: Any) -> str | None:
 def entity_fingerprints(entity: EntityProxy) -> set[str]:
-    """Get the set of entity name fingerprints"""
-    # FIXME private import
-    return set(_normalize_names(entity.schema, entity.names))
+    """Get the set of entity name fingerprints, latinized if the alphabet allows
+    it and with org / person tags removed depending on entity schema"""
+    return make_fingerprints(*entity.names, schemata={entity.schema})
-def make_fingerprints(schemata: set[Schema], names: Iterable[str]) -> set[str]:
-    """Mimic `fingerprints.generate`"""
+def make_fingerprints(*names: str, schemata: set[Schema] | None = None) -> set[str]:
+    """Get the set of name fingerprints, latinized if the alphabet allows
+    it and with org / person tags removed depending on given schemata"""
     # FIXME private import
+    schemata = schemata or {model["LegalEntity"]}
     fps: set[str] = set()
     for schema in schemata:
         fps.update(set(_normalize_names(schema, names)))
-    return fps
+    # add latinized if appropriate
+    return {latinize_text(fp) if can_latinize(fp) else fp for fp in fps}
 def make_string_id(*values: Any) -> str | None:
@@ -476,3 +483,64 @@ def must_str(value: Any) -> str:
     if not value:
         raise ValueError(f"Value invalid: `{value}`")
     return value
+SELECT_SYMBOLS = "__symbols__"
+SELECT_ANNOTATED = "__annotated__"
+def get_name_symbols(schema: Schema, *names: str) -> set[Symbol]:
+    """Get the rigour names symbols for the given schema and list of names"""
+    symbols: set[Symbol] = set()
+    if schema.is_a("Person"):
+        taggers = [tag_person_name]
+    elif schema.is_a("Organization"):
+        taggers = [tag_org_name]
+    elif schema.is_a("LegalEntity"):
+        taggers = [tag_org_name, tag_person_name]
+    else:
+        return symbols
+    for name in names:
+        n = Name(name)
+        for tagger in taggers:
+            for symbol in tagger(n, normalize_name).symbols:
+                symbols.add(symbol)
+    return symbols
+def get_symbols(entity: EntityProxy) -> set[Symbol]:
+    """Get the rigour names symbols for the given entity"""
+    if not entity.schema.is_a("LegalEntity"):
+        return set()
+    names = entity.get_type_values(registry.name, matchable=True)
+    return get_name_symbols(entity.schema, *names)
+def inline_symbols(entity: EntityProxy) -> None:
+    """Get the rigour names symbols for the given entity and write them to `indexText`"""
+    # clean up old symbols from indexText:
+    for text in entity.pop("indexText"):
+        if not text.startswith(SELECT_SYMBOLS):
+            entity.add("indexText", text)
+    symbols = get_symbols(entity)
+    entity.add("indexText", f"{SELECT_SYMBOLS} {','.join(map(str, symbols))}")
+def select_data(e: EntityProxy, prefix: str) -> StrGenerator:
+    """Select arbitrary stored data in `indexText` identified by given prefix"""
+    for text in e.get("indexText", quiet=True):
+        if text.startswith(prefix):
+            yield text.replace(prefix, "").strip()
+def select_symbols(e: EntityProxy) -> set[str]:
+    """Select stored symbols in `indexText`"""
+    symbols: set[str] = set()
+    for data in select_data(e, SELECT_SYMBOLS):
+        symbols.update(data.split(","))
+    return symbols
+def select_annotations(e: EntityProxy) -> set[str]:
+    """Select stored annotations in `indexText`"""
+    return {s for s in select_data(e, SELECT_ANNOTATED)}

{ftmq-4.1.1 → ftmq-4.3.2}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name = "ftmq"
-version = "4.1.1"
+version = "4.3.2"
 description = "followthemoney query dsl and io helpers"
 authors = [{ name = "Simon Wörpel", email = "simon.woerpel@pm.me" }]
 license = "AGPLv3+"
@@ -15,9 +15,10 @@ classifiers = [
 ]
 requires-python = ">=3.11,<4"
 dependencies = [
-    "anystore (>=0.3.9,<0.4.0)",
-    "followthemoney (>=4.1.1,<5.0.0)",
-    "nomenklatura (>=4.1.0,<5.0.0)",
+    "anystore (>=0.4.0,<0.5.0)",
+    "followthemoney (>=4.3.2,<5.0.0)",
+    "nomenklatura (>=4.1.10,<5.0.0)",
+    "rigour (>=1.4.1,<2.0.0)",
     "click (>=8.2.1,<9.0.0)",
     "click-default-group (>=1.2.4,<2.0.0)",
     "orjson (>=3.10.18,<4.0.0)",
@@ -29,12 +30,12 @@ dependencies = [
 [project.optional-dependencies]
 level = ["plyvel (>=1.5.1,<2.0.0)"]
 sql = ["sqlalchemy (>=2.0.36,<3.0.0)"]
-postgres = ["sqlalchemy (>=2.0.36,<3.0.0)", "psycopg2 (>=2.9.10,<3.0.0)"]
+postgres = ["sqlalchemy (>=2.0.36,<3.0.0)", "psycopg[pool] (>=3.2.9,<4.0.0)"]
 redis = ["redis (>=5.2.1,<6.0.0)", "fakeredis (>=2.26.2,<3.0.0)"]
 lake = [
-    "duckdb (>=1.3.2,<2.0.0)",
-    "pandas (>=2.3.1,<3.0.0)",
-    "deltalake (>=1.1.2,<2.0.0)",
+    "duckdb (>=1.4.1,<2.0.0)",
+    "pandas (>=2.3.3,<3.0.0)",
+    "deltalake (>=1.2.1,<2.0.0)",
     "pyarrow (>=21.0.0,<22.0.0)",
 ]
 aleph = ["furl (>=2.1.4,<3.0.0)", "alephclient (>=2.6.0,<3.0.0)"]
@@ -50,19 +51,19 @@ Issues = "https://github.com/dataresearchcenter/ftmq/issues"
 [tool.poetry.group.dev.dependencies]
 pytest = ">=7.4.3,<9.0.0"
-pytest-cov = ">=4.1,<7.0"
+pytest-cov = ">=4.1,<8.0"
 pytest-env = "^1.1.1"
 black = ">=23.11,<26.0"
-isort = "^6.0.1"
+isort = "^7.0.0"
 mypy = "^1.17.1"
 pre-commit = "^4.0.1"
 flake8 = ">=6.1,<8.0"
 ipdb = "^0.13.13"
 bump2version = "^1.0.1"
 mkdocs = "^1.6.1"
-mkdocstrings-python = "^1.16.10"
-mkdocs-autorefs = "^1.4.1"
-mkdocs-material = "^9.6.16"
+mkdocs-autorefs = "^1.4.3"
+mkdocstrings-python = "^1.18.2"
+mkdocs-material = "^9.6.18"
 mkdocs-click = "^0.9.0"
 [build-system]

ftmq-4.1.1/ftmq/store/fragments/store.py DELETED Viewed

@@ -1,43 +0,0 @@
-from sqlalchemy import MetaData, create_engine
-from sqlalchemy import inspect as sqlalchemy_inspect
-from ftmq.store.fragments.dataset import Fragments
-from ftmq.store.fragments.utils import NULL_ORIGIN
-class Store(object):
-    """A database containing multiple tables that represent
-    FtM-store datasets."""
-    PREFIX = "ftm"
-    def __init__(
-        self,
-        database_uri: str,
-        **config,
-    ):
-        self.database_uri = database_uri
-        # config.setdefault('pool_size', 1)
-        self.engine = create_engine(database_uri, future=True, **config)
-        self.is_postgres = self.engine.dialect.name == "postgresql"
-        self.meta = MetaData()
-    def get(self, name, origin=NULL_ORIGIN):
-        return Fragments(self, name, origin=origin)
-    def all(self, origin=NULL_ORIGIN):
-        prefix = f"{self.PREFIX}_"
-        inspect = sqlalchemy_inspect(self.engine)
-        for table in inspect.get_table_names():
-            if table.startswith(prefix):
-                name = table[len(prefix) :]
-                yield Fragments(self, name, origin=origin)
-    def close(self):
-        self.engine.dispose()
-    def __len__(self):
-        return len(list(self.all()))
-    def __repr__(self):
-        return "<Store(%r)>" % self.engine

{ftmq-4.1.1 → ftmq-4.3.2}/LICENSE RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/NOTICE RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/README.md RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/aggregate.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/aggregations.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/enums.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/filters.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/io.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/logging.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/__init__.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/entity.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/mixins.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/model/stats.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/query.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/similar.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/sql.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/aleph.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/settings.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/fragments/utils.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/level.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/memory.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/redis.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/store/sql.py RENAMED Viewed

File without changes

{ftmq-4.1.1 → ftmq-4.3.2}/ftmq/types.py RENAMED Viewed

File without changes

ftmq 4.1.1__tar.gz → 4.3.2__tar.gz

ftmq 4.1.1tar.gz → 4.3.2tar.gz