PyPI - odin-engine - Versions diffs - 0.1.0__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

odin-engine 0.1.0py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (63) hide show

benchmarks/__init__.py +17 -17
benchmarks/datasets.py +284 -284
benchmarks/metrics.py +275 -275
benchmarks/run_ablation.py +279 -279
benchmarks/run_npll_benchmark.py +270 -270
npll/__init__.py +10 -10
npll/bootstrap.py +474 -474
npll/core/__init__.py +33 -33
npll/core/knowledge_graph.py +308 -308
npll/core/logical_rules.py +496 -496
npll/core/mln.py +474 -474
npll/inference/__init__.py +40 -40
npll/inference/e_step.py +419 -419
npll/inference/elbo.py +434 -434
npll/inference/m_step.py +576 -576
npll/npll_model.py +631 -631
npll/scoring/__init__.py +42 -42
npll/scoring/embeddings.py +441 -441
npll/scoring/probability.py +402 -402
npll/scoring/scoring_module.py +369 -369
npll/training/__init__.py +24 -24
npll/training/evaluation.py +496 -496
npll/training/npll_trainer.py +520 -520
npll/utils/__init__.py +47 -47
npll/utils/batch_utils.py +492 -492
npll/utils/config.py +144 -144
npll/utils/math_utils.py +338 -338
odin/__init__.py +21 -20
odin/engine.py +264 -264
odin/schema.py +210 -0
{odin_engine-0.1.0.dist-info → odin_engine-0.2.0.dist-info}/METADATA +503 -456
odin_engine-0.2.0.dist-info/RECORD +63 -0
{odin_engine-0.1.0.dist-info → odin_engine-0.2.0.dist-info}/licenses/LICENSE +21 -21
retrieval/__init__.py +50 -50
retrieval/adapters.py +140 -140
retrieval/adapters_arango.py +1418 -1418
retrieval/aggregators.py +707 -707
retrieval/beam.py +127 -127
retrieval/budget.py +60 -60
retrieval/cache.py +159 -159
retrieval/confidence.py +88 -88
retrieval/eval.py +49 -49
retrieval/linker.py +87 -87
retrieval/metrics.py +105 -105
retrieval/metrics_motifs.py +36 -36
retrieval/orchestrator.py +571 -571
retrieval/ppr/__init__.py +12 -12
retrieval/ppr/anchors.py +41 -41
retrieval/ppr/bippr.py +61 -61
retrieval/ppr/engines.py +257 -257
retrieval/ppr/global_pr.py +76 -76
retrieval/ppr/indexes.py +78 -78
retrieval/ppr.py +156 -156
retrieval/ppr_cache.py +25 -25
retrieval/scoring.py +294 -294
retrieval/utils/pii_redaction.py +36 -36
retrieval/writers/__init__.py +9 -9
retrieval/writers/arango_writer.py +28 -28
retrieval/writers/base.py +21 -21
retrieval/writers/janus_writer.py +36 -36
odin_engine-0.1.0.dist-info/RECORD +0 -62
{odin_engine-0.1.0.dist-info → odin_engine-0.2.0.dist-info}/WHEEL +0 -0
{odin_engine-0.1.0.dist-info → odin_engine-0.2.0.dist-info}/top_level.txt +0 -0

retrieval/beam.py CHANGED Viewed

@@ -1,127 +1,127 @@
-from __future__ import annotations
-from typing import List, Tuple, Dict, Optional, Set
-from dataclasses import dataclass
-import heapq, math, time
-from .adapters import GraphAccessor, NodeId, RelId
-from .confidence import EdgeConfidenceProvider, ConstantConfidence
-from .budget import SearchBudget, BudgetTracker
-@dataclass
-class BeamParams:
-    hop_limit: int = 3
-    beam_width: int = 64
-    max_paths: int = 200
-    lambdas: Tuple[float, float, float, float] = (0.6, 0.2, 0.15, 0.05)
-    allowed_relations: Optional[Set[RelId]] = None
-    max_out_degree: Optional[int] = None
-def default_recency(edge_timestamp: Optional[float], now_ts: Optional[float] = None, tau_days: float = 90.0) -> float:
-    if edge_timestamp is None:
-        return 1.0
-    if now_ts is None:
-        now_ts = time.time()
-    dt_days = max(0.0, (now_ts - edge_timestamp) / (60 * 60 * 24))
-    return math.exp(-dt_days / tau_days)
-def safe_logp(x: float) -> float:
-    return math.log(max(x, 1e-12))
-def beam_search(
-    accessor: GraphAccessor,
-    community_id: str,
-    seeds: List[NodeId],
-    ppr_scores: List[Tuple[NodeId, float]],
-    budget: Optional[SearchBudget] = None,
-    beam_params: BeamParams = BeamParams(),
-    conf_provider: EdgeConfidenceProvider = ConstantConfidence(0.8),
-    edge_type_prior: Optional[Dict[RelId, float]] = None,
-    edge_timestamp_lookup=None,
-) -> Dict[str, object]:
-    bt = BudgetTracker(budget or SearchBudget(max_paths=beam_params.max_paths))
-    L1, L2, L3, L4 = beam_params.lambdas
-    ppr = {n: p for n, p in ppr_scores}
-    edge_type_prior = edge_type_prior or {}
-    heap: List[Tuple[float, List[NodeId], List[Tuple[NodeId, RelId, NodeId]]]] = []
-    for s in seeds:
-        heapq.heappush(heap, (0.0, [s], []))
-    best_paths = []
-    def score_extension(u: NodeId, rel: RelId, v: NodeId) -> float:
-        p1 = ppr.get(v, 1e-12)
-        w_edge = edge_type_prior.get(rel, 1.0)
-        c = conf_provider.confidence(u, rel, v)
-        rec = default_recency(edge_timestamp_lookup(u, rel, v) if edge_timestamp_lookup else None)
-        return L1 * safe_logp(p1) + L2 * safe_logp(w_edge) + L3 * safe_logp(c) + L4 * safe_logp(rec)
-    early_stop_reason = None
-    for hop in range(1, beam_params.hop_limit + 1):
-        next_heap: List[Tuple[float, List[NodeId], List[Tuple[NodeId, RelId, NodeId]]]] = []
-        while heap and not bt.over():
-            logscore, path_nodes, path_edges = heapq.heappop(heap)
-            u = path_nodes[-1]
-            bt.tick_nodes(1)
-            out_iter = accessor.iter_out(u)
-            if beam_params.max_out_degree is not None:
-                # Degree cap: take only first N neighbors
-                out_iter = list(out_iter)[: beam_params.max_out_degree]
-            for v, rel, _ in out_iter:
-                if bt.over():
-                    break
-                bt.tick_edges(1)
-                if v in path_nodes:
-                    continue
-                if beam_params.allowed_relations is not None and rel not in beam_params.allowed_relations:
-                    continue
-                inc = score_extension(u, rel, v)
-                new_score = logscore + inc
-                new_nodes = path_nodes + [v]
-                new_edges = path_edges + [(u, rel, v)]
-                heapq.heappush(next_heap, (new_score, new_nodes, new_edges))
-                if len(next_heap) > beam_params.beam_width:
-                    heapq.heappop(next_heap)
-            if bt.timed_out():
-                early_stop_reason = early_stop_reason or "timeout"
-                break
-        next_heap.sort(key=lambda x: x[0], reverse=True)
-        for sc, nodes, edges in next_heap:
-            best_paths.append((sc, nodes, edges))
-            bt.tick_paths(1)
-            if bt.over():
-                break
-        heap = next_heap
-        if bt.over():
-            if early_stop_reason is None:
-                # Determine reason
-                if bt.usage.nodes >= bt.budget.max_nodes:
-                    early_stop_reason = "max_nodes"
-                elif bt.usage.edges >= bt.budget.max_edges:
-                    early_stop_reason = "max_edges"
-                elif bt.usage.paths >= bt.budget.max_paths:
-                    early_stop_reason = "max_paths"
-                else:
-                    early_stop_reason = "budget_exhausted"
-            break
-    best_paths.sort(key=lambda x: x[0], reverse=True)
-    return {
-        "paths": [
-            {
-                "score": float(sc),
-                "nodes": ns,
-                "edges": [{"u": u, "rel": r, "v": v} for (u, r, v) in es],
-            }
-            for sc, ns, es in best_paths[: beam_params.max_paths]
-        ],
-        "used_budget": bt.usage.__dict__,
-        "trace": {"beam_width": beam_params.beam_width, "hop_limit": beam_params.hop_limit, "early_stop_reason": early_stop_reason},
-    }
+from __future__ import annotations
+from typing import List, Tuple, Dict, Optional, Set
+from dataclasses import dataclass
+import heapq, math, time
+from .adapters import GraphAccessor, NodeId, RelId
+from .confidence import EdgeConfidenceProvider, ConstantConfidence
+from .budget import SearchBudget, BudgetTracker
+@dataclass
+class BeamParams:
+    hop_limit: int = 3
+    beam_width: int = 64
+    max_paths: int = 200
+    lambdas: Tuple[float, float, float, float] = (0.6, 0.2, 0.15, 0.05)
+    allowed_relations: Optional[Set[RelId]] = None
+    max_out_degree: Optional[int] = None
+def default_recency(edge_timestamp: Optional[float], now_ts: Optional[float] = None, tau_days: float = 90.0) -> float:
+    if edge_timestamp is None:
+        return 1.0
+    if now_ts is None:
+        now_ts = time.time()
+    dt_days = max(0.0, (now_ts - edge_timestamp) / (60 * 60 * 24))
+    return math.exp(-dt_days / tau_days)
+def safe_logp(x: float) -> float:
+    return math.log(max(x, 1e-12))
+def beam_search(
+    accessor: GraphAccessor,
+    community_id: str,
+    seeds: List[NodeId],
+    ppr_scores: List[Tuple[NodeId, float]],
+    budget: Optional[SearchBudget] = None,
+    beam_params: BeamParams = BeamParams(),
+    conf_provider: EdgeConfidenceProvider = ConstantConfidence(0.8),
+    edge_type_prior: Optional[Dict[RelId, float]] = None,
+    edge_timestamp_lookup=None,
+) -> Dict[str, object]:
+    bt = BudgetTracker(budget or SearchBudget(max_paths=beam_params.max_paths))
+    L1, L2, L3, L4 = beam_params.lambdas
+    ppr = {n: p for n, p in ppr_scores}
+    edge_type_prior = edge_type_prior or {}
+    heap: List[Tuple[float, List[NodeId], List[Tuple[NodeId, RelId, NodeId]]]] = []
+    for s in seeds:
+        heapq.heappush(heap, (0.0, [s], []))
+    best_paths = []
+    def score_extension(u: NodeId, rel: RelId, v: NodeId) -> float:
+        p1 = ppr.get(v, 1e-12)
+        w_edge = edge_type_prior.get(rel, 1.0)
+        c = conf_provider.confidence(u, rel, v)
+        rec = default_recency(edge_timestamp_lookup(u, rel, v) if edge_timestamp_lookup else None)
+        return L1 * safe_logp(p1) + L2 * safe_logp(w_edge) + L3 * safe_logp(c) + L4 * safe_logp(rec)
+    early_stop_reason = None
+    for hop in range(1, beam_params.hop_limit + 1):
+        next_heap: List[Tuple[float, List[NodeId], List[Tuple[NodeId, RelId, NodeId]]]] = []
+        while heap and not bt.over():
+            logscore, path_nodes, path_edges = heapq.heappop(heap)
+            u = path_nodes[-1]
+            bt.tick_nodes(1)
+            out_iter = accessor.iter_out(u)
+            if beam_params.max_out_degree is not None:
+                # Degree cap: take only first N neighbors
+                out_iter = list(out_iter)[: beam_params.max_out_degree]
+            for v, rel, _ in out_iter:
+                if bt.over():
+                    break
+                bt.tick_edges(1)
+                if v in path_nodes:
+                    continue
+                if beam_params.allowed_relations is not None and rel not in beam_params.allowed_relations:
+                    continue
+                inc = score_extension(u, rel, v)
+                new_score = logscore + inc
+                new_nodes = path_nodes + [v]
+                new_edges = path_edges + [(u, rel, v)]
+                heapq.heappush(next_heap, (new_score, new_nodes, new_edges))
+                if len(next_heap) > beam_params.beam_width:
+                    heapq.heappop(next_heap)
+            if bt.timed_out():
+                early_stop_reason = early_stop_reason or "timeout"
+                break
+        next_heap.sort(key=lambda x: x[0], reverse=True)
+        for sc, nodes, edges in next_heap:
+            best_paths.append((sc, nodes, edges))
+            bt.tick_paths(1)
+            if bt.over():
+                break
+        heap = next_heap
+        if bt.over():
+            if early_stop_reason is None:
+                # Determine reason
+                if bt.usage.nodes >= bt.budget.max_nodes:
+                    early_stop_reason = "max_nodes"
+                elif bt.usage.edges >= bt.budget.max_edges:
+                    early_stop_reason = "max_edges"
+                elif bt.usage.paths >= bt.budget.max_paths:
+                    early_stop_reason = "max_paths"
+                else:
+                    early_stop_reason = "budget_exhausted"
+            break
+    best_paths.sort(key=lambda x: x[0], reverse=True)
+    return {
+        "paths": [
+            {
+                "score": float(sc),
+                "nodes": ns,
+                "edges": [{"u": u, "rel": r, "v": v} for (u, r, v) in es],
+            }
+            for sc, ns, es in best_paths[: beam_params.max_paths]
+        ],
+        "used_budget": bt.usage.__dict__,
+        "trace": {"beam_width": beam_params.beam_width, "hop_limit": beam_params.hop_limit, "early_stop_reason": early_stop_reason},
+    }

retrieval/budget.py CHANGED Viewed

@@ -1,60 +1,60 @@
-from __future__ import annotations
-from dataclasses import dataclass
-import time
-@dataclass
-class SearchBudget:
-    max_nodes: int = 2_000
-    max_edges: int = 10_000
-    max_ms: int = 1_500
-    max_paths: int = 200
-@dataclass
-class Usage:
-    nodes: int = 0
-    edges: int = 0
-    ms: int = 0
-    paths: int = 0
-class BudgetTracker:
-    def __init__(self, budget: SearchBudget):
-        self.budget = budget
-        self.usage = Usage()
-        self._start = time.perf_counter()
-    def tick_nodes(self, n=1):
-        self.usage.nodes += n
-    def tick_edges(self, n=1):
-        self.usage.edges += n
-    def tick_paths(self, n=1):
-        self.usage.paths += n
-    def timed_out(self) -> bool:
-        self.usage.ms = int((time.perf_counter() - self._start) * 1000)
-        return self.usage.ms >= self.budget.max_ms
-    def over(self) -> bool:
-        self.timed_out()
-        b, u = self.budget, self.usage
-        return (
-            u.nodes >= b.max_nodes
-            or u.edges >= b.max_edges
-            or u.paths >= b.max_paths
-            or u.ms >= b.max_ms
-        )
-    def left(self) -> SearchBudget:
-        self.timed_out()
-        return SearchBudget(
-            max_nodes=max(0, self.budget.max_nodes - self.usage.nodes),
-            max_edges=max(0, self.budget.max_edges - self.usage.edges),
-            max_ms=max(0, self.budget.max_ms - self.usage.ms),
-            max_paths=max(0, self.budget.max_paths - self.usage.paths),
-        )
+from __future__ import annotations
+from dataclasses import dataclass
+import time
+@dataclass
+class SearchBudget:
+    max_nodes: int = 2_000
+    max_edges: int = 10_000
+    max_ms: int = 1_500
+    max_paths: int = 200
+@dataclass
+class Usage:
+    nodes: int = 0
+    edges: int = 0
+    ms: int = 0
+    paths: int = 0
+class BudgetTracker:
+    def __init__(self, budget: SearchBudget):
+        self.budget = budget
+        self.usage = Usage()
+        self._start = time.perf_counter()
+    def tick_nodes(self, n=1):
+        self.usage.nodes += n
+    def tick_edges(self, n=1):
+        self.usage.edges += n
+    def tick_paths(self, n=1):
+        self.usage.paths += n
+    def timed_out(self) -> bool:
+        self.usage.ms = int((time.perf_counter() - self._start) * 1000)
+        return self.usage.ms >= self.budget.max_ms
+    def over(self) -> bool:
+        self.timed_out()
+        b, u = self.budget, self.usage
+        return (
+            u.nodes >= b.max_nodes
+            or u.edges >= b.max_edges
+            or u.paths >= b.max_paths
+            or u.ms >= b.max_ms
+        )
+    def left(self) -> SearchBudget:
+        self.timed_out()
+        return SearchBudget(
+            max_nodes=max(0, self.budget.max_nodes - self.usage.nodes),
+            max_edges=max(0, self.budget.max_edges - self.usage.edges),
+            max_ms=max(0, self.budget.max_ms - self.usage.ms),
+            max_paths=max(0, self.budget.max_paths - self.usage.paths),
+        )

odin-engine 0.1.0__py3-none-any.whl → 0.2.0__py3-none-any.whl

odin-engine 0.1.0py3-none-any.whl → 0.2.0py3-none-any.whl