PyPI - OntoLearner - Versions diffs - 1.4.9__py3-none-any.whl → 1.4.11__py3-none-any.whl - Mend

OntoLearner 1.4.9py3-none-any.whl → 1.4.11py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (21) hide show

ontolearner/VERSION +1 -1
ontolearner/base/learner.py +38 -17
ontolearner/base/ontology.py +2 -2
ontolearner/evaluation/metrics.py +72 -32
ontolearner/learner/__init__.py +1 -1
ontolearner/learner/label_mapper.py +1 -1
ontolearner/learner/prompt.py +40 -5
ontolearner/learner/rag/__init__.py +14 -0
ontolearner/learner/{rag.py → rag/rag.py} +7 -2
ontolearner/learner/retriever/__init__.py +1 -1
ontolearner/learner/retriever/{llm_retriever.py → augmented_retriever.py} +48 -39
ontolearner/learner/retriever/learner.py +3 -4
ontolearner/learner/text2onto/__init__.py +1 -1
ontolearner/learner/text2onto/alexbek.py +484 -1105
ontolearner/learner/text2onto/sbunlp.py +498 -493
ontolearner/text2onto/splitter.py +69 -6
ontolearner/tools/analyzer.py +51 -0
{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/METADATA +2 -2
{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/RECORD +21 -20
{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/WHEEL +0 -0
{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/licenses/LICENSE +0 -0

ontolearner/text2onto/splitter.py CHANGED Viewed

@@ -200,10 +200,73 @@ class SyntheticDataSplitter:
         return terms_splits, types_splits, docs_split, types2docs_splits
-    def split(self, train: float = 0.8, val: float = 0.1, test: float = 0.1):
-        split_targets, split_docs_targets = self.set_train_val_test_sizes(train_percentage=train,
-                                                                          val_percentage=val,
-                                                                          test_percentage=test)
+    def split_fine_grained(self, doc_ids):
+        """
+        Build a single split bundle containing only:
+        - docs
+        - terms
+        - types
+        - terms2docs
+        - terms2types
+        """
+        # normalize to string ids (constructor uses str(row.id))
+        doc_ids = {str(d) for d in (doc_ids or [])}
+        # docs + collect terms/types from docs
+        docs = []
+        terms_set = set()
+        types_set = set()
+        for doc_id in doc_ids:
+            doc = self.doc_id_to_doc[doc_id]
+            docs.append({"id": str(doc.id), "title": doc.title, "text": doc.text})
+            terms_set.update(self.doc_id_to_terms[doc_id])
+            types_set.update(self.doc_id_to_types[doc_id])
+        terms = sorted(terms_set)
+        types = sorted(types_set)
+        # terms2docs: use the constructor-built mapping and restrict to this split's doc_ids
+        terms2docs = {
+            term: sorted(list(self.term_to_doc_id.get(term, set()) & doc_ids))
+            for term in terms
+        }
+        # terms2types: ontology lookup (term -> parent types)
+        terms2types = {term: self.child_to_parent.get(term, []) for term in terms}
+        return {
+            "documents": docs,
+            "terms": terms,
+            "types": types,
+            "terms2docs": terms2docs,
+            "terms2types": terms2types,
+        }
+    def train_test_val_split(self, train: float = 0.8, val: float = 0.1, test: float = 0.1):
+        """
+        Returns:
+            train_split, val_split, test_split
+        Each split is a dict with keys:
+        - "docs"
+        - "terms"
+        - "types"
+        - "terms2docs"
+        - "terms2types"
+        """
+        # compute which docs go to which split
+        split_targets, split_docs_targets = self.set_train_val_test_sizes(
+            train_percentage=train,
+            val_percentage=val,
+            test_percentage=test,
+        )
         split_docs = self.create_train_val_test_splits(split_targets, split_docs_targets)
-        terms, types, docs, types2docs = self.generate_split_artefacts(split_docs)
-        return terms, types, docs, types2docs
+        # split_docs: {"train": set(doc_ids), "val": set(doc_ids), "test": set(doc_ids)}
+        train_split = self.split_fine_grained(split_docs.get("train", set()))
+        val_split   = self.split_fine_grained(split_docs.get("val", set()))
+        test_split  = self.split_fine_grained(split_docs.get("test", set()))
+        return train_split, val_split, test_split

ontolearner/tools/analyzer.py CHANGED Viewed

@@ -14,6 +14,7 @@
 import logging
 import time
+import numpy as np
 from abc import ABC
 from rdflib import RDF, RDFS, OWL
 from collections import defaultdict
@@ -186,6 +187,56 @@ class Analyzer(ABC):
         return metrics
+    @staticmethod
+    def compute_complexity_score(
+            topology_metrics: TopologyMetrics,
+            dataset_metrics: DatasetMetrics,
+            a: float = 0.4,
+            b: float = 6.0,
+            eps: float = 1e-12
+        ) -> float:
+        """
+        Compute a single normalized complexity score for an ontology.
+        This function combines structural topology metrics and dataset quality metrics
+        into a weighted aggregate score, then applies a logistic transformation to
+        normalize it to the range [0, 1]. The score reflects overall ontology complexity,
+        considering graph structure, hierarchy, breadth, coverage, and dataset richness.
+        Args:
+            topology_metrics (TopologyMetrics): Precomputed structural metrics of the ontology graph.
+            dataset_metrics (DatasetMetrics): Precomputed metrics of extracted learning datasets.
+            a (float, optional): Steepness parameter for the logistic normalization function. Default is 0.4.
+            b (float, optional): Centering parameter for the logistic function, should be tuned to match the scale of aggregated metrics. Default is 6.0.
+            eps (float, optional): Small epsilon to prevent numerical issues in logistic computation. Default is 1e-12.
+        Returns:
+            float: Normalized complexity score in [0, 1], where higher values indicate more complex ontologies.
+        Notes:
+            - Weights are assigned to different metric categories: graph metrics, coverage metrics, hierarchy metrics,
+              breadth metrics, and dataset metrics (term-types, taxonomic, non-taxonomic relations).
+            - Metrics are log-normalized before weighting to reduce scale differences.
+            - The logistic transformation ensures the final score is bounded and interpretable.
+        """
+        # Define metric categories with their weights
+        metric_categories = {
+            0.3: ["total_nodes", "total_edges", "num_root_nodes", "num_leaf_nodes"],
+            0.25: ["num_classes", "num_properties", "num_individuals"],
+            0.10: ["max_depth", "min_depth", "avg_depth", "depth_variance"],
+            0.20: ["max_breadth", "min_breadth", "avg_breadth", "breadth_variance"],
+            0.15: ["num_term_types", "num_taxonomic_relations", "num_non_taxonomic_relations", "avg_terms"]
+        }
+        weights = {metric: weight for weight, metrics in metric_categories.items() for metric in metrics}
+        metrics = [metric for _, metric_list in metric_categories.items() for metric in metric_list]
+        onto_metrics = {**topology_metrics.__dict__, **dataset_metrics.__dict__}
+        norm_weighted_values = [np.log1p(onto_metrics[m]) * weights[m] for m in metrics if m in onto_metrics]
+        total_weight = sum(weights[m] for m in metrics if m in onto_metrics)
+        weighted_sum = sum(norm_weighted_values) / total_weight if total_weight > 0 else 0.0
+        complexity_score = 1.0 / (1.0 + np.exp(-a * (weighted_sum - b) + eps))
+        return complexity_score
     @staticmethod
     def compute_dataset_metrics(ontology: BaseOntology) -> DatasetMetrics:
         """

{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: OntoLearner
-Version: 1.4.9
+Version: 1.4.11
 Summary: OntoLearner: A Modular Python Library for Ontology Learning with LLMs.
 License: MIT
 License-File: LICENSE
@@ -14,7 +14,7 @@ Classifier: Programming Language :: Python :: 3.11
 Classifier: Programming Language :: Python :: 3.12
 Classifier: Programming Language :: Python :: 3.13
 Requires-Dist: Levenshtein
-Requires-Dist: bitsandbytes (>=0.45.1,<0.46.0)
+Requires-Dist: bitsandbytes (>=0.45.1,<1.0.0) ; platform_system == "Linux"
 Requires-Dist: dspy (>=2.6.14,<3.0.0)
 Requires-Dist: g4f
 Requires-Dist: gensim

{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/RECORD RENAMED Viewed

@@ -1,27 +1,28 @@
-ontolearner/VERSION,sha256=x-xbkXEIv48hifmVFcVtJDdZj6d_bmXwy3Lp4d5pPVY,6
+ontolearner/VERSION,sha256=IUVii4YAC88nU9izX_pBt1ZZ3pyLpyv3xOe7B9Tzuzo,7
 ontolearner/__init__.py,sha256=E4yukFv2PV4uyztTPDWljCySY9AVDcDDzabuvxfabYE,1889
 ontolearner/_learner.py,sha256=2CRQvpsz8akIOdxTs2-KLJ-MssULrjpK-QDD3QXUJXI,5297
 ontolearner/_ontology.py,sha256=W1mp195SImqLKwaj4ueEaBWuLJg2jUdx1JT20Ds3fmQ,6950
 ontolearner/base/__init__.py,sha256=5pf-ltxzGp32xhEcPdbtm11wXJrYJMUeWG-mbcAYD8Q,705
-ontolearner/base/learner.py,sha256=latiGv8p3nyPrxMp7g5B2MSF-JEInRwIlbOn09uh7io,18899
-ontolearner/base/ontology.py,sha256=JbMJ1-WUyHWQiNJL-DeaqcriUimLdqN3_ESROgqOPTQ,24772
+ontolearner/base/learner.py,sha256=dWMiIBhdvxZLxIWrTq4d4LbyCqDuAmTwfmxwa7UkjfQ,20075
+ontolearner/base/ontology.py,sha256=t7n81Vk8Y5BCK88AYIyNKd7d1LjJnoTlXigyPvrLxR4,24784
 ontolearner/base/text2onto.py,sha256=iUXYZoqnwgebQuQzM-XSGTVRfHLlhjUK_z5XUvhRICc,5388
 ontolearner/data_structure/__init__.py,sha256=1HiKvk8FKjhYeI92RHnJXxyQbUJBi3JFytjQjthsY_s,599
 ontolearner/data_structure/data.py,sha256=jUUDfqsOZcEqIR83SRboiKibPdA_JquI1uOEiQQ_lqY,11273
 ontolearner/data_structure/metric.py,sha256=4QKkZ5L1YK6hDTU-N5Z9I9Ha99DVHmGfYxK7N2qdhfc,7589
 ontolearner/evaluation/__init__.py,sha256=4BZr3BUXjQDTj4Aqlqy4THa80lZPsMuh1EBTCyi9Wig,842
 ontolearner/evaluation/evaluate.py,sha256=NYCVcmPqpyIxYZrMAim37gL-erdh698RD3t3eNTTgZc,1163
-ontolearner/evaluation/metrics.py,sha256=3Aw6ycJ3_Q6xfj4tMBJP6QcexUei0G16H0ZQWt87aRU,6286
-ontolearner/learner/__init__.py,sha256=RKREPrrjzQ5KYvcOwC_2l7yFKwFBd6HoCwhX2H6Spg8,798
-ontolearner/learner/label_mapper.py,sha256=YMPeFKzJxoCYNU5z7QRYPbB88sWdu1iT6iBDpPsjn-4,3792
+ontolearner/evaluation/metrics.py,sha256=rgEHwkvtWIZ8BB8dNN5bjwptV70F4Y9RRLp9j2xeAuE,7914
+ontolearner/learner/__init__.py,sha256=8NOPB8IaU04Ae5aWnIm6B0rcijSYN6z3xJElzzKD34I,822
+ontolearner/learner/label_mapper.py,sha256=SiceknqOW2ORX7K4-ljLJYay8DQrKF6Dwv-wUg7uQ78,3793
 ontolearner/learner/llm.py,sha256=3kq_IrwEPTFgeNVKZH9Er_OydJuDpRBtM3YXNNa8_KA,10343
-ontolearner/learner/prompt.py,sha256=0ckH7xphIDKczPe7G-rwiOxFGZ7RsLnpPlNW92b-31U,1574
-ontolearner/learner/rag.py,sha256=eysB2RvcWkVo53s8-kSbZtJv904YVTmdtxplM4ukUKM,4283
-ontolearner/learner/retriever/__init__.py,sha256=G5XuJcTblqXVWboVW9StJ2Vo2xACp_kG5_w2nrueqlc,854
+ontolearner/learner/prompt.py,sha256=1z8KRLrvRBS8QFoJYGlaajwHi4P4CZezhNQv3WcIfNA,2464
+ontolearner/learner/rag/__init__.py,sha256=NpnBBw5wqZ1MNtpIJ7zT-LWm5IL9aDEzwlbKPo_kCis,612
+ontolearner/learner/rag/rag.py,sha256=apnjK4KvVzFmzF6CmxtZoYoE9NAscRVULTt8Nj5wcWk,4430
+ontolearner/learner/retriever/__init__.py,sha256=ECMEEtwacnugiJ-sADVGidS88pC57nVi299vKb5R16U,860
+ontolearner/learner/retriever/augmented_retriever.py,sha256=tI4z7IbbaShOY-BxOreEGe7fhemz7l48diB2Erri3ek,14004
 ontolearner/learner/retriever/crossencoder.py,sha256=yurzGE4zydlBSwUefi1CugsWv34HEZ61qADG_-nILbo,4996
 ontolearner/learner/retriever/embedding.py,sha256=Lp9oA7LiOYaSWDvzG779KMv5keNl6Xv7hw0WpeaepDE,7875
-ontolearner/learner/retriever/learner.py,sha256=VcarTwwR8HNddJCh0loCQejDzZ_GO4NkdQUjEhLVy48,11181
-ontolearner/learner/retriever/llm_retriever.py,sha256=goInWYxrD9PSo_EsSKbNV8wEaSPvWY3LEC8XM7jlH64,12917
+ontolearner/learner/retriever/learner.py,sha256=bMkXj_MnzBRQDjPloqnOYEj400fsO6CFBfUql7gHIxw,11184
 ontolearner/learner/retriever/ngram.py,sha256=XgS1OeheKEIi7wfJHZgS8mWxKv9MQrP0apOJD_XSOnM,4575
 ontolearner/learner/taxonomy_discovery/__init__.py,sha256=-Hb5Dl6_6c4l1uIT2zWtyBWMq5cjVD4PNjxt5qJePl4,747
 ontolearner/learner/taxonomy_discovery/alexbek.py,sha256=kFEDvoKxLf-sB7-d5REkcC0DqXZpcA6ZSJ2QHrNoC5E,19010
@@ -32,9 +33,9 @@ ontolearner/learner/term_typing/__init__.py,sha256=2rBbgp8683GNVgB58T4xe76l4m-NT
 ontolearner/learner/term_typing/alexbek.py,sha256=SzWQbndkhAjxETVbrJ4uyH7ykL_TMIwHozSS08zwjoM,46684
 ontolearner/learner/term_typing/rwthdbis.py,sha256=F6Jr1SrsbDOIe0Ee_FkDVGTG4wRWpM-R2YqrqEQiex0,14576
 ontolearner/learner/term_typing/sbunlp.py,sha256=Xd3UqMO3m_Skn_2geTN22MGQmSD6R8bYfPgubZre3IE,19820
-ontolearner/learner/text2onto/__init__.py,sha256=4-G6iel0Nxcj4nzPxUDqtFf9CMCzi8LghooOSAnbNfc,641
-ontolearner/learner/text2onto/alexbek.py,sha256=MySzxJUR0F3UyeS5rPIN988xxtPaoAxDFkBc-Q0vFTE,45494
-ontolearner/learner/text2onto/sbunlp.py,sha256=5p-s2Ixtntws5eO3gOUyYLpfZpCbOE0hG5gEcCwKHz4,24177
+ontolearner/learner/text2onto/__init__.py,sha256=bLv25lJmgQymgMfhr6JTezMndpDMk9ihheY-VLE-nRI,644
+ontolearner/learner/text2onto/alexbek.py,sha256=0CE5KHgB47tXASgscYH-W3X17XtI2QBtTuhDNpGGaUI,23347
+ontolearner/learner/text2onto/sbunlp.py,sha256=-ULysm_iFUMqEsxNRwgZVcq-70nBzlXMR5BeMezUjjw,23786
 ontolearner/ontology/__init__.py,sha256=F9Ta1qCX9mOxIK5CPRypEoglQNkpJ6SJpqziz73xKQE,1328
 ontolearner/ontology/agriculture.py,sha256=ZaXHNEFjbtsMH8M7HQ8ypnfJS4TUQy_as16fwv-kOKA,5903
 ontolearner/ontology/arts_humanities.py,sha256=K4ceDJL6PfIfSJZ86uQUkUXOVoiERG6ItgvVE2lhLKk,3996
@@ -62,15 +63,15 @@ ontolearner/processor.py,sha256=LaPUr4BSmPZDINo5t55q9U0i9lLXa77u4pN38usQMBc,4817
 ontolearner/text2onto/__init__.py,sha256=YbbDYpHYSMA4dof-7y40PKYsiRO7wvoXZ2LbsRwpPJE,645
 ontolearner/text2onto/batchifier.py,sha256=2CljvcZo0EDW3sHHcG9d5w26RcRwbMsQdFB1j-vCam4,6646
 ontolearner/text2onto/general.py,sha256=2RUFMbWm7qLq3MJHsyNb3rgYkGcicnkbiH2wdPBsBps,1099
-ontolearner/text2onto/splitter.py,sha256=7SrFeUM5GZTTvbrve9RRKtBjELlkpnMkyPluO614PYM,10941
+ontolearner/text2onto/splitter.py,sha256=PeiVbw5zuNlX3dhtcIJRVCghNizWE8ugIGV7OigR5Ac,12743
 ontolearner/text2onto/synthesizer.py,sha256=tSJgPTFWVKBQi2RqLQfMhX_noXeNLh2Wq2Ezbqyv-OA,5486
 ontolearner/tools/__init__.py,sha256=IB5ycAW5vUDKeq-NAMMbwjSFzwSzC-5j0UobIzO3ZmI,623
-ontolearner/tools/analyzer.py,sha256=8iL9wY1ESh4RumSW-s28EtXjtjPj71IKp0MBK0ograg,9925
+ontolearner/tools/analyzer.py,sha256=1SooAT7qYqDIrHyvHXnrBRmuPwZhLK1uj26OiKRECc0,12989
 ontolearner/tools/visualizer.py,sha256=cwijl4yYaS1SCLM5wbvRTEcbQj9Bjo4fHzZR6q6o8qo,6267
 ontolearner/utils/__init__.py,sha256=pSEyU3dlPMADBqygqaaid44RdWf0Lo3Fvz-K_rQ7_Bw,733
 ontolearner/utils/io.py,sha256=3DqGK2p7c0onKi0Xxs16WB08uHfHUId3bW0dDKwyS0g,2110
 ontolearner/utils/train_test_split.py,sha256=Zlm42eT6QGWwlySyomCPIiTGmGqeN_h4z4xBY2EAOR8,11530
-ontolearner-1.4.9.dist-info/METADATA,sha256=c_V_1mUkxAhzJz04u1wRYU7xodpZQdiJXBVFzUCIMK8,11444
-ontolearner-1.4.9.dist-info/WHEEL,sha256=zp0Cn7JsFoX2ATtOhtaFYIiE2rmFAD4OcMhtUki8W3U,88
-ontolearner-1.4.9.dist-info/licenses/LICENSE,sha256=krXMLuMKgzX-UgaufgfJdm9ojIloZot7ZdvJUnNxl4I,1067
-ontolearner-1.4.9.dist-info/RECORD,,
+ontolearner-1.4.11.dist-info/METADATA,sha256=YDJySz7VAXa80XACaj-WDyuHtFhticcNqEmQVaR8Jsg,11473
+ontolearner-1.4.11.dist-info/WHEEL,sha256=zp0Cn7JsFoX2ATtOhtaFYIiE2rmFAD4OcMhtUki8W3U,88
+ontolearner-1.4.11.dist-info/licenses/LICENSE,sha256=krXMLuMKgzX-UgaufgfJdm9ojIloZot7ZdvJUnNxl4I,1067
+ontolearner-1.4.11.dist-info/RECORD,,

{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/WHEEL RENAMED Viewed

File without changes

{ontolearner-1.4.9.dist-info → ontolearner-1.4.11.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

OntoLearner 1.4.9__py3-none-any.whl → 1.4.11__py3-none-any.whl

OntoLearner 1.4.9py3-none-any.whl → 1.4.11py3-none-any.whl