PyPI - ddi-fw - Versions diffs - 0.0.226__py3-none-any.whl → 0.0.228__py3-none-any.whl - Mend

ddi-fw 0.0.226py3-none-any.whl → 0.0.228py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

ddi_fw/datasets/core.py CHANGED Viewed

@@ -4,7 +4,7 @@ import glob
 import logging
 from typing import Any, Dict, List, Optional, Type
 import chromadb
-from chromadb.api.types import IncludeEnum
+# from chromadb.api.types import IncludeEnum
 import numpy as np
 import pandas as pd
 from pydantic import BaseModel, Field, computed_field
@@ -307,7 +307,8 @@ class TextDatasetMixin(BaseModel):
             vector_db = chromadb.PersistentClient(
                 path=vector_db_persist_directory)
             collection = vector_db.get_collection(vector_db_collection_name)
-            include = [IncludeEnum.embeddings, IncludeEnum.metadatas]
+            # include = [IncludeEnum.embeddings, IncludeEnum.metadatas]
+            include: chromadb.Include = ["embeddings","metadatas"]
             dictionary: chromadb.GetResult
             # Fetch the embeddings and metadata
             if column == None:

ddi_fw/pipeline/multi_pipeline.py CHANGED Viewed

@@ -191,15 +191,15 @@ class MultiPipeline():
         elif type== "ner_search":
             pipeline = NerParameterSearch(
                 library=library,
+                tracking_library=tracking_library,
+                tracking_params=tracking_params,
                 experiment_name=experiment_name,
                 experiment_description=experiment_description,
-                experiment_tags=experiment_tags,
-                tracking_uri=tracking_uri,
                 dataset_type=dataset_type,
+                dataset_additional_config=additional_config,
                 umls_code_types = None,
                 text_types = None,
-                columns=['tui', 'cui', 'entities'],
-                ner_data_file=ner_data_file,
+                columns=columns,
                 multi_modal= multi_modal
             )

ddi_fw/pipeline/ner_pipeline.py CHANGED Viewed

@@ -10,19 +10,21 @@ from ddi_fw.vectorization.idf_helper import IDF
 from ddi_fw.ner.ner import CTakesNER
 from ddi_fw.ml.ml_helper import MultiModalRunner
 from ddi_fw.utils.enums import DrugBankTextDataTypes, UMLSCodeTypes
+import logging
 class NerParameterSearch(BaseModel):
     library: str
     default_model:  Optional[Any] = None
     multi_modal:  Optional[Any] = None
     experiment_name: str
     experiment_description: Optional[str] = None
-    experiment_tags: Optional[Dict[str, Any]] = None
-    tracking_uri: str
+    tracking_library: str
+    tracking_params: Optional[Dict[str, Any]] = None
+    dataset_type: Type[BaseDataset]
+    dataset_additional_config: Optional[Dict[str, Any]] = None
     dataset_type: Type[BaseDataset]
     dataset_splitter_type: Type[DatasetSplitter] = DatasetSplitter
-    ner_data_file: Optional[str] = None
     columns: List[str] = Field(default_factory=list)
     umls_code_types: Optional[List[UMLSCodeTypes]] = None
     text_types: Optional[List[DrugBankTextDataTypes]] = None
@@ -33,7 +35,7 @@ class NerParameterSearch(BaseModel):
     # Internal fields (not part of the input)
     datasets: Dict[str, Any] = Field(default_factory=dict, exclude=True)
     items: List[Any] = Field(default_factory=list, exclude=True)
-    ner_df: Optional[Any] = Field(default=None, exclude=True)
+    # ner_df: Optional[Any] = Field(default=None, exclude=True)
     train_idx_arr: Optional[List[np.ndarray]] = Field(default=None, exclude=True)
     val_idx_arr: Optional[List[np.ndarray]] = Field(default=None, exclude=True)
     y_test_label: Optional[np.ndarray] = Field(default=None, exclude=True)
@@ -64,16 +66,24 @@ class NerParameterSearch(BaseModel):
             raise TypeError("self.dataset_type must be a class, not an instance")
         # Load NER data
-        if self.ner_data_file:
-            self.ner_df = CTakesNER(df=None).load(filename=self.ner_data_file)
+        ner_data_file = (
+                self.dataset_additional_config.get("ner", {}).get("data_file")
+                if self.dataset_additional_config else None
+            )
+        if ner_data_file:
+            ner_df = CTakesNER(df=None).load(filename=ner_data_file)
         # Initialize thresholds if not provided
         if not self.min_threshold_dict or not self.max_threshold_dict:
-            idf = IDF(self.ner_df, self.columns)
+            idf = IDF(ner_df, self.columns)
             idf.calculate()
             df = idf.to_dataframe()
             self.min_threshold_dict = {key: np.floor(df.describe()[key]["min"]) for key in df.describe().keys()}
             self.max_threshold_dict = {key: np.ceil(df.describe()[key]["max"]) for key in df.describe().keys()}
+        print("Minimum thresholds:", self.min_threshold_dict)
+        print("Maximum thresholds:", self.max_threshold_dict)
         # Generate datasets and items
         for column in self.columns:
@@ -85,6 +95,8 @@ class NerParameterSearch(BaseModel):
                 "cui_threshold": 0,
                 "entities_threshold": 0,
             }
+            if self.dataset_additional_config:
+                kwargs["additional_config"]= self.dataset_additional_config
             for threshold in np.arange(min_threshold, max_threshold, self.increase_step):
                 if column.startswith("tui"):
@@ -93,10 +105,11 @@ class NerParameterSearch(BaseModel):
                     kwargs["cui_threshold"] = threshold
                 if column.startswith("entities"):
                     kwargs["entities_threshold"] = threshold
+                print(f"Loading dataset for column: {column} with threshold: {threshold}")
+                # Create a new dataset instance for each threshold
                 dataset = self.dataset_type(
                     columns=[column],
-                    ner_df=self.ner_df,
                     dataset_splitter_type=self.dataset_splitter_type,
                     **kwargs,
                 )
@@ -113,22 +126,38 @@ class NerParameterSearch(BaseModel):
         self.train_idx_arr = dataset.train_idx_arr
         self.val_idx_arr = dataset.val_idx_arr
-    def run(self):
-        """Run the parameter search."""
-        mlflow.set_tracking_uri(self.tracking_uri)
-        if mlflow.get_experiment_by_name(self.experiment_name) is None:
-            mlflow.create_experiment(self.experiment_name)
-        if self.experiment_tags:
-            mlflow.set_experiment_tags(self.experiment_tags)
-        mlflow.set_experiment(self.experiment_name)
-        multi_modal_runner = MultiModalRunner(
-            library=self.library,
-            multi_modal=self.multi_modal,
-            default_model=self.default_model,
-            use_mlflow=True,
-        )
-        multi_modal_runner.set_data(self.items, self.train_idx_arr, self.val_idx_arr, self.y_test_label)
-        result = multi_modal_runner.predict()
-        return result
+    # def run(self):
+    #     """Run the parameter search."""
+    #     mlflow.set_tracking_uri(self.tracking_uri)
+    #     if mlflow.get_experiment_by_name(self.experiment_name) is None:
+    #         mlflow.create_experiment(self.experiment_name)
+    #     if self.experiment_tags:
+    #         mlflow.set_experiment_tags(self.experiment_tags)
+    #     mlflow.set_experiment(self.experiment_name)
+    #     multi_modal_runner = MultiModalRunner(
+    #         library=self.library,
+    #         multi_modal=self.multi_modal,
+    #         default_model=self.default_model,
+    #         use_mlflow=True,
+    #     )
+    #     multi_modal_runner.set_data(self.items, self.train_idx_arr, self.val_idx_arr, self.y_test_label)
+    #     result = multi_modal_runner.predict()
+    #     return result
+        def run(self):
+            if self._tracking_service is None:
+                logging.warning("Tracking service is not initialized.")
+            else:
+                self._tracking_service.setup()
+            y_test_label = self.items[0][4]
+            multi_modal_runner = MultiModalRunner(
+                library=self.library, multi_modal=self.multi_modal, default_model=self.default_model, tracking_service=self._tracking_service)
+            multi_modal_runner.set_data(
+                self.items, self.train_idx_arr, self.val_idx_arr, y_test_label)
+            combinations = self.combinations if self.combinations is not None else []
+            result = multi_modal_runner.predict(combinations)
+            return result

{ddi_fw-0.0.226.dist-info → ddi_fw-0.0.228.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: ddi_fw
-Version: 0.0.226
+Version: 0.0.228
 Summary: Do not use :)
 Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
 Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
@@ -33,7 +33,7 @@ Requires-Dist: tokenizers>=0.19.1; extra == "llm"
 Requires-Dist: openai>=1.52.2; extra == "llm"
 Requires-Dist: langchain>=0.3.4; extra == "llm"
 Requires-Dist: langchain_community>0.3.16; extra == "llm"
-Requires-Dist: chromadb<1.0.0,>=0.6.0; extra == "llm"
+Requires-Dist: chromadb<=1.0.4,>=0.7.0; extra == "llm"
 Requires-Dist: nltk>=3.8.1; extra == "llm"
 Provides-Extra: ml
 Requires-Dist: scikit-learn<=1.6.1,>=1.5.2; extra == "ml"

{ddi_fw-0.0.226.dist-info → ddi_fw-0.0.228.dist-info}/RECORD RENAMED Viewed

@@ -1,5 +1,5 @@
 ddi_fw/datasets/__init__.py,sha256=_I3iDHARwzmg7_EL5XKtB_TgG1yAkLSOVTujLL9Wz9Q,280
-ddi_fw/datasets/core.py,sha256=PX6MX4hmeYxIWAKAx7NnJr1fpzR11xA8g8vAjYcQNN8,16936
+ddi_fw/datasets/core.py,sha256=p-e3wP5C_SCh0fMXioUHUXKvLVtyCrsQCFvKRnH4fjs,17008
 ddi_fw/datasets/dataset_splitter.py,sha256=8H8uZTAf8N9LUZeSeHOMawtJFJhnDgUUqFcnl7dquBQ,1672
 ddi_fw/datasets/db_utils.py,sha256=xRj28U_uXTRPHcz3yIICczFUHXUPiAOZtAj5BM6kH44,6465
 ddi_fw/datasets/setup_._py,sha256=khYVJuW5PlOY_i_A16F3UbSZ6s6o_ljw33Byw3C-A8E,1047
@@ -84,9 +84,9 @@ ddi_fw/ner/mmlrestclient.py,sha256=NZta7m2Qm6I_qtVguMZhqtAUjVBmmXn0-TMnsNp0jpg,6
 ddi_fw/ner/ner.py,sha256=FHyyX53Xwpdw8Hec261dyN88yD7Z9LmJua2mIrQLguI,17967
 ddi_fw/pipeline/__init__.py,sha256=tKDM_rW4vPjlYTeOkNgi9PujDzb4e9O3LK1w5wqnebw,212
 ddi_fw/pipeline/multi_modal_combination_strategy.py,sha256=JSyuP71b1I1yuk0s2ecCJZTtCED85jBtkpwTUxibJvI,1706
-ddi_fw/pipeline/multi_pipeline.py,sha256=npJUXYT31fxD6kpJKSeixjbH5jNfPUwIVG7lRdBszRg,9852
+ddi_fw/pipeline/multi_pipeline.py,sha256=EjJnA3Vzd-WeEvUBaA2LDOy_iQ5-2eW2VhtxvvxDPfQ,9857
 ddi_fw/pipeline/multi_pipeline_org.py,sha256=AbErwu05-3YIPnCcXRsj-jxPJG8HG2H7cMZlGjzaYa8,9037
-ddi_fw/pipeline/ner_pipeline.py,sha256=yp-Met2794EKcgr8_3gqt03l4v2efOdaZuAcIXTubvQ,5780
+ddi_fw/pipeline/ner_pipeline.py,sha256=AVp18Og4AozZvXwXcm94QNpUczdkawCaGAwoJoUYBp4,7246
 ddi_fw/pipeline/pipeline.py,sha256=q1kMkW9-fOlrA4BOGUku40U_PuEYfcbtH2EvlRM4uTM,6243
 ddi_fw/utils/__init__.py,sha256=WNxkQXk-694roG50D355TGLXstfdWVb_tUyr-PM-8rg,537
 ddi_fw/utils/categorical_data_encoding_checker.py,sha256=T1X70Rh4atucAuqyUZmz-iFULllY9dY0NRyV9-jTjJ0,3438
@@ -101,7 +101,7 @@ ddi_fw/utils/zip_helper.py,sha256=YRZA4tKZVBJwGQM0_WK6L-y5MoqkKoC-nXuuHK6CU9I,55
 ddi_fw/vectorization/__init__.py,sha256=LcJOpLVoLvHPDw9phGFlUQGeNcST_zKV-Oi1Pm5h_nE,110
 ddi_fw/vectorization/feature_vector_generation.py,sha256=EBf-XAiwQwr68az91erEYNegfeqssBR29kVgrliIyac,4765
 ddi_fw/vectorization/idf_helper.py,sha256=_Gd1dtDSLaw8o-o0JugzSKMt9FpeXewTh4wGEaUd4VQ,2571
-ddi_fw-0.0.226.dist-info/METADATA,sha256=yGP96z5uVKjSep-oOmbxV4FLhJb21yEam1gOVB_HGk0,2631
-ddi_fw-0.0.226.dist-info/WHEEL,sha256=CmyFI0kx5cdEMTLiONQRbGQwjIoR1aIYB7eCAQ4KPJ0,91
-ddi_fw-0.0.226.dist-info/top_level.txt,sha256=PMwHICFZTZtcpzQNPV4UQnfNXYIeLR_Ste-Wfc1h810,7
-ddi_fw-0.0.226.dist-info/RECORD,,
+ddi_fw-0.0.228.dist-info/METADATA,sha256=f0FUmtvqF6hIEG0HfiB2Epcy9prPHxa0i-OxIw5RNb8,2632
+ddi_fw-0.0.228.dist-info/WHEEL,sha256=lTU6B6eIfYoiQJTZNc-fyaR6BpL6ehTzU3xGYxn2n8k,91
+ddi_fw-0.0.228.dist-info/top_level.txt,sha256=PMwHICFZTZtcpzQNPV4UQnfNXYIeLR_Ste-Wfc1h810,7
+ddi_fw-0.0.228.dist-info/RECORD,,

{ddi_fw-0.0.226.dist-info → ddi_fw-0.0.228.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (78.1.0)
+Generator: setuptools (78.1.1)
 Root-Is-Purelib: true
 Tag: py3-none-any

{ddi_fw-0.0.226.dist-info → ddi_fw-0.0.228.dist-info}/top_level.txt RENAMED Viewed

File without changes

ddi-fw 0.0.226__py3-none-any.whl → 0.0.228__py3-none-any.whl

ddi-fw 0.0.226py3-none-any.whl → 0.0.228py3-none-any.whl