PyPI - ddi-fw - Versions diffs - 0.0.149__py3-none-any.whl → 0.0.151__py3-none-any.whl - Mend

ddi-fw 0.0.149py3-none-any.whl → 0.0.151py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (33) hide show

ddi_fw/datasets/__init__.py +1 -1
ddi_fw/datasets/core.py +147 -341
ddi_fw/datasets/dataset_splitter.py +39 -0
ddi_fw/datasets/ddi_mdl/base.py +194 -130
ddi_fw/datasets/ddi_mdl/debug.log +1 -0
ddi_fw/datasets/embedding_generator.py +2 -1
ddi_fw/langchain/embeddings.py +1 -0
ddi_fw/ml/evaluation_helper.py +47 -178
ddi_fw/ml/ml_helper.py +125 -81
ddi_fw/ml/model_wrapper.py +2 -2
ddi_fw/ml/pytorch_wrapper.py +175 -72
ddi_fw/ml/tensorflow_wrapper.py +131 -39
ddi_fw/ner/ner.py +93 -39
ddi_fw/pipeline/multi_modal_combination_strategy.py +4 -2
ddi_fw/pipeline/multi_pipeline.py +2 -15
ddi_fw/pipeline/ner_pipeline.py +15 -6
ddi_fw/pipeline/pipeline.py +157 -93
ddi_fw/{test/compress_json_test.py → utils/json_helper.py} +1 -15
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/METADATA +6 -3
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/RECORD +22 -31
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/WHEEL +1 -1
ddi_fw/test/__init__.py +0 -0
ddi_fw/test/basic_test.py +0 -15
ddi_fw/test/combination_test.py +0 -12
ddi_fw/test/date_test.py +0 -15
ddi_fw/test/idf_score.py +0 -54
ddi_fw/test/jaccard_similarity.py +0 -85
ddi_fw/test/mlfow_test.py +0 -165
ddi_fw/test/sklearn-tfidf.py +0 -16
ddi_fw/test/test.py +0 -93
ddi_fw/test/torch_cuda_test.py +0 -9
ddi_fw/test/type_guarding_test.py +0 -18
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/top_level.txt +0 -0

ddi_fw/ner/ner.py CHANGED Viewed

@@ -1,11 +1,14 @@
+from abc import ABC, abstractmethod
 from collections import defaultdict
 import glob
 import json
 from pathlib import Path
 import pathlib
 from time import sleep
+from typing import List, Optional
 import pandas as pd
+from pydantic import BaseModel, Field, HttpUrl
 from tqdm import tqdm
 import os
 import requests
@@ -33,19 +36,67 @@ from ddi_fw.utils import create_folder_if_not_exists
 HERE = pathlib.Path(__file__).resolve().parent
-class CTakesNER:
-    def __init__(self, drugs_df = None,api_url= 'http://localhost:8080/ctakes-web-rest/service/analyze?pipeline=Default'
-                  , output_path='ner-output/ctakes', ids=[],
-                 columns=[]):
-        self.drugs_df =  drugs_df
-        self.api_url = api_url
-        self.columns = columns
-        self.ids = ids
-        self.output_path = output_path
-    def run(self,
+class NERInterface(ABC):
+    """
+    An abstract base class to define the interface for Named Entity Recognition (NER).
+    """
+    @abstractmethod
+    def run(self, run_for=[]):
+        """
+        Run the NER process.
+        :param run_for: A list of columns to process.
+        """
+        pass
+class CTakesNER(BaseModel,NERInterface):
+    """
+    A class to perform Named Entity Recognition (NER) using the cTAKES API.
+    Attributes:
+        df (pd.DataFrame): The input dataframe containing data to be processed.
+        key (str): The key column in the dataframe, default is 'drugbank_id'.
+        api_url (str): The URL of the cTAKES API, default is 'http://localhost:8080/ctakes-web-rest/service/analyze?pipeline=Default'.
+        output_path (str): The path to save the NER output, default is 'ner-output/ctakes'.
+        ids (list): A list of IDs to exclude from processing, default is an empty list.
+        columns (list): A list of columns in the dataframe to process, default is an empty list.
+    Methods:
+        run(run_for=[]):
+            Runs the NER process for the specified columns.
+        load(filename=None, group=True):
+            Loads the NER results from a pickle file.
+        create_dataframe(override=False):
+            Creates a dataframe from the NER results and saves it as a pickle file.
+    """
+    # def __init__(self, df: pd.DataFrame,
+    #              key: str = 'drugbank_id',
+    #              api_url: str = 'http://localhost:8080/ctakes-web-rest/service/analyze?pipeline=Default',
+    #              output_path: str = 'ner-output/ctakes', ids: list = [],
+    #              columns: list = []):
+    #     self.df = df
+    #     self.key = key
+    #     self.api_url = api_url
+    #     self.columns = columns
+    #     self.ids = ids
+    #     self.output_path = output_path
+    df: Optional[pd.DataFrame]
+    key: str = 'drugbank_id'
+    api_url: str = 'http://localhost:8080/ctakes-web-rest/service/analyze?pipeline=Default'
+    output_path: str = 'ner-output/ctakes'
+    ids: List[str] = Field(default_factory=list)
+    columns: List[str] = Field(default_factory=list)
+    class Config:
+        arbitrary_types_allowed = True
+    def run(self,
             run_for=[]):
+        """
+        Run the NER process.
+        :param run_for: A list of columns to process.
+        """
+        if self.df is None:
+            raise ValueError('Dataframe is not provided')
         for column in self.columns:
             if not os.path.exists(self.output_path+"/"+column):
                 os.makedirs(self.output_path+"/"+column)
@@ -55,12 +106,14 @@ class CTakesNER:
                 continue
             # not include
             if self.ids:
-                self.drugs_df = self.drugs_df[~self.drugs_df['drugbank_id'].isin(
+                self.df = self.df[~self.df[self.key].isin(
                     self.ids)]
-            for index, row in self.drugs_df.iterrows():
-                drugbank_id = row['drugbank_id']
+            for index, row in self.df.iterrows():
+                drugbank_id = row[self.key]
                 data = row[column]
-                if data is None or pd.isna(data) or (type(data) == str and len(data.strip()) == 0):  # or len(data) == 0:
+                # or len(data) == 0:
+                if data is None or (isinstance(data, pd.Series) and data.isna().any()) or (isinstance(data, str) and len(data.strip()) == 0):
+                # if data is None or pd.isna(data) or (type(data) == str and len(data.strip()) == 0):
                     with open(f'{column_output_path}/{drugbank_id}.json', 'w', encoding='utf-8') as f:
                         json.dump([], f, ensure_ascii=False, indent=4)
                     continue
@@ -79,8 +132,9 @@ class CTakesNER:
                 # if index % 10 == 0:
                 #     sleep(10)
-    def load(self, filename = None, group = True):
-        file_path=  filename if filename else HERE.joinpath('output/ctakes/ctakes_ner.pkl')
+    def load(self, filename=None, group=True):
+        file_path = filename if filename else HERE.joinpath(
+            'output/ctakes/ctakes_ner.pkl')
         df = pd.read_pickle(file_path)
         if group:
@@ -92,24 +146,28 @@ class CTakesNER:
             tui_columns = [key for key in keys if key.startswith('tui')]
             cui_columns = [key for key in keys if key.startswith('cui')]
-            entities_columns = [key for key in keys if key.startswith('entities')]
-            #bunu tek bir eşitlikle çöz
-            df['tui'] =  df[tui_columns].values.tolist()
-            df['tui'] = df['tui'].apply(lambda items:{i for item in items for i in item})
+            entities_columns = [
+                key for key in keys if key.startswith('entities')]
+            # bunu tek bir eşitlikle çöz
+            df['tui'] = df[tui_columns].values.tolist()
+            df['tui'] = df['tui'].apply(
+                lambda items: {i for item in items for i in item})
-            df['cui'] =  df[cui_columns].values.tolist()
-            df['cui'] = df['cui'].apply(lambda items:{i for item in items for i in item})
+            df['cui'] = df[cui_columns].values.tolist()
+            df['cui'] = df['cui'].apply(
+                lambda items: {i for item in items for i in item})
-            df['entities'] =  df[entities_columns].values.tolist()
-            df['entities'] = df['entities'].apply(lambda items:{i for item in items for i in item})
+            df['entities'] = df[entities_columns].values.tolist()
+            df['entities'] = df['entities'].apply(
+                lambda items: {i for item in items for i in item})
         return df
-    def create_dataframe(self, override = False):  # dataframe_columns=[]
-        filename='ctakes_ner.pkl'
+    def create_dataframe(self, override=False):  # dataframe_columns=[]
+        filename = 'ctakes_ner.pkl'
         if not override and os.path.exists(self.output_path+"/" + filename):
             return self.load(self.output_path+"/" + filename)
         create_folder_if_not_exists(self.output_path+"/" + filename)
         dict_of_dict = defaultdict(dict)
         for column in self.columns:
@@ -123,9 +181,9 @@ class CTakesNER:
                     cuis = []
                     tuis = []
                     if data is None or len(data) == 0:
-                        t['drugbank_id'] = file_name
+                        t[self.key] = file_name
                         t[f'cui_{column}'] = []
-                        t[f'tui_{column}']= []
+                        t[f'tui_{column}'] = []
                         t[f'entities_{column}'] = []
                         dict_of_dict[file_name] = t
                         continue
@@ -136,9 +194,9 @@ class CTakesNER:
                         tuis = [attr['tui']
                                 for v in value for attr in v['conceptAttributes']]
                         # codingScheme
-                    if 'drugbank_id' not in t:
-                        t['drugbank_id'] = file_name
+                    if self.key not in t:
+                        t[self.key] = file_name
                     t[f'cui_{column}'] = cuis
                     t[f'tui_{column}'] = tuis
                     t[f'entities_{column}'] = entities
@@ -149,11 +207,7 @@ class CTakesNER:
                           #   columns=columns
                           )
         df.to_pickle(self.output_path+"/" + filename)
-        # dataframe_columns.insert(0, 'drugbank_id')
-        # new_columns = {columns[i]: dataframe_columns[i]
-        #                for i in range(len(columns))}
-        # df.rename(columns=new_columns, inplace=True)
         return df

ddi_fw/pipeline/multi_modal_combination_strategy.py CHANGED Viewed

@@ -1,8 +1,10 @@
+from abc import ABC, abstractmethod
 import itertools
-class CombinationStrategy():
-    def generate(self):
+class CombinationStrategy(ABC):
+    @abstractmethod
+    def generate(self) -> list:
         pass

ddi_fw/pipeline/multi_pipeline.py CHANGED Viewed

@@ -49,11 +49,6 @@ class MultiPipeline():
     def __create_pipeline(self, config):
         type = config.get("type")
         library = config.get("library")
-        # batch_size = config.get("batch_size")
-        # epochs = config.get("epochs")
-        # dataset_module = config.get("dataset_module")
-        # dataset_name = config.get("dataset_name")
         experiment_name = config.get("experiment_name")
         experiment_description = config.get("experiment_description")
@@ -82,9 +77,7 @@ class MultiPipeline():
         combinations = []
         if combination_type is not None:
             combinations = combination_type(**kwargs_combination_params).generate()
-        # # Instantiate the classes
-        # model_instance = model_class()
-        # dataset_instance = dataset_class()
         pipeline = None
         if type == "general":
@@ -117,15 +110,13 @@ class MultiPipeline():
                 text_types = None,
                 columns=['tui', 'cui', 'entities'],
                 ner_data_file=ner_data_file,
+                multi_modal= multi_modal
             )
         return {
             "name": experiment_name,
             "library": library,
-            # "batch_size": batch_size,
-            # "epochs": epochs,
-            # "model_type": model_type,
             "pipeline": pipeline}
     def build(self):
@@ -138,10 +129,6 @@ class MultiPipeline():
         for item in self.items:
             print(f"{item['name']} is running")
             pipeline = item['pipeline']
-            # model_type = item['model_type']
-            # batch_size = item['batch_size']
-            # epochs = item['epochs']
-            # It can be moved to build function
             pipeline.build()
             result = pipeline.run()
             self.pipeline_resuts[item['name']] = result

ddi_fw/pipeline/ner_pipeline.py CHANGED Viewed

@@ -2,7 +2,7 @@ from collections import defaultdict
 import numpy as np
 from ddi_fw.datasets.core import BaseDataset
 from ddi_fw.datasets.idf_helper import IDF
-from typing import Dict, List
+from typing import Any, Dict, List, Optional
 from itertools import product
 from ddi_fw.ml.ml_helper import MultiModalRunner
@@ -18,6 +18,7 @@ def stack(df_column):
 class NerParameterSearch:
     def __init__(self,
                  library,
+                 multi_modal,
                  experiment_name,
                  experiment_description,
                  experiment_tags,
@@ -25,12 +26,13 @@ class NerParameterSearch:
                  dataset_type: BaseDataset,
                  ner_data_file,
                  columns: list,
-                 umls_code_types: List[UMLSCodeTypes],
-                 text_types=List[DrugBankTextDataTypes],
+                 umls_code_types: List[UMLSCodeTypes]|None,
+                 text_types:List[DrugBankTextDataTypes]|None,
                  min_threshold_dict: Dict[str, float] = defaultdict(float),
                  max_threshold_dict: Dict[str, float] = defaultdict(float),
                  increase_step=0.5):
         self.library = library
+        self.multi_modal = multi_modal
         self.experiment_name = experiment_name
         self.experiment_description = experiment_description
         self.experiment_tags = experiment_tags
@@ -47,6 +49,8 @@ class NerParameterSearch:
         self.increase_step = increase_step
     def build(self):
+        if not isinstance(self.dataset_type, type):
+            raise TypeError("self.dataset_type must be a class, not an instance")
         self.datasets = {}
         self.items = []
         # columns = ['tui', 'cui', 'entities']
@@ -58,7 +62,7 @@ class NerParameterSearch:
                 _umls_codes, _text_types)]
             self.columns.extend(_columns)
         print(f'Columns: {self.columns}')
-        self.ner_df = CTakesNER().load(
+        self.ner_df = CTakesNER(df = None).load(
             filename=self.ner_data_file) if self.ner_data_file else None
         if not self.min_threshold_dict or not self.max_threshold_dict:
@@ -72,6 +76,7 @@ class NerParameterSearch:
             self.max_threshold_dict = {key: math.ceil(
                 df.describe()[key]['max']) for key in df.describe().keys()}
+        train_idx_arr, val_idx_arr = None, None
         for column in self.columns:
             min_threshold = self.min_threshold_dict[column]
             max_threshold = self.max_threshold_dict[column]
@@ -106,7 +111,7 @@ class NerParameterSearch:
                 for item in group_items:
                     # item[0] = f'threshold_{threshold}_{item[0]}'
                     item[0] = f'threshold_{item[0]}_{threshold}'
-                self.datasets[item[0]] = dataset.ddis_df
+                    self.datasets[item[0]] = dataset.ddis_df
                 self.items.extend(group_items)
         self.y_test_label = self.items[0][4]
@@ -123,8 +128,12 @@ class NerParameterSearch:
         y_test_label = self.items[0][4]
         multi_modal_runner = MultiModalRunner(
-            library=self.library, model_func=model_func, batch_size=batch_size,  epochs=epochs)
+            library=self.library, multi_modal=self.multi_modal)
+        # multi_modal_runner = MultiModalRunner(
+        #     library=self.library, model_func=model_func, batch_size=batch_size,  epochs=epochs)
         multi_modal_runner.set_data(
             self.items, self.train_idx_arr, self.val_idx_arr, y_test_label)
         result = multi_modal_runner.predict()
         return result

ddi-fw 0.0.149__py3-none-any.whl → 0.0.151__py3-none-any.whl

ddi-fw 0.0.149py3-none-any.whl → 0.0.151py3-none-any.whl