PyPI - ddi-fw - Versions diffs - 0.0.149__py3-none-any.whl → 0.0.151__py3-none-any.whl - Mend

ddi-fw 0.0.149py3-none-any.whl → 0.0.151py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (33) hide show

ddi_fw/datasets/__init__.py +1 -1
ddi_fw/datasets/core.py +147 -341
ddi_fw/datasets/dataset_splitter.py +39 -0
ddi_fw/datasets/ddi_mdl/base.py +194 -130
ddi_fw/datasets/ddi_mdl/debug.log +1 -0
ddi_fw/datasets/embedding_generator.py +2 -1
ddi_fw/langchain/embeddings.py +1 -0
ddi_fw/ml/evaluation_helper.py +47 -178
ddi_fw/ml/ml_helper.py +125 -81
ddi_fw/ml/model_wrapper.py +2 -2
ddi_fw/ml/pytorch_wrapper.py +175 -72
ddi_fw/ml/tensorflow_wrapper.py +131 -39
ddi_fw/ner/ner.py +93 -39
ddi_fw/pipeline/multi_modal_combination_strategy.py +4 -2
ddi_fw/pipeline/multi_pipeline.py +2 -15
ddi_fw/pipeline/ner_pipeline.py +15 -6
ddi_fw/pipeline/pipeline.py +157 -93
ddi_fw/{test/compress_json_test.py → utils/json_helper.py} +1 -15
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/METADATA +6 -3
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/RECORD +22 -31
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/WHEEL +1 -1
ddi_fw/test/__init__.py +0 -0
ddi_fw/test/basic_test.py +0 -15
ddi_fw/test/combination_test.py +0 -12
ddi_fw/test/date_test.py +0 -15
ddi_fw/test/idf_score.py +0 -54
ddi_fw/test/jaccard_similarity.py +0 -85
ddi_fw/test/mlfow_test.py +0 -165
ddi_fw/test/sklearn-tfidf.py +0 -16
ddi_fw/test/test.py +0 -93
ddi_fw/test/torch_cuda_test.py +0 -9
ddi_fw/test/type_guarding_test.py +0 -18
{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/top_level.txt +0 -0

ddi_fw/test/jaccard_similarity.py DELETED Viewed

@@ -1,85 +0,0 @@
-import pandas as pd
-# data = {'A': [1, 1, 1, 0, 0],
-#         'B': [0, 1, 1, 1, 0],
-#         'C': [0, 0, 1, 1, 1]}
-# df = pd.DataFrame(data)
-# from scipy.spatial.distance import pdist, squareform
-# jaccard_dist = pdist(df.values, metric='jaccard')
-# jaccard_dist_matrix = squareform(jaccard_dist)
-# print(jaccard_dist_matrix)
-# import pandas as pd
-# from scipy.spatial.distance import euclidean, pdist, squareform
-# def similarity_func(u, v):
-#     return 1/(1+euclidean(u,v))
-# DF_var = pd.DataFrame.from_dict({"s1":[1.2,3.4,10.2],"s2":[1.4,3.1,10.7],"s3":[2.1,3.7,11.3],"s4":[1.5,3.2,10.9]})
-# DF_var.index = ["g1","g2","g3"]
-# dists = pdist(DF_var, similarity_func)
-# DF_euclid = pd.DataFrame(squareform(dists), columns=DF_var.index, index=DF_var.index)
-# print(DF_euclid)
-from sklearn.metrics import jaccard_score
-import seaborn as sns
-import matplotlib.pyplot as plt
-data = [[0, 1, 0], [0, 1, 1], [0, 1, 0], [1, 1, 1], [1, 0, 1]]
-similarity_matrix = []
-for i in range(len(data)):
-        row = []
-        for j in range(len(data)):
-          row.append(jaccard_score(data[i], data[j]))
-        similarity_matrix.append(row)
-sns.heatmap(pd.DataFrame(similarity_matrix), annot=True, cmap="YlGnBu")
-plt.show()
-# https://stackoverflow.com/questions/35639571/python-pandas-distance-matrix-using-jaccard-similarity
-import pandas as pd
-entries = [
-    {'id':'1', 'category1':'100', 'category2': '0', 'category3':'100'},
-    {'id':'2', 'category1':'100', 'category2': '0', 'category3':'100'},
-    {'id':'3', 'category1':'0', 'category2': '100', 'category3':'100'},
-    {'id':'4', 'category1':'100', 'category2': '100', 'category3':'100'},
-    {'id':'5', 'category1':'100', 'category2': '0', 'category3':'100'}
-           ]
-df = pd.DataFrame(entries)
-from scipy.spatial.distance import squareform
-from scipy.spatial.distance import pdist, jaccard
-res = 1 - pdist(df[['category1','category2','category3']], 'jaccard')
-# squareform(res)
-distance = pd.DataFrame(squareform(res), index=df.index, columns= df.index)
-print(distance)
-entries2 = [
-    {'id':'1', 'cat':['p1','p2','p3']},
-    {'id':'2', 'cat':['p3','p4','p5']},
-    {'id':'3', 'cat':['p5','p6','p7']},
-           ]
-df2 = pd.DataFrame(entries2)
-c = df2['cat']
-y = set()
-for x in c:
-  for k in x:
-    y.add(k)
-print(y)

ddi_fw/test/mlfow_test.py DELETED Viewed

@@ -1,165 +0,0 @@
-# import mlflow
-# from mlflow import tensorflow
-# mlflow.set_tracking_uri("sqlite:///mlflow.db")
-# mlflow.set_experiment("multi-class-ddi-classification")
-# def mlp_mlflow_run(
-#     name,
-#     model_params,
-#     train_params,
-#     train_dataset,
-#     val_dataset,
-#     test_dataset,
-#     y_test,
-# ):
-#     with mlflow.start_run(run_name=name):
-#         mlflow.log_params(model_params)
-#         mlflow.log_params(train_params)
-#         mlflow.set_tag("model_name", "MLP")
-#         mlflow.log_metric("accuracy", accuracy)
-#         mlflow.tensorflow.log_model(mlp, "tf_models") #folder
-import mlflow
-import pandas as pd
-import tensorflow as tf
-import matplotlib.pyplot as plt
-from sklearn.model_selection import train_test_split
-from sklearn.metrics import mean_squared_error
-from sklearn.datasets import fetch_california_housing
-import tensorflow_addons as tfa
-from tensorflow.keras.callbacks import EarlyStopping
-from sklearn.preprocessing import StandardScaler
-from sklearn.ensemble import RandomForestRegressor
-import seaborn as sns
-from tensorflow.keras.layers import Dense, Dropout
-from tensorflow.keras.models import Sequential
-from tensorflow.keras.losses import MeanSquaredError
-mlflow.set_tracking_uri("sqlite:///mlflow.db")
-mlflow.set_experiment("income")
-dset = fetch_california_housing()
-data = dset['data']
-y = dset['target']
-LABEL = dset['target_names'][0]
-NUMERIC_FEATURES = ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Longitude', 'Latitude']
-FEATURES = NUMERIC_FEATURES
-data = pd.DataFrame(data, columns=dset['feature_names'])
-data[LABEL] = y
-data.head()
-train_data, test_data = train_test_split(data, test_size=0.2)
-print(f"Train dataset shape: {train_data.shape}")
-print(f"Test dataset shape: {test_data.shape}")
-X_train, X_val = train_test_split(train_data, test_size=0.2)
-sc = StandardScaler()
-X_train.loc[:, NUMERIC_FEATURES] = sc.fit_transform(X_train[NUMERIC_FEATURES])
-X_val.loc[:, NUMERIC_FEATURES] = sc.transform(X_val[NUMERIC_FEATURES])
-test_data.loc[:, NUMERIC_FEATURES] = sc.transform(test_data[NUMERIC_FEATURES])
-def build_mlp(params):
-    mlp = Sequential([
-        Dense(params["layer1_size"], activation=params['activation']),
-        Dropout(params['dropout_rate']),
-        Dense(params["layer2_size"], activation=params['activation']),
-        Dropout(params['dropout_rate']),
-        Dense(params["layer3_size"], activation=params['activation']),
-        Dense(1, activation='relu')
-    ])
-    return mlp
-def train_mlp(mlp, train_params, train_dataset, val_dataset):
-    optimizer = tfa.optimizers.AdamW(
-        learning_rate=train_params["learning_rate"],
-        weight_decay=train_params["weight_decay"],
-    )
-    mlp.compile(
-        optimizer=optimizer,
-        loss=MeanSquaredError(name="mse"),
-        metrics=[tf.keras.metrics.RootMeanSquaredError(name="rmse")]
-    )
-    early = EarlyStopping(
-        monitor="val_loss",
-        mode="min",
-        patience=train_params["early_stop_patience"],
-        restore_best_weights=True,
-    )
-    callback_list = [early]
-    hist = mlp.fit(
-        train_dataset,
-        epochs=train_params["num_epochs"],
-        validation_data=val_dataset,
-        callbacks=callback_list,
-    )
-    return mlp
-def mlp_mlflow_run(
-    name,
-    mlp_params,
-    train_params,
-    train_dataset,
-    val_dataset,
-    test_dataset,
-    y_test,
-):
-    with mlflow.start_run(run_name=name):
-        mlflow.log_params(mlp_params)
-        mlflow.log_params(train_params)
-        mlflow.set_tag("model_name", "MLP")
-        mlp = build_mlp(mlp_params)
-        mlp = train_mlp(mlp, train_params, train_dataset, val_dataset)
-        test_preds = mlp.predict(test_dataset)
-        test_rms = mean_squared_error(
-            y_test, test_preds.ravel(), squared=False
-        )
-        mlflow.log_metric("test_rmse", test_rms)
-        mlflow.tensorflow.log_model(mlp, "tf_models")
-# To TF Dataset
-mlp_train_ds = tf.data.Dataset.from_tensor_slices((X_train[FEATURES], X_train[LABEL])).batch(512).shuffle(512*4).prefetch(512)
-mlp_val_ds = tf.data.Dataset.from_tensor_slices((X_val[FEATURES], X_val[LABEL])).batch(512).shuffle(512*4).prefetch(512)
-mlp_test_ds = tf.data.Dataset.from_tensor_slices(test_data[FEATURES]).batch(512).prefetch(512)
-mlp_params = {
-    "layer1_size": 512,
-    "layer2_size": 128,
-    "layer3_size": 64,
-    "dropout_rate": 0.3,
-    "activation": 'relu'
-}
-train_params = dict(
-    learning_rate=0.001, weight_decay=0.00001, early_stop_patience=10, num_epochs=1000
-)
-mlp_mlflow_run(
-    "mlp_base",
-    mlp_params,
-    train_params,
-    mlp_train_ds,
-    mlp_val_ds,
-    mlp_test_ds,
-    test_data[LABEL],
-)

ddi_fw/test/sklearn-tfidf.py DELETED Viewed

@@ -1,16 +0,0 @@
-from sklearn.feature_extraction.text import TfidfTransformer
-from sklearn.feature_extraction.text import CountVectorizer
-from sklearn.pipeline import Pipeline
-corpus = ['this is the first document',
-          'this document is the second document',
-          'and this is the third one',
-          'is this the first document']
-vocabulary = ['this', 'document', 'first', 'is', 'second', 'the',
-              'and', 'one']
-pipe = Pipeline([('count', CountVectorizer(vocabulary=vocabulary)),
-                  ('tfid', TfidfTransformer())]).fit(corpus)
-pipe['count'].transform(corpus).toarray()
-pipe['tfid'].idf_
-pipe.transform(corpus).shape

ddi_fw/test/test.py DELETED Viewed

@@ -1,93 +0,0 @@
-from rdkit import Chem
-from rdkit.Chem import AllChem
-from urllib.request import urlopen
-from urllib.parse import quote
-from Bio.KEGG import REST
-x = REST.kegg_find(database='drug', query='D03136')
-y = x.read()
-print(x)
-def CIRconvert(ids):
-    try:
-        url = 'http://cactus.nci.nih.gov/chemical/structure/' + quote(ids) + '/smiles'
-        ans = urlopen(url).read().decode('utf8')
-        return ans
-    except:
-        return 'Did not work'
-# identifiers  = ['3-Methylheptane', 'Aspirin', 'Diethylsulfate', 'Diethyl sulfate', '50-78-2', 'Adamant']
-# smiles = []
-# for ids in identifiers :
-#     smiles.append(CIRconvert(ids))
-#     # print(ids, CIRconvert(ids))
-# from rdkit.Chem import SaltRemover
-# remover = SaltRemover(defnData="[Na+]\\nCC(=O)O", defnFormat=SaltRemover.InputFormat.SMILES)
-# len(remover)
-# remover = SaltRemover(defnFormat=SaltRemover.InputFormat.SMILES, defnData="[Cl]")
-# mol = Chem.MolFromSmiles(smiles[0])
-# morgan_hashed = AllChem.GetMorganFingerprintAsBitVect(mol,2,nBits=881)
-# print(morgan_hashed.ToBitString())
-#https://go.drugbank.com/structures/small_molecule_drugs/DB01076.smiles
-# targets -> target -> polypeptide
-# enzymes -> enzyme -> polypeptide
-smiles = {'DB001075':'[H][C@]12OC[C@@H](O[N+]([O-])=O)[C@@]1([H])OC[C@@H]2O',
-          'DB001076':'CC(C)C1=C(C(=O)NC2=CC=CC=C2)C(=C(N1CC[C@@H](O)C[C@@H](O)CC(O)=O)C1=CC=C(F)C=C1)C1=CC=CC=C1',
-          'DB001077':'CC(C)C1=C(C(=O)NC2=CC=CC=C2)C(=C(N1CC[C@@H](O)C[C@@H](O)CC(O)=O)C1=CC=C(F)C=C1)C1=CC=CC=C1',
-          }
-morgan_hashed_dict = {}
-# smile = '[H][C@]12OC[C@@H](O[N+]([O-])=O)[C@@]1([H])OC[C@@H]2O'
-# smile = 'CC(C)C1=C(C(=O)NC2=CC=CC=C2)C(=C(N1CC[C@@H](O)C[C@@H](O)CC(O)=O)C1=CC=C(F)C=C1)C1=CC=CC=C1'
-for drugbank_id, smile in smiles.items():
-    mol = Chem.MolFromSmiles(smile)
-    morgan_hashed = AllChem.GetMorganFingerprintAsBitVect(mol,2,nBits=881)
-    morgan_hashed_dict.update({drugbank_id: morgan_hashed.ToList()})
-    # print(morgan_hashed.ToBitString())
-import pandas as pd
-df = pd.DataFrame(morgan_hashed_dict.values())
-from scipy.spatial.distance import pdist, squareform
-jaccard_dist = 1 - pdist(df.values, metric='jaccard')
-jaccard_dist_matrix = squareform(jaccard_dist)
-print(jaccard_dist_matrix)
-import numpy as np
-import pandas as pd
-# df = pd.DataFrame({'sample':[np.array(range(99999, 99999 + 1000))]})
-df = pd.DataFrame({'sample':[np.random.random_sample((1000,))]})
-df['sample'] = df['sample'].apply(lambda x: str(x).replace('\n', ''))
-df.to_csv('sample.csv', index=False)
-from ast import literal_eval
-new_df = pd.read_csv('sample.csv')
-def fnc(x):
-     return np.array(literal_eval(x.replace('[ ', '[').replace(' ', ',')))
-# new_df['array_col'] = new_df['sample'].apply(lambda x: np.array(literal_eval(x.replace('[ ', '[').replace(' ', ','))))
-new_df['array_col'] = new_df['sample'].apply(lambda x: fnc(x))
-print(new_df.loc[0, 'array_col'][0:10])

ddi_fw/test/torch_cuda_test.py DELETED Viewed

@@ -1,9 +0,0 @@
-import torch
-print(f'PyTorch version: {torch.__version__}')
-print('*'*10)
-print(f'_CUDA version: ')
-# !nvcc --version
-print('*'*10)
-print(f'CUDNN version: {torch.backends.cudnn.version()}')
-print(f'Available GPU devices: {torch.cuda.device_count()}')
-print(f'Device Name: {torch.cuda.get_device_name()}')

ddi_fw/test/type_guarding_test.py DELETED Viewed

@@ -1,18 +0,0 @@
-# from typing import List
-# from itertools import product
-# from ddi_fw.utils import ZipHelper
-# from ddi_fw.utils.enums import DrugBankTextDataTypes, UMLSCodeTypes
-# def generate_pairs(umls_code_types:  List[UMLSCodeTypes] = None, text_types:  List[DrugBankTextDataTypes] = None):
-#     _umls_codes = [t.value[0] for t in umls_code_types]
-#     _text_types = [t.value[0] for t in text_types]
-#     items = [f'{item[0]}_{item[1]}' for item in product(_umls_codes, _text_types)]
-#     print(items)
-# if __name__ == "__main__":
-#     generate_pairs(umls_code_types=[UMLSCodeTypes.TUI, UMLSCodeTypes.ENTITIES], text_types= [DrugBankTextDataTypes.DESCRIPTION])
-# # reveal_type(UMLSCodeTypes.ENTITIES)  # Revealed type is "Literal[Direction.up]?"

{ddi_fw-0.0.149.dist-info → ddi_fw-0.0.151.dist-info}/top_level.txt RENAMED Viewed

File without changes

ddi-fw 0.0.149__py3-none-any.whl → 0.0.151__py3-none-any.whl

ddi-fw 0.0.149py3-none-any.whl → 0.0.151py3-none-any.whl