PyPI - ddi-fw - Versions diffs - 0.0.44__tar.gz → 0.0.46__tar.gz - Mend

ddi-fw 0.0.44tar.gz → 0.0.46tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (91) hide show

{ddi_fw-0.0.44 → ddi_fw-0.0.46}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: ddi_fw
-Version: 0.0.44
+Version: 0.0.46
 Summary: Do not use :)
 Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
 Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>

{ddi_fw-0.0.44 → ddi_fw-0.0.46}/pyproject.toml RENAMED Viewed

@@ -5,7 +5,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "ddi_fw"
-version = "0.0.44"
+version = "0.0.46"
 description = "Do not use :)"
 readme = "README.md"
 authors = [

{ddi_fw-0.0.44 → ddi_fw-0.0.46}/src/ddi_fw/datasets/core.py RENAMED Viewed

@@ -22,7 +22,14 @@ def stack(df_column):
 class BaseDataset(ABC):
-    def __init__(self,embedding_size,embedding_dict, embeddings_pooling_strategy:PoolingStrategy, ner_df, chemical_property_columns, embedding_columns, ner_columns,
+    def __init__(self,
+                 embedding_size,
+                 embedding_dict,
+                 embeddings_pooling_strategy: PoolingStrategy,
+                 ner_df,
+                 chemical_property_columns,
+                 embedding_columns,
+                 ner_columns,
                  **kwargs):
         self.embedding_size = embedding_size
         self.embedding_dict = embedding_dict
@@ -61,7 +68,7 @@ class BaseDataset(ABC):
                           y_train_label, test_data, y_test_label])
         return items
-##remove this function
+# remove this function
     def generate_sim_matrices(self, chemical_properties_df, two_d_dict):
         jaccard_sim_dict = {}
@@ -125,7 +132,7 @@ class BaseDataset(ABC):
         return two_d_dict
-    #todo dictionary içinde ndarray dönsün
+    # todo dictionary içinde ndarray dönsün
     def generate_vectors(self, chemical_properties_df):
         self.stopwatch.reset()
         self.stopwatch.start()
@@ -144,19 +151,23 @@ class BaseDataset(ABC):
         print(f'vector_generation: {self.stopwatch.elapsed}')
-##remove this function
-    def sim(self,chemical_properties_df):
+# remove this function
+    def sim(self, chemical_properties_df):
         self.stopwatch.reset()
         self.stopwatch.start()
-        from scipy.spatial.distance import pdist
+        from scipy.spatial.distance import pdist
         sim_matrix_gen = SimilarityMatrixGenerator()
         drugbank_ids = chemical_properties_df['id'].to_list()
         similarity_matrices = {}
         for column in self.__similarity_related_columns__:
-            df = pd.DataFrame(np.stack(chemical_properties_df[f'{column}_vectors'].values), index = drugbank_ids)
+            df = pd.DataFrame(np.stack(
+                chemical_properties_df[f'{column}_vectors'].values), index=drugbank_ids)
         #   similarity_matrices[column] = 1 - pdist(df.to_numpy(), metric='jaccard')
-            similarity_matrices[column] = sim_matrix_gen.create_jaccard_similarity_matrices(df.to_numpy())
+            similarity_matrices[column] = sim_matrix_gen.create_jaccard_similarity_matrices(
+                df.to_numpy())
         self.stopwatch.stop()
         print(f'sim: {self.stopwatch.elapsed}')
         return similarity_matrices
@@ -177,12 +188,14 @@ class BaseDataset(ABC):
         X = self.dataframe.drop('class', axis=1)
         y = self.dataframe['class']
         X_train, X_test, y_train, y_test = train_test_split(
-            X, y, shuffle=shuffle, test_size=test_size, stratify=np.argmax(np.vstack(y.to_numpy()),axis = 1))
+            X, y, shuffle=shuffle, test_size=test_size, stratify=np.argmax(np.vstack(y.to_numpy()), axis=1))
         # k_fold = KFold(n_splits=fold_size, shuffle=shuffle, random_state=1)
         # folds = k_fold.split(X_train)
-        k_fold = StratifiedKFold(n_splits=fold_size, shuffle=shuffle, random_state=1)
-        folds = k_fold.split(X_train, np.argmax(np.vstack(y_train.to_numpy()),axis = 1))
+        k_fold = StratifiedKFold(
+            n_splits=fold_size, shuffle=shuffle, random_state=1)
+        folds = k_fold.split(X_train, np.argmax(
+            np.vstack(y_train.to_numpy()), axis=1))
         train_idx_arr = []
         val_idx_arr = []
         for i, (train_index, val_index) in enumerate(folds):
@@ -269,7 +282,7 @@ class BaseDataset(ABC):
         #         lambda x: {x.id: x[f'{embedding_column}_embedding']}, axis=1)
         #     x = {k: v for l in d.values.tolist() for k, v in l.items()}
         #     embedding_dict[embedding_column] = x
         # self.ner_df = CTakesNER().load()
         drug_names = self.drugs_df['name'].to_list()
         drug_ids = self.drugs_df['id'].to_list()
@@ -354,7 +367,7 @@ class BaseDataset(ABC):
         # def similarity_lambda_fnc(row, value):
         #     if row['id1'] in value and row['id2'] in value:
         #         return value[row['id1']][row['id2']]
         def similarity_lambda_fnc(row, value):
             if row['id1'] in value:
                 return value[row['id1']]
@@ -366,7 +379,7 @@ class BaseDataset(ABC):
                 # return np.hstack(
                 #     (value[row['id1']], value[row['id2']]), dtype=np.float16)
-        def x_fnc(row, embedding_column,embeddings_after_pooling):
+        def x_fnc(row, embedding_column, embeddings_after_pooling):
             if row['id1'] in self.embedding_dict[embedding_column]:
                 v1 = embeddings_after_pooling[embedding_column][row['id1']]
             else:
@@ -387,10 +400,11 @@ class BaseDataset(ABC):
         for embedding_column in self.embedding_columns:
             print(f"concat {embedding_column} embeddings")
-            embeddings_after_pooling = {k: self.embeddings_pooling_strategy.apply(v) for k,v in self.embedding_dict[embedding_column].items()}
+            embeddings_after_pooling = {k: self.embeddings_pooling_strategy.apply(
+                v) for k, v in self.embedding_dict[embedding_column].items()}
             # column_embeddings_dict = embedding_values[embedding_column]
             self.ddis_df[embedding_column+'_embedding'] = self.ddis_df.apply(
-                x_fnc, args=(embedding_column,embeddings_after_pooling), axis=1)
+                x_fnc, args=(embedding_column, embeddings_after_pooling), axis=1)
         self.dataframe = self.ddis_df.copy()
         self.dataframe['class'] = list(classes)

{ddi_fw-0.0.44 → ddi_fw-0.0.46}/src/ddi_fw/datasets/ddi_mdl/base.py RENAMED Viewed

@@ -1,6 +1,8 @@
 import pathlib
 import pandas as pd
+from ddi_fw.datasets.embedding_generator_new import PoolingStrategy
 from .. import BaseDataset
 from ..db_utils import create_connection
@@ -8,7 +10,7 @@ HERE = pathlib.Path(__file__).resolve().parent
 class DDIMDLDataset(BaseDataset):
-    def __init__(self, embedding_size, embedding_dict, ner_df, chemical_property_columns=['enzyme',
+    def __init__(self, embedding_size, embedding_dict,embeddings_pooling_strategy:PoolingStrategy, ner_df, chemical_property_columns=['enzyme',
                                                    'target',
                                                    'pathway',
                                                    'smile'],
@@ -16,7 +18,7 @@ class DDIMDLDataset(BaseDataset):
                  ner_columns=[],
                  **kwargs):
-        super().__init__(embedding_size, embedding_dict,ner_df, chemical_property_columns, embedding_columns,
+        super().__init__(embedding_size, embedding_dict,ner_df,embeddings_pooling_strategy, chemical_property_columns, embedding_columns,
                          ner_columns, **kwargs)
         # kwargs = {'index_path': str(HERE.joinpath('indexes'))}

{ddi_fw-0.0.44 → ddi_fw-0.0.46}/src/ddi_fw.egg-info/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: ddi_fw
-Version: 0.0.44
+Version: 0.0.46
 Summary: Do not use :)
 Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
 Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>