ddi-fw 0.0.105__tar.gz → 0.0.107__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (102) hide show
  1. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/PKG-INFO +1 -1
  2. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/pyproject.toml +1 -1
  3. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/langchain/storage.py +37 -4
  4. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw.egg-info/PKG-INFO +1 -1
  5. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/README.md +0 -0
  6. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/setup.cfg +0 -0
  7. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/__init__.py +0 -0
  8. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/core.py +0 -0
  9. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/db_utils.py +0 -0
  10. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/base.py +0 -0
  11. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/data/event.db +0 -0
  12. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/test_indexes.txt +0 -0
  13. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_0.txt +0 -0
  14. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_1.txt +0 -0
  15. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_2.txt +0 -0
  16. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_3.txt +0 -0
  17. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_4.txt +0 -0
  18. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/train_indexes.txt +0 -0
  19. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_0.txt +0 -0
  20. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_1.txt +0 -0
  21. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_2.txt +0 -0
  22. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_3.txt +0 -0
  23. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_4.txt +0 -0
  24. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/test_indexes.txt +0 -0
  25. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_0.txt +0 -0
  26. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_1.txt +0 -0
  27. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_2.txt +0 -0
  28. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_3.txt +0 -0
  29. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_4.txt +0 -0
  30. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_indexes.txt +0 -0
  31. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_0.txt +0 -0
  32. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_1.txt +0 -0
  33. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_2.txt +0 -0
  34. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_3.txt +0 -0
  35. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_4.txt +0 -0
  36. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/ddi_mdl/readme.md +0 -0
  37. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/embedding_generator.py +0 -0
  38. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/feature_vector_generation.py +0 -0
  39. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/idf_helper.py +0 -0
  40. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/__init__.py +0 -0
  41. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/base.py +0 -0
  42. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/df_extraction_cleanxiaoyu50.csv +0 -0
  43. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/drug_information_del_noDDIxiaoyu50.csv +0 -0
  44. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/test_indexes.txt +0 -0
  45. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_0.txt +0 -0
  46. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_1.txt +0 -0
  47. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_2.txt +0 -0
  48. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_3.txt +0 -0
  49. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_4.txt +0 -0
  50. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_indexes.txt +0 -0
  51. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_0.txt +0 -0
  52. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_1.txt +0 -0
  53. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_2.txt +0 -0
  54. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_3.txt +0 -0
  55. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_4.txt +0 -0
  56. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/mdf_sa_ddi/mdf-sa-ddi.zip +0 -0
  57. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/datasets/setup_._py +0 -0
  58. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/drugbank/__init__.py +0 -0
  59. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/drugbank/drugbank.xsd +0 -0
  60. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/drugbank/drugbank_parser.py +0 -0
  61. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/drugbank/drugbank_processor.py +0 -0
  62. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/drugbank/drugbank_processor_org.py +0 -0
  63. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/drugbank/event_extractor.py +0 -0
  64. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/langchain/__init__.py +0 -0
  65. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/langchain/embeddings.py +0 -0
  66. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/langchain/sentence_splitter.py +0 -0
  67. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ml/__init__.py +0 -0
  68. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ml/evaluation_helper.py +0 -0
  69. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ml/ml_helper.py +0 -0
  70. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ml/model_wrapper.py +0 -0
  71. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ml/pytorch_wrapper.py +0 -0
  72. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ml/tensorflow_wrapper.py +0 -0
  73. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ner/__init__.py +0 -0
  74. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ner/mmlrestclient.py +0 -0
  75. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/ner/ner.py +0 -0
  76. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/pipeline/__init__.py +0 -0
  77. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/pipeline/multi_modal_combination_strategy.py +0 -0
  78. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/pipeline/multi_pipeline.py +0 -0
  79. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/pipeline/ner_pipeline.py +0 -0
  80. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/pipeline/pipeline.py +0 -0
  81. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/basic_test.py +0 -0
  82. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/combination_test.py +0 -0
  83. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/compress_json_test.py +0 -0
  84. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/date_test.py +0 -0
  85. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/idf_score.py +0 -0
  86. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/jaccard_similarity.py +0 -0
  87. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/mlfow_test.py +0 -0
  88. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/sklearn-tfidf.py +0 -0
  89. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/test.py +0 -0
  90. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/torch_cuda_test.py +0 -0
  91. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/test/type_guarding_test.py +0 -0
  92. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/__init__.py +0 -0
  93. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/enums.py +0 -0
  94. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/kaggle.py +0 -0
  95. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/package_helper.py +0 -0
  96. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/py7zr_helper.py +0 -0
  97. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/utils.py +0 -0
  98. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw/utils/zip_helper.py +0 -0
  99. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw.egg-info/SOURCES.txt +0 -0
  100. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw.egg-info/dependency_links.txt +0 -0
  101. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw.egg-info/requires.txt +0 -0
  102. {ddi_fw-0.0.105 → ddi_fw-0.0.107}/src/ddi_fw.egg-info/top_level.txt +0 -0
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.1
2
2
  Name: ddi_fw
3
- Version: 0.0.105
3
+ Version: 0.0.107
4
4
  Summary: Do not use :)
5
5
  Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
6
6
  Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
@@ -5,7 +5,7 @@ build-backend = "setuptools.build_meta"
5
5
 
6
6
  [project]
7
7
  name = "ddi_fw"
8
- version = "0.0.105"
8
+ version = "0.0.107"
9
9
  description = "Do not use :)"
10
10
  readme = "README.md"
11
11
  authors = [
@@ -10,6 +10,7 @@ from langchain.docstore.document import Document
10
10
  from langchain.document_loaders import DataFrameLoader
11
11
 
12
12
  from langchain.text_splitter import TextSplitter
13
+ import numpy as np
13
14
 
14
15
  # from langchain_community.document_loaders.hugging_face_dataset import HuggingFaceDatasetLoader
15
16
  from ddi_fw.langchain.embeddings import SBertEmbeddings
@@ -24,6 +25,34 @@ def load_configuration(config_file):
24
25
  config = json.load(f)
25
26
  return config
26
27
 
28
+ def split_dataframe(df, min_size=512, max_size=1024):
29
+ # Ensure the total size of the DataFrame is larger than the desired split size
30
+ total_size = len(df)
31
+
32
+ # Check if the dataframe is large enough
33
+ if total_size <= min_size:
34
+ return df
35
+
36
+ # List to store partial DataFrames
37
+ partial_dfs = []
38
+
39
+ # Start splitting the DataFrame
40
+ start_idx = 0
41
+
42
+ while start_idx < total_size:
43
+ # Calculate the size of the next chunk: it should be between min_size and max_size
44
+ chunk_size = np.random.randint(min_size, max_size + 1)
45
+
46
+ # Ensure that the chunk size does not exceed the remaining data
47
+ chunk_size = min(chunk_size, total_size - start_idx)
48
+
49
+ # Create the partial DataFrame and append to the list
50
+ partial_dfs.append(df.iloc[start_idx:start_idx + chunk_size])
51
+
52
+ # Update the start index for the next chunk
53
+ start_idx += chunk_size
54
+
55
+ return partial_dfs
27
56
 
28
57
  class DataFrameToVectorDB:
29
58
  def __init__(self,
@@ -83,11 +112,15 @@ class DataFrameToVectorDB:
83
112
  Store function to handle both full and partial dataframe processing.
84
113
  """
85
114
  if partial_df_size:
86
- # Process the dataframe in chunks if partial_df_size is provided
87
- for i in range(0, len(df), partial_df_size):
88
- batch = df[i: i + partial_df_size]
89
- self.store_documents(df=batch, columns=columns,
115
+ partial_dfs = split_dataframe(df, min_size = partial_df_size)
116
+ for partial_df in partial_dfs:
117
+ self.store_documents(df=partial_df, columns=columns,
90
118
  page_content_columns=page_content_columns)
119
+ # Process the dataframe in chunks if partial_df_size is provided
120
+ # for i in range(0, len(df), partial_df_size):
121
+ # batch = df[i: i + partial_df_size]
122
+ # self.store_documents(df=batch, columns=columns,
123
+ # page_content_columns=page_content_columns)
91
124
  else:
92
125
  # Process the entire dataframe if no partial_df_size is specified
93
126
  self.store_documents(df=df, columns=columns,
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.1
2
2
  Name: ddi_fw
3
- Version: 0.0.105
3
+ Version: 0.0.107
4
4
  Summary: Do not use :)
5
5
  Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
6
6
  Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
File without changes
File without changes
File without changes