ddi-fw 0.0.108__tar.gz → 0.0.109__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (102) hide show
  1. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/PKG-INFO +1 -1
  2. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/pyproject.toml +1 -1
  3. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/langchain/storage.py +39 -2
  4. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw.egg-info/PKG-INFO +1 -1
  5. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/README.md +0 -0
  6. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/setup.cfg +0 -0
  7. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/__init__.py +0 -0
  8. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/core.py +0 -0
  9. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/db_utils.py +0 -0
  10. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/base.py +0 -0
  11. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/data/event.db +0 -0
  12. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/test_indexes.txt +0 -0
  13. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_0.txt +0 -0
  14. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_1.txt +0 -0
  15. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_2.txt +0 -0
  16. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_3.txt +0 -0
  17. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/train_fold_4.txt +0 -0
  18. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/train_indexes.txt +0 -0
  19. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_0.txt +0 -0
  20. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_1.txt +0 -0
  21. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_2.txt +0 -0
  22. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_3.txt +0 -0
  23. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes/validation_fold_4.txt +0 -0
  24. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/test_indexes.txt +0 -0
  25. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_0.txt +0 -0
  26. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_1.txt +0 -0
  27. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_2.txt +0 -0
  28. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_3.txt +0 -0
  29. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_fold_4.txt +0 -0
  30. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/train_indexes.txt +0 -0
  31. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_0.txt +0 -0
  32. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_1.txt +0 -0
  33. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_2.txt +0 -0
  34. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_3.txt +0 -0
  35. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/indexes_old/validation_fold_4.txt +0 -0
  36. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/ddi_mdl/readme.md +0 -0
  37. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/embedding_generator.py +0 -0
  38. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/feature_vector_generation.py +0 -0
  39. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/idf_helper.py +0 -0
  40. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/__init__.py +0 -0
  41. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/base.py +0 -0
  42. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/df_extraction_cleanxiaoyu50.csv +0 -0
  43. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/drug_information_del_noDDIxiaoyu50.csv +0 -0
  44. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/test_indexes.txt +0 -0
  45. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_0.txt +0 -0
  46. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_1.txt +0 -0
  47. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_2.txt +0 -0
  48. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_3.txt +0 -0
  49. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_fold_4.txt +0 -0
  50. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/train_indexes.txt +0 -0
  51. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_0.txt +0 -0
  52. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_1.txt +0 -0
  53. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_2.txt +0 -0
  54. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_3.txt +0 -0
  55. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/indexes/validation_fold_4.txt +0 -0
  56. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/mdf_sa_ddi/mdf-sa-ddi.zip +0 -0
  57. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/datasets/setup_._py +0 -0
  58. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/drugbank/__init__.py +0 -0
  59. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/drugbank/drugbank.xsd +0 -0
  60. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/drugbank/drugbank_parser.py +0 -0
  61. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/drugbank/drugbank_processor.py +0 -0
  62. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/drugbank/drugbank_processor_org.py +0 -0
  63. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/drugbank/event_extractor.py +0 -0
  64. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/langchain/__init__.py +0 -0
  65. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/langchain/embeddings.py +0 -0
  66. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/langchain/sentence_splitter.py +0 -0
  67. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ml/__init__.py +0 -0
  68. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ml/evaluation_helper.py +0 -0
  69. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ml/ml_helper.py +0 -0
  70. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ml/model_wrapper.py +0 -0
  71. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ml/pytorch_wrapper.py +0 -0
  72. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ml/tensorflow_wrapper.py +0 -0
  73. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ner/__init__.py +0 -0
  74. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ner/mmlrestclient.py +0 -0
  75. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/ner/ner.py +0 -0
  76. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/pipeline/__init__.py +0 -0
  77. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/pipeline/multi_modal_combination_strategy.py +0 -0
  78. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/pipeline/multi_pipeline.py +0 -0
  79. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/pipeline/ner_pipeline.py +0 -0
  80. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/pipeline/pipeline.py +0 -0
  81. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/basic_test.py +0 -0
  82. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/combination_test.py +0 -0
  83. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/compress_json_test.py +0 -0
  84. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/date_test.py +0 -0
  85. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/idf_score.py +0 -0
  86. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/jaccard_similarity.py +0 -0
  87. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/mlfow_test.py +0 -0
  88. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/sklearn-tfidf.py +0 -0
  89. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/test.py +0 -0
  90. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/torch_cuda_test.py +0 -0
  91. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/test/type_guarding_test.py +0 -0
  92. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/__init__.py +0 -0
  93. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/enums.py +0 -0
  94. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/kaggle.py +0 -0
  95. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/package_helper.py +0 -0
  96. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/py7zr_helper.py +0 -0
  97. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/utils.py +0 -0
  98. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw/utils/zip_helper.py +0 -0
  99. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw.egg-info/SOURCES.txt +0 -0
  100. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw.egg-info/dependency_links.txt +0 -0
  101. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw.egg-info/requires.txt +0 -0
  102. {ddi_fw-0.0.108 → ddi_fw-0.0.109}/src/ddi_fw.egg-info/top_level.txt +0 -0
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.1
2
2
  Name: ddi_fw
3
- Version: 0.0.108
3
+ Version: 0.0.109
4
4
  Summary: Do not use :)
5
5
  Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
6
6
  Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
@@ -5,7 +5,7 @@ build-backend = "setuptools.build_meta"
5
5
 
6
6
  [project]
7
7
  name = "ddi_fw"
8
- version = "0.0.108"
8
+ version = "0.0.109"
9
9
  description = "Do not use :)"
10
10
  readme = "README.md"
11
11
  authors = [
@@ -57,6 +57,42 @@ def split_dataframe(df, min_size=512):
57
57
 
58
58
  return partial_dfs
59
59
 
60
+ def split_dataframe_indices(df, min_size=512):
61
+ total_size = len(df)
62
+
63
+ # If the dataframe is smaller than min_size, return the entire range
64
+ if total_size <= min_size:
65
+ return [(0, total_size - 1)]
66
+
67
+ # List to store the start and end indices of each chunk
68
+ chunk_indices = []
69
+ start_idx = 0
70
+
71
+ # Calculate the minimum number of chunks needed to ensure each chunk has at least min_size
72
+ num_chunks = total_size // min_size
73
+ remaining_rows = total_size
74
+
75
+ # Split into chunks
76
+ for i in range(num_chunks):
77
+ chunk_size = min_size
78
+ if (remaining_rows - chunk_size) < min_size:
79
+ chunk_size = remaining_rows # Last chunk takes all remaining rows
80
+
81
+ # Calculate the ending index of the chunk (exclusive, hence chunk_size - 1)
82
+ end_idx = start_idx + chunk_size - 1
83
+ chunk_indices.append((start_idx, end_idx))
84
+
85
+ # Update the start index and remaining rows
86
+ start_idx += chunk_size
87
+ remaining_rows -= chunk_size
88
+
89
+ # If there are any remaining rows after the loop, they should form the last chunk
90
+ if remaining_rows > 0:
91
+ end_idx = start_idx + remaining_rows - 1
92
+ chunk_indices.append((start_idx, end_idx))
93
+
94
+ return chunk_indices
95
+
60
96
  class DataFrameToVectorDB:
61
97
  def __init__(self,
62
98
  collection_name,
@@ -78,8 +114,9 @@ class DataFrameToVectorDB:
78
114
  return docs
79
115
 
80
116
  def __split_list(self, input_list, batch_size):
81
- for i in range(0, len(input_list), batch_size):
82
- yield input_list[i:i + batch_size]
117
+ # for i in range(0, len(input_list), batch_size):
118
+ for s,e in split_dataframe_indices(input_list):
119
+ yield input_list[s:e+1]
83
120
 
84
121
  def store_documents(self, df, columns, page_content_columns):
85
122
  """
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.1
2
2
  Name: ddi_fw
3
- Version: 0.0.108
3
+ Version: 0.0.109
4
4
  Summary: Do not use :)
5
5
  Author-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
6
6
  Maintainer-email: Kıvanç Bayraktar <bayraktarkivanc@gmail.com>
File without changes
File without changes
File without changes