PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (527) hide show

mteb/models/model_implementations/misc_models.py CHANGED Viewed

@@ -13,6 +13,7 @@ from .sentence_transformers_models import sent_trf_training_dataset
 Haon_Chen__speed_embedding_7b_instruct = ModelMeta(
     loader=sentence_transformers_loader,
     name="Haon-Chen/speed-embedding-7b-instruct",
+    model_type=["dense"],
     revision="c167e9a8144b397622ce47b85d9edcdeecef3d3f",
     release_date="2024-10-31",
     languages=["eng-Latn"],
@@ -24,16 +25,23 @@ Haon_Chen__speed_embedding_7b_instruct = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/Haon-Chen/speed-embedding-7b-instruct",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from="mistralai/Mistral-7B-v0.1",
     superseded_by=None,
+    citation="""@article{chen2024little,
+    title={Little Giants: Synthesizing High-Quality Embedding Data at Scale},
+    author={Chen, Haonan and Wang, Liang and Yang, Nan and Zhu, Yutao and Zhao, Ziliang and Wei, Furu and Dou, Zhicheng},
+    journal={arXiv preprint arXiv:2410.18634},
+    year={2024}
+}""",
 )
 Gameselo__STS_multilingual_mpnet_base_v2 = ModelMeta(
     name="Gameselo/STS-multilingual-mpnet-base-v2",
+    model_type=["dense"],
     revision="449f917af30f590fc31f9ffb226c94f21a2f47b8",
     release_date="2024-06-07",
     languages=[],
@@ -46,7 +54,7 @@ Gameselo__STS_multilingual_mpnet_base_v2 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Gameselo/STS-multilingual-mpnet-base-v2",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -121,10 +129,20 @@ Gameselo__STS_multilingual_mpnet_base_v2 = ModelMeta(
     },
     adapted_from="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Hum_Works__lodestone_base_4096_v1 = ModelMeta(
     name="Hum-Works/lodestone-base-4096-v1",
+    model_type=["dense"],
     revision="9bbc2d0b57dd2198aea029404b0f976712a7d966",
     release_date="2023-08-25",
     languages=["eng-Latn"],
@@ -137,7 +155,7 @@ Hum_Works__lodestone_base_4096_v1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers"],
     reference="https://huggingface.co/Hum-Works/lodestone-base-4096-v1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -191,6 +209,7 @@ Hum_Works__lodestone_base_4096_v1 = ModelMeta(
 )
 Jaume__gemma_2b_embeddings = ModelMeta(
     name="Jaume/gemma-2b-embeddings",
+    model_type=["dense"],
     revision="86431f65d7c3f66b2af096c61e614a2958f191f1",
     release_date="2024-06-29",
     languages=[],
@@ -203,7 +222,7 @@ Jaume__gemma_2b_embeddings = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Jaume/gemma-2b-embeddings",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -222,6 +241,7 @@ bilingual_embedding_training_data = {
 Lajavaness__bilingual_embedding_base = ModelMeta(
     name="Lajavaness/bilingual-embedding-base",
+    model_type=["dense"],
     revision="0bfc54bb2aa2666dd84715289c7ef58a95eb4d8d",
     release_date="2024-06-26",
     languages=None,
@@ -237,16 +257,40 @@ Lajavaness__bilingual_embedding_base = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/Lajavaness/bilingual-embedding-base",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=bilingual_embedding_training_data,
     adapted_from="dangvantuan/bilingual_impl",
     superseded_by=None,
+    citation="""
+    @article{conneau2019unsupervised,
+  title={Unsupervised cross-lingual representation learning at scale},
+  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
+  journal={arXiv preprint arXiv:1911.02116},
+  year={2019}
+}
+@article{reimers2019sentence,
+   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
+   author={Nils Reimers, Iryna Gurevych},
+   journal={https://arxiv.org/abs/1908.10084},
+   year={2019}
+}
+@article{thakur2020augmented,
+  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
+  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
+  journal={arXiv e-prints},
+  pages={arXiv--2010},
+  year={2020}
+}
+""",
 )
 Lajavaness__bilingual_embedding_large = ModelMeta(
     name="Lajavaness/bilingual-embedding-large",
+    model_type=["dense"],
     revision="e83179d7a66e8aed1b3015e98bb5ae234ed89598",
     release_date="2024-06-24",
     languages=["fra-Latn", "eng-Latn"],
@@ -262,16 +306,40 @@ Lajavaness__bilingual_embedding_large = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/Lajavaness/bilingual-embedding-large",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=bilingual_embedding_training_data,
     adapted_from="dangvantuan/bilingual_impl",
     superseded_by=None,
+    citation="""
+    @article{conneau2019unsupervised,
+  title={Unsupervised cross-lingual representation learning at scale},
+  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
+  journal={arXiv preprint arXiv:1911.02116},
+  year={2019}
+}
+@article{reimers2019sentence,
+   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
+   author={Nils Reimers, Iryna Gurevych},
+   journal={https://arxiv.org/abs/1908.10084},
+   year={2019}
+}
+@article{thakur2020augmented,
+  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
+  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
+  journal={arXiv e-prints},
+  pages={arXiv--2010},
+  year={2020}
+}
+""",
 )
 Lajavaness__bilingual_embedding_small = ModelMeta(
     name="Lajavaness/bilingual-embedding-small",
+    model_type=["dense"],
     revision="ed4a1dd814de0db81d4a4e287c296a03194463e3",
     release_date="2024-07-17",
     languages=["fra-Latn", "eng-Latn"],
@@ -287,16 +355,40 @@ Lajavaness__bilingual_embedding_small = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/Lajavaness/bilingual-embedding-small",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=bilingual_embedding_training_data,
     adapted_from="dangvantuan/bilingual_impl",
     superseded_by=None,
+    citation="""
+    @article{conneau2019unsupervised,
+  title={Unsupervised cross-lingual representation learning at scale},
+  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
+  journal={arXiv preprint arXiv:1911.02116},
+  year={2019}
+}
+@article{reimers2019sentence,
+   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
+   author={Nils Reimers, Iryna Gurevych},
+   journal={https://arxiv.org/abs/1908.10084},
+   year={2019}
+}
+@article{thakur2020augmented,
+  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
+  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
+  journal={arXiv e-prints},
+  pages={arXiv--2010},
+  year={2020}
+}
+""",
 )
 Mihaiii__Bulbasaur = ModelMeta(
     name="Mihaiii/Bulbasaur",
+    model_type=["dense"],
     revision="6876f839e18ae36224049a41194a431953f08747",
     release_date="2024-04-27",
     languages=None,
@@ -309,7 +401,7 @@ Mihaiii__Bulbasaur = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/Bulbasaur",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -320,6 +412,7 @@ Mihaiii__Bulbasaur = ModelMeta(
 )
 Mihaiii__Ivysaur = ModelMeta(
     name="Mihaiii/Ivysaur",
+    model_type=["dense"],
     revision="65914d976f45beb4bda7485c39d88865b4ce6554",
     release_date="2024-04-27",
     languages=None,
@@ -332,7 +425,7 @@ Mihaiii__Ivysaur = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/Ivysaur",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -343,6 +436,7 @@ Mihaiii__Ivysaur = ModelMeta(
 )
 Mihaiii__Squirtle = ModelMeta(
     name="Mihaiii/Squirtle",
+    model_type=["dense"],
     revision="5b991da48a9286637a256d4a35aab87a1a57b78a",
     release_date="2024-04-30",
     languages=None,
@@ -355,7 +449,7 @@ Mihaiii__Squirtle = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/Squirtle",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -366,6 +460,7 @@ Mihaiii__Squirtle = ModelMeta(
 )
 Mihaiii__Venusaur = ModelMeta(
     name="Mihaiii/Venusaur",
+    model_type=["dense"],
     revision="0dc817f0addbb7bab8feeeeaded538f9ffeb3419",
     release_date="2024-04-29",
     languages=None,
@@ -378,7 +473,7 @@ Mihaiii__Venusaur = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/Venusaur",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -389,6 +484,7 @@ Mihaiii__Venusaur = ModelMeta(
 )
 Mihaiii__Wartortle = ModelMeta(
     name="Mihaiii/Wartortle",
+    model_type=["dense"],
     revision="14caca5253414d38a7d28b62d1b7c30ef3293a87",
     release_date="2024-04-30",
     languages=None,
@@ -401,7 +497,7 @@ Mihaiii__Wartortle = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/Wartortle",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -412,6 +508,7 @@ Mihaiii__Wartortle = ModelMeta(
 )
 Mihaiii__gte_micro = ModelMeta(
     name="Mihaiii/gte-micro",
+    model_type=["dense"],
     revision="6fd2397cb9dfa7c901aedf9a2a44d3c888ccafdd",
     release_date="2024-04-21",
     languages=None,
@@ -424,7 +521,7 @@ Mihaiii__gte_micro = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/gte-micro",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -434,6 +531,7 @@ Mihaiii__gte_micro = ModelMeta(
 )
 Mihaiii__gte_micro_v4 = ModelMeta(
     name="Mihaiii/gte-micro-v4",
+    model_type=["dense"],
     revision="78e1a4b348f8524c3ab2e3e3475788f5adb8c98f",
     release_date="2024-04-22",
     languages=None,
@@ -446,7 +544,7 @@ Mihaiii__gte_micro_v4 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/Mihaiii/gte-micro-v4",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -456,6 +554,7 @@ Mihaiii__gte_micro_v4 = ModelMeta(
 )
 OrdalieTech__Solon_embeddings_large_0_1 = ModelMeta(
     name="OrdalieTech/Solon-embeddings-large-0.1",
+    model_type=["dense"],
     revision="9f6465f6ea2f6d10c6294bc15d84edf87d47cdef",
     release_date="2023-12-09",
     languages=["fra-Latn"],
@@ -468,7 +567,7 @@ OrdalieTech__Solon_embeddings_large_0_1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/OrdalieTech/Solon-embeddings-large-0.1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -478,6 +577,7 @@ OrdalieTech__Solon_embeddings_large_0_1 = ModelMeta(
 )
 Omartificial_Intelligence_Space__Arabert_all_nli_triplet_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabert-all-nli-triplet-Matryoshka",
+    model_type=["dense"],
     revision="d0361a36f6fe69febfc8550d0918abab174f6f30",
     release_date="2024-06-16",
     languages=["ara-Arab"],
@@ -490,16 +590,26 @@ Omartificial_Intelligence_Space__Arabert_all_nli_triplet_Matryoshka = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/Omartificial-Intelligence-Space/Arabert-all-nli-triplet-Matryoshka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=set(),  # not in MTEB: {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="aubmindlab/bert-base-arabertv02",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Arabic_MiniLM_L12_v2_all_nli_triplet = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-MiniLM-L12-v2-all-nli-triplet",
+    model_type=["dense"],
     revision="6916465c43b984e955aa6dc72851474f0128f428",
     release_date="2024-06-25",
     languages=["ara-Arab"],
@@ -512,7 +622,7 @@ Omartificial_Intelligence_Space__Arabic_MiniLM_L12_v2_all_nli_triplet = ModelMet
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Omartificial-Intelligence-Space/Arabic-MiniLM-L12-v2-all-nli-triplet",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -524,6 +634,7 @@ Omartificial_Intelligence_Space__Arabic_MiniLM_L12_v2_all_nli_triplet = ModelMet
 )
 Omartificial_Intelligence_Space__Arabic_all_nli_triplet_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka",
+    model_type=["dense"],
     revision="1ca467cc576bd76666a4d21b24ee43afa914dd10",
     release_date="2024-06-14",
     languages=["ara-Arab"],
@@ -536,7 +647,7 @@ Omartificial_Intelligence_Space__Arabic_all_nli_triplet_Matryoshka = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -545,9 +656,19 @@ Omartificial_Intelligence_Space__Arabic_all_nli_triplet_Matryoshka = ModelMeta(
     # {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Arabic_labse_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-labse-Matryoshka",
+    model_type=["dense"],
     revision="ee6d5e33c78ed582ade47fd452a74ea52aa5bfe2",
     release_date="2024-06-16",
     languages=["ara-Arab"],
@@ -560,7 +681,7 @@ Omartificial_Intelligence_Space__Arabic_labse_Matryoshka = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Omartificial-Intelligence-Space/Arabic-labse-Matryoshka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -569,9 +690,19 @@ Omartificial_Intelligence_Space__Arabic_labse_Matryoshka = ModelMeta(
     # {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="sentence-transformers/LaBSE",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Arabic_mpnet_base_all_nli_triplet = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-mpnet-base-all-nli-triplet",
+    model_type=["dense"],
     revision="2628cb641e040f44328195fadcdfb58e6d5cffa7",
     release_date="2024-06-15",
     languages=["ara-Arab"],
@@ -584,7 +715,7 @@ Omartificial_Intelligence_Space__Arabic_mpnet_base_all_nli_triplet = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Omartificial-Intelligence-Space/Arabic-mpnet-base-all-nli-triplet",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -593,9 +724,19 @@ Omartificial_Intelligence_Space__Arabic_mpnet_base_all_nli_triplet = ModelMeta(
     # {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="tomaarsen/mpnet-base-all-nli-triplet",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Marbert_all_nli_triplet_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Marbert-all-nli-triplet-Matryoshka",
+    model_type=["dense"],
     revision="ecf3274e164f057c4a3dd70691cae0265d87a9d0",
     release_date="2024-06-17",
     languages=["ara-Arab"],
@@ -608,16 +749,26 @@ Omartificial_Intelligence_Space__Marbert_all_nli_triplet_Matryoshka = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Omartificial-Intelligence-Space/Marbert-all-nli-triplet-Matryoshka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=set(),  # not in MTEB: "Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="UBC-NLP/MARBERTv2",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 consciousai__cai_lunaris_text_embeddings = ModelMeta(
     name="consciousAI/cai-lunaris-text-embeddings",
+    model_type=["dense"],
     revision="8332c464d13505968ff7a6e2213f36fd8730b4c7",
     release_date="2023-06-22",
     languages=None,
@@ -630,7 +781,7 @@ consciousai__cai_lunaris_text_embeddings = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "Transformers"],
     reference="https://huggingface.co/consciousAI/cai-lunaris-text-embeddings",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -640,6 +791,7 @@ consciousai__cai_lunaris_text_embeddings = ModelMeta(
 )
 consciousai__cai_stellaris_text_embeddings = ModelMeta(
     name="consciousAI/cai-stellaris-text-embeddings",
+    model_type=["dense"],
     revision="c000ec4b29588daf0f4a0b2ad4e72ee807d8efc0",
     release_date="2023-06-23",
     languages=None,
@@ -652,7 +804,7 @@ consciousai__cai_stellaris_text_embeddings = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers"],
     reference="https://huggingface.co/consciousAI/cai-stellaris-text-embeddings",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -671,6 +823,7 @@ SENTENCE_CROISSANT_TRAINING_DATA = {
 }
 manu__sentence_croissant_alpha_v0_2 = ModelMeta(
     name="manu/sentence_croissant_alpha_v0.2",
+    model_type=["dense"],
     revision="4610b8cea65d7dd59e0b04af50753933fe5b29b2",
     release_date="2024-03-15",
     languages=None,
@@ -683,7 +836,7 @@ manu__sentence_croissant_alpha_v0_2 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/manu/sentence_croissant_alpha_v0.2",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -693,6 +846,7 @@ manu__sentence_croissant_alpha_v0_2 = ModelMeta(
 )
 manu__sentence_croissant_alpha_v0_3 = ModelMeta(
     name="manu/sentence_croissant_alpha_v0.3",
+    model_type=["dense"],
     revision="4ac16754f3d81aba76cc32955dc9ee4122df96eb",
     release_date="2024-04-26",
     languages=None,
@@ -705,7 +859,7 @@ manu__sentence_croissant_alpha_v0_3 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/manu/sentence_croissant_alpha_v0.3",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -715,6 +869,7 @@ manu__sentence_croissant_alpha_v0_3 = ModelMeta(
 )
 manu__sentence_croissant_alpha_v0_4 = ModelMeta(
     name="manu/sentence_croissant_alpha_v0.4",
+    model_type=["dense"],
     revision="0ce6372e6a3c21134dcf26dcde13cca869c767fc",
     release_date="2024-04-27",
     languages=["fra-Latn", "eng-Latn"],
@@ -727,7 +882,7 @@ manu__sentence_croissant_alpha_v0_4 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/manu/sentence_croissant_alpha_v0.4",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -738,6 +893,7 @@ manu__sentence_croissant_alpha_v0_4 = ModelMeta(
 )
 thenlper__gte_base = ModelMeta(
     name="thenlper/gte-base",
+    model_type=["dense"],
     revision="c078288308d8dee004ab72c6191778064285ec0c",
     release_date="2023-07-27",
     languages=["eng-Latn"],
@@ -750,16 +906,23 @@ thenlper__gte_base = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/thenlper/gte-base",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 thenlper__gte_large = ModelMeta(
     name="thenlper/gte-large",
+    model_type=["dense"],
     revision="4bef63f39fcc5e2d6b0aae83089f307af4970164",
     release_date="2023-07-27",
     languages=["eng-Latn"],
@@ -772,16 +935,23 @@ thenlper__gte_large = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/thenlper/gte-large",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 thenlper__gte_small = ModelMeta(
     name="thenlper/gte-small",
+    model_type=["dense"],
     revision="17e1f347d17fe144873b1201da91788898c639cd",
     release_date="2023-07-27",
     languages=["eng-Latn"],
@@ -794,16 +964,23 @@ thenlper__gte_small = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/thenlper/gte-small",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 OrlikB__KartonBERT_USE_base_v1 = ModelMeta(
     name="OrlikB/KartonBERT-USE-base-v1",
+    model_type=["dense"],
     revision="1f59dd58fe57995c0e867d5e29f03763eae99645",
     release_date="2024-09-30",
     languages=["pol-Latn"],
@@ -826,6 +1003,7 @@ OrlikB__KartonBERT_USE_base_v1 = ModelMeta(
 )
 OrlikB__st_polish_kartonberta_base_alpha_v1 = ModelMeta(
     name="OrlikB/st-polish-kartonberta-base-alpha-v1",
+    model_type=["dense"],
     revision="5590a0e2d7bb43674e44d7076b3ff157f7d4a1cb",
     release_date="2023-11-12",
     languages=["pol-Latn"],
@@ -848,6 +1026,7 @@ OrlikB__st_polish_kartonberta_base_alpha_v1 = ModelMeta(
 )
 sdadas__mmlw_e5_base = ModelMeta(
     name="sdadas/mmlw-e5-base",
+    model_type=["dense"],
     revision="f10628ed55b5ec400502aff439bd714a6da0af30",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -860,16 +1039,25 @@ sdadas__mmlw_e5_base = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/sdadas/mmlw-e5-base",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/multilingual-e5-base",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 dwzhu__e5_base_4k = ModelMeta(
     name="dwzhu/e5-base-4k",
+    model_type=["dense"],
     revision="1b5664b8cb2bccd8c309429b7bfe5864402e8fbc",
     release_date="2024-03-28",
     languages=["eng-Latn"],
@@ -882,16 +1070,23 @@ dwzhu__e5_base_4k = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers"],
     reference="https://huggingface.co/dwzhu/e5-base-4k",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/e5-base-v2",
     superseded_by=None,
+    citation="""@article{zhu2024longembed,
+  title={LongEmbed: Extending Embedding Models for Long Context Retrieval},
+  author={Zhu, Dawei and Wang, Liang and Yang, Nan and Song, Yifan and Wu, Wenhao and Wei, Furu and Li, Sujian},
+  journal={arXiv preprint arXiv:2404.12096},
+  year={2024}
+}""",
 )
 sdadas__mmlw_e5_large = ModelMeta(
     name="sdadas/mmlw-e5-large",
+    model_type=["dense"],
     revision="5c143fb045ebed664fd85b43fc45155999eb110f",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -904,16 +1099,25 @@ sdadas__mmlw_e5_large = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/sdadas/mmlw-e5-large",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/multilingual-e5-large",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 sdadas__mmlw_e5_small = ModelMeta(
     name="sdadas/mmlw-e5-small",
+    model_type=["dense"],
     revision="ff1298cb6d997f18b794d2f3d73cad2ba2ad739a",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -926,16 +1130,25 @@ sdadas__mmlw_e5_small = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/sdadas/mmlw-e5-small",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/multilingual-e5-small",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 sdadas__mmlw_roberta_base = ModelMeta(
     name="sdadas/mmlw-roberta-base",
+    model_type=["dense"],
     revision="0ac7f23f6c96af601fa6a17852bd08d5136d6365",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -948,16 +1161,25 @@ sdadas__mmlw_roberta_base = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/sdadas/mmlw-roberta-base",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets={"MSMARCO"},
     adapted_from="sdadas/polish-roberta-base-v2",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 sdadas__mmlw_roberta_large = ModelMeta(
     name="sdadas/mmlw-roberta-large",
+    model_type=["dense"],
     revision="b8058066a8de32d0737b3cd82d8b4f4108745af9",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -970,13 +1192,21 @@ sdadas__mmlw_roberta_large = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/sdadas/mmlw-roberta-large",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets={"MSMARCO"},
     adapted_from="sdadas/polish-roberta-large-v2",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 udever_dataset = {  # discussed here: https://github.com/embeddings-benchmark/mteb/issues/2193
@@ -1035,6 +1265,7 @@ udever_languages = [
 izhx__udever_bloom_1b1 = ModelMeta(
     name="izhx/udever-bloom-1b1",
+    model_type=["dense"],
     revision="7bf1ee29878cb040b2708a691aa4b61f27eaa252",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1047,16 +1278,23 @@ izhx__udever_bloom_1b1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers"],
     reference="https://huggingface.co/izhx/udever-bloom-1b1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-1b1",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 izhx__udever_bloom_3b = ModelMeta(
     name="izhx/udever-bloom-3b",
+    model_type=["dense"],
     revision="4edd8affe80ca89ba0f6b6ba4103fc7f25fc57b2",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1069,16 +1307,23 @@ izhx__udever_bloom_3b = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers"],
     reference="https://huggingface.co/izhx/udever-bloom-3b",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-3b",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 izhx__udever_bloom_560m = ModelMeta(
     name="izhx/udever-bloom-560m",
+    model_type=["dense"],
     revision="b2a723e355946ec5a5c5fbed3459766627ded2bb",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1091,16 +1336,23 @@ izhx__udever_bloom_560m = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers"],
     reference="https://huggingface.co/izhx/udever-bloom-560m",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-560m",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 izhx__udever_bloom_7b1 = ModelMeta(
     name="izhx/udever-bloom-7b1",
+    model_type=["dense"],
     revision="18e8d3e6dbd94868584877f2e72a105a17df22ef",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1113,16 +1365,23 @@ izhx__udever_bloom_7b1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers"],
     reference="https://huggingface.co/izhx/udever-bloom-7b1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-7b1",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 avsolatorio__gist_embedding_v0 = ModelMeta(
     name="avsolatorio/GIST-Embedding-v0",
+    model_type=["dense"],
     revision="bf6b2e55e92f510a570ad4d7d2da2ec8cd22590c",
     release_date="2024-01-31",
     languages=["eng-Latn"],
@@ -1135,7 +1394,7 @@ avsolatorio__gist_embedding_v0 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/avsolatorio/GIST-Embedding-v0",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1159,9 +1418,20 @@ avsolatorio__gist_embedding_v0 = ModelMeta(
     | bge_training_data,
     adapted_from="BAAI/bge-large-en-v1.5",
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 avsolatorio__gist_all_minilm_l6_v2 = ModelMeta(
     name="avsolatorio/GIST-all-MiniLM-L6-v2",
+    model_type=["dense"],
     revision="ea89dfad053bba14677bb784a4269898abbdce44",
     release_date="2024-02-03",
     languages=["eng-Latn"],
@@ -1174,7 +1444,7 @@ avsolatorio__gist_all_minilm_l6_v2 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/avsolatorio/GIST-all-MiniLM-L6-v2",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1198,9 +1468,20 @@ avsolatorio__gist_all_minilm_l6_v2 = ModelMeta(
     | bge_training_data,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 avsolatorio__gist_large_embedding_v0 = ModelMeta(
     name="avsolatorio/GIST-large-Embedding-v0",
+    model_type=["dense"],
     revision="7831200e2f7819b994490c091cf3258a2b821f0c",
     release_date="2024-02-14",
     languages=["eng-Latn"],
@@ -1213,7 +1494,7 @@ avsolatorio__gist_large_embedding_v0 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/avsolatorio/GIST-large-Embedding-v0",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1237,9 +1518,20 @@ avsolatorio__gist_large_embedding_v0 = ModelMeta(
     | bge_training_data,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 avsolatorio__gist_small_embedding_v0 = ModelMeta(
     name="avsolatorio/GIST-small-Embedding-v0",
+    model_type=["dense"],
     revision="d6c4190f9e01b9994dc7cac99cf2f2b85cfb57bc",
     release_date="2024-02-03",
     languages=["eng-Latn"],
@@ -1252,7 +1544,7 @@ avsolatorio__gist_small_embedding_v0 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/avsolatorio/GIST-small-Embedding-v0",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1276,9 +1568,20 @@ avsolatorio__gist_small_embedding_v0 = ModelMeta(
     | bge_training_data,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 bigscience__sgpt_bloom_7b1_msmarco = ModelMeta(
     name="bigscience/sgpt-bloom-7b1-msmarco",
+    model_type=["dense"],
     revision="dc579f3d2d5a0795eba2049e16c3e36c74007ad3",
     release_date="2022-08-26",
     languages=None,
@@ -1291,16 +1594,23 @@ bigscience__sgpt_bloom_7b1_msmarco = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers"],
     reference="https://huggingface.co/bigscience/sgpt-bloom-7b1-msmarco",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from="/gpfsscratch/rech/six/commun/commun/experiments/muennighoff/bloomckpt/6b3/bloom-7b1",
     superseded_by=None,
+    citation="""@article{muennighoff2022sgpt,
+  title={SGPT: GPT Sentence Embeddings for Semantic Search},
+  author={Muennighoff, Niklas},
+  journal={arXiv preprint arXiv:2202.08904},
+  year={2022}
+}""",
 )
 aari1995__german_semantic_sts_v2 = ModelMeta(
     name="aari1995/German_Semantic_STS_V2",
+    model_type=["dense"],
     revision="22912542b0ec7a7ef369837e28ffe6352a27afc9",
     release_date="2022-11-17",
     languages=["deu-Latn"],
@@ -1313,7 +1623,7 @@ aari1995__german_semantic_sts_v2 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/aari1995/German_Semantic_STS_V2",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1324,6 +1634,7 @@ aari1995__german_semantic_sts_v2 = ModelMeta(
 )
 abhinand__medembed_small_v0_1 = ModelMeta(
     name="abhinand/MedEmbed-small-v0.1",
+    model_type=["dense"],
     revision="40a5850d046cfdb56154e332b4d7099b63e8d50e",
     release_date="2024-10-20",
     languages=["eng-Latn"],
@@ -1336,7 +1647,7 @@ abhinand__medembed_small_v0_1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/abhinand/MedEmbed-small-v0.1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1352,9 +1663,16 @@ abhinand__medembed_small_v0_1 = ModelMeta(
     },
     adapted_from="BAAI/bge-base-en-v1.5",
     superseded_by=None,
+    citation="""@software{balachandran2024medembed,
+  author = {Balachandran, Abhinand},
+  title = {MedEmbed: Medical-Focused Embedding Models},
+  year = {2024},
+  url = {https://github.com/abhinand5/MedEmbed}
+}""",
 )
 avsolatorio__noinstruct_small_embedding_v0 = ModelMeta(
     name="avsolatorio/NoInstruct-small-Embedding-v0",
+    model_type=["dense"],
     revision="b38747000553d8268915c95a55fc87e707c9aadd",
     release_date="2024-05-01",
     languages=["eng-Latn"],
@@ -1377,6 +1695,7 @@ avsolatorio__noinstruct_small_embedding_v0 = ModelMeta(
 )
 brahmairesearch__slx_v0_1 = ModelMeta(
     name="brahmairesearch/slx-v0.1",
+    model_type=["dense"],
     revision="688c83fd1a7f34b25575a2bc26cfd87c11b4ce71",
     release_date="2024-08-13",
     languages=["eng-Latn"],
@@ -1389,7 +1708,7 @@ brahmairesearch__slx_v0_1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/brahmairesearch/slx-v0.1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1399,6 +1718,7 @@ brahmairesearch__slx_v0_1 = ModelMeta(
 )
 deepfile__embedder_100p = ModelMeta(
     name="deepfile/embedder-100p",
+    model_type=["dense"],
     revision="aa02f08f11517977fbcdc94dc9dbf9a1ca152d9b",
     release_date="2023-07-24",
     languages=None,
@@ -1411,7 +1731,7 @@ deepfile__embedder_100p = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Transformers", "safetensors"],
     reference="https://huggingface.co/deepfile/embedder-100p",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1421,6 +1741,7 @@ deepfile__embedder_100p = ModelMeta(
 )
 infgrad__stella_base_en_v2 = ModelMeta(
     name="infgrad/stella-base-en-v2",
+    model_type=["dense"],
     revision="c9e80ff9892d80b39dc54e30a7873f91ea161034",
     release_date="2023-10-19",
     languages=["eng-Latn"],
@@ -1433,7 +1754,7 @@ infgrad__stella_base_en_v2 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "Sentence Transformers"],
     reference="https://huggingface.co/infgrad/stella-base-en-v2",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1443,6 +1764,7 @@ infgrad__stella_base_en_v2 = ModelMeta(
 )
 malenia1__ternary_weight_embedding = ModelMeta(
     name="malenia1/ternary-weight-embedding",
+    model_type=["dense"],
     revision="a1208fb7f646647bb62639fd2e1eb6cc2ef3738e",
     release_date="2024-10-23",
     languages=None,
@@ -1455,7 +1777,7 @@ malenia1__ternary_weight_embedding = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch"],
+    framework=["PyTorch", "safetensors"],
     reference="https://huggingface.co/malenia1/ternary-weight-embedding",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1465,6 +1787,7 @@ malenia1__ternary_weight_embedding = ModelMeta(
 )
 omarelshehy__arabic_english_sts_matryoshka = ModelMeta(
     name="omarelshehy/arabic-english-sts-matryoshka",
+    model_type=["dense"],
     revision="763d116fbe8bf7883c64635c862feeaa3768bb64",
     release_date="2024-10-13",
     languages=["ara-Arab", "eng-Latn"],
@@ -1477,13 +1800,22 @@ omarelshehy__arabic_english_sts_matryoshka = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/omarelshehy/arabic-english-sts-matryoshka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from="FacebookAI/xlm-roberta-large",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 openbmb__minicpm_embedding = ModelMeta(
     loader=sentence_transformers_loader,
@@ -1496,6 +1828,7 @@ openbmb__minicpm_embedding = ModelMeta(
         # https://huggingface.co/openbmb/MiniCPM-Embedding/blob/c0cb2de33fb366e17c30f9d53142ff11bc18e049/README.md?code=true#L405
     ),
     name="openbmb/MiniCPM-Embedding",
+    model_type=["dense"],
     revision="c0cb2de33fb366e17c30f9d53142ff11bc18e049",
     release_date="2024-09-04",
     languages=["zho-Hans", "eng-Latn"],
@@ -1507,7 +1840,7 @@ openbmb__minicpm_embedding = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "Transformers", "safetensors"],
     reference="https://huggingface.co/openbmb/MiniCPM-Embedding",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1518,6 +1851,7 @@ openbmb__minicpm_embedding = ModelMeta(
 silma_ai__silma_embedding_matryoshka_v0_1 = ModelMeta(
     name="silma-ai/silma-embeddding-matryoshka-v0.1",
+    model_type=["dense"],
     revision="a520977a9542ebdb8a7206df6b7ff6977f1886ea",
     release_date="2024-10-12",
     languages=["ara-Arab", "eng-Latn"],
@@ -1530,17 +1864,25 @@ silma_ai__silma_embedding_matryoshka_v0_1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/silma-ai/silma-embeddding-matryoshka-v0.1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     adapted_from="/workspace/v3-matryoshka_aubmindlab-bert-base-arabertv02-2024-10-12_13-55-06/checkpoint-26250",
     superseded_by=None,
+    citation="""@misc{silma2024embedding,
+  author = {Abu Bakr Soliman, Karim Ouda, SILMA AI},
+  title = {SILMA Embedding Matryoshka 0.1},
+  year = {2024},
+  publisher = {Hugging Face},
+  howpublished = {https://huggingface.co/silma-ai/silma-embeddding-matryoshka-0.1},
+}""",
 )
 sbert_chinese_general_v1 = ModelMeta(
     name="DMetaSoul/sbert-chinese-general-v1",
+    model_type=["dense"],
     revision="bd27765956bcc2fcf682de0097819947ac10037e",
     release_date="2022-03-25",
     languages=["zho-Hans"],
@@ -1553,7 +1895,7 @@ sbert_chinese_general_v1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "Transformers"],
     reference="https://huggingface.co/DMetaSoul/sbert-chinese-general-v1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1568,6 +1910,7 @@ sbert_chinese_general_v1 = ModelMeta(
 dmeta_embedding_zh_small = ModelMeta(
     name="DMetaSoul/Dmeta-embedding-zh-small",
+    model_type=["dense"],
     revision="2050d3439a2f68999dd648c1697471acaac37a29",
     release_date="2024-03-25",
     languages=["zho-Hans"],
@@ -1580,7 +1923,7 @@ dmeta_embedding_zh_small = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "Transformers", "safetensors"],
     reference="https://huggingface.co/DMetaSoul/Dmeta-embedding-zh-small/",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1590,6 +1933,7 @@ dmeta_embedding_zh_small = ModelMeta(
 xiaobu_embedding = ModelMeta(
     name="lier007/xiaobu-embedding",
+    model_type=["dense"],
     revision="59c79d82eb5223cd9895f6eb8e825c7fa10e4e92",
     release_date="2024-01-09",
     languages=["zho-Hans"],
@@ -1602,7 +1946,7 @@ xiaobu_embedding = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "Transformers"],
     reference="https://huggingface.co/lier007/xiaobu-embedding",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1613,6 +1957,7 @@ xiaobu_embedding = ModelMeta(
 xiaobu_embedding_v2 = ModelMeta(
     name="lier007/xiaobu-embedding-v2",
+    model_type=["dense"],
     revision="1912f2e59a5c2ef802a471d735a38702a5c9485e",
     release_date="2024-06-30",
     languages=["zho-Hans"],
@@ -1625,7 +1970,7 @@ xiaobu_embedding_v2 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "ONNX", "safetensors"],
     reference="https://huggingface.co/lier007/xiaobu-embedding-v2",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1636,6 +1981,7 @@ xiaobu_embedding_v2 = ModelMeta(
 yinka_embedding = ModelMeta(
     name="Classical/Yinka",
+    model_type=["dense"],
     revision="59c79d82eb5223cd9895f6eb8e825c7fa10e4e92",
     release_date="2024-01-09",
     languages=["zho-Hans"],
@@ -1648,7 +1994,7 @@ yinka_embedding = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "Transformers"],
     reference="https://huggingface.co/Classical/Yinka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
@@ -1658,6 +2004,7 @@ yinka_embedding = ModelMeta(
 )
 conan_embedding = ModelMeta(
     name="TencentBAC/Conan-embedding-v1",
+    model_type=["dense"],
     revision="bb9749a57d4f02fd71722386f8d0f5a9398d7eeb",
     release_date="2024-08-22",
     languages=["zho-Hans"],
@@ -1670,18 +2017,28 @@ conan_embedding = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors"],
     reference="https://huggingface.co/Classical/Yinka",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     # source: https://arxiv.org/pdf/2408.15710
     training_datasets=None,  # They "scraped" things from the internet, we don't know, could be leakage
     superseded_by=None,
+    citation="""@misc{li2024conanembeddinggeneraltextembedding,
+  title={Conan-embedding: General Text Embedding with More and Better Negative Samples},
+  author={Shiyu Li and Yang Tang and Shizhe Chen and Xi Chen},
+  year={2024},
+  eprint={2408.15710},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL},
+  url={https://arxiv.org/abs/2408.15710},
+}""",
 )
 ember_v1 = ModelMeta(
     loader=sentence_transformers_loader,
     name="llmrails/ember-v1",
+    model_type=["dense"],
     revision="5e5ce5904901f6ce1c353a95020f17f09e5d021d",
     release_date="2023-10-10",
     languages=["eng-Latn"],
@@ -1693,10 +2050,15 @@ ember_v1 = ModelMeta(
     open_weights=True,
     public_training_code=None,
     public_training_data=None,
-    framework=["PyTorch", "Sentence Transformers"],
+    framework=["PyTorch", "Sentence Transformers", "safetensors", "Transformers"],
     reference="https://huggingface.co/llmrails/ember-v1",
     similarity_fn_name=ScoringFunction.COSINE,
     use_instructions=None,
     training_datasets=None,
     superseded_by=None,
+    citation="""@misc{nur2024emberv1,
+      title={ember-v1: SOTA embedding model},
+      author={Enrike Nur and Anar Aliyev},
+      year={2023},
+}""",
 )

mteb 2.1.4__py3-none-any.whl → 2.7.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.7.2py3-none-any.whl