PyPI - mteb - Versions diffs - 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl - Mend

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (458) hide show

mteb/models/model_implementations/misc_models.py CHANGED Viewed

@@ -13,6 +13,7 @@ from .sentence_transformers_models import sent_trf_training_dataset
 Haon_Chen__speed_embedding_7b_instruct = ModelMeta(
     loader=sentence_transformers_loader,
     name="Haon-Chen/speed-embedding-7b-instruct",
+    model_type=["dense"],
     revision="c167e9a8144b397622ce47b85d9edcdeecef3d3f",
     release_date="2024-10-31",
     languages=["eng-Latn"],
@@ -31,9 +32,16 @@ Haon_Chen__speed_embedding_7b_instruct = ModelMeta(
     training_datasets=None,
     adapted_from="mistralai/Mistral-7B-v0.1",
     superseded_by=None,
+    citation="""@article{chen2024little,
+    title={Little Giants: Synthesizing High-Quality Embedding Data at Scale},
+    author={Chen, Haonan and Wang, Liang and Yang, Nan and Zhu, Yutao and Zhao, Ziliang and Wei, Furu and Dou, Zhicheng},
+    journal={arXiv preprint arXiv:2410.18634},
+    year={2024}
+}""",
 )
 Gameselo__STS_multilingual_mpnet_base_v2 = ModelMeta(
     name="Gameselo/STS-multilingual-mpnet-base-v2",
+    model_type=["dense"],
     revision="449f917af30f590fc31f9ffb226c94f21a2f47b8",
     release_date="2024-06-07",
     languages=[],
@@ -121,10 +129,20 @@ Gameselo__STS_multilingual_mpnet_base_v2 = ModelMeta(
     },
     adapted_from="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Hum_Works__lodestone_base_4096_v1 = ModelMeta(
     name="Hum-Works/lodestone-base-4096-v1",
+    model_type=["dense"],
     revision="9bbc2d0b57dd2198aea029404b0f976712a7d966",
     release_date="2023-08-25",
     languages=["eng-Latn"],
@@ -191,6 +209,7 @@ Hum_Works__lodestone_base_4096_v1 = ModelMeta(
 )
 Jaume__gemma_2b_embeddings = ModelMeta(
     name="Jaume/gemma-2b-embeddings",
+    model_type=["dense"],
     revision="86431f65d7c3f66b2af096c61e614a2958f191f1",
     release_date="2024-06-29",
     languages=[],
@@ -222,6 +241,7 @@ bilingual_embedding_training_data = {
 Lajavaness__bilingual_embedding_base = ModelMeta(
     name="Lajavaness/bilingual-embedding-base",
+    model_type=["dense"],
     revision="0bfc54bb2aa2666dd84715289c7ef58a95eb4d8d",
     release_date="2024-06-26",
     languages=None,
@@ -244,9 +264,33 @@ Lajavaness__bilingual_embedding_base = ModelMeta(
     training_datasets=bilingual_embedding_training_data,
     adapted_from="dangvantuan/bilingual_impl",
     superseded_by=None,
+    citation="""
+    @article{conneau2019unsupervised,
+  title={Unsupervised cross-lingual representation learning at scale},
+  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
+  journal={arXiv preprint arXiv:1911.02116},
+  year={2019}
+}
+@article{reimers2019sentence,
+   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
+   author={Nils Reimers, Iryna Gurevych},
+   journal={https://arxiv.org/abs/1908.10084},
+   year={2019}
+}
+@article{thakur2020augmented,
+  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
+  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
+  journal={arXiv e-prints},
+  pages={arXiv--2010},
+  year={2020}
+}
+""",
 )
 Lajavaness__bilingual_embedding_large = ModelMeta(
     name="Lajavaness/bilingual-embedding-large",
+    model_type=["dense"],
     revision="e83179d7a66e8aed1b3015e98bb5ae234ed89598",
     release_date="2024-06-24",
     languages=["fra-Latn", "eng-Latn"],
@@ -269,9 +313,33 @@ Lajavaness__bilingual_embedding_large = ModelMeta(
     training_datasets=bilingual_embedding_training_data,
     adapted_from="dangvantuan/bilingual_impl",
     superseded_by=None,
+    citation="""
+    @article{conneau2019unsupervised,
+  title={Unsupervised cross-lingual representation learning at scale},
+  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
+  journal={arXiv preprint arXiv:1911.02116},
+  year={2019}
+}
+@article{reimers2019sentence,
+   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
+   author={Nils Reimers, Iryna Gurevych},
+   journal={https://arxiv.org/abs/1908.10084},
+   year={2019}
+}
+@article{thakur2020augmented,
+  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
+  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
+  journal={arXiv e-prints},
+  pages={arXiv--2010},
+  year={2020}
+}
+""",
 )
 Lajavaness__bilingual_embedding_small = ModelMeta(
     name="Lajavaness/bilingual-embedding-small",
+    model_type=["dense"],
     revision="ed4a1dd814de0db81d4a4e287c296a03194463e3",
     release_date="2024-07-17",
     languages=["fra-Latn", "eng-Latn"],
@@ -294,9 +362,33 @@ Lajavaness__bilingual_embedding_small = ModelMeta(
     training_datasets=bilingual_embedding_training_data,
     adapted_from="dangvantuan/bilingual_impl",
     superseded_by=None,
+    citation="""
+    @article{conneau2019unsupervised,
+  title={Unsupervised cross-lingual representation learning at scale},
+  author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
+  journal={arXiv preprint arXiv:1911.02116},
+  year={2019}
+}
+@article{reimers2019sentence,
+   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
+   author={Nils Reimers, Iryna Gurevych},
+   journal={https://arxiv.org/abs/1908.10084},
+   year={2019}
+}
+@article{thakur2020augmented,
+  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
+  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
+  journal={arXiv e-prints},
+  pages={arXiv--2010},
+  year={2020}
+}
+""",
 )
 Mihaiii__Bulbasaur = ModelMeta(
     name="Mihaiii/Bulbasaur",
+    model_type=["dense"],
     revision="6876f839e18ae36224049a41194a431953f08747",
     release_date="2024-04-27",
     languages=None,
@@ -320,6 +412,7 @@ Mihaiii__Bulbasaur = ModelMeta(
 )
 Mihaiii__Ivysaur = ModelMeta(
     name="Mihaiii/Ivysaur",
+    model_type=["dense"],
     revision="65914d976f45beb4bda7485c39d88865b4ce6554",
     release_date="2024-04-27",
     languages=None,
@@ -343,6 +436,7 @@ Mihaiii__Ivysaur = ModelMeta(
 )
 Mihaiii__Squirtle = ModelMeta(
     name="Mihaiii/Squirtle",
+    model_type=["dense"],
     revision="5b991da48a9286637a256d4a35aab87a1a57b78a",
     release_date="2024-04-30",
     languages=None,
@@ -366,6 +460,7 @@ Mihaiii__Squirtle = ModelMeta(
 )
 Mihaiii__Venusaur = ModelMeta(
     name="Mihaiii/Venusaur",
+    model_type=["dense"],
     revision="0dc817f0addbb7bab8feeeeaded538f9ffeb3419",
     release_date="2024-04-29",
     languages=None,
@@ -389,6 +484,7 @@ Mihaiii__Venusaur = ModelMeta(
 )
 Mihaiii__Wartortle = ModelMeta(
     name="Mihaiii/Wartortle",
+    model_type=["dense"],
     revision="14caca5253414d38a7d28b62d1b7c30ef3293a87",
     release_date="2024-04-30",
     languages=None,
@@ -412,6 +508,7 @@ Mihaiii__Wartortle = ModelMeta(
 )
 Mihaiii__gte_micro = ModelMeta(
     name="Mihaiii/gte-micro",
+    model_type=["dense"],
     revision="6fd2397cb9dfa7c901aedf9a2a44d3c888ccafdd",
     release_date="2024-04-21",
     languages=None,
@@ -434,6 +531,7 @@ Mihaiii__gte_micro = ModelMeta(
 )
 Mihaiii__gte_micro_v4 = ModelMeta(
     name="Mihaiii/gte-micro-v4",
+    model_type=["dense"],
     revision="78e1a4b348f8524c3ab2e3e3475788f5adb8c98f",
     release_date="2024-04-22",
     languages=None,
@@ -456,6 +554,7 @@ Mihaiii__gte_micro_v4 = ModelMeta(
 )
 OrdalieTech__Solon_embeddings_large_0_1 = ModelMeta(
     name="OrdalieTech/Solon-embeddings-large-0.1",
+    model_type=["dense"],
     revision="9f6465f6ea2f6d10c6294bc15d84edf87d47cdef",
     release_date="2023-12-09",
     languages=["fra-Latn"],
@@ -478,6 +577,7 @@ OrdalieTech__Solon_embeddings_large_0_1 = ModelMeta(
 )
 Omartificial_Intelligence_Space__Arabert_all_nli_triplet_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabert-all-nli-triplet-Matryoshka",
+    model_type=["dense"],
     revision="d0361a36f6fe69febfc8550d0918abab174f6f30",
     release_date="2024-06-16",
     languages=["ara-Arab"],
@@ -497,9 +597,19 @@ Omartificial_Intelligence_Space__Arabert_all_nli_triplet_Matryoshka = ModelMeta(
     training_datasets=set(),  # not in MTEB: {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="aubmindlab/bert-base-arabertv02",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Arabic_MiniLM_L12_v2_all_nli_triplet = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-MiniLM-L12-v2-all-nli-triplet",
+    model_type=["dense"],
     revision="6916465c43b984e955aa6dc72851474f0128f428",
     release_date="2024-06-25",
     languages=["ara-Arab"],
@@ -524,6 +634,7 @@ Omartificial_Intelligence_Space__Arabic_MiniLM_L12_v2_all_nli_triplet = ModelMet
 )
 Omartificial_Intelligence_Space__Arabic_all_nli_triplet_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-all-nli-triplet-Matryoshka",
+    model_type=["dense"],
     revision="1ca467cc576bd76666a4d21b24ee43afa914dd10",
     release_date="2024-06-14",
     languages=["ara-Arab"],
@@ -545,9 +656,19 @@ Omartificial_Intelligence_Space__Arabic_all_nli_triplet_Matryoshka = ModelMeta(
     # {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Arabic_labse_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-labse-Matryoshka",
+    model_type=["dense"],
     revision="ee6d5e33c78ed582ade47fd452a74ea52aa5bfe2",
     release_date="2024-06-16",
     languages=["ara-Arab"],
@@ -569,9 +690,19 @@ Omartificial_Intelligence_Space__Arabic_labse_Matryoshka = ModelMeta(
     # {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="sentence-transformers/LaBSE",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Arabic_mpnet_base_all_nli_triplet = ModelMeta(
     name="Omartificial-Intelligence-Space/Arabic-mpnet-base-all-nli-triplet",
+    model_type=["dense"],
     revision="2628cb641e040f44328195fadcdfb58e6d5cffa7",
     release_date="2024-06-15",
     languages=["ara-Arab"],
@@ -593,9 +724,19 @@ Omartificial_Intelligence_Space__Arabic_mpnet_base_all_nli_triplet = ModelMeta(
     # {"Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="tomaarsen/mpnet-base-all-nli-triplet",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 Omartificial_Intelligence_Space__Marbert_all_nli_triplet_Matryoshka = ModelMeta(
     name="Omartificial-Intelligence-Space/Marbert-all-nli-triplet-Matryoshka",
+    model_type=["dense"],
     revision="ecf3274e164f057c4a3dd70691cae0265d87a9d0",
     release_date="2024-06-17",
     languages=["ara-Arab"],
@@ -615,9 +756,19 @@ Omartificial_Intelligence_Space__Marbert_all_nli_triplet_Matryoshka = ModelMeta(
     training_datasets=set(),  # not in MTEB: "Omartificial-Intelligence-Space/Arabic-NLi-Triplet"},
     adapted_from="UBC-NLP/MARBERTv2",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 consciousai__cai_lunaris_text_embeddings = ModelMeta(
     name="consciousAI/cai-lunaris-text-embeddings",
+    model_type=["dense"],
     revision="8332c464d13505968ff7a6e2213f36fd8730b4c7",
     release_date="2023-06-22",
     languages=None,
@@ -640,6 +791,7 @@ consciousai__cai_lunaris_text_embeddings = ModelMeta(
 )
 consciousai__cai_stellaris_text_embeddings = ModelMeta(
     name="consciousAI/cai-stellaris-text-embeddings",
+    model_type=["dense"],
     revision="c000ec4b29588daf0f4a0b2ad4e72ee807d8efc0",
     release_date="2023-06-23",
     languages=None,
@@ -671,6 +823,7 @@ SENTENCE_CROISSANT_TRAINING_DATA = {
 }
 manu__sentence_croissant_alpha_v0_2 = ModelMeta(
     name="manu/sentence_croissant_alpha_v0.2",
+    model_type=["dense"],
     revision="4610b8cea65d7dd59e0b04af50753933fe5b29b2",
     release_date="2024-03-15",
     languages=None,
@@ -693,6 +846,7 @@ manu__sentence_croissant_alpha_v0_2 = ModelMeta(
 )
 manu__sentence_croissant_alpha_v0_3 = ModelMeta(
     name="manu/sentence_croissant_alpha_v0.3",
+    model_type=["dense"],
     revision="4ac16754f3d81aba76cc32955dc9ee4122df96eb",
     release_date="2024-04-26",
     languages=None,
@@ -715,6 +869,7 @@ manu__sentence_croissant_alpha_v0_3 = ModelMeta(
 )
 manu__sentence_croissant_alpha_v0_4 = ModelMeta(
     name="manu/sentence_croissant_alpha_v0.4",
+    model_type=["dense"],
     revision="0ce6372e6a3c21134dcf26dcde13cca869c767fc",
     release_date="2024-04-27",
     languages=["fra-Latn", "eng-Latn"],
@@ -738,6 +893,7 @@ manu__sentence_croissant_alpha_v0_4 = ModelMeta(
 )
 thenlper__gte_base = ModelMeta(
     name="thenlper/gte-base",
+    model_type=["dense"],
     revision="c078288308d8dee004ab72c6191778064285ec0c",
     release_date="2023-07-27",
     languages=["eng-Latn"],
@@ -757,9 +913,16 @@ thenlper__gte_base = ModelMeta(
     training_datasets=None,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 thenlper__gte_large = ModelMeta(
     name="thenlper/gte-large",
+    model_type=["dense"],
     revision="4bef63f39fcc5e2d6b0aae83089f307af4970164",
     release_date="2023-07-27",
     languages=["eng-Latn"],
@@ -779,9 +942,16 @@ thenlper__gte_large = ModelMeta(
     training_datasets=None,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 thenlper__gte_small = ModelMeta(
     name="thenlper/gte-small",
+    model_type=["dense"],
     revision="17e1f347d17fe144873b1201da91788898c639cd",
     release_date="2023-07-27",
     languages=["eng-Latn"],
@@ -801,9 +971,16 @@ thenlper__gte_small = ModelMeta(
     training_datasets=None,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{li2023towards,
+  title={Towards general text embeddings with multi-stage contrastive learning},
+  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
+  journal={arXiv preprint arXiv:2308.03281},
+  year={2023}
+}""",
 )
 OrlikB__KartonBERT_USE_base_v1 = ModelMeta(
     name="OrlikB/KartonBERT-USE-base-v1",
+    model_type=["dense"],
     revision="1f59dd58fe57995c0e867d5e29f03763eae99645",
     release_date="2024-09-30",
     languages=["pol-Latn"],
@@ -826,6 +1003,7 @@ OrlikB__KartonBERT_USE_base_v1 = ModelMeta(
 )
 OrlikB__st_polish_kartonberta_base_alpha_v1 = ModelMeta(
     name="OrlikB/st-polish-kartonberta-base-alpha-v1",
+    model_type=["dense"],
     revision="5590a0e2d7bb43674e44d7076b3ff157f7d4a1cb",
     release_date="2023-11-12",
     languages=["pol-Latn"],
@@ -848,6 +1026,7 @@ OrlikB__st_polish_kartonberta_base_alpha_v1 = ModelMeta(
 )
 sdadas__mmlw_e5_base = ModelMeta(
     name="sdadas/mmlw-e5-base",
+    model_type=["dense"],
     revision="f10628ed55b5ec400502aff439bd714a6da0af30",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -867,9 +1046,18 @@ sdadas__mmlw_e5_base = ModelMeta(
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/multilingual-e5-base",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 dwzhu__e5_base_4k = ModelMeta(
     name="dwzhu/e5-base-4k",
+    model_type=["dense"],
     revision="1b5664b8cb2bccd8c309429b7bfe5864402e8fbc",
     release_date="2024-03-28",
     languages=["eng-Latn"],
@@ -889,9 +1077,16 @@ dwzhu__e5_base_4k = ModelMeta(
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/e5-base-v2",
     superseded_by=None,
+    citation="""@article{zhu2024longembed,
+  title={LongEmbed: Extending Embedding Models for Long Context Retrieval},
+  author={Zhu, Dawei and Wang, Liang and Yang, Nan and Song, Yifan and Wu, Wenhao and Wei, Furu and Li, Sujian},
+  journal={arXiv preprint arXiv:2404.12096},
+  year={2024}
+}""",
 )
 sdadas__mmlw_e5_large = ModelMeta(
     name="sdadas/mmlw-e5-large",
+    model_type=["dense"],
     revision="5c143fb045ebed664fd85b43fc45155999eb110f",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -911,9 +1106,18 @@ sdadas__mmlw_e5_large = ModelMeta(
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/multilingual-e5-large",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 sdadas__mmlw_e5_small = ModelMeta(
     name="sdadas/mmlw-e5-small",
+    model_type=["dense"],
     revision="ff1298cb6d997f18b794d2f3d73cad2ba2ad739a",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -933,9 +1137,18 @@ sdadas__mmlw_e5_small = ModelMeta(
     training_datasets=E5_TRAINING_DATA,
     adapted_from="intfloat/multilingual-e5-small",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 sdadas__mmlw_roberta_base = ModelMeta(
     name="sdadas/mmlw-roberta-base",
+    model_type=["dense"],
     revision="0ac7f23f6c96af601fa6a17852bd08d5136d6365",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -955,9 +1168,18 @@ sdadas__mmlw_roberta_base = ModelMeta(
     training_datasets={"MSMARCO"},
     adapted_from="sdadas/polish-roberta-base-v2",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 sdadas__mmlw_roberta_large = ModelMeta(
     name="sdadas/mmlw-roberta-large",
+    model_type=["dense"],
     revision="b8058066a8de32d0737b3cd82d8b4f4108745af9",
     release_date="2023-11-17",
     languages=["pol-Latn"],
@@ -977,6 +1199,14 @@ sdadas__mmlw_roberta_large = ModelMeta(
     training_datasets={"MSMARCO"},
     adapted_from="sdadas/polish-roberta-large-v2",
     superseded_by=None,
+    citation="""@article{dadas2024pirb,
+  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
+  year={2024},
+  eprint={2402.13350},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}""",
 )
 udever_dataset = {  # discussed here: https://github.com/embeddings-benchmark/mteb/issues/2193
@@ -1035,6 +1265,7 @@ udever_languages = [
 izhx__udever_bloom_1b1 = ModelMeta(
     name="izhx/udever-bloom-1b1",
+    model_type=["dense"],
     revision="7bf1ee29878cb040b2708a691aa4b61f27eaa252",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1054,9 +1285,16 @@ izhx__udever_bloom_1b1 = ModelMeta(
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-1b1",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 izhx__udever_bloom_3b = ModelMeta(
     name="izhx/udever-bloom-3b",
+    model_type=["dense"],
     revision="4edd8affe80ca89ba0f6b6ba4103fc7f25fc57b2",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1076,9 +1314,16 @@ izhx__udever_bloom_3b = ModelMeta(
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-3b",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 izhx__udever_bloom_560m = ModelMeta(
     name="izhx/udever-bloom-560m",
+    model_type=["dense"],
     revision="b2a723e355946ec5a5c5fbed3459766627ded2bb",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1098,9 +1343,16 @@ izhx__udever_bloom_560m = ModelMeta(
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-560m",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 izhx__udever_bloom_7b1 = ModelMeta(
     name="izhx/udever-bloom-7b1",
+    model_type=["dense"],
     revision="18e8d3e6dbd94868584877f2e72a105a17df22ef",
     release_date="2023-10-24",
     languages=udever_languages,
@@ -1120,9 +1372,16 @@ izhx__udever_bloom_7b1 = ModelMeta(
     training_datasets=udever_dataset,
     adapted_from="bigscience/bloom-7b1",
     superseded_by=None,
+    citation="""@article{zhang2023language,
+  title={Language Models are Universal Embedders},
+  author={Zhang, Xin and Li, Zehan and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan and Zhang, Min},
+  journal={arXiv preprint arXiv:2310.08232},
+  year={2023}
+}""",
 )
 avsolatorio__gist_embedding_v0 = ModelMeta(
     name="avsolatorio/GIST-Embedding-v0",
+    model_type=["dense"],
     revision="bf6b2e55e92f510a570ad4d7d2da2ec8cd22590c",
     release_date="2024-01-31",
     languages=["eng-Latn"],
@@ -1159,9 +1418,20 @@ avsolatorio__gist_embedding_v0 = ModelMeta(
     | bge_training_data,
     adapted_from="BAAI/bge-large-en-v1.5",
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 avsolatorio__gist_all_minilm_l6_v2 = ModelMeta(
     name="avsolatorio/GIST-all-MiniLM-L6-v2",
+    model_type=["dense"],
     revision="ea89dfad053bba14677bb784a4269898abbdce44",
     release_date="2024-02-03",
     languages=["eng-Latn"],
@@ -1198,9 +1468,20 @@ avsolatorio__gist_all_minilm_l6_v2 = ModelMeta(
     | bge_training_data,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 avsolatorio__gist_large_embedding_v0 = ModelMeta(
     name="avsolatorio/GIST-large-Embedding-v0",
+    model_type=["dense"],
     revision="7831200e2f7819b994490c091cf3258a2b821f0c",
     release_date="2024-02-14",
     languages=["eng-Latn"],
@@ -1237,9 +1518,20 @@ avsolatorio__gist_large_embedding_v0 = ModelMeta(
     | bge_training_data,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 avsolatorio__gist_small_embedding_v0 = ModelMeta(
     name="avsolatorio/GIST-small-Embedding-v0",
+    model_type=["dense"],
     revision="d6c4190f9e01b9994dc7cac99cf2f2b85cfb57bc",
     release_date="2024-02-03",
     languages=["eng-Latn"],
@@ -1276,9 +1568,20 @@ avsolatorio__gist_small_embedding_v0 = ModelMeta(
     | bge_training_data,
     adapted_from=None,
     superseded_by=None,
+    citation="""@article{solatorio2024gistembed,
+    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
+    author={Aivin V. Solatorio},
+    journal={arXiv preprint arXiv:2402.16829},
+    year={2024},
+    URL={https://arxiv.org/abs/2402.16829}
+    eprint={2402.16829},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}""",
 )
 bigscience__sgpt_bloom_7b1_msmarco = ModelMeta(
     name="bigscience/sgpt-bloom-7b1-msmarco",
+    model_type=["dense"],
     revision="dc579f3d2d5a0795eba2049e16c3e36c74007ad3",
     release_date="2022-08-26",
     languages=None,
@@ -1298,9 +1601,16 @@ bigscience__sgpt_bloom_7b1_msmarco = ModelMeta(
     training_datasets=None,
     adapted_from="/gpfsscratch/rech/six/commun/commun/experiments/muennighoff/bloomckpt/6b3/bloom-7b1",
     superseded_by=None,
+    citation="""@article{muennighoff2022sgpt,
+  title={SGPT: GPT Sentence Embeddings for Semantic Search},
+  author={Muennighoff, Niklas},
+  journal={arXiv preprint arXiv:2202.08904},
+  year={2022}
+}""",
 )
 aari1995__german_semantic_sts_v2 = ModelMeta(
     name="aari1995/German_Semantic_STS_V2",
+    model_type=["dense"],
     revision="22912542b0ec7a7ef369837e28ffe6352a27afc9",
     release_date="2022-11-17",
     languages=["deu-Latn"],
@@ -1324,6 +1634,7 @@ aari1995__german_semantic_sts_v2 = ModelMeta(
 )
 abhinand__medembed_small_v0_1 = ModelMeta(
     name="abhinand/MedEmbed-small-v0.1",
+    model_type=["dense"],
     revision="40a5850d046cfdb56154e332b4d7099b63e8d50e",
     release_date="2024-10-20",
     languages=["eng-Latn"],
@@ -1352,9 +1663,16 @@ abhinand__medembed_small_v0_1 = ModelMeta(
     },
     adapted_from="BAAI/bge-base-en-v1.5",
     superseded_by=None,
+    citation="""@software{balachandran2024medembed,
+  author = {Balachandran, Abhinand},
+  title = {MedEmbed: Medical-Focused Embedding Models},
+  year = {2024},
+  url = {https://github.com/abhinand5/MedEmbed}
+}""",
 )
 avsolatorio__noinstruct_small_embedding_v0 = ModelMeta(
     name="avsolatorio/NoInstruct-small-Embedding-v0",
+    model_type=["dense"],
     revision="b38747000553d8268915c95a55fc87e707c9aadd",
     release_date="2024-05-01",
     languages=["eng-Latn"],
@@ -1377,6 +1695,7 @@ avsolatorio__noinstruct_small_embedding_v0 = ModelMeta(
 )
 brahmairesearch__slx_v0_1 = ModelMeta(
     name="brahmairesearch/slx-v0.1",
+    model_type=["dense"],
     revision="688c83fd1a7f34b25575a2bc26cfd87c11b4ce71",
     release_date="2024-08-13",
     languages=["eng-Latn"],
@@ -1399,6 +1718,7 @@ brahmairesearch__slx_v0_1 = ModelMeta(
 )
 deepfile__embedder_100p = ModelMeta(
     name="deepfile/embedder-100p",
+    model_type=["dense"],
     revision="aa02f08f11517977fbcdc94dc9dbf9a1ca152d9b",
     release_date="2023-07-24",
     languages=None,
@@ -1421,6 +1741,7 @@ deepfile__embedder_100p = ModelMeta(
 )
 infgrad__stella_base_en_v2 = ModelMeta(
     name="infgrad/stella-base-en-v2",
+    model_type=["dense"],
     revision="c9e80ff9892d80b39dc54e30a7873f91ea161034",
     release_date="2023-10-19",
     languages=["eng-Latn"],
@@ -1443,6 +1764,7 @@ infgrad__stella_base_en_v2 = ModelMeta(
 )
 malenia1__ternary_weight_embedding = ModelMeta(
     name="malenia1/ternary-weight-embedding",
+    model_type=["dense"],
     revision="a1208fb7f646647bb62639fd2e1eb6cc2ef3738e",
     release_date="2024-10-23",
     languages=None,
@@ -1465,6 +1787,7 @@ malenia1__ternary_weight_embedding = ModelMeta(
 )
 omarelshehy__arabic_english_sts_matryoshka = ModelMeta(
     name="omarelshehy/arabic-english-sts-matryoshka",
+    model_type=["dense"],
     revision="763d116fbe8bf7883c64635c862feeaa3768bb64",
     release_date="2024-10-13",
     languages=["ara-Arab", "eng-Latn"],
@@ -1484,6 +1807,15 @@ omarelshehy__arabic_english_sts_matryoshka = ModelMeta(
     training_datasets=None,
     adapted_from="FacebookAI/xlm-roberta-large",
     superseded_by=None,
+    citation="""@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}""",
 )
 openbmb__minicpm_embedding = ModelMeta(
     loader=sentence_transformers_loader,
@@ -1496,6 +1828,7 @@ openbmb__minicpm_embedding = ModelMeta(
         # https://huggingface.co/openbmb/MiniCPM-Embedding/blob/c0cb2de33fb366e17c30f9d53142ff11bc18e049/README.md?code=true#L405
     ),
     name="openbmb/MiniCPM-Embedding",
+    model_type=["dense"],
     revision="c0cb2de33fb366e17c30f9d53142ff11bc18e049",
     release_date="2024-09-04",
     languages=["zho-Hans", "eng-Latn"],
@@ -1518,6 +1851,7 @@ openbmb__minicpm_embedding = ModelMeta(
 silma_ai__silma_embedding_matryoshka_v0_1 = ModelMeta(
     name="silma-ai/silma-embeddding-matryoshka-v0.1",
+    model_type=["dense"],
     revision="a520977a9542ebdb8a7206df6b7ff6977f1886ea",
     release_date="2024-10-12",
     languages=["ara-Arab", "eng-Latn"],
@@ -1537,10 +1871,18 @@ silma_ai__silma_embedding_matryoshka_v0_1 = ModelMeta(
     training_datasets=None,
     adapted_from="/workspace/v3-matryoshka_aubmindlab-bert-base-arabertv02-2024-10-12_13-55-06/checkpoint-26250",
     superseded_by=None,
+    citation="""@misc{silma2024embedding,
+  author = {Abu Bakr Soliman, Karim Ouda, SILMA AI},
+  title = {SILMA Embedding Matryoshka 0.1},
+  year = {2024},
+  publisher = {Hugging Face},
+  howpublished = {https://huggingface.co/silma-ai/silma-embeddding-matryoshka-0.1},
+}""",
 )
 sbert_chinese_general_v1 = ModelMeta(
     name="DMetaSoul/sbert-chinese-general-v1",
+    model_type=["dense"],
     revision="bd27765956bcc2fcf682de0097819947ac10037e",
     release_date="2022-03-25",
     languages=["zho-Hans"],
@@ -1568,6 +1910,7 @@ sbert_chinese_general_v1 = ModelMeta(
 dmeta_embedding_zh_small = ModelMeta(
     name="DMetaSoul/Dmeta-embedding-zh-small",
+    model_type=["dense"],
     revision="2050d3439a2f68999dd648c1697471acaac37a29",
     release_date="2024-03-25",
     languages=["zho-Hans"],
@@ -1590,6 +1933,7 @@ dmeta_embedding_zh_small = ModelMeta(
 xiaobu_embedding = ModelMeta(
     name="lier007/xiaobu-embedding",
+    model_type=["dense"],
     revision="59c79d82eb5223cd9895f6eb8e825c7fa10e4e92",
     release_date="2024-01-09",
     languages=["zho-Hans"],
@@ -1613,6 +1957,7 @@ xiaobu_embedding = ModelMeta(
 xiaobu_embedding_v2 = ModelMeta(
     name="lier007/xiaobu-embedding-v2",
+    model_type=["dense"],
     revision="1912f2e59a5c2ef802a471d735a38702a5c9485e",
     release_date="2024-06-30",
     languages=["zho-Hans"],
@@ -1636,6 +1981,7 @@ xiaobu_embedding_v2 = ModelMeta(
 yinka_embedding = ModelMeta(
     name="Classical/Yinka",
+    model_type=["dense"],
     revision="59c79d82eb5223cd9895f6eb8e825c7fa10e4e92",
     release_date="2024-01-09",
     languages=["zho-Hans"],
@@ -1658,6 +2004,7 @@ yinka_embedding = ModelMeta(
 )
 conan_embedding = ModelMeta(
     name="TencentBAC/Conan-embedding-v1",
+    model_type=["dense"],
     revision="bb9749a57d4f02fd71722386f8d0f5a9398d7eeb",
     release_date="2024-08-22",
     languages=["zho-Hans"],
@@ -1677,11 +2024,21 @@ conan_embedding = ModelMeta(
     # source: https://arxiv.org/pdf/2408.15710
     training_datasets=None,  # They "scraped" things from the internet, we don't know, could be leakage
     superseded_by=None,
+    citation="""@misc{li2024conanembeddinggeneraltextembedding,
+  title={Conan-embedding: General Text Embedding with More and Better Negative Samples},
+  author={Shiyu Li and Yang Tang and Shizhe Chen and Xi Chen},
+  year={2024},
+  eprint={2408.15710},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL},
+  url={https://arxiv.org/abs/2408.15710},
+}""",
 )
 ember_v1 = ModelMeta(
     loader=sentence_transformers_loader,
     name="llmrails/ember-v1",
+    model_type=["dense"],
     revision="5e5ce5904901f6ce1c353a95020f17f09e5d021d",
     release_date="2023-10-10",
     languages=["eng-Latn"],
@@ -1699,4 +2056,9 @@ ember_v1 = ModelMeta(
     use_instructions=None,
     training_datasets=None,
     superseded_by=None,
+    citation="""@misc{nur2024emberv1,
+      title={ember-v1: SOTA embedding model},
+      author={Enrike Nur and Anar Aliyev},
+      year={2023},
+}""",
 )

mteb 2.1.4__py3-none-any.whl → 2.5.2__py3-none-any.whl

mteb 2.1.4py3-none-any.whl → 2.5.2py3-none-any.whl