mteb 2.3.5__py3-none-any.whl → 2.3.6__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -117,7 +117,7 @@ def _performance_size_plot(df: pd.DataFrame) -> go.Figure:
117
117
  df["Max Tokens"] = df["Max Tokens"].map(_parse_float)
118
118
  df["Log(Tokens)"] = np.log10(df["Max Tokens"])
119
119
  df["Mean (Task)"] = df["Mean (Task)"].map(_parse_float)
120
- df = df.dropna(
120
+ df = df[df["Mean (Task)"] > 0].dropna(
121
121
  subset=["Mean (Task)", "Number of Parameters", "Embedding Dimensions"]
122
122
  )
123
123
  if not len(df.index):
@@ -0,0 +1,22 @@
1
+ from mteb.models import ModelMeta, sentence_transformers_loader
2
+
3
+ kowshik24_bangla_embedding_model = ModelMeta(
4
+ loader=sentence_transformers_loader,
5
+ name="Kowshik24/bangla-sentence-transformer-ft-matryoshka-paraphrase-multilingual-mpnet-base-v2",
6
+ languages=["ben-Beng"], # Bengali using Bengali script
7
+ open_weights=True,
8
+ revision="6689c21e69be5950596bad084457cbaa138728d8",
9
+ release_date="2025-11-10",
10
+ n_parameters=278_000_000,
11
+ memory_usage_mb=1061,
12
+ embed_dim=768,
13
+ license="apache-2.0",
14
+ max_tokens=128,
15
+ reference="https://huggingface.co/Kowshik24/bangla-sentence-transformer-ft-matryoshka-paraphrase-multilingual-mpnet-base-v2",
16
+ similarity_fn_name="cosine",
17
+ framework=["Sentence Transformers", "PyTorch"],
18
+ use_instructions=False,
19
+ public_training_code="https://github.com/kowshik24/Bangla-Embedding",
20
+ public_training_data="https://huggingface.co/datasets/sartajekram/BanglaRQA",
21
+ training_datasets=set(),
22
+ )
@@ -0,0 +1,166 @@
1
+ from mteb.models.instruct_wrapper import InstructSentenceTransformerModel
2
+ from mteb.models.model_meta import ModelMeta
3
+ from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
4
+ from mteb.types import PromptType
5
+
6
+ SARASHINA_V2_INSTRUCTIONS = {
7
+ "Retrieval": {
8
+ "query": "クエリを与えるので、もっともクエリに意味が似ている一節を探してください。",
9
+ "document": "text: ",
10
+ },
11
+ "Reranking": {
12
+ "query": "クエリを与えるので、もっともクエリに意味が似ている一節を探してください。",
13
+ "document": "text: ",
14
+ },
15
+ "Classification": "与えられたドキュメントを適切なカテゴリに分類してください。",
16
+ "Clustering": "与えられたドキュメントのトピックまたはテーマを特定してください。",
17
+ # optimization regarding JMTEB
18
+ "LivedoorNewsClustering.v2": "与えられたニュース記事のトピックを特定してください。",
19
+ "MewsC16JaClustering": "与えられたニュース記事のトピックを特定してください。",
20
+ "SIB200ClusteringS2S": "与えられたテキストのトピックを特定してください。",
21
+ "AmazonReviewsClassification": "与えられたAmazonレビューを適切な評価カテゴリに分類してください。",
22
+ "AmazonCounterfactualClassification": "与えられたAmazonのカスタマーレビューのテキストを反事実か反事実でないかに分類してください。",
23
+ "MassiveIntentClassification": "ユーザーの発話をクエリとして与えるので、ユーザーの意図を見つけてください。",
24
+ "MassiveScenarioClassification": "ユーザーの発話をクエリとして与えるので、ユーザーシナリオを見つけてください。",
25
+ "JapaneseSentimentClassification": "与えられたテキストの感情極性をポジティブ(1)かネガティブか(0)に分類してください。",
26
+ "SIB200Classification": "与えられたテキストのトピックを特定してください。",
27
+ "WRIMEClassification": "与えられたテキストの感情極性(-2:強いネガティブ、-1:ネガティブ、0:ニュートラル、1:ポジティブ、2:強いポジティブ)を分類してください。",
28
+ "JSTS": "クエリを与えるので,もっともクエリに意味が似ている一節を探してください。",
29
+ "JSICK": "クエリを与えるので,もっともクエリに意味が似ている一節を探してください。",
30
+ "JaqketRetrieval": {
31
+ "query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
32
+ "document": "text: ",
33
+ },
34
+ "MrTidyRetrieval": {
35
+ "query": "質問を与えるので、その質問に答えるWikipediaの文章を検索するしてください。",
36
+ "document": "text: ",
37
+ },
38
+ "JaGovFaqsRetrieval": {
39
+ "query": "質問を与えるので、その質問に答えるのに役立つ関連文書を検索してください。",
40
+ "document": "text: ",
41
+ },
42
+ "NLPJournalTitleAbsRetrieval.V2": {
43
+ "query": "論文のタイトルを与えるので、タイトルに対応する要約を検索してください。",
44
+ "document": "text: ",
45
+ },
46
+ "NLPJournalTitleIntroRetrieval.V2": {
47
+ "query": "論文のタイトルを与えるので、タイトルに対応する要約を検索してください。",
48
+ "document": "text: ",
49
+ },
50
+ "NLPJournalAbsIntroRetrieval.V2": {
51
+ "query": "論文の序論を与えるので、序論に対応する全文を検索してください。",
52
+ "document": "text: ",
53
+ },
54
+ "NLPJournalAbsArticleRetrieval.V2": {
55
+ "query": "論文の序論を与えるので、序論に対応する全文を検索してください。",
56
+ "document": "text: ",
57
+ },
58
+ "JaCWIRRetrieval": {
59
+ "query": "記事のタイトルを与えるので、そのタイトルと合っている記事の中身を検索してください。",
60
+ "document": "text: ",
61
+ },
62
+ "MIRACLRetrieval": {
63
+ "query": "質問を与えるので、その質問に答えるのに役立つ関連文書を検索してください。",
64
+ "document": "text: ",
65
+ },
66
+ "MintakaRetrieval": {
67
+ "query": "質問を与えるので、その質問に答えられるテキストを検索してください。",
68
+ "document": "text: ",
69
+ },
70
+ "MultiLongDocRetrieval": {
71
+ "query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
72
+ "document": "text: ",
73
+ },
74
+ "ESCIReranking": {
75
+ "query": "クエリを与えるので、与えられたWeb検索クエリに答える関連文章を検索してください。",
76
+ "document": "text: ",
77
+ },
78
+ "JQaRAReranking": {
79
+ "query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
80
+ "document": "text: ",
81
+ },
82
+ "JaCWIRReranking": {
83
+ "query": "記事のタイトルを与えるので、そのタイトルと合っている記事の中身を検索してください。",
84
+ "document": "text: ",
85
+ },
86
+ "MIRACLReranking": {
87
+ "query": "質問を与えるので、その質問に答えるのに役立つ関連文書を検索してください。",
88
+ "document": "text: ",
89
+ },
90
+ "MultiLongDocReranking": {
91
+ "query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
92
+ "document": "text: ",
93
+ },
94
+ }
95
+
96
+
97
+ def sarashina_instruction_template(
98
+ instruction: str, prompt_type: PromptType | None = None
99
+ ) -> str:
100
+ """Instruction template for Sarashina v2 model.
101
+
102
+ Returns the instruction as-is since the prompts already contain the full format.
103
+ For document prompts, returns the instruction directly (e.g., "text: ").
104
+ """
105
+ if not instruction:
106
+ return ""
107
+ if prompt_type == PromptType.document:
108
+ return "text: "
109
+ return f"task: {instruction}\nquery: "
110
+
111
+
112
+ sbintuitions_sarashina_embedding_v2_1b = ModelMeta(
113
+ loader=InstructSentenceTransformerModel,
114
+ loader_kwargs=dict(
115
+ instruction_template=sarashina_instruction_template,
116
+ apply_instruction_to_passages=True,
117
+ prompts_dict=SARASHINA_V2_INSTRUCTIONS,
118
+ max_seq_length=8192,
119
+ ),
120
+ name="sbintuitions/sarashina-embedding-v2-1b",
121
+ languages=["jpn-Jpan"],
122
+ open_weights=True,
123
+ revision="1f3408afaa7b617e3445d891310a9c26dd0c68a5",
124
+ release_date="2025-07-30",
125
+ n_parameters=1_224_038_144,
126
+ memory_usage_mb=4669,
127
+ embed_dim=1792,
128
+ license="https://huggingface.co/sbintuitions/sarashina-embedding-v2-1b/blob/main/LICENSE",
129
+ max_tokens=8192,
130
+ reference="https://huggingface.co/sbintuitions/sarashina-embedding-v2-1b",
131
+ similarity_fn_name="cosine",
132
+ framework=["Sentence Transformers", "PyTorch"],
133
+ use_instructions=True,
134
+ adapted_from="sbintuitions/sarashina2.2-1b",
135
+ superseded_by=None,
136
+ training_datasets={"NQ", "MrTidyRetrieval"},
137
+ public_training_code=None,
138
+ public_training_data="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b",
139
+ citation=None,
140
+ contacts=["Sraym1217", "akiFQC", "lsz05"],
141
+ )
142
+
143
+ sbintuitions_sarashina_embedding_v1_1b = ModelMeta(
144
+ loader=sentence_transformers_loader,
145
+ name="sbintuitions/sarashina-embedding-v1-1b",
146
+ languages=["jpn-Jpan"],
147
+ open_weights=True,
148
+ revision="d060fcd8984075071e7fad81baff035cbb3b6c7e",
149
+ release_date="2024-11-22",
150
+ n_parameters=1_224_038_144,
151
+ memory_usage_mb=4669,
152
+ embed_dim=1792,
153
+ license="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE",
154
+ max_tokens=8192,
155
+ reference="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b",
156
+ similarity_fn_name="cosine",
157
+ framework=["Sentence Transformers", "PyTorch"],
158
+ use_instructions=False,
159
+ adapted_from="sbintuitions/sarashina2.1-1b",
160
+ superseded_by="sbintuitions/sarashina-embedding-v2-1b",
161
+ training_datasets={"NQ", "MrTidyRetrieval"},
162
+ public_training_code=None,
163
+ public_training_data="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b",
164
+ citation=None,
165
+ contacts=["akiFQC", "lsz05"],
166
+ )
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.4
2
2
  Name: mteb
3
- Version: 2.3.5
3
+ Version: 2.3.6
4
4
  Summary: Massive Text Embedding Benchmark
5
5
  Author-email: MTEB Contributors <niklas@huggingface.co>, Kenneth Enevoldsen <kenneth.enevoldsen@cas.au.dk>, Nouamane Tazi <nouamane@huggingface.co>, Nils Reimers <info@nils-reimers.de>
6
6
  Maintainer-email: Kenneth Enevoldsen <kenneth.enevoldsen@cas.au.dk>, Roman Solomatin <risolomatin@gmail.com>, Isaac Chung <chungisaac1217@gmail.com>
@@ -1427,7 +1427,7 @@ mteb/languages/programming_languages.py,sha256=zxAakT3OSUnAuTnQ34VyeFIECnNXMlleZ
1427
1427
  mteb/leaderboard/__init__.py,sha256=991roXmtRwEQysV-37hWEzWpkvPgMCGRqZTHR-hm2io,88
1428
1428
  mteb/leaderboard/app.py,sha256=29MxFLKEVT-roULHG5boHmsQVhld1rDGNS94r7MWlz8,33118
1429
1429
  mteb/leaderboard/benchmark_selector.py,sha256=uH66SI0iT1J4_fnebViWa83dQwhPi7toBv7PRL_epDw,7784
1430
- mteb/leaderboard/figures.py,sha256=cfOK82rRf-7sCjyP7GBxh4ezhOIt0OhD0_86mKtzLrg,7530
1430
+ mteb/leaderboard/figures.py,sha256=mPO0go_23QEhAm1RJdLiBxPFCoUiA74_ztyl6yimc7k,7553
1431
1431
  mteb/leaderboard/table.py,sha256=6SnrYC5GcBlvVSO6vOk6ObuqtoveBLv3JUuXqdKueG8,8333
1432
1432
  mteb/leaderboard/text_segments.py,sha256=iMIkS04QQjPbT-SkU0x6fOcS8xRbUYevryu9HydipKM,6570
1433
1433
  mteb/models/__init__.py,sha256=ABTuoqiBjBtBWW3LYY7ItBHdylR6jWoy06HH0g6j6fU,910
@@ -1495,6 +1495,7 @@ mteb/models/model_implementations/jina_clip.py,sha256=CfiIxbhKspjQajNtObCfGPHOWP
1495
1495
  mteb/models/model_implementations/jina_models.py,sha256=HrHm2Io3g9gHwxU5icAaudy_E8rAVkAAIFSzVYWF-dM,34859
1496
1496
  mteb/models/model_implementations/kalm_models.py,sha256=FmW7Z5Qs6WYBLuKvql3u4IJW36kj4k-Ypah8qTBEBkg,59837
1497
1497
  mteb/models/model_implementations/kennethenevoldsen_models.py,sha256=DF-9nmsewYO9ikZ0kV81ujKGr7Ot36-9iPoxN7KX2mY,2993
1498
+ mteb/models/model_implementations/kowshik24_models.py,sha256=HoQpybjhquK2XSnawlq0aiSWFI5M7l6N4DNY4MQ-P10,976
1498
1499
  mteb/models/model_implementations/lens_models.py,sha256=fC7_NB1F8vBAlXD0p0-hALf6eZTPFJwpz57dy71OlwI,1696
1499
1500
  mteb/models/model_implementations/lgai_embedding_models.py,sha256=S83pbfkMH3YUNl4skusgbK-Rn-uLuScQVxgXwegR_N4,2333
1500
1501
  mteb/models/model_implementations/linq_models.py,sha256=EtvUyiNbjU-GJd1kS0Z0gBACkP2pFOjk0KfGMZz4K9Y,1872
@@ -1538,6 +1539,7 @@ mteb/models/model_implementations/ru_sentence_models.py,sha256=GuZFwbzaooufvSMGN
1538
1539
  mteb/models/model_implementations/ruri_models.py,sha256=-BTYkZ8dEWZUbGqx3YB5yFSrzMwZtXX7sMUHzrlB8ws,10043
1539
1540
  mteb/models/model_implementations/salesforce_models.py,sha256=KslTK-IKeLvNG-vQir9k6swkaOgjk6eyozm_BOVgTpY,5160
1540
1541
  mteb/models/model_implementations/samilpwc_models.py,sha256=oMwKNwCxoH1jZgCy04oo2oVlBZWu253QMpnEEC6emz8,2021
1542
+ mteb/models/model_implementations/sarashina_embedding_models.py,sha256=TSmr2FEX79mJTA9mbEV3meEZYSelGv58Veiw__TTGFM,8415
1541
1543
  mteb/models/model_implementations/searchmap_models.py,sha256=XvVl99emIgnNUCxkTuFQXW6py2R8vgsArfpyHveCugw,1904
1542
1544
  mteb/models/model_implementations/seed_1_6_embedding_models.py,sha256=8J3htEddltyGTydIbnMUudgAV97FdD43-SQKaSA_Iuc,18534
1543
1545
  mteb/models/model_implementations/seed_models.py,sha256=SgK4kPVO6V33G3F1zSq06zSkWarPLEwBt1SWp4TUoVw,14142
@@ -2571,9 +2573,9 @@ mteb/types/_metadata.py,sha256=NN-W0S6a5TDV7UkpRx1pyWtGF4TyyCyoPUfHOwdeci8,2290
2571
2573
  mteb/types/_result.py,sha256=CRAUc5IvqI3_9SyXDwv-PWLCXwXdZem9RePeYESRtuw,996
2572
2574
  mteb/types/_string_validators.py,sha256=PY-dYq4E8O50VS3bLYdldPWp400fl_WzUjfVSkNWe8U,523
2573
2575
  mteb/types/statistics.py,sha256=YwJsxTf1eaCI_RE-J37a-gK5wDeGAsmkeZKoZCFihSo,3755
2574
- mteb-2.3.5.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
2575
- mteb-2.3.5.dist-info/METADATA,sha256=Ud-HNDLgXkrYqVQczyt-TNpev3LR1rBhRDPKK3Dn_T0,13923
2576
- mteb-2.3.5.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
2577
- mteb-2.3.5.dist-info/entry_points.txt,sha256=8IJoEJFKoDHmVnNev-qJ9pp4Ln7_1-ma9QsXnzVCzGU,39
2578
- mteb-2.3.5.dist-info/top_level.txt,sha256=OLVIjcQAlWBz0bdmutKlWHLF42FF0hp4uVAg3ZyiG4U,5
2579
- mteb-2.3.5.dist-info/RECORD,,
2576
+ mteb-2.3.6.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
2577
+ mteb-2.3.6.dist-info/METADATA,sha256=urz0_67bNhVt17rvN3pZdvMFt_mvxI7MFvamWkNoNjM,13923
2578
+ mteb-2.3.6.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
2579
+ mteb-2.3.6.dist-info/entry_points.txt,sha256=8IJoEJFKoDHmVnNev-qJ9pp4Ln7_1-ma9QsXnzVCzGU,39
2580
+ mteb-2.3.6.dist-info/top_level.txt,sha256=OLVIjcQAlWBz0bdmutKlWHLF42FF0hp4uVAg3ZyiG4U,5
2581
+ mteb-2.3.6.dist-info/RECORD,,
File without changes