mteb 2.3.5__py3-none-any.whl → 2.3.6__py3-none-any.whl
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- mteb/leaderboard/figures.py +1 -1
- mteb/models/model_implementations/kowshik24_models.py +22 -0
- mteb/models/model_implementations/sarashina_embedding_models.py +166 -0
- {mteb-2.3.5.dist-info → mteb-2.3.6.dist-info}/METADATA +1 -1
- {mteb-2.3.5.dist-info → mteb-2.3.6.dist-info}/RECORD +9 -7
- {mteb-2.3.5.dist-info → mteb-2.3.6.dist-info}/WHEEL +0 -0
- {mteb-2.3.5.dist-info → mteb-2.3.6.dist-info}/entry_points.txt +0 -0
- {mteb-2.3.5.dist-info → mteb-2.3.6.dist-info}/licenses/LICENSE +0 -0
- {mteb-2.3.5.dist-info → mteb-2.3.6.dist-info}/top_level.txt +0 -0
mteb/leaderboard/figures.py
CHANGED
|
@@ -117,7 +117,7 @@ def _performance_size_plot(df: pd.DataFrame) -> go.Figure:
|
|
|
117
117
|
df["Max Tokens"] = df["Max Tokens"].map(_parse_float)
|
|
118
118
|
df["Log(Tokens)"] = np.log10(df["Max Tokens"])
|
|
119
119
|
df["Mean (Task)"] = df["Mean (Task)"].map(_parse_float)
|
|
120
|
-
df = df.dropna(
|
|
120
|
+
df = df[df["Mean (Task)"] > 0].dropna(
|
|
121
121
|
subset=["Mean (Task)", "Number of Parameters", "Embedding Dimensions"]
|
|
122
122
|
)
|
|
123
123
|
if not len(df.index):
|
|
@@ -0,0 +1,22 @@
|
|
|
1
|
+
from mteb.models import ModelMeta, sentence_transformers_loader
|
|
2
|
+
|
|
3
|
+
kowshik24_bangla_embedding_model = ModelMeta(
|
|
4
|
+
loader=sentence_transformers_loader,
|
|
5
|
+
name="Kowshik24/bangla-sentence-transformer-ft-matryoshka-paraphrase-multilingual-mpnet-base-v2",
|
|
6
|
+
languages=["ben-Beng"], # Bengali using Bengali script
|
|
7
|
+
open_weights=True,
|
|
8
|
+
revision="6689c21e69be5950596bad084457cbaa138728d8",
|
|
9
|
+
release_date="2025-11-10",
|
|
10
|
+
n_parameters=278_000_000,
|
|
11
|
+
memory_usage_mb=1061,
|
|
12
|
+
embed_dim=768,
|
|
13
|
+
license="apache-2.0",
|
|
14
|
+
max_tokens=128,
|
|
15
|
+
reference="https://huggingface.co/Kowshik24/bangla-sentence-transformer-ft-matryoshka-paraphrase-multilingual-mpnet-base-v2",
|
|
16
|
+
similarity_fn_name="cosine",
|
|
17
|
+
framework=["Sentence Transformers", "PyTorch"],
|
|
18
|
+
use_instructions=False,
|
|
19
|
+
public_training_code="https://github.com/kowshik24/Bangla-Embedding",
|
|
20
|
+
public_training_data="https://huggingface.co/datasets/sartajekram/BanglaRQA",
|
|
21
|
+
training_datasets=set(),
|
|
22
|
+
)
|
|
@@ -0,0 +1,166 @@
|
|
|
1
|
+
from mteb.models.instruct_wrapper import InstructSentenceTransformerModel
|
|
2
|
+
from mteb.models.model_meta import ModelMeta
|
|
3
|
+
from mteb.models.sentence_transformer_wrapper import sentence_transformers_loader
|
|
4
|
+
from mteb.types import PromptType
|
|
5
|
+
|
|
6
|
+
SARASHINA_V2_INSTRUCTIONS = {
|
|
7
|
+
"Retrieval": {
|
|
8
|
+
"query": "クエリを与えるので、もっともクエリに意味が似ている一節を探してください。",
|
|
9
|
+
"document": "text: ",
|
|
10
|
+
},
|
|
11
|
+
"Reranking": {
|
|
12
|
+
"query": "クエリを与えるので、もっともクエリに意味が似ている一節を探してください。",
|
|
13
|
+
"document": "text: ",
|
|
14
|
+
},
|
|
15
|
+
"Classification": "与えられたドキュメントを適切なカテゴリに分類してください。",
|
|
16
|
+
"Clustering": "与えられたドキュメントのトピックまたはテーマを特定してください。",
|
|
17
|
+
# optimization regarding JMTEB
|
|
18
|
+
"LivedoorNewsClustering.v2": "与えられたニュース記事のトピックを特定してください。",
|
|
19
|
+
"MewsC16JaClustering": "与えられたニュース記事のトピックを特定してください。",
|
|
20
|
+
"SIB200ClusteringS2S": "与えられたテキストのトピックを特定してください。",
|
|
21
|
+
"AmazonReviewsClassification": "与えられたAmazonレビューを適切な評価カテゴリに分類してください。",
|
|
22
|
+
"AmazonCounterfactualClassification": "与えられたAmazonのカスタマーレビューのテキストを反事実か反事実でないかに分類してください。",
|
|
23
|
+
"MassiveIntentClassification": "ユーザーの発話をクエリとして与えるので、ユーザーの意図を見つけてください。",
|
|
24
|
+
"MassiveScenarioClassification": "ユーザーの発話をクエリとして与えるので、ユーザーシナリオを見つけてください。",
|
|
25
|
+
"JapaneseSentimentClassification": "与えられたテキストの感情極性をポジティブ(1)かネガティブか(0)に分類してください。",
|
|
26
|
+
"SIB200Classification": "与えられたテキストのトピックを特定してください。",
|
|
27
|
+
"WRIMEClassification": "与えられたテキストの感情極性(-2:強いネガティブ、-1:ネガティブ、0:ニュートラル、1:ポジティブ、2:強いポジティブ)を分類してください。",
|
|
28
|
+
"JSTS": "クエリを与えるので,もっともクエリに意味が似ている一節を探してください。",
|
|
29
|
+
"JSICK": "クエリを与えるので,もっともクエリに意味が似ている一節を探してください。",
|
|
30
|
+
"JaqketRetrieval": {
|
|
31
|
+
"query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
|
|
32
|
+
"document": "text: ",
|
|
33
|
+
},
|
|
34
|
+
"MrTidyRetrieval": {
|
|
35
|
+
"query": "質問を与えるので、その質問に答えるWikipediaの文章を検索するしてください。",
|
|
36
|
+
"document": "text: ",
|
|
37
|
+
},
|
|
38
|
+
"JaGovFaqsRetrieval": {
|
|
39
|
+
"query": "質問を与えるので、その質問に答えるのに役立つ関連文書を検索してください。",
|
|
40
|
+
"document": "text: ",
|
|
41
|
+
},
|
|
42
|
+
"NLPJournalTitleAbsRetrieval.V2": {
|
|
43
|
+
"query": "論文のタイトルを与えるので、タイトルに対応する要約を検索してください。",
|
|
44
|
+
"document": "text: ",
|
|
45
|
+
},
|
|
46
|
+
"NLPJournalTitleIntroRetrieval.V2": {
|
|
47
|
+
"query": "論文のタイトルを与えるので、タイトルに対応する要約を検索してください。",
|
|
48
|
+
"document": "text: ",
|
|
49
|
+
},
|
|
50
|
+
"NLPJournalAbsIntroRetrieval.V2": {
|
|
51
|
+
"query": "論文の序論を与えるので、序論に対応する全文を検索してください。",
|
|
52
|
+
"document": "text: ",
|
|
53
|
+
},
|
|
54
|
+
"NLPJournalAbsArticleRetrieval.V2": {
|
|
55
|
+
"query": "論文の序論を与えるので、序論に対応する全文を検索してください。",
|
|
56
|
+
"document": "text: ",
|
|
57
|
+
},
|
|
58
|
+
"JaCWIRRetrieval": {
|
|
59
|
+
"query": "記事のタイトルを与えるので、そのタイトルと合っている記事の中身を検索してください。",
|
|
60
|
+
"document": "text: ",
|
|
61
|
+
},
|
|
62
|
+
"MIRACLRetrieval": {
|
|
63
|
+
"query": "質問を与えるので、その質問に答えるのに役立つ関連文書を検索してください。",
|
|
64
|
+
"document": "text: ",
|
|
65
|
+
},
|
|
66
|
+
"MintakaRetrieval": {
|
|
67
|
+
"query": "質問を与えるので、その質問に答えられるテキストを検索してください。",
|
|
68
|
+
"document": "text: ",
|
|
69
|
+
},
|
|
70
|
+
"MultiLongDocRetrieval": {
|
|
71
|
+
"query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
|
|
72
|
+
"document": "text: ",
|
|
73
|
+
},
|
|
74
|
+
"ESCIReranking": {
|
|
75
|
+
"query": "クエリを与えるので、与えられたWeb検索クエリに答える関連文章を検索してください。",
|
|
76
|
+
"document": "text: ",
|
|
77
|
+
},
|
|
78
|
+
"JQaRAReranking": {
|
|
79
|
+
"query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
|
|
80
|
+
"document": "text: ",
|
|
81
|
+
},
|
|
82
|
+
"JaCWIRReranking": {
|
|
83
|
+
"query": "記事のタイトルを与えるので、そのタイトルと合っている記事の中身を検索してください。",
|
|
84
|
+
"document": "text: ",
|
|
85
|
+
},
|
|
86
|
+
"MIRACLReranking": {
|
|
87
|
+
"query": "質問を与えるので、その質問に答えるのに役立つ関連文書を検索してください。",
|
|
88
|
+
"document": "text: ",
|
|
89
|
+
},
|
|
90
|
+
"MultiLongDocReranking": {
|
|
91
|
+
"query": "質問を与えるので、その質問に答えるのに役立つWikipediaの文章を検索してください。",
|
|
92
|
+
"document": "text: ",
|
|
93
|
+
},
|
|
94
|
+
}
|
|
95
|
+
|
|
96
|
+
|
|
97
|
+
def sarashina_instruction_template(
|
|
98
|
+
instruction: str, prompt_type: PromptType | None = None
|
|
99
|
+
) -> str:
|
|
100
|
+
"""Instruction template for Sarashina v2 model.
|
|
101
|
+
|
|
102
|
+
Returns the instruction as-is since the prompts already contain the full format.
|
|
103
|
+
For document prompts, returns the instruction directly (e.g., "text: ").
|
|
104
|
+
"""
|
|
105
|
+
if not instruction:
|
|
106
|
+
return ""
|
|
107
|
+
if prompt_type == PromptType.document:
|
|
108
|
+
return "text: "
|
|
109
|
+
return f"task: {instruction}\nquery: "
|
|
110
|
+
|
|
111
|
+
|
|
112
|
+
sbintuitions_sarashina_embedding_v2_1b = ModelMeta(
|
|
113
|
+
loader=InstructSentenceTransformerModel,
|
|
114
|
+
loader_kwargs=dict(
|
|
115
|
+
instruction_template=sarashina_instruction_template,
|
|
116
|
+
apply_instruction_to_passages=True,
|
|
117
|
+
prompts_dict=SARASHINA_V2_INSTRUCTIONS,
|
|
118
|
+
max_seq_length=8192,
|
|
119
|
+
),
|
|
120
|
+
name="sbintuitions/sarashina-embedding-v2-1b",
|
|
121
|
+
languages=["jpn-Jpan"],
|
|
122
|
+
open_weights=True,
|
|
123
|
+
revision="1f3408afaa7b617e3445d891310a9c26dd0c68a5",
|
|
124
|
+
release_date="2025-07-30",
|
|
125
|
+
n_parameters=1_224_038_144,
|
|
126
|
+
memory_usage_mb=4669,
|
|
127
|
+
embed_dim=1792,
|
|
128
|
+
license="https://huggingface.co/sbintuitions/sarashina-embedding-v2-1b/blob/main/LICENSE",
|
|
129
|
+
max_tokens=8192,
|
|
130
|
+
reference="https://huggingface.co/sbintuitions/sarashina-embedding-v2-1b",
|
|
131
|
+
similarity_fn_name="cosine",
|
|
132
|
+
framework=["Sentence Transformers", "PyTorch"],
|
|
133
|
+
use_instructions=True,
|
|
134
|
+
adapted_from="sbintuitions/sarashina2.2-1b",
|
|
135
|
+
superseded_by=None,
|
|
136
|
+
training_datasets={"NQ", "MrTidyRetrieval"},
|
|
137
|
+
public_training_code=None,
|
|
138
|
+
public_training_data="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b",
|
|
139
|
+
citation=None,
|
|
140
|
+
contacts=["Sraym1217", "akiFQC", "lsz05"],
|
|
141
|
+
)
|
|
142
|
+
|
|
143
|
+
sbintuitions_sarashina_embedding_v1_1b = ModelMeta(
|
|
144
|
+
loader=sentence_transformers_loader,
|
|
145
|
+
name="sbintuitions/sarashina-embedding-v1-1b",
|
|
146
|
+
languages=["jpn-Jpan"],
|
|
147
|
+
open_weights=True,
|
|
148
|
+
revision="d060fcd8984075071e7fad81baff035cbb3b6c7e",
|
|
149
|
+
release_date="2024-11-22",
|
|
150
|
+
n_parameters=1_224_038_144,
|
|
151
|
+
memory_usage_mb=4669,
|
|
152
|
+
embed_dim=1792,
|
|
153
|
+
license="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b/blob/main/LICENSE",
|
|
154
|
+
max_tokens=8192,
|
|
155
|
+
reference="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b",
|
|
156
|
+
similarity_fn_name="cosine",
|
|
157
|
+
framework=["Sentence Transformers", "PyTorch"],
|
|
158
|
+
use_instructions=False,
|
|
159
|
+
adapted_from="sbintuitions/sarashina2.1-1b",
|
|
160
|
+
superseded_by="sbintuitions/sarashina-embedding-v2-1b",
|
|
161
|
+
training_datasets={"NQ", "MrTidyRetrieval"},
|
|
162
|
+
public_training_code=None,
|
|
163
|
+
public_training_data="https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b",
|
|
164
|
+
citation=None,
|
|
165
|
+
contacts=["akiFQC", "lsz05"],
|
|
166
|
+
)
|
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
Metadata-Version: 2.4
|
|
2
2
|
Name: mteb
|
|
3
|
-
Version: 2.3.
|
|
3
|
+
Version: 2.3.6
|
|
4
4
|
Summary: Massive Text Embedding Benchmark
|
|
5
5
|
Author-email: MTEB Contributors <niklas@huggingface.co>, Kenneth Enevoldsen <kenneth.enevoldsen@cas.au.dk>, Nouamane Tazi <nouamane@huggingface.co>, Nils Reimers <info@nils-reimers.de>
|
|
6
6
|
Maintainer-email: Kenneth Enevoldsen <kenneth.enevoldsen@cas.au.dk>, Roman Solomatin <risolomatin@gmail.com>, Isaac Chung <chungisaac1217@gmail.com>
|
|
@@ -1427,7 +1427,7 @@ mteb/languages/programming_languages.py,sha256=zxAakT3OSUnAuTnQ34VyeFIECnNXMlleZ
|
|
|
1427
1427
|
mteb/leaderboard/__init__.py,sha256=991roXmtRwEQysV-37hWEzWpkvPgMCGRqZTHR-hm2io,88
|
|
1428
1428
|
mteb/leaderboard/app.py,sha256=29MxFLKEVT-roULHG5boHmsQVhld1rDGNS94r7MWlz8,33118
|
|
1429
1429
|
mteb/leaderboard/benchmark_selector.py,sha256=uH66SI0iT1J4_fnebViWa83dQwhPi7toBv7PRL_epDw,7784
|
|
1430
|
-
mteb/leaderboard/figures.py,sha256=
|
|
1430
|
+
mteb/leaderboard/figures.py,sha256=mPO0go_23QEhAm1RJdLiBxPFCoUiA74_ztyl6yimc7k,7553
|
|
1431
1431
|
mteb/leaderboard/table.py,sha256=6SnrYC5GcBlvVSO6vOk6ObuqtoveBLv3JUuXqdKueG8,8333
|
|
1432
1432
|
mteb/leaderboard/text_segments.py,sha256=iMIkS04QQjPbT-SkU0x6fOcS8xRbUYevryu9HydipKM,6570
|
|
1433
1433
|
mteb/models/__init__.py,sha256=ABTuoqiBjBtBWW3LYY7ItBHdylR6jWoy06HH0g6j6fU,910
|
|
@@ -1495,6 +1495,7 @@ mteb/models/model_implementations/jina_clip.py,sha256=CfiIxbhKspjQajNtObCfGPHOWP
|
|
|
1495
1495
|
mteb/models/model_implementations/jina_models.py,sha256=HrHm2Io3g9gHwxU5icAaudy_E8rAVkAAIFSzVYWF-dM,34859
|
|
1496
1496
|
mteb/models/model_implementations/kalm_models.py,sha256=FmW7Z5Qs6WYBLuKvql3u4IJW36kj4k-Ypah8qTBEBkg,59837
|
|
1497
1497
|
mteb/models/model_implementations/kennethenevoldsen_models.py,sha256=DF-9nmsewYO9ikZ0kV81ujKGr7Ot36-9iPoxN7KX2mY,2993
|
|
1498
|
+
mteb/models/model_implementations/kowshik24_models.py,sha256=HoQpybjhquK2XSnawlq0aiSWFI5M7l6N4DNY4MQ-P10,976
|
|
1498
1499
|
mteb/models/model_implementations/lens_models.py,sha256=fC7_NB1F8vBAlXD0p0-hALf6eZTPFJwpz57dy71OlwI,1696
|
|
1499
1500
|
mteb/models/model_implementations/lgai_embedding_models.py,sha256=S83pbfkMH3YUNl4skusgbK-Rn-uLuScQVxgXwegR_N4,2333
|
|
1500
1501
|
mteb/models/model_implementations/linq_models.py,sha256=EtvUyiNbjU-GJd1kS0Z0gBACkP2pFOjk0KfGMZz4K9Y,1872
|
|
@@ -1538,6 +1539,7 @@ mteb/models/model_implementations/ru_sentence_models.py,sha256=GuZFwbzaooufvSMGN
|
|
|
1538
1539
|
mteb/models/model_implementations/ruri_models.py,sha256=-BTYkZ8dEWZUbGqx3YB5yFSrzMwZtXX7sMUHzrlB8ws,10043
|
|
1539
1540
|
mteb/models/model_implementations/salesforce_models.py,sha256=KslTK-IKeLvNG-vQir9k6swkaOgjk6eyozm_BOVgTpY,5160
|
|
1540
1541
|
mteb/models/model_implementations/samilpwc_models.py,sha256=oMwKNwCxoH1jZgCy04oo2oVlBZWu253QMpnEEC6emz8,2021
|
|
1542
|
+
mteb/models/model_implementations/sarashina_embedding_models.py,sha256=TSmr2FEX79mJTA9mbEV3meEZYSelGv58Veiw__TTGFM,8415
|
|
1541
1543
|
mteb/models/model_implementations/searchmap_models.py,sha256=XvVl99emIgnNUCxkTuFQXW6py2R8vgsArfpyHveCugw,1904
|
|
1542
1544
|
mteb/models/model_implementations/seed_1_6_embedding_models.py,sha256=8J3htEddltyGTydIbnMUudgAV97FdD43-SQKaSA_Iuc,18534
|
|
1543
1545
|
mteb/models/model_implementations/seed_models.py,sha256=SgK4kPVO6V33G3F1zSq06zSkWarPLEwBt1SWp4TUoVw,14142
|
|
@@ -2571,9 +2573,9 @@ mteb/types/_metadata.py,sha256=NN-W0S6a5TDV7UkpRx1pyWtGF4TyyCyoPUfHOwdeci8,2290
|
|
|
2571
2573
|
mteb/types/_result.py,sha256=CRAUc5IvqI3_9SyXDwv-PWLCXwXdZem9RePeYESRtuw,996
|
|
2572
2574
|
mteb/types/_string_validators.py,sha256=PY-dYq4E8O50VS3bLYdldPWp400fl_WzUjfVSkNWe8U,523
|
|
2573
2575
|
mteb/types/statistics.py,sha256=YwJsxTf1eaCI_RE-J37a-gK5wDeGAsmkeZKoZCFihSo,3755
|
|
2574
|
-
mteb-2.3.
|
|
2575
|
-
mteb-2.3.
|
|
2576
|
-
mteb-2.3.
|
|
2577
|
-
mteb-2.3.
|
|
2578
|
-
mteb-2.3.
|
|
2579
|
-
mteb-2.3.
|
|
2576
|
+
mteb-2.3.6.dist-info/licenses/LICENSE,sha256=xx0jnfkXJvxRnG63LTGOxlggYnIysveWIZ6H3PNdCrQ,11357
|
|
2577
|
+
mteb-2.3.6.dist-info/METADATA,sha256=urz0_67bNhVt17rvN3pZdvMFt_mvxI7MFvamWkNoNjM,13923
|
|
2578
|
+
mteb-2.3.6.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
|
|
2579
|
+
mteb-2.3.6.dist-info/entry_points.txt,sha256=8IJoEJFKoDHmVnNev-qJ9pp4Ln7_1-ma9QsXnzVCzGU,39
|
|
2580
|
+
mteb-2.3.6.dist-info/top_level.txt,sha256=OLVIjcQAlWBz0bdmutKlWHLF42FF0hp4uVAg3ZyiG4U,5
|
|
2581
|
+
mteb-2.3.6.dist-info/RECORD,,
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|