Detaylı parçalanmış rehber:
./MTEB/
MTEB (Massive Text Embedding Benchmark), embedding modellerini dokuz görev türünde ve onlarca dilde standart olarak değerlendiren bir lider tablosudur. Tek bir "en iyi model" yok; göreve, dile ve kapasite kısıtına göre seçim değişir.
MTEB liderboardunda dikkat edilmesi gereken üç temel skor:
| Metrik | Anlam | Tuzak |
|---|---|---|
| Borda Rank | Tüm görevlerdeki sıralamaların ortalaması | Eksik görevde ceza ağır |
| Mean (Task) | Tüm görev skorlarının düz ortalaması | Çok görevli olan model avantajlı görünür |
| Mean (TaskType) | Önce görev türü içinde ortalama, sonra türler arası ortalama | En adil; baz alınmalı |
Detay: MTEB/2. Sıralama Mekanizmaları.md.
Detay: MTEB/3. Eksik Görev Sorunu ve Karşılaştırma Tuzakları.md.
| Filtre | Önerilen Kullanım |
|---|---|
| Languages | "Turkish" veya "Multilingual" işaretli olmalı |
| Zero-Shot | Adil karşılaştırma için açık tutulmalı |
| Model Size | Bütçeye göre kısıtlanmalı (Active B parametresi) |
| Public | Lisans ve indirilebilirlik kontrolü |
Detay: MTEB/4. Leaderboard'daki Filtreler ve Nasıl Kullanılmalı.md.
Çok dilli skorlar ve top-20 modellerin görev türü bazlı kırılımı: MTEB/5. Güncel Leaderboard Analizi - MMTEB (Multilingual, v2).md.
Üç ayrı tablo halinde okunabilir formatta sunulmaktadır:
Detay: MTEB/6. Leaderboard'u Doğru Yorumlama Rehberi.md.
MTEB geniş çapta metin görevlerinde embedding davranışını ölçer. SciRepEval ise bilimsel doküman embeddinglerini dört biçimde bir arada ölçer: ad-hoc arama (SRCH), yakınlık sıralama (PRX), sınıflandırma (CLF) ve regresyon (RGN) — toplam 24 görev; bunların bir kısmı çalışmayla ilk kez önerilmiştir (ör. Semantic Scholar tıklama tabanlı Search, FoS sınıflandırması, etkili atıf yakınlığı).
Bizim Türkçe akademik embedding tasarımında önerilen çok görevli altın benchmark (Veri Kümesi Tasarımı), SciRepEval ile aynı “tek retrieval’a kilitleme” tuzaklarından kaçınma mantığıyla uyumludur; görev tanımları için wiki içi özet:
35_Kaynaklar/SciRepEval-Gorevler-ve-Veri-Kumeleri.md35_Kaynaklar/SPECTER2-Modeli-Detayli-Teknik-Rapor.md35_Kaynaklar/README.md — referans makale ve benchmark özetleriMTEB/README.md — tam rehberMTEB/Gorev-Turleri-Detayli.md — 9 görev türü uzun anlatım