MTEB ile Embedding Değerlendirme

Detaylı parçalanmış rehber: ./MTEB/

1. MTEB Nedir?

MTEB (Massive Text Embedding Benchmark), embedding modellerini dokuz görev türünde ve onlarca dilde standart olarak değerlendiren bir lider tablosudur. Tek bir "en iyi model" yok; göreve, dile ve kapasite kısıtına göre seçim değişir.

2. Sıralama Mekanizmaları (Özet)

MTEB liderboardunda dikkat edilmesi gereken üç temel skor:

Metrik	Anlam	Tuzak
Borda Rank	Tüm görevlerdeki sıralamaların ortalaması	Eksik görevde ceza ağır
Mean (Task)	Tüm görev skorlarının düz ortalaması	Çok görevli olan model avantajlı görünür
Mean (TaskType)	Önce görev türü içinde ortalama, sonra türler arası ortalama	En adil; baz alınmalı

Detay: MTEB/2. Sıralama Mekanizmaları.md.

3. Karşılaştırma Tuzakları

Eksik görev sorunu: Bir model yalnızca 5 görevde test edilmiş, diğeri 30 görevde. Aynı sıralamada görünseler de güvenilirlikleri farklı.
Zero-shot vs fine-tuned ayrımı liderboard filtresinde gizli kalabilir.
Dil filtresi doğru kurulmadığında çok dilli model yerel modelden düşük görünebilir.

Detay: MTEB/3. Eksik Görev Sorunu ve Karşılaştırma Tuzakları.md.

4. Filtreler ve Doğru Kullanım

Filtre	Önerilen Kullanım
Languages	"Turkish" veya "Multilingual" işaretli olmalı
Zero-Shot	Adil karşılaştırma için açık tutulmalı
Model Size	Bütçeye göre kısıtlanmalı (Active B parametresi)
Public	Lisans ve indirilebilirlik kontrolü

Detay: MTEB/4. Leaderboard'daki Filtreler ve Nasıl Kullanılmalı.md.

5. Güncel Liderboard Analizi (MMTEB v2)

Çok dilli skorlar ve top-20 modellerin görev türü bazlı kırılımı: MTEB/5. Güncel Leaderboard Analizi - MMTEB (Multilingual, v2).md.

Üç ayrı tablo halinde okunabilir formatta sunulmaktadır:

Top-20 özet (Borda + boyut + token)
Top-20 retrieval / similarity / reranking
Top-20 classification / clustering / instruction

6. Doğru Yorumlama Rehberi (Pratik İpuçları)

Kararı tek skora indirgeme — görev türü bazlı kırılıma bak.
Türkçe akademik metin için MMTEB v2'deki Turkish + Retrieval filtrelerini birlikte uygula.
Model boyutunu görmezden gelme — 7B model her ortamda çalışmaz.

Detay: MTEB/6. Leaderboard'u Doğru Yorumlama Rehberi.md.

7. Bizim İçin Çıkarımlar

F2LLM (kullanılan model) retrieval ve clustering görevlerinde stabil; outlier ve etiket kontrolünde başarılı sonuç verdi.
bge-m3 çok dilli + sparse desteği nedeniyle hibrit retrieval için aday.
multilingual-e5-large Türkçe odaklı karşılaştırma için iyi referans.
Karar öncesi her aday model kendi domain verimizde (200 örneklik altın set) tekrar test edilmeli — MTEB rakamları yön gösterir, mutlaklamaz.

8. Akademik doküman benchmarkı (SciRepEval)

MTEB geniş çapta metin görevlerinde embedding davranışını ölçer. SciRepEval ise bilimsel doküman embeddinglerini dört biçimde bir arada ölçer: ad-hoc arama (SRCH), yakınlık sıralama (PRX), sınıflandırma (CLF) ve regresyon (RGN) — toplam 24 görev; bunların bir kısmı çalışmayla ilk kez önerilmiştir (ör. Semantic Scholar tıklama tabanlı Search, FoS sınıflandırması, etkili atıf yakınlığı).

Bizim Türkçe akademik embedding tasarımında önerilen çok görevli altın benchmark (Veri Kümesi Tasarımı), SciRepEval ile aynı “tek retrieval’a kilitleme” tuzaklarından kaçınma mantığıyla uyumludur; görev tanımları için wiki içi özet:

9. İlgili Sayfalar

Embedding Modelleri
Görev Türleri
35_Kaynaklar/README.md — referans makale ve benchmark özetleri
MTEB/README.md — tam rehber
MTEB/Gorev-Turleri-Detayli.md — 9 görev türü uzun anlatım