MTEB ile Embedding Değerlendirme

Detaylı parçalanmış rehber: ./MTEB/

1. MTEB Nedir?

MTEB (Massive Text Embedding Benchmark), embedding modellerini dokuz görev türünde ve onlarca dilde standart olarak değerlendiren bir lider tablosudur. Tek bir "en iyi model" yok; göreve, dile ve kapasite kısıtına göre seçim değişir.

2. Sıralama Mekanizmaları (Özet)

MTEB liderboardunda dikkat edilmesi gereken üç temel skor:

Metrik Anlam Tuzak
Borda Rank Tüm görevlerdeki sıralamaların ortalaması Eksik görevde ceza ağır
Mean (Task) Tüm görev skorlarının düz ortalaması Çok görevli olan model avantajlı görünür
Mean (TaskType) Önce görev türü içinde ortalama, sonra türler arası ortalama En adil; baz alınmalı

Detay: MTEB/2. Sıralama Mekanizmaları.md.

3. Karşılaştırma Tuzakları

Detay: MTEB/3. Eksik Görev Sorunu ve Karşılaştırma Tuzakları.md.

4. Filtreler ve Doğru Kullanım

Filtre Önerilen Kullanım
Languages "Turkish" veya "Multilingual" işaretli olmalı
Zero-Shot Adil karşılaştırma için açık tutulmalı
Model Size Bütçeye göre kısıtlanmalı (Active B parametresi)
Public Lisans ve indirilebilirlik kontrolü

Detay: MTEB/4. Leaderboard'daki Filtreler ve Nasıl Kullanılmalı.md.

5. Güncel Liderboard Analizi (MMTEB v2)

Çok dilli skorlar ve top-20 modellerin görev türü bazlı kırılımı: MTEB/5. Güncel Leaderboard Analizi - MMTEB (Multilingual, v2).md.

Üç ayrı tablo halinde okunabilir formatta sunulmaktadır:

  1. Top-20 özet (Borda + boyut + token)
  2. Top-20 retrieval / similarity / reranking
  3. Top-20 classification / clustering / instruction

6. Doğru Yorumlama Rehberi (Pratik İpuçları)

Detay: MTEB/6. Leaderboard'u Doğru Yorumlama Rehberi.md.

7. Bizim İçin Çıkarımlar

8. Akademik doküman benchmarkı (SciRepEval)

MTEB geniş çapta metin görevlerinde embedding davranışını ölçer. SciRepEval ise bilimsel doküman embeddinglerini dört biçimde bir arada ölçer: ad-hoc arama (SRCH), yakınlık sıralama (PRX), sınıflandırma (CLF) ve regresyon (RGN) — toplam 24 görev; bunların bir kısmı çalışmayla ilk kez önerilmiştir (ör. Semantic Scholar tıklama tabanlı Search, FoS sınıflandırması, etkili atıf yakınlığı).

Bizim Türkçe akademik embedding tasarımında önerilen çok görevli altın benchmark (Veri Kümesi Tasarımı), SciRepEval ile aynı “tek retrieval’a kilitleme” tuzaklarından kaçınma mantığıyla uyumludur; görev tanımları için wiki içi özet:

9. İlgili Sayfalar