6. Leaderboard'u Doğru Yorumlama Rehberi

6.1 Leaderboard Bir Aday Daraltma Aracıdır, Nihai Karar Değil

MTEB leaderboard'u, geniş model havuzunu (399 model) makul bir aday listesine (5-10 model) daraltmak için güçlü bir araçtır. Ancak leaderboard'daki genel sıralama, spesifik bir uygulamanın ihtiyaçlarını birebir yansıtmaz. Nihai model seçimi, kendi veri setiniz ve kullanım senaryonuz üzerinde yapılan değerlendirmelere dayanmalıdır.

6.2 Alt Skorlara Odaklanın

Genel sıralamanın (overall) yanı sıra, uygulamanıza en yakın görev türlerinin alt sıralamalarını inceleyin. Bir RAG sistemi için Retrieval alt skoru, bir doküman organizasyon sistemi için Clustering alt skoru çok daha bilgilendiricidir.

Güncel veriler bu ilkenin önemini açıkça göstermektedir: F2LLM-v2-14B genel sıralamada 8. olmasına rağmen, yalnızca Clustering performansına bakıldığında tablonun en iyi modelidir.

6.3 Domain Uyumunu Ayrıca Test Edin

MTEB'deki veri setleri ağırlıklı olarak genel alan (general domain) verilerinden oluşur. Tıp, hukuk, finans veya akademik tez arşivi gibi spesifik bir domainle çalışıyorsanız, leaderboard'dan seçtiğiniz aday modelleri kendi domain veriniz üzerinde ayrıca değerlendirmeniz gerekmektedir.

6.4 Sürüm Tutarlılığını Kontrol Edin

Karşılaştırdığınız modellerin aynı MTEB sürümünde (v1, v2, Multilingual v2) ve aynı görev alt kümesinde değerlendirildiğinden emin olun. Farklı sürümlerden gelen skorlar doğrudan karşılaştırılabilir değildir.

6.5 Benchmark Overfitting Riskini Göz Önünde Bulundurun

Bazı modeller MTEB'deki spesifik veri setlerine bilinçli veya bilinçsiz olarak aşırı uyum sağlamış olabilir. Eğitim verisindeki sızıntı (data contamination), yüksek MTEB skoru ile gerçek dünya performansı arasında tutarsızlık yaratabilir.

Zero-shot oranı bu riski kısmen ölçer:

%99-100 zero-shot oranına sahip modeller (Nemotron, Qwen3, Gemini gibi) bu açıdan daha güvenilirken,
düşük zero-shot oranına sahip veya "⚠️ NA" işaretli modeller ek dikkatle değerlendirilmelidir.

6.6 Üretim Ortamı Kısıtlamalarını Değerlendirin

Leaderboard'da yüksek sıralama alan bir modelin üretim ortamında kullanılabilirliği ayrı bir değerlendirme gerektirir. Model boyutu ve inference maliyeti, gecikme (latency) gereksinimleri, vektör boyutu ve depolama maliyeti, maksimum token uzunluğu, lisans ve veri gizliliği kısıtlamaları gibi faktörler leaderboard'da doğrudan görünmez ancak model seçimini belirleyici biçimde etkiler.