7. Özet

MMTEB (Multilingual, v2) leaderboard'u, 399 modeli 9 görev türü ve 131 görev üzerinden karşılaştıran, embedding alanının en kapsamlı değerlendirme platformudur. Borda rank, görevler arası tutarlılığı ödüllendiren sağlam bir sıralama mekanizması sunarken, Mean (Task) ve Mean (TaskType) ham performans düzeyini yansıtır.

Güncel veriler birkaç temel gerçeği ortaya koymaktadır:

Büyük modeller (8B+) genel sıralamada avantajlıyken, harrier gibi kompakt model aileleri boyut-performans dengesini yeniden tanımlamaktadır.
Instruction Reranking gibi görev türleri tüm modeller için çözülmemiş bir zorluk olmaya devam etmektedir.
Leaderboard'daki 399 modelin yarıdan fazlasının eksik görev skorları nedeniyle doğrudan karşılaştırılması mümkün değildir.

Model seçiminde bu metriklerin birlikte yorumlanması, eksik görev sorununun farkında olunması, görev türü bazında alt skorlara inilmesi ve leaderboard'un bir aday daraltma aracı olarak konumlandırılması, sağlıklı bir model seçim sürecinin temelini oluşturur.