7. Özet

MMTEB (Multilingual, v2) leaderboard'u, 399 modeli 9 görev türü ve 131 görev üzerinden karşılaştıran, embedding alanının en kapsamlı değerlendirme platformudur. Borda rank, görevler arası tutarlılığı ödüllendiren sağlam bir sıralama mekanizması sunarken, Mean (Task) ve Mean (TaskType) ham performans düzeyini yansıtır.

Güncel veriler birkaç temel gerçeği ortaya koymaktadır:

Model seçiminde bu metriklerin birlikte yorumlanması, eksik görev sorununun farkında olunması, görev türü bazında alt skorlara inilmesi ve leaderboard'un bir aday daraltma aracı olarak konumlandırılması, sağlıklı bir model seçim sürecinin temelini oluşturur.