MTEB, embedding modellerinin farklı yeteneklerini ölçmek için çeşitli görev kategorileri tanımlar. Her görev türü, gerçek dünya uygulamalarındaki farklı bir kullanım senaryosunu yansıtır.
2.1 Retrieval (Bilgi Erişimi)
Verilen bir sorgu için büyük bir doküman havuzundan en ilgili dokümanları getirme görevidir. Embedding modellerinin en kritik test alanıdır çünkü RAG pipeline'larının kalbi burasıdır.
Yaklaşım: Sorgu ve dokümanlar ayrı ayrı encode edilir (bi-encoder). Dokümanlar arasında en yüksek benzerliğe sahip olanlar döndürülür.
Veri Setleri (Örnekler): MS MARCO, NQ (Natural Questions), HotpotQA, FEVER, DBPedia, ArguAna, TREC-COVID, NFCorpus, SciFact vb.
İki cümle veya metin parçası arasındaki anlamsal benzerliğin derecesini ölçme görevidir. Tipik olarak 0-5 arası bir benzerlik skoru ile etiketlenmiş cümle çiftleri üzerinde değerlendirilir.
Yaklaşım: Her iki cümle encode edilir; kosinüs benzerliği ile insan etiketleri arasındaki korelasyon ölçülür.
Veri Setleri: STS Benchmark (STSb), SICK-R, STS12-STS16 serisi.
Embedding vektörlerinin bir sınıflandırma görevinde ne kadar ayırt edici özellikler taşıdığını ölçer. Tipik olarak embedding vektörleri üzerine basit bir lojistik regresyon eğitilerek doğruluk ölçülür.
Yaklaşım: Metinler encode edilir; üzerine basit bir sınıflandırıcı eğitilir.
Veri Setleri: Amazon Reviews, Tweet Sentiment, Toxic Conversations, Banking77, Emotion, IMDB vb.
Metrikler: Accuracy, F1-score, Average Precision.
2.4 Clustering (Kümeleme)
Embedding'lerin benzer metinleri doğal gruplar halinde ne kadar iyi ayırabildiğini test eder.
Yaklaşım: Metinler encode edilir; k-means veya benzeri algoritmalarla kümelenir; küme etiketleri ile gerçek etiketler karşılaştırılır.
İki metin arasındaki ilişkinin türünü belirleme görevidir: paraphrase mi, çelişki mi, bağımsız mı?
Yaklaşım: İki metin encode edilir; vektörler arası benzerlik/mesafe üzerinden ikili (binary) sınıflandırma yapılır.
Veri Setleri: Twitter URL Paraphrase, SprintDuplicateQuestions, MRPC (Microsoft Research Paraphrase Corpus).
Metrikler: Average Precision (AP), F1, Accuracy.
2.6 Reranking (Yeniden Sıralama)
İlk aşamada getirilen (retrieved) bir aday listesinin, daha hassas bir modelle yeniden sıralanması görevidir. Retrieval pipeline'larının ikinci aşamasını simüle eder
.Yaklaşım: Sorgu ve her bir aday doküman çifti için benzerlik hesaplanır ve adaylar yeniden sıralanır.
Veri Setleri: AskUbuntuDupQuestions, MindSmallReranking, SciDocsRR, StackOverflowDupQuestions.
Metrikler: MAP (Mean Average Precision), MRR.
2.7 Summarization (Özetleme)
Bir metnin ve o metnin özetinin embedding uzayında ne kadar yakın olduğunu değerlendirir. İyi bir embedding modeli, bir doküman ile onun özeti için birbirine yakın vektörler üretmelidir.
Metrikler: Spearman korelasyonu (özet-kaynak benzerlik skorları ile insan etiketleri arası).
2.8 BitextMining (Paralel Cümle Eşleştirme)
Farklı dillerdeki çeviri çiftlerini eşleştirme görevidir. Çok dilli (multilingual) embedding modellerinin diller arası hizalama yeteneğini ölçer.
Yaklaşım: İki dildeki cümleler encode edilir; her kaynak cümle için hedef dildeki en yakın vektör eşleştirilir.
Veri Setleri: BUCC, Tatoeba (112+ dil çifti).
Metrikler: F1, Accuracy.
2.9 InstructionRetrieval
Standart retrieval görevinin talimat (instruction) ile genişletilmiş halidir. Modelden yalnızca ilgili dokümanları getirmesi değil, belirli bir perspektif veya kısıtlama altında getirmesi beklenir. Örneğin: "Bu konuyla ilgili sadece eleştirel bakış açısı içeren dokümanları getir."
Bu görev, instruction-tuned embedding modellerinin gerçek dünya senaryolarındaki esnekliğini test eder.