2. Görev Türleri (Task Types)

MTEB, embedding modellerinin farklı yeteneklerini ölçmek için çeşitli görev kategorileri tanımlar. Her görev türü, gerçek dünya uygulamalarındaki farklı bir kullanım senaryosunu yansıtır.

2.1 Retrieval (Bilgi Erişimi)

Verilen bir sorgu için büyük bir doküman havuzundan en ilgili dokümanları getirme görevidir. Embedding modellerinin en kritik test alanıdır çünkü RAG pipeline'larının kalbi burasıdır.

2.2 Semantic Textual Similarity (STS)

İki cümle veya metin parçası arasındaki anlamsal benzerliğin derecesini ölçme görevidir. Tipik olarak 0-5 arası bir benzerlik skoru ile etiketlenmiş cümle çiftleri üzerinde değerlendirilir.

2.3 Classification (Sınıflandırma)

Embedding vektörlerinin bir sınıflandırma görevinde ne kadar ayırt edici özellikler taşıdığını ölçer. Tipik olarak embedding vektörleri üzerine basit bir lojistik regresyon eğitilerek doğruluk ölçülür.

2.4 Clustering (Kümeleme)

Embedding'lerin benzer metinleri doğal gruplar halinde ne kadar iyi ayırabildiğini test eder.

2.5 Pair Classification (Çift Sınıflandırma)

İki metin arasındaki ilişkinin türünü belirleme görevidir: paraphrase mi, çelişki mi, bağımsız mı?

2.6 Reranking (Yeniden Sıralama)

İlk aşamada getirilen (retrieved) bir aday listesinin, daha hassas bir modelle yeniden sıralanması görevidir. Retrieval pipeline'larının ikinci aşamasını simüle eder

2.7 Summarization (Özetleme)

Bir metnin ve o metnin özetinin embedding uzayında ne kadar yakın olduğunu değerlendirir. İyi bir embedding modeli, bir doküman ile onun özeti için birbirine yakın vektörler üretmelidir.

2.8 BitextMining (Paralel Cümle Eşleştirme)

Farklı dillerdeki çeviri çiftlerini eşleştirme görevidir. Çok dilli (multilingual) embedding modellerinin diller arası hizalama yeteneğini ölçer.

2.9 InstructionRetrieval

Standart retrieval görevinin talimat (instruction) ile genişletilmiş halidir. Modelden yalnızca ilgili dokümanları getirmesi değil, belirli bir perspektif veya kısıtlama altında getirmesi beklenir. Örneğin: "Bu konuyla ilgili sadece eleştirel bakış açısı içeren dokümanları getir."

Bu görev, instruction-tuned embedding modellerinin gerçek dünya senaryolarındaki esnekliğini test eder.