Kullanıcı sorgularına anahtar kelime eşleşmesi yerine anlam benzerliği ile yanıt vermek; eşanlamlı, farklı yazılmış veya farklı dilde ifade edilmiş kavramları yakalamak.
Klasik arama (BM25, exact match) şu sorunları yaşar:
Embedding tabanlı retrieval bu sorunları azaltır; ancak embedding seçimi, kalite ölçümü ve reranking kararlarını gerektirir.
MTEB/ — MTEB benchmark detaylı rehberVeri-Kumesi-Tasarimi/ — Türkçe akademik embedding eğitim korpusu + altın benchmark tasarımı (taslak)Veri-Kumesi-Tasarimi/. Pilot (Hafta 1–3): 5–10K .md dosyasında pipeline doğrulama + 150–200 retrieval sorgusu pilot annotation. Standard varyant: 1500 sorgu × 20 aday × 2 annotator + 3K STS.YZ-Asistanlari/ — RAG katmanı için aynı altyapıEditoryel-Yardim/Outlier-Detection/ — aynı embedding havuzu (alt-domain)40_Yontemler/ — kullanılan metrikler35_Kaynaklar/ — SciRepEval vb. referans makale özetleriTemel-Kavramlar.md — kavramsal uzun anlatımMTEB/ — MTEB benchmark detaylı rehberVeri-Kumesi-Tasarimi/ — eğitim korpusu + altın benchmark tasarımı90_Roadmap/Embedding-Veri-Kumesi-MVP.md — yol haritası kartı