Anlamsal Arama domaini şu an dış embedding modelleri (F2LLM, bge-m3, multilingual-e5) üzerinden çalışıyor. Bu modeller Türkçe akademik metinde doğrudan eğitilmedi, sadece çok dilli ön eğitimle geliyor. İki eksiklik:
Eğitim sinyali yok: Türkçe akademik korpusta kendi modelimizi fine-tune edemiyoruz.
Altın benchmark yok: Mevcut MTEB tabanlı kararlar genel; Türkçe akademik retrieval/STS için yerel ölçü seti yok.
Anlamsal Arama / Sonraki Adımlar altında "200 örneklik altın retrieval seti" zaten kuyruğa alınmıştı; bu rapor o adımı ölçeklenmiş ve sürüm kontrollü bir program haline getiriyor.
SPECTER bulgusu — yazar/dergi belirgin kazanım sağlamıyor
Rapor §2
Belge encoder ↔ chunk encoder ayrı yetenek
RAG ve doc retrieval farklı görev
Rapor §2, §5
Görev çeşitliliği (retrieval + STS + classification + recommendation)
Tek görev gizleyici olur
Rapor §7
family_id düzeyinde split
Tez/makale/konferans aynı çalışma → split sızıntısı önlenir
Rapor §2
Üç katmanlı hard-negative (cluster + bibliographic + keyword)
Benchmark'ı değerli kılan asıl katman
Rapor §6
4. Önerilen Varyant
Varyant
Önerilen Mi?
Nedeni
Lite
❌ Sadece doğrulama
Referans değeri taşımaz
Standard
✅ Doğrudan başla
Dengeli, 6–10 hafta, 1× A100 yeter
Full
⏳ Standard stabil çalıştıktan sonra
3–6 ay, 2–4× A100
5. Bağlı Pipeline Adımları
Marker .md (300K) ← upstream: 50_Operasyon/PDF-Cikarim-Araclari.md
|
v
documents.jsonl + chunks.jsonl ← bu raporun §3-§4 bölümü
|
v
pairs/triplets (1.0-1.3M) ← bu raporun §5-§6 bölümü
|
v
Embedding fine-tune ← bu raporun §8 bölümü
|
v
Altin benchmark uzerinde eval ← bu raporun §7 bölümü
|
v
20_Domainler/Anlamsal-Arama/
Embedding-Modelleri.md ← downstream: model kararı
MTEB-Degerlendirme.md ← downstream: kalite ölçümü
6. Bilinen Riskler
Tahminler ~300K veri profili üzerinden — pilot sonrası kalibre edilmeli.
Türkçe akademik dil heterojenliği (alan, dil, layout) — eşikler revize edilebilir.