Embedding Veri Kümesi Tasarımı (Karar Kartı)

Durum: Tasarım aşaması — uygulama öncesi kavramsal çerçeve.
Konum: Anlamsal Arama → Veri Kümesi Tasarımı.
Tam rapor: Tasarim-Raporu.md.
Roadmap kart özeti: 90_Roadmap/Embedding-Veri-Kumesi-MVP.md.

1. Niye Var?

Anlamsal Arama domaini şu an dış embedding modelleri (F2LLM, bge-m3, multilingual-e5) üzerinden çalışıyor. Bu modeller Türkçe akademik metinde doğrudan eğitilmedi, sadece çok dilli ön eğitimle geliyor. İki eksiklik:

Eğitim sinyali yok: Türkçe akademik korpusta kendi modelimizi fine-tune edemiyoruz.
Altın benchmark yok: Mevcut MTEB tabanlı kararlar genel; Türkçe akademik retrieval/STS için yerel ölçü seti yok.

Anlamsal Arama / Sonraki Adımlar altında "200 örneklik altın retrieval seti" zaten kuyruğa alınmıştı; bu rapor o adımı ölçeklenmiş ve sürüm kontrollü bir program haline getiriyor.

2. İki Çıktı

Ürün	Boyut	Amaç
Eğitim Korpusu	~1.0–1.3M pozitif çift (Standard)	Contrastive fine-tune (CachedMNRL + triplet)
Altın Benchmark	1500 retrieval sorgusu + 3K STS + 20K classification	Türkçe akademik MTEB benzeri yerel ölçü

3. Temel Tasarım Kararları

Karar	Gerekçe	Detay
Başlık + Özet omurga, tam metin chunk olarak	SPECTER bulgusu — yazar/dergi belirgin kazanım sağlamıyor	Rapor §2
Belge encoder ↔ chunk encoder ayrı yetenek	RAG ve doc retrieval farklı görev	Rapor §2, §5
Görev çeşitliliği (retrieval + STS + classification + recommendation)	Tek görev gizleyici olur	Rapor §7
`family_id` düzeyinde split	Tez/makale/konferans aynı çalışma → split sızıntısı önlenir	Rapor §2
Üç katmanlı hard-negative (cluster + bibliographic + keyword)	Benchmark'ı değerli kılan asıl katman	Rapor §6

4. Önerilen Varyant

Varyant	Önerilen Mi?	Nedeni
Lite	❌ Sadece doğrulama	Referans değeri taşımaz
Standard	✅ Doğrudan başla	Dengeli, 6–10 hafta, 1× A100 yeter
Full	⏳ Standard stabil çalıştıktan sonra	3–6 ay, 2–4× A100

5. Bağlı Pipeline Adımları

Marker .md (300K)                ← upstream: 50_Operasyon/PDF-Cikarim-Araclari.md
   |
   v
documents.jsonl + chunks.jsonl   ← bu raporun §3-§4 bölümü
   |
   v
pairs/triplets (1.0-1.3M)        ← bu raporun §5-§6 bölümü
   |
   v
Embedding fine-tune              ← bu raporun §8 bölümü
   |
   v
Altin benchmark uzerinde eval    ← bu raporun §7 bölümü
   |
   v
20_Domainler/Anlamsal-Arama/
  Embedding-Modelleri.md         ← downstream: model kararı
  MTEB-Degerlendirme.md          ← downstream: kalite ölçümü

6. Bilinen Riskler

Tahminler ~300K veri profili üzerinden — pilot sonrası kalibre edilmeli.
Türkçe akademik dil heterojenliği (alan, dil, layout) — eşikler revize edilebilir.
Annotator yükü (~500–650 saat) — ekip büyüklüğüne bağlı.
Compute — Standard varyant 40–120 GPU-saat, Full 150–400.

7. Bu Klasör Ne Zaman Açılır?

Yeni bir embedding fine-tune deneyi başlatılırken eğitim verisi şemasını anlamak gerektiğinde.
Türkçe akademik benchmark görev tasarımına referans aranıyorsa (retrieval / STS / classification / recommendation).
Hard-negative mining stratejisi seçimine karar verilirken.
Pilot çıktıları geldikten sonra tasarımın hangi varsayımlarının tutulup tutulmayacağına bakılırken.

8. İçerik

Dosya	Açıklama
`Tasarim-Raporu.md`	Tam tasarım raporu — 12 bölüm, hacim/oran/compute tahminleri, yol haritası
`pilot_metrics.md` (planlandı)	Pilot aşaması (Hafta 1–3) sonuçları ve doğrulama notları
`v1_dataset_card.md` (planlandı)	İlk Standard varyant veri kartı (annotator istatistikleri, sürüm hash'i)

9. İlgili Sayfalar

Anlamsal Arama (üst domain)
Embedding Modelleri — mevcut model kararları
MTEB Değerlendirme — model seçim rehberi
SciRepEval — görev ve veri kümeleri — bilimsel doküman benchmark referansı (çok görevli tasarımla uyum)
Görev Türleri ve detaylı — benchmark görev tasarımı
PDF Çıkarım (Marker) — pipeline'ın upstream'i
Deney 06 — Marker Performans — girdi kalitesi
10 Mimari — uçtan uca akış (embedding kolu)
90_Roadmap/Embedding-Veri-Kumesi-MVP.md — yol haritası kartı