Embedding Veri Kümesi Tasarımı (Karar Kartı)

Durum: Tasarım aşaması — uygulama öncesi kavramsal çerçeve.
Konum: Anlamsal Arama → Veri Kümesi Tasarımı.
Tam rapor: Tasarim-Raporu.md.
Roadmap kart özeti: 90_Roadmap/Embedding-Veri-Kumesi-MVP.md.

1. Niye Var?

Anlamsal Arama domaini şu an dış embedding modelleri (F2LLM, bge-m3, multilingual-e5) üzerinden çalışıyor. Bu modeller Türkçe akademik metinde doğrudan eğitilmedi, sadece çok dilli ön eğitimle geliyor. İki eksiklik:

Anlamsal Arama / Sonraki Adımlar altında "200 örneklik altın retrieval seti" zaten kuyruğa alınmıştı; bu rapor o adımı ölçeklenmiş ve sürüm kontrollü bir program haline getiriyor.

2. İki Çıktı

Ürün Boyut Amaç
Eğitim Korpusu ~1.0–1.3M pozitif çift (Standard) Contrastive fine-tune (CachedMNRL + triplet)
Altın Benchmark 1500 retrieval sorgusu + 3K STS + 20K classification Türkçe akademik MTEB benzeri yerel ölçü

3. Temel Tasarım Kararları

Karar Gerekçe Detay
Başlık + Özet omurga, tam metin chunk olarak SPECTER bulgusu — yazar/dergi belirgin kazanım sağlamıyor Rapor §2
Belge encoder ↔ chunk encoder ayrı yetenek RAG ve doc retrieval farklı görev Rapor §2, §5
Görev çeşitliliği (retrieval + STS + classification + recommendation) Tek görev gizleyici olur Rapor §7
family_id düzeyinde split Tez/makale/konferans aynı çalışma → split sızıntısı önlenir Rapor §2
Üç katmanlı hard-negative (cluster + bibliographic + keyword) Benchmark'ı değerli kılan asıl katman Rapor §6

4. Önerilen Varyant

Varyant Önerilen Mi? Nedeni
Lite ❌ Sadece doğrulama Referans değeri taşımaz
Standard Doğrudan başla Dengeli, 6–10 hafta, 1× A100 yeter
Full ⏳ Standard stabil çalıştıktan sonra 3–6 ay, 2–4× A100

5. Bağlı Pipeline Adımları

Marker .md (300K)                ← upstream: 50_Operasyon/PDF-Cikarim-Araclari.md
   |
   v
documents.jsonl + chunks.jsonl   ← bu raporun §3-§4 bölümü
   |
   v
pairs/triplets (1.0-1.3M)        ← bu raporun §5-§6 bölümü
   |
   v
Embedding fine-tune              ← bu raporun §8 bölümü
   |
   v
Altin benchmark uzerinde eval    ← bu raporun §7 bölümü
   |
   v
20_Domainler/Anlamsal-Arama/
  Embedding-Modelleri.md         ← downstream: model kararı
  MTEB-Degerlendirme.md          ← downstream: kalite ölçümü

6. Bilinen Riskler

7. Bu Klasör Ne Zaman Açılır?

8. İçerik

Dosya Açıklama
Tasarim-Raporu.md Tam tasarım raporu — 12 bölüm, hacim/oran/compute tahminleri, yol haritası
pilot_metrics.md (planlandı) Pilot aşaması (Hafta 1–3) sonuçları ve doğrulama notları
v1_dataset_card.md (planlandı) İlk Standard varyant veri kartı (annotator istatistikleri, sürüm hash'i)

9. İlgili Sayfalar