Embedding Veri Kümesi MVP

Domain: Anlamsal Arama
Detaylı tasarım: 20_Domainler/Anlamsal-Arama/Veri-Kumesi-Tasarimi/
Tam rapor: Tasarım Raporu

Hedef

~300K Marker kaynaklı .md dosyasından iki ürün üretmek:

  1. Eğitim Korpusu — Türkçe akademik contrastive fine-tune için ~1.0–1.3M pozitif çift (Standard varyant).
  2. Altın Benchmark — Türkçe akademik retrieval / STS / classification / recommendation paketi (1500 sorgu + 3K STS + 20K classification).

Kapsam

İlk Teslimatlar

  1. Hafta 1 — 5–10K .md dosyasında pipeline doğrulama, kalite filtre eşikleri, family_id dedupe.
  2. Hafta 2 — Title↔abstract + abstract↔paragraph ile ilk 100–150K çift; multilingual-e5-large baseline.
  3. Hafta 3 — Pilot retrieval + STS gold annotation turu, yönerge netleştirme.
  4. Hafta 4–10 — Standard varyant: 4 pair tipi tam, üç katmanlı hard-negative mining, iki fazlı eğitim, sürümlü benchmark.

Bağımlılıklar

Başarı Kriteri

Riskler

İlgili Sayfalar