Embedding Veri Kümesi MVP
Domain: Anlamsal Arama
Detaylı tasarım: 20_Domainler/Anlamsal-Arama/Veri-Kumesi-Tasarimi/
Tam rapor: Tasarım Raporu
Hedef
~300K Marker kaynaklı .md dosyasından iki ürün üretmek:
- Eğitim Korpusu — Türkçe akademik contrastive fine-tune için ~1.0–1.3M pozitif çift (Standard varyant).
- Altın Benchmark — Türkçe akademik retrieval / STS / classification / recommendation paketi (1500 sorgu + 3K STS + 20K classification).
Kapsam
- Marker
.md → documents.jsonl + chunks.jsonl pipeline'ı
- 4 çekirdek pair tipi (title↔abstract, abstract↔paragraph, section↔paragraph, intra_doc)
- 3 katmanlı negatif (in-batch + random + hard: cluster/bibliographic/keyword)
- Faz 1 Cached-MNRL pretrain + Faz 2 hard-negative triplet fine-tune
- Pilot annotation (150–200 retrieval sorgusu + 300 STS çifti) → Standard varyanta genişleme
İlk Teslimatlar
- Hafta 1 — 5–10K
.md dosyasında pipeline doğrulama, kalite filtre eşikleri, family_id dedupe.
- Hafta 2 — Title↔abstract + abstract↔paragraph ile ilk 100–150K çift; multilingual-e5-large baseline.
- Hafta 3 — Pilot retrieval + STS gold annotation turu, yönerge netleştirme.
- Hafta 4–10 — Standard varyant: 4 pair tipi tam, üç katmanlı hard-negative mining, iki fazlı eğitim, sürümlü benchmark.
Bağımlılıklar
- PDF Çıkarım Araçları (Marker) — pipeline'ın upstream'i (~96K makale + tezler).
- Deney 06 — Marker Performans — markdown üretim kalitesi.
- 1× A100 80GB (Standard) veya 2–4× A100 (Full) — compute bütçesi: 40–120 GPU-saat (Standard).
- 2 araştırma görevlisi + 1 uzlaştırıcı (annotation), 4–6 hafta.
Başarı Kriteri
- Pilot Cohen's kappa ≥ 0.70 (retrieval), Spearman ≥ 0.75 (STS).
- Standard varyant sonunda composite skor:
composite = 0.50 × nDCG@10 + 0.20 × MRR@10 + 0.15 × STS_Spearman + 0.15 × MacroF1
multilingual-e5-large baseline'a göre iyileşme.
- Benchmark Hugging Face dataset olarak sürümlü paketlenmiş.
Riskler
- Hacim tahminleri ~300K veri profili üzerinden — pilot sonrası kalibre edilmeli.
- Türkçe akademik dil heterojenliği (alan, dil, layout) — eşikler revize edilebilir.
- Annotator yükü ~500–650 saat — ekip büyüklüğüne bağlı; bütçe yetmezse Lite varyanta düşülebilir (referans değeri zayıflar).
İlgili Sayfalar