Embedding Veri Kümesi MVP

Domain: Anlamsal Arama
Detaylı tasarım: 20_Domainler/Anlamsal-Arama/Veri-Kumesi-Tasarimi/
Tam rapor: Tasarım Raporu

Hedef

~300K Marker kaynaklı .md dosyasından iki ürün üretmek:

Eğitim Korpusu — Türkçe akademik contrastive fine-tune için ~1.0–1.3M pozitif çift (Standard varyant).
Altın Benchmark — Türkçe akademik retrieval / STS / classification / recommendation paketi (1500 sorgu + 3K STS + 20K classification).

Kapsam

Marker .md → documents.jsonl + chunks.jsonl pipeline'ı
4 çekirdek pair tipi (title↔abstract, abstract↔paragraph, section↔paragraph, intra_doc)
3 katmanlı negatif (in-batch + random + hard: cluster/bibliographic/keyword)
Faz 1 Cached-MNRL pretrain + Faz 2 hard-negative triplet fine-tune
Pilot annotation (150–200 retrieval sorgusu + 300 STS çifti) → Standard varyanta genişleme

İlk Teslimatlar

Hafta 1 — 5–10K .md dosyasında pipeline doğrulama, kalite filtre eşikleri, family_id dedupe.
Hafta 2 — Title↔abstract + abstract↔paragraph ile ilk 100–150K çift; multilingual-e5-large baseline.
Hafta 3 — Pilot retrieval + STS gold annotation turu, yönerge netleştirme.
Hafta 4–10 — Standard varyant: 4 pair tipi tam, üç katmanlı hard-negative mining, iki fazlı eğitim, sürümlü benchmark.

Bağımlılıklar

PDF Çıkarım Araçları (Marker) — pipeline'ın upstream'i (~96K makale + tezler).
Deney 06 — Marker Performans — markdown üretim kalitesi.
1× A100 80GB (Standard) veya 2–4× A100 (Full) — compute bütçesi: 40–120 GPU-saat (Standard).
2 araştırma görevlisi + 1 uzlaştırıcı (annotation), 4–6 hafta.

Başarı Kriteri

Pilot Cohen's kappa ≥ 0.70 (retrieval), Spearman ≥ 0.75 (STS).
Standard varyant sonunda composite skor: composite = 0.50 × nDCG@10 + 0.20 × MRR@10 + 0.15 × STS_Spearman + 0.15 × MacroF1 multilingual-e5-large baseline'a göre iyileşme.
Benchmark Hugging Face dataset olarak sürümlü paketlenmiş.

Riskler

Hacim tahminleri ~300K veri profili üzerinden — pilot sonrası kalibre edilmeli.
Türkçe akademik dil heterojenliği (alan, dil, layout) — eşikler revize edilebilir.
Annotator yükü ~500–650 saat — ekip büyüklüğüne bağlı; bütçe yetmezse Lite varyanta düşülebilir (referans değeri zayıflar).

İlgili Sayfalar

20_Domainler/Anlamsal-Arama/Veri-Kumesi-Tasarimi/ — karar kartı + tam rapor
Embedding Modelleri — downstream model kararları
MTEB Değerlendirme — kalite ölçüm rehberi
10 Mimari — uçtan uca veri akışı (embedding kolu)