Bu bölüm uzun deney raporları yerine karar odaklı özet kartlar içerir. Her kart 4 alanı zorunlu olarak içerir:
Detay bağlantılar her kartın sonunda yer alır.
| Kart | Konu | Domain | Durum |
|---|---|---|---|
| 01 | HDBSCAN Kümeleme Serisi (v3 → v8) | Outlier Detection | Tamamlandı |
| 02 | Etiket Kalite v1 — Sabit Eşik | Outlier / Editöryel | Başarısız (öğretici) |
| 03 | Etiket Kalite v2 — Percentile | Outlier / Editöryel | Üretime aday |
| 04 | CleanLab Feature-Only | Editöryel | Tamamlandı; v2 planlanıyor |
| 05 | Qwen2.5-14B TR Dizin Metadata Extraction | Editöryel / Atıf / Bilgi Ağları | Production'a aday |
| 06 | Marker PDF→MD Performans Benchmark | Operasyon / Veri Hazırlama | Üretim profili sabit (workers=8) |
pred_probs olmadan etiket hatası bulamaz; ama duplike + near-duplicate çıktıları değerli.Her kartın yanında, uzun rapor / sürüm sürüm metrikler için bir -Detaylar/ klasörü vardır:
| Detay Klasörü | İlgili Kart |
|---|---|
HDBSCAN-Detaylar/ |
Deney 01 — v3'ten v8'e tüm sürümler, terim sözlüğü, scatter görseller |
Etiket-Kalite-Detaylar/ |
Deney 02, 03 — Kılavuz + v1 + v2 raporları |
CleanLab-Detaylar/ |
Deney 04 — Feature-only modu tam rapor |
Qwen-Detaylar/ |
Deney 05 — Qwen2.5-14B fine-tuning tam raporu |
Marker-Detaylar/ |
Deney 06 — 6 araçlı PDF çıkarım karşılaştırması |
| ID | Plan | Beklenen Çıktı |
|---|---|---|
| 05 | CleanLab Deney 2 (pred_probs ile) |
Alternatif etiket önerisi |
| 06 | Centroid + HDBSCAN kesişim skoru | Yüksek precision şüpheli kuyruğu |
| 07 | Türkçe akademik altın benchmark (1500 retrieval + 3K STS + 20K classification) — tasarım: Veri Kümesi Tasarımı, kart: Embedding Veri Kümesi MVP | F2LLM vs bge-m3 vs e5-large + yerel fine-tune karşılaştırması |
| 08 | Etiket-içi alt kümeleme (büyük etiketler) | Sub-centroid ile ince ayar |
XX_<KisaIsim>.md formatında kart aç (4 zorunlu alanı doldur).<KisaIsim>-Detaylar/ klasörü açıp uzun versiyonu oraya koy ve karta Detay: bağlantısı ver.README dosyasındaki "Deneyler ve Bulgular" tablosunu güncelle.20_Domainler/ — domain bağlamı40_Yontemler/ — kullanılan metrik tanımları50_Operasyon/ — yeni deney açma süreci