Detaylı deney raporu:
30_Deneyler/CleanLab-Detaylar/Deney1.md
CleanLab, etiketli veri setlerinde etiket hatalarını, outlier'ları, near-duplicate kayıtları ve veri sıralama bağımlılığını (non-IID) tespit etmek için kullanılan açık kaynaklı bir kütüphanedir. Temel mekanizması "confident learning" üzerinde kurulu.
| Mod | Girdi | Yapabildikleri |
|---|---|---|
| Feature-only | Yalnızca embedding | Outlier, near-duplicate, kNN tabanlı şüphe |
| Feature + pred_probs | Embedding + sınıflandırıcı tahmin olasılıkları | + Etiket hatası tespiti, alternatif etiket önerisi |
pred_probs olmadan etiket hatası "tespiti" çalışmaz; "şüpheli" işareti dışında alternatif öneri üretilemez.
theses_F2LLM koleksiyonu)pred_probs verilmedi)| Sorun Türü | Multi-label | Single-label |
|---|---|---|
| Label issue | 0 (mod kısıtı) | 6.742 (%17,9) |
| Outlier | 66 | — |
| Near-duplicate | 30 (15 çift) | — |
| Non-IID | 1 işaret | — |
Önemli: Single-label modda 6.742 etiket sorunu işaretlendi ama hiçbiri için alternatif öneri üretilmedi (pred_probs yokluğu).
CleanLab'ın asıl katma değeri otomatik duplike etiket tespiti oldu: 198 etiketten 22 birleştirme önerisi (3 elle, 19 otomatik). Bu sonuç ./Metadata-Matching.md sayfasında yöntem olarak kalıcılaştırıldı.
| Boyut | Centroid v2 | CleanLab Deney 1 |
|---|---|---|
| Yöntem | Etiket centroid mesafesi | kNN feature analizi |
| pred_probs | Gerek yok | Verilmedi (yeni deneyde verilecek) |
| Şüpheli kayıt oranı | 2.489 (%5,0) | 6.742 (%17,9) |
| Alternatif öneri | Var (suggested_label) |
Yok (?) |
| Açıklanabilirlik | Yüksek (centroid mesafesi) | Orta (kNN skoru) |
| Çalışma süresi | ~5 dakika | ~10 dakika |
İkisi birbirini tamamlar: centroid yaklaşımı şüphe + öneri verir, CleanLab outlier ve near-duplicate sinyalleri ekler.
CleanLab'ın tam kapasitesini açmak için:
pred_probs üret.suggested_label ile CleanLab predicted_label çıktıları çapraz doğrulanır.| Metrik | Hedef |
|---|---|
| Şüpheli işaretlerinin precision'u (insan doğrulama) | ≥ %70 |
| Centroid + CleanLab kesişimi precision | ≥ %85 (yüksek güven kuyruğu) |
| Near-duplicate tespiti recall | ≥ %90 (sentetik test) |
./Metadata-Matching.md — duplike etiket pipeline (kardeş sayfa)../README.md — Editöryel Yardım şemsiyesi../Outlier-Detection/Etiket-Kalite-Kontrol.md — centroid yaklaşımı../../../30_Deneyler/04_CleanLab-Feature-Only.md — karar kartı