CleanLab Yaklaşımı

Detaylı deney raporu: 30_Deneyler/CleanLab-Detaylar/Deney1.md

1. CleanLab Nedir?

CleanLab, etiketli veri setlerinde etiket hatalarını, outlier'ları, near-duplicate kayıtları ve veri sıralama bağımlılığını (non-IID) tespit etmek için kullanılan açık kaynaklı bir kütüphanedir. Temel mekanizması "confident learning" üzerinde kurulu.

2. İki Çalışma Modu

Mod Girdi Yapabildikleri
Feature-only Yalnızca embedding Outlier, near-duplicate, kNN tabanlı şüphe
Feature + pred_probs Embedding + sınıflandırıcı tahmin olasılıkları + Etiket hatası tespiti, alternatif etiket önerisi

pred_probs olmadan etiket hatası "tespiti" çalışmaz; "şüpheli" işareti dışında alternatif öneri üretilemez.

3. Bizim Deneyimimiz (Deney 1)

3.1 Konfigürasyon

3.2 Bulgular

Sorun Türü Multi-label Single-label
Label issue 0 (mod kısıtı) 6.742 (%17,9)
Outlier 66
Near-duplicate 30 (15 çift)
Non-IID 1 işaret

Önemli: Single-label modda 6.742 etiket sorunu işaretlendi ama hiçbiri için alternatif öneri üretilmedi (pred_probs yokluğu).

3.3 En Değerli Çıktı

CleanLab'ın asıl katma değeri otomatik duplike etiket tespiti oldu: 198 etiketten 22 birleştirme önerisi (3 elle, 19 otomatik). Bu sonuç ./Metadata-Matching.md sayfasında yöntem olarak kalıcılaştırıldı.

4. Centroid Yaklaşımıyla Karşılaştırma

Boyut Centroid v2 CleanLab Deney 1
Yöntem Etiket centroid mesafesi kNN feature analizi
pred_probs Gerek yok Verilmedi (yeni deneyde verilecek)
Şüpheli kayıt oranı 2.489 (%5,0) 6.742 (%17,9)
Alternatif öneri Var (suggested_label) Yok (?)
Açıklanabilirlik Yüksek (centroid mesafesi) Orta (kNN skoru)
Çalışma süresi ~5 dakika ~10 dakika

İkisi birbirini tamamlar: centroid yaklaşımı şüphe + öneri verir, CleanLab outlier ve near-duplicate sinyalleri ekler.

5. Sonraki Adımlar (Deney 2 Planı)

CleanLab'ın tam kapasitesini açmak için:

  1. Embedding üzerinde hafif bir sınıflandırıcı (LogisticRegression / kNN) eğit.
  2. pred_probs üret.
  3. CleanLab'a hem feature hem pred_probs ver.
  4. Confident learning ile her şüpheli kayda alternatif etiket önerisi üretilmesi beklenir.
  5. Centroid suggested_label ile CleanLab predicted_label çıktıları çapraz doğrulanır.

6. Kabul Kriterleri

Metrik Hedef
Şüpheli işaretlerinin precision'u (insan doğrulama) ≥ %70
Centroid + CleanLab kesişimi precision ≥ %85 (yüksek güven kuyruğu)
Near-duplicate tespiti recall ≥ %90 (sentetik test)

7. İlgili Sayfalar