CleanLab Yaklaşımı

Detaylı deney raporu: 30_Deneyler/CleanLab-Detaylar/Deney1.md

1. CleanLab Nedir?

CleanLab, etiketli veri setlerinde etiket hatalarını, outlier'ları, near-duplicate kayıtları ve veri sıralama bağımlılığını (non-IID) tespit etmek için kullanılan açık kaynaklı bir kütüphanedir. Temel mekanizması "confident learning" üzerinde kurulu.

2. İki Çalışma Modu

Mod	Girdi	Yapabildikleri
Feature-only	Yalnızca embedding	Outlier, near-duplicate, kNN tabanlı şüphe
Feature + pred_probs	Embedding + sınıflandırıcı tahmin olasılıkları	+ Etiket hatası tespiti, alternatif etiket önerisi

pred_probs olmadan etiket hatası "tespiti" çalışmaz; "şüpheli" işareti dışında alternatif öneri üretilemez.

3. Bizim Deneyimimiz (Deney 1)

3.1 Konfigürasyon

Veri: 49.815 tez (Qdrant theses_F2LLM koleksiyonu)
Embedding: F2LLM (2048 boyut)
Mod: Feature-only (pred_probs verilmedi)
İki ayrı çalıştırma: Multi-label (tüm kayıtlar) + Single-label (37.567 tek-etiketli kayıt)

3.2 Bulgular

Sorun Türü	Multi-label	Single-label
Label issue	0 (mod kısıtı)	6.742 (%17,9)
Outlier	66	—
Near-duplicate	30 (15 çift)	—
Non-IID	1 işaret	—

Önemli: Single-label modda 6.742 etiket sorunu işaretlendi ama hiçbiri için alternatif öneri üretilmedi (pred_probs yokluğu).

3.3 En Değerli Çıktı

CleanLab'ın asıl katma değeri otomatik duplike etiket tespiti oldu: 198 etiketten 22 birleştirme önerisi (3 elle, 19 otomatik). Bu sonuç ./Metadata-Matching.md sayfasında yöntem olarak kalıcılaştırıldı.

4. Centroid Yaklaşımıyla Karşılaştırma

Boyut	Centroid v2	CleanLab Deney 1
Yöntem	Etiket centroid mesafesi	kNN feature analizi
pred_probs	Gerek yok	Verilmedi (yeni deneyde verilecek)
Şüpheli kayıt oranı	2.489 (%5,0)	6.742 (%17,9)
Alternatif öneri	Var (`suggested_label`)	Yok (`?`)
Açıklanabilirlik	Yüksek (centroid mesafesi)	Orta (kNN skoru)
Çalışma süresi	~5 dakika	~10 dakika

İkisi birbirini tamamlar: centroid yaklaşımı şüphe + öneri verir, CleanLab outlier ve near-duplicate sinyalleri ekler.

5. Sonraki Adımlar (Deney 2 Planı)

CleanLab'ın tam kapasitesini açmak için:

Embedding üzerinde hafif bir sınıflandırıcı (LogisticRegression / kNN) eğit.
pred_probs üret.
CleanLab'a hem feature hem pred_probs ver.
Confident learning ile her şüpheli kayda alternatif etiket önerisi üretilmesi beklenir.
Centroid suggested_label ile CleanLab predicted_label çıktıları çapraz doğrulanır.

6. Kabul Kriterleri

Metrik	Hedef
Şüpheli işaretlerinin precision'u (insan doğrulama)	≥ %70
Centroid + CleanLab kesişimi precision	≥ %85 (yüksek güven kuyruğu)
Near-duplicate tespiti recall	≥ %90 (sentetik test)

7. İlgili Sayfalar

./Metadata-Matching.md — duplike etiket pipeline (kardeş sayfa)
../README.md — Editöryel Yardım şemsiyesi
../Outlier-Detection/Etiket-Kalite-Kontrol.md — centroid yaklaşımı
../../../30_Deneyler/04_CleanLab-Feature-Only.md — karar kartı