Deney Kartı 04 — CleanLab Feature-Only Etiket Kalite Analizi

Tek cümle: CleanLab'a yalnızca embedding feature'larıyla pred_probs olmadan başvurduk; etiket hatası tespiti çalışmadı ama otomatik duplike etiket ve near-duplicate çıktıları değerli oldu.

1. Amaç

CleanLab kütüphanesinin tez etiket kalitesi için ne kadar etkili olduğunu ölçmek; özellikle pred_probs olmadan feature-only modun sınırlarını test etmek.

2. Parametre / Kurulum

Bileşen	Değer
Veri	49.815 tez (Qdrant `theses_F2LLM`)
Embedding	F2LLM (2048)
Mod	Feature-only (`pred_probs` verilmedi)
Çalıştırma	(a) Multi-label (49.815) + (b) Single-label (37.567)
Ön işleme	Boş kayıt filtreleme + elle duplike merge + otomatik duplike taraması
Otomatik duplike eşikleri	TR text > 0.85, EN text > 0.85, embedding cosine > 0.92

3. Sonuç ve Bulgu

3.1 Otomatik Duplike Etiket Tespiti

29 aday çift, 22 birleştirme önerisi → 4.578 kayıtta uygulandı, etiket sayısı 195 → 176'ya düştü.

Çift örneği	Skor	Yöntem	Karar
Havacılık Müh. ↔ Uçak Müh.	1.000	text_en	Kesin merge
Sağlık Kurumları ↔ Sağlık Yönetimi	0.993	text_en	Kesin merge
Enfeksiyon Hast. ↔ Klinik Bakteriyoloji	0.953	embedding	Kesin merge
Ekonometri ↔ Ekonomi	0.966	embedding	Tartışmalı — eşik düşürülmeli
Batı Dilleri ↔ Doğu Dilleri	0.941	embedding	Yanlış pozitif

3.2 Multi-Label Sonuçları

Sorun Türü	Tespit
Label issue	0 (mod kısıtı: feature-only multi-label etiket hatası bulamaz)
Outlier	66
Near-duplicate	30 (15 çift, biri tam 0.0 mesafe)
Non-IID	1 işaret

3.3 Single-Label Sonuçları

Metrik	Değer
Analiz	37.567 kayıt
Etiket sorunu	6.742 (%17,9)
Önerilen etiket	Yok (`?` — `pred_probs` yok)

%17,9 oran centroid v2'nin %5'inden çok yüksek — yanlış pozitif riski mevcut.

4. Karara Etkisi

CleanLab'ın asıl katma değeri: otomatik duplike etiket tespiti → Editöryel-Yardım/Metadata-Matching.md pipeline'ına dahil edildi.
Near-duplicate çıktısı: Tam 0.0 mesafeli kayıt çifti tespit edildi (1489 ↔ 2593) — veri girişi tekrarı tespit edilebilir.
Etiket hatası tespiti için CleanLab Deney 2 planlandı:
Embedding üzerinde LogisticRegression / kNN eğit.
pred_probs üret.
Confident learning ile alternatif etiket önerisi alınması beklenir.
Otomatik birleştirme eşiği 0.92 → bazı tartışmalı çiftler ürettiği için 0.95'e yükseltme veya insan onayı kapısı önerildi.

5. Detay Bağlantılar

Tam rapor: CleanLab-Detaylar/Deney1.md
Domain sayfası: 20_Domainler/Editoryel-Yardim/Duplike-Eslesme/CleanLab-Yaklasimi.md
Eşleştirme pipeline'ı: 20_Domainler/Editoryel-Yardim/Duplike-Eslesme/Metadata-Matching.md