Deney Kartı 04 — CleanLab Feature-Only Etiket Kalite Analizi

Tek cümle: CleanLab'a yalnızca embedding feature'larıyla pred_probs olmadan başvurduk; etiket hatası tespiti çalışmadı ama otomatik duplike etiket ve near-duplicate çıktıları değerli oldu.

1. Amaç

CleanLab kütüphanesinin tez etiket kalitesi için ne kadar etkili olduğunu ölçmek; özellikle pred_probs olmadan feature-only modun sınırlarını test etmek.

2. Parametre / Kurulum

Bileşen Değer
Veri 49.815 tez (Qdrant theses_F2LLM)
Embedding F2LLM (2048)
Mod Feature-only (pred_probs verilmedi)
Çalıştırma (a) Multi-label (49.815) + (b) Single-label (37.567)
Ön işleme Boş kayıt filtreleme + elle duplike merge + otomatik duplike taraması
Otomatik duplike eşikleri TR text > 0.85, EN text > 0.85, embedding cosine > 0.92

3. Sonuç ve Bulgu

3.1 Otomatik Duplike Etiket Tespiti

29 aday çift, 22 birleştirme önerisi → 4.578 kayıtta uygulandı, etiket sayısı 195 → 176'ya düştü.

Çift örneği Skor Yöntem Karar
Havacılık Müh. ↔ Uçak Müh. 1.000 text_en Kesin merge
Sağlık Kurumları ↔ Sağlık Yönetimi 0.993 text_en Kesin merge
Enfeksiyon Hast. ↔ Klinik Bakteriyoloji 0.953 embedding Kesin merge
Ekonometri ↔ Ekonomi 0.966 embedding Tartışmalı — eşik düşürülmeli
Batı Dilleri ↔ Doğu Dilleri 0.941 embedding Yanlış pozitif

3.2 Multi-Label Sonuçları

Sorun Türü Tespit
Label issue 0 (mod kısıtı: feature-only multi-label etiket hatası bulamaz)
Outlier 66
Near-duplicate 30 (15 çift, biri tam 0.0 mesafe)
Non-IID 1 işaret

3.3 Single-Label Sonuçları

Metrik Değer
Analiz 37.567 kayıt
Etiket sorunu 6.742 (%17,9)
Önerilen etiket Yok (?pred_probs yok)

%17,9 oran centroid v2'nin %5'inden çok yüksek — yanlış pozitif riski mevcut.

4. Karara Etkisi

5. Detay Bağlantılar