Tek cümle: CleanLab'a yalnızca embedding feature'larıyla
pred_probsolmadan başvurduk; etiket hatası tespiti çalışmadı ama otomatik duplike etiket ve near-duplicate çıktıları değerli oldu.
CleanLab kütüphanesinin tez etiket kalitesi için ne kadar etkili olduğunu ölçmek; özellikle pred_probs olmadan feature-only modun sınırlarını test etmek.
| Bileşen | Değer |
|---|---|
| Veri | 49.815 tez (Qdrant theses_F2LLM) |
| Embedding | F2LLM (2048) |
| Mod | Feature-only (pred_probs verilmedi) |
| Çalıştırma | (a) Multi-label (49.815) + (b) Single-label (37.567) |
| Ön işleme | Boş kayıt filtreleme + elle duplike merge + otomatik duplike taraması |
| Otomatik duplike eşikleri | TR text > 0.85, EN text > 0.85, embedding cosine > 0.92 |
29 aday çift, 22 birleştirme önerisi → 4.578 kayıtta uygulandı, etiket sayısı 195 → 176'ya düştü.
| Çift örneği | Skor | Yöntem | Karar |
|---|---|---|---|
| Havacılık Müh. ↔ Uçak Müh. | 1.000 | text_en | Kesin merge |
| Sağlık Kurumları ↔ Sağlık Yönetimi | 0.993 | text_en | Kesin merge |
| Enfeksiyon Hast. ↔ Klinik Bakteriyoloji | 0.953 | embedding | Kesin merge |
| Ekonometri ↔ Ekonomi | 0.966 | embedding | Tartışmalı — eşik düşürülmeli |
| Batı Dilleri ↔ Doğu Dilleri | 0.941 | embedding | Yanlış pozitif |
| Sorun Türü | Tespit |
|---|---|
| Label issue | 0 (mod kısıtı: feature-only multi-label etiket hatası bulamaz) |
| Outlier | 66 |
| Near-duplicate | 30 (15 çift, biri tam 0.0 mesafe) |
| Non-IID | 1 işaret |
| Metrik | Değer |
|---|---|
| Analiz | 37.567 kayıt |
| Etiket sorunu | 6.742 (%17,9) |
| Önerilen etiket | Yok (? — pred_probs yok) |
%17,9 oran centroid v2'nin %5'inden çok yüksek — yanlış pozitif riski mevcut.
Editöryel-Yardım/Metadata-Matching.md pipeline'ına dahil edildi.pred_probs üret.CleanLab-Detaylar/Deney1.md20_Domainler/Editoryel-Yardim/Duplike-Eslesme/CleanLab-Yaklasimi.md20_Domainler/Editoryel-Yardim/Duplike-Eslesme/Metadata-Matching.md