Detaylı kılavuz ve deneyler için:
30_Deneyler/Etiket-Kalite-Detaylar/Kilavuz.md
50.000 tez kaydı + 198 konu etiketi. Etiketler insan elinden çıktığı için yanlış, eksik veya tartışmalı olabilir. Otomatik şüphe sıralaması ile insan inceleme kuyruğunu daraltmak hedeflenir.
Çözüm: etiket-centroid yaklaşımı. Var olan etiketleri referans noktası kabul et; her tezin kendi etiketinin centroid'ine ne kadar yakın olduğunu ölç.
| Sinyal | Sezgisel Açıklama | Formül (Özet) |
|---|---|---|
| Label Distance | Tez etiketine ne kadar uyuyor? | 1 - cos(tez, etiket_centroid) |
| Better Label Gap | Atanmamış bir etiket daha mı yakın? | max(other_labels) - mean(assigned_labels) |
| Intra-Label Outlier | Aynı etiketteki en uç %10'da mı? | top_k_distance flag |
Birleşik skor: 0.4 × ld + 0.4 × gap + 0.2 × intra.
| Aksiyon | Anlam | Öncelik |
|---|---|---|
SORUN_YOK |
Etiket tutarlı | İşlem yok |
DUSUK_ONCELIK |
Hafif sapma | Toplu temizlik |
GOZDEN_GECIR |
Orta şüphe | Zaman bulunca |
ETIKET_DEGISIKLIK_ONERISI |
Başka etiket daha uygun | Karşılaştır |
MUTLAKA_INCELE |
Yüksek şüphe | Öncelikli kontrol |
KUCUK_ETIKET_KONTROL |
Etiketin kendisi az kayıtlı | Etiket güvenilirliği |
| Sürüm | Yaklaşım | Kritik Bulgu |
|---|---|---|
| v1 | Sabit eşik (> 0.7, > 0.4...) |
Verinin %99,9'u şüpheli çıktı — kalibrasyon hatası |
| v2 | Percentile + Z-score + duplike birleştirme + küçük etiket ayrıştırma | %50 SORUN_YOK, %5 MUTLAKA_INCELE — kullanılabilir |
Detay raporlar:
- v1: ../../../30_Deneyler/Etiket-Kalite-Detaylar/v1.md
- v2: ../../../30_Deneyler/Etiket-Kalite-Detaylar/v2.md
v2 sürümü beklenmedik bonus bulgular üretti:
../Duplike-Eslesme/CleanLab-Yaklasimi.md)../Kumeleme-HDBSCAN.md — tamamlayıcı kümeleme yaklaşımı../README.md — Editöryel Yardım şemsiyesi../Metadata-Extraction/README.md — yapısal metadata çıkarımı../Duplike-Eslesme/README.md — duplike etiket pipeline../../../30_Deneyler/02_Etiket-Kalite-v1-Sabit-Esik.md../../../30_Deneyler/03_Etiket-Kalite-v2-Percentile.md