Tek cümle: İlk centroid tabanlı outlier denemesinde sabit eşikler verinin gerçek dağılımını yansıtamadı; %99,9 kayıt şüpheli çıktı — kalibrasyon hatası.
Tez etiketlerindeki şüpheli kayıtları kümeleme yerine etiket-centroid mesafesi ile bulmak; multi-label yapıyla uyumlu, açıklanabilir bir akış kurmak.
| Bileşen | Değer |
|---|---|
| Veri | 50.000 tez, 199 etiket |
| Embedding | F2LLM (2048) |
| Yöntem | 3 sinyal: label_distance, better_label_gap, intra_label_outlier |
| Birleştirme | 0.4 × ld + 0.4 × gap + 0.2 × intra |
| Normalizasyon | Sabit cap (s1_cap = 0.50, s2_cap = 0.20) |
| Eşikler | Sabit (> 0.7, > 0.4, > 0.2) |
| Aksiyon | Kayıt | Yüzde |
|---|---|---|
| MUTLAKA_INCELE | 4.605 | %9,2 |
| ETIKET_DEGISIKLIK_ONERISI | 2.527 | %5,1 |
| GOZDEN_GECIR | 14.677 | %29,4 |
| DUSUK_ONCELIK | 28.130 | %56,3 |
| SORUN_YOK | 61 | %0,1 |
Kritik bulgu: SORUN_YOK oranının %0,1 olması mantıksız. Sebep: gerçek label_distance ortalamasının ~0,50 olduğu (Deney 2'de teyit edildi), ancak sabit cap değeri de 0,50 — yani neredeyse tüm kayıtlar otomatik olarak yüksek normalize skor alıyor.
Yan bulgular:
ld, gap, intra) mantıksal olarak doğru çıktı; korunarak v2'ye taşındı.Etiket-Kalite-Detaylar/v1.mdEtiket-Kalite-Detaylar/Kilavuz.md20_Domainler/Editoryel-Yardim/Outlier-Detection/Etiket-Kalite-Kontrol.md03_Etiket-Kalite-v2-Percentile.md