Deney Kartı 02 — Etiket Kalite Kontrol v1 (Sabit Eşik)

Tek cümle: İlk centroid tabanlı outlier denemesinde sabit eşikler verinin gerçek dağılımını yansıtamadı; %99,9 kayıt şüpheli çıktı — kalibrasyon hatası.

1. Amaç

Tez etiketlerindeki şüpheli kayıtları kümeleme yerine etiket-centroid mesafesi ile bulmak; multi-label yapıyla uyumlu, açıklanabilir bir akış kurmak.

2. Parametre / Kurulum

Bileşen Değer
Veri 50.000 tez, 199 etiket
Embedding F2LLM (2048)
Yöntem 3 sinyal: label_distance, better_label_gap, intra_label_outlier
Birleştirme 0.4 × ld + 0.4 × gap + 0.2 × intra
Normalizasyon Sabit cap (s1_cap = 0.50, s2_cap = 0.20)
Eşikler Sabit (> 0.7, > 0.4, > 0.2)

3. Sonuç ve Bulgu

Aksiyon Kayıt Yüzde
MUTLAKA_INCELE 4.605 %9,2
ETIKET_DEGISIKLIK_ONERISI 2.527 %5,1
GOZDEN_GECIR 14.677 %29,4
DUSUK_ONCELIK 28.130 %56,3
SORUN_YOK 61 %0,1

Kritik bulgu: SORUN_YOK oranının %0,1 olması mantıksız. Sebep: gerçek label_distance ortalamasının ~0,50 olduğu (Deney 2'de teyit edildi), ancak sabit cap değeri de 0,50 — yani neredeyse tüm kayıtlar otomatik olarak yüksek normalize skor alıyor.

Yan bulgular:

4. Karara Etkisi

5. Detay Bağlantılar