Deney Kartı 03 — Etiket Kalite Kontrol v2 (Percentile + Veri Kalitesi)

Tek cümle: Sabit eşikleri percentile + Z-score ile değiştirip duplike etiket birleştirmesi ve küçük etiket ayrıştırması ekleyince kullanılabilir bir şüphe sıralaması elde edildi.

1. Amaç

Deney 1'in kalibrasyon hatasını çözüp etiket kalite kontrolü için gerçekçi aksiyon dağılımı üreten bir pipeline kurmak.

2. Parametre / Kurulum

Bileşen Değer
Veri 49.815 tez (185 boş kayıt filtrelendi), 195 etiket (3 duplike birleştirildi)
Güvenilir etiket (≥ 10 kayıt) 180
Küçük etiket (< 10 kayıt) 15
Embedding F2LLM (2048)
Normalizasyon Z-score (μ=0,5011, σ=0,0918)
Birleşik skor 0.4 × ld_z + 0.4 × blg_z + 0.2 × intra
Aksiyon ataması Percentile (P50 / P75 / P90 / P95)
CLI --pct-mutlaka 5 --pct-degisiklik 5 --pct-gozden-gecir 15 --pct-dusuk 25

Ek değişiklikler: duplike etiket birleştirme (12.883 kayıtta), küçük etiket ayrıştırma (71 kayıt → KUCUK_ETIKET_KONTROL).

3. Sonuç ve Bulgu

Aksiyon Kayıt Yüzde Deney 1 ile Karşılaştırma
SORUN_YOK 24.854 %49,9 61 → 24.854 ✓
DUSUK_ONCELIK 12.446 %25,0 28.130 → 12.446
GOZDEN_GECIR 9.318 %18,7 14.677 → 9.318
ETIKET_DEGISIKLIK_ONERISI 637 %1,3 2.527 → 637
MUTLAKA_INCELE 2.489 %5,0 4.605 → 2.489
KUCUK_ETIKET_KONTROL 71 %0,1 (yeni)

Niteliksel doğrulama: MUTLAKA_INCELE'den 5 örnek incelendiğinde anlamlı sinyaller görüldü:

Z Mevcut Önerilen Gözlem
+1,98 Eğitim ve Öğretim Uluslararası İlişkiler "Bilim diplomasisi" tezi — öneri makul
+1,72 Mühendislik Bilimleri Bilgisayar Mühendisliği "Görme engelliler için AR uygulama" — daha spesifik öneri
+1,58 Peyzaj Mimarlığı Sosyoloji Göçmen çocuk oyuna erişim — etiket fitsiz görünüyor

Ek bulgular:

4. Karara Etkisi

5. Detay Bağlantılar