Deney Kartı 02 — Etiket Kalite Kontrol v1 (Sabit Eşik)

Tek cümle: İlk centroid tabanlı outlier denemesinde sabit eşikler verinin gerçek dağılımını yansıtamadı; %99,9 kayıt şüpheli çıktı — kalibrasyon hatası.

1. Amaç

Tez etiketlerindeki şüpheli kayıtları kümeleme yerine etiket-centroid mesafesi ile bulmak; multi-label yapıyla uyumlu, açıklanabilir bir akış kurmak.

2. Parametre / Kurulum

Bileşen	Değer
Veri	50.000 tez, 199 etiket
Embedding	F2LLM (2048)
Yöntem	3 sinyal: `label_distance`, `better_label_gap`, `intra_label_outlier`
Birleştirme	`0.4 × ld + 0.4 × gap + 0.2 × intra`
Normalizasyon	Sabit cap (`s1_cap = 0.50`, `s2_cap = 0.20`)
Eşikler	Sabit (`> 0.7`, `> 0.4`, `> 0.2`)

3. Sonuç ve Bulgu

Aksiyon	Kayıt	Yüzde
MUTLAKA_INCELE	4.605	%9,2
ETIKET_DEGISIKLIK_ONERISI	2.527	%5,1
GOZDEN_GECIR	14.677	%29,4
DUSUK_ONCELIK	28.130	%56,3
SORUN_YOK	61	%0,1

Kritik bulgu: SORUN_YOK oranının %0,1 olması mantıksız. Sebep: gerçek label_distance ortalamasının ~0,50 olduğu (Deney 2'de teyit edildi), ancak sabit cap değeri de 0,50 — yani neredeyse tüm kayıtlar otomatik olarak yüksek normalize skor alıyor.

Yan bulgular:

Etiket-içi outlier: 6.672 kayıt (%13,3) — bu sinyal makul.
Eksik etiket önerisi: 1.597 kayıt (%3,2).
Duplike etiketler ("Healtcare Management" gibi) hesaba katılmamış.
Küçük etiketler (< 10 kayıt) ayrıştırılmamış.

4. Karara Etkisi

Sabit eşik yaklaşımı pratikte kullanılamaz.
Bir sonraki deneyde:
Sabit cap → Z-score normalizasyonu.
Sabit eşik → percentile tabanlı sınıflandırma.
Duplike etiket birleştirmesi.
Küçük etiketler ayrı kategori.
Üç sinyal yapısı (ld, gap, intra) mantıksal olarak doğru çıktı; korunarak v2'ye taşındı.

5. Detay Bağlantılar

Tam rapor: Etiket-Kalite-Detaylar/v1.md
Kavramsal kılavuz: Etiket-Kalite-Detaylar/Kilavuz.md
Domain sayfası: 20_Domainler/Editoryel-Yardim/Outlier-Detection/Etiket-Kalite-Kontrol.md
Sonraki deney: 03_Etiket-Kalite-v2-Percentile.md