Etiket Kalite Kontrol — Etiket-Merkezli Outlier Tespiti

Detaylı kılavuz ve deneyler için: 30_Deneyler/Etiket-Kalite-Detaylar/Kilavuz.md

1. Problem

50.000 tez kaydı + 198 konu etiketi. Etiketler insan elinden çıktığı için yanlış, eksik veya tartışmalı olabilir. Otomatik şüphe sıralaması ile insan inceleme kuyruğunu daraltmak hedeflenir.

2. Neden Kümeleme Tek Başına Yetmez?

Çözüm: etiket-centroid yaklaşımı. Var olan etiketleri referans noktası kabul et; her tezin kendi etiketinin centroid'ine ne kadar yakın olduğunu ölç.

3. Üç Şüphe Sinyali

Sinyal Sezgisel Açıklama Formül (Özet)
Label Distance Tez etiketine ne kadar uyuyor? 1 - cos(tez, etiket_centroid)
Better Label Gap Atanmamış bir etiket daha mı yakın? max(other_labels) - mean(assigned_labels)
Intra-Label Outlier Aynı etiketteki en uç %10'da mı? top_k_distance flag

Birleşik skor: 0.4 × ld + 0.4 × gap + 0.2 × intra.

4. Aksiyon Sınıfları

Aksiyon Anlam Öncelik
SORUN_YOK Etiket tutarlı İşlem yok
DUSUK_ONCELIK Hafif sapma Toplu temizlik
GOZDEN_GECIR Orta şüphe Zaman bulunca
ETIKET_DEGISIKLIK_ONERISI Başka etiket daha uygun Karşılaştır
MUTLAKA_INCELE Yüksek şüphe Öncelikli kontrol
KUCUK_ETIKET_KONTROL Etiketin kendisi az kayıtlı Etiket güvenilirliği

5. Deney Yolculuğu

Sürüm Yaklaşım Kritik Bulgu
v1 Sabit eşik (> 0.7, > 0.4...) Verinin %99,9'u şüpheli çıktı — kalibrasyon hatası
v2 Percentile + Z-score + duplike birleştirme + küçük etiket ayrıştırma %50 SORUN_YOK, %5 MUTLAKA_INCELE — kullanılabilir

Detay raporlar: - v1: ../../../30_Deneyler/Etiket-Kalite-Detaylar/v1.md - v2: ../../../30_Deneyler/Etiket-Kalite-Detaylar/v2.md

6. Tespit Edilen Veri Sorunları

v2 sürümü beklenmedik bonus bulgular üretti:

7. Sınırlılıklar

8. Sonraki Adımlar

9. İlgili Sayfalar