Etiket Kalite Kontrol — Etiket-Merkezli Outlier Tespiti

Detaylı kılavuz ve deneyler için: 30_Deneyler/Etiket-Kalite-Detaylar/Kilavuz.md

1. Problem

50.000 tez kaydı + 198 konu etiketi. Etiketler insan elinden çıktığı için yanlış, eksik veya tartışmalı olabilir. Otomatik şüphe sıralaması ile insan inceleme kuyruğunu daraltmak hedeflenir.

2. Neden Kümeleme Tek Başına Yetmez?

Multi-label yapı (bir tez birden fazla konuya ait olabilir) kümeleme algoritmalarını yanıltır.
198 küme zorlamak K-Means'i çökertir; HDBSCAN noise patlamasına yol açar.
"Bu küme hangi etiket?" sorusu ek bir eşleme problemi yaratır.

Çözüm: etiket-centroid yaklaşımı. Var olan etiketleri referans noktası kabul et; her tezin kendi etiketinin centroid'ine ne kadar yakın olduğunu ölç.

3. Üç Şüphe Sinyali

Sinyal	Sezgisel Açıklama	Formül (Özet)
Label Distance	Tez etiketine ne kadar uyuyor?	`1 - cos(tez, etiket_centroid)`
Better Label Gap	Atanmamış bir etiket daha mı yakın?	`max(other_labels) - mean(assigned_labels)`
Intra-Label Outlier	Aynı etiketteki en uç %10'da mı?	`top_k_distance` flag

Birleşik skor: 0.4 × ld + 0.4 × gap + 0.2 × intra.

4. Aksiyon Sınıfları

Aksiyon	Anlam	Öncelik
`SORUN_YOK`	Etiket tutarlı	İşlem yok
`DUSUK_ONCELIK`	Hafif sapma	Toplu temizlik
`GOZDEN_GECIR`	Orta şüphe	Zaman bulunca
`ETIKET_DEGISIKLIK_ONERISI`	Başka etiket daha uygun	Karşılaştır
`MUTLAKA_INCELE`	Yüksek şüphe	Öncelikli kontrol
`KUCUK_ETIKET_KONTROL`	Etiketin kendisi az kayıtlı	Etiket güvenilirliği

5. Deney Yolculuğu

Sürüm	Yaklaşım	Kritik Bulgu
v1	Sabit eşik (`> 0.7`, `> 0.4`...)	Verinin %99,9'u şüpheli çıktı — kalibrasyon hatası
v2	Percentile + Z-score + duplike birleştirme + küçük etiket ayrıştırma	%50 SORUN_YOK, %5 MUTLAKA_INCELE — kullanılabilir

Detay raporlar: - v1: ../../../30_Deneyler/Etiket-Kalite-Detaylar/v1.md - v2: ../../../30_Deneyler/Etiket-Kalite-Detaylar/v2.md

6. Tespit Edilen Veri Sorunları

v2 sürümü beklenmedik bonus bulgular üretti:

Duplike etiketler: "Healtcare Management" (yazım hatası) ↔ "Healthcare Management" → 12.883 kayıtta birleştirme.
Küçük etiketler: 15 etikette 10'dan az kayıt → ayrı kategori.
Multi-label baskı: Tezlerin %25,8'i çoklu etiketli, ortalama mesafe doğal olarak yüksek.

7. Sınırlılıklar

Centroid tek bir nokta ile temsil edilir → büyük etikette alt-kümeleri gizler.
Percentile yaklaşımı göreceli sıralama yapar; veri tamamen temiz olsa bile en kötü %5 mutlaka MUTLAKA_INCELE çıkar.
F2LLM embedding'lerine bağımlı; farklı modelle dağılım değişir.

8. Sonraki Adımlar

MUTLAKA_INCELE örneklerinde insan precision ölçümü (hedef: %70+).
Etiket-içi alt kümeleme (büyük etiketlerde HDBSCAN ile alt centroid).
Otomatik duplike etiket tespiti (CleanLab ile birleşik kullanım, bkz. ../Duplike-Eslesme/CleanLab-Yaklasimi.md).

9. İlgili Sayfalar

./Kumeleme-HDBSCAN.md — tamamlayıcı kümeleme yaklaşımı
../README.md — Editöryel Yardım şemsiyesi
../Metadata-Extraction/README.md — yapısal metadata çıkarımı
../Duplike-Eslesme/README.md — duplike etiket pipeline
../../../30_Deneyler/02_Etiket-Kalite-v1-Sabit-Esik.md
../../../30_Deneyler/03_Etiket-Kalite-v2-Percentile.md