Outlier Detection (Editöryel Yardım Alt-Domaini)

Editöryel Yardım şemsiyesi altında etiket / içerik anomali tespiti alt-domaini. Üst sayfa: ../README.md.

1. Amaç

Tez koleksiyonundaki anomali kayıtları (yanlış etiketli, içerikten kopuk, küme dışı kalmış kayıtlar) otomatik olarak tespit etmek; insan inceleme kuyruğunu daraltarak veri kalitesini sürdürülebilir kılmak.

2. Problem Tanımı

198 konu etiketi insan elinden çıktığı için kaçınılmaz hatalar barındırır:

50.000 kaydı elle taramak mümkün değil → şüphe sinyali üreten otomatik bir katman gerekir.

3. Kapsam ve Kapsam Dışı

4. İki Tamamlayıcı Yaklaşım

Yaklaşım Mantık Güçlü Yönü Zayıf Yönü
Kümeleme tabanlı (HDBSCAN) Yoğunluk noise'u → outlier Etiket bilgisi gerektirmez Multi-label kayıtlarda gürültü yapar
Etiket merkezli (centroid) Etiket centroid'inden uzaklık Multi-label uyumlu, açıklanabilir Mevcut etiketlere bağımlı

İkisinin birleşimi en güvenilir sinyali verir: HDBSCAN noise + yüksek combined_z skoru → kuvvetli inceleme adayı.

5. Alt Sayfalar

6. Deneyler ve Bulgular

Deney Karar Kartı Detay
HDBSCAN v3–v8 30_Deneyler/01_HDBSCAN-Kumeleme.md 30_Deneyler/HDBSCAN-Detaylar/
Etiket Kalite v1 (sabit eşik) 30_Deneyler/02_Etiket-Kalite-v1-Sabit-Esik.md 30_Deneyler/Etiket-Kalite-Detaylar/v1.md
Etiket Kalite v2 (percentile) 30_Deneyler/03_Etiket-Kalite-v2-Percentile.md 30_Deneyler/Etiket-Kalite-Detaylar/v2.md

7. Mevcut Durum

Aktif. v2 etiket kalite çalışması üretim için kullanılabilir seviyeye geldi; HDBSCAN parametreleri v8'de stabilize edildi.

8. Sonraki Adımlar

9. İlgili Sayfalar