Editöryel Yardım şemsiyesi altında etiket / içerik anomali tespiti alt-domaini. Üst sayfa:
../README.md.
Tez koleksiyonundaki anomali kayıtları (yanlış etiketli, içerikten kopuk, küme dışı kalmış kayıtlar) otomatik olarak tespit etmek; insan inceleme kuyruğunu daraltarak veri kalitesini sürdürülebilir kılmak.
198 konu etiketi insan elinden çıktığı için kaçınılmaz hatalar barındırır:
50.000 kaydı elle taramak mümkün değil → şüphe sinyali üreten otomatik bir katman gerekir.
| Yaklaşım | Mantık | Güçlü Yönü | Zayıf Yönü |
|---|---|---|---|
| Kümeleme tabanlı (HDBSCAN) | Yoğunluk noise'u → outlier | Etiket bilgisi gerektirmez | Multi-label kayıtlarda gürültü yapar |
| Etiket merkezli (centroid) | Etiket centroid'inden uzaklık | Multi-label uyumlu, açıklanabilir | Mevcut etiketlere bağımlı |
İkisinin birleşimi en güvenilir sinyali verir: HDBSCAN noise + yüksek combined_z skoru → kuvvetli inceleme adayı.
| Deney | Karar Kartı | Detay |
|---|---|---|
| HDBSCAN v3–v8 | 30_Deneyler/01_HDBSCAN-Kumeleme.md |
30_Deneyler/HDBSCAN-Detaylar/ |
| Etiket Kalite v1 (sabit eşik) | 30_Deneyler/02_Etiket-Kalite-v1-Sabit-Esik.md |
30_Deneyler/Etiket-Kalite-Detaylar/v1.md |
| Etiket Kalite v2 (percentile) | 30_Deneyler/03_Etiket-Kalite-v2-Percentile.md |
30_Deneyler/Etiket-Kalite-Detaylar/v2.md |
Aktif. v2 etiket kalite çalışması üretim için kullanılabilir seviyeye geldi; HDBSCAN parametreleri v8'de stabilize edildi.
MUTLAKA_INCELE kesişimini tek skora indirgemek.../Metadata-Extraction/ — kardeş alt-domain (yapısal metadata çıkarımı)../Duplike-Eslesme/ — kardeş alt-domain (CleanLab + Metadata Matching)30_Deneyler/ — özet kartlar40_Yontemler/ — kullanılan metrikler