Editöryel Yardım şemsiyesi altında etiket sözlüğü ve kayıt seviyesi duplike / near-duplicate tespiti alt-domaini. Üst sayfa:
../README.md.
Etiket sözlüğünde, yazar / kurum kayıtlarında ve metadata alanlarında eşanlamlı, yazım hatası, kısaltma farkı içeren duplike kayıtları otomatik olarak tespit etmek; editör panelinde hızlı kabul/reddet akışıyla kanonik forma indirgemek.
Outlier Detection (etiket-içi anomali) ile Metadata Extraction (yapısal alan üretimi) arasında bir eşleştirme katmanı vardır:
Bu katman olmadan etiket centroid'leri kirli kalır, yazar bibliyografisi parçalanır, atıf grafiği yanlış düğümler üretir.
| Sayfa | Konu | Olgunluk |
|---|---|---|
./CleanLab-Yaklasimi.md |
CleanLab ile outlier + near-duplicate + label issue tespiti | Deney 1 tamamlandı; Deney 2 (pred_probs ile) planlandı |
./Metadata-Matching.md |
Levenshtein + Embedding hibrit duplike etiket pipeline | Pipeline tasarlandı, etiket sözlüğünde uygulandı (12.883 kayıtta birleştirme) |
Duplike adayı üretirken üç bağımsız sinyal birlikte değerlendirilir:
| Sinyal | Eşik | Anlam |
|---|---|---|
| TR metin Levenshtein | > 0.85 | Yazım farkı, küçük tipo |
| EN metin Levenshtein | > 0.85 | Çeviri benzerliği |
| Embedding cosine (centroid) | > 0.92 | Anlamsal yakınlık |
Kombinasyon: - 3/3 sinyal → otomatik birleştirme önerisi (yüksek güven). - 2/3 sinyal → editör panelinde manuel onay. - 1/3 sinyal → göz ardı (yanlış pozitif riski yüksek).
0.92 cosine eşiği eşanlamlı olmayan ama anlamsal yakın çiftler üretebiliyor (Ekonomi ↔ Ekonometri, Batı Dilleri ↔ Doğu Dilleri vs.). Detay: ./Metadata-Matching.md — Bölüm 4.
Çıkarım: otomatik birleştirme önerisi üretilebilir, nihai karar insan onayından geçmeli.
| Deney | Karar Kartı | Detay |
|---|---|---|
| CleanLab Feature-Only | 30_Deneyler/04_CleanLab-Feature-Only.md |
30_Deneyler/CleanLab-Detaylar/Deney1.md |
Aktif. CleanLab Deney 1 ile 22 birleştirme önerisi çıktı (3 elle, 19 otomatik) → 12.883 kayıtta etiket düzeltmesi → centroid kalitesi belirgin arttı. Deney 2 (pred_probs ile) kuyruğa alındı.
../README.md — Editöryel Yardım şemsiyesi../Outlier-Detection/Etiket-Kalite-Kontrol.md — kardeş alt-domain (centroid)../Metadata-Extraction/README.md — kardeş alt-domain (yapısal alan üretimi)../../../40_Yontemler/README.md — Levenshtein + Embedding hibrit metodu