Mevcut metadata kayıtlarını referans sözlüklerle (etiket listesi, yazar otorite kayıtları, kurum sözlüğü) tutarlı hale getirmek; eşanlamlı/yazım farkı olan kayıtları aynı kanonik forma indirgemek.
| Tür | Örnek | Yöntem |
|---|---|---|
| Yazım farkı | "Healtcare Management" ↔ "Healthcare Management" | Levenshtein > 0.85 |
| Çeviri farkı | "Aircraft Engineering" ↔ "Aeronautical Engineering" | Türkçe + İngilizce metin + embedding |
| İsim farkı, aynı alan | "Acil Tıp" ↔ "İlk ve Acil Yardım" | Embedding centroid cosine > 0.92 |
| Yazar adı varyantları | "M. Yılmaz" ↔ "Mehmet Yılmaz" | Token + initial eşlemesi |
| Kurum varyantları | "ODTÜ" ↔ "Orta Doğu Teknik Üniversitesi" | Kısaltma sözlüğü + bulanık eşleme |
CleanLab Deney 1 sürecinde 198 etiketten 22 birleştirme önerisi otomatik çıkarıldı:
Sonuç: 12.883 kayıtta etiket birleştirmesi → centroid kalitesi belirgin arttı.
Detaylı liste ve "tartışmalı" örnekler: 30_Deneyler/CleanLab-Detaylar/Deney1.md — Bölüm 4.1.
0.92 cosine eşiği bazı yanlış pozitifler üretti:
| Çift | Cosine | Değerlendirme |
|---|---|---|
| Ekonometri ↔ Ekonomi | 0.966 | İlişkili ama ayrı disiplinler |
| Batı Dilleri ↔ Doğu Dilleri | 0.941 | Yanlış pozitif (zıt alanlar) |
| Aile Hekimliği ↔ Halk Sağlığı | 0.941 | Tartışmalı |
Çıkarım: otomatik birleştirme önerisi üretilebilir, ama nihai karar insan onayından geçmeli.
Aday üretimi (3 sinyal: TR text + EN text + embedding)
-> Skor + sinyal kombinasyonu
-> Yüksek güven: otomatik birleştirme
-> Orta güven: editör paneline
-> Düşük güven: göz ardı
| Metrik | Hedef |
|---|---|
| Aday önerisi precision (yüksek güven) | ≥ %95 |
| Recall (gerçek duplikelerin yakalanması) | ≥ %85 |
| Editör panelinde hızlı karar süresi | Ortalama < 10 sn / öneri |
../Outlier-Detection/Etiket-Kalite-Kontrol.md)../CleanLab-Yaklasimi.md — kardeş sayfa, otomatik duplike tespiti../README.md — Editöryel Yardım şemsiyesi../Metadata-Extraction/README.md — yapısal metadata çıkarımı../Outlier-Detection/Etiket-Kalite-Kontrol.md — centroid tabanlı outlier