Metadata Matching

1. Amaç

Mevcut metadata kayıtlarını referans sözlüklerle (etiket listesi, yazar otorite kayıtları, kurum sözlüğü) tutarlı hale getirmek; eşanlamlı/yazım farkı olan kayıtları aynı kanonik forma indirgemek.

2. Tipik Eşleşme Türleri

Tür Örnek Yöntem
Yazım farkı "Healtcare Management" ↔ "Healthcare Management" Levenshtein > 0.85
Çeviri farkı "Aircraft Engineering" ↔ "Aeronautical Engineering" Türkçe + İngilizce metin + embedding
İsim farkı, aynı alan "Acil Tıp" ↔ "İlk ve Acil Yardım" Embedding centroid cosine > 0.92
Yazar adı varyantları "M. Yılmaz" ↔ "Mehmet Yılmaz" Token + initial eşlemesi
Kurum varyantları "ODTÜ" ↔ "Orta Doğu Teknik Üniversitesi" Kısaltma sözlüğü + bulanık eşleme

3. Otomatik Duplike Etiket Tespiti (Uygulanmış)

CleanLab Deney 1 sürecinde 198 etiketten 22 birleştirme önerisi otomatik çıkarıldı:

Sonuç: 12.883 kayıtta etiket birleştirmesi → centroid kalitesi belirgin arttı.

Detaylı liste ve "tartışmalı" örnekler: 30_Deneyler/CleanLab-Detaylar/Deney1.md — Bölüm 4.1.

4. Tartışmalı Eşleşmeler — Eşik Tasarımı

0.92 cosine eşiği bazı yanlış pozitifler üretti:

Çift Cosine Değerlendirme
Ekonometri ↔ Ekonomi 0.966 İlişkili ama ayrı disiplinler
Batı Dilleri ↔ Doğu Dilleri 0.941 Yanlış pozitif (zıt alanlar)
Aile Hekimliği ↔ Halk Sağlığı 0.941 Tartışmalı

Çıkarım: otomatik birleştirme önerisi üretilebilir, ama nihai karar insan onayından geçmeli.

5. Önerilen İş Akışı

Aday üretimi (3 sinyal: TR text + EN text + embedding)
  -> Skor + sinyal kombinasyonu
  -> Yüksek güven: otomatik birleştirme
  -> Orta güven: editör paneline
  -> Düşük güven: göz ardı

6. Kabul Kriterleri

Metrik Hedef
Aday önerisi precision (yüksek güven) ≥ %95
Recall (gerçek duplikelerin yakalanması) ≥ %85
Editör panelinde hızlı karar süresi Ortalama < 10 sn / öneri

7. Sonraki Adımlar

8. İlgili Sayfalar