Metadata Matching

1. Amaç

Mevcut metadata kayıtlarını referans sözlüklerle (etiket listesi, yazar otorite kayıtları, kurum sözlüğü) tutarlı hale getirmek; eşanlamlı/yazım farkı olan kayıtları aynı kanonik forma indirgemek.

2. Tipik Eşleşme Türleri

Tür	Örnek	Yöntem
Yazım farkı	"Healtcare Management" ↔ "Healthcare Management"	Levenshtein > 0.85
Çeviri farkı	"Aircraft Engineering" ↔ "Aeronautical Engineering"	Türkçe + İngilizce metin + embedding
İsim farkı, aynı alan	"Acil Tıp" ↔ "İlk ve Acil Yardım"	Embedding centroid cosine > 0.92
Yazar adı varyantları	"M. Yılmaz" ↔ "Mehmet Yılmaz"	Token + initial eşlemesi
Kurum varyantları	"ODTÜ" ↔ "Orta Doğu Teknik Üniversitesi"	Kısaltma sözlüğü + bulanık eşleme

3. Otomatik Duplike Etiket Tespiti (Uygulanmış)

CleanLab Deney 1 sürecinde 198 etiketten 22 birleştirme önerisi otomatik çıkarıldı:

Türkçe metin benzerliği: Levenshtein > 0.85
İngilizce metin benzerliği: Levenshtein > 0.85
Embedding centroid benzerliği: Cosine > 0.92

Sonuç: 12.883 kayıtta etiket birleştirmesi → centroid kalitesi belirgin arttı.

Detaylı liste ve "tartışmalı" örnekler: 30_Deneyler/CleanLab-Detaylar/Deney1.md — Bölüm 4.1.

4. Tartışmalı Eşleşmeler — Eşik Tasarımı

0.92 cosine eşiği bazı yanlış pozitifler üretti:

Çift	Cosine	Değerlendirme
Ekonometri ↔ Ekonomi	0.966	İlişkili ama ayrı disiplinler
Batı Dilleri ↔ Doğu Dilleri	0.941	Yanlış pozitif (zıt alanlar)
Aile Hekimliği ↔ Halk Sağlığı	0.941	Tartışmalı

Çıkarım: otomatik birleştirme önerisi üretilebilir, ama nihai karar insan onayından geçmeli.

5. Önerilen İş Akışı

Aday üretimi (3 sinyal: TR text + EN text + embedding)
  -> Skor + sinyal kombinasyonu
  -> Yüksek güven: otomatik birleştirme
  -> Orta güven: editör paneline
  -> Düşük güven: göz ardı

6. Kabul Kriterleri

Metrik	Hedef
Aday önerisi precision (yüksek güven)	≥ %95
Recall (gerçek duplikelerin yakalanması)	≥ %85
Editör panelinde hızlı karar süresi	Ortalama < 10 sn / öneri

7. Sonraki Adımlar

Editör paneli için minimal UI (kabul/reddet/birleştir).
Yazar otorite kayıtları için ayrı pipeline.
Sonuçların Outlier Detection zincirinde referans sözlük olarak kullanılması (../Outlier-Detection/Etiket-Kalite-Kontrol.md).

8. İlgili Sayfalar

./CleanLab-Yaklasimi.md — kardeş sayfa, otomatik duplike tespiti
../README.md — Editöryel Yardım şemsiyesi
../Metadata-Extraction/README.md — yapısal metadata çıkarımı
../Outlier-Detection/Etiket-Kalite-Kontrol.md — centroid tabanlı outlier