Duplike Eşleşme (Editöryel Yardım Alt-Domaini)

Editöryel Yardım şemsiyesi altında etiket sözlüğü ve kayıt seviyesi duplike / near-duplicate tespiti alt-domaini. Üst sayfa: ../README.md.

1. Amaç

Etiket sözlüğünde, yazar / kurum kayıtlarında ve metadata alanlarında eşanlamlı, yazım hatası, kısaltma farkı içeren duplike kayıtları otomatik olarak tespit etmek; editör panelinde hızlı kabul/reddet akışıyla kanonik forma indirgemek.

2. Neden Ayrı Bir Alt-Domain?

Outlier Detection (etiket-içi anomali) ile Metadata Extraction (yapısal alan üretimi) arasında bir eşleştirme katmanı vardır:

Bu katman olmadan etiket centroid'leri kirli kalır, yazar bibliyografisi parçalanır, atıf grafiği yanlış düğümler üretir.

3. Alt Sayfalar

Sayfa Konu Olgunluk
./CleanLab-Yaklasimi.md CleanLab ile outlier + near-duplicate + label issue tespiti Deney 1 tamamlandı; Deney 2 (pred_probs ile) planlandı
./Metadata-Matching.md Levenshtein + Embedding hibrit duplike etiket pipeline Pipeline tasarlandı, etiket sözlüğünde uygulandı (12.883 kayıtta birleştirme)

4. Üç Sinyal Kuralı

Duplike adayı üretirken üç bağımsız sinyal birlikte değerlendirilir:

Sinyal Eşik Anlam
TR metin Levenshtein > 0.85 Yazım farkı, küçük tipo
EN metin Levenshtein > 0.85 Çeviri benzerliği
Embedding cosine (centroid) > 0.92 Anlamsal yakınlık

Kombinasyon: - 3/3 sinyal → otomatik birleştirme önerisi (yüksek güven). - 2/3 sinyal → editör panelinde manuel onay. - 1/3 sinyal → göz ardı (yanlış pozitif riski yüksek).

5. Bilinen Tartışmalı Eşleşmeler

0.92 cosine eşiği eşanlamlı olmayan ama anlamsal yakın çiftler üretebiliyor (Ekonomi ↔ Ekonometri, Batı Dilleri ↔ Doğu Dilleri vs.). Detay: ./Metadata-Matching.md — Bölüm 4.

Çıkarım: otomatik birleştirme önerisi üretilebilir, nihai karar insan onayından geçmeli.

6. Deneyler ve Bulgular

Deney Karar Kartı Detay
CleanLab Feature-Only 30_Deneyler/04_CleanLab-Feature-Only.md 30_Deneyler/CleanLab-Detaylar/Deney1.md

7. Mevcut Durum

Aktif. CleanLab Deney 1 ile 22 birleştirme önerisi çıktı (3 elle, 19 otomatik) → 12.883 kayıtta etiket düzeltmesi → centroid kalitesi belirgin arttı. Deney 2 (pred_probs ile) kuyruğa alındı.

8. Sonraki Adımlar

9. İlgili Sayfalar