Şemsiye domain. TR Dizin / Ulusal Tez Merkezi gibi platformlardaki editör ve operatörlerin manuel iş yükünü azaltan tüm otomatik destek araçlarını kapsar.
Editöryel ekibin manuel kontrol, etiketleme ve eşleştirme iş yükünü azaltmak; otomatik adımları insan onay kuyruğuna bağlamak. Hedef: kalite ve hızı birlikte artırmak.
Editöryel Yardım üç tamamlayıcı alt-domain'den oluşur:
| Alt-Domain | Sorduğu Soru | Ana Yöntem |
|---|---|---|
| Metadata Extraction | "Bu metinden hangi yapısal alanlar (başlık, yazar, referans...) çıkar?" | Qwen2.5-14B fine-tune (LLM) + embedding centroid sınıflandırma |
| Outlier Detection | "Bu kayıt etiketine uyuyor mu? Anomali var mı?" | HDBSCAN noise + etiket-centroid uzaklık |
| Duplike Eşleşme | "İki etiket / yazar / kayıt aynı kanonik öğeye mi denk geliyor?" | CleanLab + Levenshtein + Embedding hibrit |
Üçü birlikte uçtan uca editör desteği sağlar:
Ham metin (PDF/markdown)
|
v
[Metadata Extraction] <- yapisal alanlari uret
|
v
[Duplike Eslesme] <- etiket / yazar / kurum kanonik forma indir
|
v
[Outlier Detection] <- supheli kayitlari editore yonlendir
|
v
Editor paneli (kabul / reddet / duzeltme)
MUTLAKA_INCELE, ETIKET_DEGISIKLIK_ONERISI gibi aksiyon kategorileri.| Deney | Karar Kartı | Detay Rapor | Alt-Domain |
|---|---|---|---|
| HDBSCAN v3–v8 | 30_Deneyler/01_HDBSCAN-Kumeleme.md |
30_Deneyler/HDBSCAN-Detaylar/ |
Outlier Detection |
| Etiket Kalite v1 (sabit eşik) | 30_Deneyler/02_Etiket-Kalite-v1-Sabit-Esik.md |
30_Deneyler/Etiket-Kalite-Detaylar/v1.md |
Outlier Detection |
| Etiket Kalite v2 (percentile) | 30_Deneyler/03_Etiket-Kalite-v2-Percentile.md |
30_Deneyler/Etiket-Kalite-Detaylar/v2.md |
Outlier Detection |
| CleanLab Feature-Only | 30_Deneyler/04_CleanLab-Feature-Only.md |
30_Deneyler/CleanLab-Detaylar/Deney1.md |
Duplike Eşleşme |
| Qwen2.5-14B Metadata Extraction | 30_Deneyler/05_Qwen-Metadata-Extraction.md |
30_Deneyler/Qwen-Detaylar/Rapor-v1.md |
Metadata Extraction |
Aktif. Pipeline her üç alt-domain'de de işlevsel:
pred_probs ile) kuyruğa alındı../Metadata-Extraction/ — alt-domain./Outlier-Detection/ — alt-domain./Duplike-Eslesme/ — alt-domain../Anlamsal-Arama/ — aynı embedding altyapısı (kuzen domain)../Atif-Zekasi/ — referans çıkarımının doğrudan tüketicisi../Bilgi-Aglari/ — yapısal metadata graph beslemesi../../40_Yontemler/ — kullanılan metrikler ve yöntemler