Metadata Extraction (Editöryel Yardım Alt-Domaini)

Editöryel Yardım şemsiyesi altında yapılandırılmamış metinden yapılandırılmış metadata üretimi alt-domaini. Üst sayfa: ../README.md.

Akademik kayıtların yapılandırılmamış metinlerinden (PDF / markdown / özet) standart metadata alanlarının otomatik çıkarımı.

1. Amaç

Pipeline'da upstream: PDF → Markdown adımı Marker ile yapılır; bu adımdaki kayıp / bozulma metadata extraction kalitesini doğrudan etkiler. Detay: PDF Çıkarım Araçları ve Deney 06.

2. Hedef Alanlar

2.1 Tez (Embedding tabanlı sınıflandırma akışı)

Alan Örnek Zorluk
Konu (subject) "Bilgisayar Mühendisliği" Orta — 198 etiket sözlüğü mevcut
Anahtar kelimeler "derin öğrenme; nlp; bert" Yüksek — açık uçlu
Yöntem "deneysel; nicel" Düşük — kapalı küme
Tez türü "Yüksek Lisans / Doktora" Düşük
Disiplinlerarası işaretleme bool Orta
Dil "tr / en" Düşük

2.2 TR Dizin Makalesi (Qwen LLM tabanlı çıkarım akışı)

Alan Açıklama Zorluk
title.tr, title.en İki dilli başlık Düşük
abstracts[] Dil + metin + anahtar kelimeler Orta
authors[] Ad, ORCID, affiliation Orta
doi, language, publicationType, docType Standart alanlar Orta
journal.name, startPage, endPage Yayın künyesi Düşük–Orta
references[] 0–200 referans, sıralı Yüksek

3. Yaklaşım Seçenekleri

3.1 Embedding + Centroid Kıyaslaması (Sınıflandırma)

198 etiket için centroid hesaplanır; bir tezin özet embedding'i en yakın k etiketle eşlenir. Tez konu / dil / tez türü gibi sınıflandırılabilir alanlar için uygun.

3.2 LLM Tabanlı Çıkarım (Fine-Tuned Qwen2.5-14B)

TR Dizin makaleleri için PDF → Marker → Markdown → fine-tuned Qwen2.5-14B → JSON pipeline'ı kuruldu.

Detay: Deney Kartı 05 ve tam rapor.

3.3 Hibrit (Önerilen Üretim Akışı)

4. Mevcut Bulgular

4.1 Qwen2.5-14B Final Skorları (n = 2.384, test seti)

Boyut Metrik Değer
JSON yapı json_validity_rate 0.9807
Başlık fuzzy_title.tr / .en 1.00 / 1.00
Yazar author_count_match / author_names_avg 0.97 / 0.91
Doc türü exact_docType 0.98
Özet abstract_lang_match / abstract_count_match 0.99 / 0.78
Referans ref_f1 / ref_precision / ref_recall 0.84 / 0.87 / 0.83
DOI exact_doi 0.67
Dergi fuzzy_journal.name 0.65
Sayfa exact_startPage / endPage 0.64 / 0.63
ORCID orcid_recall 0.61
Hız avg_time_per_sample_sec 6.46

4.2 Operasyonel Çıkarımlar

4.3 Veri / Etiket Sözlüğü Notları (Tez tarafı)

5. Kabul Kriterleri

Metrik Hedef Mevcut (Qwen)
json_validity_rate ≥ 0.995 0.9807
ref_f1 ≥ 0.85 0.8371
Yapısal alanlar (docType, authors) ≥ %90 %91–97
exact_doi ≥ 0.85 0.6683
fuzzy_journal.name ≥ 0.85 0.6493
Top-1 konu doğruluğu (tez) ≥ %75 (insan uzlaşı verisinde) Ölçüm bekliyor
Top-3 konu kapsayıcılığı ≥ %92 Ölçüm bekliyor

6. Sonraki Adımlar

  1. Parse hatalarını sıfıra indir: Sanitizer'a yeni kurallar (kontrol karakterleri, bozuk unicode); hedef json_validity ≥ 0.995.
  2. DOI/Page teşhis raporu: predicted_* alanlarını kaydet; sistematik pattern var mı?
  3. Chunked reference extraction: 200+ refli makaleler için ayrı pass.
  4. Hard-negative retraining: ref_count_diff > 15 veya json_valid=False örnekler ile micro-training.
  5. Tez tarafında 200 örneklik altın etiketli set: Embedding-centroid vs LLM yaklaşımlarının karşılaştırması.
  6. Çıktı şeması standardizasyonu: JSON şeması + alan açıklamaları, 50_Operasyon altında versiyonlanmış halde.

7. İlgili Sayfalar