Editöryel Yardım şemsiyesi altında yapılandırılmamış metinden yapılandırılmış metadata üretimi alt-domaini. Üst sayfa:
../README.md.
Akademik kayıtların yapılandırılmamış metinlerinden (PDF / markdown / özet) standart metadata alanlarının otomatik çıkarımı.
Pipeline'da upstream: PDF → Markdown adımı Marker ile yapılır; bu adımdaki kayıp / bozulma metadata extraction kalitesini doğrudan etkiler. Detay: PDF Çıkarım Araçları ve Deney 06.
| Alan | Örnek | Zorluk |
|---|---|---|
| Konu (subject) | "Bilgisayar Mühendisliği" | Orta — 198 etiket sözlüğü mevcut |
| Anahtar kelimeler | "derin öğrenme; nlp; bert" | Yüksek — açık uçlu |
| Yöntem | "deneysel; nicel" | Düşük — kapalı küme |
| Tez türü | "Yüksek Lisans / Doktora" | Düşük |
| Disiplinlerarası işaretleme | bool | Orta |
| Dil | "tr / en" | Düşük |
| Alan | Açıklama | Zorluk |
|---|---|---|
title.tr, title.en |
İki dilli başlık | Düşük |
abstracts[] |
Dil + metin + anahtar kelimeler | Orta |
authors[] |
Ad, ORCID, affiliation | Orta |
doi, language, publicationType, docType |
Standart alanlar | Orta |
journal.name, startPage, endPage |
Yayın künyesi | Düşük–Orta |
references[] |
0–200 referans, sıralı | Yüksek |
198 etiket için centroid hesaplanır; bir tezin özet embedding'i en yakın k etiketle eşlenir. Tez konu / dil / tez türü gibi sınıflandırılabilir alanlar için uygun.
TR Dizin makaleleri için PDF → Marker → Markdown → fine-tuned Qwen2.5-14B → JSON pipeline'ı kuruldu.
Detay: Deney Kartı 05 ve tam rapor.
| Boyut | Metrik | Değer |
|---|---|---|
| JSON yapı | json_validity_rate |
0.9807 |
| Başlık | fuzzy_title.tr / .en |
1.00 / 1.00 |
| Yazar | author_count_match / author_names_avg |
0.97 / 0.91 |
| Doc türü | exact_docType |
0.98 |
| Özet | abstract_lang_match / abstract_count_match |
0.99 / 0.78 |
| Referans | ref_f1 / ref_precision / ref_recall |
0.84 / 0.87 / 0.83 |
| DOI | exact_doi |
0.67 |
| Dergi | fuzzy_journal.name |
0.65 |
| Sayfa | exact_startPage / endPage |
0.64 / 0.63 |
| ORCID | orcid_recall |
0.61 |
| Hız | avg_time_per_sample_sec |
6.46 |
_normalize_doi, _normalize_page) pipeline'ın kalıcı parçası.title.tr / title.en alanları null olarak hedef JSON'a yazıldı; metrik düştü, ilk teşhis "model üretmiyor" yönüne kaydı. Düzeltme sonrası başlık skorları 1.00'a çıktı. Pipeline çıkışında alan-bazlı null-rate raporu üretmek bu tip hataların tekrarını önler. Detay: Rapor v1, Bölüm 2.5.| Metrik | Hedef | Mevcut (Qwen) |
|---|---|---|
json_validity_rate |
≥ 0.995 | 0.9807 |
ref_f1 |
≥ 0.85 | 0.8371 |
Yapısal alanlar (docType, authors) |
≥ %90 | %91–97 |
exact_doi |
≥ 0.85 | 0.6683 |
fuzzy_journal.name |
≥ 0.85 | 0.6493 |
| Top-1 konu doğruluğu (tez) | ≥ %75 (insan uzlaşı verisinde) | Ölçüm bekliyor |
| Top-3 konu kapsayıcılığı | ≥ %92 | Ölçüm bekliyor |
json_validity ≥ 0.995.predicted_* alanlarını kaydet; sistematik pattern var mı?ref_count_diff > 15 veya json_valid=False örnekler ile micro-training.50_Operasyon altında versiyonlanmış halde.../README.md — Editöryel Yardım şemsiyesi