Metadata Extraction (Editöryel Yardım Alt-Domaini)

Editöryel Yardım şemsiyesi altında yapılandırılmamış metinden yapılandırılmış metadata üretimi alt-domaini. Üst sayfa: ../README.md.

Akademik kayıtların yapılandırılmamış metinlerinden (PDF / markdown / özet) standart metadata alanlarının otomatik çıkarımı.

1. Amaç

Tezlerin ve TR Dizin makalelerinin metinlerinden yapılandırılmış JSON üretmek.
Editör paneline besleme verisi sağlamak.
Citation graph (Atıf Zekası) ve Bilgi Ağları için temiz girdi üretmek.

Pipeline'da upstream: PDF → Markdown adımı Marker ile yapılır; bu adımdaki kayıp / bozulma metadata extraction kalitesini doğrudan etkiler. Detay: PDF Çıkarım Araçları ve Deney 06.

2. Hedef Alanlar

2.1 Tez (Embedding tabanlı sınıflandırma akışı)

Alan	Örnek	Zorluk
Konu (subject)	"Bilgisayar Mühendisliği"	Orta — 198 etiket sözlüğü mevcut
Anahtar kelimeler	"derin öğrenme; nlp; bert"	Yüksek — açık uçlu
Yöntem	"deneysel; nicel"	Düşük — kapalı küme
Tez türü	"Yüksek Lisans / Doktora"	Düşük
Disiplinlerarası işaretleme	bool	Orta
Dil	"tr / en"	Düşük

2.2 TR Dizin Makalesi (Qwen LLM tabanlı çıkarım akışı)

Alan	Açıklama	Zorluk
`title.tr`, `title.en`	İki dilli başlık	Düşük
`abstracts[]`	Dil + metin + anahtar kelimeler	Orta
`authors[]`	Ad, ORCID, affiliation	Orta
`doi`, `language`, `publicationType`, `docType`	Standart alanlar	Orta
`journal.name`, `startPage`, `endPage`	Yayın künyesi	Düşük–Orta
`references[]`	0–200 referans, sıralı	Yüksek

3. Yaklaşım Seçenekleri

3.1 Embedding + Centroid Kıyaslaması (Sınıflandırma)

198 etiket için centroid hesaplanır; bir tezin özet embedding'i en yakın k etiketle eşlenir. Tez konu / dil / tez türü gibi sınıflandırılabilir alanlar için uygun.

Avantaj: Anlık, model eğitimi yok, açıklanabilir.
Dezavantaj: Yeni etiket gelince centroid güncellenmeli; serbest formatlı alanlar için yetmez.

3.2 LLM Tabanlı Çıkarım (Fine-Tuned Qwen2.5-14B)

TR Dizin makaleleri için PDF → Marker → Markdown → fine-tuned Qwen2.5-14B → JSON pipeline'ı kuruldu.

Avantaj: Tüm alanları tek pass'te üretir; referans listesi gibi açık uçlu alanlarda etkili (F1 0.84).
Dezavantaj: Maliyetli; çıktının JSON validity ve alan normalizasyonu için post-processing katmanı gerekiyor.

Detay: Deney Kartı 05 ve tam rapor.

3.3 Hibrit (Önerilen Üretim Akışı)

Tezler: Embedding centroid → konu / dil / yöntem.
Makaleler: Fine-tuned LLM → tüm yapısal alanlar + referanslar.
Sonrası: Çıktı, Metadata Matching ile temizlenir; Etiket Kalite Kontrol zinciriyle doğrulanır.

4. Mevcut Bulgular

4.1 Qwen2.5-14B Final Skorları (n = 2.384, test seti)

Boyut	Metrik	Değer
JSON yapı	`json_validity_rate`	0.9807
Başlık	`fuzzy_title.tr` / `.en`	1.00 / 1.00
Yazar	`author_count_match` / `author_names_avg`	0.97 / 0.91
Doc türü	`exact_docType`	0.98
Özet	`abstract_lang_match` / `abstract_count_match`	0.99 / 0.78
Referans	`ref_f1` / `ref_precision` / `ref_recall`	0.84 / 0.87 / 0.83
DOI	`exact_doi`	0.67
Dergi	`fuzzy_journal.name`	0.65
Sayfa	`exact_startPage` / `endPage`	0.64 / 0.63
ORCID	`orcid_recall`	0.61
Hız	`avg_time_per_sample_sec`	6.46

4.2 Operasyonel Çıkarımlar

Mevcut model production'a aday (yapısal alanlar + referans çıkarımı + hız).
96K markdown koleksiyonu ~7 günde uçtan uca işlenebilir.
DOI/Page/Journal alanları üretim sonrası insan QA katmanına alınmalı.
JSON sanitize ve alan normalizasyon (_normalize_doi, _normalize_page) pipeline'ın kalıcı parçası.
Veri hazırlama sanity-check'i zorunlu: İlk koşuda metadata fetcher'da yanlış alan eşlemesi yüzünden title.tr / title.en alanları null olarak hedef JSON'a yazıldı; metrik düştü, ilk teşhis "model üretmiyor" yönüne kaydı. Düzeltme sonrası başlık skorları 1.00'a çıktı. Pipeline çıkışında alan-bazlı null-rate raporu üretmek bu tip hataların tekrarını önler. Detay: Rapor v1, Bölüm 2.5.

4.3 Veri / Etiket Sözlüğü Notları (Tez tarafı)

F2LLM embedding'leri (2048 boyut) Türkçe akademik metinde konu sınıflandırması için yeterli (bkz. Etiket Kalite Kontrol).
Etiket sözlüğünde duplike ve yazım hatası kayıtları mevcut → çıkarım öncesi sözlük temizliği zorunlu (Deney 04, Metadata Matching).
198 etiketin ~15'i 10'dan az kayda sahip → "küçük etiket" centroid'i güvenilmez.

5. Kabul Kriterleri

Metrik	Hedef	Mevcut (Qwen)
`json_validity_rate`	≥ 0.995	0.9807
`ref_f1`	≥ 0.85	0.8371
Yapısal alanlar (`docType`, `authors`)	≥ %90	%91–97
`exact_doi`	≥ 0.85	0.6683
`fuzzy_journal.name`	≥ 0.85	0.6493
Top-1 konu doğruluğu (tez)	≥ %75 (insan uzlaşı verisinde)	Ölçüm bekliyor
Top-3 konu kapsayıcılığı	≥ %92	Ölçüm bekliyor

6. Sonraki Adımlar

Parse hatalarını sıfıra indir: Sanitizer'a yeni kurallar (kontrol karakterleri, bozuk unicode); hedef json_validity ≥ 0.995.
DOI/Page teşhis raporu: predicted_* alanlarını kaydet; sistematik pattern var mı?
Chunked reference extraction: 200+ refli makaleler için ayrı pass.
Hard-negative retraining: ref_count_diff > 15 veya json_valid=False örnekler ile micro-training.
Tez tarafında 200 örneklik altın etiketli set: Embedding-centroid vs LLM yaklaşımlarının karşılaştırması.
Çıktı şeması standardizasyonu: JSON şeması + alan açıklamaları, 50_Operasyon altında versiyonlanmış halde.

7. İlgili Sayfalar

../README.md — Editöryel Yardım şemsiyesi
PDF Çıkarım Araçları — pipeline'ın upstream adımı (Marker)
Deney Kartı 06 — Marker Performans
Metadata Matching — eşanlamlı / duplike temizliği
CleanLab Yaklaşımı
Etiket Kalite Kontrol — extraction sonrası kontrol katmanı
Anlamsal Arama — aynı embedding altyapısı
Atıf Zekası — referans çıkarımının doğrudan tüketicisi
Bilgi Ağları — yapılandırılmış metadata graph beslemesi
Deney Kartı 05 — Qwen karar kartı
Qwen Fine-Tuning Tam Raporu — uzun versiyon