AI ULAKBIM'in uçtan uca akışı. Bu sayfa kuş bakışı bir görüntü verir; detaylar her domain'in kendi sayfasındadır.
Embedding üretimi ve metadata çıkarma paralel iki koldur: ikisi de aynı temizlenmiş metinden başlar, ama farklı modellere ve çıktılara gider.
[Veri Kaynaklari (PDF: Tezler, Makaleler)]
|
v
[PDF -> Markdown (Marker)] <-- 50_Operasyon/PDF-Cikarim-Araclari.md
|
v
[Veri Toplama / Temizleme / Formatlama]
| - bos kayit / dup. filtreleme
| - etiket normalize (duplike merge, kucuk ayristirma)
| - LLM egitim formati (JSONL: instruction / input / output)
| - embedding girdi formati (baslik + ozet birlestirme, L2 hazirlik)
|
+-----------------------------+-----------------------------+
| | |
v v v
[Embedding Uretimi] [Metadata Cikarma] [Etiket / Kalite
F2LLM / bge-m3 vb. Qwen2.5-14B fine-tune Kontrol Akisi]
| (ham markdown -> JSON)
v (baslik, yazar, ozet,
[Vektor DB: referanslar, DOI, ORCID)
Qdrant / Milvus] |
| v
| [Yapilandirilmis Metadata]
| |
v v
[Domain Akislari] [Domain Akislari (yapisal)]
- Anlamsal Arama - Editoryel Yardim
- YZ Asistanlari (RAG) - Atif Zekasi (plan)
- Outlier Detection - Bilgi Aglari (plan)
- Editoryel Yardim
- Atif Zekasi (plan)
- Bilgi Aglari (plan)
| |
+---> [Degerlendirme + Deney Kayitlari] <---+
|
v
[Wiki + Sunum Katmani]
Not: Bazı domainler (Editöryel Yardım, Atıf Zekası, Bilgi Ağları) hem embedding tarafından hem de metadata tarafından beslenir. Anlamsal Arama ve YZ Asistanları sadece embedding kolunu kullanır.
| Katman | Bileşen | Açıklama |
|---|---|---|
| PDF→MD | Marker (Surya OCR + Texify + LLM düzelti) | Üretim varsayılanı: H100 + 8 worker; bkz. [50_Operasyon/PDF-Cikarim-Araclari.md](../50_Operasyon/PDF-Cikarim-Araclari.md) |
| Veri | Tez özetleri, etiketler, makale markdown | 50.000 tez, 198 etiket (eski) → 176 etiket (duplike merge sonrası); 96.695 makale markdown'u |
| Veri / Formatlama | Embedding girdisi + LLM JSONL + etiket merge | başlık+özet birleştirme, instruction/input/output şeması, schema validasyon, dil filtresi |
| Model | Embedding modelleri | F2LLM (2048 boyut), bge-m3 (aday), e5-large (aday) |
| Model | LLM (metadata extraction, ham metin) | Qwen2.5-14B-Instruct LoRA fine-tune; embedding'den geçmeden markdown'dan JSON; bkz. Deney 05 |
| Depolama | Vektör DB | Qdrant koleksiyonu theses_F2LLM (aktif) |
| Analiz | Domain pipeline'ları | UMAP / HDBSCAN / Centroid / CleanLab / MTEB |
| Değerlendirme | Metrik + deney kaydı | nDCG, Recall, Silhouette, MUTLAKA_INCELE oranı, JSON validity, ref F1 |
| Sunum | Bu wiki | Karar odaklı, modüler, genişletilebilir |
workers=8, OCR_ENGINE=None, --disable_image_extraction.journal/pages hataları; OCR karakter ayrışması → embedding kalitesi.başlık + özet birleştirme, whitespace normalizasyonu, dil filtresi.instruction / input / output JSONL şemasına dönüştürme, ground truth metadata'nın schema validasyonu..md → documents.jsonl + chunks.jsonl → ~1.0–1.3M pozitif çift + Türkçe akademik altın benchmark. Detay: Embedding Veri Kümesi Tasarımı, kart: 90_Roadmap/Embedding-Veri-Kumesi-MVP.md.title, authors, abstract, references[], doi, orcid, pages).| Domain | Ana Pipeline |
|---|---|
| Anlamsal Arama | sorgu embed → top-K retrieval → (opsiyonel) reranker |
| YZ Asistanları | sorgu → retrieval → bağlam birleştirme → LLM yanıt |
| Outlier Detection | embedding → UMAP → HDBSCAN + centroid karşılaştırma |
| Editöryel Yardım | embedding → centroid sınıflandırma + duplike eşleştirme |
| Atıf Zekası (plan) | atıf metni → ilişki sınıflandırma + skor |
| Bilgi Ağları (plan) | varlık çıkarma → ilişki tipleri → graph |
Her domain kendi metrik setini kullanır; metrik tanımları [40_Yontemler](../40_Yontemler/README.md) sayfasında toplanır. Yeni deneyler karar kartı olarak [30_Deneyler](../30_Deneyler/README.md) altında özetlenir.
| Kol | Tipik Metrikler |
|---|---|
| Embedding | nDCG@k, Recall@k, MRR, Silhouette, MTEB ortalaması |
| Metadata (Qwen) | JSON validity, title/abstract exact-match, reference F1 (fuzzy), DOI/ORCID recall |
| Etiket Kalite | MUTLAKA_INCELE oranı, intra-label outlier, label distance dağılımı |