10 Mimari

AI ULAKBIM'in uçtan uca akışı. Bu sayfa kuş bakışı bir görüntü verir; detaylar her domain'in kendi sayfasındadır.

Sistem Akışı (Üst Seviye)

Embedding üretimi ve metadata çıkarma paralel iki koldur: ikisi de aynı temizlenmiş metinden başlar, ama farklı modellere ve çıktılara gider.

[Veri Kaynaklari (PDF: Tezler, Makaleler)]
   |
   v
[PDF -> Markdown (Marker)]   <-- 50_Operasyon/PDF-Cikarim-Araclari.md
   |
   v
[Veri Toplama / Temizleme / Formatlama]
   |   - bos kayit / dup. filtreleme
   |   - etiket normalize (duplike merge, kucuk ayristirma)
   |   - LLM egitim formati (JSONL: instruction / input / output)
   |   - embedding girdi formati (baslik + ozet birlestirme, L2 hazirlik)
   |
   +-----------------------------+-----------------------------+
   |                             |                             |
   v                             v                             v
[Embedding Uretimi]      [Metadata Cikarma]           [Etiket / Kalite
 F2LLM / bge-m3 vb.       Qwen2.5-14B fine-tune        Kontrol Akisi]
   |                       (ham markdown -> JSON)
   v                       (baslik, yazar, ozet,
[Vektor DB:                 referanslar, DOI, ORCID)
 Qdrant / Milvus]               |
   |                            v
   |                     [Yapilandirilmis Metadata]
   |                            |
   v                            v
[Domain Akislari]      [Domain Akislari (yapisal)]
 - Anlamsal Arama        - Editoryel Yardim
 - YZ Asistanlari (RAG)  - Atif Zekasi (plan)
 - Outlier Detection     - Bilgi Aglari (plan)
 - Editoryel Yardim
 - Atif Zekasi (plan)
 - Bilgi Aglari (plan)
   |                            |
   +---> [Degerlendirme + Deney Kayitlari] <---+
                  |
                  v
         [Wiki + Sunum Katmani]

Not: Bazı domainler (Editöryel Yardım, Atıf Zekası, Bilgi Ağları) hem embedding tarafından hem de metadata tarafından beslenir. Anlamsal Arama ve YZ Asistanları sadece embedding kolunu kullanır.

Ana Bileşenler

Katman Bileşen Açıklama
PDF→MD Marker (Surya OCR + Texify + LLM düzelti) Üretim varsayılanı: H100 + 8 worker; bkz. [50_Operasyon/PDF-Cikarim-Araclari.md](../50_Operasyon/PDF-Cikarim-Araclari.md)
Veri Tez özetleri, etiketler, makale markdown 50.000 tez, 198 etiket (eski) → 176 etiket (duplike merge sonrası); 96.695 makale markdown'u
Veri / Formatlama Embedding girdisi + LLM JSONL + etiket merge başlık+özet birleştirme, instruction/input/output şeması, schema validasyon, dil filtresi
Model Embedding modelleri F2LLM (2048 boyut), bge-m3 (aday), e5-large (aday)
Model LLM (metadata extraction, ham metin) Qwen2.5-14B-Instruct LoRA fine-tune; embedding'den geçmeden markdown'dan JSON; bkz. Deney 05
Depolama Vektör DB Qdrant koleksiyonu theses_F2LLM (aktif)
Analiz Domain pipeline'ları UMAP / HDBSCAN / Centroid / CleanLab / MTEB
Değerlendirme Metrik + deney kaydı nDCG, Recall, Silhouette, MUTLAKA_INCELE oranı, JSON validity, ref F1
Sunum Bu wiki Karar odaklı, modüler, genişletilebilir

Akış Detayları

0. PDF → Markdown Katmanı

1. Veri Katmanı (Toplama / Temizleme / Formatlama)

2. Embedding Katmanı (Kol A — semantik)

3. Metadata Çıkarma Katmanı (Kol B — yapısal)

4. Domain Pipeline'ları

Domain Ana Pipeline
Anlamsal Arama sorgu embed → top-K retrieval → (opsiyonel) reranker
YZ Asistanları sorgu → retrieval → bağlam birleştirme → LLM yanıt
Outlier Detection embedding → UMAP → HDBSCAN + centroid karşılaştırma
Editöryel Yardım embedding → centroid sınıflandırma + duplike eşleştirme
Atıf Zekası (plan) atıf metni → ilişki sınıflandırma + skor
Bilgi Ağları (plan) varlık çıkarma → ilişki tipleri → graph

5. Değerlendirme Katmanı

Her domain kendi metrik setini kullanır; metrik tanımları [40_Yontemler](../40_Yontemler/README.md) sayfasında toplanır. Yeni deneyler karar kartı olarak [30_Deneyler](../30_Deneyler/README.md) altında özetlenir.

Kol Tipik Metrikler
Embedding nDCG@k, Recall@k, MRR, Silhouette, MTEB ortalaması
Metadata (Qwen) JSON validity, title/abstract exact-match, reference F1 (fuzzy), DOI/ORCID recall
Etiket Kalite MUTLAKA_INCELE oranı, intra-label outlier, label distance dağılımı

6. Sunum Katmanı

Bağlı Sayfalar