40 Yöntemler ve Metrikler

Wiki genelinde kullanılan algoritmalar, metrikler ve değerlendirme yaklaşımları burada toplanır. Her domain bu sayfaya geri referans verir.

1. Temel Yöntemler

Yöntem Ne İçin Kullanılır İlgili Sayfa
Embedding (cosine / L2) Anlamsal benzerlik Embedding Modelleri
UMAP Boyut indirgeme (görselleştirme + kümeleme öncesi) Kümeleme HDBSCAN
HDBSCAN Yoğunluk tabanlı kümeleme + noise tespiti Kümeleme HDBSCAN
Etiket-Centroid Multi-label uyumlu outlier sinyali Etiket Kalite Kontrol
Z-score + Percentile Veri-uyumlu eşik kalibrasyonu Deney 03
CleanLab (Confident Learning) Etiket hatası + outlier + near-duplicate CleanLab Yaklaşımı
Levenshtein + Embedding hibrit Duplike etiket / kayıt tespiti Metadata Matching

2. Metrik Seti

2.1 Retrieval Metrikleri

Metrik Anlamı Hangi Görevde
Recall@k İlk k sonuç içinde alakalı doküman var mı? Anlamsal Arama
nDCG@k Sıralamayı da gözeten kalite skoru Anlamsal Arama, Reranking
MRR İlk alakalı sonucun rank'inin tersi Anlamsal Arama

2.2 Kümeleme Metrikleri

Metrik Anlamı Sınırlılık
Silhouette Küme içi yakınlık vs küme dışı uzaklık Yüksek boyutta zayıflar
DBCV Yoğunluk tabanlı geçerlilik cuML implementasyonu güvenilir değil
Noise oranı -1 etiketli kayıt yüzdesi Tek başına yetersiz
Composite skor Birden fazla metriğin birleşimi Domain'e göre ağırlıklandırma gerek

2.3 Etiket Kalite Metrikleri

Metrik Anlamı
Label Distance 1 - cos(tez, etiket_centroid)
Better Label Gap En yakın atanmamış etiketin avantajı
Intra-label outlier flag Etiket grubu içinde en uç %10
Combined Z-score Üç sinyalin standartlaştırılmış birleşimi

2.4 Sınıflandırma / Eşleştirme

Metrik Anlamı
Top-K accuracy Doğru etiket ilk k öneride mi?
Precision (insan doğrulama) İşaretlenenlerin ne kadarı gerçekten sorunlu
Recall Gerçek sorunluların ne kadarı yakalandı

2.5 Metadata Extraction (Yapılandırılmış JSON)

Metrik Anlamı Hangi Görevde
JSON validity rate Üretilen çıktının json.loads() başarısı LLM tabanlı extraction
fuzzy_* (title, journal) Alan-bazlı string benzerliği (RapidFuzz) Yumuşak eşleşme alanları
exact_* (DOI, page, language) Normalize edilmiş birebir eşleşme Sert alanlar
ref_f1 / ref_precision / ref_recall Referans liste bazlı küme metrikleri Atıf çıkarımı
ref_count_tol2 Referans sayısı ±2 toleransı Sayısal yumuşatma
overall_score Tüm boyutların ağırlıklı toplamı Tek bakış

Detay: Deney 05 — Qwen Metadata Extraction.

2.6 Pipeline / Operasyon Metrikleri

Metrik Anlamı Hangi Görevde
Süre / örnek (avg_time_per_sample_sec) Kapasite planlaması için doğrudan girdi Inference + PDF→MD
Başarı oranı (PDF işlenebildi / toplam) OOM ve crash dayanıklılığı PDF→MD pipeline
GPU % Doygunluk göstergesi PDF→MD, inference
VRAM (ortalama / tepe) Worker ölçeklendirme limiti PDF→MD, inference

Detay: Deney 06 — Marker Performans, PDF Çıkarım Araçları.

3. Değerlendirme Yaklaşımları

4. Karar Kuralları

5. Detay Kaynaklar

İlgili Sayfalar