40 Yöntemler ve Metrikler

Wiki genelinde kullanılan algoritmalar, metrikler ve değerlendirme yaklaşımları burada toplanır. Her domain bu sayfaya geri referans verir.

1. Temel Yöntemler

Yöntem	Ne İçin Kullanılır	İlgili Sayfa
Embedding (cosine / L2)	Anlamsal benzerlik	Embedding Modelleri
UMAP	Boyut indirgeme (görselleştirme + kümeleme öncesi)	Kümeleme HDBSCAN
HDBSCAN	Yoğunluk tabanlı kümeleme + noise tespiti	Kümeleme HDBSCAN
Etiket-Centroid	Multi-label uyumlu outlier sinyali	Etiket Kalite Kontrol
Z-score + Percentile	Veri-uyumlu eşik kalibrasyonu	Deney 03
CleanLab (Confident Learning)	Etiket hatası + outlier + near-duplicate	CleanLab Yaklaşımı
Levenshtein + Embedding hibrit	Duplike etiket / kayıt tespiti	Metadata Matching

2. Metrik Seti

2.1 Retrieval Metrikleri

Metrik	Anlamı	Hangi Görevde
Recall@k	İlk `k` sonuç içinde alakalı doküman var mı?	Anlamsal Arama
nDCG@k	Sıralamayı da gözeten kalite skoru	Anlamsal Arama, Reranking
MRR	İlk alakalı sonucun rank'inin tersi	Anlamsal Arama

2.2 Kümeleme Metrikleri

Metrik	Anlamı	Sınırlılık
Silhouette	Küme içi yakınlık vs küme dışı uzaklık	Yüksek boyutta zayıflar
DBCV	Yoğunluk tabanlı geçerlilik	cuML implementasyonu güvenilir değil
Noise oranı	`-1` etiketli kayıt yüzdesi	Tek başına yetersiz
Composite skor	Birden fazla metriğin birleşimi	Domain'e göre ağırlıklandırma gerek

2.3 Etiket Kalite Metrikleri

Metrik	Anlamı
Label Distance	`1 - cos(tez, etiket_centroid)`
Better Label Gap	En yakın atanmamış etiketin avantajı
Intra-label outlier flag	Etiket grubu içinde en uç %10
Combined Z-score	Üç sinyalin standartlaştırılmış birleşimi

2.4 Sınıflandırma / Eşleştirme

Metrik	Anlamı
Top-K accuracy	Doğru etiket ilk `k` öneride mi?
Precision (insan doğrulama)	İşaretlenenlerin ne kadarı gerçekten sorunlu
Recall	Gerçek sorunluların ne kadarı yakalandı

2.5 Metadata Extraction (Yapılandırılmış JSON)

Metrik	Anlamı	Hangi Görevde
JSON validity rate	Üretilen çıktının `json.loads()` başarısı	LLM tabanlı extraction
*`fuzzy_`** (title, journal)	Alan-bazlı string benzerliği (RapidFuzz)	Yumuşak eşleşme alanları
*`exact_`** (DOI, page, language)	Normalize edilmiş birebir eşleşme	Sert alanlar
`ref_f1` / `ref_precision` / `ref_recall`	Referans liste bazlı küme metrikleri	Atıf çıkarımı
`ref_count_tol2`	Referans sayısı ±2 toleransı	Sayısal yumuşatma
`overall_score`	Tüm boyutların ağırlıklı toplamı	Tek bakış

Detay: Deney 05 — Qwen Metadata Extraction.

2.6 Pipeline / Operasyon Metrikleri

Metrik	Anlamı	Hangi Görevde
Süre / örnek (`avg_time_per_sample_sec`)	Kapasite planlaması için doğrudan girdi	Inference + PDF→MD
Başarı oranı (PDF işlenebildi / toplam)	OOM ve crash dayanıklılığı	PDF→MD pipeline
GPU %	Doygunluk göstergesi	PDF→MD, inference
VRAM (ortalama / tepe)	Worker ölçeklendirme limiti	PDF→MD, inference

Detay: Deney 06 — Marker Performans, PDF Çıkarım Araçları.

3. Değerlendirme Yaklaşımları

MTEB tabanlı model seçimi: bkz. MTEB Değerlendirme. MTEB sıralaması yön gösterir, mutlak gerçek değildir.
Domain-özel altın set: 200 örneklik insan-onaylı küçük benchmark her büyük domain için zorunlu.
Niteliksel doğrulama: rastgele 5–10 örneğin uzman tarafından "evet/hayır/tartışmalı" olarak etiketlenmesi.
A/B kıyaslama: yeni model/parametre eskinin yerine konulmadan önce aynı metrik setiyle ölçülmeli.

4. Karar Kuralları

Bir tek metriği "kazanan" olarak öne çıkarma; birleşik skora ve niteliksel doğrulamaya birlikte bak.
Görev türü bazlı kırılım yoksa MTEB sıralamasına güvenme.
Eşikler veri dağılımından öğrenilmeli (sabit eşik tuzağı için bkz. Deney 02).

5. Detay Kaynaklar

Embedding temel kavramlar — uzun anlatım
Görev türleri (özet)
Görev türleri (detaylı)
MTEB rehberi
SciRepEval özeti — bilimsel doküman embedding benchmark’ı (EMNLP 2023)
HDBSCAN terim sözlüğü

İlgili Sayfalar

30_Deneyler/ — metriklerin uygulandığı bağlamlar
99_Terimler/ — sözlük