99 Terimler Sözlüğü

Wiki genelinde kullanılan terimler ve kısa açıklamaları.

Standart Dil Kuralı

Teknik terim ilk geçtiği yerde Türkçe + İngilizce karşılığıyla yazılır: "Anlamsal Arama / Semantic Search".
Kısaltma ilk geçtiğinde açılır: "MTEB (Massive Text Embedding Benchmark)".
Terim aynı anlam için tek karşılıkla kullanılır (örnek: "kümeleme" — "öbekleme" tercih edilmez).

Hızlı Sözlük

Terim	Kısa Açıklama
Embedding	Metnin sayısal vektör temsili. Anlamsal yakınlık vektör yakınlığına dönüşür.
L2 Normalize	Vektörü birim uzunluğa indirme. Cosine = dot product yapar.
Cosine Similarity	İki vektör arasındaki açının kosinüsü. Yön benzerliği.
UMAP	Yüksek boyutlu vektörü 2D/3D'ye indirgeyen boyut indirgeme algoritması.
HDBSCAN	Yoğunluk tabanlı kümeleme; noise tespiti dahili.
Noise	HDBSCAN'de kümeye atanamayan kayıt (`cluster_id = -1`).
Silhouette	Küme içi yakınlık vs küme dışı uzaklık skoru.
DBCV	Yoğunluk tabanlı küme geçerlilik metriği.
Centroid	Bir grubun (etiket / küme) ortalama vektörü.
Multi-label	Bir kayıt birden fazla etikete sahip olabilir.
MTEB	Massive Text Embedding Benchmark — model değerlendirme lider tablosu.
STS	Semantic Textual Similarity — anlam benzerliği görevi.
Retrieval	Sorguya en alakalı dokümanı getirme görevi.
Reranking	İlk getirilen sonuçların yeniden sıralanması.
RAG	Retrieval-Augmented Generation — retrieval ile beslenen LLM yanıtı.
MRL	Matryoshka Representation Learning — aynı vektörden farklı boyutlar üretme.
Quantization	Float32 → int8 / binary; yer ve hız kazancı.
Confident Learning	CleanLab'ın etiket hatası tespit yaklaşımı; `pred_probs` gerektirir.
Pred_probs	Bir sınıflandırıcının her sınıf için tahmin olasılığı.
Z-Score	`(x - μ) / σ` — bir değerin ortalamadan kaç standart sapma uzakta olduğu.
Percentile	Bir değerin dağılımdaki yüzdelik konumu.
Outlier	İstatistiksel olarak grubun dışında kalan kayıt.
Near-duplicate	Birbirine çok yakın ama tam aynı olmayan kayıtlar.
MUTLAKA_INCELE	Etiket kalite akışında en yüksek şüphe aksiyonu.
GOZDEN_GECIR	Orta şüphe aksiyonu.
SORUN_YOK	Şüphe sinyali zayıf, işlem gerekmez.
Drift	Üretimdeki embedding dağılımının zamanla değişmesi.

Domain Adları (TR ↔ EN)

Türkçe	İngilizce	Tip
Anlamsal Arama	Semantic Search	Üst-domain
YZ Asistanları	AI Assistants	Üst-domain
Editöryel Yardım	Editorial Assistance	Şemsiye üst-domain
Metadata Extraction	Metadata Extraction	Alt-domain (Editöryel Yardım)
Outlier Detection	Anomaly / Outlier Detection	Alt-domain (Editöryel Yardım)
Duplike Eşleşme	Duplicate Matching / Linking	Alt-domain (Editöryel Yardım)
Atıf Zekası	Citation Intelligence	Üst-domain
Bilgi Ağları	Knowledge Graphs	Üst-domain

Detay Sözlükler

HDBSCAN Terim Sözlüğü
Embedding Temel Kavramlar — kavram odaklı uzun anlatım
Görev Türleri (MTEB)

Yeni Terim Ekleme

Sözlük bu sayfada tutulur.
Domain'e özel terim çoksa kendi Terimler.md dosyası açılabilir; özet bu sayfada da yer alsın.
Aynı kavramın iki farklı isimle anılmasını engellemek için her PR'de bu sayfa kontrol edilmeli.