| Embedding |
Metnin sayısal vektör temsili. Anlamsal yakınlık vektör yakınlığına dönüşür. |
| L2 Normalize |
Vektörü birim uzunluğa indirme. Cosine = dot product yapar. |
| Cosine Similarity |
İki vektör arasındaki açının kosinüsü. Yön benzerliği. |
| UMAP |
Yüksek boyutlu vektörü 2D/3D'ye indirgeyen boyut indirgeme algoritması. |
| HDBSCAN |
Yoğunluk tabanlı kümeleme; noise tespiti dahili. |
| Noise |
HDBSCAN'de kümeye atanamayan kayıt (cluster_id = -1). |
| Silhouette |
Küme içi yakınlık vs küme dışı uzaklık skoru. |
| DBCV |
Yoğunluk tabanlı küme geçerlilik metriği. |
| Centroid |
Bir grubun (etiket / küme) ortalama vektörü. |
| Multi-label |
Bir kayıt birden fazla etikete sahip olabilir. |
| MTEB |
Massive Text Embedding Benchmark — model değerlendirme lider tablosu. |
| STS |
Semantic Textual Similarity — anlam benzerliği görevi. |
| Retrieval |
Sorguya en alakalı dokümanı getirme görevi. |
| Reranking |
İlk getirilen sonuçların yeniden sıralanması. |
| RAG |
Retrieval-Augmented Generation — retrieval ile beslenen LLM yanıtı. |
| MRL |
Matryoshka Representation Learning — aynı vektörden farklı boyutlar üretme. |
| Quantization |
Float32 → int8 / binary; yer ve hız kazancı. |
| Confident Learning |
CleanLab'ın etiket hatası tespit yaklaşımı; pred_probs gerektirir. |
| Pred_probs |
Bir sınıflandırıcının her sınıf için tahmin olasılığı. |
| Z-Score |
(x - μ) / σ — bir değerin ortalamadan kaç standart sapma uzakta olduğu. |
| Percentile |
Bir değerin dağılımdaki yüzdelik konumu. |
| Outlier |
İstatistiksel olarak grubun dışında kalan kayıt. |
| Near-duplicate |
Birbirine çok yakın ama tam aynı olmayan kayıtlar. |
| MUTLAKA_INCELE |
Etiket kalite akışında en yüksek şüphe aksiyonu. |
| GOZDEN_GECIR |
Orta şüphe aksiyonu. |
| SORUN_YOK |
Şüphe sinyali zayıf, işlem gerekmez. |
| Drift |
Üretimdeki embedding dağılımının zamanla değişmesi. |