HDBSCAN deneylerinde kullanılan tüm temel kavramlar.
Embedding ve Vektör Kavramları
Embedding: Bir metnin (bu projede tez başlığı/özeti) sayısal vektör olarak temsil edilmesi. BAAI modeli her tezi 1024 boyutlu bir vektöre dönüştürür. Anlamca benzer tezler, vektör uzayında birbirine yakın konumlanır.
BAAI (Beijing Academy of Artificial Intelligence): Bu projede kullanılan embedding modelinin üreticisi. BAAI/bge serisi genel amaçlı çok dilli embedding modelleridir. Türkçe için özel eğitilmemiştir ancak çok dilli desteği sayesinde Türkçe metinleri de vektöre çevirebilir.
Milvus: Büyük ölçekli vektör veritabanı. 50.000 tezin embedding'lerini depolamak ve sorgulamak için kullanıldı. Vektörler Milvus'tan çekilip NumPy dizilerine aktarıldı.
Cosine Similarity (Kosinüs Benzerliği): İki vektör arasındaki açıya dayalı benzerlik ölçüsü. 1.0 = tamamen aynı yönde (çok benzer), 0.0 = dik (ilişkisiz), -1.0 = ters yönde.
L2 Normalizasyon: Vektörlerin birim uzunluğa ölçeklenmesi. Her vektörün normu 1.0 yapılır. Normalize vektörlerde Euclidean uzaklık ile cosine uzaklık daha tutarlı hale gelir.
Curse of Dimensionality (Boyutluluk Laneti): Yüksek boyutlu uzaylarda (örn. 1024 boyut) noktalar arası mesafelerin birbirine yakınlaşması ve anlamlı küme yapısının zayıflaması. Bu nedenle doğrudan 1024 boyutta kümeleme yerine önce boyut indirgeme yapılır.
Boyut İndirgeme
UMAP (Uniform Manifold Approximation and Projection): Yüksek boyutlu veriyi düşük boyutlu uzaya indirgeyen algoritma. 1024 boyutu 2D (görselleştirme), 3D veya 5–50D (kümeleme) uzayına projekte eder.
n_neighbors: UMAP'in temel parametresi. Her noktanın kaç komşusunu dikkate alacağını belirler. Düşük değer yerel yapıyı, yüksek değer daha global yapıyı korur.
min_dist: UMAP'ta indirgenmiş uzayda noktaların minimum yakınlığını belirler. 0.0 = daha sıkı paketlenme, 0.1 = daha ayrık ve okunabilir dağılım.
n_components (dim): UMAP'in çıktı boyut sayısı. dim=2 görselleştirme, dim=3 interaktif görsel, dim=5–50 kümeleme için kullanılır.
Kümeleme
HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise): Yoğunluk tabanlı kümeleme algoritması. Yoğun bölgeleri küme, seyrek bölgeleri noise olarak işaretler. Küme sayısını otomatik belirler.
min_cluster_size (mcs): Bir grubun küme sayılması için gereken minimum nokta sayısı. Düşük mcs daha fazla küçük küme, yüksek mcs daha az ama büyük küme üretir.
min_samples (ms): Bir noktanın yoğun bölgede sayılması için gereken minimum komşu sayısı. ms düşükse noise azalır, ms yüksekse noise artar.
Noise (cluster_id=-1): HDBSCAN'in hiçbir kümeye atamadığı noktalar. Yüksek noise, ya verinin kümelenmeye direncini ya da parametrelerin katılığını gösterir.
cluster_selection_method: HDBSCAN'in hiyerarşiden nihai kümeleri seçme yöntemi. eom daha stabil ve büyük kümeler, leaf daha küçük ve fazla sayıda küme üretir.
Noise Reassignment: Noise noktalarını, embedding uzayında en yakın küme centroid'ine cosine similarity ile atama işlemi.
Hiyerarşik Parçalama: Büyük kümeleri alt kümelere ayırmak için aynı kümeleme adımlarını tekrar uygulama stratejisi.
Değerlendirme Metrikleri
Silhouette Score: Noktaların kendi kümesine yakınlığı ve diğer kümelerden ayrılığı. -1 ile 1 arasındadır. Yüksek değer daha iyi ayrımı gösterir.
DBCV (Density-Based Cluster Validation): Yoğunluk tabanlı kümeleme kalitesi metriği. Bu projede cuML GPU backend'de geçersiz kaldığı için -1.0 olarak raporlandı.
Composite Score: Birden fazla metriği ağırlıklı birleştiren skor. Bu projede silhouette, noise, membership probability ve küme aralığı bonusu birlikte değerlendirilir.
Membership Probability: HDBSCAN'in noktalara atadığı kümeye ait olma olasılığı (0–1). Ortalaması yüksekse küme güveni daha yüksektir.
Görselleştirme Terimleri
Scatter Plot (Saçılım Grafiği): Noktaların 2D UMAP koordinatlarında gösterimi. Renkler kümeleri, gri noktalar noise'u temsil eder.
Heatmap (Isı Haritası): Küme centroid'leri arasındaki cosine similarity matrisinin renkli gösterimi. Yakın kümeleri ve birleştirme adaylarını görmeyi kolaylaştırır.
Power-Law Dağılımı: Birkaç büyük küme ve çok sayıda küçük küme yapısı.
Dejenere Sonuç: HDBSCAN'in tüm veriyi 2-3 dev kümeye atadığı, genelde düşük/negatif silhouette ile gelen durum.
Altyapı Terimleri
TRUBA HPC: TÜBİTAK ULAKBİM'in yüksek başarımlı hesaplama altyapısı.