Output v3 — İlk Grid Search Denemesi

v3 scatter

Amaç

Önceki denemelerde (v1-v2) scoring fonksiyonu küme sayısını ödüllendirdiği için 2 dev küme + %0.1 noise gibi anlamsız sonuçlar seçiliyordu. v3'te scoring fonksiyonu yeniden tasarlandı ve sistematik grid search eklendi.

Kod Değişiklikleri

Silhouette Score eklendi (sampling ile, 8000 nokta): kümelerin birbirinden ne kadar iyi ayrıldığını ölçer.
DBCV (Density-Based Cluster Validation) eklendi — ancak cuML GPU backend'de relative_validity_ hesaplanmadığı için hep 0 döndü.
Hard constraint eklendi: küme sayısı 8–300 aralığı dışındaki ve noise oranı %50'yi aşan sonuçlar diskalifiye edildi.
cluster_selection_method="leaf" EOM'a ek olarak denendi.
Grid search: UMAP boyutu × min_cluster_size × min_samples × method kombinasyonları tarandı.
Scoring ağırlıkları: Silhouette %30, DBCV %25 (kullanılamadı), noise %20, membership probability %15, küme aralığı bonusu %10.

Parametreler

Parametre	Değer
UMAP n_neighbors	30
UMAP min_dist (clustering)	0.0
UMAP min_dist (görselleştirme)	0.1
UMAP boyutları (grid)	10, 15, 25
HDBSCAN min_cluster_size	20, 35, 50, 80, 120
HDBSCAN min_samples	10, 15, 20, 25
HDBSCAN methods	eom, leaf
Min küme kısıtı	8
Max küme kısıtı	300
Max noise oranı	%50
Silhouette sample	8000

Sonuçlar

Seçilen en iyi kombinasyon: dim=15, mcs=80, ms=25 (EOM)

Metrik	Değer
Küme sayısı	57
Noise sayısı	22.771 (%45.5)
Silhouette Score	0.5087
DBCV	0.0 (cuML sorunu)
Composite Score	0.5701

Grid Search Analizi

Toplam 120 kombinasyon denendi (3 boyut × 5 mcs × 4 ms × 2 method). Sonuçların genel dağılımı:

EOM metodu: 43–49% noise aralığında, 37–190 küme. Silhouette 0.25–0.52.
Leaf metodu: 59–67% noise — çok yüksek, tümü diskalifiye edildi veya sınırda kaldı. Ancak silhouette değerleri daha yüksek (0.51–0.62) çünkü sadece en yoğun çekirdekleri küme olarak alıyor, geri kalanı noise'a atıyor.
En iyi silhouette (0.6241): leaf, dim=25, mcs=35, ms=25 — ama %66.4 noise ile kullanışsız.
En düşük noise (EOM içinde): dim=15, mcs=120, ms=20 ile %41.7 — ama silhouette sadece 0.30.
2-3 kümelik sonuçlar: dim=25, mcs=120, ms=20 ve dim=10, mcs=120, ms=15 HDBSCAN'ın tüm veriyi 2-3 dev kümeye atadığı dejenere durumlar. Negatif silhouette (-0.23) ile doğru şekilde diskalifiye edildiler.

Görsel Değerlendirme

Cluster Scatter (2D UMAP): 57 küme görsel olarak ayrışıyor ancak haritanın büyük bölümü gri (noise) noktalarla kaplı. Kümelerin çoğu scatter'ın kenarlarında yoğunlaşırken, merkezi bölge neredeyse tamamen noise. Bu, UMAP'ın 2D projeksiyonunda merkezdeki noktaların farklı yoğunluk bölgelerine ait olmadığını gösteriyor.

Cluster Sizes: Tipik power-law dağılımı — en büyük küme (cluster 15) ~3300 nokta, ikinci büyük ~2400, sonra hızlıca düşüyor. Kümelerin çoğu 100–500 arası. Noise grubu (22.771) tüm kümelerden büyük.

Grid Search Overview:

Clusters vs Silhouette grafiği: 40–80 küme aralığında silhouette 0.45–0.52 ile en iyi trade-off.
Noise vs Silhouette: %60+ noise bölgesinde yüksek silhouette (leaf metodu), %43–50 noise bölgesinde orta silhouette (EOM). Bu ikisi arasında net bir trade-off var.
DBCV grafiği: tüm noktalar 0'da — cuML GPU backend sorunu, bilgi vermiyor.

Sorunlar ve Çıkarımlar

%45.5 noise çok yüksek — 50k tezin neredeyse yarısı kümelenmemiş. min_samples=25 çok katı; seyrek bölgelerdeki noktaları agresif şekilde noise'a atıyor.
DBCV kullanılamadı — scoring'in %25'i boşa gitti. Sonraki versiyonda DBCV ağırlığı adaptive yapıldı.
Leaf metodu bu veri için uygun değil — çok fazla noise üretiyor (%60+).
Silhouette ve noise arasında güçlü trade-off — düşük noise istersen silhouette düşüyor, yüksek silhouette istersen noise artıyor. Bu, BAAI embedding'lerinin doğasından kaynaklanıyor: tezlerin önemli bir kısmı semantik olarak belirgin kümelere ait değil.
Power-law küme dağılımı — birkaç büyük küme + çok sayıda küçük küme. Bu akademik tez verisi için beklenen bir durum (popüler konular vs niş alanlar).

Sonraki Adım

min_samples değerlerini düşürerek (3–10 arası) noise oranını azaltmak, DBCV scoring sorununu düzeltmek.