Output v3 — İlk Grid Search Denemesi

v3 scatter

Amaç

Önceki denemelerde (v1-v2) scoring fonksiyonu küme sayısını ödüllendirdiği için 2 dev küme + %0.1 noise gibi anlamsız sonuçlar seçiliyordu. v3'te scoring fonksiyonu yeniden tasarlandı ve sistematik grid search eklendi.

Kod Değişiklikleri

Parametreler

Parametre Değer
UMAP n_neighbors 30
UMAP min_dist (clustering) 0.0
UMAP min_dist (görselleştirme) 0.1
UMAP boyutları (grid) 10, 15, 25
HDBSCAN min_cluster_size 20, 35, 50, 80, 120
HDBSCAN min_samples 10, 15, 20, 25
HDBSCAN methods eom, leaf
Min küme kısıtı 8
Max küme kısıtı 300
Max noise oranı %50
Silhouette sample 8000

Sonuçlar

Seçilen en iyi kombinasyon: dim=15, mcs=80, ms=25 (EOM)

Metrik Değer
Küme sayısı 57
Noise sayısı 22.771 (%45.5)
Silhouette Score 0.5087
DBCV 0.0 (cuML sorunu)
Composite Score 0.5701

Grid Search Analizi

Toplam 120 kombinasyon denendi (3 boyut × 5 mcs × 4 ms × 2 method). Sonuçların genel dağılımı:

Görsel Değerlendirme

Cluster Scatter (2D UMAP): 57 küme görsel olarak ayrışıyor ancak haritanın büyük bölümü gri (noise) noktalarla kaplı. Kümelerin çoğu scatter'ın kenarlarında yoğunlaşırken, merkezi bölge neredeyse tamamen noise. Bu, UMAP'ın 2D projeksiyonunda merkezdeki noktaların farklı yoğunluk bölgelerine ait olmadığını gösteriyor.

Cluster Sizes: Tipik power-law dağılımı — en büyük küme (cluster 15) ~3300 nokta, ikinci büyük ~2400, sonra hızlıca düşüyor. Kümelerin çoğu 100–500 arası. Noise grubu (22.771) tüm kümelerden büyük.

Grid Search Overview:

Sorunlar ve Çıkarımlar

  1. %45.5 noise çok yüksek — 50k tezin neredeyse yarısı kümelenmemiş. min_samples=25 çok katı; seyrek bölgelerdeki noktaları agresif şekilde noise'a atıyor.
  2. DBCV kullanılamadı — scoring'in %25'i boşa gitti. Sonraki versiyonda DBCV ağırlığı adaptive yapıldı.
  3. Leaf metodu bu veri için uygun değil — çok fazla noise üretiyor (%60+).
  4. Silhouette ve noise arasında güçlü trade-off — düşük noise istersen silhouette düşüyor, yüksek silhouette istersen noise artıyor. Bu, BAAI embedding'lerinin doğasından kaynaklanıyor: tezlerin önemli bir kısmı semantik olarak belirgin kümelere ait değil.
  5. Power-law küme dağılımı — birkaç büyük küme + çok sayıda küçük küme. Bu akademik tez verisi için beklenen bir durum (popüler konular vs niş alanlar).

Sonraki Adım

min_samples değerlerini düşürerek (3–10 arası) noise oranını azaltmak, DBCV scoring sorununu düzeltmek.