Output v7 — n_neighbors=75 ile Geniş Komşuluk + Dev Küme Sorunu

v7 scatter

Amaç

v6'daki iki sorunu çözmek: (1) 270 küme çok fazla (mikro fragmentasyon), (2) silhouette çok düşük (0.20). Daha yüksek n_neighbors=75 ile UMAP'ın daha geniş komşuluk görmesi ve daha smooth bir manifold üretmesi, mcs=30-100 ile mikro kümelerin engellenmesi hedeflendi.

Kod Değişiklikleri

Yok — v5 ile aynı kod, sadece çalıştırma parametreleri değişti.

Parametreler

Parametre Değer
UMAP n_neighbors 75
UMAP min_dist (clustering) 0.0
UMAP min_dist (görselleştirme) 0.1
UMAP boyutları (grid) 3, 5, 8
HDBSCAN min_cluster_size 30, 50, 75, 100
HDBSCAN min_samples 1, 2
HDBSCAN methods eom
Min küme kısıtı 20
Max küme kısıtı 400
Max noise oranı %25
Silhouette sample 8000

Sonuçlar

Seçilen en iyi kombinasyon (kısıtları sağlayan): dim=3, mcs=100, ms=2 (EOM)

Metrik Değer
Küme sayısı 62
Noise sayısı 13.894 (%27.8)
Silhouette Score 0.371
DBCV -1.0 (geçersiz)
Composite Score 0.79

Not: %25 kısıtını sağlayan 2 sonuç da vardı: dim=3, mcs=75, ms=1 (55 küme, %19.2 noise) ve dim=8, mcs=75, ms=1 (55 küme, %26.6 noise, sınırda). Ancak dim=3, mcs=75, ms=1 çok düşük silhouette (0.0117) nedeniyle scoring'de geride kaldı — bu, dev bir kümenin oluştuğunun işareti.

Grid Search Analizi

Toplam 24 kombinasyon denendi (3 boyut × 4 mcs × 2 ms). Kompakt ama etkili bir grid.

dim=3 sonuçları (ilk kez):

Dev küme sorunu: Cluster sizes grafiği bunu net gösteriyor — en büyük küme (cluster 4) ~18.500 nokta, yani tüm verinin %37'si tek kümede. Bu, ms=1 ile HDBSCAN'ın geniş bir yoğunluk bölgesini tek küme olarak algılaması. İkinci büyük küme sadece ~2300 (cluster 13). Aradaki 8x fark çok büyük.

n_neighbors=75 etkisi: v6'daki n_neighbors=50'ye göre noise belirgin düştü. Aynı dim=5, mcs=100, ms=1 karşılaştırması: v6'da ~%33 noise → v7'de ~%33 (benzer). Ancak dim=3'ün eklenmesi asıl farkı yarattı.

Dejenere durumlar: dim=8, mcs=50, ms=1 (2 küme, %0) ve dim=8, mcs=30, ms=1 (3 küme, %0) — yine tanıdık pattern: belirli parametre kombinasyonlarında tüm veri 2-3 dev kümeye atanıyor.

Görsel Değerlendirme

Cluster Scatter (55 küme, 9.583 noise): Görseldeki sonuç aslında dim=3, mcs=75, ms=1 (55 küme, %19.2 noise) — scoring'de 2. sırada ama scatter bu parametreyle çizilmiş. Sol üst köşedeki devasa koyu mavi alan tek bir küme (cluster 4, ~18.500 nokta). Bu alan haritanın yaklaşık %35-40'ını kaplıyor. Geri kalan kümeler haritanın kenarlarında ve alt kısmında iyi ayrışmış durumda — özellikle sağ taraftaki mor-turuncu-sarı kümeler (45, 48, 11, 13), sol alttaki sarı-turuncu kümeler (31, 37, 36, 24) ve alt ortadaki yeşil-turkuaz kümeler (7, 15, 26). Gri noise noktalar az (%19.2) ama dev küme tüm sonucu domine ediyor.

Cluster Sizes: En çarpıcı grafik. Cluster 4 ~18.500 noktayla diğer tüm kümelerden 8x büyük. İkinci küme (cluster 13) ~2300, üçüncü (cluster 37) ~2000. 10. kümeden sonra hepsi 1000 altında, 20+ sıradaki kümeler birkaç yüz. Power-law'dan ziyade "bir dev + normal dağılım" yapısı. Pie chart: %80.8 kümelenmiş, %19.2 noise — en iyi noise oranı.

Grid Search Overview:

Cluster Heatmap (top 50): 55 kümenin tamamı gösteriliyor. v6'ya göre daha fazla kontrast — bazı küme çiftleri 0.1-0.2 (çok farklı), bazıları 0.8+ (çok benzer). Cluster 0-1-2 bölgesi yüksek benzerlik gösteriyor. Cluster 4 (dev küme) satırı genel olarak 0.4-0.6 — bu küme o kadar büyük ki neredeyse "genel ortalama" gibi davranıyor, tüm kümelere orta düzeyde benzer.

Sorunlar ve Çıkarımlar

  1. Dev küme sorunu (cluster 4 = 18.500 nokta): Bu en kritik sorun. Verinin %37'sinin tek kümede olması, HDBSCAN'ın bu bölgede yeterli yoğunluk varyasyonu bulamadığı anlamına geliyor. dim=3'te bilgi kaybı çok fazla — farklı konular aynı bölgeye sıkışıyor.
  2. %19.2 noise aldatıcı: Düşük noise, dev kümenin her şeyi emmesiyle sağlandı. Gerçek anlamda "iyi kümeleme" değil, sadece sınıflandırılamamış noktaların çoğu dev kümeye atıldı.
  3. Silhouette 0.0117 (kısıtsız en iyi): Neredeyse 0, yani kümeler arasında anlamlı bir ayrım yok. 0.371 (kısıtlı en iyi) daha iyi ama hâlâ v3-v4'ün altında.
  4. dim=3 çok agresif: 3 boyuta indirgemek çok fazla bilgi kaybına yol açıyor. dim=5 daha dengeli sonuçlar verdi.
  5. n_neighbors=75 noise'u düşürdü ama dev küme sorununu tetikledi. Daha geniş komşuluk, UMAP'ın yerel yapıyı görmezden gelmesine ve geniş bir bölgeyi düz bir yüzey gibi temsil etmesine yol açtı.

Sonraki Adım

Hiyerarşik parçalama: v7'nin 55 küme + %19.2 noise sonucunu temel alıp, 2000+ noktalı dev kümeleri (özellikle cluster 4) tekrar UMAP + HDBSCAN ile alt kümelere ayırmak.