
v6'daki iki sorunu çözmek: (1) 270 küme çok fazla (mikro fragmentasyon), (2) silhouette çok düşük (0.20). Daha yüksek n_neighbors=75 ile UMAP'ın daha geniş komşuluk görmesi ve daha smooth bir manifold üretmesi, mcs=30-100 ile mikro kümelerin engellenmesi hedeflendi.
Yok — v5 ile aynı kod, sadece çalıştırma parametreleri değişti.
| Parametre | Değer |
|---|---|
| UMAP n_neighbors | 75 |
| UMAP min_dist (clustering) | 0.0 |
| UMAP min_dist (görselleştirme) | 0.1 |
| UMAP boyutları (grid) | 3, 5, 8 |
| HDBSCAN min_cluster_size | 30, 50, 75, 100 |
| HDBSCAN min_samples | 1, 2 |
| HDBSCAN methods | eom |
| Min küme kısıtı | 20 |
| Max küme kısıtı | 400 |
| Max noise oranı | %25 |
| Silhouette sample | 8000 |
Seçilen en iyi kombinasyon (kısıtları sağlayan): dim=3, mcs=100, ms=2 (EOM)
| Metrik | Değer |
|---|---|
| Küme sayısı | 62 |
| Noise sayısı | 13.894 (%27.8) |
| Silhouette Score | 0.371 |
| DBCV | -1.0 (geçersiz) |
| Composite Score | 0.79 |
Not: %25 kısıtını sağlayan 2 sonuç da vardı: dim=3, mcs=75, ms=1 (55 küme, %19.2 noise) ve dim=8, mcs=75, ms=1 (55 küme, %26.6 noise, sınırda). Ancak dim=3, mcs=75, ms=1 çok düşük silhouette (0.0117) nedeniyle scoring'de geride kaldı — bu, dev bir kümenin oluştuğunun işareti.
Toplam 24 kombinasyon denendi (3 boyut × 4 mcs × 2 ms). Kompakt ama etkili bir grid.
dim=3 sonuçları (ilk kez):
mcs=75, ms=1 ile %19.2 (tüm deneylerin rekoru). Ancak silhouette neredeyse 0 (0.0117) — büyük bir küme her şeyi yutmuş.mcs=100, ms=2 ile %27.8 noise, silhouette 0.371 — çok daha dengeli.mcs=30, ms=1 ile 244 küme, %30.4 noise — düşük mcs fragmentasyona yol açıyor.Dev küme sorunu: Cluster sizes grafiği bunu net gösteriyor — en büyük küme (cluster 4) ~18.500 nokta, yani tüm verinin %37'si tek kümede. Bu, ms=1 ile HDBSCAN'ın geniş bir yoğunluk bölgesini tek küme olarak algılaması. İkinci büyük küme sadece ~2300 (cluster 13). Aradaki 8x fark çok büyük.
n_neighbors=75 etkisi: v6'daki n_neighbors=50'ye göre noise belirgin düştü. Aynı dim=5, mcs=100, ms=1 karşılaştırması: v6'da ~%33 noise → v7'de ~%33 (benzer). Ancak dim=3'ün eklenmesi asıl farkı yarattı.
Dejenere durumlar: dim=8, mcs=50, ms=1 (2 küme, %0) ve dim=8, mcs=30, ms=1 (3 küme, %0) — yine tanıdık pattern: belirli parametre kombinasyonlarında tüm veri 2-3 dev kümeye atanıyor.
Cluster Scatter (55 küme, 9.583 noise): Görseldeki sonuç aslında dim=3, mcs=75, ms=1 (55 küme, %19.2 noise) — scoring'de 2. sırada ama scatter bu parametreyle çizilmiş. Sol üst köşedeki devasa koyu mavi alan tek bir küme (cluster 4, ~18.500 nokta). Bu alan haritanın yaklaşık %35-40'ını kaplıyor. Geri kalan kümeler haritanın kenarlarında ve alt kısmında iyi ayrışmış durumda — özellikle sağ taraftaki mor-turuncu-sarı kümeler (45, 48, 11, 13), sol alttaki sarı-turuncu kümeler (31, 37, 36, 24) ve alt ortadaki yeşil-turkuaz kümeler (7, 15, 26). Gri noise noktalar az (%19.2) ama dev küme tüm sonucu domine ediyor.
Cluster Sizes: En çarpıcı grafik. Cluster 4 ~18.500 noktayla diğer tüm kümelerden 8x büyük. İkinci küme (cluster 13) ~2300, üçüncü (cluster 37) ~2000. 10. kümeden sonra hepsi 1000 altında, 20+ sıradaki kümeler birkaç yüz. Power-law'dan ziyade "bir dev + normal dağılım" yapısı. Pie chart: %80.8 kümelenmiş, %19.2 noise — en iyi noise oranı.
Grid Search Overview:
Cluster Heatmap (top 50): 55 kümenin tamamı gösteriliyor. v6'ya göre daha fazla kontrast — bazı küme çiftleri 0.1-0.2 (çok farklı), bazıları 0.8+ (çok benzer). Cluster 0-1-2 bölgesi yüksek benzerlik gösteriyor. Cluster 4 (dev küme) satırı genel olarak 0.4-0.6 — bu küme o kadar büyük ki neredeyse "genel ortalama" gibi davranıyor, tüm kümelere orta düzeyde benzer.
Hiyerarşik parçalama: v7'nin 55 küme + %19.2 noise sonucunu temel alıp, 2000+ noktalı dev kümeleri (özellikle cluster 4) tekrar UMAP + HDBSCAN ile alt kümelere ayırmak.