
v4'te reassignment ile noise sıfırlandı ama kullanıcı noise noktalarının ayrı kalmasını istedi. Bu versiyonda reassignment kaldırıldı ve min_samples değerleri düşürülerek (3–10) HDBSCAN'ın kendi başına daha fazla noktayı kümelere dahil etmesi hedeflendi. Ayrıca max_noise_ratio %25'e düşürüldü.
| Parametre | Değer |
|---|---|
| UMAP n_neighbors | 30 |
| UMAP min_dist (clustering) | 0.0 |
| UMAP min_dist (görselleştirme) | 0.1 |
| UMAP boyutları (grid) | 10, 15 |
| HDBSCAN min_cluster_size | 15, 25, 40, 60, 80 |
| HDBSCAN min_samples | 3, 5, 7, 10 |
| HDBSCAN methods | eom, leaf |
| Min küme kısıtı | 8 |
| Max küme kısıtı | 300 |
| Max noise oranı | %25 |
| Silhouette sample | 8000 |
Kısıt uyarısı: Hiçbir kombinasyon %25 noise kısıtını sağlayamadı. En düşük noise %35.4 (dim=10, mcs=80, ms=3). Sistem en iyi genel skoru seçti.
Seçilen en iyi kombinasyon: dim=15, mcs=60, ms=3 (EOM)
| Metrik | Değer |
|---|---|
| Küme sayısı | 94 |
| Noise sayısı | 20.125 (%40.2) |
| Silhouette Score | 0.3913 |
| DBCV | -1.0 (geçersiz) |
| Composite Score | 0.7589 |
Toplam 80 kombinasyon denendi (2 boyut × 5 mcs × 4 ms × 2 method).
ms=3 sonuçları (yeni): Bu versiyon ilk kez ms=3 denedi. EOM ile ms=3 noise'u %35–43 aralığına çekti — v3-v4'teki %44–49'a göre kayda değer bir iyileşme. Ancak %25 hedefine ulaşılamadı.
Önemli gözlemler:
dim=10, mcs=80, ms=3: 65 küme, %35.4 noise — en düşük noise ama silhouette sadece 0.2805. Düşük ms ile HDBSCAN çok gevşek olduğunda küme sınırları bulanıklaşıyor.dim=15, mcs=60, ms=3: 94 küme, %40.2 noise — noise biraz daha yüksek ama silhouette (0.39) ve küme sayısı daha dengeli, bu yüzden composite score bunu seçti.dim=15, mcs=40, ms=3: 138 küme, %39.0 noise — daha fazla küme, benzer noise. Küçük mcs daha fazla mikro küme üretiyor.dim=10, mcs=15, ms=3 (2 küme, %0 noise) ve dim=15, mcs=60/80, ms=7 (2 küme, %0.2 noise) — HDBSCAN'ın belirli parametre kombinasyonlarında tüm veriyi tek kümeye atma sorunu devam ediyor.dim=15, mcs=80, ms=3 ile 98 küme, %55.5 noise.Cluster Scatter (94 küme, 20.125 noise): v3-v4'e göre belirgin iyileşme. Daha fazla küme (94 vs 57–59) görsel olarak haritanın daha geniş bölgesini kaplıyor. Kenar bölgelerdeki kümeler net ve kompakt. Merkezi bölge hâlâ büyük ölçüde gri (noise) ama v3'e göre daha az. Sol taraftaki kırmızı-pembe kümeler (68, 37, 64, 78) ve sağ alttaki turuncu-yeşil kümeler (39, 43, 10, 72) iyi ayrışmış durumda. Üst bölgedeki yeşil kümeler (7, 44, 87) de net sınırlara sahip.
Cluster Sizes: Power-law dağılımı devam ediyor. En büyük küme (cluster 28) ~3350 nokta, ikinci (cluster 40) ~2300. v3'e göre kuyruk daha uzun — 94 küme olduğu için daha fazla küçük küme var. 60+ sıradaki kümeler 100 noktanın altında. Pie chart: %59.8 kümelenmiş, %40.2 noise — v3'teki %54.5/%45.5'e göre iyileşme.
Grid Search Overview:
ms=3 ile 100–200 küme aralığında silhouette 0.28–0.40 arasında. Bu, v3-v4'teki 40–80 küme / 0.45–0.53 silhouette bölgesinden farklı bir trade-off. Daha fazla küme = daha düşük silhouette ama daha az noise.Cluster Heatmap (top 50): v4'e göre daha büyük matris (94 küme, top 50 gösteriliyor). Genel similarity aralığı 0.3–0.8. Bazı dikkat çekici bloklar: cluster 4-6-13 grubu yüksek benzerlik (~0.8), cluster 45-47-49 bölgesi de benzer şekilde. Diyagonal dışındaki parlak noktalar potansiyel birleştirme adayları. Genel olarak v4 heatmap'ine göre daha fazla "soğuk" (düşük similarity) bölge var — 94 küme ile kümeler birbirinden daha farklılaşmış.
ms=7 ile mcs=60–80 aralığında. Bu, HDBSCAN'ın yoğunluk eşiğini tüm veri üzerinde tek bir peak olarak algıladığı durumlar.min_samples'ı daha da düşürmek (1–2), n_neighbors'ı yükseltmek (50), UMAP boyutunu düşürmek (5–10) ve max_noise_ratio'yu gerçekçi bir seviyeye (%45) çıkarmak.