
v7'deki en kritik sorun olan dev küme problemini çözmek. v7'de cluster 4 tek başına ~18.500 nokta (%37) içeriyordu. Bu versiyonda HDBSCAN sonrası 2000+ noktalı kümeler otomatik olarak tekrar UMAP + HDBSCAN ile alt kümelere ayrılıyor. Maksimum 3 seviye derinliğe kadar yinelemeli parçalama yapılıyor.
hierarchical_split() fonksiyonu eklendi: 2000+ noktalı kümeleri alıp, sadece o kümenin noktalarını UMAP(10D) + HDBSCAN(mcs=15, ms=2) ile tekrar kümeliyor. Alt küme 2 veya daha fazla ise parçalama uygulanıyor, aksi halde orijinal küme korunuyor.Grid search parametreleri v7 ile aynı:
| Parametre | Değer |
|---|---|
| UMAP n_neighbors | 75 |
| UMAP min_dist (clustering) | 0.0 |
| UMAP min_dist (görselleştirme) | 0.1 |
| UMAP boyutları (grid) | 3, 5, 8 |
| HDBSCAN min_cluster_size | 30, 50, 75, 100 |
| HDBSCAN min_samples | 1, 2 |
| HDBSCAN methods | eom |
| Min küme kısıtı | 20 |
| Max küme kısıtı | 400 |
| Max noise oranı | %25 |
Hiyerarşik parçalama parametreleri:
| Parametre | Değer |
|---|---|
| size_threshold | 2000 |
| sub_umap_dim | 10 |
| sub_mcs | 15 |
| sub_ms | 2 |
| max_depth | 3 |
Grid search en iyi: dim=3, mcs=100, ms=2 (v7 ile aynı temel parametre).
Hiyerarşik parçalama sonrası:
| Metrik | Değer |
|---|---|
| Küme sayısı | 181 |
| Noise sayısı | 15.652 (%31.3) |
| Silhouette Score | — (parçalama sonrası yeniden hesaplanmadı) |
| Composite Score | 0.7853 (grid search skoru, parçalama öncesi) |
v7 → v8 karşılaştırması:
| Metrik | v7 | v8 |
|---|---|---|
| Küme sayısı | 55 | 181 |
| Noise | 9.583 (%19.2) | 15.652 (%31.3) |
| En büyük küme | ~18.500 | ~1.850 |
v7'deki 55 kümeden 2000+ noktalı olanlar (tahminen ~10 küme) tekrar UMAP + HDBSCAN'a verildi. Dev küme (cluster 4, ~18.500 nokta) muhtemelen 15-25 alt kümeye ayrıldı. Bu süreçte bazı noktalar alt kümelerde de noise olarak işaretlendi — bu yüzden toplam noise %19.2'den %31.3'e yükseldi. Yani parçalama ~6000 ek noise noktası üretti. Bu beklenen bir durum: dev kümenin içindeki seyrek bölgeler alt kümeleme sırasında noise'a düştü.
Sonuç olarak 55 kümeden 181'e çıkıldı — yani parçalama ~126 yeni alt küme üretti. Bu, dev kümelerin gerçekten heterojen olduğunu ve anlamlı alt gruplara ayrılabildiğini gösteriyor.
Cluster Scatter (181 küme, 15.652 noise): v7'deki dev koyu mavi alan artık yok. Aynı bölge şimdi birden fazla farklı renge ayrılmış — yeşil, turkuaz, açık mavi tonlarında çeşitli kümeler (cluster 7, 52, 55, 67, 68, 70, 63, 66 vb.) sol üst ve üst merkez bölgesinde yayılıyor. Bu, hiyerarşik parçalamanın amacını gerçekleştirdiğini gösteriyor. Kenar bölgelerdeki kümeler (sol altta 9, 60, 54; sağ üstte 27, 56, 71; sağ kenar 46, 111, 128, 141 vb.) v7'den aynen korunmuş — bunlar zaten küçük, kompakt kümelerdi. Gri noise noktaları v7'ye göre daha fazla (%31.3 vs %19.2) — özellikle merkezi bölgede ve küme geçiş zonlarında.
Önemli gözlem: sağ kenardaki pembe-kırmızı-turuncu küme yoğunluğu (46, 132, 142, 111, 116, 137, 141, 129, 128, 140, 13) dikkat çekici — burası muhtemelen büyük bir kümenin parçalanmasıyla oluşmuş çok sayıda küçük alt küme. 2D'de çok yakın görünseler de, 10D UMAP uzayında yeterince farklılaşmış olmalılar.
Cluster Sizes: v7'deki dramatik tek-dev-küme sorunu çözülmüş. En büyük küme (cluster 9) ~1850 nokta — threshold (2000) altında, yani parçalama düzgün çalışmış. İkinci büyük (cluster 35) ~1750, üçüncü (cluster 52) ~1750. İlk 5 küme 1250-1850 aralığında — çok daha dengeli bir dağılım. v7'de en büyük küme 18.500 idi, şimdi en büyüğü 1850 — 10x küçülme. Power-law eğrisi daha yumuşak: 50. küme ~200 nokta, 100. küme ~100, 150+ küme birkaç düzine. Pie chart: %68.7 kümelenmiş, %31.3 noise.
Grid Search Overview: Grid sonuçları v7 ile neredeyse aynı (aynı parametre uzayı). Farklılık sadece hiyerarşik parçalama sonrası görsellerde. Clusters vs Silhouette: 50-250 küme aralığı, 0.18-0.45 silhouette. En iyi composite score bölgesi 50-100 küme / 0.30-0.42. Noise vs Silhouette: %27-40 aralığında yoğunlaşma. Dejenere durum: dim=5, mcs=50, ms=1 (2 küme, negatif silhouette).
Cluster Heatmap (top 50): 181 kümenin en büyük 50'si. v7'ye göre belirgin iyileşme: diyagonal dışındaki değerler daha düşük (0.3-0.5) — kümeler birbirinden daha farklılaşmış. Bazı yüksek benzerlik blokları hâlâ var: cluster 0-1-2 grubu (~0.8, muhtemelen aynı dev kümenin parçaları), cluster 38-40-41 grubu (~0.75), cluster 128-140-155-175 bölgesi (sağ alt). Bunlar potansiyel birleştirme adayları. Genel olarak matrisin renk dağılımı v7'den daha heterojen — daha fazla "soğuk" bölge var.
v8, tüm deneyler arasında en dengeli sonucu veriyor: dev küme sorunu çözülmüş, noise makul düzeyde (%31.3), küme boyutları dengeli (max 1850), yeterli granülerlik (181 küme). Ana trade-off, v7'nin düşük noise'u (%19.2) ile v8'in dengeli küme dağılımı arasında.