Output v8 — Hiyerarşik Parçalama (Dev Kümelerin Alt Kümelere Ayrılması)

v8 scatter

Amaç

v7'deki en kritik sorun olan dev küme problemini çözmek. v7'de cluster 4 tek başına ~18.500 nokta (%37) içeriyordu. Bu versiyonda HDBSCAN sonrası 2000+ noktalı kümeler otomatik olarak tekrar UMAP + HDBSCAN ile alt kümelere ayrılıyor. Maksimum 3 seviye derinliğe kadar yinelemeli parçalama yapılıyor.

Kod Değişiklikleri

Parametreler

Grid search parametreleri v7 ile aynı:

Parametre Değer
UMAP n_neighbors 75
UMAP min_dist (clustering) 0.0
UMAP min_dist (görselleştirme) 0.1
UMAP boyutları (grid) 3, 5, 8
HDBSCAN min_cluster_size 30, 50, 75, 100
HDBSCAN min_samples 1, 2
HDBSCAN methods eom
Min küme kısıtı 20
Max küme kısıtı 400
Max noise oranı %25

Hiyerarşik parçalama parametreleri:

Parametre Değer
size_threshold 2000
sub_umap_dim 10
sub_mcs 15
sub_ms 2
max_depth 3

Sonuçlar

Grid search en iyi: dim=3, mcs=100, ms=2 (v7 ile aynı temel parametre).

Hiyerarşik parçalama sonrası:

Metrik Değer
Küme sayısı 181
Noise sayısı 15.652 (%31.3)
Silhouette Score — (parçalama sonrası yeniden hesaplanmadı)
Composite Score 0.7853 (grid search skoru, parçalama öncesi)

v7 → v8 karşılaştırması:

Metrik v7 v8
Küme sayısı 55 181
Noise 9.583 (%19.2) 15.652 (%31.3)
En büyük küme ~18.500 ~1.850

Hiyerarşik Parçalama Süreci

v7'deki 55 kümeden 2000+ noktalı olanlar (tahminen ~10 küme) tekrar UMAP + HDBSCAN'a verildi. Dev küme (cluster 4, ~18.500 nokta) muhtemelen 15-25 alt kümeye ayrıldı. Bu süreçte bazı noktalar alt kümelerde de noise olarak işaretlendi — bu yüzden toplam noise %19.2'den %31.3'e yükseldi. Yani parçalama ~6000 ek noise noktası üretti. Bu beklenen bir durum: dev kümenin içindeki seyrek bölgeler alt kümeleme sırasında noise'a düştü.

Sonuç olarak 55 kümeden 181'e çıkıldı — yani parçalama ~126 yeni alt küme üretti. Bu, dev kümelerin gerçekten heterojen olduğunu ve anlamlı alt gruplara ayrılabildiğini gösteriyor.

Görsel Değerlendirme

Cluster Scatter (181 küme, 15.652 noise): v7'deki dev koyu mavi alan artık yok. Aynı bölge şimdi birden fazla farklı renge ayrılmış — yeşil, turkuaz, açık mavi tonlarında çeşitli kümeler (cluster 7, 52, 55, 67, 68, 70, 63, 66 vb.) sol üst ve üst merkez bölgesinde yayılıyor. Bu, hiyerarşik parçalamanın amacını gerçekleştirdiğini gösteriyor. Kenar bölgelerdeki kümeler (sol altta 9, 60, 54; sağ üstte 27, 56, 71; sağ kenar 46, 111, 128, 141 vb.) v7'den aynen korunmuş — bunlar zaten küçük, kompakt kümelerdi. Gri noise noktaları v7'ye göre daha fazla (%31.3 vs %19.2) — özellikle merkezi bölgede ve küme geçiş zonlarında.

Önemli gözlem: sağ kenardaki pembe-kırmızı-turuncu küme yoğunluğu (46, 132, 142, 111, 116, 137, 141, 129, 128, 140, 13) dikkat çekici — burası muhtemelen büyük bir kümenin parçalanmasıyla oluşmuş çok sayıda küçük alt küme. 2D'de çok yakın görünseler de, 10D UMAP uzayında yeterince farklılaşmış olmalılar.

Cluster Sizes: v7'deki dramatik tek-dev-küme sorunu çözülmüş. En büyük küme (cluster 9) ~1850 nokta — threshold (2000) altında, yani parçalama düzgün çalışmış. İkinci büyük (cluster 35) ~1750, üçüncü (cluster 52) ~1750. İlk 5 küme 1250-1850 aralığında — çok daha dengeli bir dağılım. v7'de en büyük küme 18.500 idi, şimdi en büyüğü 1850 — 10x küçülme. Power-law eğrisi daha yumuşak: 50. küme ~200 nokta, 100. küme ~100, 150+ küme birkaç düzine. Pie chart: %68.7 kümelenmiş, %31.3 noise.

Grid Search Overview: Grid sonuçları v7 ile neredeyse aynı (aynı parametre uzayı). Farklılık sadece hiyerarşik parçalama sonrası görsellerde. Clusters vs Silhouette: 50-250 küme aralığı, 0.18-0.45 silhouette. En iyi composite score bölgesi 50-100 küme / 0.30-0.42. Noise vs Silhouette: %27-40 aralığında yoğunlaşma. Dejenere durum: dim=5, mcs=50, ms=1 (2 küme, negatif silhouette).

Cluster Heatmap (top 50): 181 kümenin en büyük 50'si. v7'ye göre belirgin iyileşme: diyagonal dışındaki değerler daha düşük (0.3-0.5) — kümeler birbirinden daha farklılaşmış. Bazı yüksek benzerlik blokları hâlâ var: cluster 0-1-2 grubu (~0.8, muhtemelen aynı dev kümenin parçaları), cluster 38-40-41 grubu (~0.75), cluster 128-140-155-175 bölgesi (sağ alt). Bunlar potansiyel birleştirme adayları. Genel olarak matrisin renk dağılımı v7'den daha heterojen — daha fazla "soğuk" bölge var.

Sorunlar ve Çıkarımlar

  1. Dev küme sorunu çözüldü. En büyük küme 18.500'den 1.850'ye düştü — 10x iyileşme. Artık hiçbir küme verinin %4'ünden fazlasını kapsamıyor.
  2. Noise %31.3'e yükseldi. Parçalama sırasında alt kümelerin noise'ları eklendi. Bu beklenen bir yan etki — dev kümenin homojen olmayan iç bölgeleri alt kümeleme sırasında noise'a düştü. v7'nin %19.2'sine göre artış ama v3-v5'in %40-45'ine göre hâlâ iyi.
  3. 181 küme pratik kullanım için fazla olabilir. Ancak v6'daki 270'e göre daha az ve küme boyutları daha dengeli. Hiyerarşik yapı korunarak üst-seviye (55 küme) ve alt-seviye (181 küme) olarak iki granülerlikte kullanılabilir.
  4. Parçalanmış kümeler arası yüksek benzerlik (heatmap). Aynı dev kümeden türeyen alt kümeler doğal olarak benzer — cluster 0-1-2 grubu gibi. Bu, parçalama yerine daha düşük threshold kullanılarak daha az ama daha büyük alt kümeler elde edilebileceğine işaret ediyor.
  5. Küme boyutu dağılımı çok daha sağlıklı. v3-v7'deki "bir dev küme + küçük kümeler" yapısı yerine, v8'de daha smooth bir power-law dağılımı var. En büyük/en küçük küme oranı ~100x (1850 vs ~15) — v7'de bu oran ~1200x (18500 vs ~15) idi.
  6. Noise noktalarının konumu anlamlı. Scatter'da gri noktalar küme geçiş zonlarında ve merkezi seyrek bölgelerde yoğunlaşıyor — bunlar gerçekten belirsiz, interdisipliner veya semantik olarak izole tezler.

Genel Değerlendirme

v8, tüm deneyler arasında en dengeli sonucu veriyor: dev küme sorunu çözülmüş, noise makul düzeyde (%31.3), küme boyutları dengeli (max 1850), yeterli granülerlik (181 küme). Ana trade-off, v7'nin düşük noise'u (%19.2) ile v8'in dengeli küme dağılımı arasında.