Output v6 — Agresif Noise Azaltma (ms=1-2, dim=5-8)

v6 scatter

Amaç

v5'te %25 noise kısıtı sağlanamadı (minimum %35.4). Bu versiyonda en agresif parametreler denendi: min_samples=1-2 (neredeyse her noktayı kümeye dahil et), düşük UMAP boyutu (5-8-10), yüksek n_neighbors=50 ve max_noise_ratio=%20.

Kod Değişiklikleri

Yok — v5 ile aynı kod, sadece çalıştırma parametreleri değişti.

Parametreler

Parametre Değer
UMAP n_neighbors 50
UMAP min_dist (clustering) 0.0
UMAP min_dist (görselleştirme) 0.1
UMAP boyutları (grid) 5, 8, 10
HDBSCAN min_cluster_size 8, 12, 18, 25
HDBSCAN min_samples 1, 2, 3
HDBSCAN methods eom
Min küme kısıtı 20
Max küme kısıtı 500
Max noise oranı %20
Silhouette sample 8000

Sonuçlar

Kısıt uyarısı: Yine hiçbir kombinasyon %20 noise kısıtını sağlayamadı. En düşük noise %29.0 (dim=5, mcs=25, ms=1). Pek çok kombinasyon da küme sayısı kısıtını (>500) aştı.

Seçilen en iyi kombinasyon: dim=5, mcs=25, ms=1 (EOM)

Metrik Değer
Küme sayısı 270
Noise sayısı 14.476 (%29.0)
Silhouette Score 0.1972
DBCV -1.0 (geçersiz)
Composite Score 0.7577

Grid Search Analizi

Toplam 36 kombinasyon denendi (3 boyut × 4 mcs × 3 ms × 1 method). Leaf metodu v5 sonuçlarına dayanarak çıkarıldı (zaman tasarrufu).

ms=1 sonuçları (ilk kez):

Boyut etkisi net: dim=5 < dim=8 < dim=10 sıralamasında noise artıyor. Düşük boyut UMAP'ın veriyi daha agresif sıkıştırmasına, dolayısıyla daha yoğun bölgeler oluşmasına yol açıyor.

ms=1 vs ms=2 vs ms=3: Her boyut ve mcs için noise sıralaması tutarlı: ms=1 < ms=2 < ms=3. Örneğin dim=5, mcs=25: ms=1 → %29, ms=2 → %34.7, ms=3 → %43.2. Her ms adımı ~5-8% noise farkı yapıyor.

Küme sayısı patlaması: mcs=8 ile 500-1500 küme çıktı — bunlar >500 kısıtıyla diskalifiye edildi. mcs=12 ile 379-792 küme. Sadece mcs=18-25 makul aralıkta (185-455).

Görsel Değerlendirme

Cluster Scatter (270 küme, 14.476 noise): Harita önceki versiyonlara göre çok daha renkli ve dolu. 270 küme ile neredeyse her bölgede farklı renkler var. Gri (noise) noktalar önceki versiyonlara göre belirgin şekilde az — özellikle merkezi bölgede. Ancak birkaç sorun görülüyor:

  1. Sağ üst bölgede çok sayıda küçük küme yan yana (124, 178, 194, 200, 204 vb.) — bunlar muhtemelen aynı konunun mikro fragmentleri.
  2. Etiket yoğunluğu çok yüksek, okunabilirlik düşük.
  3. Bazı kümeler (özellikle yeşil tonları) birbirinden ayırt edilemeyecek kadar benzer renklerde — 270 küme için renk paleti yetersiz.

Cluster Sizes: Çok dik power-law. En büyük küme (cluster 31) ~3750 nokta, ama ikinci en büyük (cluster 267) ~2200 ile hâlâ büyük. Sonra hızla düşüyor — 50. kümeden sonra çoğu 100 noktanın altında, 150+ sıradaki kümeler 25-50 arası. 270 kümenin çoğu çok küçük. Pie chart: %71 kümelenmiş, %29 noise — tüm deneylerin en düşük noise oranı.

Grid Search Overview:

Cluster Heatmap (top 50): 270 kümenin en büyük 50'si gösteriliyor. v4-v5'e göre daha fazla "soğuk" (mavi-yeşil, 0.2-0.4) bölge var — bu iyi, kümeler daha farklılaşmış. Ancak bazı parlak bloklar hâlâ mevcut: cluster 3-5-11 bölgesi (~0.8), cluster 159-160 (~0.75). Matrisin sol üst köşesi (büyük kümeler arası) genel olarak sarı-yeşil (~0.5-0.7) — bu büyük kümelerin birbiriyle hâlâ örtüştüğünü gösteriyor. Sağ alt köşe (küçük kümeler) daha koyu — küçük kümeler birbirinden daha farklı.

Sorunlar ve Çıkarımlar

  1. Noise %29'a düştü ama büyük bir bedel ödendi: Silhouette 0.51'den 0.20'ye çöktü. 270 kümenin çoğu çok küçük ve sınırları belirsiz. ms=1 her noktayı kümeye dahil etmeye çalışırken anlamlı küme yapısını bozuyor.
  2. 270 küme pratik kullanım için çok fazla. Çoğu mikro fragment — aynı konunun 5-10 parçaya bölünmüş hali. Bu, küme etiketleme ve yorumlama için sorun.
  3. dim=5 bilgi kaybı yaratıyor. 1024 boyutu 5'e indirmek çok agresif; küme yapısı basitleşiyor ama anlamsal nüanslar kayboluyor.
  4. %20 noise kısıtı bu veri seti için kesinlikle ulaşılmaz. 6 versiyon boyunca denenen hiçbir parametre kombinasyonu %25 altına inemedi (ms=1 ile bile %29).
  5. En büyük küme hâlâ ~3750 nokta — v3'teki ~3300'e yakın. Agresif parametreler küçük kümeleri çoğalttı ama dev kümeyi parçalayamadı.
  6. Renk paleti yetersizliği görselde ciddi bir sorun — 270 küme için standart renk paletleri yeterli çeşitlilik sağlayamıyor.

Sonraki Adım

n_neighbors=75 ile daha geniş komşuluk, dim=3,5,8 ile düşük boyut ve mcs=30-100 ile mikro fragmentasyonu engelleme. Ayrıca noise kısıtını gerçekçi bir seviyeye (%25) çekmek.