
v5'te %25 noise kısıtı sağlanamadı (minimum %35.4). Bu versiyonda en agresif parametreler denendi: min_samples=1-2 (neredeyse her noktayı kümeye dahil et), düşük UMAP boyutu (5-8-10), yüksek n_neighbors=50 ve max_noise_ratio=%20.
Yok — v5 ile aynı kod, sadece çalıştırma parametreleri değişti.
| Parametre | Değer |
|---|---|
| UMAP n_neighbors | 50 |
| UMAP min_dist (clustering) | 0.0 |
| UMAP min_dist (görselleştirme) | 0.1 |
| UMAP boyutları (grid) | 5, 8, 10 |
| HDBSCAN min_cluster_size | 8, 12, 18, 25 |
| HDBSCAN min_samples | 1, 2, 3 |
| HDBSCAN methods | eom |
| Min küme kısıtı | 20 |
| Max küme kısıtı | 500 |
| Max noise oranı | %20 |
| Silhouette sample | 8000 |
Kısıt uyarısı: Yine hiçbir kombinasyon %20 noise kısıtını sağlayamadı. En düşük noise %29.0 (dim=5, mcs=25, ms=1). Pek çok kombinasyon da küme sayısı kısıtını (>500) aştı.
Seçilen en iyi kombinasyon: dim=5, mcs=25, ms=1 (EOM)
| Metrik | Değer |
|---|---|
| Küme sayısı | 270 |
| Noise sayısı | 14.476 (%29.0) |
| Silhouette Score | 0.1972 |
| DBCV | -1.0 (geçersiz) |
| Composite Score | 0.7577 |
Toplam 36 kombinasyon denendi (3 boyut × 4 mcs × 3 ms × 1 method). Leaf metodu v5 sonuçlarına dayanarak çıkarıldı (zaman tasarrufu).
ms=1 sonuçları (ilk kez):
dim=5, mcs=8, ms=1: 1504 küme, %34.8 noise — aşırı fragmentasyon. Her küçük yoğunluk tepeciği ayrı küme oldu.dim=5, mcs=25, ms=1: 270 küme, %29.0 noise — daha dengeli. mcs=25 çok küçük kümeleri birleştirdi.dim=8, mcs=25, ms=1: 277 küme, %31.3 noise — benzer ama dim=8 biraz daha fazla noise.dim=10, mcs=25, ms=1: 325 küme, %35.7 noise — boyut arttıkça noise artıyor, composite score düşük (0.60) çünkü küme sayısı 500'ü aşmasa da silhouette çok düşük.Boyut etkisi net: dim=5 < dim=8 < dim=10 sıralamasında noise artıyor. Düşük boyut UMAP'ın veriyi daha agresif sıkıştırmasına, dolayısıyla daha yoğun bölgeler oluşmasına yol açıyor.
ms=1 vs ms=2 vs ms=3: Her boyut ve mcs için noise sıralaması tutarlı: ms=1 < ms=2 < ms=3. Örneğin dim=5, mcs=25: ms=1 → %29, ms=2 → %34.7, ms=3 → %43.2. Her ms adımı ~5-8% noise farkı yapıyor.
Küme sayısı patlaması: mcs=8 ile 500-1500 küme çıktı — bunlar >500 kısıtıyla diskalifiye edildi. mcs=12 ile 379-792 küme. Sadece mcs=18-25 makul aralıkta (185-455).
Cluster Scatter (270 küme, 14.476 noise): Harita önceki versiyonlara göre çok daha renkli ve dolu. 270 küme ile neredeyse her bölgede farklı renkler var. Gri (noise) noktalar önceki versiyonlara göre belirgin şekilde az — özellikle merkezi bölgede. Ancak birkaç sorun görülüyor:
Cluster Sizes: Çok dik power-law. En büyük küme (cluster 31) ~3750 nokta, ama ikinci en büyük (cluster 267) ~2200 ile hâlâ büyük. Sonra hızla düşüyor — 50. kümeden sonra çoğu 100 noktanın altında, 150+ sıradaki kümeler 25-50 arası. 270 kümenin çoğu çok küçük. Pie chart: %71 kümelenmiş, %29 noise — tüm deneylerin en düşük noise oranı.
Grid Search Overview:
dim=8, mcs=12, ms=3 ile 2 küme (sol alt sarı nokta).Cluster Heatmap (top 50): 270 kümenin en büyük 50'si gösteriliyor. v4-v5'e göre daha fazla "soğuk" (mavi-yeşil, 0.2-0.4) bölge var — bu iyi, kümeler daha farklılaşmış. Ancak bazı parlak bloklar hâlâ mevcut: cluster 3-5-11 bölgesi (~0.8), cluster 159-160 (~0.75). Matrisin sol üst köşesi (büyük kümeler arası) genel olarak sarı-yeşil (~0.5-0.7) — bu büyük kümelerin birbiriyle hâlâ örtüştüğünü gösteriyor. Sağ alt köşe (küçük kümeler) daha koyu — küçük kümeler birbirinden daha farklı.
ms=1 her noktayı kümeye dahil etmeye çalışırken anlamlı küme yapısını bozuyor.n_neighbors=75 ile daha geniş komşuluk, dim=3,5,8 ile düşük boyut ve mcs=30-100 ile mikro fragmentasyonu engelleme. Ayrıca noise kısıtını gerçekçi bir seviyeye (%25) çekmek.