Output v5 — Düşük min_samples ile Noise Azaltma Denemesi

v5 scatter

Amaç

v4'te reassignment ile noise sıfırlandı ama kullanıcı noise noktalarının ayrı kalmasını istedi. Bu versiyonda reassignment kaldırıldı ve min_samples değerleri düşürülerek (3–10) HDBSCAN'ın kendi başına daha fazla noktayı kümelere dahil etmesi hedeflendi. Ayrıca max_noise_ratio %25'e düşürüldü.

Kod Değişiklikleri

Parametreler

Parametre Değer
UMAP n_neighbors 30
UMAP min_dist (clustering) 0.0
UMAP min_dist (görselleştirme) 0.1
UMAP boyutları (grid) 10, 15
HDBSCAN min_cluster_size 15, 25, 40, 60, 80
HDBSCAN min_samples 3, 5, 7, 10
HDBSCAN methods eom, leaf
Min küme kısıtı 8
Max küme kısıtı 300
Max noise oranı %25
Silhouette sample 8000

Sonuçlar

Kısıt uyarısı: Hiçbir kombinasyon %25 noise kısıtını sağlayamadı. En düşük noise %35.4 (dim=10, mcs=80, ms=3). Sistem en iyi genel skoru seçti.

Seçilen en iyi kombinasyon: dim=15, mcs=60, ms=3 (EOM)

Metrik Değer
Küme sayısı 94
Noise sayısı 20.125 (%40.2)
Silhouette Score 0.3913
DBCV -1.0 (geçersiz)
Composite Score 0.7589

Grid Search Analizi

Toplam 80 kombinasyon denendi (2 boyut × 5 mcs × 4 ms × 2 method).

ms=3 sonuçları (yeni): Bu versiyon ilk kez ms=3 denedi. EOM ile ms=3 noise'u %35–43 aralığına çekti — v3-v4'teki %44–49'a göre kayda değer bir iyileşme. Ancak %25 hedefine ulaşılamadı.

Önemli gözlemler:

Görsel Değerlendirme

Cluster Scatter (94 küme, 20.125 noise): v3-v4'e göre belirgin iyileşme. Daha fazla küme (94 vs 57–59) görsel olarak haritanın daha geniş bölgesini kaplıyor. Kenar bölgelerdeki kümeler net ve kompakt. Merkezi bölge hâlâ büyük ölçüde gri (noise) ama v3'e göre daha az. Sol taraftaki kırmızı-pembe kümeler (68, 37, 64, 78) ve sağ alttaki turuncu-yeşil kümeler (39, 43, 10, 72) iyi ayrışmış durumda. Üst bölgedeki yeşil kümeler (7, 44, 87) de net sınırlara sahip.

Cluster Sizes: Power-law dağılımı devam ediyor. En büyük küme (cluster 28) ~3350 nokta, ikinci (cluster 40) ~2300. v3'e göre kuyruk daha uzun — 94 küme olduğu için daha fazla küçük küme var. 60+ sıradaki kümeler 100 noktanın altında. Pie chart: %59.8 kümelenmiş, %40.2 noise — v3'teki %54.5/%45.5'e göre iyileşme.

Grid Search Overview:

Cluster Heatmap (top 50): v4'e göre daha büyük matris (94 küme, top 50 gösteriliyor). Genel similarity aralığı 0.3–0.8. Bazı dikkat çekici bloklar: cluster 4-6-13 grubu yüksek benzerlik (~0.8), cluster 45-47-49 bölgesi de benzer şekilde. Diyagonal dışındaki parlak noktalar potansiyel birleştirme adayları. Genel olarak v4 heatmap'ine göre daha fazla "soğuk" (düşük similarity) bölge var — 94 küme ile kümeler birbirinden daha farklılaşmış.

Sorunlar ve Çıkarımlar

  1. %25 noise kısıtı bu veri seti için gerçekçi değil. Denenen tüm parametre kombinasyonlarında en düşük noise %35.4. BAAI embedding'lerle 50k tezde %30 altı noise yalnızca çok agresif parametrelerle (ms=1–2) mümkün olabilir.
  2. ms=3 önceki versiyonlara göre önemli iyileşme sağladı — noise %45'ten %40'a düştü, küme sayısı 57'den 94'e çıktı. Ancak silhouette de düştü (0.51'den 0.39'a).
  3. Noise vs silhouette trade-off'u kaçınılmaz: Bu veri setinde düşük noise ile yüksek silhouette aynı anda elde edilemiyor. Bunun nedeni tezlerin semantik embedding uzayında sürekli (continuous) bir dağılım göstermesi — keskin küme sınırları doğal olarak yok.
  4. Dejenere sonuçlar (2 küme) belirli ms/mcs kombinasyonlarında tekrarlıyor — özellikle ms=7 ile mcs=60–80 aralığında. Bu, HDBSCAN'ın yoğunluk eşiğini tüm veri üzerinde tek bir peak olarak algıladığı durumlar.
  5. 94 küme pratik kullanım için makul — tez konularını geniş alt alanlara ayırmak için yeterli granülerlik.

Sonraki Adım

min_samples'ı daha da düşürmek (1–2), n_neighbors'ı yükseltmek (50), UMAP boyutunu düşürmek (5–10) ve max_noise_ratio'yu gerçekçi bir seviyeye (%45) çıkarmak.