Output v5 — Düşük min_samples ile Noise Azaltma Denemesi

v5 scatter

Amaç

v4'te reassignment ile noise sıfırlandı ama kullanıcı noise noktalarının ayrı kalmasını istedi. Bu versiyonda reassignment kaldırıldı ve min_samples değerleri düşürülerek (3–10) HDBSCAN'ın kendi başına daha fazla noktayı kümelere dahil etmesi hedeflendi. Ayrıca max_noise_ratio %25'e düşürüldü.

Kod Değişiklikleri

Reassignment kaldırıldı: Noise noktaları cluster_id=-1 olarak kalıyor, görsellerde gri renkte.
Geri kalan kod v4 ile aynı (DBCV adaptive scoring, silhouette ağırlıklı).

Parametreler

Parametre	Değer
UMAP n_neighbors	30
UMAP min_dist (clustering)	0.0
UMAP min_dist (görselleştirme)	0.1
UMAP boyutları (grid)	10, 15
HDBSCAN min_cluster_size	15, 25, 40, 60, 80
HDBSCAN min_samples	3, 5, 7, 10
HDBSCAN methods	eom, leaf
Min küme kısıtı	8
Max küme kısıtı	300
Max noise oranı	%25
Silhouette sample	8000

Sonuçlar

Kısıt uyarısı: Hiçbir kombinasyon %25 noise kısıtını sağlayamadı. En düşük noise %35.4 (dim=10, mcs=80, ms=3). Sistem en iyi genel skoru seçti.

Seçilen en iyi kombinasyon: dim=15, mcs=60, ms=3 (EOM)

Metrik	Değer
Küme sayısı	94
Noise sayısı	20.125 (%40.2)
Silhouette Score	0.3913
DBCV	-1.0 (geçersiz)
Composite Score	0.7589

Grid Search Analizi

Toplam 80 kombinasyon denendi (2 boyut × 5 mcs × 4 ms × 2 method).

ms=3 sonuçları (yeni): Bu versiyon ilk kez ms=3 denedi. EOM ile ms=3 noise'u %35–43 aralığına çekti — v3-v4'teki %44–49'a göre kayda değer bir iyileşme. Ancak %25 hedefine ulaşılamadı.

Önemli gözlemler:

dim=10, mcs=80, ms=3: 65 küme, %35.4 noise — en düşük noise ama silhouette sadece 0.2805. Düşük ms ile HDBSCAN çok gevşek olduğunda küme sınırları bulanıklaşıyor.
dim=15, mcs=60, ms=3: 94 küme, %40.2 noise — noise biraz daha yüksek ama silhouette (0.39) ve küme sayısı daha dengeli, bu yüzden composite score bunu seçti.
dim=15, mcs=40, ms=3: 138 küme, %39.0 noise — daha fazla küme, benzer noise. Küçük mcs daha fazla mikro küme üretiyor.
Dejenere durumlar: dim=10, mcs=15, ms=3 (2 küme, %0 noise) ve dim=15, mcs=60/80, ms=7 (2 küme, %0.2 noise) — HDBSCAN'ın belirli parametre kombinasyonlarında tüm veriyi tek kümeye atma sorunu devam ediyor.
Leaf metodu: Yine %55–67 noise ile kullanışsız. En iyi leaf sonucu dim=15, mcs=80, ms=3 ile 98 küme, %55.5 noise.

Görsel Değerlendirme

Cluster Scatter (94 küme, 20.125 noise): v3-v4'e göre belirgin iyileşme. Daha fazla küme (94 vs 57–59) görsel olarak haritanın daha geniş bölgesini kaplıyor. Kenar bölgelerdeki kümeler net ve kompakt. Merkezi bölge hâlâ büyük ölçüde gri (noise) ama v3'e göre daha az. Sol taraftaki kırmızı-pembe kümeler (68, 37, 64, 78) ve sağ alttaki turuncu-yeşil kümeler (39, 43, 10, 72) iyi ayrışmış durumda. Üst bölgedeki yeşil kümeler (7, 44, 87) de net sınırlara sahip.

Cluster Sizes: Power-law dağılımı devam ediyor. En büyük küme (cluster 28) ~3350 nokta, ikinci (cluster 40) ~2300. v3'e göre kuyruk daha uzun — 94 küme olduğu için daha fazla küçük küme var. 60+ sıradaki kümeler 100 noktanın altında. Pie chart: %59.8 kümelenmiş, %40.2 noise — v3'teki %54.5/%45.5'e göre iyileşme.

Grid Search Overview:

Clusters vs Silhouette: Yeni bir pattern ortaya çıktı — ms=3 ile 100–200 küme aralığında silhouette 0.28–0.40 arasında. Bu, v3-v4'teki 40–80 küme / 0.45–0.53 silhouette bölgesinden farklı bir trade-off. Daha fazla küme = daha düşük silhouette ama daha az noise.
Sol alttaki sarı noktalar: 2 kümelik dejenere sonuçlar (silhouette ~-0.05), doğru şekilde en düşük composite score'a sahip.
Noise vs Silhouette: %35–50 noise bölgesinde yoğunlaşma. %55+ bölgesi leaf sonuçları. %25 altına inen hiçbir nokta yok — kısıtın sağlanamama nedeni net.

Cluster Heatmap (top 50): v4'e göre daha büyük matris (94 küme, top 50 gösteriliyor). Genel similarity aralığı 0.3–0.8. Bazı dikkat çekici bloklar: cluster 4-6-13 grubu yüksek benzerlik (~0.8), cluster 45-47-49 bölgesi de benzer şekilde. Diyagonal dışındaki parlak noktalar potansiyel birleştirme adayları. Genel olarak v4 heatmap'ine göre daha fazla "soğuk" (düşük similarity) bölge var — 94 küme ile kümeler birbirinden daha farklılaşmış.

Sorunlar ve Çıkarımlar

%25 noise kısıtı bu veri seti için gerçekçi değil. Denenen tüm parametre kombinasyonlarında en düşük noise %35.4. BAAI embedding'lerle 50k tezde %30 altı noise yalnızca çok agresif parametrelerle (ms=1–2) mümkün olabilir.
ms=3 önceki versiyonlara göre önemli iyileşme sağladı — noise %45'ten %40'a düştü, küme sayısı 57'den 94'e çıktı. Ancak silhouette de düştü (0.51'den 0.39'a).
Noise vs silhouette trade-off'u kaçınılmaz: Bu veri setinde düşük noise ile yüksek silhouette aynı anda elde edilemiyor. Bunun nedeni tezlerin semantik embedding uzayında sürekli (continuous) bir dağılım göstermesi — keskin küme sınırları doğal olarak yok.
Dejenere sonuçlar (2 küme) belirli ms/mcs kombinasyonlarında tekrarlıyor — özellikle ms=7 ile mcs=60–80 aralığında. Bu, HDBSCAN'ın yoğunluk eşiğini tüm veri üzerinde tek bir peak olarak algıladığı durumlar.
94 küme pratik kullanım için makul — tez konularını geniş alt alanlara ayırmak için yeterli granülerlik.

Sonraki Adım

min_samples'ı daha da düşürmek (1–2), n_neighbors'ı yükseltmek (50), UMAP boyutunu düşürmek (5–10) ve max_noise_ratio'yu gerçekçi bir seviyeye (%45) çıkarmak.