
v3'teki iki sorunu çözmek: (1) DBCV'nin cuML GPU'da hep 0 dönmesi, (2) %45.5 noise'un çok yüksek olması. Noise noktalarını cosine similarity ile en yakın kümeye atayan bir "reassignment" mekanizması eklendi.
relative_validity_ 0 dönüyorsa geçersiz olarak işaretleniyor (dbcv=-1.0). DBCV geçerliyse scoring'de kullanılıyor, yoksa ağırlık silhouette ve noise'a dağıtılıyor.cluster_scatter_raw.png (orijinal noise'lu) ve cluster_scatter_reassigned.png (noise atanmış).| Parametre | Değer |
|---|---|
| UMAP n_neighbors | 30 |
| UMAP min_dist (clustering) | 0.0 |
| UMAP min_dist (görselleştirme) | 0.1 |
| UMAP boyutları (grid) | 10, 15, 25 |
| HDBSCAN min_cluster_size | 20, 35, 50, 80, 120 |
| HDBSCAN min_samples | 10, 15, 20, 25 |
| HDBSCAN methods | eom, leaf |
| Min küme kısıtı | 8 |
| Max küme kısıtı | 300 |
| Max noise oranı | %50 |
| Silhouette sample | 8000 |
| Reassignment method | embedding (cosine similarity) |
Seçilen en iyi kombinasyon (grid search): dim=10, mcs=80, ms=25 (EOM)
| Metrik | Değer |
|---|---|
| Küme sayısı | 59 |
| Noise (orijinal) | 22.787 (%45.6) |
| Noise (reassign sonrası) | 0 (%0.0) |
| Silhouette Score | 0.53 |
| DBCV | -1.0 (geçersiz, cuML) |
| Composite Score | 0.7714 |
v3 ile aynı parametre uzayı tarandı (120 kombinasyon). DBCV düzeltmesi sonrası scoring dağılımı değişti:
Cluster Scatter — Raw (59 küme, 22.787 noise): v3 ile çok benzer bir dağılım. 59 küme kenar bölgelerde iyi ayrışıyor, merkez gri (noise). Küme yapısı v3'ten marjinal olarak farklı (dim=10 vs dim=15 farkı).
Cluster Scatter — Reassigned (59 küme, 0 noise): Tüm gri noktalar renklere dönüşmüş. Haritanın tamamı kümelerle kaplı. Görsel olarak çok daha "dolu" ama merkezi bölgede renklerin karışması, reassign edilen noktaların belirsiz atamalar olduğunu gösteriyor.
Cluster Sizes — Raw vs Reassigned: Raw'da en büyük küme (cluster 13) ~3500 nokta. Reassign sonrası aynı küme ~4200'e çıkmış — noise noktaların önemli bir kısmı zaten büyük kümelere atanmış. Power-law dağılımı korunuyor ama eğri daha yumuşak (küçük kümeler de büyümüş). Pie chart: %0 noise — tüm 50k nokta kümelere dağıtılmış.
Confidence Heatmap: Çok bilgilendirici bir görsel. Kenar bölgelerdeki kümeler koyu yeşil (confidence ~0.8–1.0), merkezi bölge açık yeşil-sarı (confidence 0.5–0.7). Sadece 3 nokta confidence < 0.5 — bu BAAI embedding'lerinin cosine similarity uzayında bile seyrek noktaların bir kümeye makul yakınlıkta olduğunu gösteriyor. Ancak 0.5–0.7 aralığı "makul ama belirsiz" demek; bu noktaların gerçekten doğru kümeye atanıp atanmadığı sorgulanabilir.
Cluster Heatmap (Cosine Similarity): 50 kümenin centroid benzerlik matrisi. Genel olarak 0.4–0.8 aralığında — bu oldukça yüksek ve kümelerin birbirinden çok keskin ayrılmadığını gösteriyor. Özellikle cluster 38–42 bölgesinde 0.8+ benzerlikler var — bu kümeler muhtemelen birleştirilebilir. Cluster 47–52 bölgesi de benzer şekilde yüksek iç benzerlik gösteriyor. Diyagonal dışında bazı parlak bloklar (örn. cluster 1-2-5 grubu, cluster 20-21 grubu) semantik olarak yakın konuları temsil ediyor olabilir.
Grid Search Overview:
Reassignment'ı kaldırmak, min_samples değerlerini düşürerek (3–10) noise'u HDBSCAN seviyesinde azaltmak.