Output v4 — DBCV Düzeltmesi + Noise Reassignment Denemesi

v4 raw scatter v4 reassigned scatter

Amaç

v3'teki iki sorunu çözmek: (1) DBCV'nin cuML GPU'da hep 0 dönmesi, (2) %45.5 noise'un çok yüksek olması. Noise noktalarını cosine similarity ile en yakın kümeye atayan bir "reassignment" mekanizması eklendi.

Kod Değişiklikleri

Parametreler

Parametre Değer
UMAP n_neighbors 30
UMAP min_dist (clustering) 0.0
UMAP min_dist (görselleştirme) 0.1
UMAP boyutları (grid) 10, 15, 25
HDBSCAN min_cluster_size 20, 35, 50, 80, 120
HDBSCAN min_samples 10, 15, 20, 25
HDBSCAN methods eom, leaf
Min küme kısıtı 8
Max küme kısıtı 300
Max noise oranı %50
Silhouette sample 8000
Reassignment method embedding (cosine similarity)

Sonuçlar

Seçilen en iyi kombinasyon (grid search): dim=10, mcs=80, ms=25 (EOM)

Metrik Değer
Küme sayısı 59
Noise (orijinal) 22.787 (%45.6)
Noise (reassign sonrası) 0 (%0.0)
Silhouette Score 0.53
DBCV -1.0 (geçersiz, cuML)
Composite Score 0.7714

Grid Search Analizi

v3 ile aynı parametre uzayı tarandı (120 kombinasyon). DBCV düzeltmesi sonrası scoring dağılımı değişti:

Görsel Değerlendirme

Cluster Scatter — Raw (59 küme, 22.787 noise): v3 ile çok benzer bir dağılım. 59 küme kenar bölgelerde iyi ayrışıyor, merkez gri (noise). Küme yapısı v3'ten marjinal olarak farklı (dim=10 vs dim=15 farkı).

Cluster Scatter — Reassigned (59 küme, 0 noise): Tüm gri noktalar renklere dönüşmüş. Haritanın tamamı kümelerle kaplı. Görsel olarak çok daha "dolu" ama merkezi bölgede renklerin karışması, reassign edilen noktaların belirsiz atamalar olduğunu gösteriyor.

Cluster Sizes — Raw vs Reassigned: Raw'da en büyük küme (cluster 13) ~3500 nokta. Reassign sonrası aynı küme ~4200'e çıkmış — noise noktaların önemli bir kısmı zaten büyük kümelere atanmış. Power-law dağılımı korunuyor ama eğri daha yumuşak (küçük kümeler de büyümüş). Pie chart: %0 noise — tüm 50k nokta kümelere dağıtılmış.

Confidence Heatmap: Çok bilgilendirici bir görsel. Kenar bölgelerdeki kümeler koyu yeşil (confidence ~0.8–1.0), merkezi bölge açık yeşil-sarı (confidence 0.5–0.7). Sadece 3 nokta confidence < 0.5 — bu BAAI embedding'lerinin cosine similarity uzayında bile seyrek noktaların bir kümeye makul yakınlıkta olduğunu gösteriyor. Ancak 0.5–0.7 aralığı "makul ama belirsiz" demek; bu noktaların gerçekten doğru kümeye atanıp atanmadığı sorgulanabilir.

Cluster Heatmap (Cosine Similarity): 50 kümenin centroid benzerlik matrisi. Genel olarak 0.4–0.8 aralığında — bu oldukça yüksek ve kümelerin birbirinden çok keskin ayrılmadığını gösteriyor. Özellikle cluster 38–42 bölgesinde 0.8+ benzerlikler var — bu kümeler muhtemelen birleştirilebilir. Cluster 47–52 bölgesi de benzer şekilde yüksek iç benzerlik gösteriyor. Diyagonal dışında bazı parlak bloklar (örn. cluster 1-2-5 grubu, cluster 20-21 grubu) semantik olarak yakın konuları temsil ediyor olabilir.

Grid Search Overview:

Sorunlar ve Çıkarımlar

  1. Reassignment noise'u sıfırladı ama küme kalitesini sorgulatıyor. %45.6'lık noise grubunun tamamını zorla kümelere atmak, özellikle merkezi bölgedeki belirsiz noktalar için semantik olarak doğru olmayabilir.
  2. Confidence skorları yüksek görünüyor ama yanıltıcı olabilir. BAAI embedding'ler zaten normalize ve cosine similarity uzayı dar bir aralıkta — 0.5–0.7 confidence "iyi" gibi görünse de, gerçekte çok farklı konulardaki tezler bile 0.5+ similarity alabilir.
  3. Grid search sonuçları v3 ile neredeyse aynı — parametre uzayı değişmedi, sadece scoring ağırlıkları farklı. dim=10'un seçilmesi asıl fark.
  4. Heatmap'teki yüksek inter-cluster similarity bazı kümelerin aslında aynı konunun alt dalları olduğuna işaret ediyor — hiyerarşik bir yapı gerekebilir.
  5. Kullanıcı geri bildirimi: Noise noktalarının ayrı kalması istendi. Sonraki versiyonda reassignment kaldırıldı.

Sonraki Adım

Reassignment'ı kaldırmak, min_samples değerlerini düşürerek (3–10) noise'u HDBSCAN seviyesinde azaltmak.