Deney Kartı 01 — HDBSCAN Kümeleme Serisi (v3 → v8)

Tek cümle: Tez koleksiyonunu BAAI embedding + UMAP + HDBSCAN ile kümeleyip parametre uzayını taradık; v8'deki hiyerarşik parçalama dengeli sonuç verdi.

1. Amaç

50.000 tezi etiket bilgisi olmadan anlamsal kümelere ayırmak; bu sayede:

2. Parametre / Kurulum

Bileşen Değer
Embedding modeli F2LLM (2048 boyut)
Vektör DB Qdrant theses_F2LLM
Boyut indirgeme UMAP (cosine)
Kümeleme HDBSCAN (min_cluster_size, min_samples)
Skorlama Silhouette + DBCV (composite)
Toplam sürüm v3, v4, v5, v6, v7, v8

3. Sonuç ve Bulgu

Sürüm Küme Noise Silhouette En Büyük Küme Ana Özellik
v3 57 %45,5 0,51 ~3.300 Yüksek noise, baseline
v4 59 %0 (reassign) 0,53 ~4.200 Tüm noktalar atandı
v5 94 %40,2 0,39 ~3.350 Düşük min_samples, reassign yok
v6 270 %29,0 0,20 ~3.750 Mikro-fragmentasyon
v7 55 %19,2 0,01 ~18.500 Dev küme sorunu
v8 181 %31,3 ~1.850 Hiyerarşik parçalama, dengeli

Anahtar gözlemler:

  1. Noise tamamen sıfırlanamıyor — embedding + veri doğal trade-off üretiyor.
  2. Düşük noise bazen "dev küme" oluşturarak kaliteyi bozuyor (v7).
  3. Çok düşük min_samples mikro-fragmentasyon yapıyor (v6).
  4. Hiyerarşik parçalama (v8) büyük kümeleri alt yapılara böldü.
  5. cuML DBCV güvenilir çıkmadığı için kararlar silhouette merkezli verildi.

4. Karara Etkisi

5. Detay Bağlantılar