Tek cümle: Tez koleksiyonunu BAAI embedding + UMAP + HDBSCAN ile kümeleyip parametre uzayını taradık; v8'deki hiyerarşik parçalama dengeli sonuç verdi.
50.000 tezi etiket bilgisi olmadan anlamsal kümelere ayırmak; bu sayede:
| Bileşen | Değer |
|---|---|
| Embedding modeli | F2LLM (2048 boyut) |
| Vektör DB | Qdrant theses_F2LLM |
| Boyut indirgeme | UMAP (cosine) |
| Kümeleme | HDBSCAN (min_cluster_size, min_samples) |
| Skorlama | Silhouette + DBCV (composite) |
| Toplam sürüm | v3, v4, v5, v6, v7, v8 |
| Sürüm | Küme | Noise | Silhouette | En Büyük Küme | Ana Özellik |
|---|---|---|---|---|---|
| v3 | 57 | %45,5 | 0,51 | ~3.300 | Yüksek noise, baseline |
| v4 | 59 | %0 (reassign) | 0,53 | ~4.200 | Tüm noktalar atandı |
| v5 | 94 | %40,2 | 0,39 | ~3.350 | Düşük min_samples, reassign yok |
| v6 | 270 | %29,0 | 0,20 | ~3.750 | Mikro-fragmentasyon |
| v7 | 55 | %19,2 | 0,01 | ~18.500 | Dev küme sorunu |
| v8 | 181 | %31,3 | — | ~1.850 | Hiyerarşik parçalama, dengeli |
Anahtar gözlemler:
min_samples mikro-fragmentasyon yapıyor (v6).HDBSCAN-Detaylar/Genel-Sonuclar.mdHDBSCAN-Detaylar/Genel-Bakis.mdHDBSCAN-Detaylar/deneyler/HDBSCAN-Detaylar/Terimler-Sozlugu.md20_Domainler/Editoryel-Yardim/Outlier-Detection/Kumeleme-HDBSCAN.md