Hızlı bağlantı: detaylı deney raporları için
../../../30_Deneyler/HDBSCAN-Detaylar/README.md
Tez koleksiyonu gibi heterojen, çok-tematik veri setlerinde "kaç küme var?" sorusu önceden bilinmez. K-Means gibi yöntemler küme sayısını parametre olarak ister; HDBSCAN ise yoğunluk tabanlı çalışır:
min_cluster_size ve min_samples ile granülarite ayarlanır.Embedding (BAAI/F2LLM) -> L2 Normalize -> UMAP (boyut indirgeme) ->
HDBSCAN (yogunluk tabanli kumeleme) -> noise + kume etiketi + membership_prob
Her tez için üretilen sinyaller:
| Sinyal | Anlam |
|---|---|
cluster_id |
Atanan küme; -1 ise noise |
membership_prob |
Tezin atandığı kümeye üyelik güveni (0–1) |
outlier_score |
HDBSCAN'in GLOSH skoru |
| Sorun | Gözlem | Çözüm Yönü |
|---|---|---|
| Tek dev küme | Geniş min_cluster_size'da büyük "katman" oluşuyor |
Hierarchical partitioning, alt-kümeleme |
| Yüksek noise oranı | %30+ kayıt -1 etiketi alıyor |
UMAP n_neighbors ve min_dist ayarı |
| Composite skor seçimi | Silhouette ↔ DBCV çelişkisi | Çoklu skor + niteliksel kontrol |
Detaylı bulgular için: Genel Sonuçlar
| Sürüm | Odak | Sonuç Özeti |
|---|---|---|
| v3 | İlk kümeleme denemesi | Baseline kuruldu |
| v4 | Parametre taraması | min_cluster_size etkisi belirlendi |
| v5 | UMAP parametreleri | Düşük boyut + cosine en stabil |
| v6 | Composite skor | Silhouette + DBCV birleşik |
| v7 | Hierarchical partitioning | Dev küme sorunu hafifledi |
| v8 | Final konfigürasyon | Karar için referans çalışma |
Tüm sürümler: ../../../30_Deneyler/HDBSCAN-Detaylar/deneyler/
./Etiket-Kalite-Kontrol.md — etiket-merkezli tamamlayıcı yöntem../README.md — Editöryel Yardım şemsiyesi../../../30_Deneyler/01_HDBSCAN-Kumeleme.md — karar kartı../../../40_Yontemler/README.md — kullanılan metrikler