Kümeleme Tabanlı Outlier Tespiti — HDBSCAN

Hızlı bağlantı: detaylı deney raporları için ../../../30_Deneyler/HDBSCAN-Detaylar/README.md

1. Niçin HDBSCAN?

Tez koleksiyonu gibi heterojen, çok-tematik veri setlerinde "kaç küme var?" sorusu önceden bilinmez. K-Means gibi yöntemler küme sayısını parametre olarak ister; HDBSCAN ise yoğunluk tabanlı çalışır:

2. Pipeline

Embedding (BAAI/F2LLM) -> L2 Normalize -> UMAP (boyut indirgeme) ->
HDBSCAN (yogunluk tabanli kumeleme) -> noise + kume etiketi + membership_prob

Her tez için üretilen sinyaller:

Sinyal Anlam
cluster_id Atanan küme; -1 ise noise
membership_prob Tezin atandığı kümeye üyelik güveni (0–1)
outlier_score HDBSCAN'in GLOSH skoru

3. Karşılaşılan Sorunlar ve Çözümler

Sorun Gözlem Çözüm Yönü
Tek dev küme Geniş min_cluster_size'da büyük "katman" oluşuyor Hierarchical partitioning, alt-kümeleme
Yüksek noise oranı %30+ kayıt -1 etiketi alıyor UMAP n_neighbors ve min_dist ayarı
Composite skor seçimi Silhouette ↔ DBCV çelişkisi Çoklu skor + niteliksel kontrol

Detaylı bulgular için: Genel Sonuçlar

4. Deney Geçmişi (Kısa)

Sürüm Odak Sonuç Özeti
v3 İlk kümeleme denemesi Baseline kuruldu
v4 Parametre taraması min_cluster_size etkisi belirlendi
v5 UMAP parametreleri Düşük boyut + cosine en stabil
v6 Composite skor Silhouette + DBCV birleşik
v7 Hierarchical partitioning Dev küme sorunu hafifledi
v8 Final konfigürasyon Karar için referans çalışma

Tüm sürümler: ../../../30_Deneyler/HDBSCAN-Detaylar/deneyler/

5. Editöryel Yardım Açısından Çıkarımlar

6. İlgili Sayfalar