Kümeleme Tabanlı Outlier Tespiti — HDBSCAN

Hızlı bağlantı: detaylı deney raporları için ../../../30_Deneyler/HDBSCAN-Detaylar/README.md

1. Niçin HDBSCAN?

Tez koleksiyonu gibi heterojen, çok-tematik veri setlerinde "kaç küme var?" sorusu önceden bilinmez. K-Means gibi yöntemler küme sayısını parametre olarak ister; HDBSCAN ise yoğunluk tabanlı çalışır:

Küme sayısını veri yoğunluğundan öğrenir.
Düşük yoğunluklu noktaları noise olarak işaretler — outlier tespiti bedava gelir.
min_cluster_size ve min_samples ile granülarite ayarlanır.

2. Pipeline

Embedding (BAAI/F2LLM) -> L2 Normalize -> UMAP (boyut indirgeme) ->
HDBSCAN (yogunluk tabanli kumeleme) -> noise + kume etiketi + membership_prob

Her tez için üretilen sinyaller:

Sinyal	Anlam
`cluster_id`	Atanan küme; `-1` ise noise
`membership_prob`	Tezin atandığı kümeye üyelik güveni (0–1)
`outlier_score`	HDBSCAN'in GLOSH skoru

3. Karşılaşılan Sorunlar ve Çözümler

Sorun	Gözlem	Çözüm Yönü
Tek dev küme	Geniş `min_cluster_size`'da büyük "katman" oluşuyor	Hierarchical partitioning, alt-kümeleme
Yüksek noise oranı	%30+ kayıt `-1` etiketi alıyor	UMAP `n_neighbors` ve `min_dist` ayarı
Composite skor seçimi	Silhouette ↔ DBCV çelişkisi	Çoklu skor + niteliksel kontrol

Detaylı bulgular için: Genel Sonuçlar

4. Deney Geçmişi (Kısa)

Sürüm	Odak	Sonuç Özeti
v3	İlk kümeleme denemesi	Baseline kuruldu
v4	Parametre taraması	`min_cluster_size` etkisi belirlendi
v5	UMAP parametreleri	Düşük boyut + cosine en stabil
v6	Composite skor	Silhouette + DBCV birleşik
v7	Hierarchical partitioning	Dev küme sorunu hafifledi
v8	Final konfigürasyon	Karar için referans çalışma

Tüm sürümler: ../../../30_Deneyler/HDBSCAN-Detaylar/deneyler/

5. Editöryel Yardım Açısından Çıkarımlar

HDBSCAN noise seti, "şüpheli" havuzunun birinci süzgeci olarak kullanılabilir.
Üyelik olasılığı düşük (örn. < 0.3) kayıtlar küme sınırında — etiket karmaşası adayıdır.
Tek başına yetersiz: çoklu etiketli tezlerde küme sınırına çekilir; bu yüzden etiket-merkezli yaklaşımla birlikte kullanılır.

6. İlgili Sayfalar

./Etiket-Kalite-Kontrol.md — etiket-merkezli tamamlayıcı yöntem
../README.md — Editöryel Yardım şemsiyesi
../../../30_Deneyler/01_HDBSCAN-Kumeleme.md — karar kartı
../../../40_Yontemler/README.md — kullanılan metrikler