Deney Kartı 01 — HDBSCAN Kümeleme Serisi (v3 → v8)

Tek cümle: Tez koleksiyonunu BAAI embedding + UMAP + HDBSCAN ile kümeleyip parametre uzayını taradık; v8'deki hiyerarşik parçalama dengeli sonuç verdi.

1. Amaç

50.000 tezi etiket bilgisi olmadan anlamsal kümelere ayırmak; bu sayede:

Yoğunluk dışında kalan outlier kayıtları işaretlemek.
Konu haritası ve "Bilgi Ağları" için baz veri üretmek.
Etiket kalite kontrol akışına ek sinyal sağlamak.

2. Parametre / Kurulum

Bileşen	Değer
Embedding modeli	F2LLM (2048 boyut)
Vektör DB	Qdrant `theses_F2LLM`
Boyut indirgeme	UMAP (cosine)
Kümeleme	HDBSCAN (`min_cluster_size`, `min_samples`)
Skorlama	Silhouette + DBCV (composite)
Toplam sürüm	v3, v4, v5, v6, v7, v8

3. Sonuç ve Bulgu

Sürüm	Küme	Noise	Silhouette	En Büyük Küme	Ana Özellik
v3	57	%45,5	0,51	~3.300	Yüksek noise, baseline
v4	59	%0 (reassign)	0,53	~4.200	Tüm noktalar atandı
v5	94	%40,2	0,39	~3.350	Düşük `min_samples`, reassign yok
v6	270	%29,0	0,20	~3.750	Mikro-fragmentasyon
v7	55	%19,2	0,01	~18.500	Dev küme sorunu
v8	181	%31,3	—	~1.850	Hiyerarşik parçalama, dengeli

Anahtar gözlemler:

Noise tamamen sıfırlanamıyor — embedding + veri doğal trade-off üretiyor.
Düşük noise bazen "dev küme" oluşturarak kaliteyi bozuyor (v7).
Çok düşük min_samples mikro-fragmentasyon yapıyor (v6).
Hiyerarşik parçalama (v8) büyük kümeleri alt yapılara böldü.
cuML DBCV güvenilir çıkmadığı için kararlar silhouette merkezli verildi.

4. Karara Etkisi

Üst seviye konu haritası için v7-benzeri az kümeli yapı tercih edilebilir.
Ayrıntılı analiz / outlier inceleme için v8 hiyerarşik yapı kullanılır.
Üretim akışında iki seviyeli sunum: üst küme (genel konu) → alt küme (alt konu).
Kümeleme tek başına outlier tespiti için yetmiyor → etiket-merkezli yöntem ile birleştirildi (Deney Kartı 02 ve 03).

5. Detay Bağlantılar

Genel sonuçlar: HDBSCAN-Detaylar/Genel-Sonuclar.md
Genel bakış: HDBSCAN-Detaylar/Genel-Bakis.md
Sürüm raporları: HDBSCAN-Detaylar/deneyler/
Terim sözlüğü: HDBSCAN-Detaylar/Terimler-Sozlugu.md
Domain sayfası: 20_Domainler/Editoryel-Yardim/Outlier-Detection/Kumeleme-HDBSCAN.md