Genel Sonuçlar ve Karşılaştırma Özeti

Tüm sürümlerin (v3 → v8) yan yana karşılaştırması ve elde edilen ana çıkarımlar.

Versiyon Karşılaştırma Tablosu

Versiyon	Küme	Noise	Silhouette	En Büyük Küme	Ana Özellik
v3	57	%45.5	0.51	~3.300	İlk grid search, yüksek noise
v4	59	%0 (reassign)	0.53	~4.200	Noise reassignment, tümü atandı
v5	94	%40.2	0.39	~3.350	Düşük ms, reassignment kaldırıldı
v6	270	%29.0	0.20	~3.750	Agresif ms=1, mikro fragmentasyon
v7	55	%19.2	0.01	~18.500	Dev küme sorunu, en düşük noise
v8	181	%31.3	—	~1.850	Hiyerarşik parçalama, en dengeli

Temel Çıkarımlar

BAAI embedding'lerle Türkçe tez kümeleme doğası gereği %20-30 noise üretiyor. Bu, modelin genel amaçlı olmasından ve akademik tezlerin sürekli bir semantik uzayda dağılmasından kaynaklanıyor.
Noise, silhouette ve küme sayısı arasında üçlü trade-off var. Düşük noise istersen dev kümeler oluşuyor (v7), yüksek silhouette istersen noise artıyor (v3), çok küme istersen silhouette düşüyor (v6).
Hiyerarşik yaklaşım (v8) en iyi dengeyi sağlıyor. Önce agresif parametrelerle düşük noise kümeleme, sonra dev kümeleri parçalama stratejisi tüm metrikleri makul düzeyde tutuyor.
UMAP boyutu kritik: dim=3 dev kümeler üretir, dim=5-8 dengeli, dim=15-25 yüksek noise.
min_samples kontrol noktası: ms=1-2 düşük noise ama bulanık sınırlar, ms=10+ yüksek noise ama keskin sınırlar.
cuML GPU DBCV hesaplamıyor — tüm deneylerde dbcv=-1.0. Scoring tamamen silhouette'e dayandı.

Önerilen Kullanım

Senaryo	Önerilen Sürüm	Neden
Üst seviye konu haritası (az ama büyük küme)	v7 (55 küme)	Düşük noise, dev küme yapısı OK
Detaylı alt-konu kataloglama	v8 (181 küme, hiyerarşik)	Dengeli boyut + makul noise
Hızlı keşif / kalite kontrol	v3 (57 küme, ms=25)	Yüksek silhouette, yorumlanabilir
Üretim (çift seviye)	v7 üst + v8 alt	Hiyerarşik kullanım

Trade-off Görsel Özeti

                  düşük noise
                       │
                  v7 ●─┼─ (dev küme)
                       │
            v8 ●───────┼─── (dengeli)
                       │
       v6 ●────────────┼──── (fragmentasyon)
                       │
   v3/v4 ●─────────────┼───── (yüksek noise)
                       │
          düşük ─── silhouette ─── yüksek

Bilinen Kısıtlar

DBCV hesaplanamıyor (cuML GPU). Composite scoring silhouette ağırlıklı kalıyor.
Renk paleti 100+ küme için yetersiz; görsellerde ayırt etme zorlaşıyor.
2D scatter 5-10D kümeleme uzayını tam yansıtmıyor; bazı yakın görünen kümeler aslında uzak.
Tek embedding modeline bağımlılık (BAAI): Türkçe-özel bir model (E5-Turkish vb.) farklı sonuç verebilir.

Sonraki Yön Önerileri

Türkçe-özel embedding ile tekrar deneme (BAAI yerine).
Küme etiketleme: Her kümenin centroid'ine en yakın 5-10 tezin başlıklarından otomatik etiket çıkarma.
İnteraktif görselleştirme: Plotly veya Nomic Atlas ile zoom ve filtreleme.
Hibrit yaklaşım: v7 üst seviye + v8 alt seviye etiketleri birlikte sunma.
Outlier analizi: Sürekli noise olarak işaretlenen tezlerin manuel incelenmesi (gerçek interdisipliner mi, yoksa metadata sorunu mu?).