Genel Sonuçlar ve Karşılaştırma Özeti

Tüm sürümlerin (v3 → v8) yan yana karşılaştırması ve elde edilen ana çıkarımlar.

Versiyon Karşılaştırma Tablosu

Versiyon Küme Noise Silhouette En Büyük Küme Ana Özellik
v3 57 %45.5 0.51 ~3.300 İlk grid search, yüksek noise
v4 59 %0 (reassign) 0.53 ~4.200 Noise reassignment, tümü atandı
v5 94 %40.2 0.39 ~3.350 Düşük ms, reassignment kaldırıldı
v6 270 %29.0 0.20 ~3.750 Agresif ms=1, mikro fragmentasyon
v7 55 %19.2 0.01 ~18.500 Dev küme sorunu, en düşük noise
v8 181 %31.3 ~1.850 Hiyerarşik parçalama, en dengeli

Temel Çıkarımlar

  1. BAAI embedding'lerle Türkçe tez kümeleme doğası gereği %20-30 noise üretiyor. Bu, modelin genel amaçlı olmasından ve akademik tezlerin sürekli bir semantik uzayda dağılmasından kaynaklanıyor.
  2. Noise, silhouette ve küme sayısı arasında üçlü trade-off var. Düşük noise istersen dev kümeler oluşuyor (v7), yüksek silhouette istersen noise artıyor (v3), çok küme istersen silhouette düşüyor (v6).
  3. Hiyerarşik yaklaşım (v8) en iyi dengeyi sağlıyor. Önce agresif parametrelerle düşük noise kümeleme, sonra dev kümeleri parçalama stratejisi tüm metrikleri makul düzeyde tutuyor.
  4. UMAP boyutu kritik: dim=3 dev kümeler üretir, dim=5-8 dengeli, dim=15-25 yüksek noise.
  5. min_samples kontrol noktası: ms=1-2 düşük noise ama bulanık sınırlar, ms=10+ yüksek noise ama keskin sınırlar.
  6. cuML GPU DBCV hesaplamıyor — tüm deneylerde dbcv=-1.0. Scoring tamamen silhouette'e dayandı.

Önerilen Kullanım

Senaryo Önerilen Sürüm Neden
Üst seviye konu haritası (az ama büyük küme) v7 (55 küme) Düşük noise, dev küme yapısı OK
Detaylı alt-konu kataloglama v8 (181 küme, hiyerarşik) Dengeli boyut + makul noise
Hızlı keşif / kalite kontrol v3 (57 küme, ms=25) Yüksek silhouette, yorumlanabilir
Üretim (çift seviye) v7 üst + v8 alt Hiyerarşik kullanım

Trade-off Görsel Özeti

                  düşük noise
                       │
                  v7 ●─┼─ (dev küme)
                       │
            v8 ●───────┼─── (dengeli)
                       │
       v6 ●────────────┼──── (fragmentasyon)
                       │
   v3/v4 ●─────────────┼───── (yüksek noise)
                       │
          düşük ─── silhouette ─── yüksek

Bilinen Kısıtlar

Sonraki Yön Önerileri

  1. Türkçe-özel embedding ile tekrar deneme (BAAI yerine).
  2. Küme etiketleme: Her kümenin centroid'ine en yakın 5-10 tezin başlıklarından otomatik etiket çıkarma.
  3. İnteraktif görselleştirme: Plotly veya Nomic Atlas ile zoom ve filtreleme.
  4. Hibrit yaklaşım: v7 üst seviye + v8 alt seviye etiketleri birlikte sunma.
  5. Outlier analizi: Sürekli noise olarak işaretlenen tezlerin manuel incelenmesi (gerçek interdisipliner mi, yoksa metadata sorunu mu?).