Genel Bakış

Proje: BAAI Embedding Modeli ile Türkçe Tez Kümeleme
Veri Seti: 50.000 tez, 1024 boyutlu embedding (BAAI modeli, Milvus'tan çekildi)
Yöntem: UMAP boyut indirgeme → HDBSCAN density-based kümeleme
Ortam: TRUBA HPC, GPU backend (RAPIDS cuML)
Tarih: 30 Mart 2026

Problem Tanımı

50.000 Türkçe tezi, embedding uzayında anlamsal benzerliğe göre otomatik şekilde kümelemek hedeflenmiştir. Temel zorluklar:

Deney Yaklaşımı

Deneyler şu genel akışla ilerletildi:

  1. UMAP ile boyut indirgeme (3D / 5D / 8D / 10D / 15D / 25D denemeleri).
  2. HDBSCAN ile kümeleme (min_cluster_size, min_samples, method taraması).
  3. Grid search ile parametre kombinasyonlarının değerlendirilmesi.
  4. Composite scoring (silhouette + noise + membership probability + küme aralığı bonusu) ile en uygun kombinasyonun seçilmesi.
  5. Gereken yerlerde ek stratejiler:
  6. Noise reassignment (v4) — noise noktaları en yakın centroid'e atanıyor.
  7. Agresif noise azaltma (v6-v7) — min_samples=1-2, düşük UMAP boyutu.
  8. Hiyerarşik parçalama (v8) — büyük kümeleri özyinelemeli alt kümelere bölme.

Üst Düzey Bulgular

Metrik Değer Aralığı Yorum
Noise oranı %19 – %45 Tamamen sıfırlanamıyor
Küme sayısı 55 – 270 Parametreye çok bağımlı
Silhouette 0.01 – 0.53 Düşük noise + yüksek silhouette aynı anda zor
En büyük küme 1.850 – 18.500 Hiyerarşik parçalama olmadan dev küme oluşuyor

Detaylı bulgular için Genel Sonuçlar.

Wiki Yapısı

Orijinal tek dosya çok uzun olduğu için aşağıdaki şekilde bölündü:

Dosya İçerik
Terimler-Sozlugu.md Embedding, UMAP, HDBSCAN, metrik ve altyapı kavramları
deneyler/v3.mdv8.md Her sürümün tam raporu (parametreler, sonuçlar, görsel değerlendirme, çıkarımlar)
Genel-Sonuclar.md Karşılaştırma tablosu ve ana çıkarımlar
Scatter_Image/ UMAP scatter görselleri

Karar bağlamı için önce Deney Kartı 01 okunmalı.