Genel Bakış

Proje: BAAI Embedding Modeli ile Türkçe Tez Kümeleme
Veri Seti: 50.000 tez, 1024 boyutlu embedding (BAAI modeli, Milvus'tan çekildi)
Yöntem: UMAP boyut indirgeme → HDBSCAN density-based kümeleme
Ortam: TRUBA HPC, GPU backend (RAPIDS cuML)
Tarih: 30 Mart 2026

Problem Tanımı

50.000 Türkçe tezi, embedding uzayında anlamsal benzerliğe göre otomatik şekilde kümelemek hedeflenmiştir. Temel zorluklar:

Yüksek boyut (1024) nedeniyle doğrudan kümeleme zor (curse of dimensionality).
HDBSCAN parametreleri (min_cluster_size, min_samples, cluster_selection_method) noise oranını, silhouette skorunu ve küme sayısını ciddi biçimde etkiliyor.
Veri doğası gereği birkaç büyük + çok sayıda küçük küme (power-law) yapısı oluşuyor.
BAAI modeli Türkçe için özel eğitilmediğinden semantik ayrım sınırları yumuşak.

Deney Yaklaşımı

Deneyler şu genel akışla ilerletildi:

UMAP ile boyut indirgeme (3D / 5D / 8D / 10D / 15D / 25D denemeleri).
HDBSCAN ile kümeleme (min_cluster_size, min_samples, method taraması).
Grid search ile parametre kombinasyonlarının değerlendirilmesi.
Composite scoring (silhouette + noise + membership probability + küme aralığı bonusu) ile en uygun kombinasyonun seçilmesi.
Gereken yerlerde ek stratejiler:
Noise reassignment (v4) — noise noktaları en yakın centroid'e atanıyor.
Agresif noise azaltma (v6-v7) — min_samples=1-2, düşük UMAP boyutu.
Hiyerarşik parçalama (v8) — büyük kümeleri özyinelemeli alt kümelere bölme.

Üst Düzey Bulgular

Metrik	Değer Aralığı	Yorum
Noise oranı	%19 – %45	Tamamen sıfırlanamıyor
Küme sayısı	55 – 270	Parametreye çok bağımlı
Silhouette	0.01 – 0.53	Düşük noise + yüksek silhouette aynı anda zor
En büyük küme	1.850 – 18.500	Hiyerarşik parçalama olmadan dev küme oluşuyor

Detaylı bulgular için Genel Sonuçlar.

Wiki Yapısı

Orijinal tek dosya çok uzun olduğu için aşağıdaki şekilde bölündü:

Dosya	İçerik
`Terimler-Sozlugu.md`	Embedding, UMAP, HDBSCAN, metrik ve altyapı kavramları
`deneyler/v3.md` → `v8.md`	Her sürümün tam raporu (parametreler, sonuçlar, görsel değerlendirme, çıkarımlar)
`Genel-Sonuclar.md`	Karşılaştırma tablosu ve ana çıkarımlar
`Scatter_Image/`	UMAP scatter görselleri

Karar bağlamı için önce Deney Kartı 01 okunmalı.