Proje: BAAI Embedding Modeli ile Türkçe Tez Kümeleme
Veri Seti: 50.000 tez, 1024 boyutlu embedding (BAAI modeli, Milvus'tan çekildi)
Yöntem: UMAP boyut indirgeme → HDBSCAN density-based kümeleme
Ortam: TRUBA HPC, GPU backend (RAPIDS cuML)
Tarih: 30 Mart 2026
50.000 Türkçe tezi, embedding uzayında anlamsal benzerliğe göre otomatik şekilde kümelemek hedeflenmiştir. Temel zorluklar:
min_cluster_size, min_samples, cluster_selection_method) noise oranını, silhouette skorunu ve küme sayısını ciddi biçimde etkiliyor.Deneyler şu genel akışla ilerletildi:
min_cluster_size, min_samples, method taraması).min_samples=1-2, düşük UMAP boyutu.| Metrik | Değer Aralığı | Yorum |
|---|---|---|
| Noise oranı | %19 – %45 | Tamamen sıfırlanamıyor |
| Küme sayısı | 55 – 270 | Parametreye çok bağımlı |
| Silhouette | 0.01 – 0.53 | Düşük noise + yüksek silhouette aynı anda zor |
| En büyük küme | 1.850 – 18.500 | Hiyerarşik parçalama olmadan dev küme oluşuyor |
Detaylı bulgular için Genel Sonuçlar.
Orijinal tek dosya çok uzun olduğu için aşağıdaki şekilde bölündü:
| Dosya | İçerik |
|---|---|
Terimler-Sozlugu.md |
Embedding, UMAP, HDBSCAN, metrik ve altyapı kavramları |
deneyler/v3.md → v8.md |
Her sürümün tam raporu (parametreler, sonuçlar, görsel değerlendirme, çıkarımlar) |
Genel-Sonuclar.md |
Karşılaştırma tablosu ve ana çıkarımlar |
Scatter_Image/ |
UMAP scatter görselleri |
Karar bağlamı için önce Deney Kartı 01 okunmalı.