Bu deneyin amacı, kullanıcılar tarafından atanan tez konu etiketlerinin doğruluğunu, tez özetlerinin (abstract) embedding temsilleri üzerinden otomatik olarak değerlendirmektir. Temel araştırma sorusu şudur: Bir tezin embedding vektörü ile atanmış konu etiketi arasındaki uyumsuzluk tespit edilerek yanlış etiketlenmiş veya şüpheli kayıtlar otomatik olarak bulunabilir mi?
Geleneksel kümeleme (clustering) yaklaşımı yerine etiket-merkezli (label-centroid) bir yöntem tercih edilmiştir. Bunun nedeni, veri setinin çok etiketli (multi-label) yapıda olması ve kümeleme algoritmalarının bu yapıda tutarlı sonuç üretememesidir.
| Özellik | Değer |
|---|---|
| Toplam kayıt | 50.000 tez |
| Embedding kaynağı | Tez özeti (abstract) |
| Embedding modeli | F2LLM (Qdrant koleksiyonu: theses_F2LLM) |
| Etiket kaynağı | Kullanıcı tarafından atanan konu alanları |
| Tekil etiket sayısı | 199 (198 konu + 1 __unknown__) |
| Etiket yapısı | Multi-label (bir tez birden fazla konuya sahip olabilir) |
| Farklı etiket kombinasyonu | ~3.000 |
| Vektör veritabanı | Qdrant |
Etiketler noktalı virgül (;) ile ayrılmış çoklu değerler olarak saklanmaktadır. Örneğin bir tez "Bilgisayar Mühendisliği; Yapay Zeka" şeklinde iki etikete sahip olabilir.
Kümeleme yerine etiket-merkezli bir yaklaşım benimsenmiştir. Her etiket için o etikete sahip tüm tezlerin embedding ortalaması hesaplanarak bir "centroid" (merkez vektör) oluşturulmuş, ardından her tezin embedding'i kendi etiketlerinin centroid'leriyle karşılaştırılmıştır.
Veri çekme: Qdrant vektör veritabanından tüm kayıtlar (embedding + payload) batch halinde çekilmiştir. Embedding'ler L2 normalizasyonuna tabi tutulmuştur.
Etiket centroid hesaplama: Her benzersiz etiket için, o etikete sahip tüm tezlerin embedding ortalaması alınarak centroid vektörü hesaplanmıştır. Centroid'ler birim vektöre normalize edilmiştir.
Şüphe skoru hesaplama: Her tez için üç sinyal hesaplanmıştır:
1 - ortalama_cosine_benzerlik formülüyle hesaplanır. 0 = mükemmel uyum, 1 = tamamen uyumsuz.Intra-label outlier (etiket-içi aykırı): Her etiket grubu içinde, centroid'e en uzak %10'luk dilim outlier olarak işaretlenmiştir (minimum etiket boyutu: 5 kayıt).
Birleşik skor: Üç sinyal sabit cap değerleriyle normalize edilerek ağırlıklı ortalama ile birleştirilmiştir:
s1 = min(label_distance / 0.50, 1.0)
s2 = min(max(better_label_gap / 0.20, 0.0), 1.0)
s3 = intra_outlier_flag (0 veya 1)
combined = 0.4 × s1 + 0.4 × s2 + 0.2 × s3
Aksiyon sınıflandırma: Birleşik skora göre sabit eşiklerle aksiyon ataması yapılmıştır:
combined > 0.7 → MUTLAKA_INCELEcombined > 0.4 ve gap > 0.1 → ETIKET_DEGISIKLIK_ONERISIcombined > 0.4 → GOZDEN_GECIRcombined > 0.2 → DUSUK_ONCELIKcombined ≤ 0.2 → SORUN_YOK
Eksik etiket tespiti: Her tez için atanmamış etiketlerin centroid benzerliği kontrol edilmiş, 0.65 üzeri benzerlik gösteren etiketler "eksik etiket önerisi" olarak raporlanmıştır.
outlier_report.csv: Her tez için birleşik skor, aksiyon önerisi, önerilen etiketintra_label_outliers.csv: Etiket-içi aykırı kayıtlarmissing_labels.csv: Eksik etiket önerilerisummary.json: Genel istatistikler| Aksiyon | Kayıt Sayısı | Yüzde |
|---|---|---|
| MUTLAKA_INCELE | 4.605 | %9,2 |
| ETIKET_DEGISIKLIK_ONERISI | 2.527 | %5,1 |
| GOZDEN_GECIR | 14.677 | %29,4 |
| DUSUK_ONCELIK | 28.130 | %56,3 |
| SORUN_YOK | 61 | %0,1 |
Ek bulgular:
Sonuçların en belirgin sorunu, 50.000 tezden yalnızca 61 tanesinin (%0,12) "SORUN_YOK" olarak sınıflandırılmasıdır. Bu oran gerçekçi değildir; hiçbir veri setinin %99,88'inin sorunlu olması beklenmez. Sorunun kaynağı, birleşik skor hesabındaki sabit normalizasyon cap değerleridir (s1_cap = 0.50, s2_cap = 0.20). Bu değerler verinin gerçek dağılımı bilinmeden belirlenmiş tahminlerdir.
Veri setinde ortalama label_distance muhtemelen 0.3–0.4 civarında olduğundan (199 etiket ve multi-label yapı nedeniyle), neredeyse her kayıt yüksek normalize skor almaktadır. Bu durum, sabit eşiklerin (> 0.7, > 0.4, > 0.2) büyük çoğunluğu şüpheli olarak işaretlemesine yol açmıştır.
Bu deney, etiket-merkezli outlier tespitinin temel mekanizmasının (centroid mesafesi, daha iyi etiket kontrolü, etiket-içi outlier) mantıksal olarak sağlam olduğunu göstermiştir. Ancak sabit eşik yaklaşımı, verinin dağılım özelliklerini yansıtmadığı için pratikte kullanılabilir sonuçlar üretmemektedir. İkinci deneyde bu sorunların çözümü hedeflenmektedir.