Deney 1: Sabit Eşikli Etiket-Merkezli Outlier Tespiti

1. Amaç

Bu deneyin amacı, kullanıcılar tarafından atanan tez konu etiketlerinin doğruluğunu, tez özetlerinin (abstract) embedding temsilleri üzerinden otomatik olarak değerlendirmektir. Temel araştırma sorusu şudur: Bir tezin embedding vektörü ile atanmış konu etiketi arasındaki uyumsuzluk tespit edilerek yanlış etiketlenmiş veya şüpheli kayıtlar otomatik olarak bulunabilir mi?

Geleneksel kümeleme (clustering) yaklaşımı yerine etiket-merkezli (label-centroid) bir yöntem tercih edilmiştir. Bunun nedeni, veri setinin çok etiketli (multi-label) yapıda olması ve kümeleme algoritmalarının bu yapıda tutarlı sonuç üretememesidir.

2. Veri Seti

Özellik Değer
Toplam kayıt 50.000 tez
Embedding kaynağı Tez özeti (abstract)
Embedding modeli F2LLM (Qdrant koleksiyonu: theses_F2LLM)
Etiket kaynağı Kullanıcı tarafından atanan konu alanları
Tekil etiket sayısı 199 (198 konu + 1 __unknown__)
Etiket yapısı Multi-label (bir tez birden fazla konuya sahip olabilir)
Farklı etiket kombinasyonu ~3.000
Vektör veritabanı Qdrant

Etiketler noktalı virgül (;) ile ayrılmış çoklu değerler olarak saklanmaktadır. Örneğin bir tez "Bilgisayar Mühendisliği; Yapay Zeka" şeklinde iki etikete sahip olabilir.

3. Yöntem

3.1 Genel Yaklaşım

Kümeleme yerine etiket-merkezli bir yaklaşım benimsenmiştir. Her etiket için o etikete sahip tüm tezlerin embedding ortalaması hesaplanarak bir "centroid" (merkez vektör) oluşturulmuş, ardından her tezin embedding'i kendi etiketlerinin centroid'leriyle karşılaştırılmıştır.

3.2 İşlem Adımları

  1. Veri çekme: Qdrant vektör veritabanından tüm kayıtlar (embedding + payload) batch halinde çekilmiştir. Embedding'ler L2 normalizasyonuna tabi tutulmuştur.

  2. Etiket centroid hesaplama: Her benzersiz etiket için, o etikete sahip tüm tezlerin embedding ortalaması alınarak centroid vektörü hesaplanmıştır. Centroid'ler birim vektöre normalize edilmiştir.

  3. Şüphe skoru hesaplama: Her tez için üç sinyal hesaplanmıştır:

  4. Label distance (etiket mesafesi): Tezin embedding'i ile atanmış etiketlerin centroid'leri arasındaki ortalama cosine mesafesi. 1 - ortalama_cosine_benzerlik formülüyle hesaplanır. 0 = mükemmel uyum, 1 = tamamen uyumsuz.
  5. Better label gap (daha iyi etiket farkı): Atanmamış etiketlerden en yakın olanının benzerliği ile atanmış etiketlerin ortalama benzerliği arasındaki fark. Pozitif değer, başka bir etiketin mevcut etiketlerden daha uygun olduğunu gösterir.
  6. Intra-label outlier (etiket-içi aykırı): Her etiket grubu içinde, centroid'e en uzak %10'luk dilim outlier olarak işaretlenmiştir (minimum etiket boyutu: 5 kayıt).

  7. Birleşik skor: Üç sinyal sabit cap değerleriyle normalize edilerek ağırlıklı ortalama ile birleştirilmiştir: s1 = min(label_distance / 0.50, 1.0) s2 = min(max(better_label_gap / 0.20, 0.0), 1.0) s3 = intra_outlier_flag (0 veya 1) combined = 0.4 × s1 + 0.4 × s2 + 0.2 × s3

  8. Aksiyon sınıflandırma: Birleşik skora göre sabit eşiklerle aksiyon ataması yapılmıştır:

  9. combined > 0.7 → MUTLAKA_INCELE
  10. combined > 0.4 ve gap > 0.1 → ETIKET_DEGISIKLIK_ONERISI
  11. combined > 0.4 → GOZDEN_GECIR
  12. combined > 0.2 → DUSUK_ONCELIK
  13. combined ≤ 0.2 → SORUN_YOK

  14. Eksik etiket tespiti: Her tez için atanmamış etiketlerin centroid benzerliği kontrol edilmiş, 0.65 üzeri benzerlik gösteren etiketler "eksik etiket önerisi" olarak raporlanmıştır.

3.3 Çıktılar

4. Sonuçlar

Aksiyon Kayıt Sayısı Yüzde
MUTLAKA_INCELE 4.605 %9,2
ETIKET_DEGISIKLIK_ONERISI 2.527 %5,1
GOZDEN_GECIR 14.677 %29,4
DUSUK_ONCELIK 28.130 %56,3
SORUN_YOK 61 %0,1

Ek bulgular:

5. Değerlendirme ve Tespit Edilen Sorunlar

5.1 Kritik Kalibrasyon Hatası

Sonuçların en belirgin sorunu, 50.000 tezden yalnızca 61 tanesinin (%0,12) "SORUN_YOK" olarak sınıflandırılmasıdır. Bu oran gerçekçi değildir; hiçbir veri setinin %99,88'inin sorunlu olması beklenmez. Sorunun kaynağı, birleşik skor hesabındaki sabit normalizasyon cap değerleridir (s1_cap = 0.50, s2_cap = 0.20). Bu değerler verinin gerçek dağılımı bilinmeden belirlenmiş tahminlerdir.

Veri setinde ortalama label_distance muhtemelen 0.3–0.4 civarında olduğundan (199 etiket ve multi-label yapı nedeniyle), neredeyse her kayıt yüksek normalize skor almaktadır. Bu durum, sabit eşiklerin (> 0.7, > 0.4, > 0.2) büyük çoğunluğu şüpheli olarak işaretlemesine yol açmıştır.

5.2 Dikkate Alınmayan Faktörler

5.3 Sonuç

Bu deney, etiket-merkezli outlier tespitinin temel mekanizmasının (centroid mesafesi, daha iyi etiket kontrolü, etiket-içi outlier) mantıksal olarak sağlam olduğunu göstermiştir. Ancak sabit eşik yaklaşımı, verinin dağılım özelliklerini yansıtmadığı için pratikte kullanılabilir sonuçlar üretmemektedir. İkinci deneyde bu sorunların çözümü hedeflenmektedir.