Deney 1: Sabit Eşikli Etiket-Merkezli Outlier Tespiti

1. Amaç

Bu deneyin amacı, kullanıcılar tarafından atanan tez konu etiketlerinin doğruluğunu, tez özetlerinin (abstract) embedding temsilleri üzerinden otomatik olarak değerlendirmektir. Temel araştırma sorusu şudur: Bir tezin embedding vektörü ile atanmış konu etiketi arasındaki uyumsuzluk tespit edilerek yanlış etiketlenmiş veya şüpheli kayıtlar otomatik olarak bulunabilir mi?

Geleneksel kümeleme (clustering) yaklaşımı yerine etiket-merkezli (label-centroid) bir yöntem tercih edilmiştir. Bunun nedeni, veri setinin çok etiketli (multi-label) yapıda olması ve kümeleme algoritmalarının bu yapıda tutarlı sonuç üretememesidir.

2. Veri Seti

Özellik	Değer
Toplam kayıt	50.000 tez
Embedding kaynağı	Tez özeti (abstract)
Embedding modeli	F2LLM (Qdrant koleksiyonu: `theses_F2LLM`)
Etiket kaynağı	Kullanıcı tarafından atanan konu alanları
Tekil etiket sayısı	199 (198 konu + 1 `__unknown__`)
Etiket yapısı	Multi-label (bir tez birden fazla konuya sahip olabilir)
Farklı etiket kombinasyonu	~3.000
Vektör veritabanı	Qdrant

Etiketler noktalı virgül (;) ile ayrılmış çoklu değerler olarak saklanmaktadır. Örneğin bir tez "Bilgisayar Mühendisliği; Yapay Zeka" şeklinde iki etikete sahip olabilir.

3. Yöntem

3.1 Genel Yaklaşım

Kümeleme yerine etiket-merkezli bir yaklaşım benimsenmiştir. Her etiket için o etikete sahip tüm tezlerin embedding ortalaması hesaplanarak bir "centroid" (merkez vektör) oluşturulmuş, ardından her tezin embedding'i kendi etiketlerinin centroid'leriyle karşılaştırılmıştır.

3.2 İşlem Adımları

Veri çekme: Qdrant vektör veritabanından tüm kayıtlar (embedding + payload) batch halinde çekilmiştir. Embedding'ler L2 normalizasyonuna tabi tutulmuştur.
Etiket centroid hesaplama: Her benzersiz etiket için, o etikete sahip tüm tezlerin embedding ortalaması alınarak centroid vektörü hesaplanmıştır. Centroid'ler birim vektöre normalize edilmiştir.
Şüphe skoru hesaplama: Her tez için üç sinyal hesaplanmıştır:
Label distance (etiket mesafesi): Tezin embedding'i ile atanmış etiketlerin centroid'leri arasındaki ortalama cosine mesafesi. 1 - ortalama_cosine_benzerlik formülüyle hesaplanır. 0 = mükemmel uyum, 1 = tamamen uyumsuz.
Better label gap (daha iyi etiket farkı): Atanmamış etiketlerden en yakın olanının benzerliği ile atanmış etiketlerin ortalama benzerliği arasındaki fark. Pozitif değer, başka bir etiketin mevcut etiketlerden daha uygun olduğunu gösterir.
Intra-label outlier (etiket-içi aykırı): Her etiket grubu içinde, centroid'e en uzak %10'luk dilim outlier olarak işaretlenmiştir (minimum etiket boyutu: 5 kayıt).
Birleşik skor: Üç sinyal sabit cap değerleriyle normalize edilerek ağırlıklı ortalama ile birleştirilmiştir: s1 = min(label_distance / 0.50, 1.0) s2 = min(max(better_label_gap / 0.20, 0.0), 1.0) s3 = intra_outlier_flag (0 veya 1) combined = 0.4 × s1 + 0.4 × s2 + 0.2 × s3
Aksiyon sınıflandırma: Birleşik skora göre sabit eşiklerle aksiyon ataması yapılmıştır:
combined > 0.7 → MUTLAKA_INCELE
combined > 0.4 ve gap > 0.1 → ETIKET_DEGISIKLIK_ONERISI
combined > 0.4 → GOZDEN_GECIR
combined > 0.2 → DUSUK_ONCELIK
combined ≤ 0.2 → SORUN_YOK
Eksik etiket tespiti: Her tez için atanmamış etiketlerin centroid benzerliği kontrol edilmiş, 0.65 üzeri benzerlik gösteren etiketler "eksik etiket önerisi" olarak raporlanmıştır.

3.3 Çıktılar

outlier_report.csv: Her tez için birleşik skor, aksiyon önerisi, önerilen etiket
intra_label_outliers.csv: Etiket-içi aykırı kayıtlar
missing_labels.csv: Eksik etiket önerileri
summary.json: Genel istatistikler

4. Sonuçlar

Aksiyon	Kayıt Sayısı	Yüzde
MUTLAKA_INCELE	4.605	%9,2
ETIKET_DEGISIKLIK_ONERISI	2.527	%5,1
GOZDEN_GECIR	14.677	%29,4
DUSUK_ONCELIK	28.130	%56,3
SORUN_YOK	61	%0,1

Ek bulgular:

Etiket-içi outlier sayısı: 6.672 kayıt (%13,3)
Eksik etiket önerisi: 1.597 kayıt (%3,2)

5. Değerlendirme ve Tespit Edilen Sorunlar

5.1 Kritik Kalibrasyon Hatası

Sonuçların en belirgin sorunu, 50.000 tezden yalnızca 61 tanesinin (%0,12) "SORUN_YOK" olarak sınıflandırılmasıdır. Bu oran gerçekçi değildir; hiçbir veri setinin %99,88'inin sorunlu olması beklenmez. Sorunun kaynağı, birleşik skor hesabındaki sabit normalizasyon cap değerleridir (s1_cap = 0.50, s2_cap = 0.20). Bu değerler verinin gerçek dağılımı bilinmeden belirlenmiş tahminlerdir.

Veri setinde ortalama label_distance muhtemelen 0.3–0.4 civarında olduğundan (199 etiket ve multi-label yapı nedeniyle), neredeyse her kayıt yüksek normalize skor almaktadır. Bu durum, sabit eşiklerin (> 0.7, > 0.4, > 0.2) büyük çoğunluğu şüpheli olarak işaretlemesine yol açmıştır.

5.2 Dikkate Alınmayan Faktörler

Duplike etiketler: Veri setinde aynı konunun farklı yazımla birden fazla kez bulunduğu tespit edilmiştir (ör. "Healtcare Management" vs "Healthcare Management"). Bu etiketler ayrı centroid oluşturarak yanlış outlier sinyali üretmektedir.
Küçük etiketler: 1–4 kayıtlık etiketlerin centroid'leri istatistiksel olarak güvenilir değildir.
Multi-label etikisi: Çok etiketli tezlerin doğal olarak daha yüksek ortalama mesafe aldığı hesaba katılmamıştır.

5.3 Sonuç

Bu deney, etiket-merkezli outlier tespitinin temel mekanizmasının (centroid mesafesi, daha iyi etiket kontrolü, etiket-içi outlier) mantıksal olarak sağlam olduğunu göstermiştir. Ancak sabit eşik yaklaşımı, verinin dağılım özelliklerini yansıtmadığı için pratikte kullanılabilir sonuçlar üretmemektedir. İkinci deneyde bu sorunların çözümü hedeflenmektedir.