Deney 2: Percentile Kalibreli ve Veri Kalitesi Duyarlı Outlier Tespiti

1. Amaç

Bu deneyin amacı, Deney 1'de tespit edilen kalibrasyon hatasını, duplike etiket sorununu, küçük etiket güvenilirlik problemini ve multi-label kaynaklı bias'ı çözerek pratikte kullanılabilir bir outlier tespit sistemi oluşturmaktır.

Deney 1'deki temel mekanizma (etiket-merkezli centroid karşılaştırması) korunmuş, ancak üç temel iyileştirme yapılmıştır:

  1. Sabit eşik yerine verinin kendi dağılımına dayanan percentile tabanlı sınıflandırma
  2. Veri yükleme aşamasında duplike etiket birleştirme ve boş kayıt filtreleme
  3. Küçük etiketlerin (< 10 kayıt) analiz sürecinden ayrıştırılması

2. Veri Seti

2.1 Veri Seti Karşılaştırması

Özellik Deney 1 Deney 2
Toplam kayıt 50.000 49.815 (185 boş konu filtrelendi)
Tekil etiket 199 195 (duplikeler birleştirildi)
Güvenilir etiket (≥ 10 kayıt) 180
Küçük etiket (< 10 kayıt) 15
__unknown__ Dahil (185 kayıt) Hariç tutuldu
Embedding boyutu 2048 2048
Embedding modeli F2LLM F2LLM
Vektör veritabanı Qdrant (theses_F2LLM) Qdrant (theses_F2LLM)

2.2 Duplike Etiket Birleştirme

Veri yükleme aşamasında 12.883 kayıtta duplike etiket birleştirmesi uygulanmıştır. Birleştirilen etiketler:

Ham Etiket (Veritabanında) Birleştirildiği Kanonik Etiket Sorun Türü
Sağlık Yönetimi = Healtcare Management (54) Sağlık Yönetimi = Healthcare Management (251) Yazım hatası
İngiliz Dili ve Edebiyatı = English Linguistics and Literature (7) İngiliz Dili ve Edebiyatı = English Language and Literature (297) Farklı çeviri
Uçak Mühendisliği = Aircraft Engineering (31) Uçak Mühendisliği = Aeronautical Engineering (34) Farklı çeviri

Birleştirme işlemi veri yükleme aşamasında, centroid hesabından önce gerçekleştirilmektedir. Böylece aynı konunun kayıtları tek bir centroid'e katkı sağlamaktadır.

2.3 Küçük Etiketler (< 10 kayıt)

Aşağıdaki 15 etiket güvenilir centroid üretemeyecek kadar az kayda sahip olarak işaretlenmiştir:

Etiket Kayıt Sayısı
Askeri Sağlık Hizmetleri = Military Health Services 1
Tıbbi Ekoloji ve Klimatoloji = Medical Ecology and Climatology 1
Deri ve Kürk Teknolojisi = Leather and Fur Technology 2
Göğüs Cerrahisi = Thoracic Surgery 2
Deri Mühendisliği = Leather Engineering 4
Kafkas Dilleri ve Edebiyatı = Caucasian Linguistics and Literature 4
Dokümantasyon ve Enformasyon = Documentation and Information 5
Ev Ekonomisi = Home Economics 5
Hava ve Uzay Hekimliği = Air and Space Medicine 6
Morfoloji = Morphology 6
Yönetim Bilişim Sistemleri = Management Information Systems 6
Matbaacılık = Typography 7
İngiliz Dili ve Edebiyatı = English Linguistics and Literature* 7
Uluslararası Ticaret = International Trade 7
Fizyopatoloji = Physiopathology 9

Bu etiketlere sahip toplam 71 kayıt, normal percentile sıralamasına dahil edilmeyip KUCUK_ETIKET_KONTROL olarak ayrı işaretlenmiştir.

2.4 Multi-Label Dağılımı

Tez Başına Etiket Sayısı Kayıt Sayısı Yüzde
1 etiket 36.984 %74,2
2 etiket 9.596 %19,3
3 etiket 3.235 %6,5

Tezlerin %74,2'si tek etiketlidir. Geri kalan %25,8'i çok etiketli (multi-label) yapıdadır.

2.5 Etiket Boyut Dengesizliği

En büyük 5 etiket:

Etiket Kayıt Sayısı
Eğitim ve Öğretim = Education and Training 5.014
İşletme = Business Administration 4.209
Psikoloji = Psychology 2.064
Din = Religion 1.615
Hemşirelik = Nursing 1.429

En büyük ve en küçük etiket arasında 5.014:1 oranında dengesizlik bulunmaktadır.

3. Yöntem

3.1 Deney 1'den Korunan Bileşenler

Aşağıdaki bileşenler Deney 1 ile aynıdır:

3.2 Değişiklik 1: Veri Ön İşleme

Boş kayıt filtreleme: Konu alanı boş, nan, None veya __unknown__ olan kayıtlar yükleme aşamasında hariç tutulmuştur. 185 kayıt bu nedenle filtrelenmiştir.

Duplike etiket birleştirme: LABEL_MERGE_MAP sözlüğünde tanımlanan etiket eşleştirmeleri, her kayıt okunurken uygulanmıştır. 12.883 kayıtta birleştirme gerçekleşmiştir.

3.3 Değişiklik 2: Küçük Etiket Ayrıştırma

MIN_RELIABLE_LABEL_SIZE = 10 eşiğinin altındaki 15 etiket small_labels setine alınmıştır. Bu etiketlerin centroid'i yine hesaplanmıştır ancak iki noktada farklı davranılmıştır:

3.4 Değişiklik 3: Z-Score Normalizasyon ve Percentile Tabanlı Sınıflandırma

Deney 1'deki sabit cap normalizasyonu ve sabit eşikler kaldırılmıştır. Bunların yerine:

Z-score normalizasyon:

ld_z = (label_distance - ortalama) / standart_sapma
blg_z = (better_label_gap - ortalama) / standart_sapma

Birleşik Z-skor:

combined_z = 0.4 × ld_z + 0.4 × blg_z + 0.2 × intra_outlier_flag

Percentile tabanlı aksiyon ataması:

Aksiyon Percentile Dilimi Hedef Oran Z-skor Eşiği (hesaplanan)
SORUN_YOK Alt %50 %50 z < −0,0306
DUSUK_ONCELIK %50–%75 %25 z < +0,4814
GOZDEN_GECIR %75–%90 %15 z < +0,9992
ETIKET_DEGISIKLIK_ONERISI %90–%95 (gap yüksek) %5 z < +1,3283
MUTLAKA_INCELE Üst %5 %5 z ≥ +1,3283

CLI parametreleri: --pct-mutlaka 5 --pct-degisiklik 5 --pct-gozden-gecir 15 --pct-dusuk 25

4. Ham Skor Teşhisi (Gerçek Veriden)

4.1 Label Distance (Etiket Mesafesi) Dağılımı

İstatistik Değer
Ortalama 0,5011
Medyan 0,4977
Standart sapma 0,0918
Minimum 0,1231
Maksimum 0,9673

Percentile dağılımı:

Percentile Değer Yorum
P5 0,3562 En iyi %5'lik dilim — etiketle çok uyumlu
P10 0,3863
P25 0,4386
P50 (Medyan) 0,4977 Tipik bir tezin etiketine mesafesi ~0,50
P75 0,5602
P90 0,6183 Şüpheli bölge başlangıcı
P95 0,6571 Yüksek şüphe
P99 0,7354 Neredeyse kesin uyumsuzluk

Yorum: Ortalama mesafe 0,50 civarındadır. Bu, Deney 1'deki sabit cap değerinin (s1_cap = 0.50) neden başarısız olduğunu açıklamaktadır: ortalama kayıt zaten cap değerine eşit mesafedeydi, dolayısıyla normalize skor neredeyse herkes için yüksek çıkmıştır.

4.2 Better Label Gap (Daha İyi Etiket Farkı) Dağılımı

İstatistik Değer
Ortalama −0,0081
Medyan −0,0112
Standart sapma 0,0883
Minimum −0,3441
Maksimum +0,4846
Negatif oran (mevcut etiket daha iyi) %55,4
Pozitif oran (başka etiket daha iyi) %44,6

Yorum: Tezlerin %55,4'ünde mevcut etiket en yakın etiket konumundadır — bu olumlu bir bulgu. Ancak %44,6'sında başka bir etiketin centroid'ine daha yakın olması, ya etiket kalitesinde gerçek sorunlar olduğunu ya da multi-label yapının doğal sınır bulanıklığını yansıtmaktadır. Medyanın sıfıra çok yakın (−0,0112) olması, tipik bir tezin mevcut etiketiyle alternatif etiket arasında çok ince bir farkla ayrıldığını göstermektedir.

5. Sonuçlar

5.1 Aksiyon Dağılımı

Aksiyon Kayıt Sayısı Yüzde Deney 1 ile Karşılaştırma
SORUN_YOK 24.854 %49,9 61 (%0,1) → 24.854 (%49,9)
DUSUK_ONCELIK 12.446 %25,0 28.130 (%56,3) → 12.446 (%25,0)
GOZDEN_GECIR 9.318 %18,7 14.677 (%29,4) → 9.318 (%18,7)
ETIKET_DEGISIKLIK_ONERISI 637 %1,3 2.527 (%5,1) → 637 (%1,3)
MUTLAKA_INCELE 2.489 %5,0 4.605 (%9,2) → 2.489 (%5,0)
KUCUK_ETIKET_KONTROL 71 %0,1 — (yeni kategori)

5.2 Ek Bulgular

Metrik Değer
Etiket-içi outlier 6.653 kayıt (%13,4)
Eksik etiket önerisi 1.498 kayıt (%3,0)
Küçük etiketli kayıt 71 kayıt (%0,1)

5.3 Doğrulama Örnekleri — MUTLAKA_INCELE (2.489 kayıt)

Aşağıda en yüksek şüphe skoruna sahip kayıtlardan 5 örnek verilmektedir:

Z-skor Mesafe Gap Mevcut Etiket Önerilen Etiket Tez Başlığı
+2,025 0,714 +0,190 Anestezi ve Reanimasyon Fiziksel Tıp ve Rehabilitasyon Fibromiyalji tedavisinde major ozon otohemoterapi etkinliğinin retrospektif ince…
+1,980 0,734 +0,161 Eğitim ve Öğretim Uluslararası İlişkiler Bilim diplomasisinde Türkiye ve İngiltere'nin politikaları ve uygulamaları
+1,719 0,707 +0,130 Mühendislik Bilimleri Bilgisayar Mühendisliği Görme engelliler için bir artırılmış gerçeklik uygulaması geliştirilmesi
+1,690 0,657 +0,171 Kulak Burun ve Boğaz Plastik ve Rekonstrüktif Cerrahi Septorinoplasti operasyonunda kullanılan, enjekte edilebilir trombositten zengin…
+1,583 0,690 +0,115 Peyzaj Mimarlığı Sosyoloji Göçmen, mülteci ve geçici koruma altındaki çocukların oyuna erişimlerinin değerl…

Niteliksel değerlendirme: Bu örnekler incelendiğinde şüphe sinyallerinin anlamlı olduğu görülmektedir. Örneğin "Bilim diplomasisi" konulu tezin "Eğitim ve Öğretim" yerine "Uluslararası İlişkiler" olarak etiketlenmesi daha uygun görünmektedir. Benzer şekilde "Artırılmış gerçeklik uygulaması" geliştiren bir tezin "Mühendislik Bilimleri" yerine "Bilgisayar Mühendisliği" etiketi alması daha spesifik ve doğru olacaktır. Ancak bazı vakalar tartışmalıdır: "Fibromiyalji tedavisi" tezi hem Anestezi hem Fiziksel Tıp alanına girebilir; burada yanlış etiket değil, eksik etiket söz konusu olabilir.

5.4 Doğrulama Örnekleri — ETIKET_DEGISIKLIK_ONERISI (637 kayıt)

Z-skor Mesafe Gap Mevcut Etiket Önerilen Etiket Tez Başlığı
+1,313 0,567 +0,219 Ulaşım; İşletme Sivil Havacılık Finansal oranları kullanarak havayollarının performans değerlendirmesi
+1,219 0,568 +0,196 Fizik ve Fizik Mühendisliği Polimer Bilim ve Teknolojisi Şekil hatırlamalı polimer karışımların üretilmesi ve termal özelliklerinin incel…
+1,202 0,591 +0,171 İşletme Ekonometri Jeopolitik riskler, politika belirsizliği, finansal stres ve borsa volatilite ya…
+1,079 0,577 +0,157 Anestezi ve Reanimasyon Nefroloji Renal replasman tedavi uygulamasının COVID-19 yoğun bakım hastalarının mortalite…
+1,078 0,578 +0,156 Radyoloji ve Nükleer Tıp Kardiyoloji Sol ventrikül ejeksiyon fraksiyon değerinin koroner arter çapları ile ilişkisini…

Niteliksel değerlendirme: Bu kategorideki öneriler genellikle tutarlıdır. "Havayolu performans değerlendirmesi" tezi için "Sivil Havacılık" etiketi açık bir iyileştirmedir. "Polimer karışımlar" tezinin Fizik yerine Polimer Bilimi olarak etiketlenmesi daha spesifiktir. Tıbbi tezlerde ise sınırlar daha belirsizdir; bu kayıtlar mevcut etiketin yanlış olduğundan çok eksik etiket durumuna işaret edebilir.

5.5 Doğrulama Örnekleri — SORUN_YOK (24.854 kayıt)

Z-skor Mesafe Gap Mevcut Etiket Tez Başlığı
−0,972 0,393 −0,118 Ziraat Bazı ayva klon anaçlarının muşmulada büyüme, meyve verim ve kalitesi üzerine etk…
−0,720 0,445 −0,113 Çevre Mühendisliği Impact of different inoculum sources on performance of MBRs for municipal wastew…
−0,284 0,532 −0,101 Hukuk Müdafilik ve müdafi ile savunulma hakkı
−0,211 0,462 −0,017 Tarih 1338-1340 (1922-1924) Antalya Eytam Sandığına mahsus İdane Defterinin transkrips…
−0,148 0,487 −0,027 İşletme Yatırımcı duyarlılığı ile borsa endeksleri arasındaki ilişkinin incelenmesi

Niteliksel değerlendirme: SORUN_YOK örnekleri incelendiğinde etiketlerin içerikle tutarlı olduğu görülmektedir. Ziraat tezinin konusu açıkça tarım, Hukuk tezinin konusu savunma hakkı, Tarih tezinin konusu Osmanlı dönemi defter transkripsiyonudur. Negatif gap değerleri (−0,101 ile −0,017 arası) mevcut etiketin en yakın alternatiften daha uygun olduğunu teyit etmektedir.

6. Deney 1 ve Deney 2 Karşılaştırma Özeti

Boyut Deney 1 Deney 2
Toplam kayıt 50.000 49.815
Tekil etiket 199 195 (3 duplike birleştirildi, 1 filtrelendi)
Normalizasyon Sabit cap (0,50 / 0,20) Z-score (veriden: μ=0,5011 σ=0,0918)
Eşik yöntemi Sabit (0,7 / 0,4 / 0,2) Percentile (P50 / P75 / P90 / P95)
SORUN_YOK 61 (%0,1) 24.854 (%49,9)
MUTLAKA_INCELE 4.605 (%9,2) 2.489 (%5,0)
ETIKET_DEGISIKLIK_ONERISI 2.527 (%5,1) 637 (%1,3)
Küçük etiket ayrıştırma Yok 71 kayıt ayrı kategori
Duplike birleştirme Yok 12.883 kayıtta uygulandı
Teşhis raporu Yok Ham skor dağılımı + percentile
Doğrulama örnekleri Yok Her kategoriden 5'er örnek

7. Sınırlılıklar ve Gelecek Çalışma

7.1 Mevcut Sınırlılıklar

7.2 Gelecek Çalışma Önerileri