Bu deneyin amacı, Deney 1'de tespit edilen kalibrasyon hatasını, duplike etiket sorununu, küçük etiket güvenilirlik problemini ve multi-label kaynaklı bias'ı çözerek pratikte kullanılabilir bir outlier tespit sistemi oluşturmaktır.
Deney 1'deki temel mekanizma (etiket-merkezli centroid karşılaştırması) korunmuş, ancak üç temel iyileştirme yapılmıştır:
| Özellik | Deney 1 | Deney 2 |
|---|---|---|
| Toplam kayıt | 50.000 | 49.815 (185 boş konu filtrelendi) |
| Tekil etiket | 199 | 195 (duplikeler birleştirildi) |
| Güvenilir etiket (≥ 10 kayıt) | — | 180 |
| Küçük etiket (< 10 kayıt) | — | 15 |
__unknown__ |
Dahil (185 kayıt) | Hariç tutuldu |
| Embedding boyutu | 2048 | 2048 |
| Embedding modeli | F2LLM | F2LLM |
| Vektör veritabanı | Qdrant (theses_F2LLM) |
Qdrant (theses_F2LLM) |
Veri yükleme aşamasında 12.883 kayıtta duplike etiket birleştirmesi uygulanmıştır. Birleştirilen etiketler:
| Ham Etiket (Veritabanında) | Birleştirildiği Kanonik Etiket | Sorun Türü |
|---|---|---|
| Sağlık Yönetimi = Healtcare Management (54) | Sağlık Yönetimi = Healthcare Management (251) | Yazım hatası |
| İngiliz Dili ve Edebiyatı = English Linguistics and Literature (7) | İngiliz Dili ve Edebiyatı = English Language and Literature (297) | Farklı çeviri |
| Uçak Mühendisliği = Aircraft Engineering (31) | Uçak Mühendisliği = Aeronautical Engineering (34) | Farklı çeviri |
Birleştirme işlemi veri yükleme aşamasında, centroid hesabından önce gerçekleştirilmektedir. Böylece aynı konunun kayıtları tek bir centroid'e katkı sağlamaktadır.
Aşağıdaki 15 etiket güvenilir centroid üretemeyecek kadar az kayda sahip olarak işaretlenmiştir:
| Etiket | Kayıt Sayısı |
|---|---|
| Askeri Sağlık Hizmetleri = Military Health Services | 1 |
| Tıbbi Ekoloji ve Klimatoloji = Medical Ecology and Climatology | 1 |
| Deri ve Kürk Teknolojisi = Leather and Fur Technology | 2 |
| Göğüs Cerrahisi = Thoracic Surgery | 2 |
| Deri Mühendisliği = Leather Engineering | 4 |
| Kafkas Dilleri ve Edebiyatı = Caucasian Linguistics and Literature | 4 |
| Dokümantasyon ve Enformasyon = Documentation and Information | 5 |
| Ev Ekonomisi = Home Economics | 5 |
| Hava ve Uzay Hekimliği = Air and Space Medicine | 6 |
| Morfoloji = Morphology | 6 |
| Yönetim Bilişim Sistemleri = Management Information Systems | 6 |
| Matbaacılık = Typography | 7 |
| İngiliz Dili ve Edebiyatı = English Linguistics and Literature* | 7 |
| Uluslararası Ticaret = International Trade | 7 |
| Fizyopatoloji = Physiopathology | 9 |
Bu etiketlere sahip toplam 71 kayıt, normal percentile sıralamasına dahil edilmeyip KUCUK_ETIKET_KONTROL olarak ayrı işaretlenmiştir.
| Tez Başına Etiket Sayısı | Kayıt Sayısı | Yüzde |
|---|---|---|
| 1 etiket | 36.984 | %74,2 |
| 2 etiket | 9.596 | %19,3 |
| 3 etiket | 3.235 | %6,5 |
Tezlerin %74,2'si tek etiketlidir. Geri kalan %25,8'i çok etiketli (multi-label) yapıdadır.
En büyük 5 etiket:
| Etiket | Kayıt Sayısı |
|---|---|
| Eğitim ve Öğretim = Education and Training | 5.014 |
| İşletme = Business Administration | 4.209 |
| Psikoloji = Psychology | 2.064 |
| Din = Religion | 1.615 |
| Hemşirelik = Nursing | 1.429 |
En büyük ve en küçük etiket arasında 5.014:1 oranında dengesizlik bulunmaktadır.
Aşağıdaki bileşenler Deney 1 ile aynıdır:
Boş kayıt filtreleme: Konu alanı boş, nan, None veya __unknown__ olan kayıtlar yükleme aşamasında hariç tutulmuştur. 185 kayıt bu nedenle filtrelenmiştir.
Duplike etiket birleştirme: LABEL_MERGE_MAP sözlüğünde tanımlanan etiket eşleştirmeleri, her kayıt okunurken uygulanmıştır. 12.883 kayıtta birleştirme gerçekleşmiştir.
MIN_RELIABLE_LABEL_SIZE = 10 eşiğinin altındaki 15 etiket small_labels setine alınmıştır. Bu etiketlerin centroid'i yine hesaplanmıştır ancak iki noktada farklı davranılmıştır:
better_label_gap hesaplanırken yalnızca güvenilir (180) etiketin centroid'leri aday olarak kullanılmıştır.KUCUK_ETIKET_KONTROL olarak ayrı işaretlenmiştir.Deney 1'deki sabit cap normalizasyonu ve sabit eşikler kaldırılmıştır. Bunların yerine:
Z-score normalizasyon:
ld_z = (label_distance - ortalama) / standart_sapma
blg_z = (better_label_gap - ortalama) / standart_sapma
Birleşik Z-skor:
combined_z = 0.4 × ld_z + 0.4 × blg_z + 0.2 × intra_outlier_flag
Percentile tabanlı aksiyon ataması:
| Aksiyon | Percentile Dilimi | Hedef Oran | Z-skor Eşiği (hesaplanan) |
|---|---|---|---|
| SORUN_YOK | Alt %50 | %50 | z < −0,0306 |
| DUSUK_ONCELIK | %50–%75 | %25 | z < +0,4814 |
| GOZDEN_GECIR | %75–%90 | %15 | z < +0,9992 |
| ETIKET_DEGISIKLIK_ONERISI | %90–%95 (gap yüksek) | %5 | z < +1,3283 |
| MUTLAKA_INCELE | Üst %5 | %5 | z ≥ +1,3283 |
CLI parametreleri: --pct-mutlaka 5 --pct-degisiklik 5 --pct-gozden-gecir 15 --pct-dusuk 25
| İstatistik | Değer |
|---|---|
| Ortalama | 0,5011 |
| Medyan | 0,4977 |
| Standart sapma | 0,0918 |
| Minimum | 0,1231 |
| Maksimum | 0,9673 |
Percentile dağılımı:
| Percentile | Değer | Yorum |
|---|---|---|
| P5 | 0,3562 | En iyi %5'lik dilim — etiketle çok uyumlu |
| P10 | 0,3863 | |
| P25 | 0,4386 | |
| P50 (Medyan) | 0,4977 | Tipik bir tezin etiketine mesafesi ~0,50 |
| P75 | 0,5602 | |
| P90 | 0,6183 | Şüpheli bölge başlangıcı |
| P95 | 0,6571 | Yüksek şüphe |
| P99 | 0,7354 | Neredeyse kesin uyumsuzluk |
Yorum: Ortalama mesafe 0,50 civarındadır. Bu, Deney 1'deki sabit cap değerinin (s1_cap = 0.50) neden başarısız olduğunu açıklamaktadır: ortalama kayıt zaten cap değerine eşit mesafedeydi, dolayısıyla normalize skor neredeyse herkes için yüksek çıkmıştır.
| İstatistik | Değer |
|---|---|
| Ortalama | −0,0081 |
| Medyan | −0,0112 |
| Standart sapma | 0,0883 |
| Minimum | −0,3441 |
| Maksimum | +0,4846 |
| Negatif oran (mevcut etiket daha iyi) | %55,4 |
| Pozitif oran (başka etiket daha iyi) | %44,6 |
Yorum: Tezlerin %55,4'ünde mevcut etiket en yakın etiket konumundadır — bu olumlu bir bulgu. Ancak %44,6'sında başka bir etiketin centroid'ine daha yakın olması, ya etiket kalitesinde gerçek sorunlar olduğunu ya da multi-label yapının doğal sınır bulanıklığını yansıtmaktadır. Medyanın sıfıra çok yakın (−0,0112) olması, tipik bir tezin mevcut etiketiyle alternatif etiket arasında çok ince bir farkla ayrıldığını göstermektedir.
| Aksiyon | Kayıt Sayısı | Yüzde | Deney 1 ile Karşılaştırma |
|---|---|---|---|
| SORUN_YOK | 24.854 | %49,9 | 61 (%0,1) → 24.854 (%49,9) |
| DUSUK_ONCELIK | 12.446 | %25,0 | 28.130 (%56,3) → 12.446 (%25,0) |
| GOZDEN_GECIR | 9.318 | %18,7 | 14.677 (%29,4) → 9.318 (%18,7) |
| ETIKET_DEGISIKLIK_ONERISI | 637 | %1,3 | 2.527 (%5,1) → 637 (%1,3) |
| MUTLAKA_INCELE | 2.489 | %5,0 | 4.605 (%9,2) → 2.489 (%5,0) |
| KUCUK_ETIKET_KONTROL | 71 | %0,1 | — (yeni kategori) |
| Metrik | Değer |
|---|---|
| Etiket-içi outlier | 6.653 kayıt (%13,4) |
| Eksik etiket önerisi | 1.498 kayıt (%3,0) |
| Küçük etiketli kayıt | 71 kayıt (%0,1) |
Aşağıda en yüksek şüphe skoruna sahip kayıtlardan 5 örnek verilmektedir:
| Z-skor | Mesafe | Gap | Mevcut Etiket | Önerilen Etiket | Tez Başlığı |
|---|---|---|---|---|---|
| +2,025 | 0,714 | +0,190 | Anestezi ve Reanimasyon | Fiziksel Tıp ve Rehabilitasyon | Fibromiyalji tedavisinde major ozon otohemoterapi etkinliğinin retrospektif ince… |
| +1,980 | 0,734 | +0,161 | Eğitim ve Öğretim | Uluslararası İlişkiler | Bilim diplomasisinde Türkiye ve İngiltere'nin politikaları ve uygulamaları |
| +1,719 | 0,707 | +0,130 | Mühendislik Bilimleri | Bilgisayar Mühendisliği | Görme engelliler için bir artırılmış gerçeklik uygulaması geliştirilmesi |
| +1,690 | 0,657 | +0,171 | Kulak Burun ve Boğaz | Plastik ve Rekonstrüktif Cerrahi | Septorinoplasti operasyonunda kullanılan, enjekte edilebilir trombositten zengin… |
| +1,583 | 0,690 | +0,115 | Peyzaj Mimarlığı | Sosyoloji | Göçmen, mülteci ve geçici koruma altındaki çocukların oyuna erişimlerinin değerl… |
Niteliksel değerlendirme: Bu örnekler incelendiğinde şüphe sinyallerinin anlamlı olduğu görülmektedir. Örneğin "Bilim diplomasisi" konulu tezin "Eğitim ve Öğretim" yerine "Uluslararası İlişkiler" olarak etiketlenmesi daha uygun görünmektedir. Benzer şekilde "Artırılmış gerçeklik uygulaması" geliştiren bir tezin "Mühendislik Bilimleri" yerine "Bilgisayar Mühendisliği" etiketi alması daha spesifik ve doğru olacaktır. Ancak bazı vakalar tartışmalıdır: "Fibromiyalji tedavisi" tezi hem Anestezi hem Fiziksel Tıp alanına girebilir; burada yanlış etiket değil, eksik etiket söz konusu olabilir.
| Z-skor | Mesafe | Gap | Mevcut Etiket | Önerilen Etiket | Tez Başlığı |
|---|---|---|---|---|---|
| +1,313 | 0,567 | +0,219 | Ulaşım; İşletme | Sivil Havacılık | Finansal oranları kullanarak havayollarının performans değerlendirmesi |
| +1,219 | 0,568 | +0,196 | Fizik ve Fizik Mühendisliği | Polimer Bilim ve Teknolojisi | Şekil hatırlamalı polimer karışımların üretilmesi ve termal özelliklerinin incel… |
| +1,202 | 0,591 | +0,171 | İşletme | Ekonometri | Jeopolitik riskler, politika belirsizliği, finansal stres ve borsa volatilite ya… |
| +1,079 | 0,577 | +0,157 | Anestezi ve Reanimasyon | Nefroloji | Renal replasman tedavi uygulamasının COVID-19 yoğun bakım hastalarının mortalite… |
| +1,078 | 0,578 | +0,156 | Radyoloji ve Nükleer Tıp | Kardiyoloji | Sol ventrikül ejeksiyon fraksiyon değerinin koroner arter çapları ile ilişkisini… |
Niteliksel değerlendirme: Bu kategorideki öneriler genellikle tutarlıdır. "Havayolu performans değerlendirmesi" tezi için "Sivil Havacılık" etiketi açık bir iyileştirmedir. "Polimer karışımlar" tezinin Fizik yerine Polimer Bilimi olarak etiketlenmesi daha spesifiktir. Tıbbi tezlerde ise sınırlar daha belirsizdir; bu kayıtlar mevcut etiketin yanlış olduğundan çok eksik etiket durumuna işaret edebilir.
| Z-skor | Mesafe | Gap | Mevcut Etiket | Tez Başlığı |
|---|---|---|---|---|
| −0,972 | 0,393 | −0,118 | Ziraat | Bazı ayva klon anaçlarının muşmulada büyüme, meyve verim ve kalitesi üzerine etk… |
| −0,720 | 0,445 | −0,113 | Çevre Mühendisliği | Impact of different inoculum sources on performance of MBRs for municipal wastew… |
| −0,284 | 0,532 | −0,101 | Hukuk | Müdafilik ve müdafi ile savunulma hakkı |
| −0,211 | 0,462 | −0,017 | Tarih | 1338-1340 (1922-1924) Antalya Eytam Sandığına mahsus İdane Defterinin transkrips… |
| −0,148 | 0,487 | −0,027 | İşletme | Yatırımcı duyarlılığı ile borsa endeksleri arasındaki ilişkinin incelenmesi |
Niteliksel değerlendirme: SORUN_YOK örnekleri incelendiğinde etiketlerin içerikle tutarlı olduğu görülmektedir. Ziraat tezinin konusu açıkça tarım, Hukuk tezinin konusu savunma hakkı, Tarih tezinin konusu Osmanlı dönemi defter transkripsiyonudur. Negatif gap değerleri (−0,101 ile −0,017 arası) mevcut etiketin en yakın alternatiften daha uygun olduğunu teyit etmektedir.
| Boyut | Deney 1 | Deney 2 |
|---|---|---|
| Toplam kayıt | 50.000 | 49.815 |
| Tekil etiket | 199 | 195 (3 duplike birleştirildi, 1 filtrelendi) |
| Normalizasyon | Sabit cap (0,50 / 0,20) | Z-score (veriden: μ=0,5011 σ=0,0918) |
| Eşik yöntemi | Sabit (0,7 / 0,4 / 0,2) | Percentile (P50 / P75 / P90 / P95) |
| SORUN_YOK | 61 (%0,1) | 24.854 (%49,9) |
| MUTLAKA_INCELE | 4.605 (%9,2) | 2.489 (%5,0) |
| ETIKET_DEGISIKLIK_ONERISI | 2.527 (%5,1) | 637 (%1,3) |
| Küçük etiket ayrıştırma | Yok | 71 kayıt ayrı kategori |
| Duplike birleştirme | Yok | 12.883 kayıtta uygulandı |
| Teşhis raporu | Yok | Ham skor dağılımı + percentile |
| Doğrulama örnekleri | Yok | Her kategoriden 5'er örnek |