Deney 2: Percentile Kalibreli ve Veri Kalitesi Duyarlı Outlier Tespiti

1. Amaç

Bu deneyin amacı, Deney 1'de tespit edilen kalibrasyon hatasını, duplike etiket sorununu, küçük etiket güvenilirlik problemini ve multi-label kaynaklı bias'ı çözerek pratikte kullanılabilir bir outlier tespit sistemi oluşturmaktır.

Deney 1'deki temel mekanizma (etiket-merkezli centroid karşılaştırması) korunmuş, ancak üç temel iyileştirme yapılmıştır:

Sabit eşik yerine verinin kendi dağılımına dayanan percentile tabanlı sınıflandırma
Veri yükleme aşamasında duplike etiket birleştirme ve boş kayıt filtreleme
Küçük etiketlerin (< 10 kayıt) analiz sürecinden ayrıştırılması

2. Veri Seti

2.1 Veri Seti Karşılaştırması

Özellik	Deney 1	Deney 2
Toplam kayıt	50.000	49.815 (185 boş konu filtrelendi)
Tekil etiket	199	195 (duplikeler birleştirildi)
Güvenilir etiket (≥ 10 kayıt)	—	180
Küçük etiket (< 10 kayıt)	—	15
`__unknown__`	Dahil (185 kayıt)	Hariç tutuldu
Embedding boyutu	2048	2048
Embedding modeli	F2LLM	F2LLM
Vektör veritabanı	Qdrant (`theses_F2LLM`)	Qdrant (`theses_F2LLM`)

2.2 Duplike Etiket Birleştirme

Veri yükleme aşamasında 12.883 kayıtta duplike etiket birleştirmesi uygulanmıştır. Birleştirilen etiketler:

Ham Etiket (Veritabanında)	Birleştirildiği Kanonik Etiket	Sorun Türü
Sağlık Yönetimi = Healtcare Management (54)	Sağlık Yönetimi = Healthcare Management (251)	Yazım hatası
İngiliz Dili ve Edebiyatı = English Linguistics and Literature (7)	İngiliz Dili ve Edebiyatı = English Language and Literature (297)	Farklı çeviri
Uçak Mühendisliği = Aircraft Engineering (31)	Uçak Mühendisliği = Aeronautical Engineering (34)	Farklı çeviri

Birleştirme işlemi veri yükleme aşamasında, centroid hesabından önce gerçekleştirilmektedir. Böylece aynı konunun kayıtları tek bir centroid'e katkı sağlamaktadır.

2.3 Küçük Etiketler (< 10 kayıt)

Aşağıdaki 15 etiket güvenilir centroid üretemeyecek kadar az kayda sahip olarak işaretlenmiştir:

Etiket	Kayıt Sayısı
Askeri Sağlık Hizmetleri = Military Health Services	1
Tıbbi Ekoloji ve Klimatoloji = Medical Ecology and Climatology	1
Deri ve Kürk Teknolojisi = Leather and Fur Technology	2
Göğüs Cerrahisi = Thoracic Surgery	2
Deri Mühendisliği = Leather Engineering	4
Kafkas Dilleri ve Edebiyatı = Caucasian Linguistics and Literature	4
Dokümantasyon ve Enformasyon = Documentation and Information	5
Ev Ekonomisi = Home Economics	5
Hava ve Uzay Hekimliği = Air and Space Medicine	6
Morfoloji = Morphology	6
Yönetim Bilişim Sistemleri = Management Information Systems	6
Matbaacılık = Typography	7
İngiliz Dili ve Edebiyatı = English Linguistics and Literature*	7
Uluslararası Ticaret = International Trade	7
Fizyopatoloji = Physiopathology	9

Bu etiketlere sahip toplam 71 kayıt, normal percentile sıralamasına dahil edilmeyip KUCUK_ETIKET_KONTROL olarak ayrı işaretlenmiştir.

2.4 Multi-Label Dağılımı

Tez Başına Etiket Sayısı	Kayıt Sayısı	Yüzde
1 etiket	36.984	%74,2
2 etiket	9.596	%19,3
3 etiket	3.235	%6,5

Tezlerin %74,2'si tek etiketlidir. Geri kalan %25,8'i çok etiketli (multi-label) yapıdadır.

2.5 Etiket Boyut Dengesizliği

En büyük 5 etiket:

Etiket	Kayıt Sayısı
Eğitim ve Öğretim = Education and Training	5.014
İşletme = Business Administration	4.209
Psikoloji = Psychology	2.064
Din = Religion	1.615
Hemşirelik = Nursing	1.429

En büyük ve en küçük etiket arasında 5.014:1 oranında dengesizlik bulunmaktadır.

3. Yöntem

3.1 Deney 1'den Korunan Bileşenler

Aşağıdaki bileşenler Deney 1 ile aynıdır:

Qdrant'tan batch okuma mekanizması
L2 normalizasyonlu embedding ön işleme
Etiket centroid hesaplama (ortalama embedding, birim vektöre normalize)
Etiket-içi outlier tespiti (centroid'e en uzak %10)
Üç sinyal yapısı (label_distance, better_label_gap, intra_outlier)

3.2 Değişiklik 1: Veri Ön İşleme

Boş kayıt filtreleme: Konu alanı boş, nan, None veya __unknown__ olan kayıtlar yükleme aşamasında hariç tutulmuştur. 185 kayıt bu nedenle filtrelenmiştir.

Duplike etiket birleştirme: LABEL_MERGE_MAP sözlüğünde tanımlanan etiket eşleştirmeleri, her kayıt okunurken uygulanmıştır. 12.883 kayıtta birleştirme gerçekleşmiştir.

3.3 Değişiklik 2: Küçük Etiket Ayrıştırma

MIN_RELIABLE_LABEL_SIZE = 10 eşiğinin altındaki 15 etiket small_labels setine alınmıştır. Bu etiketlerin centroid'i yine hesaplanmıştır ancak iki noktada farklı davranılmıştır:

"Daha iyi etiket" karşılaştırması: better_label_gap hesaplanırken yalnızca güvenilir (180) etiketin centroid'leri aday olarak kullanılmıştır.
Aksiyon ataması: Küçük etiketlere sahip 71 kayıt percentile sıralamasına dahil edilmeyip KUCUK_ETIKET_KONTROL olarak ayrı işaretlenmiştir.

3.4 Değişiklik 3: Z-Score Normalizasyon ve Percentile Tabanlı Sınıflandırma

Deney 1'deki sabit cap normalizasyonu ve sabit eşikler kaldırılmıştır. Bunların yerine:

Z-score normalizasyon:

ld_z = (label_distance - ortalama) / standart_sapma
blg_z = (better_label_gap - ortalama) / standart_sapma

Birleşik Z-skor:

combined_z = 0.4 × ld_z + 0.4 × blg_z + 0.2 × intra_outlier_flag

Percentile tabanlı aksiyon ataması:

Aksiyon	Percentile Dilimi	Hedef Oran	Z-skor Eşiği (hesaplanan)
SORUN_YOK	Alt %50	%50	z < −0,0306
DUSUK_ONCELIK	%50–%75	%25	z < +0,4814
GOZDEN_GECIR	%75–%90	%15	z < +0,9992
ETIKET_DEGISIKLIK_ONERISI	%90–%95 (gap yüksek)	%5	z < +1,3283
MUTLAKA_INCELE	Üst %5	%5	z ≥ +1,3283

CLI parametreleri: --pct-mutlaka 5 --pct-degisiklik 5 --pct-gozden-gecir 15 --pct-dusuk 25

4. Ham Skor Teşhisi (Gerçek Veriden)

4.1 Label Distance (Etiket Mesafesi) Dağılımı

İstatistik	Değer
Ortalama	0,5011
Medyan	0,4977
Standart sapma	0,0918
Minimum	0,1231
Maksimum	0,9673

Percentile dağılımı:

Percentile	Değer	Yorum
P5	0,3562	En iyi %5'lik dilim — etiketle çok uyumlu
P10	0,3863
P25	0,4386
P50 (Medyan)	0,4977	Tipik bir tezin etiketine mesafesi ~0,50
P75	0,5602
P90	0,6183	Şüpheli bölge başlangıcı
P95	0,6571	Yüksek şüphe
P99	0,7354	Neredeyse kesin uyumsuzluk

Yorum: Ortalama mesafe 0,50 civarındadır. Bu, Deney 1'deki sabit cap değerinin (s1_cap = 0.50) neden başarısız olduğunu açıklamaktadır: ortalama kayıt zaten cap değerine eşit mesafedeydi, dolayısıyla normalize skor neredeyse herkes için yüksek çıkmıştır.

4.2 Better Label Gap (Daha İyi Etiket Farkı) Dağılımı

İstatistik	Değer
Ortalama	−0,0081
Medyan	−0,0112
Standart sapma	0,0883
Minimum	−0,3441
Maksimum	+0,4846
Negatif oran (mevcut etiket daha iyi)	%55,4
Pozitif oran (başka etiket daha iyi)	%44,6

Yorum: Tezlerin %55,4'ünde mevcut etiket en yakın etiket konumundadır — bu olumlu bir bulgu. Ancak %44,6'sında başka bir etiketin centroid'ine daha yakın olması, ya etiket kalitesinde gerçek sorunlar olduğunu ya da multi-label yapının doğal sınır bulanıklığını yansıtmaktadır. Medyanın sıfıra çok yakın (−0,0112) olması, tipik bir tezin mevcut etiketiyle alternatif etiket arasında çok ince bir farkla ayrıldığını göstermektedir.

5. Sonuçlar

5.1 Aksiyon Dağılımı

Aksiyon	Kayıt Sayısı	Yüzde	Deney 1 ile Karşılaştırma
SORUN_YOK	24.854	%49,9	61 (%0,1) → 24.854 (%49,9)
DUSUK_ONCELIK	12.446	%25,0	28.130 (%56,3) → 12.446 (%25,0)
GOZDEN_GECIR	9.318	%18,7	14.677 (%29,4) → 9.318 (%18,7)
ETIKET_DEGISIKLIK_ONERISI	637	%1,3	2.527 (%5,1) → 637 (%1,3)
MUTLAKA_INCELE	2.489	%5,0	4.605 (%9,2) → 2.489 (%5,0)
KUCUK_ETIKET_KONTROL	71	%0,1	— (yeni kategori)

5.2 Ek Bulgular

Metrik	Değer
Etiket-içi outlier	6.653 kayıt (%13,4)
Eksik etiket önerisi	1.498 kayıt (%3,0)
Küçük etiketli kayıt	71 kayıt (%0,1)

5.3 Doğrulama Örnekleri — MUTLAKA_INCELE (2.489 kayıt)

Aşağıda en yüksek şüphe skoruna sahip kayıtlardan 5 örnek verilmektedir:

Z-skor	Mesafe	Gap	Mevcut Etiket	Önerilen Etiket	Tez Başlığı
+2,025	0,714	+0,190	Anestezi ve Reanimasyon	Fiziksel Tıp ve Rehabilitasyon	Fibromiyalji tedavisinde major ozon otohemoterapi etkinliğinin retrospektif ince…
+1,980	0,734	+0,161	Eğitim ve Öğretim	Uluslararası İlişkiler	Bilim diplomasisinde Türkiye ve İngiltere'nin politikaları ve uygulamaları
+1,719	0,707	+0,130	Mühendislik Bilimleri	Bilgisayar Mühendisliği	Görme engelliler için bir artırılmış gerçeklik uygulaması geliştirilmesi
+1,690	0,657	+0,171	Kulak Burun ve Boğaz	Plastik ve Rekonstrüktif Cerrahi	Septorinoplasti operasyonunda kullanılan, enjekte edilebilir trombositten zengin…
+1,583	0,690	+0,115	Peyzaj Mimarlığı	Sosyoloji	Göçmen, mülteci ve geçici koruma altındaki çocukların oyuna erişimlerinin değerl…

Niteliksel değerlendirme: Bu örnekler incelendiğinde şüphe sinyallerinin anlamlı olduğu görülmektedir. Örneğin "Bilim diplomasisi" konulu tezin "Eğitim ve Öğretim" yerine "Uluslararası İlişkiler" olarak etiketlenmesi daha uygun görünmektedir. Benzer şekilde "Artırılmış gerçeklik uygulaması" geliştiren bir tezin "Mühendislik Bilimleri" yerine "Bilgisayar Mühendisliği" etiketi alması daha spesifik ve doğru olacaktır. Ancak bazı vakalar tartışmalıdır: "Fibromiyalji tedavisi" tezi hem Anestezi hem Fiziksel Tıp alanına girebilir; burada yanlış etiket değil, eksik etiket söz konusu olabilir.

5.4 Doğrulama Örnekleri — ETIKET_DEGISIKLIK_ONERISI (637 kayıt)

Z-skor	Mesafe	Gap	Mevcut Etiket	Önerilen Etiket	Tez Başlığı
+1,313	0,567	+0,219	Ulaşım; İşletme	Sivil Havacılık	Finansal oranları kullanarak havayollarının performans değerlendirmesi
+1,219	0,568	+0,196	Fizik ve Fizik Mühendisliği	Polimer Bilim ve Teknolojisi	Şekil hatırlamalı polimer karışımların üretilmesi ve termal özelliklerinin incel…
+1,202	0,591	+0,171	İşletme	Ekonometri	Jeopolitik riskler, politika belirsizliği, finansal stres ve borsa volatilite ya…
+1,079	0,577	+0,157	Anestezi ve Reanimasyon	Nefroloji	Renal replasman tedavi uygulamasının COVID-19 yoğun bakım hastalarının mortalite…
+1,078	0,578	+0,156	Radyoloji ve Nükleer Tıp	Kardiyoloji	Sol ventrikül ejeksiyon fraksiyon değerinin koroner arter çapları ile ilişkisini…

Niteliksel değerlendirme: Bu kategorideki öneriler genellikle tutarlıdır. "Havayolu performans değerlendirmesi" tezi için "Sivil Havacılık" etiketi açık bir iyileştirmedir. "Polimer karışımlar" tezinin Fizik yerine Polimer Bilimi olarak etiketlenmesi daha spesifiktir. Tıbbi tezlerde ise sınırlar daha belirsizdir; bu kayıtlar mevcut etiketin yanlış olduğundan çok eksik etiket durumuna işaret edebilir.

5.5 Doğrulama Örnekleri — SORUN_YOK (24.854 kayıt)

Z-skor	Mesafe	Gap	Mevcut Etiket	Tez Başlığı
−0,972	0,393	−0,118	Ziraat	Bazı ayva klon anaçlarının muşmulada büyüme, meyve verim ve kalitesi üzerine etk…
−0,720	0,445	−0,113	Çevre Mühendisliği	Impact of different inoculum sources on performance of MBRs for municipal wastew…
−0,284	0,532	−0,101	Hukuk	Müdafilik ve müdafi ile savunulma hakkı
−0,211	0,462	−0,017	Tarih	1338-1340 (1922-1924) Antalya Eytam Sandığına mahsus İdane Defterinin transkrips…
−0,148	0,487	−0,027	İşletme	Yatırımcı duyarlılığı ile borsa endeksleri arasındaki ilişkinin incelenmesi

Niteliksel değerlendirme: SORUN_YOK örnekleri incelendiğinde etiketlerin içerikle tutarlı olduğu görülmektedir. Ziraat tezinin konusu açıkça tarım, Hukuk tezinin konusu savunma hakkı, Tarih tezinin konusu Osmanlı dönemi defter transkripsiyonudur. Negatif gap değerleri (−0,101 ile −0,017 arası) mevcut etiketin en yakın alternatiften daha uygun olduğunu teyit etmektedir.

6. Deney 1 ve Deney 2 Karşılaştırma Özeti

Boyut	Deney 1	Deney 2
Toplam kayıt	50.000	49.815
Tekil etiket	199	195 (3 duplike birleştirildi, 1 filtrelendi)
Normalizasyon	Sabit cap (0,50 / 0,20)	Z-score (veriden: μ=0,5011 σ=0,0918)
Eşik yöntemi	Sabit (0,7 / 0,4 / 0,2)	Percentile (P50 / P75 / P90 / P95)
SORUN_YOK	61 (%0,1)	24.854 (%49,9)
MUTLAKA_INCELE	4.605 (%9,2)	2.489 (%5,0)
ETIKET_DEGISIKLIK_ONERISI	2.527 (%5,1)	637 (%1,3)
Küçük etiket ayrıştırma	Yok	71 kayıt ayrı kategori
Duplike birleştirme	Yok	12.883 kayıtta uygulandı
Teşhis raporu	Yok	Ham skor dağılımı + percentile
Doğrulama örnekleri	Yok	Her kategoriden 5'er örnek

7. Sınırlılıklar ve Gelecek Çalışma

7.1 Mevcut Sınırlılıklar

Percentile yaklaşımı göreceli sıralama yapar, mutlak kalite ölçmez. Her çalıştırmada en kötü %5 mutlaka MUTLAKA_INCELE çıkacaktır — veri tamamen temiz olsa bile. Bu, sistemin "en kötü %5" mantığıyla çalışmasının doğal sonucudur.
Centroid tek bir nokta ile temsil edilir. Bir etiketin tüm kayıtları tek bir centroid'le temsil edilmek, etiket içi alt grupları (sub-clusters) gizler. Örneğin "Bilgisayar Mühendisliği" hem yapay zeka hem ağ güvenliği tezlerini içerir; tek centroid ikisinin ortasında kalır.
%44,6'lık pozitif gap oranı. Tezlerin neredeyse yarısında başka bir etiketin centroid'ine daha yakın olması dikkat çekicidir. Bu kısmen multi-label yapıdan, kısmen de 195 etiketin bazılarının birbirine çok yakın olmasından (ör. İşletme ↔ Ekonometri, Anestezi ↔ Nefroloji) kaynaklanmaktadır.
Embedding modeli bağımlılığı. Tüm analiz F2LLM embedding'lerine (2048 boyut) dayanmaktadır. Farklı bir model farklı mesafe dağılımı üretecektir.
Duplike etiket tespiti elle yapılmıştır. Otomatik duplike tespit mekanizması mevcut değildir.

7.2 Gelecek Çalışma Önerileri

İnsan doğrulaması ile precision ölçümü: MUTLAKA_INCELE'den rastgele 100 kayıt elle incelenerek "gerçekten sorunlu mu" precision değeri hesaplanabilir. Bu değer %70'in üzerindeyse sistem güvenilir kabul edilebilir.
Mutlak Z-skor alt sınırı: Percentile üzerine ek olarak, belirli bir Z-skor altındaki (ör. z < −0,5) kayıtları koşulsuz SORUN_YOK olarak işaretleyen bir güvenli bölge tanımlanabilir.
Etiket-içi alt kümeleme: Büyük etiketlerin (1000+ kayıt) centroid'i yerine HDBSCAN ile alt kümeler bulunup her alt küme için ayrı centroid hesaplanabilir.
Otomatik duplike etiket tespiti: Etiket centroid'leri arasındaki cosine benzerlik matrisinden yüksek benzerlikli çiftler (ör. > 0,85) otomatik olarak raporlanabilir.
Çoklu embedding modeli karşılaştırması: Aynı analiz bge-m3, multilingual-e5-large gibi modellerle tekrarlanarak model bağımsız tutarlılık kontrol edilebilir.
Eksik etiket önerilerinin entegrasyonu: 1.498 eksik etiket önerisi, mevcut outlier tespiti ile birleştirilerek "yanlış etiket mi yoksa eksik etiket mi" ayrımı yapılabilir.