Etiket Kalite Kontrol — Kılavuz

Problem Ne?

Elimizde yaklaşık 50.000 tez kaydı var. Her tezin bir özeti (abstract) ve kullanıcılar tarafından atanmış konu etiketleri bulunuyor. Etiketler "Bilgisayar Mühendisliği", "Tarih", "Psikoloji" gibi 198 farklı konu alanından oluşuyor.

Sorun şu: etiketler insanlar tarafından atandığı için hatalar kaçınılmaz. Bir yapay zeka tezi "Tarih" olarak etiketlenmiş olabilir, disiplinlerarası bir tezde ilgili ikinci etiket eksik bırakılmış olabilir, ya da çok niş bir konu yanlış bir genel kategoriye sokulmuş olabilir. 50.000 kaydı tek tek elle kontrol etmek mümkün değil.

Amaç: Bu hataları otomatik olarak tespit edip, insan incelemesi gereken kayıtları daraltmak.

Temel Fikir

Her tezin özetini bir yapay zeka modeli (embedding modeli) ile sayısal bir vektöre çeviriyoruz. Bu vektör, metnin anlamını yüksek boyutlu bir uzayda temsil eder. Aynı konudaki tezlerin vektörleri birbirine yakın, farklı konudakilerin vektörleri birbirinden uzak olur.

Bu özelliği kullanarak şu mantığı kuruyoruz: eğer bir tezin vektörü, atanmış etiketinin tipik vektöründen çok uzaksa, o etiket muhtemelen yanlış veya eksiktir.

Neden Kümeleme (Clustering) Değil?

İlk akla gelen yaklaşım, tüm tezleri kümeleme algoritmasıyla gruplayıp küme ile etiket uyuşmazlığına bakmaktır. Ancak bu bizim verimizde iyi çalışmıyor çünkü:

Multi-label yapı: Bir tez birden fazla konuya ait olabilir (ör. "Biyoinformatik" hem biyoloji hem bilgisayar). Kümeleme algoritmaları her kaydı tek bir kümeye atar, bu da multi-label tezleri küme sınırlarında bırakıp hepsini yanlışlıkla "aykırı" gösterir.
198 küme zorlamak zor: K-Means'e 198 küme söylediğinizde, algoritmanın bulduğu kümeler etiketlerle örtüşmeyebilir.
Küme ≠ etiket eşleşmesi: Kümeleme sonrası "bu küme hangi etiket" sorusunu cevaplamak ayrı bir problem yaratır.

Bunun yerine etiket-merkezli bir yaklaşım kullanıyoruz: kümeleme yapmıyoruz, zaten var olan etiketleri referans noktası olarak kullanıyoruz.

Nasıl Çalışıyor?

Adım 1: Centroid Hesaplama

Her etiket için, o etikete sahip tüm tezlerin vektör ortalamasını alıyoruz. Bu ortalama vektöre "centroid" diyoruz. Centroid, o konunun tipik tezini temsil eder.

"Tarih" centroid'i = 1.438 tarih tezinin vektör ortalaması
"Kimya" centroid'i = 724 kimya tezinin vektör ortalaması
...

Adım 2: Üç Şüphe Sinyali

Her tez için üç bağımsız sinyal hesaplıyoruz:

Sinyal 1 — Etiket mesafesi: Tezin vektörü ile atanmış etiketlerinin centroid'leri arasındaki uzaklık. Yüksek mesafe = tez etiketine benzemiyor.

Örnek: Bir tez "Tarih" etiketli ama vektörü Tarih centroid'inden çok uzak → şüpheli

Sinyal 2 — Daha iyi etiket var mı? Atanmamış etiketlerden herhangi biri, atanmış etiketlerden daha mı yakın? Pozitif fark = başka bir etiket daha uygun görünüyor.

Örnek: Tez "Eğitim" etiketli ama "Uluslararası İlişkiler" centroid'ine daha yakın → etiket yanlış olabilir

Sinyal 3 — Grup içi aykırı mı? Aynı etiketteki diğer tezlerle karşılaştırıldığında, bu tez grubun en uç noktasında mı? Her etiket grubunun centroid'ine en uzak %10'u aykırı olarak işaretleniyor.

Örnek: 1.438 tarih tezinden biri, Tarih centroid'ine en uzak %10'da → grup içi aykırı

Adım 3: Birleşik Skor ve Aksiyon

Üç sinyal tek bir skora birleştiriliyor. Bu skor, verinin kendi dağılımına göre (Z-score + percentile) değerlendiriliyor ve her kayda bir aksiyon atanıyor:

Aksiyon	Anlam	Ne Yapılmalı
SORUN_YOK	Etiket tutarlı görünüyor	İşlem gerektirmez
DUSUK_ONCELIK	Hafif sapma var	Toplu temizlikte bakılabilir
GOZDEN_GECIR	Orta düzey şüphe	Zaman olduğunda kontrol
ETIKET_DEGISIKLIK_ONERISI	Başka etiket daha uygun	Önerilen etiketle karşılaştır
MUTLAKA_INCELE	Yüksek şüphe	Öncelikli manuel kontrol
KUCUK_ETIKET_KONTROL	Etiketin kendisi çok az kayıtlı	Etiket güvenilirliğini değerlendir

Dikkate Alınan Özel Durumlar

Duplike etiketler: Aynı konunun farklı yazımları tespit edilip birleştirilmiştir. Örneğin "Healtcare Management" (yazım hatası) ve "Healthcare Management" aynı etiket olarak işlenmektedir.

Küçük etiketler: 10'dan az kayıtlı etiketlerin (ör. "Askeri Sağlık Hizmetleri" — 1 kayıt) centroid'i istatistiksel olarak güvenilir değildir. Bu etiketlere sahip kayıtlar ayrı değerlendirilmektedir.

Multi-label kayıtlar: Bir tez birden fazla etikete sahipse, mesafe hesabı tüm etiketlerin centroid'lerinin ortalamasına göre yapılmaktadır.

Çıktılar

Sistem dört dosya üretmektedir:

Dosya	İçerik
`outlier_report.csv`	Her tez için şüphe skoru, aksiyon önerisi, önerilen alternatif etiket
`missing_labels.csv`	Atanmamış ama çok yakın çıkan etiket önerileri
`intra_label_outliers.csv`	Kendi etiket grubu içinde aykırı olan kayıtlar
`summary.json`	Genel istatistikler ve skor dağılımı

Deneyler

Bu yaklaşım iki deney üzerinden geliştirilmiştir:

Deney 1 temel mekanizmayı kurmuş, ancak sabit eşik değerleri veriye uyum sağlayamamış ve kayıtların %99,9'unu şüpheli olarak işaretlemiştir.
Deney 2 eşikleri verinin kendi dağılımına göre otomatik kalibre eden, duplike etiketleri birleştiren ve küçük etiketleri ayrıştıran iyileştirmeler uygulamıştır.

Detaylar için: Deney 1 · Deney 2