SPECTER2 Modeli: Detaylı Teknik Rapor

Kaynak makale: Singh, D'Arcy, Cohan, Downey ve Feldman — SPECTER2: Document-level Representation Learning using Citation-informed Transformers with Multi-task and Multi-format Training (EMNLP 2023 bağlamındaki SciRepEval hattı).
İlgili bağlantılar: SPECTER2 GitHub · SciRepEval GitHub · SciRepEval ACL
Üst sayfa: 35_Kaynaklar/README.md
Tamamlayıcı rapor: SciRepEval — Görevler ve Veri Kümeleri Instruction-following tamamlayıcısı: SciRIFF — Talimat İzleme Kaynağı

1. SPECTER2 Nedir?

SPECTER2, Allen Institute for AI (AI2) tarafından geliştirilen, bilimsel makaleler için çok formatlı (multi-format) doküman temsil modelleri ailesidir. 2020'de yayımlanan orijinal SPECTER modelinin halefi olarak tasarlanmıştır ve bilimsel bir makalenin başlık ile özetini girdi alarak makaleyi sabit boyutlu bir vektöre (embedding) dönüştürür.

SPECTER2'yi diğer doküman temsil modellerinden ayıran üç temel özellik vardır:

Geniş alan kapsamı: 23 farklı bilimsel alanı (Tıp, Bilgisayar Bilimi, Biyoloji, Kimya, Sanat, Tarih, vb.) kapsayan eğitim verisi
Çok formatlı tasarım: Aynı makale için farklı görev türlerine (sınıflandırma, regresyon, yakınlık, arama) özel embedding'ler üretebilme
Genelleme yeteneği: Eğitilmediği görevlerde dahi önceki SOTA modellerinden daha iyi performans

Model ailesi şu varyantlardan oluşur:

Varyant	Açıklama	Embedding Sayısı
SPECTER2 Base	Sadece atıf üçlüleriyle eğitilmiş temel model	1
MTL CLS	Tek embedding, çok görevli eğitim	1
MTL CTRL	Kontrol kodları ile format başına embedding	4 (format başına)
Adapters	Her format için ayrı adaptör modülleri	4 (format başına)
PALs	Projected Attention Layers	4 (format başına)
Fusion	Adapter Fusion mimarisi	4 (format başına)
Adapters + MTL CTRL	İki yaklaşımın ortalaması (ensemble)	4 (format başına)

2. SPECTER2 Neden Geliştirildi?

Önceki Modellerin Sınırlamaları

Yazarlar, mevcut bilimsel doküman temsil modellerinin (SPECTER ve SciNCL) iki temel zafiyetine dikkat çekmiştir:

a) Dar alan kapsamı: SPECTER ve SciNCL'in ön eğitim verisinin yaklaşık %70'i yalnızca iki alandan (Bilgisayar Bilimi ve Biyomedikal) gelmektedir. Tablo 9'daki SciDocs verileriyle karşılaştırıldığında, bu durum modeli diğer alanlarda zayıf bırakır.

b) Zayıf genelleme: Medic ve Snajder (2022), MDCR atıf öneri kıyaslamasında BM25'in (klasik bir sözcük tabanlı yöntem) hem SPECTER'i hem SciNCL'i Bilgisayar Bilimi ve BioMed dışındaki tüm alanlarda geride bıraktığını göstermiştir. Bu, sinirsel modellerin alan dışı genellemede güçlük çektiğini ortaya koymuştur.

c) Tek embedding sorunu: Mevcut yaklaşımlar her makale için tek bir vektör üretir. Yazarların hipotezi şudur: Tek bir vektör, çok çeşitli görev türlerinde (sınıflandırma, arama, regresyon) genellenebilecek tüm bilgiyi yoğunlaştıramaz. Sınıflandırma için ideal bir vektör uzayı, en yakın komşu aramasında o kadar iyi olmayabilir.

3. SPECTER2 Base: Temel Modelin Eğitimi

SPECTER2 Base, çok formatlı varyantların üzerine inşa edildiği temel modeldir. Eğitim süreci aşağıdaki gibidir:

Eğitim Yöntemi

Cohan et al. (2020)'in SPECTER yaklaşımına benzer şekilde, atıf temelli üçlü kayıp (triplet loss) kullanılır. Ancak iki önemli farkla:

10 kat daha fazla veri: SPECTER'a göre çok daha büyük bir eğitim seti
23 alana yayılan çeşitlilik: Tek bir alanın hakimiyetini kıran dengeli dağılım

Eğitim Verisi Yapısı

Her sorgu makalesi için en fazla 10 üçlü üretilir. Her üçlü bir sorgu, bir pozitif aday ve bir negatif adaydan oluşur:

Pozitif adaylar: Sorgu makalesinin doğrudan atıfta bulunduğu makaleler

Kolay negatif adaylar (6 adet): Çalışma alanına göre seçilir - 4 tanesi sorgu ile aynı çalışma alanından - 2 tanesi sorgu ile farklı çalışma alanından

Zor negatif adaylar (4 adet): Sorgu makalesinin atıflarının atıfları arasından seçilir, ancak sorgunun kendisi tarafından atıf yapılmamış olanlar

Ek olarak, SciNCL üçlüleri de bu eğitim verisinin alt kümesi olarak dahil edilmiştir.

Veri Boyutları

Eğitim: 6.2 milyon üçlü
Doğrulama: 176.000 üçlü

Bu veriler topluluğa açık kaynak olarak yayımlanmıştır.

Triplet Margin Loss

Eğitim, aşağıdaki üçlü kayıp fonksiyonu ile yapılır:

L_triplet = max{ d(Q_E, P+_E) - d(Q_E, P-_E) + ε, 0 }

Burada: - Q_E: Sorgu embedding'i - P+_E: Pozitif aday embedding'i - P-_E: Negatif aday embedding'i - d: Öklid mesafesi - ε: Margin parametresi (deneylerde 1 olarak belirlenmiş)

Amaç, sorguya pozitif adayın negatif adaydan en az ε kadar daha yakın olmasını sağlamaktır.

Robustluk: Özet Olmadan Eğitim

Bazı kaynaklarda makale özetleri eksik olabilir. Bu duruma karşı robustluk sağlamak için, eğitim sırasında makalelerin %5'i için sadece başlık kullanılır, özet işlenmez. Bu sayede özet eksik makalelerde de modelin makul performans göstermesi hedeflenir.

4. Çok Formatlı Eğitim: SPECTER2'nin Asıl Yeniliği

SPECTER2 Base eğitildikten sonra, SciRepEval'in 8 büyük in-train görevi üzerinde çok formatlı pre-fine-tuning uygulanır. Bu adım modelin görev formatlarına özelleşmesini sağlar.

Eğitim Verisi

8 in-train görev şunlardır:

Sınıflandırma (CLF): MeSH Descriptors, Fields of Study (FoS)
Regresyon (RGN): Citation Count, Year of Publication
Yakınlık (PRX): Same Author Detection, Highly Influential Citations, Citation Prediction Triplets
Ad-hoc Arama (SRCH): Search

Yakınlık ve arama görevleri için her sorguya ait aday havuzundan sorgu başına en fazla 5 örnek üretilir. Her görevden maksimum 600.000 örnek alınır. Toplam:

Eğitim seti: 3.27 milyon örnek
Doğrulama seti: 446.000 örnek

Format Başına Kayıp Fonksiyonları

SPECTER2, her görev formatı için uygun bir kayıp fonksiyonu kullanır:

Format	Kayıp Fonksiyonu	Notlar
Sınıflandırma (çok sınıflı)	Cross-Entropy	Doğrusal başlık
Sınıflandırma (çok etiketli)	Sigmoid + Binary Cross-Entropy	Doğrusal başlık
Regresyon	Mean Squared Error (MSE)	Doğrusal başlık
Yakınlık ve Ad-hoc Arama	Triplet Margin Loss	Öklid mesafesi

Önemli not: Sınıflandırma ve regresyon için kullanılan doğrusal başlıklar yalnızca eğitim sırasında kullanılır; eğitim sonrası atılırlar. Çünkü amaç, başlıkları kullanarak embedding modelini şekillendirmektir, başlıkların kendisini değil.

Task-Heterogeneous Batching

Eğitim, Aghajanyan et al. (2021)'in task-heterogeneous batching stratejisi ile yapılır: her batch, tüm görevlerden eşit sayıda örnek içerir. Yazarlar, karışık (mixed) ve sıralı (sequential) batching denemiş ancak bu strateji daha iyi sonuç vermemiştir.

5. Çok Formatlı Embedding Üretiminin İki Yöntemi

SPECTER2 ailesi, format-spesifik embedding üretmek için iki farklı yaklaşım kullanır:

5.1 Kontrol Kodları (Control Codes) — MTL CTRL

Bu yaklaşımda, her görev formatı için özel bir token model kelime dağarcığına eklenir ve girdinin başına eklenir:

Görev Formatı	Girdi Formatı
Sınıflandırma	`concat([CLF], doc)`
Regresyon	`concat([RGN], doc)`
Yakınlık	`concat([PRX], doc)`
Ad-hoc Arama	`concat([QRY]/[PRX], query/doc)`

Modelin son katmanında bu kontrol kodu tokenının embedding'i doküman temsili olarak alınır ve göreve özgü başlığa beslenir.

Token başlatma stratejisi: Yazarlar üç farklı başlatma yöntemi denemiştir: - Rastgele başlatma - [CLS] tokenıyla aynı değerle başlatma - [CLS] + gürültü ile başlatma

Sonuç: Bu seçimin model performansına etkisi sınırlıdır; rastgele başlatma ortalamada en iyi sonucu vermiştir.

5.2 Adaptör Yaklaşımları

Adaptörler, transformer'ın temel parametrelerini dondurarak küçük ek modüllerin her katmana eklenmesini sağlar. SPECTER2 üç farklı adaptör mimarisi dener:

a) Standart Adapters

Her görev formatı için ayrı bir adaptör modülü eklenir. Eğitim sırasında temel encoder dondurulur, sadece adaptör parametreleri öğrenilir. Çıktı olarak adaptör üzerinden geçen [CLS] tokeninin son katman embedding'i kullanılır.

b) PALs (Projected Attention Layers)

Stickland ve Murray (2019) tarafından önerilen yöntem. Her görev formatı için adaptör + öz-dikkat (self-attention) modülleri eklenir. PALs'in farkı: temel encoder dondurulmaz, tüm ağ aynı anda eğitilir.

c) Adapter Fusion

Pfeiffer et al. (2021) tarafından önerilen iki adımlı süreç:

Adım 1: Her görev formatı için ayrı adaptör eğitilir (temel encoder donuk)
Adım 2: Önceki adaptörleri donuk tutan bir fusion modülü eklenir; bu modül her katmanda tüm ön eğitilmiş adaptörlere dikkat eder (fuse eder)

5.3 Ensemble: Adapters + MTL CTRL

Yazarlar, kontrol kodları ve adaptör yaklaşımlarının ortalamasını alarak birleşik bir model oluşturmuştur. Bu, deneylerde en yüksek skoru veren varyanttır. Ayrıca birleştirme (concatenation) da denenmiş ancak benzer sonuç verirken embedding boyutunu iki katına çıkardığı için tercih edilmemiştir.

6. Eğitim Yapılandırma Detayları

Donanım ve Hiperparametreler

Donanım: 2 × 48GB NVIDIA Quadro RTX 8000 GPU
Precision: 16-bit
Etkili batch size: 256
Maksimum girdi uzunluğu: 512 token
Optimizer: AdamW (ε = 1e-8)
Loshchilov ve Hutter (2019)'un weight decay düzenlemesi

Öğrenme Oranı

Schedule: Inverse square root
Warmup: 700 adım (lineer)
Tepe değer: 5e-5

Epoch Sayıları

Temel modeller (MTL CLS, MTL CTRL): 2 epoch
Adapter Fusion (Adım 1 - tekil adaptörler): En fazla 6 epoch
Adapter Fusion (Adım 2 - fusion): En fazla 4 epoch
PALs: 2 epoch (tüm ağ)

Kayıp Ağırlıklandırma

Yazarlar GradNorm (Chen et al., 2018) ve loss-balanced task weighting (Liu et al., 2019a) gibi gelişmiş kayıp ağırlıklandırma stratejilerini denemiştir. Ancak ön deneylerde ölçeklendirme olmadan daha iyi sonuçlar elde edildiği için bu yöntemler kullanılmamıştır.

7. Performans Sonuçları

SciRepEval Üzerindeki Sonuçlar

Tablo 2'deki temel sonuçlar (5 çekirdekli ortalama, parantez içinde standart sapma):

Model	In-Train	Out-of-Train	Ortalama
SciBERT	51.5	60.2	58.0
SPECTER	54.7	72.0	67.5
SciNCL (önceki SOTA)	55.6	73.4	68.8
SPECTER2 Base	56.3	73.6	69.1
SPECTER2 MTL CLS	60.2	72.1	69.0
SPECTER2 MTL CTRL	62.4	73.1	70.4
SPECTER2 Adapters	62.4	73.9	70.9
SPECTER2 PALs	61.8	72.6	69.9
SPECTER2 Fusion	62.4	73.9	70.9
SPECTER2 Adapters + MTL CTRL	62.9	74.1	71.2

Önemli Gözlemler

a) SPECTER2 Base zaten önceki SOTA'yı geçti: Sadece daha çok ve çeşitli atıf verisiyle eğitim, SciNCL'i 0.3 puan geçmek için yeterli (69.1 vs 68.8).

b) Tek embedding yetersiz: MTL CLS, çok görevli eğitime rağmen sadece 69.0 elde ediyor; in-train'de iyileşme var (60.2) ama out-of-train'de kötüleşme var (72.1). Bu, tek embedding hipotezini doğruluyor.

c) Format-spesifik embedding'ler güçlü: MTL CTRL, Adapters, PALs ve Fusion'un hepsi MTL CLS'i 1.4-2 puan arasında geçiyor. En iyisi Adapters + MTL CTRL ensemble'ı (71.2 puan).

d) ANOVA + Tukey testi sonucu: İstatistiksel olarak Adapters, Fusion ve Adapters + MTL CTRL aralarında anlamlı fark yoktur (alpha = 0.05). Yani tek bir "kazanan" değil, üst seviyede üç eşdeğer varyant vardır.

MDCR Atıf Öneri Kıyaslaması

Medic ve Snajder (2022)'in MDCR kıyaslamasında BM25 önceki nöral modelleri geçmişti. SPECTER2 bu durumu tersine çeviriyor:

Model	MAP	R@5
BM-25	33.7	28.5
SPECTER2 Base	38.0	32.4
SPECTER2 MTL CLS	34.6	24.9
SPECTER2 MTL CTRL	36.5	30.7
SPECTER2 Adapters	38.4	33.0
SPECTER2 Adapters + MTL CTRL	38.4	32.9

Yazarlar, eğitim verisinde MDCR makalelerinin %23'ünün bulunduğunu (ancak atıf bağlantılarının değil) belirterek transdüktif avantaj olabileceğini şeffaf şekilde paylaşmıştır.

8. Kontrol Kodlarının Uzmanlaşması

Yazarların temel hipotezi şudur: Bir formatta eğitilen embedding o formatta en iyi performansı gösterir. Bu, Tablo 3'te doğrulanmıştır.

Out-of-Train Görevlerinde (Test Edilenler: DRSM, Peer Review Score, Paper-Reviewer Matching, TREC-CoVID)

Görev Formatı	[CLF]	[RGN]	[PRX]	[QRY]
Sınıflandırma	64.8	63.6	62.8	63.7
Regresyon	16.9	22.2	17.8	16.1
Yakınlık	43.8	40.5	45.1	45.2
Ad-hoc Arama	87.4	83.1	90.3	90.9

Köşegendeki değerler en yüksektir. Yani [CLF] kontrol kodu sınıflandırmada en iyi, [QRY] aramada en iyi sonucu veriyor. Bu, format-tabanlı bölümlemenin gerçekten faydalı olduğunu gösteriyor.

Rastgele Bölümleme Karşılaştırması

Yazarlar, görevleri rastgele 5 farklı şekilde gruplayarak alternatif kontrol kodları eğitmiştir. Sonuç: Format-tabanlı bölümleme ortalamada 2.7 puan daha iyi.

9. Verimlilik Analizi

Tablo 4'teki parametre ve runtime karşılaştırması:

Model	Format Başına Parametre	Eğitim Süresi (göreli)	Çıkarım Süresi (göreli)
MTL CTRL	768	1x	1x
Adapters	1M	0.96x	1.05x
PALs	2M	1.42x	1.29x
Fusion	22M	1.32x	1.69x
Adapters + MTL CTRL	1M	1.96x	2.05x

Pratik Öneriler

MTL CTRL, format başına sadece 1 yeni token embedding (768 parametre) ekler ve eğitim süresine etki etmez; en hafif çözümdür.
Adapters, sadece %5 daha yavaş çıkarımla benzer performans sunar; Fusion'a kıyasla 22 kat daha az parametre ile çalışır.
Fusion, en parametre yoğun yöntem olmasına rağmen Adapters ile aynı sonucu verir; bu yüzden Adapters tercih edilebilir.
Adapters + MTL CTRL ensemble, en iyi performansı veriyor ancak 2 katı eğitim/çıkarım süresine mal oluyor.

Yazarlar bu pratik gerekçelerle SPECTER2 Base ve en iyi Adapters varyantını açık kaynak olarak yayımlamayı tercih etmiştir.

10. Alternatif Temel Modellerle Tutarlılık

Çok formatlı eğitim yaklaşımının SPECTER2 Base'e özel olmadığını göstermek için, yazarlar SPECTER ve SciNCL'i de temel model olarak kullanarak aynı eğitim sürecini tekrarlamıştır:

Temel Model	MTL CLS	MTL CTRL	Adapters	Adapters + MTL CTRL
SPECTER	68.6	69.9	70.2	70.6
SciNCL	68.8	70.1	70.7	71.0
SPECTER2 Base	69.0	70.4	70.9	71.2

Sonuç: Format-spesifik embedding yaklaşımı temel modelden bağımsız olarak tek embedding yaklaşımını geçiyor. Bu, yöntemin genel uygulanabilirliğini gösteriyor.

11. Veri Çeşitliliği

SPECTER2 eğitim verisinin çalışma alanlarına göre dağılımı (Tablo 9'dan seçilmiş):

Çalışma Alanı	SPECTER2	SPECTER (SciDocs)	Artış
Tıp	3,201,323	74,685	43x
Bilgisayar Bilimi	1,187,689	199,664	6x
Biyoloji	882,357	13,377	66x
Kimya	508,056	3,813	133x
Sanat	89,527	206	435x
Felsefe	61,996	151	411x
Tarih	46,430	159	292x

Ortalama artış oranı: Alan başına 105 kat daha fazla doküman. Özellikle Sanat, Felsefe, Tarih gibi humanities alanlarında 290-435 kat artış göze çarpıyor. Bu, modeli geleneksel "STEM ağırlıklı" doküman embedding modellerinden ayıran kritik özelliktir.

12. Sınırlamalar

Yazarların kendi belirttiği sınırlamalar:

a) Kısa metin bağımlılığı: Model yalnızca başlık ve özetleri kullanır. Tam metin denenmemiştir; metaveri (yazarlar, mekan, atıflar) bazı görevlerde (Search, Citation Prediction) kullanılır ama tutarlı değildir.

b) Format bölümleme tek seçenek değil: Görevlerin formatlara göre bölünmesi yazarların sezgisidir. Author-based görevler için ayrı bir format denenmiş ama Same Author Detection'ı yakınlık formatına dahil etmek daha iyi sonuç vermiştir. Diğer bölümleme şemaları araştırma için açık kalmıştır.

c) MDCR transdüktif avantaj şüphesi: MDCR test setinin %23'ü SPECTER2 eğitim verisinde bulunmaktadır.

d) Gerçek dünya doğrulaması eksik: Kıyaslama skorlarındaki iyileşmenin gerçek bir öneri/arama uygulamasında A/B testlerinde de iyileşme yaratıp yaratmadığı doğrulanmamıştır.

13. Özet ve Çıkarımlar

SPECTER2'nin temel katkılarını şöyle özetleyebiliriz:

Daha geniş ve dengeli alan kapsamı: 23 alana yayılan 6.2M üçlü ile eğitilmiş yeni temel model (SPECTER2 Base)
Çok formatlı temsil paradigması: Tek embedding yerine format başına embedding üreterek genelleme yeteneğini artırma
İki pratik yöntem: Kontrol kodları (verimli) ve adaptörler (esnek) ile aynı amaca farklı maliyet-performans dengelerinde ulaşma
2+ puan mutlak iyileşme: Önceki SOTA modeli SciNCL'e karşı SciRepEval'de net üstünlük
MDCR'da yeni SOTA: BM25'i çoğu alanda geçen ilk nöral model
Açık kaynak: SPECTER2 Base + en iyi Adapters varyantı topluluğa açılmıştır (github.com/allenai/SPECTER2)

Mimari Özet

Girdi: [Format Token] + Başlık + [SEP] + Özet
                ↓
        Transformer Encoder (SPECTER2 Base)
                ↓
       (Opsiyonel: Format-Spesifik Adaptör)
                ↓
              Embedding (768-d)
                ↓
   Görev-Spesifik Başlık (sadece eğitim sırasında)
                ↓
        Format-Uygun Kayıp Fonksiyonu
   (CE / BCE / MSE / Triplet Margin)

SPECTER2, bilimsel doküman temsillerinin ne tek bir vektörle her şeyi ifade etmek zorunda olduğu ne de görev başına tamamen ayrı modeller eğitmek gerektiği orta yolunu temsil eder. Format-spesifik temsilcilik, hem genelleme yeteneği hem hesaplama verimliliği açısından dengeyi yakalar.

ULAKBIM Bağlamında Notlar

Bu rapor, SciRepEval-Gorevler-ve-Veri-Kumeleri.md ile birlikte okunmalıdır: SciRepEval görevleri benchmark düzeyi, SPECTER2 ise modelleme yaklaşımı düzeyidir.
Türkçe akademik model geliştirme hattında (Veri Kümesi Tasarımı), SPECTER2'nin "tek embedding yerine format-spesifik temsil" fikri doğrudan uygulanabilir bir tasarım kararıdır.
Mevcut model karşılaştırma sayfası: Embedding Modelleri.