SPECTER2 Modeli: Detaylı Teknik Rapor

Kaynak makale: Singh, D'Arcy, Cohan, Downey ve Feldman — SPECTER2: Document-level Representation Learning using Citation-informed Transformers with Multi-task and Multi-format Training (EMNLP 2023 bağlamındaki SciRepEval hattı).
İlgili bağlantılar: SPECTER2 GitHub · SciRepEval GitHub · SciRepEval ACL
Üst sayfa: 35_Kaynaklar/README.md
Tamamlayıcı rapor: SciRepEval — Görevler ve Veri Kümeleri Instruction-following tamamlayıcısı: SciRIFF — Talimat İzleme Kaynağı

1. SPECTER2 Nedir?

SPECTER2, Allen Institute for AI (AI2) tarafından geliştirilen, bilimsel makaleler için çok formatlı (multi-format) doküman temsil modelleri ailesidir. 2020'de yayımlanan orijinal SPECTER modelinin halefi olarak tasarlanmıştır ve bilimsel bir makalenin başlık ile özetini girdi alarak makaleyi sabit boyutlu bir vektöre (embedding) dönüştürür.

SPECTER2'yi diğer doküman temsil modellerinden ayıran üç temel özellik vardır:

  1. Geniş alan kapsamı: 23 farklı bilimsel alanı (Tıp, Bilgisayar Bilimi, Biyoloji, Kimya, Sanat, Tarih, vb.) kapsayan eğitim verisi
  2. Çok formatlı tasarım: Aynı makale için farklı görev türlerine (sınıflandırma, regresyon, yakınlık, arama) özel embedding'ler üretebilme
  3. Genelleme yeteneği: Eğitilmediği görevlerde dahi önceki SOTA modellerinden daha iyi performans

Model ailesi şu varyantlardan oluşur:

Varyant Açıklama Embedding Sayısı
SPECTER2 Base Sadece atıf üçlüleriyle eğitilmiş temel model 1
MTL CLS Tek embedding, çok görevli eğitim 1
MTL CTRL Kontrol kodları ile format başına embedding 4 (format başına)
Adapters Her format için ayrı adaptör modülleri 4 (format başına)
PALs Projected Attention Layers 4 (format başına)
Fusion Adapter Fusion mimarisi 4 (format başına)
Adapters + MTL CTRL İki yaklaşımın ortalaması (ensemble) 4 (format başına)

2. SPECTER2 Neden Geliştirildi?

Önceki Modellerin Sınırlamaları

Yazarlar, mevcut bilimsel doküman temsil modellerinin (SPECTER ve SciNCL) iki temel zafiyetine dikkat çekmiştir:

a) Dar alan kapsamı: SPECTER ve SciNCL'in ön eğitim verisinin yaklaşık %70'i yalnızca iki alandan (Bilgisayar Bilimi ve Biyomedikal) gelmektedir. Tablo 9'daki SciDocs verileriyle karşılaştırıldığında, bu durum modeli diğer alanlarda zayıf bırakır.

b) Zayıf genelleme: Medic ve Snajder (2022), MDCR atıf öneri kıyaslamasında BM25'in (klasik bir sözcük tabanlı yöntem) hem SPECTER'i hem SciNCL'i Bilgisayar Bilimi ve BioMed dışındaki tüm alanlarda geride bıraktığını göstermiştir. Bu, sinirsel modellerin alan dışı genellemede güçlük çektiğini ortaya koymuştur.

c) Tek embedding sorunu: Mevcut yaklaşımlar her makale için tek bir vektör üretir. Yazarların hipotezi şudur: Tek bir vektör, çok çeşitli görev türlerinde (sınıflandırma, arama, regresyon) genellenebilecek tüm bilgiyi yoğunlaştıramaz. Sınıflandırma için ideal bir vektör uzayı, en yakın komşu aramasında o kadar iyi olmayabilir.


3. SPECTER2 Base: Temel Modelin Eğitimi

SPECTER2 Base, çok formatlı varyantların üzerine inşa edildiği temel modeldir. Eğitim süreci aşağıdaki gibidir:

Eğitim Yöntemi

Cohan et al. (2020)'in SPECTER yaklaşımına benzer şekilde, atıf temelli üçlü kayıp (triplet loss) kullanılır. Ancak iki önemli farkla:

  1. 10 kat daha fazla veri: SPECTER'a göre çok daha büyük bir eğitim seti
  2. 23 alana yayılan çeşitlilik: Tek bir alanın hakimiyetini kıran dengeli dağılım

Eğitim Verisi Yapısı

Her sorgu makalesi için en fazla 10 üçlü üretilir. Her üçlü bir sorgu, bir pozitif aday ve bir negatif adaydan oluşur:

Pozitif adaylar: Sorgu makalesinin doğrudan atıfta bulunduğu makaleler

Kolay negatif adaylar (6 adet): Çalışma alanına göre seçilir - 4 tanesi sorgu ile aynı çalışma alanından - 2 tanesi sorgu ile farklı çalışma alanından

Zor negatif adaylar (4 adet): Sorgu makalesinin atıflarının atıfları arasından seçilir, ancak sorgunun kendisi tarafından atıf yapılmamış olanlar

Ek olarak, SciNCL üçlüleri de bu eğitim verisinin alt kümesi olarak dahil edilmiştir.

Veri Boyutları

Bu veriler topluluğa açık kaynak olarak yayımlanmıştır.

Triplet Margin Loss

Eğitim, aşağıdaki üçlü kayıp fonksiyonu ile yapılır:

L_triplet = max{ d(Q_E, P+_E) - d(Q_E, P-_E) + ε, 0 }

Burada: - Q_E: Sorgu embedding'i - P+_E: Pozitif aday embedding'i - P-_E: Negatif aday embedding'i - d: Öklid mesafesi - ε: Margin parametresi (deneylerde 1 olarak belirlenmiş)

Amaç, sorguya pozitif adayın negatif adaydan en az ε kadar daha yakın olmasını sağlamaktır.

Robustluk: Özet Olmadan Eğitim

Bazı kaynaklarda makale özetleri eksik olabilir. Bu duruma karşı robustluk sağlamak için, eğitim sırasında makalelerin %5'i için sadece başlık kullanılır, özet işlenmez. Bu sayede özet eksik makalelerde de modelin makul performans göstermesi hedeflenir.


4. Çok Formatlı Eğitim: SPECTER2'nin Asıl Yeniliği

SPECTER2 Base eğitildikten sonra, SciRepEval'in 8 büyük in-train görevi üzerinde çok formatlı pre-fine-tuning uygulanır. Bu adım modelin görev formatlarına özelleşmesini sağlar.

Eğitim Verisi

8 in-train görev şunlardır:

Yakınlık ve arama görevleri için her sorguya ait aday havuzundan sorgu başına en fazla 5 örnek üretilir. Her görevden maksimum 600.000 örnek alınır. Toplam:

Format Başına Kayıp Fonksiyonları

SPECTER2, her görev formatı için uygun bir kayıp fonksiyonu kullanır:

Format Kayıp Fonksiyonu Notlar
Sınıflandırma (çok sınıflı) Cross-Entropy Doğrusal başlık
Sınıflandırma (çok etiketli) Sigmoid + Binary Cross-Entropy Doğrusal başlık
Regresyon Mean Squared Error (MSE) Doğrusal başlık
Yakınlık ve Ad-hoc Arama Triplet Margin Loss Öklid mesafesi

Önemli not: Sınıflandırma ve regresyon için kullanılan doğrusal başlıklar yalnızca eğitim sırasında kullanılır; eğitim sonrası atılırlar. Çünkü amaç, başlıkları kullanarak embedding modelini şekillendirmektir, başlıkların kendisini değil.

Task-Heterogeneous Batching

Eğitim, Aghajanyan et al. (2021)'in task-heterogeneous batching stratejisi ile yapılır: her batch, tüm görevlerden eşit sayıda örnek içerir. Yazarlar, karışık (mixed) ve sıralı (sequential) batching denemiş ancak bu strateji daha iyi sonuç vermemiştir.


5. Çok Formatlı Embedding Üretiminin İki Yöntemi

SPECTER2 ailesi, format-spesifik embedding üretmek için iki farklı yaklaşım kullanır:

5.1 Kontrol Kodları (Control Codes) — MTL CTRL

Bu yaklaşımda, her görev formatı için özel bir token model kelime dağarcığına eklenir ve girdinin başına eklenir:

Görev Formatı Girdi Formatı
Sınıflandırma concat([CLF], doc)
Regresyon concat([RGN], doc)
Yakınlık concat([PRX], doc)
Ad-hoc Arama concat([QRY]/[PRX], query/doc)

Modelin son katmanında bu kontrol kodu tokenının embedding'i doküman temsili olarak alınır ve göreve özgü başlığa beslenir.

Token başlatma stratejisi: Yazarlar üç farklı başlatma yöntemi denemiştir: - Rastgele başlatma - [CLS] tokenıyla aynı değerle başlatma - [CLS] + gürültü ile başlatma

Sonuç: Bu seçimin model performansına etkisi sınırlıdır; rastgele başlatma ortalamada en iyi sonucu vermiştir.

5.2 Adaptör Yaklaşımları

Adaptörler, transformer'ın temel parametrelerini dondurarak küçük ek modüllerin her katmana eklenmesini sağlar. SPECTER2 üç farklı adaptör mimarisi dener:

a) Standart Adapters

Her görev formatı için ayrı bir adaptör modülü eklenir. Eğitim sırasında temel encoder dondurulur, sadece adaptör parametreleri öğrenilir. Çıktı olarak adaptör üzerinden geçen [CLS] tokeninin son katman embedding'i kullanılır.

b) PALs (Projected Attention Layers)

Stickland ve Murray (2019) tarafından önerilen yöntem. Her görev formatı için adaptör + öz-dikkat (self-attention) modülleri eklenir. PALs'in farkı: temel encoder dondurulmaz, tüm ağ aynı anda eğitilir.

c) Adapter Fusion

Pfeiffer et al. (2021) tarafından önerilen iki adımlı süreç:

  1. Adım 1: Her görev formatı için ayrı adaptör eğitilir (temel encoder donuk)
  2. Adım 2: Önceki adaptörleri donuk tutan bir fusion modülü eklenir; bu modül her katmanda tüm ön eğitilmiş adaptörlere dikkat eder (fuse eder)

5.3 Ensemble: Adapters + MTL CTRL

Yazarlar, kontrol kodları ve adaptör yaklaşımlarının ortalamasını alarak birleşik bir model oluşturmuştur. Bu, deneylerde en yüksek skoru veren varyanttır. Ayrıca birleştirme (concatenation) da denenmiş ancak benzer sonuç verirken embedding boyutunu iki katına çıkardığı için tercih edilmemiştir.


6. Eğitim Yapılandırma Detayları

Donanım ve Hiperparametreler

Öğrenme Oranı

Epoch Sayıları

Kayıp Ağırlıklandırma

Yazarlar GradNorm (Chen et al., 2018) ve loss-balanced task weighting (Liu et al., 2019a) gibi gelişmiş kayıp ağırlıklandırma stratejilerini denemiştir. Ancak ön deneylerde ölçeklendirme olmadan daha iyi sonuçlar elde edildiği için bu yöntemler kullanılmamıştır.


7. Performans Sonuçları

SciRepEval Üzerindeki Sonuçlar

Tablo 2'deki temel sonuçlar (5 çekirdekli ortalama, parantez içinde standart sapma):

Model In-Train Out-of-Train Ortalama
SciBERT 51.5 60.2 58.0
SPECTER 54.7 72.0 67.5
SciNCL (önceki SOTA) 55.6 73.4 68.8
SPECTER2 Base 56.3 73.6 69.1
SPECTER2 MTL CLS 60.2 72.1 69.0
SPECTER2 MTL CTRL 62.4 73.1 70.4
SPECTER2 Adapters 62.4 73.9 70.9
SPECTER2 PALs 61.8 72.6 69.9
SPECTER2 Fusion 62.4 73.9 70.9
SPECTER2 Adapters + MTL CTRL 62.9 74.1 71.2

Önemli Gözlemler

a) SPECTER2 Base zaten önceki SOTA'yı geçti: Sadece daha çok ve çeşitli atıf verisiyle eğitim, SciNCL'i 0.3 puan geçmek için yeterli (69.1 vs 68.8).

b) Tek embedding yetersiz: MTL CLS, çok görevli eğitime rağmen sadece 69.0 elde ediyor; in-train'de iyileşme var (60.2) ama out-of-train'de kötüleşme var (72.1). Bu, tek embedding hipotezini doğruluyor.

c) Format-spesifik embedding'ler güçlü: MTL CTRL, Adapters, PALs ve Fusion'un hepsi MTL CLS'i 1.4-2 puan arasında geçiyor. En iyisi Adapters + MTL CTRL ensemble'ı (71.2 puan).

d) ANOVA + Tukey testi sonucu: İstatistiksel olarak Adapters, Fusion ve Adapters + MTL CTRL aralarında anlamlı fark yoktur (alpha = 0.05). Yani tek bir "kazanan" değil, üst seviyede üç eşdeğer varyant vardır.

MDCR Atıf Öneri Kıyaslaması

Medic ve Snajder (2022)'in MDCR kıyaslamasında BM25 önceki nöral modelleri geçmişti. SPECTER2 bu durumu tersine çeviriyor:

Model MAP R@5
BM-25 33.7 28.5
SPECTER2 Base 38.0 32.4
SPECTER2 MTL CLS 34.6 24.9
SPECTER2 MTL CTRL 36.5 30.7
SPECTER2 Adapters 38.4 33.0
SPECTER2 Adapters + MTL CTRL 38.4 32.9

Yazarlar, eğitim verisinde MDCR makalelerinin %23'ünün bulunduğunu (ancak atıf bağlantılarının değil) belirterek transdüktif avantaj olabileceğini şeffaf şekilde paylaşmıştır.


8. Kontrol Kodlarının Uzmanlaşması

Yazarların temel hipotezi şudur: Bir formatta eğitilen embedding o formatta en iyi performansı gösterir. Bu, Tablo 3'te doğrulanmıştır.

Out-of-Train Görevlerinde (Test Edilenler: DRSM, Peer Review Score, Paper-Reviewer Matching, TREC-CoVID)

Görev Formatı [CLF] [RGN] [PRX] [QRY]
Sınıflandırma 64.8 63.6 62.8 63.7
Regresyon 16.9 22.2 17.8 16.1
Yakınlık 43.8 40.5 45.1 45.2
Ad-hoc Arama 87.4 83.1 90.3 90.9

Köşegendeki değerler en yüksektir. Yani [CLF] kontrol kodu sınıflandırmada en iyi, [QRY] aramada en iyi sonucu veriyor. Bu, format-tabanlı bölümlemenin gerçekten faydalı olduğunu gösteriyor.

Rastgele Bölümleme Karşılaştırması

Yazarlar, görevleri rastgele 5 farklı şekilde gruplayarak alternatif kontrol kodları eğitmiştir. Sonuç: Format-tabanlı bölümleme ortalamada 2.7 puan daha iyi.


9. Verimlilik Analizi

Tablo 4'teki parametre ve runtime karşılaştırması:

Model Format Başına Parametre Eğitim Süresi (göreli) Çıkarım Süresi (göreli)
MTL CTRL 768 1x 1x
Adapters 1M 0.96x 1.05x
PALs 2M 1.42x 1.29x
Fusion 22M 1.32x 1.69x
Adapters + MTL CTRL 1M 1.96x 2.05x

Pratik Öneriler

Yazarlar bu pratik gerekçelerle SPECTER2 Base ve en iyi Adapters varyantını açık kaynak olarak yayımlamayı tercih etmiştir.


10. Alternatif Temel Modellerle Tutarlılık

Çok formatlı eğitim yaklaşımının SPECTER2 Base'e özel olmadığını göstermek için, yazarlar SPECTER ve SciNCL'i de temel model olarak kullanarak aynı eğitim sürecini tekrarlamıştır:

Temel Model MTL CLS MTL CTRL Adapters Adapters + MTL CTRL
SPECTER 68.6 69.9 70.2 70.6
SciNCL 68.8 70.1 70.7 71.0
SPECTER2 Base 69.0 70.4 70.9 71.2

Sonuç: Format-spesifik embedding yaklaşımı temel modelden bağımsız olarak tek embedding yaklaşımını geçiyor. Bu, yöntemin genel uygulanabilirliğini gösteriyor.


11. Veri Çeşitliliği

SPECTER2 eğitim verisinin çalışma alanlarına göre dağılımı (Tablo 9'dan seçilmiş):

Çalışma Alanı SPECTER2 SPECTER (SciDocs) Artış
Tıp 3,201,323 74,685 43x
Bilgisayar Bilimi 1,187,689 199,664 6x
Biyoloji 882,357 13,377 66x
Kimya 508,056 3,813 133x
Sanat 89,527 206 435x
Felsefe 61,996 151 411x
Tarih 46,430 159 292x

Ortalama artış oranı: Alan başına 105 kat daha fazla doküman. Özellikle Sanat, Felsefe, Tarih gibi humanities alanlarında 290-435 kat artış göze çarpıyor. Bu, modeli geleneksel "STEM ağırlıklı" doküman embedding modellerinden ayıran kritik özelliktir.


12. Sınırlamalar

Yazarların kendi belirttiği sınırlamalar:

a) Kısa metin bağımlılığı: Model yalnızca başlık ve özetleri kullanır. Tam metin denenmemiştir; metaveri (yazarlar, mekan, atıflar) bazı görevlerde (Search, Citation Prediction) kullanılır ama tutarlı değildir.

b) Format bölümleme tek seçenek değil: Görevlerin formatlara göre bölünmesi yazarların sezgisidir. Author-based görevler için ayrı bir format denenmiş ama Same Author Detection'ı yakınlık formatına dahil etmek daha iyi sonuç vermiştir. Diğer bölümleme şemaları araştırma için açık kalmıştır.

c) MDCR transdüktif avantaj şüphesi: MDCR test setinin %23'ü SPECTER2 eğitim verisinde bulunmaktadır.

d) Gerçek dünya doğrulaması eksik: Kıyaslama skorlarındaki iyileşmenin gerçek bir öneri/arama uygulamasında A/B testlerinde de iyileşme yaratıp yaratmadığı doğrulanmamıştır.


13. Özet ve Çıkarımlar

SPECTER2'nin temel katkılarını şöyle özetleyebiliriz:

  1. Daha geniş ve dengeli alan kapsamı: 23 alana yayılan 6.2M üçlü ile eğitilmiş yeni temel model (SPECTER2 Base)
  2. Çok formatlı temsil paradigması: Tek embedding yerine format başına embedding üreterek genelleme yeteneğini artırma
  3. İki pratik yöntem: Kontrol kodları (verimli) ve adaptörler (esnek) ile aynı amaca farklı maliyet-performans dengelerinde ulaşma
  4. 2+ puan mutlak iyileşme: Önceki SOTA modeli SciNCL'e karşı SciRepEval'de net üstünlük
  5. MDCR'da yeni SOTA: BM25'i çoğu alanda geçen ilk nöral model
  6. Açık kaynak: SPECTER2 Base + en iyi Adapters varyantı topluluğa açılmıştır (github.com/allenai/SPECTER2)

Mimari Özet

Girdi: [Format Token] + Başlık + [SEP] + Özet
                ↓
        Transformer Encoder (SPECTER2 Base)
                ↓
       (Opsiyonel: Format-Spesifik Adaptör)
                ↓
              Embedding (768-d)
                ↓
   Görev-Spesifik Başlık (sadece eğitim sırasında)
                ↓
        Format-Uygun Kayıp Fonksiyonu
   (CE / BCE / MSE / Triplet Margin)

SPECTER2, bilimsel doküman temsillerinin ne tek bir vektörle her şeyi ifade etmek zorunda olduğu ne de görev başına tamamen ayrı modeller eğitmek gerektiği orta yolunu temsil eder. Format-spesifik temsilcilik, hem genelleme yeteneği hem hesaplama verimliliği açısından dengeyi yakalar.


ULAKBIM Bağlamında Notlar