Kaynak makale: Singh, D'Arcy, Cohan, Downey ve Feldman — SPECTER2: Document-level Representation Learning using Citation-informed Transformers with Multi-task and Multi-format Training (EMNLP 2023 bağlamındaki SciRepEval hattı).
İlgili bağlantılar: SPECTER2 GitHub · SciRepEval GitHub · SciRepEval ACL
Üst sayfa:35_Kaynaklar/README.md
Tamamlayıcı rapor: SciRepEval — Görevler ve Veri Kümeleri Instruction-following tamamlayıcısı: SciRIFF — Talimat İzleme Kaynağı
SPECTER2, Allen Institute for AI (AI2) tarafından geliştirilen, bilimsel makaleler için çok formatlı (multi-format) doküman temsil modelleri ailesidir. 2020'de yayımlanan orijinal SPECTER modelinin halefi olarak tasarlanmıştır ve bilimsel bir makalenin başlık ile özetini girdi alarak makaleyi sabit boyutlu bir vektöre (embedding) dönüştürür.
SPECTER2'yi diğer doküman temsil modellerinden ayıran üç temel özellik vardır:
Model ailesi şu varyantlardan oluşur:
| Varyant | Açıklama | Embedding Sayısı |
|---|---|---|
| SPECTER2 Base | Sadece atıf üçlüleriyle eğitilmiş temel model | 1 |
| MTL CLS | Tek embedding, çok görevli eğitim | 1 |
| MTL CTRL | Kontrol kodları ile format başına embedding | 4 (format başına) |
| Adapters | Her format için ayrı adaptör modülleri | 4 (format başına) |
| PALs | Projected Attention Layers | 4 (format başına) |
| Fusion | Adapter Fusion mimarisi | 4 (format başına) |
| Adapters + MTL CTRL | İki yaklaşımın ortalaması (ensemble) | 4 (format başına) |
Yazarlar, mevcut bilimsel doküman temsil modellerinin (SPECTER ve SciNCL) iki temel zafiyetine dikkat çekmiştir:
a) Dar alan kapsamı: SPECTER ve SciNCL'in ön eğitim verisinin yaklaşık %70'i yalnızca iki alandan (Bilgisayar Bilimi ve Biyomedikal) gelmektedir. Tablo 9'daki SciDocs verileriyle karşılaştırıldığında, bu durum modeli diğer alanlarda zayıf bırakır.
b) Zayıf genelleme: Medic ve Snajder (2022), MDCR atıf öneri kıyaslamasında BM25'in (klasik bir sözcük tabanlı yöntem) hem SPECTER'i hem SciNCL'i Bilgisayar Bilimi ve BioMed dışındaki tüm alanlarda geride bıraktığını göstermiştir. Bu, sinirsel modellerin alan dışı genellemede güçlük çektiğini ortaya koymuştur.
c) Tek embedding sorunu: Mevcut yaklaşımlar her makale için tek bir vektör üretir. Yazarların hipotezi şudur: Tek bir vektör, çok çeşitli görev türlerinde (sınıflandırma, arama, regresyon) genellenebilecek tüm bilgiyi yoğunlaştıramaz. Sınıflandırma için ideal bir vektör uzayı, en yakın komşu aramasında o kadar iyi olmayabilir.
SPECTER2 Base, çok formatlı varyantların üzerine inşa edildiği temel modeldir. Eğitim süreci aşağıdaki gibidir:
Cohan et al. (2020)'in SPECTER yaklaşımına benzer şekilde, atıf temelli üçlü kayıp (triplet loss) kullanılır. Ancak iki önemli farkla:
Her sorgu makalesi için en fazla 10 üçlü üretilir. Her üçlü bir sorgu, bir pozitif aday ve bir negatif adaydan oluşur:
Pozitif adaylar: Sorgu makalesinin doğrudan atıfta bulunduğu makaleler
Kolay negatif adaylar (6 adet): Çalışma alanına göre seçilir - 4 tanesi sorgu ile aynı çalışma alanından - 2 tanesi sorgu ile farklı çalışma alanından
Zor negatif adaylar (4 adet): Sorgu makalesinin atıflarının atıfları arasından seçilir, ancak sorgunun kendisi tarafından atıf yapılmamış olanlar
Ek olarak, SciNCL üçlüleri de bu eğitim verisinin alt kümesi olarak dahil edilmiştir.
Bu veriler topluluğa açık kaynak olarak yayımlanmıştır.
Eğitim, aşağıdaki üçlü kayıp fonksiyonu ile yapılır:
L_triplet = max{ d(Q_E, P+_E) - d(Q_E, P-_E) + ε, 0 }
Burada: - Q_E: Sorgu embedding'i - P+_E: Pozitif aday embedding'i - P-_E: Negatif aday embedding'i - d: Öklid mesafesi - ε: Margin parametresi (deneylerde 1 olarak belirlenmiş)
Amaç, sorguya pozitif adayın negatif adaydan en az ε kadar daha yakın olmasını sağlamaktır.
Bazı kaynaklarda makale özetleri eksik olabilir. Bu duruma karşı robustluk sağlamak için, eğitim sırasında makalelerin %5'i için sadece başlık kullanılır, özet işlenmez. Bu sayede özet eksik makalelerde de modelin makul performans göstermesi hedeflenir.
SPECTER2 Base eğitildikten sonra, SciRepEval'in 8 büyük in-train görevi üzerinde çok formatlı pre-fine-tuning uygulanır. Bu adım modelin görev formatlarına özelleşmesini sağlar.
8 in-train görev şunlardır:
Yakınlık ve arama görevleri için her sorguya ait aday havuzundan sorgu başına en fazla 5 örnek üretilir. Her görevden maksimum 600.000 örnek alınır. Toplam:
SPECTER2, her görev formatı için uygun bir kayıp fonksiyonu kullanır:
| Format | Kayıp Fonksiyonu | Notlar |
|---|---|---|
| Sınıflandırma (çok sınıflı) | Cross-Entropy | Doğrusal başlık |
| Sınıflandırma (çok etiketli) | Sigmoid + Binary Cross-Entropy | Doğrusal başlık |
| Regresyon | Mean Squared Error (MSE) | Doğrusal başlık |
| Yakınlık ve Ad-hoc Arama | Triplet Margin Loss | Öklid mesafesi |
Önemli not: Sınıflandırma ve regresyon için kullanılan doğrusal başlıklar yalnızca eğitim sırasında kullanılır; eğitim sonrası atılırlar. Çünkü amaç, başlıkları kullanarak embedding modelini şekillendirmektir, başlıkların kendisini değil.
Eğitim, Aghajanyan et al. (2021)'in task-heterogeneous batching stratejisi ile yapılır: her batch, tüm görevlerden eşit sayıda örnek içerir. Yazarlar, karışık (mixed) ve sıralı (sequential) batching denemiş ancak bu strateji daha iyi sonuç vermemiştir.
SPECTER2 ailesi, format-spesifik embedding üretmek için iki farklı yaklaşım kullanır:
Bu yaklaşımda, her görev formatı için özel bir token model kelime dağarcığına eklenir ve girdinin başına eklenir:
| Görev Formatı | Girdi Formatı |
|---|---|
| Sınıflandırma | concat([CLF], doc) |
| Regresyon | concat([RGN], doc) |
| Yakınlık | concat([PRX], doc) |
| Ad-hoc Arama | concat([QRY]/[PRX], query/doc) |
Modelin son katmanında bu kontrol kodu tokenının embedding'i doküman temsili olarak alınır ve göreve özgü başlığa beslenir.
Token başlatma stratejisi: Yazarlar üç farklı başlatma yöntemi denemiştir: - Rastgele başlatma - [CLS] tokenıyla aynı değerle başlatma - [CLS] + gürültü ile başlatma
Sonuç: Bu seçimin model performansına etkisi sınırlıdır; rastgele başlatma ortalamada en iyi sonucu vermiştir.
Adaptörler, transformer'ın temel parametrelerini dondurarak küçük ek modüllerin her katmana eklenmesini sağlar. SPECTER2 üç farklı adaptör mimarisi dener:
Her görev formatı için ayrı bir adaptör modülü eklenir. Eğitim sırasında temel encoder dondurulur, sadece adaptör parametreleri öğrenilir. Çıktı olarak adaptör üzerinden geçen [CLS] tokeninin son katman embedding'i kullanılır.
Stickland ve Murray (2019) tarafından önerilen yöntem. Her görev formatı için adaptör + öz-dikkat (self-attention) modülleri eklenir. PALs'in farkı: temel encoder dondurulmaz, tüm ağ aynı anda eğitilir.
Pfeiffer et al. (2021) tarafından önerilen iki adımlı süreç:
Yazarlar, kontrol kodları ve adaptör yaklaşımlarının ortalamasını alarak birleşik bir model oluşturmuştur. Bu, deneylerde en yüksek skoru veren varyanttır. Ayrıca birleştirme (concatenation) da denenmiş ancak benzer sonuç verirken embedding boyutunu iki katına çıkardığı için tercih edilmemiştir.
Yazarlar GradNorm (Chen et al., 2018) ve loss-balanced task weighting (Liu et al., 2019a) gibi gelişmiş kayıp ağırlıklandırma stratejilerini denemiştir. Ancak ön deneylerde ölçeklendirme olmadan daha iyi sonuçlar elde edildiği için bu yöntemler kullanılmamıştır.
Tablo 2'deki temel sonuçlar (5 çekirdekli ortalama, parantez içinde standart sapma):
| Model | In-Train | Out-of-Train | Ortalama |
|---|---|---|---|
| SciBERT | 51.5 | 60.2 | 58.0 |
| SPECTER | 54.7 | 72.0 | 67.5 |
| SciNCL (önceki SOTA) | 55.6 | 73.4 | 68.8 |
| SPECTER2 Base | 56.3 | 73.6 | 69.1 |
| SPECTER2 MTL CLS | 60.2 | 72.1 | 69.0 |
| SPECTER2 MTL CTRL | 62.4 | 73.1 | 70.4 |
| SPECTER2 Adapters | 62.4 | 73.9 | 70.9 |
| SPECTER2 PALs | 61.8 | 72.6 | 69.9 |
| SPECTER2 Fusion | 62.4 | 73.9 | 70.9 |
| SPECTER2 Adapters + MTL CTRL | 62.9 | 74.1 | 71.2 |
a) SPECTER2 Base zaten önceki SOTA'yı geçti: Sadece daha çok ve çeşitli atıf verisiyle eğitim, SciNCL'i 0.3 puan geçmek için yeterli (69.1 vs 68.8).
b) Tek embedding yetersiz: MTL CLS, çok görevli eğitime rağmen sadece 69.0 elde ediyor; in-train'de iyileşme var (60.2) ama out-of-train'de kötüleşme var (72.1). Bu, tek embedding hipotezini doğruluyor.
c) Format-spesifik embedding'ler güçlü: MTL CTRL, Adapters, PALs ve Fusion'un hepsi MTL CLS'i 1.4-2 puan arasında geçiyor. En iyisi Adapters + MTL CTRL ensemble'ı (71.2 puan).
d) ANOVA + Tukey testi sonucu: İstatistiksel olarak Adapters, Fusion ve Adapters + MTL CTRL aralarında anlamlı fark yoktur (alpha = 0.05). Yani tek bir "kazanan" değil, üst seviyede üç eşdeğer varyant vardır.
Medic ve Snajder (2022)'in MDCR kıyaslamasında BM25 önceki nöral modelleri geçmişti. SPECTER2 bu durumu tersine çeviriyor:
| Model | MAP | R@5 |
|---|---|---|
| BM-25 | 33.7 | 28.5 |
| SPECTER2 Base | 38.0 | 32.4 |
| SPECTER2 MTL CLS | 34.6 | 24.9 |
| SPECTER2 MTL CTRL | 36.5 | 30.7 |
| SPECTER2 Adapters | 38.4 | 33.0 |
| SPECTER2 Adapters + MTL CTRL | 38.4 | 32.9 |
Yazarlar, eğitim verisinde MDCR makalelerinin %23'ünün bulunduğunu (ancak atıf bağlantılarının değil) belirterek transdüktif avantaj olabileceğini şeffaf şekilde paylaşmıştır.
Yazarların temel hipotezi şudur: Bir formatta eğitilen embedding o formatta en iyi performansı gösterir. Bu, Tablo 3'te doğrulanmıştır.
| Görev Formatı | [CLF] | [RGN] | [PRX] | [QRY] |
|---|---|---|---|---|
| Sınıflandırma | 64.8 | 63.6 | 62.8 | 63.7 |
| Regresyon | 16.9 | 22.2 | 17.8 | 16.1 |
| Yakınlık | 43.8 | 40.5 | 45.1 | 45.2 |
| Ad-hoc Arama | 87.4 | 83.1 | 90.3 | 90.9 |
Köşegendeki değerler en yüksektir. Yani [CLF] kontrol kodu sınıflandırmada en iyi, [QRY] aramada en iyi sonucu veriyor. Bu, format-tabanlı bölümlemenin gerçekten faydalı olduğunu gösteriyor.
Yazarlar, görevleri rastgele 5 farklı şekilde gruplayarak alternatif kontrol kodları eğitmiştir. Sonuç: Format-tabanlı bölümleme ortalamada 2.7 puan daha iyi.
Tablo 4'teki parametre ve runtime karşılaştırması:
| Model | Format Başına Parametre | Eğitim Süresi (göreli) | Çıkarım Süresi (göreli) |
|---|---|---|---|
| MTL CTRL | 768 | 1x | 1x |
| Adapters | 1M | 0.96x | 1.05x |
| PALs | 2M | 1.42x | 1.29x |
| Fusion | 22M | 1.32x | 1.69x |
| Adapters + MTL CTRL | 1M | 1.96x | 2.05x |
Yazarlar bu pratik gerekçelerle SPECTER2 Base ve en iyi Adapters varyantını açık kaynak olarak yayımlamayı tercih etmiştir.
Çok formatlı eğitim yaklaşımının SPECTER2 Base'e özel olmadığını göstermek için, yazarlar SPECTER ve SciNCL'i de temel model olarak kullanarak aynı eğitim sürecini tekrarlamıştır:
| Temel Model | MTL CLS | MTL CTRL | Adapters | Adapters + MTL CTRL |
|---|---|---|---|---|
| SPECTER | 68.6 | 69.9 | 70.2 | 70.6 |
| SciNCL | 68.8 | 70.1 | 70.7 | 71.0 |
| SPECTER2 Base | 69.0 | 70.4 | 70.9 | 71.2 |
Sonuç: Format-spesifik embedding yaklaşımı temel modelden bağımsız olarak tek embedding yaklaşımını geçiyor. Bu, yöntemin genel uygulanabilirliğini gösteriyor.
SPECTER2 eğitim verisinin çalışma alanlarına göre dağılımı (Tablo 9'dan seçilmiş):
| Çalışma Alanı | SPECTER2 | SPECTER (SciDocs) | Artış |
|---|---|---|---|
| Tıp | 3,201,323 | 74,685 | 43x |
| Bilgisayar Bilimi | 1,187,689 | 199,664 | 6x |
| Biyoloji | 882,357 | 13,377 | 66x |
| Kimya | 508,056 | 3,813 | 133x |
| Sanat | 89,527 | 206 | 435x |
| Felsefe | 61,996 | 151 | 411x |
| Tarih | 46,430 | 159 | 292x |
Ortalama artış oranı: Alan başına 105 kat daha fazla doküman. Özellikle Sanat, Felsefe, Tarih gibi humanities alanlarında 290-435 kat artış göze çarpıyor. Bu, modeli geleneksel "STEM ağırlıklı" doküman embedding modellerinden ayıran kritik özelliktir.
Yazarların kendi belirttiği sınırlamalar:
a) Kısa metin bağımlılığı: Model yalnızca başlık ve özetleri kullanır. Tam metin denenmemiştir; metaveri (yazarlar, mekan, atıflar) bazı görevlerde (Search, Citation Prediction) kullanılır ama tutarlı değildir.
b) Format bölümleme tek seçenek değil: Görevlerin formatlara göre bölünmesi yazarların sezgisidir. Author-based görevler için ayrı bir format denenmiş ama Same Author Detection'ı yakınlık formatına dahil etmek daha iyi sonuç vermiştir. Diğer bölümleme şemaları araştırma için açık kalmıştır.
c) MDCR transdüktif avantaj şüphesi: MDCR test setinin %23'ü SPECTER2 eğitim verisinde bulunmaktadır.
d) Gerçek dünya doğrulaması eksik: Kıyaslama skorlarındaki iyileşmenin gerçek bir öneri/arama uygulamasında A/B testlerinde de iyileşme yaratıp yaratmadığı doğrulanmamıştır.
SPECTER2'nin temel katkılarını şöyle özetleyebiliriz:
Girdi: [Format Token] + Başlık + [SEP] + Özet
↓
Transformer Encoder (SPECTER2 Base)
↓
(Opsiyonel: Format-Spesifik Adaptör)
↓
Embedding (768-d)
↓
Görev-Spesifik Başlık (sadece eğitim sırasında)
↓
Format-Uygun Kayıp Fonksiyonu
(CE / BCE / MSE / Triplet Margin)
SPECTER2, bilimsel doküman temsillerinin ne tek bir vektörle her şeyi ifade etmek zorunda olduğu ne de görev başına tamamen ayrı modeller eğitmek gerektiği orta yolunu temsil eder. Format-spesifik temsilcilik, hem genelleme yeteneği hem hesaplama verimliliği açısından dengeyi yakalar.
SciRepEval-Gorevler-ve-Veri-Kumeleri.md ile birlikte okunmalıdır: SciRepEval görevleri benchmark düzeyi, SPECTER2 ise modelleme yaklaşımı düzeyidir.