SciRepEval: Görevler ve Veri Setleri Detaylı Raporu

Kaynak makale: Singh, D’Arcy, Cohan, Downey ve Feldman — SciRepEval: A Multi-Format Benchmark for Scientific Document Representations, EMNLP 2023.
Bağlantılar: ACL Anthology · arXiv:2211.13308 · allenai/scirepeval
Üst sayfa: 35_Kaynaklar/README.md Tamamlayıcı model raporu: SPECTER2 — Detaylı teknik rapor Instruction-following tamamlayıcısı: SciRIFF — Talimat İzleme Kaynağı


Giriş

SciRepEval, bilimsel doküman temsillerini değerlendirmek için tasarlanmış kapsamlı bir kıyaslamadır. Toplam 24 görev dört temel formatta dağıtılmıştır: sınıflandırma (CLF), regresyon (RGN), yakınlık (PRX) ve ad-hoc arama (SRCH). Bu görevlerin 8'i bu çalışmayla ilk kez sunulmuştur.

Görevler iki gruba ayrılır:

Bu raporda her görev tek tek detaylı şekilde açıklanmaktadır.


1. AD-HOC ARAMA (SRCH) Görevleri

Ad-hoc arama görevlerinde kısa bir metin sorgusu verilir ve aday makalelerin sorguya uygunluk derecesine göre sıralanması beklenir. Değerlendirmede sorgu ile aday embedding'leri arasındaki Öklid mesafesi kullanılır; metrik olarak nDCG (Normalized Discounted Cumulative Gain) tercih edilir.

1.1 Search (In-Train) — YENİ

Kaynak: Bu çalışma (Semantic Scholar tıklama verisi)

Boyut: 528.497 sorgu / 5.284.970 aday çifti (eğitim+geliştirme); 2.585 sorgu / 25.850 aday çifti (test)

Açıklama: Semantic Scholar akademik arama motorundan toplanan tıklama (click-through) verileri kullanılmıştır. En az 10 sonuç döndüren sorgular dahil edilmiş, bot ve gürültü filtrelemesi için sezgisel kurallar uygulanmıştır. Yazar isimleriyle yapılan sorgular (NER ile tespit edilen kişi tokenları içerenler) hariç tutulmuştur.

Özellik: Bu görev için makalelerin başlık ve özetine ek olarak yayın yılı ve mekan (venue) bilgisi de girdiye dahil edilir.

Metrik: nDCG (gerçek alaka skoru 1'den büyük olabildiği için)

1.2 NFCorpus (Out-of-Train)

Kaynak: Boteva et al. (2016) — NutritionFacts.org

Boyut: 323 sorgu / 44.634 aday çifti (test)

Açıklama: NutritionFacts.org'dan toplanan teknik olmayan İngilizce sorgular ve PubMed'den seçilen aday tıbbi makaleler. Alaka skoru, aday makalelerin sorgu makalesinin web sayfasından bağlantılı olup olmadığını gösterir:

Negatif adaylar oluşturmak için kalan PubMed külliyatından sorgu başına en fazla 100 doküman rastgele örneklenmiştir.

Metrik: nDCG

1.3 TREC-CoVID (Out-of-Train)

Kaynak: Voorhees et al. (2021) — CORD-19 külliyatı

Boyut: 50 sorgu / 69.318 aday çifti (test)

Açıklama: COVID-19 ile ilgili biyomedikal literatür arama görevidir. Her sorgu üç bileşenden oluşur:

Bu üç alan [SEP] tokeniyla birleştirilir. Alaka skoru 0-2 ölçeğindedir.

Metrik: nDCG


2. YAKINLIK (PRX) Görevleri

Yakınlık görevleri, ad-hoc aramaya benzer şekilde aday makalelerin bir sorguya göre sıralanmasını gerektirir; ancak buradaki sorgu bir makaledir, metin değildir. Bu görevler makale tabanlı geri getirme, öneri ve yazar belirsizliği gidermenin temelini oluşturur.

2.1 Same Author Detection — Aynı Yazar Tespiti (In-Train)

Kaynak: Subramanian et al. (2021) — S2AND tabanlı

Boyut: 76.489 sorgu / 673.170 aday (eğitim+geliştirme); 13.585 sorgu / 123.430 aday (test)

Açıklama: Üçlü (triplet) sıralama görevi olarak formüle edilmiştir. Verilen üç makaleden ikisi aynı yazara aittir; amaç eşleşen çifti bulmaktır. S2AND veri setinden türetilmiştir, ancak orijinalinin aksine sadece makale embedding'lerini kullanır (yazar veya makale meta verisi olmadan).

Metrik: MAP (Mean Average Precision)

2.2 Highly Influential Citations — Etkili Atıflar (In-Train) — YENİ

Kaynak: Bu çalışma

Boyut: 65.982 sorgu / 2.004.688 aday (eğitim+geliştirme); 1.199 sorgu / 58.255 aday (test)

Açıklama: Bir A makalesi verildiğinde, B makalesinin A'dan yüksek oranda etkilenip etkilenmediğini tahmin etme görevi. Etki ölçümü insan etiketlemesi gerektirdiği için yazarlar bir proxy (vekil ölçüm) kullanmıştır: Eğer A makalesi B'nin metninde en az 4 kez atıf alıyorsa, bu yüksek etkili olarak kabul edilir; aksi halde negatif örnek sayılır. Değerlendirmede en az 5 pozitif adaya sahip sorgular örneklenir.

Not: Bu tanım Valenzuela et al. (2015)'in tanımından farklıdır.

Metrik: MAP

2.3 Citation Prediction Triplets — Atıf Tahmini Üçlüleri (In-Train)

Kaynak: Cohan et al. (2020) — SPECTER ön eğitim verisi

Boyut: 819.836 üçlü (eğitim için; değerlendirme için kullanılmaz)

Açıklama: SPECTER modelinin orijinal ön eğitim verisi. Her üçlü bir sorgu, bir pozitif aday ve bir negatif adaydan oluşur. Her sorgu için en fazla 5 üçlü oluşturulur:

Bu görev için doğrudan değerlendirme yapılmaz; bunun yerine SciDocs üzerinde değerlendirme yapılır.

2.4 S2AND — Yazar Belirsizliği Giderme (Out-of-Train)

Kaynak: Subramanian et al. (2021)

Boyut: 68.968 küme (X) / 10.942 yazar-makale çifti (Y)

Açıklama: Aynı isme sahip farklı yazarları birbirinden ayırt etme görevi. Signature'lar (yazar-makale çiftleri), aynı kişiye ait olanları aynı kümeye yerleştirilecek şekilde gruplandırılır. Yüksek kaynak gereksinimi nedeniyle yazarlar S2AND-mini sürümünü oluşturmuştur: her veri kaynağından sadece 1.000 blok ve blok başına en fazla 500 signature.

Değerlendirme süreci: doküman embedding'leri + yazar/makale meta verisi → eşli puanlama modeli → açgözlü hiyerarşik kümeleme.

Metrik: B³ F1 (Bagga ve Baldwin, 1998)

2.5 Paper-Reviewer Matching — Hakem-Makale Eşleştirme (Out-of-Train)

Kaynak: Mimno ve McCallum (2007), Liu et al. (2014), Zhao et al. (2022) birleştirilmiş

Boyut: 107 sorgu / 1.729 aday çifti

Açıklama: Verilen bir makale için potansiyel hakemlerin uygunluğunu değerlendirme görevidir. Üç veri seti birleştirilmiştir:

Tüm veri setleri 0-3 alaka skalasında etiketlenmiştir. Skorlama: aday hakemin tüm makaleleri embed edilir; sorgu makalesiyle kosinüs benzerliklerinin en yüksek 3'ünün ortalaması alınır.

İki etiketleme şeması kullanılır:

Metrik: P@5 ve P@10 (her iki şema için, ortalaması alınır)

2.6 RELISH (Out-of-Train)

Kaynak: Brown et al. (2019) — RElevant LIterature SearcH

Boyut: 3.190 sorgu / 191.245 aday çifti

Açıklama: 84 ülkeden 1.500'den fazla bilim insanının ortak çalışmasıyla oluşturulan PubMed makalelerinin alaka etiketleri. Sorgu (seed) makaleler için aday makalelerin alaka derecesi şu şekilde etiketlenmiştir:

Veri seti MeSH tanımlayıcılarının %76'sını kapsar.

Metrik: nDCG

2.7 SciDocs Co-view (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.978 aday çifti

Açıklama: Aynı kullanıcı oturumunda birlikte görüntülenen makaleleri tahmin etme görevi.

Metrik: MAP, nDCG

2.8 SciDocs Co-read (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.977 aday çifti

Açıklama: Birlikte okunan (PDF olarak indirilen) makaleleri tahmin etme görevi.

Metrik: MAP, nDCG

2.9 SciDocs Cite (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.928 aday çifti

Açıklama: Doğrudan atıf ilişkilerini tahmin etme görevi.

Not: Yazarlar bu görevdeki yaklaşık 1.700 pozitif çiftin aslında "atıfların atıfları" olduğunu belirtiyor; ancak mevcut kıyaslama bütünlüğünü korumak için orijinal haliyle dahil edilmiştir.

Metrik: MAP, nDCG

2.10 SciDocs Co-cite (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.949 aday çifti

Açıklama: Aynı makaleler tarafından atıf alan (co-citation) makaleleri tahmin etme görevi.

Metrik: MAP, nDCG


3. SINIFLANDIRMA (CLF) Görevleri

Sınıflandırma görevleri makaleleri konu kategorilerine atamayı amaçlar. Değerlendirmede embedding'ler doğrusal SVM (Support Vector Classifier) içinde özellik olarak kullanılır; düzenleme parametresi C ızgara araması ile ayarlanır.

3.1 MeSH Descriptors (In-Train) — YENİ

Kaynak: Bu çalışma — Lipscomb (2000) tabanlı

Boyut: 2.328.179 örnek (eğitim+geliştirme); 258.687 örnek (test)

Açıklama: Medical Subject Headings (MeSH), biyomedikal yayınları kategorik bir hiyerarşi içinde indeksleyen sistemdir. Veri seti, en sık görülen 30 üst düzey MeSH tanımlayıcısına ait makalelerden oluşur. Tam olarak bir niteleyiciye (qualifier) sahip kayıtlar dahil edilmiştir.

Görev türü: Çok sınıflı sınıflandırma (multi-class)

Metrik: Macro F1

3.2 Fields of Study — Çalışma Alanları (FoS) (In-Train) — YENİ

Kaynak: Bu çalışma

Boyut: 676.524 örnek (silver, eğitim+geliştirme); 471 örnek (gold, test)

Açıklama: Her makaleyi 23 olası çalışma alanından bir veya birkaçına atayan çok etiketli sınıflandırma görevidir.

İki tür etiket kullanılır:

Az-örnekli değerlendirme: 5-shot, 10-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.

Metrik: Macro F1

3.3 Biomimicry (Out-of-Train)

Kaynak: Shyam et al. (2019) — PeTaL veritabanı

Boyut: 10.991 örnek (test)

Açıklama: Bir makalenin biyomimikriyle ilgili olup olmadığını tahmin eden ikili sınıflandırma görevidir. Veri dengesizdir: yalnızca %13 pozitif örnek vardır.

Az-örnekli değerlendirme: 16-shot, 64-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.

Metrik: Binary F1

3.4 DRSM — Disease Research State Model (Out-of-Train)

Kaynak: Burns (2022)

Boyut: 7.520 örnek (silver) + 955 örnek (gold)

Açıklama: Nadir hastalıkların 6 spesifik aspektine dair PubMed makalelerinden oluşan koleksiyondur:

Az-örnekli değerlendirme: 24-shot, 64-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.

Metrik: Macro F1

3.5 SciDocs MAG (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 23.540 örnek (test)

Açıklama: Microsoft Academic Graph (MAG) çalışma alanı sınıflandırması.

Metrik: Macro F1

3.6 SciDocs MeSH Diseases (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 25.003 örnek (test)

Açıklama: MeSH hastalık kategorisi sınıflandırması.

Metrik: Macro F1


4. REGRESYON (RGN) Görevleri

Regresyon görevleri bir makale için sürekli bir niceliği tahmin etmeyi amaçlar. Değerlendirmede embedding'ler doğrusal SVR (Support Vector Regression) modellerinde özellik olarak kullanılır. Metrik olarak Kendall'ın τ sıralama korelasyonu raporlanır (MSE'nin sınırsız değerleri ortalamayı çarpıtabileceği için tercih edilmemiştir).

4.1 Citation Count — Atıf Sayısı (In-Train) — YENİ

Kaynak: Bu çalışma — Search veri setinden örneklenmiş

Boyut: 202.774 örnek (eğitim+geliştirme); 30.058 örnek (test)

Açıklama: 2016 yılında yayımlanmış makaleler için atıf sayısını tahmin etme görevi. 5 yıllık dönem makalelerin atıf toplaması için bırakılmıştır. Her makalenin en az bir atıfı vardır ve atıf sayıları logaritmik ölçeğe dönüştürülmüştür.

Metrik: Kendall's τ

4.2 Year of Publication — Yayın Yılı (In-Train) — YENİ

Kaynak: Bu çalışma — Search veri setinden örneklenmiş

Boyut: 218.864 örnek (eğitim+geliştirme); 30.000 örnek (test)

Açıklama: Bir bilimsel makalenin yayın yılını tahmin ederek araştırma trendlerini belirleme görevidir. 2005 yılından sonraki yayınlar örneklenmiş ve değerleri 0-1 aralığında ölçeklendirilmiştir. Atıf sayısı görevi ile birlikte eğitildiği için, kayıp ölçeklerinin uyumu için etiketler atıf sayısının ortalamasıyla yeniden ölçeklendirilmiştir.

Metrik: Kendall's τ

4.3 Peer Review Score — Hakem Puanı (Out-of-Train) — YENİ

Kaynak: Bu çalışma — OpenReview API

Boyut: 10.210 örnek (test)

Açıklama: 2017-2022 yılları arasındaki ICLR konferanslarından alınan makale meta verisi ve hakem puanları kullanılmıştır. Her ICLR hakemi 0-10 aralığında bir nihai derecelendirme verir; etiket olarak hakem puanlarının ortalaması kullanılır.

Metrik: Kendall's τ

4.4 h-Index of Authors — Yazarların h-İndeksi (Out-of-Train) — YENİ

Kaynak: Bu çalışma — OpenReview + Semantic Scholar API

Boyut: 8.438 örnek (test)

Açıklama: Bir bilimsel makalenin yazarlarından herhangi birinin maksimum h-indeksini tahmin etme görevi. Peer Review Score veri seti yeniden kullanılır; her makaledeki tüm yazarların h-indeksi Semantic Scholar API'sinden alınır ve maksimum değer etiket olarak seçilir. Etiketler 0-1 aralığında normalize edilmiştir.

Metrik: Kendall's τ

4.5 Tweet Mentions (Out-of-Train)

Kaynak: Jain ve Singh (2021) — TweetPap veri seti

Boyut: 25.655 örnek (test)

Açıklama: Bir makalenin toplam Twitter anılma + retweet sayısını tahmin etme görevi. 2010-2019 yılları arasındaki Arxiv makalelerine atıfta bulunan tweet'leri içeren veri seti son işlemden geçirilmiştir. Normalize edilmiş anılma ve retweet sayılarının toplamı tahmin edilen skor olarak kullanılır.

Metrik: Kendall's τ


Özet Tablo

# Görev Format Tür Boyut (yaklaşık) Yeni mi?
1 Search SRCH In-Train 528K sorgu
2 NFCorpus SRCH Out-of-Train 323 sorgu
3 TREC-CoVID SRCH Out-of-Train 50 sorgu
4 Same Author Detection PRX In-Train 76K sorgu
5 Highly Influential Citations PRX In-Train 66K sorgu
6 Citation Prediction Triplets PRX In-Train 820K üçlü
7 S2AND PRX Out-of-Train 69K küme
8 Paper-Reviewer Matching PRX Out-of-Train 107 sorgu
9 RELISH PRX Out-of-Train 3.190 sorgu
10 SciDocs Co-view PRX Out-of-Train 1.000 sorgu
11 SciDocs Co-read PRX Out-of-Train 1.000 sorgu
12 SciDocs Cite PRX Out-of-Train 1.000 sorgu
13 SciDocs Co-cite PRX Out-of-Train 1.000 sorgu
14 MeSH Descriptors CLF In-Train 2,3M örnek
15 Fields of Study CLF In-Train 676K örnek
16 Biomimicry CLF Out-of-Train 11K örnek
17 DRSM CLF Out-of-Train 7,5K örnek
18 SciDocs MAG CLF Out-of-Train 23K örnek
19 SciDocs MeSH Diseases CLF Out-of-Train 25K örnek
20 Citation Count RGN In-Train 203K örnek
21 Year of Publication RGN In-Train 219K örnek
22 Peer Review Score RGN Out-of-Train 10K örnek
23 h-Index of Authors RGN Out-of-Train 8K örnek
24 Tweet Mentions RGN Out-of-Train 26K örnek

Toplam: 24 görev — 8 yeni katkı, 16 mevcut/uyarlanmış


Önemli Notlar

Önceki sürümlerden farklar: Önceki SciRepEval sürümleri üç feeds veri setini içeriyordu, ancak yüksek model performans korelasyonu nedeniyle çıkarılmış ve yerine RELISH (60 aday/sorgu) ve NFCorpus (138 aday/sorgu) eklenmiştir. Bunlar daha büyük aday havuzlarıyla daha sağlam değerlendirme sunar.

Az-örnekli (few-shot) ayarlar: Biomimicry, DRSM ve FoS görevleri için manuel olarak etiketlenmiş gold etiket alt kümelerinden iki few-shot sürüm oluşturulmuştur. Bu, modellerin veri-kıt rejimlerde nasıl çalıştığını anlamayı sağlar.

Girdi formatı: Search görevi haricinde tüm görevler, makalenin başlık ve özetinin [SEP] tokeniyla birleştirilmiş hali üzerinden çalışır. Search görevinde ek olarak yayın yılı ve mekan bilgisi de girdiye eklenir.

Değerlendirme araçları: Bilgi geri getirme (IR) görevleri için sıralama metrikleri Pytrec_eval kütüphanesi ile hesaplanır (Van Gysel ve de Rijke, 2018).

Veri çeşitliliği: SciRepEval, SciDocs ile karşılaştırıldığında çok daha çeşitli alanları kapsar — eğitim verisi 23 farklı çalışma alanına yayılmıştır ve alan başına SPECTER üçlülerine kıyasla ortalama 105 kat daha fazla doküman içerir.


ULAKBIM bağlamında okuma notları