SciRepEval: Görevler ve Veri Setleri Detaylı Raporu

Kaynak makale: Singh, D’Arcy, Cohan, Downey ve Feldman — SciRepEval: A Multi-Format Benchmark for Scientific Document Representations, EMNLP 2023.
Bağlantılar: ACL Anthology · arXiv:2211.13308 · allenai/scirepeval
Üst sayfa: 35_Kaynaklar/README.md Tamamlayıcı model raporu: SPECTER2 — Detaylı teknik rapor Instruction-following tamamlayıcısı: SciRIFF — Talimat İzleme Kaynağı

Giriş

SciRepEval, bilimsel doküman temsillerini değerlendirmek için tasarlanmış kapsamlı bir kıyaslamadır. Toplam 24 görev dört temel formatta dağıtılmıştır: sınıflandırma (CLF), regresyon (RGN), yakınlık (PRX) ve ad-hoc arama (SRCH). Bu görevlerin 8'i bu çalışmayla ilk kez sunulmuştur.

Görevler iki gruba ayrılır:

In-Train (Eğitim İçi): En az 200.000 örneğe sahip büyük veri setleri; hem eğitim hem değerlendirme için kullanılır.
Out-of-Train (Eğitim Dışı): Sadece değerlendirme için ayrılmış görevler; modelin yeni görevlere genelleme yeteneğini ölçer.

Bu raporda her görev tek tek detaylı şekilde açıklanmaktadır.

1. AD-HOC ARAMA (SRCH) Görevleri

Ad-hoc arama görevlerinde kısa bir metin sorgusu verilir ve aday makalelerin sorguya uygunluk derecesine göre sıralanması beklenir. Değerlendirmede sorgu ile aday embedding'leri arasındaki Öklid mesafesi kullanılır; metrik olarak nDCG (Normalized Discounted Cumulative Gain) tercih edilir.

1.1 Search (In-Train) — YENİ

Kaynak: Bu çalışma (Semantic Scholar tıklama verisi)

Boyut: 528.497 sorgu / 5.284.970 aday çifti (eğitim+geliştirme); 2.585 sorgu / 25.850 aday çifti (test)

Açıklama: Semantic Scholar akademik arama motorundan toplanan tıklama (click-through) verileri kullanılmıştır. En az 10 sonuç döndüren sorgular dahil edilmiş, bot ve gürültü filtrelemesi için sezgisel kurallar uygulanmıştır. Yazar isimleriyle yapılan sorgular (NER ile tespit edilen kişi tokenları içerenler) hariç tutulmuştur.

Özellik: Bu görev için makalelerin başlık ve özetine ek olarak yayın yılı ve mekan (venue) bilgisi de girdiye dahil edilir.

Metrik: nDCG (gerçek alaka skoru 1'den büyük olabildiği için)

1.2 NFCorpus (Out-of-Train)

Kaynak: Boteva et al. (2016) — NutritionFacts.org

Boyut: 323 sorgu / 44.634 aday çifti (test)

Açıklama: NutritionFacts.org'dan toplanan teknik olmayan İngilizce sorgular ve PubMed'den seçilen aday tıbbi makaleler. Alaka skoru, aday makalelerin sorgu makalesinin web sayfasından bağlantılı olup olmadığını gösterir:

Skor 2: Doğrudan bağlantı
Skor 1: Bir bağlantılı makaleden bağlantı

Negatif adaylar oluşturmak için kalan PubMed külliyatından sorgu başına en fazla 100 doküman rastgele örneklenmiştir.

Metrik: nDCG

1.3 TREC-CoVID (Out-of-Train)

Kaynak: Voorhees et al. (2021) — CORD-19 külliyatı

Boyut: 50 sorgu / 69.318 aday çifti (test)

Açıklama: COVID-19 ile ilgili biyomedikal literatür arama görevidir. Her sorgu üç bileşenden oluşur:

Başlık (title): Kısa konu başlığı
Soru (question): Aranan bilgiyi formüle eden soru
Açıklama (narrative): Hangi tür bilgiye ihtiyaç duyulduğunun ayrıntılı açıklaması

Bu üç alan [SEP] tokeniyla birleştirilir. Alaka skoru 0-2 ölçeğindedir.

Metrik: nDCG

2. YAKINLIK (PRX) Görevleri

Yakınlık görevleri, ad-hoc aramaya benzer şekilde aday makalelerin bir sorguya göre sıralanmasını gerektirir; ancak buradaki sorgu bir makaledir, metin değildir. Bu görevler makale tabanlı geri getirme, öneri ve yazar belirsizliği gidermenin temelini oluşturur.

2.1 Same Author Detection — Aynı Yazar Tespiti (In-Train)

Kaynak: Subramanian et al. (2021) — S2AND tabanlı

Boyut: 76.489 sorgu / 673.170 aday (eğitim+geliştirme); 13.585 sorgu / 123.430 aday (test)

Açıklama: Üçlü (triplet) sıralama görevi olarak formüle edilmiştir. Verilen üç makaleden ikisi aynı yazara aittir; amaç eşleşen çifti bulmaktır. S2AND veri setinden türetilmiştir, ancak orijinalinin aksine sadece makale embedding'lerini kullanır (yazar veya makale meta verisi olmadan).

Metrik: MAP (Mean Average Precision)

2.2 Highly Influential Citations — Etkili Atıflar (In-Train) — YENİ

Kaynak: Bu çalışma

Boyut: 65.982 sorgu / 2.004.688 aday (eğitim+geliştirme); 1.199 sorgu / 58.255 aday (test)

Açıklama: Bir A makalesi verildiğinde, B makalesinin A'dan yüksek oranda etkilenip etkilenmediğini tahmin etme görevi. Etki ölçümü insan etiketlemesi gerektirdiği için yazarlar bir proxy (vekil ölçüm) kullanmıştır: Eğer A makalesi B'nin metninde en az 4 kez atıf alıyorsa, bu yüksek etkili olarak kabul edilir; aksi halde negatif örnek sayılır. Değerlendirmede en az 5 pozitif adaya sahip sorgular örneklenir.

Not: Bu tanım Valenzuela et al. (2015)'in tanımından farklıdır.

Metrik: MAP

2.3 Citation Prediction Triplets — Atıf Tahmini Üçlüleri (In-Train)

Kaynak: Cohan et al. (2020) — SPECTER ön eğitim verisi

Boyut: 819.836 üçlü (eğitim için; değerlendirme için kullanılmaz)

Açıklama: SPECTER modelinin orijinal ön eğitim verisi. Her üçlü bir sorgu, bir pozitif aday ve bir negatif adaydan oluşur. Her sorgu için en fazla 5 üçlü oluşturulur:

Pozitif: Sorgu makalesinin doğrudan atıfta bulunduğu makaleler
Negatif (kolay): Rastgele seçilenler (3 adet)
Negatif (zor): Atıfların atıfları arasından seçilenler (2 adet)

Bu görev için doğrudan değerlendirme yapılmaz; bunun yerine SciDocs üzerinde değerlendirme yapılır.

2.4 S2AND — Yazar Belirsizliği Giderme (Out-of-Train)

Kaynak: Subramanian et al. (2021)

Boyut: 68.968 küme (X) / 10.942 yazar-makale çifti (Y)

Açıklama: Aynı isme sahip farklı yazarları birbirinden ayırt etme görevi. Signature'lar (yazar-makale çiftleri), aynı kişiye ait olanları aynı kümeye yerleştirilecek şekilde gruplandırılır. Yüksek kaynak gereksinimi nedeniyle yazarlar S2AND-mini sürümünü oluşturmuştur: her veri kaynağından sadece 1.000 blok ve blok başına en fazla 500 signature.

Değerlendirme süreci: doküman embedding'leri + yazar/makale meta verisi → eşli puanlama modeli → açgözlü hiyerarşik kümeleme.

Metrik: B³ F1 (Bagga ve Baldwin, 1998)

2.5 Paper-Reviewer Matching — Hakem-Makale Eşleştirme (Out-of-Train)

Kaynak: Mimno ve McCallum (2007), Liu et al. (2014), Zhao et al. (2022) birleştirilmiş

Boyut: 107 sorgu / 1.729 aday çifti

Açıklama: Verilen bir makale için potansiyel hakemlerin uygunluğunu değerlendirme görevidir. Üç veri seti birleştirilmiştir:

Mimno ve McCallum (2007): 148 NeurIPS 2006 makalesi, 364 hakem, 393 alaka derecesi (9 uzman tarafından etiketlenmiş)
Liu et al. (2014): Yukarıdakine 766 ek anotasyon
Zhao et al. (2022): 75 makale, 1.833 hakem, 694 anotasyon (IEEE ICIP 2016, 3 uzman)

Tüm veri setleri 0-3 alaka skalasında etiketlenmiştir. Skorlama: aday hakemin tüm makaleleri embed edilir; sorgu makalesiyle kosinüs benzerliklerinin en yüksek 3'ünün ortalaması alınır.

İki etiketleme şeması kullanılır:

Yumuşak (soft): Skor ≥ 2 alakalı sayılır
Sert (hard): Yalnızca skor 3 alakalı sayılır

Metrik: P@5 ve P@10 (her iki şema için, ortalaması alınır)

2.6 RELISH (Out-of-Train)

Kaynak: Brown et al. (2019) — RElevant LIterature SearcH

Boyut: 3.190 sorgu / 191.245 aday çifti

Açıklama: 84 ülkeden 1.500'den fazla bilim insanının ortak çalışmasıyla oluşturulan PubMed makalelerinin alaka etiketleri. Sorgu (seed) makaleler için aday makalelerin alaka derecesi şu şekilde etiketlenmiştir:

2: Alakalı
1: Kısmen alakalı
0: Alakasız

Veri seti MeSH tanımlayıcılarının %76'sını kapsar.

Metrik: nDCG

2.7 SciDocs Co-view (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.978 aday çifti

Açıklama: Aynı kullanıcı oturumunda birlikte görüntülenen makaleleri tahmin etme görevi.

Metrik: MAP, nDCG

2.8 SciDocs Co-read (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.977 aday çifti

Açıklama: Birlikte okunan (PDF olarak indirilen) makaleleri tahmin etme görevi.

Metrik: MAP, nDCG

2.9 SciDocs Cite (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.928 aday çifti

Açıklama: Doğrudan atıf ilişkilerini tahmin etme görevi.

Not: Yazarlar bu görevdeki yaklaşık 1.700 pozitif çiftin aslında "atıfların atıfları" olduğunu belirtiyor; ancak mevcut kıyaslama bütünlüğünü korumak için orijinal haliyle dahil edilmiştir.

Metrik: MAP, nDCG

2.10 SciDocs Co-cite (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 1.000 sorgu / 29.949 aday çifti

Açıklama: Aynı makaleler tarafından atıf alan (co-citation) makaleleri tahmin etme görevi.

Metrik: MAP, nDCG

3. SINIFLANDIRMA (CLF) Görevleri

Sınıflandırma görevleri makaleleri konu kategorilerine atamayı amaçlar. Değerlendirmede embedding'ler doğrusal SVM (Support Vector Classifier) içinde özellik olarak kullanılır; düzenleme parametresi C ızgara araması ile ayarlanır.

3.1 MeSH Descriptors (In-Train) — YENİ

Kaynak: Bu çalışma — Lipscomb (2000) tabanlı

Boyut: 2.328.179 örnek (eğitim+geliştirme); 258.687 örnek (test)

Açıklama: Medical Subject Headings (MeSH), biyomedikal yayınları kategorik bir hiyerarşi içinde indeksleyen sistemdir. Veri seti, en sık görülen 30 üst düzey MeSH tanımlayıcısına ait makalelerden oluşur. Tam olarak bir niteleyiciye (qualifier) sahip kayıtlar dahil edilmiştir.

Görev türü: Çok sınıflı sınıflandırma (multi-class)

Metrik: Macro F1

3.2 Fields of Study — Çalışma Alanları (FoS) (In-Train) — YENİ

Kaynak: Bu çalışma

Boyut: 676.524 örnek (silver, eğitim+geliştirme); 471 örnek (gold, test)

Açıklama: Her makaleyi 23 olası çalışma alanından bir veya birkaçına atayan çok etiketli sınıflandırma görevidir.

İki tür etiket kullanılır:

Gold (Altın): 471 makale insan elinden, en fazla 3 alana etiketlenmiştir
Silver (Gümüş): Makalenin yayınlandığı mekanın (venue) alanları, makaleye atanmıştır (yayın mekanlarının tipik olarak dar bir alan kümesine sahip olduğu varsayımı)

Az-örnekli değerlendirme: 5-shot, 10-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.

Metrik: Macro F1

3.3 Biomimicry (Out-of-Train)

Kaynak: Shyam et al. (2019) — PeTaL veritabanı

Boyut: 10.991 örnek (test)

Açıklama: Bir makalenin biyomimikriyle ilgili olup olmadığını tahmin eden ikili sınıflandırma görevidir. Veri dengesizdir: yalnızca %13 pozitif örnek vardır.

Az-örnekli değerlendirme: 16-shot, 64-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.

Metrik: Binary F1

3.4 DRSM — Disease Research State Model (Out-of-Train)

Kaynak: Burns (2022)

Boyut: 7.520 örnek (silver) + 955 örnek (gold)

Açıklama: Nadir hastalıkların 6 spesifik aspektine dair PubMed makalelerinden oluşan koleksiyondur:

Gold veri: Şirket içi uzmanlar tarafından etiketlenmiş, değerlendirme için kullanılır
Silver veri: Tıbbi uzmanlığa sahip anotasyon hizmet sağlayıcıları tarafından üretilmiştir

Az-örnekli değerlendirme: 24-shot, 64-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.

Metrik: Macro F1

3.5 SciDocs MAG (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 23.540 örnek (test)

Açıklama: Microsoft Academic Graph (MAG) çalışma alanı sınıflandırması.

Metrik: Macro F1

3.6 SciDocs MeSH Diseases (Out-of-Train)

Kaynak: Cohan et al. (2020)

Boyut: 25.003 örnek (test)

Açıklama: MeSH hastalık kategorisi sınıflandırması.

Metrik: Macro F1

4. REGRESYON (RGN) Görevleri

Regresyon görevleri bir makale için sürekli bir niceliği tahmin etmeyi amaçlar. Değerlendirmede embedding'ler doğrusal SVR (Support Vector Regression) modellerinde özellik olarak kullanılır. Metrik olarak Kendall'ın τ sıralama korelasyonu raporlanır (MSE'nin sınırsız değerleri ortalamayı çarpıtabileceği için tercih edilmemiştir).

4.1 Citation Count — Atıf Sayısı (In-Train) — YENİ

Kaynak: Bu çalışma — Search veri setinden örneklenmiş

Boyut: 202.774 örnek (eğitim+geliştirme); 30.058 örnek (test)

Açıklama: 2016 yılında yayımlanmış makaleler için atıf sayısını tahmin etme görevi. 5 yıllık dönem makalelerin atıf toplaması için bırakılmıştır. Her makalenin en az bir atıfı vardır ve atıf sayıları logaritmik ölçeğe dönüştürülmüştür.

Metrik: Kendall's τ

4.2 Year of Publication — Yayın Yılı (In-Train) — YENİ

Kaynak: Bu çalışma — Search veri setinden örneklenmiş

Boyut: 218.864 örnek (eğitim+geliştirme); 30.000 örnek (test)

Açıklama: Bir bilimsel makalenin yayın yılını tahmin ederek araştırma trendlerini belirleme görevidir. 2005 yılından sonraki yayınlar örneklenmiş ve değerleri 0-1 aralığında ölçeklendirilmiştir. Atıf sayısı görevi ile birlikte eğitildiği için, kayıp ölçeklerinin uyumu için etiketler atıf sayısının ortalamasıyla yeniden ölçeklendirilmiştir.

Metrik: Kendall's τ

4.3 Peer Review Score — Hakem Puanı (Out-of-Train) — YENİ

Kaynak: Bu çalışma — OpenReview API

Boyut: 10.210 örnek (test)

Açıklama: 2017-2022 yılları arasındaki ICLR konferanslarından alınan makale meta verisi ve hakem puanları kullanılmıştır. Her ICLR hakemi 0-10 aralığında bir nihai derecelendirme verir; etiket olarak hakem puanlarının ortalaması kullanılır.

Metrik: Kendall's τ

4.4 h-Index of Authors — Yazarların h-İndeksi (Out-of-Train) — YENİ

Kaynak: Bu çalışma — OpenReview + Semantic Scholar API

Boyut: 8.438 örnek (test)

Açıklama: Bir bilimsel makalenin yazarlarından herhangi birinin maksimum h-indeksini tahmin etme görevi. Peer Review Score veri seti yeniden kullanılır; her makaledeki tüm yazarların h-indeksi Semantic Scholar API'sinden alınır ve maksimum değer etiket olarak seçilir. Etiketler 0-1 aralığında normalize edilmiştir.

Metrik: Kendall's τ

4.5 Tweet Mentions (Out-of-Train)

Kaynak: Jain ve Singh (2021) — TweetPap veri seti

Boyut: 25.655 örnek (test)

Açıklama: Bir makalenin toplam Twitter anılma + retweet sayısını tahmin etme görevi. 2010-2019 yılları arasındaki Arxiv makalelerine atıfta bulunan tweet'leri içeren veri seti son işlemden geçirilmiştir. Normalize edilmiş anılma ve retweet sayılarının toplamı tahmin edilen skor olarak kullanılır.

Metrik: Kendall's τ

Özet Tablo

#	Görev	Format	Tür	Boyut (yaklaşık)	Yeni mi?
1	Search	SRCH	In-Train	528K sorgu	✓
2	NFCorpus	SRCH	Out-of-Train	323 sorgu
3	TREC-CoVID	SRCH	Out-of-Train	50 sorgu
4	Same Author Detection	PRX	In-Train	76K sorgu
5	Highly Influential Citations	PRX	In-Train	66K sorgu	✓
6	Citation Prediction Triplets	PRX	In-Train	820K üçlü
7	S2AND	PRX	Out-of-Train	69K küme
8	Paper-Reviewer Matching	PRX	Out-of-Train	107 sorgu
9	RELISH	PRX	Out-of-Train	3.190 sorgu
10	SciDocs Co-view	PRX	Out-of-Train	1.000 sorgu
11	SciDocs Co-read	PRX	Out-of-Train	1.000 sorgu
12	SciDocs Cite	PRX	Out-of-Train	1.000 sorgu
13	SciDocs Co-cite	PRX	Out-of-Train	1.000 sorgu
14	MeSH Descriptors	CLF	In-Train	2,3M örnek	✓
15	Fields of Study	CLF	In-Train	676K örnek	✓
16	Biomimicry	CLF	Out-of-Train	11K örnek
17	DRSM	CLF	Out-of-Train	7,5K örnek
18	SciDocs MAG	CLF	Out-of-Train	23K örnek
19	SciDocs MeSH Diseases	CLF	Out-of-Train	25K örnek
20	Citation Count	RGN	In-Train	203K örnek	✓
21	Year of Publication	RGN	In-Train	219K örnek	✓
22	Peer Review Score	RGN	Out-of-Train	10K örnek	✓
23	h-Index of Authors	RGN	Out-of-Train	8K örnek	✓
24	Tweet Mentions	RGN	Out-of-Train	26K örnek

Toplam: 24 görev — 8 yeni katkı, 16 mevcut/uyarlanmış

Önemli Notlar

Önceki sürümlerden farklar: Önceki SciRepEval sürümleri üç feeds veri setini içeriyordu, ancak yüksek model performans korelasyonu nedeniyle çıkarılmış ve yerine RELISH (60 aday/sorgu) ve NFCorpus (138 aday/sorgu) eklenmiştir. Bunlar daha büyük aday havuzlarıyla daha sağlam değerlendirme sunar.

Az-örnekli (few-shot) ayarlar: Biomimicry, DRSM ve FoS görevleri için manuel olarak etiketlenmiş gold etiket alt kümelerinden iki few-shot sürüm oluşturulmuştur. Bu, modellerin veri-kıt rejimlerde nasıl çalıştığını anlamayı sağlar.

Girdi formatı: Search görevi haricinde tüm görevler, makalenin başlık ve özetinin [SEP] tokeniyla birleştirilmiş hali üzerinden çalışır. Search görevinde ek olarak yayın yılı ve mekan bilgisi de girdiye eklenir.

Değerlendirme araçları: Bilgi geri getirme (IR) görevleri için sıralama metrikleri Pytrec_eval kütüphanesi ile hesaplanır (Van Gysel ve de Rijke, 2018).

Veri çeşitliliği: SciRepEval, SciDocs ile karşılaştırıldığında çok daha çeşitli alanları kapsar — eğitim verisi 23 farklı çalışma alanına yayılmıştır ve alan başına SPECTER üçlülerine kıyasla ortalama 105 kat daha fazla doküman içerir.

ULAKBIM bağlamında okuma notları

Türkçe akademik embedding tasarımında önerilen çok görevli benchmark (Veri Kümesi Tasarımı), SciRepEval’deki SRCH / PRX / CLF / RGN ayrımıyla aynı çizgidedir.
MTEB ile doğrudan aynı değildir; SciRepEval doküman düzeyinde akademik görevleri yoğunlaştırır — ikisi birlikte “genel dil” vs “bilimsel doküman” ekseninde tamamlayıcıdır.