Kaynak makale: Singh, D’Arcy, Cohan, Downey ve Feldman — SciRepEval: A Multi-Format Benchmark for Scientific Document Representations, EMNLP 2023.
Bağlantılar: ACL Anthology · arXiv:2211.13308 · allenai/scirepeval
Üst sayfa:35_Kaynaklar/README.mdTamamlayıcı model raporu: SPECTER2 — Detaylı teknik rapor Instruction-following tamamlayıcısı: SciRIFF — Talimat İzleme Kaynağı
SciRepEval, bilimsel doküman temsillerini değerlendirmek için tasarlanmış kapsamlı bir kıyaslamadır. Toplam 24 görev dört temel formatta dağıtılmıştır: sınıflandırma (CLF), regresyon (RGN), yakınlık (PRX) ve ad-hoc arama (SRCH). Bu görevlerin 8'i bu çalışmayla ilk kez sunulmuştur.
Görevler iki gruba ayrılır:
Bu raporda her görev tek tek detaylı şekilde açıklanmaktadır.
Ad-hoc arama görevlerinde kısa bir metin sorgusu verilir ve aday makalelerin sorguya uygunluk derecesine göre sıralanması beklenir. Değerlendirmede sorgu ile aday embedding'leri arasındaki Öklid mesafesi kullanılır; metrik olarak nDCG (Normalized Discounted Cumulative Gain) tercih edilir.
Kaynak: Bu çalışma (Semantic Scholar tıklama verisi)
Boyut: 528.497 sorgu / 5.284.970 aday çifti (eğitim+geliştirme); 2.585 sorgu / 25.850 aday çifti (test)
Açıklama: Semantic Scholar akademik arama motorundan toplanan tıklama (click-through) verileri kullanılmıştır. En az 10 sonuç döndüren sorgular dahil edilmiş, bot ve gürültü filtrelemesi için sezgisel kurallar uygulanmıştır. Yazar isimleriyle yapılan sorgular (NER ile tespit edilen kişi tokenları içerenler) hariç tutulmuştur.
Özellik: Bu görev için makalelerin başlık ve özetine ek olarak yayın yılı ve mekan (venue) bilgisi de girdiye dahil edilir.
Metrik: nDCG (gerçek alaka skoru 1'den büyük olabildiği için)
Kaynak: Boteva et al. (2016) — NutritionFacts.org
Boyut: 323 sorgu / 44.634 aday çifti (test)
Açıklama: NutritionFacts.org'dan toplanan teknik olmayan İngilizce sorgular ve PubMed'den seçilen aday tıbbi makaleler. Alaka skoru, aday makalelerin sorgu makalesinin web sayfasından bağlantılı olup olmadığını gösterir:
Negatif adaylar oluşturmak için kalan PubMed külliyatından sorgu başına en fazla 100 doküman rastgele örneklenmiştir.
Metrik: nDCG
Kaynak: Voorhees et al. (2021) — CORD-19 külliyatı
Boyut: 50 sorgu / 69.318 aday çifti (test)
Açıklama: COVID-19 ile ilgili biyomedikal literatür arama görevidir. Her sorgu üç bileşenden oluşur:
Bu üç alan [SEP] tokeniyla birleştirilir. Alaka skoru 0-2 ölçeğindedir.
Metrik: nDCG
Yakınlık görevleri, ad-hoc aramaya benzer şekilde aday makalelerin bir sorguya göre sıralanmasını gerektirir; ancak buradaki sorgu bir makaledir, metin değildir. Bu görevler makale tabanlı geri getirme, öneri ve yazar belirsizliği gidermenin temelini oluşturur.
Kaynak: Subramanian et al. (2021) — S2AND tabanlı
Boyut: 76.489 sorgu / 673.170 aday (eğitim+geliştirme); 13.585 sorgu / 123.430 aday (test)
Açıklama: Üçlü (triplet) sıralama görevi olarak formüle edilmiştir. Verilen üç makaleden ikisi aynı yazara aittir; amaç eşleşen çifti bulmaktır. S2AND veri setinden türetilmiştir, ancak orijinalinin aksine sadece makale embedding'lerini kullanır (yazar veya makale meta verisi olmadan).
Metrik: MAP (Mean Average Precision)
Kaynak: Bu çalışma
Boyut: 65.982 sorgu / 2.004.688 aday (eğitim+geliştirme); 1.199 sorgu / 58.255 aday (test)
Açıklama: Bir A makalesi verildiğinde, B makalesinin A'dan yüksek oranda etkilenip etkilenmediğini tahmin etme görevi. Etki ölçümü insan etiketlemesi gerektirdiği için yazarlar bir proxy (vekil ölçüm) kullanmıştır: Eğer A makalesi B'nin metninde en az 4 kez atıf alıyorsa, bu yüksek etkili olarak kabul edilir; aksi halde negatif örnek sayılır. Değerlendirmede en az 5 pozitif adaya sahip sorgular örneklenir.
Not: Bu tanım Valenzuela et al. (2015)'in tanımından farklıdır.
Metrik: MAP
Kaynak: Cohan et al. (2020) — SPECTER ön eğitim verisi
Boyut: 819.836 üçlü (eğitim için; değerlendirme için kullanılmaz)
Açıklama: SPECTER modelinin orijinal ön eğitim verisi. Her üçlü bir sorgu, bir pozitif aday ve bir negatif adaydan oluşur. Her sorgu için en fazla 5 üçlü oluşturulur:
Bu görev için doğrudan değerlendirme yapılmaz; bunun yerine SciDocs üzerinde değerlendirme yapılır.
Kaynak: Subramanian et al. (2021)
Boyut: 68.968 küme (X) / 10.942 yazar-makale çifti (Y)
Açıklama: Aynı isme sahip farklı yazarları birbirinden ayırt etme görevi. Signature'lar (yazar-makale çiftleri), aynı kişiye ait olanları aynı kümeye yerleştirilecek şekilde gruplandırılır. Yüksek kaynak gereksinimi nedeniyle yazarlar S2AND-mini sürümünü oluşturmuştur: her veri kaynağından sadece 1.000 blok ve blok başına en fazla 500 signature.
Değerlendirme süreci: doküman embedding'leri + yazar/makale meta verisi → eşli puanlama modeli → açgözlü hiyerarşik kümeleme.
Metrik: B³ F1 (Bagga ve Baldwin, 1998)
Kaynak: Mimno ve McCallum (2007), Liu et al. (2014), Zhao et al. (2022) birleştirilmiş
Boyut: 107 sorgu / 1.729 aday çifti
Açıklama: Verilen bir makale için potansiyel hakemlerin uygunluğunu değerlendirme görevidir. Üç veri seti birleştirilmiştir:
Tüm veri setleri 0-3 alaka skalasında etiketlenmiştir. Skorlama: aday hakemin tüm makaleleri embed edilir; sorgu makalesiyle kosinüs benzerliklerinin en yüksek 3'ünün ortalaması alınır.
İki etiketleme şeması kullanılır:
Metrik: P@5 ve P@10 (her iki şema için, ortalaması alınır)
Kaynak: Brown et al. (2019) — RElevant LIterature SearcH
Boyut: 3.190 sorgu / 191.245 aday çifti
Açıklama: 84 ülkeden 1.500'den fazla bilim insanının ortak çalışmasıyla oluşturulan PubMed makalelerinin alaka etiketleri. Sorgu (seed) makaleler için aday makalelerin alaka derecesi şu şekilde etiketlenmiştir:
Veri seti MeSH tanımlayıcılarının %76'sını kapsar.
Metrik: nDCG
Kaynak: Cohan et al. (2020)
Boyut: 1.000 sorgu / 29.978 aday çifti
Açıklama: Aynı kullanıcı oturumunda birlikte görüntülenen makaleleri tahmin etme görevi.
Metrik: MAP, nDCG
Kaynak: Cohan et al. (2020)
Boyut: 1.000 sorgu / 29.977 aday çifti
Açıklama: Birlikte okunan (PDF olarak indirilen) makaleleri tahmin etme görevi.
Metrik: MAP, nDCG
Kaynak: Cohan et al. (2020)
Boyut: 1.000 sorgu / 29.928 aday çifti
Açıklama: Doğrudan atıf ilişkilerini tahmin etme görevi.
Not: Yazarlar bu görevdeki yaklaşık 1.700 pozitif çiftin aslında "atıfların atıfları" olduğunu belirtiyor; ancak mevcut kıyaslama bütünlüğünü korumak için orijinal haliyle dahil edilmiştir.
Metrik: MAP, nDCG
Kaynak: Cohan et al. (2020)
Boyut: 1.000 sorgu / 29.949 aday çifti
Açıklama: Aynı makaleler tarafından atıf alan (co-citation) makaleleri tahmin etme görevi.
Metrik: MAP, nDCG
Sınıflandırma görevleri makaleleri konu kategorilerine atamayı amaçlar. Değerlendirmede embedding'ler doğrusal SVM (Support Vector Classifier) içinde özellik olarak kullanılır; düzenleme parametresi C ızgara araması ile ayarlanır.
Kaynak: Bu çalışma — Lipscomb (2000) tabanlı
Boyut: 2.328.179 örnek (eğitim+geliştirme); 258.687 örnek (test)
Açıklama: Medical Subject Headings (MeSH), biyomedikal yayınları kategorik bir hiyerarşi içinde indeksleyen sistemdir. Veri seti, en sık görülen 30 üst düzey MeSH tanımlayıcısına ait makalelerden oluşur. Tam olarak bir niteleyiciye (qualifier) sahip kayıtlar dahil edilmiştir.
Görev türü: Çok sınıflı sınıflandırma (multi-class)
Metrik: Macro F1
Kaynak: Bu çalışma
Boyut: 676.524 örnek (silver, eğitim+geliştirme); 471 örnek (gold, test)
Açıklama: Her makaleyi 23 olası çalışma alanından bir veya birkaçına atayan çok etiketli sınıflandırma görevidir.
İki tür etiket kullanılır:
Az-örnekli değerlendirme: 5-shot, 10-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.
Metrik: Macro F1
Kaynak: Shyam et al. (2019) — PeTaL veritabanı
Boyut: 10.991 örnek (test)
Açıklama: Bir makalenin biyomimikriyle ilgili olup olmadığını tahmin eden ikili sınıflandırma görevidir. Veri dengesizdir: yalnızca %13 pozitif örnek vardır.
Az-örnekli değerlendirme: 16-shot, 64-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.
Metrik: Binary F1
Kaynak: Burns (2022)
Boyut: 7.520 örnek (silver) + 955 örnek (gold)
Açıklama: Nadir hastalıkların 6 spesifik aspektine dair PubMed makalelerinden oluşan koleksiyondur:
Az-örnekli değerlendirme: 24-shot, 64-shot ve tam veri olmak üzere üç ayarda F1 hesaplanır; ortalaması alınır.
Metrik: Macro F1
Kaynak: Cohan et al. (2020)
Boyut: 23.540 örnek (test)
Açıklama: Microsoft Academic Graph (MAG) çalışma alanı sınıflandırması.
Metrik: Macro F1
Kaynak: Cohan et al. (2020)
Boyut: 25.003 örnek (test)
Açıklama: MeSH hastalık kategorisi sınıflandırması.
Metrik: Macro F1
Regresyon görevleri bir makale için sürekli bir niceliği tahmin etmeyi amaçlar. Değerlendirmede embedding'ler doğrusal SVR (Support Vector Regression) modellerinde özellik olarak kullanılır. Metrik olarak Kendall'ın τ sıralama korelasyonu raporlanır (MSE'nin sınırsız değerleri ortalamayı çarpıtabileceği için tercih edilmemiştir).
Kaynak: Bu çalışma — Search veri setinden örneklenmiş
Boyut: 202.774 örnek (eğitim+geliştirme); 30.058 örnek (test)
Açıklama: 2016 yılında yayımlanmış makaleler için atıf sayısını tahmin etme görevi. 5 yıllık dönem makalelerin atıf toplaması için bırakılmıştır. Her makalenin en az bir atıfı vardır ve atıf sayıları logaritmik ölçeğe dönüştürülmüştür.
Metrik: Kendall's τ
Kaynak: Bu çalışma — Search veri setinden örneklenmiş
Boyut: 218.864 örnek (eğitim+geliştirme); 30.000 örnek (test)
Açıklama: Bir bilimsel makalenin yayın yılını tahmin ederek araştırma trendlerini belirleme görevidir. 2005 yılından sonraki yayınlar örneklenmiş ve değerleri 0-1 aralığında ölçeklendirilmiştir. Atıf sayısı görevi ile birlikte eğitildiği için, kayıp ölçeklerinin uyumu için etiketler atıf sayısının ortalamasıyla yeniden ölçeklendirilmiştir.
Metrik: Kendall's τ
Kaynak: Bu çalışma — OpenReview API
Boyut: 10.210 örnek (test)
Açıklama: 2017-2022 yılları arasındaki ICLR konferanslarından alınan makale meta verisi ve hakem puanları kullanılmıştır. Her ICLR hakemi 0-10 aralığında bir nihai derecelendirme verir; etiket olarak hakem puanlarının ortalaması kullanılır.
Metrik: Kendall's τ
Kaynak: Bu çalışma — OpenReview + Semantic Scholar API
Boyut: 8.438 örnek (test)
Açıklama: Bir bilimsel makalenin yazarlarından herhangi birinin maksimum h-indeksini tahmin etme görevi. Peer Review Score veri seti yeniden kullanılır; her makaledeki tüm yazarların h-indeksi Semantic Scholar API'sinden alınır ve maksimum değer etiket olarak seçilir. Etiketler 0-1 aralığında normalize edilmiştir.
Metrik: Kendall's τ
Kaynak: Jain ve Singh (2021) — TweetPap veri seti
Boyut: 25.655 örnek (test)
Açıklama: Bir makalenin toplam Twitter anılma + retweet sayısını tahmin etme görevi. 2010-2019 yılları arasındaki Arxiv makalelerine atıfta bulunan tweet'leri içeren veri seti son işlemden geçirilmiştir. Normalize edilmiş anılma ve retweet sayılarının toplamı tahmin edilen skor olarak kullanılır.
Metrik: Kendall's τ
| # | Görev | Format | Tür | Boyut (yaklaşık) | Yeni mi? |
|---|---|---|---|---|---|
| 1 | Search | SRCH | In-Train | 528K sorgu | ✓ |
| 2 | NFCorpus | SRCH | Out-of-Train | 323 sorgu | |
| 3 | TREC-CoVID | SRCH | Out-of-Train | 50 sorgu | |
| 4 | Same Author Detection | PRX | In-Train | 76K sorgu | |
| 5 | Highly Influential Citations | PRX | In-Train | 66K sorgu | ✓ |
| 6 | Citation Prediction Triplets | PRX | In-Train | 820K üçlü | |
| 7 | S2AND | PRX | Out-of-Train | 69K küme | |
| 8 | Paper-Reviewer Matching | PRX | Out-of-Train | 107 sorgu | |
| 9 | RELISH | PRX | Out-of-Train | 3.190 sorgu | |
| 10 | SciDocs Co-view | PRX | Out-of-Train | 1.000 sorgu | |
| 11 | SciDocs Co-read | PRX | Out-of-Train | 1.000 sorgu | |
| 12 | SciDocs Cite | PRX | Out-of-Train | 1.000 sorgu | |
| 13 | SciDocs Co-cite | PRX | Out-of-Train | 1.000 sorgu | |
| 14 | MeSH Descriptors | CLF | In-Train | 2,3M örnek | ✓ |
| 15 | Fields of Study | CLF | In-Train | 676K örnek | ✓ |
| 16 | Biomimicry | CLF | Out-of-Train | 11K örnek | |
| 17 | DRSM | CLF | Out-of-Train | 7,5K örnek | |
| 18 | SciDocs MAG | CLF | Out-of-Train | 23K örnek | |
| 19 | SciDocs MeSH Diseases | CLF | Out-of-Train | 25K örnek | |
| 20 | Citation Count | RGN | In-Train | 203K örnek | ✓ |
| 21 | Year of Publication | RGN | In-Train | 219K örnek | ✓ |
| 22 | Peer Review Score | RGN | Out-of-Train | 10K örnek | ✓ |
| 23 | h-Index of Authors | RGN | Out-of-Train | 8K örnek | ✓ |
| 24 | Tweet Mentions | RGN | Out-of-Train | 26K örnek |
Toplam: 24 görev — 8 yeni katkı, 16 mevcut/uyarlanmış
Önceki sürümlerden farklar: Önceki SciRepEval sürümleri üç feeds veri setini içeriyordu, ancak yüksek model performans korelasyonu nedeniyle çıkarılmış ve yerine RELISH (60 aday/sorgu) ve NFCorpus (138 aday/sorgu) eklenmiştir. Bunlar daha büyük aday havuzlarıyla daha sağlam değerlendirme sunar.
Az-örnekli (few-shot) ayarlar: Biomimicry, DRSM ve FoS görevleri için manuel olarak etiketlenmiş gold etiket alt kümelerinden iki few-shot sürüm oluşturulmuştur. Bu, modellerin veri-kıt rejimlerde nasıl çalıştığını anlamayı sağlar.
Girdi formatı: Search görevi haricinde tüm görevler, makalenin başlık ve özetinin [SEP] tokeniyla birleştirilmiş hali üzerinden çalışır. Search görevinde ek olarak yayın yılı ve mekan bilgisi de girdiye eklenir.
Değerlendirme araçları: Bilgi geri getirme (IR) görevleri için sıralama metrikleri Pytrec_eval kütüphanesi ile hesaplanır (Van Gysel ve de Rijke, 2018).
Veri çeşitliliği: SciRepEval, SciDocs ile karşılaştırıldığında çok daha çeşitli alanları kapsar — eğitim verisi 23 farklı çalışma alanına yayılmıştır ve alan başına SPECTER üçlülerine kıyasla ortalama 105 kat daha fazla doküman içerir.