SciRIFF — Bilimsel Literatür İçin Talimat İzleme Kaynağı

Kaynak: SciRIFF (Allen AI / Yale). Veri ve kod: Hugging Face — allenai/SciRIFF · GitHub — allenai/SciRIFF · Lisans: ODC-By
Üst sayfa: 35_Kaynaklar/README.md

SciRIFF (Scientific Resource for Instruction-Following and Finetuning), bilimsel literatür görevlerinde dil modellerini talimat izleyecek şekilde eğitmek ve ölçmek için bir kaynaktır. Genel talimat veri setleri bu görevlerde sıklıkla yetersiz kalır; SciRIFF uzun doküman girdisi, yapılandırılmış JSON çıktısı ve kanıt/atıf gerektiren görevleri merkeze alır. SciRIFF-Eval, eğitimden tamamen çıkarılmış 9 görevle genelleme ölçer.

Tamamlayıcı kaynaklar: SciRepEval (embedding benchmark), SPECTER2 (bilimsel doküman embedding).


SciRIFF — Tüm Görevler ve Veri Setleri

Toplam: 54 görev, 137K örnek, 5 görev kategorisi, 5 bilimsel alan

Genel İstatistikler

Metrik Değer
Toplam örnek 137.000
Eğitim örneği 70.500
Değerlendirme örneği (SciRIFF-Eval) 4.100
Görev sayısı 54
Structured JSON output gerektiren 34 (%63)
Ortalama input token uzunluğu 1.242,9
Ortalama output token uzunluğu 139,6

Görev Kategorisi Dağılımı

Kategori Görev Sayısı Örnek Sayısı Oran
Information Extraction (IE) 25 43.600 %46,3
Summarization 11 47.700 %20,4
Question Answering (QA) 11 16.600 %20,4
Classification 4 22.000 %7,4
Entailment (Claim Verification) 3 6.800 %5,6

Alan Dağılımı

Alan Görev Sayısı Örnek Sayısı Oran
Biomedicine 27 62.600 %45,0
AI 16 51.800 %26,7
Clinical Medicine 10 28.100 %16,7
Materials Science 2 9.100 %5,0
Chemistry 3 2.800 %3,3
Miscellaneous 2 11.700 %3,3

1. Information Extraction — Named Entity Recognition (NER)

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
1 biored_ner BioRED Biomedicine Biyomedikal makale abstract'ı 6 varlık türü: Chemical, Variant, Gene, CellLine, Disease, Species
2 scierc_ner SciERC AI Bilgisayar bilimi abstract'ı 6 varlık türü: Task, Method, Metric, Material, OtherScientificTerm, Generic
3 anat_em_ner AnatEM Biomedicine Biyomedikal metin Anatomik varlıklar CC BY
4 cdr_ner BioCreative V CDR Biomedicine Biyomedikal abstract Chemical ve Disease varlıkları
5 chemdner_ner CHEMDNER Chemistry Kimya makalesi abstract'ı Kimyasal varlıklar
6 chemprot_ner ChemProt Chemistry Kimya makalesi abstract'ı Chemical ve Protein varlıkları
7 chia_ner Chia Clinical Klinik çalışma uygunluk kriterleri Tıbbi varlıklar CC BY
8 craftchem_ner CRAFT-Chem Biomedicine Biyomedikal tam metin Kimyasal varlıklar
9 ddi_ner DDI Biomedicine İlaç etkileşimi metinleri İlaç varlıkları CC BY
10 genia_ner JNLPBA Biomedicine Biyomedikal abstract Gen/protein varlıkları CC BY
11 gnormplus_ner GNormPlus Biomedicine Biyomedikal metin Gen varlıkları
12 linnaeus_ner LINNAEUS Biomedicine Biyomedikal metin Tür (species) isimleri CC BY
13 medmentions_ner MedMentions Biomedicine Biyomedikal abstract UMLS konseptleri CC 0
14 ncbi_ner NCBI Disease Biomedicine Biyomedikal abstract Hastalık varlıkları CC 0
15 nlmchem_ner NLM-Chem Chemistry Biyomedikal tam metin Kimyasal varlıklar CC 0
16 nlmgene_ner NLM-Gene Biomedicine Biyomedikal metin Gen varlıkları CC 0
17 pico_ner EBM-NLP PICO Clinical Klinik çalışma abstract'ı Population, Intervention, Comparator, Outcome

2. Information Extraction — Relation Extraction (RE)

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
18 chemprot_re ChemProt Chemistry Kimya abstract'ı Chemical-Protein ilişkileri
19 scierc_re SciERC AI CS abstract'ı Varlıklar arası ilişkiler
20 drug_combo_extraction_re Drug Combinations Clinical İlaç metni İlaç kombinasyon ilişkileri
21 evidence_inference Evidence Inference Clinical Klinik çalışma abstract'ı ICO tuple'ları (Intervention, Comparator, Outcome) + etki + kanıt MIT

3. Information Extraction — Table Extraction (TE)

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
22 discomat_te DISCoMaT Materials Sci. LaTeX tablo + bağlam Tablo hücreleri JSON formatında CC BY-SA
23 chemtables_te ChemTables Chemistry Kimya makale tablosu Tablo hücreleri JSON formatında GPL 3.0
24 mltables_te AxCell AI ML makale sonuç tablosu Tablo hücreleri JSON formatında Apache 2.0

4. Information Extraction — Event Extraction

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
25 annotated_materials_syntheses_events MatSci Text Corpus Materials Sci. Malzeme bilimi makale metni Sentez olay ve parametreleri MIT

5. Summarization — Single Document

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
26 mup_single_document_summarization MUP AI ML makalesi tam metin Hakem değerlendirmesi tarzında kısa özet Apache 2.0
27 chemsum_single_document_summarization ChemSum Chemistry Kimya makalesi tam metin Makale özeti
28 scientific_lay_summarisation_elife Lay Summarisation (eLife) Biomedicine Biyomedikal makale tam metin Halk diline çevrilmiş özet
29 scientific_lay_summarisation_plos Lay Summarisation (PLOS) Biomedicine Biyomedikal makale tam metin Halk diline çevrilmiş özet
30 scientific_papers_summarization_arxiv Scientific Papers AI ArXiv makalesi tam metin Makale abstract'ı
31 scientific_papers_summarization_pubmed Scientific Papers Biomedicine PubMed makalesi tam metin Makale abstract'ı
32 scitldr_aic SciTLDR AI Makale abstract + giriş Tek cümlelik TL;DR özet Apache 2.0

6. Summarization — Multi Document

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
33 mslr2022_cochrane_multidoc_summarization Cochrane Clinical Birden fazla klinik çalışma abstract'ı Cochrane sistematik derleme özeti Apache 2.0
34 mslr2022_ms2_multidoc_summarization MS² Clinical Birden fazla medikal çalışma Çoklu çalışma özeti Apache 2.0
35 multixscience_multidoc_summarization Multi-XScience AI Birden fazla makale abstract'ı İlgili çalışmalar (related work) bölümü MIT
36 scireviewgen_multidoc_summarization SciReviewGen AI Birden fazla makale Literatür taraması metni CC BY-NC

7. Question Answering — Yes/No

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
37 bioasq_yesno_qa BioASQ Biomedicine Biyomedikal alıntılar + evet/hayır sorusu "yes" veya "no" CC BY
38 pubmedqa_qa PubMedQA Biomedicine PubMed abstract + soru "yes", "no", veya "maybe" MIT

8. Question Answering — Extractive / Abstractive

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
39 bioasq_factoid_qa BioASQ Biomedicine Biyomedikal alıntılar + factoid soru Kısa cevap CC BY
40 bioasq_list_qa BioASQ Biomedicine Biyomedikal alıntılar + liste sorusu JSON cevap listesi CC BY
41 bioasq_general_qa BioASQ Biomedicine Biyomedikal alıntılar + genel soru Açıklayıcı paragraf CC BY
42 qasper_abstractive_qa Qasper AI NLP makalesi tam metin + soru Cevap + kanıt paragrafları (JSON) CC BY
43 qasper_extractive_qa Qasper AI NLP makalesi tam metin + soru Alıntılanmış cevap + kanıt (JSON) CC BY
44 qasa_abstractive_qa QASA AI Bilimsel makale bölümleri + soru Detaylı cevap MIT
45 covid_deepset_qa COVID-QA Clinical COVID-19 makale alıntıları + soru Alıntılanmış cevap Apache 2.0

9. Question Answering — Multiple Choice

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
46 data_reco_mcq_mc DataFinder AI Araştırma sorusu + veri seti açıklamaları Uygun veri setleri (JSON liste) Apache 2.0
47 data_reco_mcq_sc DataFinder AI Araştırma sorusu + veri seti açıklamaları Tek uygun veri seti Apache 2.0

10. Classification

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
48 multicite_intent_classification MultiCite AI Atıf cümlesi (citation context) Atıf niyetleri: Background, Motivation, Uses, Extends, Similarities, Differences, FutureWork CC BY-NC
49 acl_arc_intent_classification ACL ARC AI Atıf cümlesi Atıf niyeti sınıfı
50 scicite_classification SciCite AI Atıf cümlesi Atıf niyeti sınıfı
51 bc7_litcovid_topic_classification LitCOVID Biomedicine COVID-19 makale abstract'ı Konu etiketleri (çoklu etiket)

11. Entailment (Claim Verification / Fact Checking)

# Görev Adı Kaynak Veri Seti Alan Input Output Lisans
52 scifact_entailment SciFact Biomedicine Bilimsel iddia + abstract Verdict (SUPPORT/CONTRADICT/NEI) + kanıt cümleleri (JSON) CC BY-NC
53 covidfact_entailment CovidFact Clinical COVID-19 iddiası + abstract Verdict + kanıt cümleleri
54 healthver_entailment HealthVer Clinical Halk sağlığı iddiası + abstract Verdict (SUPPORT/CONTRADICT/NEI) + kanıt cümleleri (JSON)

SciRIFF-Eval — Değerlendirme Görevleri (9 Held-Out Görev)

Bu görevler eğitimden tamamen çıkarılmış, out-of-distribution test için kullanılmıştır:

# Görev Tür Input Output Metrik
1 BioASQ List QA QA Soru + biyomedikal alıntılar Cevap varlıkları listesi Exact match F1
2 BioRED IE (NER) Biyomedikal abstract 6 varlık türü (JSON) Exact match F1
3 DiSCoMaT IE (Table) LaTeX tablo alıntısı Tablo hücreleri (JSON lines) BLEU score
4 Evidence Inference IE (Rel) Klinik çalışma abstract'ı ICO tuple'ları + etki + kanıt (JSON) String overlap F1
5 MultiCite Classification Atıf bağlamı Atıf niyetleri (JSON liste) Exact match F1
6 MuP Summarization ML makalesi tam metin Hakem tarzı kısa özet LLM judge similarity (1-5)
7 Qasper QA NLP makalesi + soru Cevap + kanıt (JSON) LLM judge similarity + Token F1
8 SciERC IE (Rel) CS abstract'ı 6 varlık türü (JSON) Exact match F1
9 SciFact Entailment İddia + abstract Verdict + kanıt cümleleri (JSON) Label F1 + Token F1

Şablon Mühendisliği (Özet)

Yazarların önemli bulgusu: talimat şablonunun kalitesi performansı doğrudan etkiler. Üç yaklaşım raporlanmıştır:

Şablon Türü Llama-3.1-8B Qwen-2.5-1.5B
Uzman yazımı 62.8 57.2
Basit (FlanV2-tarzı) 42.2 33.1
Sentetik (GPT-4o) 28.0 19.1

GPT-4o ile üretilen sentetik şablonlar, bazı karmaşık JSON çıktılı görevlerde formatı doğru tarif edemediği için sıfıra yakın performans üretebilmiştir.


ULAKBIM Bağlamında Notlar