Pager 14 - K2H'log

FLAN

Finetuned Language Models Are Zero-Shot Learners

Codex

Evaluating Large Language Models Trained on Code

Switch Transformers

Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

GPT-3

Language Models are Few-Shot Learners

ELECTRA

Pre-training Text Encoders as Discriminators Rather Than Generators