Pager 16 - K2H'log

RoBERTa

A Robustly Optimized BERT Pretraining Approach

XLNet

Generalized Autoregressive Pretraining for Language Understanding

GPT-2

Language Models are Unsupervised Multitask Learners

Transformer-XL

Attentive Language Models Beyond a Fixed-Length Context

BERT

Pre-training of Deep Bidirectional Transformers for Language Understanding