K2H'log

GPT-2

Language Models are Unsupervised Multitask Learners

Transformer-XL

Attentive Language Models Beyond a Fixed-Length Context

BERT

Pre-training of Deep Bidirectional Transformers for Language Understanding

GPT-1

Improving Language Understanding by Generative Pre-Training

Transformers

Attention Is All You Need