Skip to content

Cramming: Training a Language Model on a Single GPU in One Day

TL;DR

Contexte

Idées clés

Méthode

Résultats

Limites

Liens utiles

Notes perso