Cramming: Training a Language Model on a Single GPU in One Day TL;DR¶ Contexte¶ Idées clés¶ Méthode¶ Résultats¶ Limites¶ Liens utiles¶ Notes perso¶