🤖 💬 NLP & Transformers¶
L'évolution des architectures pour le traitement du langage naturel
Parcours de lecture
Cette playlist contient 15 papiers sélectionnés pour leur impact sur le domaine.
1. Word2Vec (2013)¶
Auteurs: Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
READ: ✅
Pourquoi ce papier ?
Représentations vectorielles continues des mots capturant les relations sémantiques. Fondation du NLP moderne.
Liens:
2. GRU (2014)¶
Auteurs: Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio
READ: ✅
Pourquoi ce papier ?
Gated Recurrent Unit - simplification du LSTM avec performances similaires, utilisant des mécanismes de gating pour contrôler le flux d'information.
Liens:
3. Sequence to Sequence (2014)¶
Auteurs: Ilya Sutskever, Oriol Vinyals, Quoc V. Le
READ: ✅
Pourquoi ce papier ?
Architecture encoder-decoder permettant de mapper des séquences de longueur variable. Base de la traduction neuronale.
Liens:
4. Attention Mechanism (2015)¶
Auteurs: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
READ: ✅
Pourquoi ce papier ?
Mécanisme d'attention permettant au modèle de se concentrer sur les parties pertinentes de l'entrée. Innovation majeure du NLP.
Liens:
5. Transformer (2017)¶
Auteurs: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
READ: ✅
Pourquoi ce papier ?
"Attention Is All You Need" - Architecture révolutionnaire basée uniquement sur l'attention, abandonnant la récurrence. Base de tous les LLMs modernes.
Liens:
6. ELMo (2018)¶
Auteurs: Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
READ: ✅
Pourquoi ce papier ?
Embeddings from Language Models - représentations contextuelles profondes capturant la polysémie et le contexte.
Liens:
7. GPT (2018)¶
Auteurs: Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever
READ: ✅
Pourquoi ce papier ?
Generative Pre-Training - démonstration que le pré-entraînement génératif sur du texte brut améliore les tâches discriminatives.
Liens:
8. BERT (2018)¶
Auteurs: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
READ: ✅
Pourquoi ce papier ?
Bidirectional Encoder Representations from Transformers - pré-entraînement bidirectionnel avec masked language modeling. État de l'art sur 11 tâches NLP.
Liens:
9. GPT-2 (2019)¶
Auteurs: Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever
READ: ✅
Pourquoi ce papier ?
Language Models are Unsupervised Multitask Learners - démonstration des capacités zero-shot des modèles de langage à grande échelle (1.5B paramètres).
Liens:
10. T5 (2019)¶
Auteurs: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
READ: ✅
Pourquoi ce papier ?
Text-to-Text Transfer Transformer - unification de toutes les tâches NLP sous un format texte-à-texte. Étude systématique du transfer learning.
Liens:
11. GPT-3 (2020)¶
Auteurs: Tom B. Brown et al. (31 auteurs)
READ: ✅
Pourquoi ce papier ?
Language Models are Few-Shot Learners - 175B paramètres, démonstration du few-shot et in-context learning sans fine-tuning.
Liens:
12. Scaling Laws (2020)¶
Auteurs: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei
READ: ✅
Pourquoi ce papier ?
Lois empiriques prédisant les performances des modèles de langage en fonction du nombre de paramètres, données et compute.
Liens:
13. Chain-of-Thought (2022)¶
Auteurs: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
READ: ✅
Pourquoi ce papier ?
Chain-of-Thought Prompting - le raisonnement intermédiaire améliore drastiquement les capacités de raisonnement des LLMs.
Liens:
14. InstructGPT (2022)¶
Auteurs: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al.
READ: ✅
Pourquoi ce papier ?
RLHF (Reinforcement Learning from Human Feedback) - aligner les modèles de langage avec les intentions humaines via le feedback.
Liens:
15. LLaMA (2023)¶
Auteurs: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al.
READ: ✅
Pourquoi ce papier ?
Open and Efficient Foundation Language Models - modèles open-source performants (7B-65B), démocratisation de l'accès aux LLMs.
Liens: