🤖 💬 NLP & Transformers¶

L'évolution des architectures pour le traitement du langage naturel

Parcours de lecture

Cette playlist contient 15 papiers sélectionnés pour leur impact sur le domaine.

1. Word2Vec (2013)¶

Auteurs: Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

READ: ✅

Pourquoi ce papier ?

Représentations vectorielles continues des mots capturant les relations sémantiques. Fondation du NLP moderne.

Liens:

📝 Mes notes
🔗 Article

2. GRU (2014)¶

Auteurs: Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio

READ: ✅

Pourquoi ce papier ?

Gated Recurrent Unit - simplification du LSTM avec performances similaires, utilisant des mécanismes de gating pour contrôler le flux d'information.

Liens:

📝 Mes notes
🔗 Article

3. Sequence to Sequence (2014)¶

Auteurs: Ilya Sutskever, Oriol Vinyals, Quoc V. Le

READ: ✅

Pourquoi ce papier ?

Architecture encoder-decoder permettant de mapper des séquences de longueur variable. Base de la traduction neuronale.

Liens:

📝 Mes notes
🔗 Article

4. Attention Mechanism (2015)¶

Auteurs: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

READ: ✅

Pourquoi ce papier ?

Mécanisme d'attention permettant au modèle de se concentrer sur les parties pertinentes de l'entrée. Innovation majeure du NLP.

Liens:

📝 Mes notes
🔗 Article

5. Transformer (2017)¶

Auteurs: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

READ: ✅

Pourquoi ce papier ?

"Attention Is All You Need" - Architecture révolutionnaire basée uniquement sur l'attention, abandonnant la récurrence. Base de tous les LLMs modernes.

Liens:

📝 Mes notes
🔗 Article

6. ELMo (2018)¶

Auteurs: Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer

READ: ✅

Pourquoi ce papier ?

Embeddings from Language Models - représentations contextuelles profondes capturant la polysémie et le contexte.

Liens:

📝 Mes notes
🔗 Article

7. GPT (2018)¶

Auteurs: Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

READ: ✅

Pourquoi ce papier ?

Generative Pre-Training - démonstration que le pré-entraînement génératif sur du texte brut améliore les tâches discriminatives.

Liens:

📝 Mes notes
🔗 Article

8. BERT (2018)¶

Auteurs: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

READ: ✅

Pourquoi ce papier ?

Bidirectional Encoder Representations from Transformers - pré-entraînement bidirectionnel avec masked language modeling. État de l'art sur 11 tâches NLP.

Liens:

📝 Mes notes
🔗 Article

9. GPT-2 (2019)¶

Auteurs: Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever

READ: ✅

Pourquoi ce papier ?

Language Models are Unsupervised Multitask Learners - démonstration des capacités zero-shot des modèles de langage à grande échelle (1.5B paramètres).

Liens:

📝 Mes notes
🔗 Article

10. T5 (2019)¶

Auteurs: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

READ: ✅

Pourquoi ce papier ?

Text-to-Text Transfer Transformer - unification de toutes les tâches NLP sous un format texte-à-texte. Étude systématique du transfer learning.

Liens:

📝 Mes notes
🔗 Article

11. GPT-3 (2020)¶

Auteurs: Tom B. Brown et al. (31 auteurs)

READ: ✅

Pourquoi ce papier ?

Language Models are Few-Shot Learners - 175B paramètres, démonstration du few-shot et in-context learning sans fine-tuning.

Liens:

📝 Mes notes
🔗 Article

12. Scaling Laws (2020)¶

Auteurs: Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei

READ: ✅

Pourquoi ce papier ?

Lois empiriques prédisant les performances des modèles de langage en fonction du nombre de paramètres, données et compute.

Liens:

📝 Mes notes
🔗 Article

13. Chain-of-Thought (2022)¶

Auteurs: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou

READ: ✅

Pourquoi ce papier ?

Chain-of-Thought Prompting - le raisonnement intermédiaire améliore drastiquement les capacités de raisonnement des LLMs.

Liens:

📝 Mes notes
🔗 Article

14. InstructGPT (2022)¶

Auteurs: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al.

READ: ✅

Pourquoi ce papier ?

RLHF (Reinforcement Learning from Human Feedback) - aligner les modèles de langage avec les intentions humaines via le feedback.

Liens:

📝 Mes notes
🔗 Article

15. LLaMA (2023)¶

Auteurs: Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al.

READ: ✅

Pourquoi ce papier ?

Open and Efficient Foundation Language Models - modèles open-source performants (7B-65B), démocratisation de l'accès aux LLMs.

Liens:

📝 Mes notes
🔗 Article