🎮 🤖 Reinforcement Learning¶
L'apprentissage par interaction et récompenses - des jeux Atari aux agents universels
Parcours de lecture
Cette playlist contient 10 papiers sélectionnés pour leur impact sur le domaine.
1. DQN (2013)¶
Auteurs: Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
READ: ⬜
Pourquoi ce papier ?
Playing Atari with Deep Reinforcement Learning - premier agent deep RL performant sur des pixels bruts, révolutionnant le domaine.
Liens:
- 🔗 Article
2. Double DQN (2015)¶
Auteurs: Hado van Hasselt, Arthur Guez, David Silver
READ: ⬜
Pourquoi ce papier ?
Deep Reinforcement Learning with Double Q-learning - résolution du problème de surestimation des Q-values.
Liens:
- 🔗 Article
3. Dueling DQN (2015)¶
Auteurs: Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas
READ: ⬜
Pourquoi ce papier ?
Dueling Network Architectures - séparation explicite de la value function et advantage function pour meilleure généralisation.
Liens:
- 🔗 Article
4. A3C (2016)¶
Auteurs: Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu
READ: ⬜
Pourquoi ce papier ?
Asynchronous Methods for Deep Reinforcement Learning - parallélisation de l'apprentissage avec actor-critic asynchrones.
Liens:
- 🔗 Article
5. PPO (2017)¶
Auteurs: John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
READ: ⬜
Pourquoi ce papier ?
Proximal Policy Optimization - algorithme de policy gradient simple, stable et performant, devenu standard industriel.
Liens:
- 🔗 Article
6. AlphaGo Zero (2017)¶
Auteurs: David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, et al.
READ: ⬜
Pourquoi ce papier ?
Mastering Go without Human Knowledge - self-play et MCTS pour surpasser les champions humains sans données humaines.
Liens:
- 🔗 Article
7. Rainbow (2017)¶
Auteurs: Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver
READ: ⬜
Pourquoi ce papier ?
Combining Improvements in Deep RL - combinaison de 6 extensions de DQN (Double DQN, Dueling, Prioritized replay, etc.) atteignant SOTA.
Liens:
- 🔗 Article
8. Soft Actor-Critic (SAC) (2018)¶
Auteurs: Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine
READ: ⬜
Pourquoi ce papier ?
Off-Policy Maximum Entropy Deep RL - actor-critic avec maximum entropy pour exploration et stabilité, très efficace en sample.
Liens:
- 🔗 Article
9. MuZero (2019)¶
Auteurs: Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al.
READ: ⬜
Pourquoi ce papier ?
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model - modèle du monde appris combiné à la planification, généralisant AlphaZero.
Liens:
- 🔗 Article
10. Decision Transformer (2021)¶
Auteurs: Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
READ: ⬜
Pourquoi ce papier ?
Reinforcement Learning via Sequence Modeling - reformulation du RL comme problème de modélisation de séquences avec Transformers.
Liens:
- 🔗 Article