🎮 🤖 Reinforcement Learning¶

L'apprentissage par interaction et récompenses - des jeux Atari aux agents universels

Parcours de lecture

Cette playlist contient 10 papiers sélectionnés pour leur impact sur le domaine.

1. DQN (2013)¶

Auteurs: Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller

READ: ⬜

Pourquoi ce papier ?

Playing Atari with Deep Reinforcement Learning - premier agent deep RL performant sur des pixels bruts, révolutionnant le domaine.

Liens:

🔗 Article

2. Double DQN (2015)¶

Auteurs: Hado van Hasselt, Arthur Guez, David Silver

READ: ⬜

Pourquoi ce papier ?

Deep Reinforcement Learning with Double Q-learning - résolution du problème de surestimation des Q-values.

Liens:

🔗 Article

3. Dueling DQN (2015)¶

Auteurs: Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas

READ: ⬜

Pourquoi ce papier ?

Dueling Network Architectures - séparation explicite de la value function et advantage function pour meilleure généralisation.

Liens:

🔗 Article

4. A3C (2016)¶

Auteurs: Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

READ: ⬜

Pourquoi ce papier ?

Asynchronous Methods for Deep Reinforcement Learning - parallélisation de l'apprentissage avec actor-critic asynchrones.

Liens:

🔗 Article

5. PPO (2017)¶

Auteurs: John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov

READ: ⬜

Pourquoi ce papier ?

Proximal Policy Optimization - algorithme de policy gradient simple, stable et performant, devenu standard industriel.

Liens:

🔗 Article

6. AlphaGo Zero (2017)¶

Auteurs: David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, et al.

READ: ⬜

Pourquoi ce papier ?

Mastering Go without Human Knowledge - self-play et MCTS pour surpasser les champions humains sans données humaines.

Liens:

🔗 Article

7. Rainbow (2017)¶

Auteurs: Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver

READ: ⬜

Pourquoi ce papier ?

Combining Improvements in Deep RL - combinaison de 6 extensions de DQN (Double DQN, Dueling, Prioritized replay, etc.) atteignant SOTA.

Liens:

🔗 Article

8. Soft Actor-Critic (SAC) (2018)¶

Auteurs: Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine

READ: ⬜

Pourquoi ce papier ?

Off-Policy Maximum Entropy Deep RL - actor-critic avec maximum entropy pour exploration et stabilité, très efficace en sample.

Liens:

🔗 Article

9. MuZero (2019)¶

Auteurs: Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al.

READ: ⬜

Pourquoi ce papier ?

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model - modèle du monde appris combiné à la planification, généralisant AlphaZero.

Liens:

🔗 Article

10. Decision Transformer (2021)¶

Auteurs: Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch

READ: ⬜

Pourquoi ce papier ?

Reinforcement Learning via Sequence Modeling - reformulation du RL comme problème de modélisation de séquences avec Transformers.

Liens:

🔗 Article