🎙️ 🔊 Speech & Audio¶
De la synthèse vocale à la reconnaissance automatique de la parole
Parcours de lecture
Cette playlist contient 6 papiers sélectionnés pour leur impact sur le domaine.
1. WaveNet (2016)¶
Auteurs: Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu
READ: ⬜
Pourquoi ce papier ?
A Generative Model for Raw Audio - modèle autorégressif générant des formes d'ondes audio brutes avec qualité naturaliste exceptionnelle.
Liens:
- 🔗 Article
2. Tacotron (2017)¶
Auteurs: Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al.
READ: ⬜
Pourquoi ce papier ?
Towards End-to-End Speech Synthesis - architecture seq2seq avec attention pour la synthèse TTS directement du texte aux spectrogrammes.
Liens:
- 🔗 Article
3. Tacotron 2 (2017)¶
Auteurs: Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, et al.
READ: ⬜
Pourquoi ce papier ?
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions - combinaison Tacotron + WaveNet pour synthèse vocale quasi-humaine.
Liens:
- 🔗 Article
4. wav2vec (2019)¶
Auteurs: Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli
READ: ⬜
Pourquoi ce papier ?
Unsupervised Pre-training for Speech Recognition - apprentissage de représentations audio non-supervisé via contrastive learning.
Liens:
- 🔗 Article
5. wav2vec 2.0 (2020)¶
Auteurs: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli
READ: ⬜
Pourquoi ce papier ?
A Framework for Self-Supervised Learning of Speech Representations - pré-entraînement auto-supervisé masqué drastiquement réduisant les besoins en données labellisées.
Liens:
- 🔗 Article
6. Whisper (2022)¶
Auteurs: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever
READ: ⬜
Pourquoi ce papier ?
Robust Speech Recognition via Large-Scale Weak Supervision - modèle multilingue et multitâche robuste entraîné sur 680k heures d'audio faiblement supervisé.
Liens:
- 🔗 Article