🎙️ 🔊 Speech & Audio¶

De la synthèse vocale à la reconnaissance automatique de la parole

Parcours de lecture

Cette playlist contient 6 papiers sélectionnés pour leur impact sur le domaine.

1. WaveNet (2016)¶

Auteurs: Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu

READ: ⬜

Pourquoi ce papier ?

A Generative Model for Raw Audio - modèle autorégressif générant des formes d'ondes audio brutes avec qualité naturaliste exceptionnelle.

Liens:

🔗 Article

2. Tacotron (2017)¶

Auteurs: Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al.

READ: ⬜

Pourquoi ce papier ?

Towards End-to-End Speech Synthesis - architecture seq2seq avec attention pour la synthèse TTS directement du texte aux spectrogrammes.

Liens:

🔗 Article

3. Tacotron 2 (2017)¶

Auteurs: Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, et al.

READ: ⬜

Pourquoi ce papier ?

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions - combinaison Tacotron + WaveNet pour synthèse vocale quasi-humaine.

Liens:

🔗 Article

4. wav2vec (2019)¶

Auteurs: Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli

READ: ⬜

Pourquoi ce papier ?

Unsupervised Pre-training for Speech Recognition - apprentissage de représentations audio non-supervisé via contrastive learning.

Liens:

🔗 Article

5. wav2vec 2.0 (2020)¶

Auteurs: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

READ: ⬜

Pourquoi ce papier ?

A Framework for Self-Supervised Learning of Speech Representations - pré-entraînement auto-supervisé masqué drastiquement réduisant les besoins en données labellisées.

Liens:

🔗 Article

6. Whisper (2022)¶

Auteurs: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

READ: ⬜

Pourquoi ce papier ?

Robust Speech Recognition via Large-Scale Weak Supervision - modèle multilingue et multitâche robuste entraîné sur 680k heures d'audio faiblement supervisé.

Liens:

🔗 Article