Skip to content

🎙️ 🔊 Speech & Audio

De la synthèse vocale à la reconnaissance automatique de la parole

Parcours de lecture

Cette playlist contient 6 papiers sélectionnés pour leur impact sur le domaine.


1. WaveNet (2016)

Auteurs: Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, Koray Kavukcuoglu

READ: ⬜

Pourquoi ce papier ?

A Generative Model for Raw Audio - modèle autorégressif générant des formes d'ondes audio brutes avec qualité naturaliste exceptionnelle.

Liens:


2. Tacotron (2017)

Auteurs: Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, et al.

READ: ⬜

Pourquoi ce papier ?

Towards End-to-End Speech Synthesis - architecture seq2seq avec attention pour la synthèse TTS directement du texte aux spectrogrammes.

Liens:


3. Tacotron 2 (2017)

Auteurs: Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, et al.

READ: ⬜

Pourquoi ce papier ?

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions - combinaison Tacotron + WaveNet pour synthèse vocale quasi-humaine.

Liens:


4. wav2vec (2019)

Auteurs: Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli

READ: ⬜

Pourquoi ce papier ?

Unsupervised Pre-training for Speech Recognition - apprentissage de représentations audio non-supervisé via contrastive learning.

Liens:


5. wav2vec 2.0 (2020)

Auteurs: Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

READ: ⬜

Pourquoi ce papier ?

A Framework for Self-Supervised Learning of Speech Representations - pré-entraînement auto-supervisé masqué drastiquement réduisant les besoins en données labellisées.

Liens:


6. Whisper (2022)

Auteurs: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

READ: ⬜

Pourquoi ce papier ?

Robust Speech Recognition via Large-Scale Weak Supervision - modèle multilingue et multitâche robuste entraîné sur 680k heures d'audio faiblement supervisé.

Liens: