👁️ 💬 Vision-Language Models¶
Modèles multimodaux unifiant vision et langage
Parcours de lecture
Cette playlist contient 11 papiers sélectionnés pour leur impact sur le domaine.
1. Show and Tell (2014)¶
Auteurs: Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan
READ: ⬜
Pourquoi ce papier ?
Neural Image Caption Generator - encoder CNN + decoder LSTM pour générer des descriptions d'images.
Liens:
- 🔗 Article
2. Show, Attend and Tell (2015)¶
Auteurs: Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio
READ: ⬜
Pourquoi ce papier ?
Image Captioning avec attention visuelle - le modèle apprend où regarder pendant la génération.
Liens:
- 🔗 Article
3. Visual Question Answering (VQA) (2015)¶
Auteurs: Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh
READ: ⬜
Pourquoi ce papier ?
Dataset et tâche de VQA - répondre à des questions en langage naturel sur des images.
Liens:
- 🔗 Article
4. ViLBERT (2019)¶
Auteurs: Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee
READ: ⬜
Pourquoi ce papier ?
Pré-entraînement de représentations visiolinguistiques avec co-attention entre modalités visuelles et textuelles.
Liens:
- 🔗 Article
5. CLIP (2021)¶
Auteurs: Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.
READ: ⬜
Pourquoi ce papier ?
Contrastive Language-Image Pre-training - apprentissage de représentations visuelles transférables via supervision en langage naturel.
Liens:
- 🔗 Article
6. ALIGN (2021)¶
Auteurs: Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig
READ: ⬜
Pourquoi ce papier ?
Scaling Up Visual and Vision-Language Representation Learning - pré-entraînement à large échelle sur données bruitées.
Liens:
- 🔗 Article
7. BLIP (2022)¶
Auteurs: Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi
READ: ⬜
Pourquoi ce papier ?
Bootstrapping Language-Image Pre-training - pré-entraînement vision-langage avec filtrage et génération de captions.
Liens:
- 🔗 Article
8. Flamingo (2022)¶
Auteurs: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, et al.
READ: ⬜
Pourquoi ce papier ?
Visual Language Model pour Few-Shot Learning - capacités in-context learning sur tâches vision-langage.
Liens:
- 🔗 Article
9. LLaVA (2023)¶
Auteurs: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
READ: ⬜
Pourquoi ce papier ?
Visual Instruction Tuning - fine-tuning de LLMs multimodaux avec instructions pour suivre des commandes vision-langage.
Liens:
- 🔗 Article
10. GPT-4V (2023)¶
Auteurs: OpenAI
READ: ⬜
Pourquoi ce papier ?
GPT-4 avec vision - capacités multimodales intégrées au LLM le plus performant, raisonnement visuel avancé.
Liens:
11. Gemini (2023)¶
Auteurs: Google DeepMind
READ: ⬜
Pourquoi ce papier ?
Famille de modèles multimodaux hautement capables - architecture nativement multimodale (texte, image, audio, vidéo).
Liens: