👁️ 💬 Vision-Language Models¶

Modèles multimodaux unifiant vision et langage

Parcours de lecture

Cette playlist contient 11 papiers sélectionnés pour leur impact sur le domaine.

1. Show and Tell (2014)¶

Auteurs: Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan

READ: ⬜

Pourquoi ce papier ?

Neural Image Caption Generator - encoder CNN + decoder LSTM pour générer des descriptions d'images.

Liens:

🔗 Article

2. Show, Attend and Tell (2015)¶

Auteurs: Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio

READ: ⬜

Pourquoi ce papier ?

Image Captioning avec attention visuelle - le modèle apprend où regarder pendant la génération.

Liens:

🔗 Article

3. Visual Question Answering (VQA) (2015)¶

Auteurs: Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh

READ: ⬜

Pourquoi ce papier ?

Dataset et tâche de VQA - répondre à des questions en langage naturel sur des images.

Liens:

🔗 Article

4. ViLBERT (2019)¶

Auteurs: Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee

READ: ⬜

Pourquoi ce papier ?

Pré-entraînement de représentations visiolinguistiques avec co-attention entre modalités visuelles et textuelles.

Liens:

🔗 Article

5. CLIP (2021)¶

Auteurs: Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.

READ: ⬜

Pourquoi ce papier ?

Contrastive Language-Image Pre-training - apprentissage de représentations visuelles transférables via supervision en langage naturel.

Liens:

🔗 Article

6. ALIGN (2021)¶

Auteurs: Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig

READ: ⬜

Pourquoi ce papier ?

Scaling Up Visual and Vision-Language Representation Learning - pré-entraînement à large échelle sur données bruitées.

Liens:

🔗 Article

7. BLIP (2022)¶

Auteurs: Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi

READ: ⬜

Pourquoi ce papier ?

Bootstrapping Language-Image Pre-training - pré-entraînement vision-langage avec filtrage et génération de captions.

Liens:

🔗 Article

8. Flamingo (2022)¶

Auteurs: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, et al.

READ: ⬜

Pourquoi ce papier ?

Visual Language Model pour Few-Shot Learning - capacités in-context learning sur tâches vision-langage.

Liens:

🔗 Article

9. LLaVA (2023)¶

Auteurs: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

READ: ⬜

Pourquoi ce papier ?

Visual Instruction Tuning - fine-tuning de LLMs multimodaux avec instructions pour suivre des commandes vision-langage.

Liens:

🔗 Article

10. GPT-4V (2023)¶

Auteurs: OpenAI

READ: ⬜

Pourquoi ce papier ?

GPT-4 avec vision - capacités multimodales intégrées au LLM le plus performant, raisonnement visuel avancé.

Liens:

🔗 Technical Report

11. Gemini (2023)¶

Auteurs: Google DeepMind

READ: ⬜

Pourquoi ce papier ?

Famille de modèles multimodaux hautement capables - architecture nativement multimodale (texte, image, audio, vidéo).

Liens:

🔗 Technical Report