Accelerating Vision-Language Pretraining with Free Language Modeling (CVPR 2023)

GenAI on the Edge Forum - Song Han: Visual Language Models for Edge AI 2.0Подробнее

Teaching Structured Vision & Language Concepts to Vision & Language Models- CVPR 2023Подробнее

[CVPR'24] VILA: On Pre-training for Visual Language ModelsПодробнее

[CVPR2023] Position-guided Text Prompt for Vision-Language Pre-trainingПодробнее

[CVPR 2023] Meta-Personalizing Vision-Language Models To Find Named Instances in VideoПодробнее

[CVPR 2023 Poster] You Need Multiple Exiting: Early Exiting for Accelerating Vision Language ModelПодробнее

[CVPR 2023] Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision TransformersПодробнее

[CVPR 2023] Filtering, Distillation, and Hard Negatives for Vision-Language Pre-TrainingПодробнее

Learning Visual Representations via Language-Guided Sampling (CVPR 2023)Подробнее

(CVPR 2023 Highlight) Learning Video Representations from Large Language ModelsПодробнее

CVPR 2023: DeAR - Debiasing Vision-Language Models with Additive ResidualsПодробнее

[CVPR 2023 Highlight] Language-Guided Music Recommendation for Video via Prompt AnalogiesПодробнее

CVPR-2023 Scaling Language-Image Pre-training via MaskingПодробнее

10 minutes paper (episode 26):Multi-Grained Vision Language Pre-Training: X-VLMПодробнее

[VLP Tutorial @ CVPR 2022] Recent Advances in Vision-and-Language Pre-trainingПодробнее

CREPE: Can Vision Language Foundation Models Reason Compositionally?Подробнее

【CVPR 2023】Open-set Fine-grained Retrieval via Prompting Vision-Language EvaluatorПодробнее