LaVIT

Paper: Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization GitHub Link Publisher: ICLR 2024 Author Affiliation: Kuaishou Technology Functional Division ...

Sep 9, 2023 ICLR 2024

InternLM-XComposer

Paper: InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition GitHub Link Publisher: Arxiv Author Affiliation: Shanghai Artificial Intellig...

Sep 6, 2023 Arxiv

CM3Leon

Paper: Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning GitHub Link Publisher: Arxiv Author Affiliation: FAIR Functional Division Understanding ...

Sep 5, 2023 Arxiv

PointLLM

Paper: PointLLM: Empowering Large Language Models to Understand Point Clouds GitHub Link Publisher: Arxiv Author Affiliation: The Chinese University of Hong Kong Functional Division ...

Aug 31, 2023 Arxiv

Qwen-VL

Paper: Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond GitHub Link Publisher: Arxiv Author Affiliation: Alibaba Group Functional Divi...

Aug 24, 2023 Arxiv

VisCPM

Paper: Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages GitHub Link Publisher: Arxiv Author Affiliation: Tsinghua University Functional Division ...

Aug 23, 2023 Arxiv

IDEFICS

Paper: Introducing IDEFICS: An Open Reproduction of State-of-the-Art Visual Language Model GitHub Link Publisher: Website Functional Division Understanding Generation ...

Aug 22, 2023 Website

StableLLaVA

Paper: StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data GitHub Link Publisher: Arxiv Author Affiliation: University of Technology Sydney Type ...

Aug 20, 2023 Arxiv

BLIVA

Paper: BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions GitHub Link Publisher: AAAI 2024 Author Affiliation: UC San Diego Functional Division U...

Aug 19, 2023 AAAI 2024

Chat-3D

Paper: Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes GitHub Link Publisher: Arxiv Author Affiliation: Zhejiang University Functional Division ...

Aug 17, 2023 Arxiv