DocLLM

Paper: DocLLM: A layout-aware generative language model for multimodal document understanding GitHub Link: None Publisher: Arxiv Author Affiliation: JPMorgan AI Research Functional Divis...

Dec 31, 2023 Arxiv

TinyGPT-V

Paper: TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones GitHub Link Publisher: Arxiv Author Affiliation: Nanyang Technological University Functional Division ...

Dec 28, 2023 Arxiv

MobileVLM

Paper: MobileVLM: A Fast, Strong and Open Vision Language Assistant for Mobile Devices GitHub Link Publisher: Arxiv Author Affiliation: Meituan Inc. Functional Division Unders...

Dec 28, 2023 Arxiv

Related Survey 3

Paper: Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey Project Link: None Publisher: Arxiv Author Affiliation: Nanyang Technological University,

Dec 27, 2023 Arxiv

V*

Paper: V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs GitHub Link Publisher: Arxiv Author Affiliation: UC San Diego Functional Division Understanding Ge...

Dec 21, 2023 Arxiv

InternVL

Paper: InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks GitHub Link Publisher: Arxiv Author Affiliation: Shanghai AI Laboratory Functional D...

Dec 21, 2023 Arxiv

Emu-2

Paper: Generative Multimodal Models are In-Context Learners GitHub Link Publisher: Arxiv Author Affiliation: Beijing Academy of Artificial Intelligence Functional Division Und...

Dec 20, 2023 Arxiv

Gemini

Paper: Gemini: A Family of Highly Capable Multimodal Models GitHub Link: None Publisher: Arxiv Author Affiliation: Google Functional Division Understanding Generation ...

Dec 19, 2023 Arxiv

CLOVA

Paper: CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update GitHub Link Publisher: Arxiv Author Affiliation: Peking University Functional Division Understanding ...

Dec 18, 2023 Arxiv

Osprey

Paper: https://arxiv.org/abs/2312.10032 GitHub Link Publisher: Arxiv Author Affiliation: Zhejiang University Functional Division Understanding Generation Desig...

Dec 15, 2023 Arxiv