ChatSpot

Paper: ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning GitHub Link Publisher: Arxiv Author Affiliation: MEGVII Functional Division Understandi...

Jul 18, 2023 Arxiv

BuboGPT

Paper: BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs GitHub Link Publisher: Arxiv Author Affiliation: Bytedance Functional Division Understanding Generation ...

Jul 17, 2023 Arxiv

BuboGPT’s IT

Paper: BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs GitHub Link Publisher: Arxiv Author Affiliation: Bytedance Type SFT RLHF Multi-turn ✔ ...

Jul 17, 2023 Arxiv

SEED

Paper: Planting a SEED of Vision in Large Language Model GitHub Link Publisher: Arxiv Author Affiliation: Tencent AI Lab Functional Division Understanding Generation ...

Jul 16, 2023 Arxiv

SEED-Bench (Image)

Paper: Planting a SEED of Vision in Large Language Model Project Link Publisher: Arxiv Author Affiliation: Tencent AI Lab Input Modalities $\rightarrow$ Output Modalities (I: Image, V: V...

Jul 16, 2023 Arxiv

DLP

Paper: Bootstrapping Vision-Language Learning with Decoupled Language Pre-training GitHub Link Publisher: NeurIPS 2022 Author Affiliation: Dartmouth College Functional Division ...

Jul 13, 2023 NeurIPS 2023

Emu

Paper: Generative Pretraining in Multimodality GitHub Link Publisher: ICLR 2024 Author Affiliation: Beijing Academy of Artificial Intelligence Functional Division Understandin...

Jul 11, 2023 ICLR 2024

SVIT

Paper: SVIT: Scaling up Visual Instruction Tuning GitHub Link Publisher: Arxiv Author Affiliation: Beijing Academy of Artificial Intelligence Type SFT RLHF Mul...

Jul 9, 2023 Arxiv

GPT4RoI

Paper: GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest GitHub Link Publisher: Arxiv Author Affiliation: The University of Hong Kong Functional Division ...

Jul 7, 2023 Arxiv

Lynx

Paper: What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? GitHub Link Publisher: Arxiv Author Affiliation: ByteDance Research Functional Division Und...

Jul 5, 2023 Arxiv