Osprey’s IT

Paper: https://arxiv.org/abs/2312.10032 GitHub Link Publisher: Arxiv Author Affiliation: Zhejiang University Type SFT RLHF Multi-turn ✔ ✖ ...

Dec 15, 2023 Arxiv

VL-GPT

Paper: VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation GitHub Link Publisher: Arxiv Author Affiliation: Tencent AI Lab Functional Divisi...

Dec 14, 2023 Arxiv

CogAgent

Paper: CogAgent: A Visual Language Model for GUI Agents GitHub Link Publisher: Arxiv Author Affiliation: Tsinghua University Functional Division Understanding Generation...

Dec 14, 2023 Arxiv

VILA

Paper: VILA: On Pre-training for Visual Language Models GitHub Link: None Publisher: Arxiv Author Affiliation: NVIDIA Functional Division Understanding Generation ...

Dec 12, 2023 Arxiv

MP5

Paper: MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception GitHub Link Publisher: Arxiv Author Affiliation: Shanghai Artificial Intelligence Laboratory Funct...

Dec 12, 2023 Arxiv

Lyrics

Paper: Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects GitHub Link: None Publisher: Arxiv Author Affiliation: International Digi...

Dec 8, 2023 Arxiv

VLFeedback

Paper: Silkie: Preference Distillation for Large Visual Language Models GitHub Link Publisher: Arxiv Author Affiliation: The University of Hong Kong Type SFT RLHF ...

Dec 7, 2023 Arxiv

Silkie

Paper: Silkie: Preference Distillation for Large Visual Language Models GitHub Link Publisher: Arxiv Author Affiliation: The University of Hong Kong Functional Division Unders...

Dec 7, 2023 Arxiv

MME Perception

Paper: MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models Project Link Publisher: Arxiv Author Affiliation: Tencent Youtu Lab

Dec 6, 2023 Arxiv

MME Cognition