Llama3-V:只用500美元的成本构建的基于 Llama3 的多模态模型

在几乎所有指标上,Llama 3-V 的性能与GPT-4V、Gemini Ultra和Claude Opus等规模大100倍的闭源模型相当。

唯一的例外是MMM U(多模态记忆任务),Llama 3-V略逊一筹。

Llama3-V 的架构结合了视觉模型和语言模型,由 Llama3 8B 和 siglip-so400m 驱动。

整个训练成本不到500美元。

微海报