在几乎所有指标上,Llama 3-V 的性能与GPT-4V、Gemini Ultra和Claude Opus等规模大100倍的闭源模型相当。
唯一的例外是MMM U(多模态记忆任务),Llama 3-V略逊一筹。
Llama3-V 的架构结合了视觉模型和语言模型,由 Llama3 8B 和 siglip-so400m 驱动。
整个训练成本不到500美元。
在几乎所有指标上,Llama 3-V 的性能与GPT-4V、Gemini Ultra和Claude Opus等规模大100倍的闭源模型相当。
唯一的例外是MMM U(多模态记忆任务),Llama 3-V略逊一筹。
Llama3-V 的架构结合了视觉模型和语言模型,由 Llama3 8B 和 siglip-so400m 驱动。
整个训练成本不到500美元。