该基准由来自多个大学和研究机构的研究人员共同开发,旨在通过多样化和高质量的数据集,全面考察MLLMs在处理视频数据时的能力。
视频数据集涵盖6个主要视觉领域,包括知识、电影与电视、体育竞技、艺术表演、生活记录和多语言。
每个领域进一步细分为30个子类别,如天文学、科技、纪录片、新闻报道、电竞、魔术表演和时尚等,确保广泛的场景适用性。
该基准由来自多个大学和研究机构的研究人员共同开发,旨在通过多样化和高质量的数据集,全面考察MLLMs在处理视频数据时的能力。
视频数据集涵盖6个主要视觉领域,包括知识、电影与电视、体育竞技、艺术表演、生活记录和多语言。
每个领域进一步细分为30个子类别,如天文学、科技、纪录片、新闻报道、电竞、魔术表演和时尚等,确保广泛的场景适用性。