开源项目WeClone:用微信聊天记录,做个“数字版的你”,某种意义上实现“数字永生”
该项目可以把AI调成模仿你的口气说话,再接入聊天机器人,实现属于你自己的“数字分身”。 来看下它具体能干嘛: – 支持从微信导出聊天记录,并自动处理成问答格式 – 基于LoRA...
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
多模态大模型几何解题哪家强? 首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了! GeoSense,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码...
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注
垂域模型训练,高质量问答数据稀缺一直是行业痛点。 在垂直领域大模型训练中,人工标注成本高昂,合成数据又常陷入质量与专业性难以兼得的困境。 为此,上海AI实验室等提出GraphGen。 通过“知识图谱引...
智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!
端侧大模型圈子的《速度与激情》,就这么水灵灵地上演了。 坐标上海车展,在长安马自达新车发布之际,车上的智能座舱竟然成了大亮点之一。 因为速度着实有点太快——从零到量产,只花了10个月的时间! 要知道,...
OpenAI 发布最新的4o图像生成 API :gpt-image-1
开发者和企业可直接集成到自身工具和平台 -可通过文本描述直接生成新图片。可设置图片数量、分辨率、质量、透明度等参数。代码调用简单,支持 Python、JS、Shell 等主流环境。 -Edits(编辑...
Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

麻省理工大学研究团队开发出一种新技术:Ddog
麻省理工大学研究团队开发出一种新技术:Ddog

通过脑电波控制波士顿动力的机器狗。 该技术仅靠一种特殊的眼镜就能读取人的脑电波和眼动,然后把这些信号传递给机器人执行动作。 Ddog系统只需要两 iPhone和一副蓝牙眼镜就可以运行。而且还可以完全离…

Make-A-Character:一句话生成超逼真的3D数字人
Make-A-Character:一句话生成超逼真的3D数字人

你只需要通过文字描述人的脸型、五官、发型等特征,它就能在不到2分钟的时间内生成一个超逼真的3D角色。 而且你可以自定义面部特征,例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子,以及添加皱纹和雀斑等。 …

Rodin Gen-1:3D原生生成模型
Rodin Gen-1:3D原生生成模型

– Rodin Gen-1拥有1.5B参数,是目前最大的3D原生生成大模型。它的功能类似于SD(Stable Diffusion)。 – 3D-to-3D:除了传统的3D建模,…

TrailBlazer:利用边界框控制视频对象轨迹
TrailBlazer:利用边界框控制视频对象轨迹

TrailBlazer是英伟达的一个预训练好的模型,只需输入文本即可生成视频。 同时他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为。 例如,你可以通过改变边界框的大小、方向,让视频中的…

CoMoSVC:一种高效、高质量的歌声转换方法
CoMoSVC:一种高效、高质量的歌声转换方法

它可以将一个人的歌声转换成另一个人的歌声。同时能够保持了声音的自然度和真实感。 最牛P的是CoMoSVC实现了一步采样。意思是它可以在单次操作中即可完成声音的转换,大大加快了处理速度。 该项目由香港大…

OpenAI妥协 准备向媒体购买内容训练AI

The Information 报道,两名与OpenAI 谈判的媒体高管透露,OpenAI已经向一些媒体公司开出了每年 100 万-500 万美元,以获得将新闻内容用于训练自家大语言模型的授权许可。 …

VCoder:大语言模型的眼睛
VCoder:大语言模型的眼睛

VCoder的一个视觉编码器,能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。 它可以帮助模型显示图片中不同物体的轮廓或深度图(显示物体距离相机的远近)。…

更多