• 能够通过简单的文本提示生成最长47秒的立体声音频(44.1kHz)。
• 适用于创建鼓点、乐器片段、环境声音和拟音录音等。
• 基于transforms扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。
• 用户可以在自定义音频数据上微调模型,生成符合个人需求的音频样本。
•例如,鼓手可以用自己录制的鼓声样本进行微调,生成新的鼓点。
•与Stable Audio 的比较:与能够生成最长三分钟完整曲目的商业版Stable Audio Open不同,Stable Audio Open 专注于短音频片段和音效。