Stability AI 开源其音频生成模型：Stable Audio Open

• 能够通过简单的文本提示生成最长47秒的立体声音频（44.1kHz）。

• 适用于创建鼓点、乐器片段、环境声音和拟音录音等。

• 基于transforms扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

• 用户可以在自定义音频数据上微调模型，生成符合个人需求的音频样本。
•例如，鼓手可以用自己录制的鼓声样本进行微调，生成新的鼓点。

•与Stable Audio 的比较：与能够生成最长三分钟完整曲目的商业版Stable Audio Open不同，Stable Audio Open 专注于短音频片段和音效。

Post Views: 164