Sonic:基于状态空间模型的低延迟实时推理语音生成模型

由Cartesia AI开发,基于他们自研的状态空间模型

• 延迟仅为135毫秒,确保实时响应

• 超逼真语音:生成富有情感和表达力的真人语音

• 只需10秒的录音即可匹配语调、抑扬顿挫和声线特征。

• 可控参数:用户可以调整音高、语速、情感、发音和速度,实现个性化语音设计。

• 高吞吐量:使用首创的状态空间模型推理栈,支持高并发和低成本推理。

官方介绍:https://cartesia.ai/blog/sonic

微海报