Bitcoin86.com

小米MiMo-V2.5-TTS开放API:支持唱歌、自然语言调情绪、数秒音频克隆音色

币界网消息,小米发布了mimo-v2.5-tts系列语音合成模型,通过mimo开放平台API,公测期间限时免费。该系列包含三款模型,分别面向不同场景。mimo-v2.5-tts内置多款精品音色,支持唱歌模式,能准确表达音高和节奏。mimo-v2.5-tts-voicedesign支持用一句自然语言描述生成全新音色,无需参考音频,可从年龄、性别、口音、气质等维度定义。mimo-v2.5-tts-voiceclone做音色克隆,提供数秒参考音频即可复刻目标说话人的音色,保留气息、节奏和停顿习惯,无需训练或微调。三款模型均支持通过自然语言指令控制语音风格,例如用「温柔但疲惫」「狂躁中的温柔」等描述调整情绪,也支持音频标签(如「吸气」「大笑」「哽咽」)精确控制。语言方面支持中文、英文以及东北话、四川话、河南话、粤语等方言。音频输出采样率24000 Hz,流式输出推荐PCM16格式。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。