小米MiMo-V2.5-TTS开放API：支持唱歌、自然语言调情绪、数秒音频克隆音色

币界网消息，小米发布了mimo-v2.5-tts系列语音合成模型，通过mimo开放平台API，公测期间限时免费。该系列包含三款模型，分别面向不同场景。mimo-v2.5-tts内置多款精品音色，支持唱歌模式，能准确表达音高和节奏。mimo-v2.5-tts-voicedesign支持用一句自然语言描述生成全新音色，无需参考音频，可从年龄、性别、口音、气质等维度定义。mimo-v2.5-tts-voiceclone做音色克隆，提供数秒参考音频即可复刻目标说话人的音色，保留气息、节奏和停顿习惯，无需训练或微调。三款模型均支持通过自然语言指令控制语音风格，例如用「温柔但疲惫」「狂躁中的温柔」等描述调整情绪，也支持音频标签（如「吸气」「大笑」「哽咽」）精确控制。语言方面支持中文、英文以及东北话、四川话、河南话、粤语等方言。音频输出采样率24000 Hz，流式输出推荐PCM16格式。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Bitcoin86.com

小米MiMo-V2.5-TTS开放API：支持唱歌、自然语言调情绪、数秒音频克隆音色

相关文章阅读