Cartesia发布全新TTS与STT模型Sonic-3.5与Ink-2

2026-06-16 20:09:21 分类：资讯 | 知识库 | 快讯

币界网消息，Cartesia宣布发布全新TTS（文本转语音）与STT（语音转文本）模型Sonic-3.5与Ink-2，并推出由两款模型组成的统一实时语音智能体技术栈。Sonic-3.5偏向于实时低延迟语音生成，首音输出时间缩短至90毫秒，支持42种语言，无需预处理即可支持英文异音词和字母数字的发音。Ink-2的字错率降至3.6%，引入原生轮次检测和噪声处理机制，能基于句意和语义理解判定用户是否发言完毕。目前Ink-2仅提供英文版，多语言版本将在后续推出。开发者可以通过单个API同时调用这两款模型。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。