币界网消息,Cartesia宣布发布全新TTS(文本转语音)与STT(语音转文本)模型Sonic-3.5与Ink-2,并推出由两款模型组成的统一实时语音智能体技术栈。Sonic-3.5偏向于实时低延迟语音生成,首音输出时间缩短至90毫秒,支持42种语言,无需预处理即可支持英文异音词和字母数字的发音。Ink-2的字错率降至3.6%,引入原生轮次检测和噪声处理机制,能基于句意和语义理解判定用户是否发言完毕。目前Ink-2仅提供英文版,多语言版本将在后续推出。开发者可以通过单个API同时调用这两款模型。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
