AI语音生成提速40%!苹果公布PCG技术

Antutu

阅读

今日,根据外媒9to5Mac报道,苹果与特拉维夫大学联合发布了一项名为「原则性粗粒度」(PCG)的语音生成技术,旨在突破AI文本转语音(TTS)领域长期存在的速度瓶颈。

传统TTS依赖自回归模型逐个预测声学token,需严格匹配预设内容,导致生成效率受限,即使预测结果与预设差异微小且听觉无感,也会因「精确匹配」要求被系统拒绝。

为解决这一问题,研究团队提出将声学token按听觉效果相似性分组,形成「声学相似组」。系统不再要求单点精确匹配,转而允许预测结果落入正确相似组范围内即可通过验证,将验证机制从「单点校验」升级为「范围校验」,显著提升容错率。

图片

实际应用中,PCG采用「投机解码」双模型架构:轻量级小模型快速生成候选token,大模型审核其是否属于正确相似组。这种分工既保留了小模型的速度优势,又通过大模型保障了输出质量。

实验表明,该技术使语音生成速度提升约40%,自然度评分达4.09(满分5分)。

图片

极限测试中,91.4%的token被替换为同组其他token时,词错率仅增0.007,说话人相似度下降0.027,人耳几乎无法察觉差异。

图片

PCG属于推理阶段优化,无需重新训练现有模型,仅需额外37MB内存存储相似组信息,具有高实用性和低部署成本。

原创文章,作者:MoFirLee,如若转载,请注明出处:http://www.antutu.com/doc/136193.htm

相关推荐

登录后才能评论

评论列表 ( )

返回
顶部