技术文章 3

FlowEdit:用联想记忆实现TTS终身发音自适应,让语音合成不再念错名字

FlowEdit为冻结的流匹配TTS系统引入终身发音修正框架,通过在文本嵌入空间中学习token级扰动并存储在现代Hopfield网络中,实现内容可寻址的记忆检索。在312个多语言专有名词基准上,目标词音素错误率降低92.7%,单GPU修正仅需约15秒。

FlowEdit:用联想记忆实现TTS终身发音自适应,92.7%的音素错误率降低

Flow-matching文本转语音系统虽然在零样本场景下表现出色,但部署后对专有名词的发音错误无法自动修正。本文解读Singh等人提出的FlowEdit框架,该框架将发音修正编码为潜空间条件扰动而非权重更新,并利用现代Hopfield网络作为内容寻址的情景记忆存储修正。在跨18个语系的312个多语言专有名词基准测试上,FlowEdit将目标词音素错误率降低了92.7%,单GPU仅需约15秒完成修正。

指令如何塑造语音?交叉注意力归因揭示风格描述TTS的内部机制

这篇论文首次将DAAM框架从图像迁移到语音扩散模型,提出了交叉注意力归因方法分析风格描述TTS系统。分析3,600组组合后发现:风格词元具有全局调制作用,风格注意力与基频和能量相关,风格调制在早期步骤和深层网络中达到峰值,注意力熵在第17层最小。这是首个研究自然语言如何影响语音扩散模型中交叉注意力的工作。