speech 相关技术文章与安全漏洞汇总

技术文章 3

FlowEdit：用联想记忆实现TTS终身发音自适应，让语音合成不再念错名字

FlowEdit为冻结的流匹配TTS系统引入终身发音修正框架，通过在文本嵌入空间中学习token级扰动并存储在现代Hopfield网络中，实现内容可寻址的记忆检索。在312个多语言专有名词基准上，目标词音素错误率降低92.7%，单GPU修正仅需约15秒。

FlowEdit：用联想记忆实现TTS终身发音自适应，92.7%的音素错误率降低

Flow-matching文本转语音系统虽然在零样本场景下表现出色，但部署后对专有名词的发音错误无法自动修正。本文解读Singh等人提出的FlowEdit框架，该框架将发音修正编码为潜空间条件扰动而非权重更新，并利用现代Hopfield网络作为内容寻址的情景记忆存储修正。在跨18个语系的312个多语言专有名词基准测试上，FlowEdit将目标词音素错误率降低了92.7%，单GPU仅需约15秒完成修正。

指令如何塑造语音？交叉注意力归因揭示风格描述TTS的内部机制

这篇论文首次将DAAM框架从图像迁移到语音扩散模型，提出了交叉注意力归因方法分析风格描述TTS系统。分析3,600组组合后发现：风格词元具有全局调制作用，风格注意力与基频和能量相关，风格调制在早期步骤和深层网络中达到峰值，注意力熵在第17层最小。这是首个研究自然语言如何影响语音扩散模型中交叉注意力的工作。