共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
风格描述TTS系统可用自然语言控制语音风格,但每个词如何影响输出一直是黑箱。本文首次将计算机视觉的交叉注意力归因方法迁移到语音扩散模型,分析3600组风格-内容组合,揭示风格词的全局调控特性、与声学参数的关联、以及在扩散早期和深层网络的影响力峰值。