可解释性相关技术文章与安全漏洞汇总

技术文章 2

风格描述TTS系统可用自然语言控制语音风格，但每个词如何影响输出一直是黑箱。本文首次将计算机视觉的交叉注意力归因方法迁移到语音扩散模型，分析3600组风格-内容组合，揭示风格词的全局调控特性、与声学参数的关联、以及在扩散早期和深层网络的影响力峰值。

扩散语言模型DiffusionGemma的推理透明度看似比自回归模型差28.6倍，但通过token瓶颈映射可降至1.1倍。研究还发现了非时序推理、token涂抹等扩散模型独有的推理现象，为新一代语言模型的安全评估奠定基础。