共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
# 词语如何塑造声音:风格描述TTS的交叉注意力归因分析 ## TL;DR 风格描述文本转语音(Style-Captioned TTS)系统用自然语言来控制声音特性——比如"用低沉、沙哑的声音说"。但每个描述词究竟是如何影响最终语音的?