共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
本文深入解读Interspeech 2026收录论文ZP-KWS——一个面向用户自定义关键词的轻量级个性化语音唤醒框架。该框架结合音素监督音频编码器与GE2E预训练说话人编码器(仅0.9M参数),通过乘性晚期融合赋予两个分支独立否决权,在155万参数预算内实现双重零样本检测,在LibriPhrase等数据集上将目标说话人FRR降低最高60%,为边缘设备的个性化语音交互开辟了新路径。