共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
MixProLAP提出了一种概率音频-语言预训练框架,通过将确定性嵌入替换为概率分布嵌入,并创新性地使用音频-文本混合策略来模拟真实的多声源场景。配合多层级包含损失约束语义层次关系,该方法在音频-文本检索基准上显著优于传统确定性方法,为复杂声场的AI理解提供了新范式。