共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
扩散语言模型 DiffusionGemma 的推理透明度比最初预想的要好得多。表面上看,它的不透明串行深度是传统自回归模型 Gemma 4 的 28.6 倍,但通过插入可解释的 token 瓶颈层,可以无损地将这一数值压缩到 1.1 倍。研究还发现了非时序推理、token 涂抹等扩散模型特有的推理现象,并证实 DiffusionGemma 的可监控性与 Gemma 4 相当。