共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
安全对齐后的大语言模型在面对混合了有害和无害示范的上下文时,会做出怎样的判断?本文深入解读一项来自多模型实验的系统性研究,揭示了示范内容、排列顺序和训练方法如何共同决定模型的安全行为,并探讨了这对AI安全对齐的深远意义。