safety 相关技术文章与安全漏洞汇总

技术文章 1

安全对齐后的大语言模型在面对混合了有害和无害示范的上下文时，会做出怎样的判断？本文深入解读一项来自多模型实验的系统性研究，揭示了示范内容、排列顺序和训练方法如何共同决定模型的安全行为，并探讨了这对AI安全对齐的深远意义。