code 相关技术文章与安全漏洞汇总

技术文章 1

Multi-LCB：把代码能力评测从Python扩展到12种编程语言，大模型的「偏科」问题暴露无遗

Multi-LCB将LiveCodeBench从Python扩展到12种编程语言，评估24个大语言模型后发现三个关键现象：Python过拟合（模型在Python上表现远超其他语言）、语言特定的数据污染、以及多语言性能的巨大落差。该基准测试被ICLR 2026接收，为评估模型真正的跨语言编程能力提供了严谨工具。