共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
Multi-LCB将LiveCodeBench从Python扩展到12种编程语言,评估24个大语言模型后发现三个关键现象:Python过拟合(模型在Python上表现远超其他语言)、语言特定的数据污染、以及多语言性能的巨大落差。该基准测试被ICLR 2026接收,为评估模型真正的跨语言编程能力提供了严谨工具。