共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
LiveCodeBench是当前最流行的代码生成基准测试之一,但它只考察Python。Multi-LCB将其扩展到12种编程语言,对24个大模型进行了全面评估。结果发现:多数模型存在严重的Python过拟合问题,在其他语言上的表现大幅下滑;不同语言之间的性能差异远超预期;甚至有证据表明某些语言可能受到了数据污染的影响。这项研究为代码大模型的真实能力提供了更全面的衡量标准。