情报动态 3

AI 🟢

Self-Improving LMs: 双向进化搜索让LLM自我改进

双向进化搜索方法让语言模型和Agent系统自我改进,比传统RLVR更高效

GitHub 🟢

Self-Improving LMs: 双向进化搜索让LLM自我改进

双向进化搜索方法让语言模型和Agent系统自我改进

GitHub 🟢

CORE: 对比反思实现推理能力快速提升

用对比反思(对比正确/错误推理路径)来快速提升推理能力,比传统RLVR更高效