共 3 篇相关内容 · 安全漏洞、AI动态、技术文章
多模态Agent通过探索性策略优化推理,解决需要外部工具的复杂问题
用对比反思(对比正确/错误推理路径)来快速提升推理能力,比传统RLVR更高效
发现推理模型在思考过程中本质上是在做上下文压缩,解释了长思维链提升性能的机制