情报动态 3

AI 🟢

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

多模态Agent通过探索性策略优化推理,解决需要外部工具的复杂问题

GitHub 🟢

CORE: 对比反思实现推理能力快速提升

用对比反思(对比正确/错误推理路径)来快速提升推理能力,比传统RLVR更高效

GitHub 🟢

Thinking as Compression: Reasoning Model本质是上下文压缩器

发现推理模型在思考过程中本质上是在做上下文压缩,解释了长思维链提升性能的机制