情报动态 2

AI 🟢

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

多模态Agent通过探索性策略优化推理,解决需要外部工具的复杂问题

AI 🟢

Self-Improving LMs: 双向进化搜索让LLM自我改进

双向进化搜索方法让语言模型和Agent系统自我改进,比传统RLVR更高效