reasoning 相关技术文章与安全漏洞汇总 - XTCer

情报动态 3

AI 🟢

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

多模态Agent通过探索性策略优化推理，解决需要外部工具的复杂问题

5月28日 14:39

GitHub 🟢

CORE: 对比反思实现推理能力快速提升

用对比反思（对比正确/错误推理路径）来快速提升推理能力，比传统RLVR更高效

5月28日 14:06

GitHub 🟢

Thinking as Compression: Reasoning Model本质是上下文压缩器

发现推理模型在思考过程中本质上是在做上下文压缩，解释了长思维链提升性能的机制

5月28日 14:06