共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
主流大模型推理系统通过KV缓存复用实现高吞吐服务,但在设备端物理AI场景下需要频繁分支、重置和中断。本文解读Liang Su提出的执行状态胶囊方案:将完整执行状态(含KV、循环状态、卷积状态等)绑定到计算图进行快照与恢复,实现亚毫秒级切换。在RTX 5090上16k tokens场景下TTFT加速达27倍。