边缘计算相关技术文章与安全漏洞汇总

技术文章 1

执行状态胶囊：面向低延迟设备端物理AI推理的图绑定检查点与恢复机制

主流大模型推理系统通过KV缓存复用实现高吞吐服务，但在设备端物理AI场景下需要频繁分支、重置和中断。本文解读Liang Su提出的执行状态胶囊方案：将完整执行状态（含KV、循环状态、卷积状态等）绑定到计算图进行快照与恢复，实现亚毫秒级切换。在RTX 5090上16k tokens场景下TTFT加速达27倍。