技术文章 7

世界模型缺了一颗心脏:当摄像头移开后,物理世界就停止了运转

**论文信息:** "Current World Models Lack a Persistent State Core" — Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang

用「方框」思考:让真实照片中的三维编辑变得简单

# 用「方框」思考:让真实照片中的三维编辑变得简单 **论文:Thinking in Boxes: 3D Editing in Real Images Made Easy** **作者:Pradhaan S Bhat, Naveen Ch

不用把整段视频都看一遍:TimeProVe 用「先提议、再验证」的策略,把长视频问答的推理成本砍掉九成以上

一个3D模型,两张脸:JanusMesh如何用交叉空间去噪打造零样本三维视觉错觉

## 引言:当三维物体学会了"变脸" 你有没有看过那种经典的心理学图片——一张人脸的侧影,换个角度看就变成了一个花瓶?或者那张著名的"鸭兔图",盯着看一会儿是鸭子,再看一会儿又变成了兔子?这类视觉错觉(visual illusion)长期

不用人工标注就能定位病灶?弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

德国弗莱堡大学团队提出RefRad2D数据集与RadGrounder模型,首次实现无需人工空间标注即可训练具备空间定位能力的放射科视觉语言模型。该模型基于120万条双语CT/MR图文对,在报告生成、视觉问答和空间定位三项任务上均表现优异,且空间定位监督不会降低语言生成质量。论文已被MICCAI 2026接收。

当摄像机移开后世界就停止了:现有世界模型缺乏持久状态内核

世界模型能否在不被观测时维持物理状态演化?研究者提出WRBench基准测试,通过摄像机视角操控模拟观测中断,对23个模型的9600段视频测试发现:所有现有世界模型都缺乏持久状态内核,本质上是跟踪拍摄器而非真正的世界模拟器。这一缺陷跨越架构范式和模型规模,指向整个领域的评估盲区。

SARLO-80:全球首个厘米级斜距SAR-光学-文本多模态数据集,开启合成孔径雷达基础模型新纪元

法国ONERA团队发布SARLO-80——全球首个公开可用的超高分辨率SAR-光学-文本三模态数据集。基于Umbra卫星SICD格式聚束SAR数据,覆盖72个国家257个地点,含119,566组三元组(复数/幅度斜距SAR、对齐光学图像、自然语言描述)。数据统一至80cm斜距网格,支持跨模态检索与条件生成等基础模型任务。