论文标题:Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
项目主页:https://context-as-memory.github.io/
论文地址:https://arxiv.org/pdf/2506.03141
Context as Memory 能力展示
从上述视频可以观察到,Context as Memory 可以在几十秒的时间尺度下保持原视频中的静态场景记忆力,并在不同场景有较好的泛化性。
更多示例请访问项目主页:https://context-as-memory.github.io/
Context as Memory 创新点
研究者表示,Context as Memory 的主要创新点为:
我们提出了 Context as Memory 方法,强调将历史生成的上下文作为记忆,无需显式 3D 建模即可实现场景一致的长视频生成。
在本文中,研究者提出了 Context-as-Memory,一种能够实现静态场景记忆的交互式长视频生成模型。Context-as-Memory 的核心创新在于,提出了一种无需显式 3D 建模,仅通过对历史上下文学习,即可使视频生成模型具备 3D 一致性的理解与生成能力。此外,Memory Retrieval 模块的提出进一步减少了需要学习的上下文数量,大大提高了模型在训练和测试阶段的效率。