Meta(原Facebook)最新发布的V-JEPA 2(Video Joint Embedding Predictive Architecture)是一项基于自监督学习的视频理解世界模型,由Meta首席AI科学家杨立昆(Yann LeCun)团队参与开发。该模型延续了JEPA(联合嵌入预测架构)的核心思想,旨在通过预测视频中的时空信息来学习世界的抽象表征,而无需依赖大量标注数据。 关键技术与创新 自监督学习框架: V-JEPA 2通过掩盖(mask)视频中的部分时空片段,让模型预测缺失内容的抽象表征(而非像素级细节),从而学习视频中的时空动态和物理规律。 这种方法减少了传统生成式模型(如像素重建)的计算开销,更注重高层语义理解。 世界模型特性: 杨立昆一直倡导构建世界模型(World Model),即AI系统对物理世界运作方式的内部模拟。V-JEPA 2通过视频预测学习时空一致性,可视为实现这一目标的步骤。 模型能够推断未观察到的视频片段,理解物体运动、遮挡关系等复杂场景。 扩展性与效率: 相比初代V-JEPA,V-JEPA 2在模型规模、训练数据量和多模态兼容性上均有提升,同时保持高效性(例如仅需GPU单卡训练)。 潜在应用场景 视频内容理解:自动化分析视频中的动作、事件和对象交互。 机器人规划:帮助机器人预测环境变化,提升自主决策能力。 AR/VR:实时生成或补全虚拟场景的动态内容。 与杨立昆愿景的关联 杨立昆认为,未来AI需通过观察世界自主学习(如人类婴儿),而非依赖纯监督学习或强化学习。V-JEPA 2的发布进一步验证了他的"自监督学习+世界模型"路径,与OpenAI、DeepMind等追求的生成式AI(如Sora)形成技术对比。 目前,V-JEPA 2尚未开源,但Meta预计会发布论文和技术细节。这一进展可能推动AI在视频理解、具身智能等领域的突破。