Meta推出世界模型V-JEPA 2 杨立昆参与开发-304V

Meta（原Facebook）最新发布的V-JEPA 2（Video Joint Embedding Predictive Architecture）是一项基于自监督学习的视频理解世界模型，由Meta首席AI科学家杨立昆（Yann LeCun）团队参与开发。该模型延续了JEPA（联合嵌入预测架构）的核心思想，旨在通过预测视频中的时空信息来学习世界的抽象表征，而无需依赖大量标注数据。关键技术与创新自监督学习框架： V-JEPA 2通过掩盖（mask）视频中的部分时空片段，让模型预测缺失内容的抽象表征（而非像素级细节），从而学习视频中的时空动态和物理规律。这种方法减少了传统生成式模型（如像素重建）的计算开销，更注重高层语义理解。世界模型特性：杨立昆一直倡导构建世界模型（World Model），即AI系统对物理世界运作方式的内部模拟。V-JEPA 2通过视频预测学习时空一致性，可视为实现这一目标的步骤。模型能够推断未观察到的视频片段，理解物体运动、遮挡关系等复杂场景。扩展性与效率：相比初代V-JEPA，V-JEPA 2在模型规模、训练数据量和多模态兼容性上均有提升，同时保持高效性（例如仅需GPU单卡训练）。潜在应用场景视频内容理解：自动化分析视频中的动作、事件和对象交互。机器人规划：帮助机器人预测环境变化，提升自主决策能力。 AR/VR：实时生成或补全虚拟场景的动态内容。与杨立昆愿景的关联杨立昆认为，未来AI需通过观察世界自主学习（如人类婴儿），而非依赖纯监督学习或强化学习。V-JEPA 2的发布进一步验证了他的"自监督学习+世界模型"路径，与OpenAI、DeepMind等追求的生成式AI（如Sora）形成技术对比。目前，V-JEPA 2尚未开源，但Meta预计会发布论文和技术细节。这一进展可能推动AI在视频理解、具身智能等领域的突破。

相关内容