Meta推出世界模型V-JEPA 2 杨立昆参与开发

Meta(原Facebook)最新发布的V-JEPA 2(Video Joint Embedding Predictive Architecture)是一项基于自监督学习的视频理解世界模型,由Meta首席AI科学家杨立昆(Yann LeCun)团队参与开发。该模型延续了JEPA(联合嵌入预测架构)的核心思想,旨在通过预测视频中的时空信息来学习世界的抽象表征,而无需依赖大量标注数据。 关键技术与创新 自监督学习框架: V-JEPA 2通过掩盖(mask)视频中的部分时空片段,让模型预测缺失内容的抽象表征(而非像素级细节),从而学习视频中的时空动态和物理规律。 这种方法减少了传统生成式模型(如像素重建)的计算开销,更注重高层语义理解。 世界模型特性: 杨立昆一直倡导构建世界模型(World Model),即AI系统对物理世界运作方式的内部模拟。V-JEPA 2通过视频预测学习时空一致性,可视为实现这一目标的步骤。 模型能够推断未观察到的视频片段,理解物体运动、遮挡关系等复杂场景。 扩展性与效率: 相比初代V-JEPA,V-JEPA 2在模型规模、训练数据量和多模态兼容性上均有提升,同时保持高效性(例如仅需GPU单卡训练)。 潜在应用场景 视频内容理解:自动化分析视频中的动作、事件和对象交互。 机器人规划:帮助机器人预测环境变化,提升自主决策能力。 AR/VR:实时生成或补全虚拟场景的动态内容。 与杨立昆愿景的关联 杨立昆认为,未来AI需通过观察世界自主学习(如人类婴儿),而非依赖纯监督学习或强化学习。V-JEPA 2的发布进一步验证了他的"自监督学习+世界模型"路径,与OpenAI、DeepMind等追求的生成式AI(如Sora)形成技术对比。 目前,V-JEPA 2尚未开源,但Meta预计会发布论文和技术细节。这一进展可能推动AI在视频理解、具身智能等领域的突破。

AI

相关内容

利雅得航空在巴黎航展签约高达50架空客A350-1000宽体客机采购协议
英伟达加速布局欧洲,黄仁勋力推“主权AI”想“搞票大的”?
快手:6月17日起关停短剧小程序
烧钱有道、天价挖角、坐拥AI“变现利器”…Meta低位反弹40%,逼近历史高点
利亚德:赛富乐斯最新发布的T3系列0.13英寸单片全彩MicroLED微显示屏将为新一代增强现实(AR)眼镜带来更丰富的显示内容与更高效的信息提示体验
设计时速350公里!这条高铁有新进展
投稿