我们探索在视频数据上对生成模型进行大规模训练。具体来说,我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用转换器架构,对视频和图像潜码的时空片段进行操作。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。
本技术报告的重点是:(1) 我们将各种类型的视觉数据转化为统一表示法的方法,这种表示法可用于生成模型的大规模训练;(2) 对 Sora 的能力和局限性的定性评估。本报告不包括模型和实现细节。