简单介绍一下 Sora - 智科优网络技术服务中心

Sora 三位负责人 Bill Peebles，Tim Brooks，Aditya Ramesh的专访
原视频地址：https://www.youtube.com/watch?v=Srh1lut4Q2A

简单解释一下Sora 的工作原理

这几年面世的生成模型很多，包括 GPT 等语言模型，DALL·E 等图像生成模型，而 Sora 是视频生成模型，通过大量的视频数据，学习生成逼真的现实世界和数字世界视频。
Sora 的工作方式，借鉴了类似 DALL·E 的基于扩散的模型，以及类似 GPT 系列的大语言模型，但介于两者之间，像 DALL·E 那样被训练，在架构上更像 GPT 系列。

Sora 是基于什么训练的

基于公开可用的数据以及 OpenAI 已经获得许可的数据。
Sora 在训练方面有一项创新，能在不同时长、宽高比、分辨率的视频上训练。以前训练图像或视频生成模型时，素材的尺寸通常是非常固定的，例如只有一个分辨率。
但我们将所有宽高比、时间长短、高分辨率、低分辨率的图像和视频，全部变成叫作补丁（patch）的小块，然后根据输入的大小，在不同数量补丁（patch）的视频上训练模型。
这样一来，我们的模型非常灵活，既能在更广泛的数据上训练，也能用于生成不同分辨率和大小的内容。

现阶段的 Sora 在创作方面的优点和缺点是什么

Sora 的逼真度，以及 1 分钟的时长，都是巨大的进步，但也有些地方还不够好。
一般来说，手还是一个痛点。另外还有一些物理方面的问题，比如 3D 打印机的例子。
如果要求提得更加具体，像是随时间变化的运动和摄像机轨迹，对 Sora 来说也有困难。

你们怎么判断 Sora 到达一个临界点，你们能够掌控它，知道怎么改进它，也准备好把它分享出来？

我们以博客文章形式发布 Sora（并提供部分访问权限），就是为了获得反馈，了解它对人类有什么用，还需要做哪些工作保证安全，我们也在听取艺术家的意见，看 Sora 怎么在工作流发光发热，从而指引我们的研究路线。
但 Sora 目前不是一个产品，在 ChatGPT 或者其他地方都不可用，我们甚至还没有将其转化为产品的时间表，现在就是一个获取反馈的阶段。
我们肯定会改进它，但应该如何改进它，还是一个等待解答的、开放的问题。

未来有没有这样的可能，Sora 生成一个与普通视频无法区分的视频，就像 DALL·E 制作逼真的图片？

这确实是可能的，当然，当我们快要接近时，必须小心谨慎，确保相关的功能不被用来传播虚假信息。
现在人们刷社交媒体时，已经在担心看到的视频是真的还是假的，是否来自权威的信源。

这很有趣，Sora 模拟现实的能力越强，我们也能够更快地在其基础上构建，将它作为一个工具，解锁新的创造可能。关于 Sora 和 OpenAI，你们还有什么想分享的吗？

让我们兴奋的另一件事是，如何让 AI 从视频数据中学习，发挥更多的作用，而不仅仅是创作视频。
在我们生活的世界，观察事物就像观看视频，很多信息不能用文本表达，虽然像 GPT 这样的模型非常聪明，对世界已经了解很多，但如果它们无法像我们一样以视觉方式看待世界，就会缺失一些信息。
所以我们希望 Sora 和未来在 Sora 基础上构建的其他 AI 模型，从关于世界的视觉数据中学习，更好地理解我们生活的世界和其中的事物，然后更好地帮助人类。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。