OpenAI 通过 Sora 将生成式 AI 提升到了新的高度,Sora 是其新的文本到视频模型,可以仅根据书面指令生成逼真的场景。虽然 DALL-E 和其他文本到图像模型向我们展示了人工智能生成的力量,但 Sora 展示了我们通过添加运动元素已经取得了多大的进步。
Sora 模型上线后,我们将对其进行测试,甚至可能在我们的每周时事通讯上发布免费指南 - “AI Hunters” !不要错过新的人工智能突破性平台和活动!
除了静态图像之外,Sora 还可以生成长达一分钟的视频。它还可以获取现有视频并填充缺失的帧以增强内容。创作的可能性是无限的——未来我们可以看到人工智能生成的短片、动画,甚至增强的体育赛事回放。
但《Sora》真正令人印象深刻的是它对物质世界的理解。它可以模拟涉及多个角色和动作的复杂场景。想看到有人走过森林,看到真实的树叶沙沙作响,阳光透过树林?索拉已经为你提供了保障。
在幕后,Sora 利用了过去在扩散模型和变压器方面的工作。扩散模型的随机步骤擅长生成视频等高维数据。同时,转换器处理顺序数据处理任务,例如自然语言。
当然,仍然存在一些限制。模拟车祸或悬崖跳水等复杂的物理现象被证明是很困难的。该模型还与因果关系作斗争 - 不要指望在有人咬了一口之后,饼干会神奇地出现!
当然,OpenAI 非常注重安全。在公开发布之前,他们正在增强过滤有害或误导性内容的技术。进步需要微妙的平衡——索拉必须切合实际,同时避免任何不适当的事情。
目前,公司已采取以下安全措施:
内容限制: OpenAI 为 Sora 制定了严格的内容指南,类似于其 DALL-E 3 模型的内容指南。这些准则禁止生成暴力、性或仇恨内容,以及盗用真实人物的肖像或指定艺术家的风格。
来源元数据和识别:为了提高透明度和问责制,OpenAI 计划为 Sora 生成的视频提供来源元数据。此外,该公司将使观众能够识别人工智能模型创建的内容。
红队和有限访问: OpenAI 已向一组选定的研究人员、视觉艺术家和电影制作人授予了 Sora 的访问权限,他们将对该产品进行“红队”,测试其是否容易规避公司的服务条款。这种有限的访问权限使 OpenAI 能够在更广泛地使用模型之前收集反馈并识别潜在风险。
与政策制定者和艺术家的互动:该公司正在积极与政策制定者、教育工作者和艺术家互动,以了解问题并确定该模型的积极用例。这种积极主动的做法表明了 OpenAI 致力于解决其技术更广泛的社会影响。
随着生成式人工智能的进步,像 Sora 这样的模型有可能彻底改变内容的创建和消费。它们可以生成个性化内容,帮助我们了解世界,并为现实的虚拟世界提供动力。
然而,考虑到人工智能生成内容的风险,负责任地开发这些模型至关重要。 OpenAI 正在与 Sora 一起采取重要步骤,以最大限度地发挥其优势,同时减少潜在问题。