OpenAI подняла генеративный искусственный интеллект на новую высоту с помощью Sora, своей новой модели преобразования текста в видео, которая может генерировать реалистичные сцены просто на основе письменных инструкций. В то время как DALL-E и другие модели преобразования текста в изображение продемонстрировали нам мощь генерации искусственного интеллекта, Сора демонстрирует, насколько далеко мы продвинулись, добавив элемент движения.
Мы будем тестировать модель Sora, как только она выйдет в свет, и, возможно, даже опубликуем бесплатное руководство в нашем еженедельном информационном бюллетене «Охотники за искусственным интеллектом» ! Не пропустите новые революционные платформы и мероприятия в области искусственного интеллекта!
Помимо неподвижных изображений, Sora может создавать видеоролики продолжительностью до минуты. Он также может брать существующие видео и заполнять недостающие кадры для улучшения контента. Возможности для творчества безграничны: в будущем мы сможем увидеть созданные искусственным интеллектом короткометражные фильмы, анимацию или даже улучшенные спортивные повторы.
Но что действительно впечатляет в Соре, так это ее понимание физического мира. Он может моделировать сложные сцены с участием нескольких персонажей и движений. Хотите увидеть, как кто-то идет по лесу с реалистичным шелестом листьев и солнечным светом, проникающим сквозь деревья? Сора тебя прикроет.
Под капотом Сора использует прошлые работы над диффузионными моделями и трансформаторами. Случайные шаги диффузионной модели превосходно подходят для генерации многомерных данных, таких как видео. Между тем, преобразователи решают задачи последовательной обработки данных, такие как естественный язык.
Конечно, некоторые ограничения все же есть. Моделирование сложной физики, такой как автокатастрофы или прыжки со скалы, оказывается сложной задачей. Модель также борется с причиной и следствием — не ждите, что кусочки печенья волшебным образом появятся после того, как кто-то откусит!
Естественно, OpenAI ориентирован на безопасность. Перед публичным выпуском они совершенствуют методы фильтрации вредного или вводящего в заблуждение контента. Прогресс требует тонкого баланса: Сора должен генерировать реалистично, избегая при этом всего неуместного.
На данный момент компания ввела следующие меры безопасности:
Ограничения на контент: OpenAI установила строгие правила содержания для Sora, аналогичные тем, которые установлены для модели DALL-E 3. Эти правила запрещают создание контента, содержащего насилие, сексуальный или ненавистнический контент, а также присвоение изображений реальных людей или стиля названных художников.
Метаданные и идентификация происхождения: в целях обеспечения прозрачности и подотчетности OpenAI планирует предоставлять метаданные происхождения для видео, созданных Sora. Кроме того, компания позволит зрителям идентифицировать контент, созданный с помощью модели искусственного интеллекта.
Red Teaming и ограниченный доступ: OpenAI предоставила доступ к Sora избранной группе исследователей, художников и кинематографистов, которые будут «красной командой» продукта, проверяя его на возможность обхода условий обслуживания компании. Этот ограниченный доступ позволяет OpenAI собирать отзывы и выявлять потенциальные риски, прежде чем сделать модель более широко доступной.
Взаимодействие с политиками и деятелями искусства. Компания активно взаимодействует с политиками, преподавателями и деятелями искусства, чтобы понять проблемы и определить положительные варианты использования модели. Этот упреждающий подход демонстрирует приверженность OpenAI решению более широких социальных последствий своей технологии.
По мере развития генеративного искусственного интеллекта такие модели, как Сора, могут совершить революцию в создании и потреблении контента. Они могли бы генерировать персонализированный контент, помогать нам понимать мир и создавать реалистичные виртуальные миры.
Однако крайне важно, чтобы эти модели разрабатывались ответственно, учитывая риски, связанные с контентом, создаваемым ИИ. OpenAI предпринимает важные шаги вместе с Sora, чтобы максимизировать свои преимущества и одновременно снизить потенциальные проблемы.