OpenAI представила новую модель искусственного интеллекта, которая может создавать реалистичные и детализированные видео-сцены из текстовых описаний.
Sora генерирует новые видео на основе текстовых инструкций, расширяет существующие видео, чтобы сделать их длиннее или заполнить недостающие кадры, а также создаёт видео из неподвижного изображения.
Модель способна создавать сложные сцены продолжительностью до одной минуты с несколькими персонажами, определенными типами движения и точными деталями объекта и фона.
Sora понимает не только то, что пользователь запросил в текстовом описании, но и то, как эти вещи существуют в физическом мире.
Однако слабые места у нынешней модели также есть. Sora может путать пространственные детали описаний (лево и право), могут возникнуть проблемы с точным моделированием физики сложной сцены, а также модель может игнорировать причинно-следственные связи. Например, когда человек откусывает кусочек печенья, но на печенье не остается следа от укуса.
В настоящее время Sora доступна для красных команд, которые тестируют и оценивают потенциальные риски модели, а также для ряда художников, дизайнеров и режиссеров, чьи отзывы помогут усовершенствовать модель и сделать её наиболее полезной для творческих профессионалов.
Ожидается, что в ближайшем будущем Sora будет доступна для широкой публики.