Нейросеть Gen-2 от Runway AI Inc. научилась создавать видео по текстовому описанию
Стартап Runway AI Inc. сегодня (21 марта) представил Gen-2, модель искусственного интеллекта (ИИ), которая может генерировать короткие видеоклипы на основе текстовых подсказок.
Нью-йоркская компания Runway разрабатывает модели ИИ, которые упрощают задачи редактирования изображений и видео для творческих профессионалов. В прошлом году стартап помог создать популярную генеративную модель ИИ Stable Diffusion. В декабре компания привлекла финансирование серии C на сумму 50 миллионов долларов, что соответствует заявленной оценке в 500 миллионов долларов.
Gen-2, новая модель ИИ стартапа для создания видео, представляет собой улучшенную версию существующей нейронной сети под названием Gen-1, дебютировавшей в феврале.
Стартап утверждает, что Gen-2 может генерировать клипы более высокого качества, чем его предшественник. Кроме того, модель предоставляет больше возможностей для настройки пользователями.
Оригинальная нейронная сеть Runway Gen-1 принимает существующее видео в качестве входных данных вместе с текстовой подсказкой, которая описывает, какие изменения следует внести. Пользователь может, например, предоставить Gen-1 видео с зелёной машиной и текстовой подсказкой, которая гласит: «покрась машину в красный цвет». Затем модель автоматически внесёт соответствующие изменения. Gen-1 также может изменять видео, адаптируя его к стилю эталонного изображения, предоставленного пользователем.
Gen-2, новая модель, которую только что представила Runway, добавляет ещё один способ создания клипов. Он не требует исходного видео или эталонного изображения и позволяет пользователям создавать видео, просто вводя текстовое описание. По словам компании, в её модели для создания видео используется метод ИИ, известный как диффузия.
С помощью метода диффузии исследователи добавляют в файл тип ошибки, называемый гауссовским шумом. Затем они обучают нейронную сеть удалять гауссовский шум и восстанавливать исходный файл. Многократно повторяя этот процесс, нейронная сеть учится анализировать полученные входные данные и преобразовывать их в новый файл, соответствующий спецификациям пользователя.
Компания разработала свою модель, используя обучающий набор данных, который включал 240 миллионов изображений и 6,4 миллиона видеоклипов. После этого компания провела серию пользовательских исследований для оценки возможностей Gen-2 и заявила, что Gen-2 значительно превосходит две самые передовые модели ИИ в той же категории.
Стоит также отметить, что Runway – не единственная компания, разрабатывающая модели ИИ, способные генерировать видео. В прошлом году исследователи Meta Platforms Inc. (запрещена на территории РФ) подробно описали аналогичную модель создания клипов под названием Make-A-Video. Как и Gen-2, она может генерировать клипы на основе текстовых подсказок.
Новости партнеров
Похожие публикации
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.