Новая программа может заставить анимированную фигурку ходить, бегать, играть на музыкальных инструментах и менять скорость движения в зависимости от текстовых указаний.
Иллюстрация с сайта pixabay.com.
Исследователи из Университета Карнеги–Меллона в США разработали компьютерную модель, которая может переводить текст, описывающий физические движения, в анимации.
Эти анимации пока очень простые, если не сказать примитивные. Однако это достижение – первый шаг на пути создания фильмов или видеоигр прямо по текстовому сценарию, "скормленному" программе.
Поясним, что специалисты уже довольно давно обучают компьютерные программы пониманию и анализу естественного человеческого языка, а также создают анимации, в которых различные выдуманные объекты двигаются так, как будто они находятся в реальном мире. Однако это были изыскания "из разных миров".
Объединить их удалось двум молодым учёным. Они создали программу с нейронной архитектурой, которую назвали Joint Language-to-Pose (вольный перевод "соединение языка и позы"), или JL2P. Она "переводит" слова в физические действия – движения или жесты.
"Синхронизация между частями тела очень важна, – отмечает соавтор работы Луи-Филипп Моренси (Louis-Philippe Morency). – Каждый раз, когда вы двигаете ногами, вы также двигаете руками, туловищем и, возможно, головой. Анимации должны координировать эти различные компоненты".
Авторы обучали JL2P, используя определённые последовательности слов (они же были моделями движений в трёхмерном пространстве).
Сперва это были короткие простые последовательности (вроде "человек идёт вперёд"), а затем – более длинные и сложные (например, "человек делает шаг вперёд, потом поворачивается и снова делает шаг вперёд" или "человек перепрыгивает через препятствие во время бега").
Уточняется, что в данном случае глаголы и наречия описывают действие и скорость, либо ускорение действия, а существительные и прилагательные – места и направления.
Конечной целью было создание анимации на основе сложных последовательностей с несколькими действиями, которые происходят одновременно либо сменяют друг друга. По словам авторов работы, когда одновременно происходит сразу несколько действий, это усложняет даже изначально простые последовательности.
"Мы находимся на ранней стадии этого исследования, но с точки зрения моделирования, искусственного интеллекта и теории — это очень волнующий момент, – уверен Моренси. – Прямо сейчас мы говорим об анимировании виртуальных персонажей. В конце концов, эта связь между языком и жестами может быть применена к роботам: мы сможем просто говорить роботу-личному помощнику, что мы хотим, чтобы он делал.
Мы также можем пойти другим путём – использовать эту связь между языком и анимацией, чтобы компьютер мог описать, что происходит на видео".
В препринте научной статье, который доступен в формате PDF, сообщается, что на данном этапе программа JL2P уже научилась создавать на основе словесных данных анимации ходьбы и бега, игры на музыкальных инструментах (например, гитаре или скрипке), следовать инструкциям, указывающим направление (влево или вправо) и управлять скоростью движения персонажа или объекта.
О проделанной работе учёные отчитаются на Международной конференции 3DV 2019, где будут представлены различные исследования в области компьютерного зрения и графики.
Созданные программой JL2P анимации показаны на видео ниже.
Кстати, ранее авторы проекта "Вести.Наука" (nauka.vesti.ru) рассказывали о рекламном ролике и короткометражке, которые создал искусственный интеллект.