Виртуальный Обама: зачем людям цифровые клоны

Нейросеть today Автор: Кристина Чернова | 15 июля 2017, 12:50

Ученые из Вашингтонского университета с помощью нейросети создали цифровую копию Барака Обамы, которая в точности повторяет мимику экс-президента США. До этого исследователи создавали двойников Тома Хэнкса, Арнольда Шварценеггера и Джорджа Буша. Где может пригодиться такая технология – в материале «Футуриста».

Цифровой Обама

В декабре 2015 года учёные из Вашингтонского университета представили технологию «цифровых двойников»: создание «живых» 3D-моделей из фотографий одного персонажа, собранных в Интернете. Они продемонстрировали потенциальные возможности на примере известных актеров и политиков: Тома Хэнкса, Арнольда Шварценеггера и Джорджа Буша. Их работа показала, что когда-нибудь можно будет создать цифровую копию любого человека по его фотографиям в социальных сетях.

Для своей последней работы исследователи выбрали Барака Обаму, так как в открытом доступе находится множество часов видео высокой четкости с его участием. Нейросеть проанализировала 17 часов видео и детально изучила особенности мимики Обамы: движения губ, морщинок около рта и глаз, изменения формы бровей и наклона головы. Затем полученные данные связали со звуками его речи, которые также были обработаны нейросетью. Сначала из аудиозаписи извлекаются отдельные звуки речи, по которым воссоздается мимика. На основе этого создается реалистичная форма губ, которая затем накладывается на нужное видео. Видеоряд обрабатывают так, чтобы движения спикера выглядели естественно.

По сути, исследователи придумали систему, которая позволяет вставлять в видеоряд стороннюю речь и воссоздавать мимику говорящего: видео с сегодняшним Бараком Обамой подогнали под слова, которые он говорил десятилетия назад: например, об отцовстве или о своем избрании в главные редакторы журнала в 1990-ом году.

Раньше для получения «цифровых двойников» людей заставляли многократно повторять одни и те же фразы перед камерами, чтобы записать все сочетания морфем и мимики. Теперь это можно делать по видеозаписям в интернете. Со временем на каждого пользователя сети будут приходиться гигабайты фото и видео, поэтому технология имеет шансы стать широко распространенной.

Кино

Развитие цифровых двойников может существенно изменить киноиндустрию. В некоторых случаях цифровой копией можно заменить актеров, погибших или разорвавших контракт со студией во время съемок. С помощью этой технологии можно будет «оживить» любого персонажа из прошлого: актера, музыканта, политика, исторического лица. Ну и наконец, цифровой двойник позволяет обойтись вообще без актеров – например, если режиссер захочет снять продолжение своего старого хита с прежним актерским составом.

Похожие технологии уже разрабатываются. Технология захвата движения (motion capture) давно используется в кино, однако для этого требуется размещение множества датчиков на лице. Также можно построить 3D-модель лица с помощью датчика глубины, которая позволит заменить лицо актера на другого человека. В 2016 году возможности системы face2face представила команда исследователей из Университета Эрлангена, которая заставила Джорджа Буша на видеозаписи имитировать мимику сидящего рядом человека. А специалисты из лабораторий Disney Research представили систему Makeup Lamps, которая проецирует изображение поверх лица человека с минимальной задержкой в режиме реального времени. Технология предназначена для студий. С ее помощью монтажеры смогут усилить мимику персонажа или нарисовать ему грим прямо поверх видео.

Видеозвонки и виртуальная реальность

«Цифровые двойники» могут помочь в проведении видеоконференций. Основные проблемы возникают при передаче видеоряда, в то время как звук передается с меньшей задержкой. Новая технология позволит полностью абстрагироваться от картинки: можно просто передавать звук и использовать программное обеспечение для восстановления внешнего облика и мимики человека на экране. Такое применение предлагает один из соавторов исследования Айра Кемельмахер-Шлизерман из Вашингтонского университета. Также разработка может помочь создавать цифровые копии человека для виртуальной, дополненной и смешанной реальности.

Исследователи отмечают, что их ролики пока несовершенны: могут возникать «провалы в текстурах», которые трудно исправить при помощи трехмерного моделирования. Также их программа не умеет моделировать эмоций. Нейтральное выражение лица цифровой копии может выглядеть неуместно, если необходимо воспроизвести счастливую, взволнованную или трагическую речь. Однако ученые говорят, что было бы интересно узнать, сможет ли нейросеть прогнозировать эмоциональные состояния по звуку и создавать соответствующие изображения.

Фейковые видео

Ученые старались не создавать видеоролики, где они вкладывали бы в уста бывшего президента слова, которые он не говорил. Однако ведущий автор исследования Супасорн Суваджанакорн уверен, что такие видео рано или поздно появятся. Их исследование предлагает не только способы создания поддельных видеороликов, но и способы их обнаружения. Например, манипуляции с видео могут размыть рты и зубы. Человеческий глаз не заметит разницы, однако достаточно легко разработать программу, которая будет сравнивать размытость рта с остальной частью видео.