[Цифровой аватар vs нейросеть] Как мы сделали цифровую копию человека 3-мя нейросетями. Алгоритм анимации каждым своего цифрового двойника за час. «Главное, чтобы костюмчик сидел»

отметили
24
человека
в архиве
[Цифровой аватар vs нейросеть] Как мы сделали цифровую копию человека 3-мя нейросетями. Алгоритм анимации каждым своего цифрового двойника за час. «Главное, чтобы костюмчик сидел»

Тему цифрового бессмертия не раз брали за основу своих произведений писатели-фантасты и голливудские сценаристы. Взять хотя бы виртуальный город Сан-Джуниперо из одноименной серии сериала «Черное зеркало», в который сознание людей в виде цифровых аватаров отправлялось после смерти. Казалось, что эта фантазия довольно далека от реальности, однако сегодня, благодаря нейросетям, мы все ближе подходим к тому моменту, когда цифровое бессмертие станет таким же обыденным, как создание профиля в VK.

Что такое цифровой аватар?

Нашу личность можно условно разделить на оффлайновую и онлайновую. Представим человека (например, автора этой заметки), который постоянно работает удаленно. Его коллеги ни разу не видели его оффлайн, а значит, знают только «онлайновую» часть его личности.

В этой онлайновой части мы можем выделить условно, три составляющие:

  • текстовую (общение в чатах)
  • аудио (голосовые сообщения, звонки)
  • видео (видеоконференции, совещания)

Эти три составляющие также полностью обеспечивают большинство функций удаленного работника. Например, редактор TexTerra каждый день в 10 утра ходит на рабочие созвоны, пишет тексты, отправляет их на публикацию и проверяет корректность верстки — это лишь главные обязанности.

А теперь представим, что на созвоне вместо человека присутствует оживленная нейросетью MyHeritage двумерная картинка работника, слова руководителя расшифровывает нейросеть-транскрибатор, ChatGPT дает на них ответ, а озвучивает полученный текст сервис ElevenLabs. Это и будет цифровой аватар — фактически, скопированная онлайновая часть человеческой личности.

Самое интересное, что сегодня мы уже можем «на коленке» создать подобный аватар, используя общедоступные сервисы. Чтобы доказать это не словом, а делом, мы в TexTerra провели эксперимент: взяли нейросеть ChatGPT и попросили ее скопировать черты личности, после чего использовали нейросеть от ElevenLabs для озвучки текста и DeepStory от MyHeritage для «оживления» двумерной фотографии.

Вот какой результат мы получили:

 

Согласны, выглядит немного топорно и пугающе — акцент аватара оставляет желать лучшего, а лицо на изображении порой застывает и перестает моргать — двигаются только губы. И тем не менее, этот аватар был создан нами буквально за час при использовании доступных каждому нейросетей.

Заметим также, что проблема с акцентом может решиться уже в скором будущем — просто ElevenLabs пока совсем не поддерживает никакие другие языки, кроме английского. Чтобы сделать аудио для этого цифрового аватара, мы заставили нейросеть читать транслит. Учитывая прогресс в развитии нейросетей (ChatGPT, кстати, хорошо понимает русский и пишет на нем неплохо), через год или даже меньше, нейросети заговорят и по-нашему — тут уже англоязычного акцента мы не услышим.

А теперь расскажем алгоритм, при помощи которого каждый сможет создать свой цифровой аватар за час.

Как создать цифровой аватар

Вот краткое видеоописание того, как мы создавали цифровой аватар:

 

А теперь рассмотрим этот процесс по шагам.

Создаем чат-бота

Основой самого аватара является, конечно, ChatGPT. Поэтому заходим на официальный сайт нейросети и создаем новый чат. В нем вводим запрос на русском: «Я хочу, чтобы ты создал мой цифровой аватар, который сможет общаться так же, как я. Какую информацию мне нужно прислать тебе, чтобы ты смог создать мой цифровой аватар только для общения в чате?»

В ответ ChatGPT выдаст примерно такой список информации, которая от вас потребуется:

 

 Каждый раз нейросеть выдает разный список — если мы создаем аватара просто в виде чат-бота, а озвучивать и «оживлять» его будем при помощи других нейросетей, можно игнорировать пункты, где бот просит вас прислать фото или дать пожелания по голосу.

После того, как вы подробно расписали всю нужную информацию, начинается самое интересное. Вы должны заставить нейросеть представить, что она — это ваш цифровой двойник. Для этого дайте ей примерно такой запрос:

«С этого момента ты будешь отвечать на вопросы как мой цифровой аватар. Используй ту информацию, которую я тебе дал, чтобы отвечать на вопросы так, как это сделал бы я. Ты — мой цифровой аватар, а я — твой собеседник. Напиши: «Привет! Я твой цифровой аватар», если ты всё понял».

Звучит как гипноз, но такие запросы действительно работают. Когда в ответ бот напишет «Привет! Я твой цифровой аватар», с ним можно начинать общение. Тут стоит сказать, что бота нужно периодически поправлять и учить, как нужно — прямо, как маленького ребенка. Говорите ему, если он отвечает не так и поправляйте. Например, можно дать команду: «используй на 30% больше слов-паразитов — «типа», «получается» и «короче», если вы замечаете это за собой в реальной жизни.

Когда бот озвучен и диалог построен, мы можем озвучить полученный текст нашим голосом.

Воссоздание голоса

Чтобы заставить бота говорить моим голосом, мы загружали текст на сервис ElevenLabs. Предварительно оплатили подписку, чтобы разблокировать функцию создания пользовательских голосов. Загрузили буквально 3 минуты аудиозаписей с моим голосом — я записал их и отправил себе в ВК, откуда скачал при помощи SaveFrom.net. Буквально пара минут — и нейросеть обучилась на моем голосе и смогла говорить на нем. Правда, на английском языке.

Затем мы использовали текст из ранее сгенерированного разговора с нейросетью ChatGPT в роли нашего аватара и озвучили ее моим голосом. Полученное аудио можно легко скачать.

 

Завершающий этап — создание «говорящей головы» по статичной картинке. На это способна нейросеть DeepStory от MyHeritage — ее мы и использовали.

Оживляем фото

Тут всё относительно просто — переходим на нужный раздел сайта MyHeritage, предварительно заведя там аккаунт, и загружаем свою фотографию. Желательно, чтобы это был портрет и большую его часть занимало лицо. Алгоритм обработает ваше фото и выдаст такое окошко:

Заполняем все поля и переходим дальше. В следующем окне вводим тот текст, который будет озвучивать наша «говорящая голова» (придется вводить транслитом) и вуаля — меньше чем через минуту 2D-картинка уже сможет говорить.

Акцент у получившегося аватара тут будет еще хуже, чем у ElevenLabs, поэтому мы наложили на видео сгенерированный ранее звукоряд и подкорректировали скорость видео и аудио так, чтобы движения губ совпали со звуком.

Подробнее обо всей проделанной работе и о том, когда нейросети смогут обеспечить людям цифровое бессмертие, смотрите в записи пресс-конференции телеканала НСН «Нейросети открывают путь к бессмертию», на которой выступил наш директор по контенту и маркетингу Александр Монахов и мой цифровой аватар:

Добавил suare suare 8 Мая 2023
Дополнения:

С любимыми не расставайтесь! – оживляем человека

В общих чертах это уже возможно, если объединить нейросети для генерации изображений, текста, звуковых сообщений и анимирования лиц с фотографий.

Сегодня на рынке есть сотни нейросетей — одни создают изображения по текстовому запросу, другие способны заставить говорить людей с фотографий, третьи могут самостоятельно придумывать текст и вступать в диалоги с людьми, а четвертые — озвучивать введенный текст. Но что если объединить все эти алгоритмы? Сможем ли мы «воскресить» умершего человека, как в эпизоде «Я скоро вернусь» из второго сезона «Черного зеркала»?

В общем ответ скорее «да», чем «нет».

Собираем данные

Для начала нам понадобится собрать всю информацию о человеке. И чем больше, тем лучше. Как минимум, потребуются:

  • записи голоса/звонков с текстовой расшифровкой;
  • дневник или другие нерабочие записки;
  • сообщения со смартфона;
  • фотографии и видео с человеком;
  • информация о привычках человека и необычных фразах, которые он мог вставить в разговоре;
  • информация о жизни, основные этапы биографии и случаи из жизни;

Этот минимальный набор данных уже сегодня поможет создать виртуальную модель человека, управляемую искусственным интеллектом. Конечно, в общении с этой моделью вы сможете частично узнать человека, которого она копирует, но такой искусственный интеллект все еще будет вести себя как нейросеть — его реакции не будут “человеческими” и беседы с ним будут не такими интересными.

Представьте человека, который всегда говорит только правду, может похвастаться энциклопедическими знаниями всего на свете и постоянно ничего не делает. Поначалу с ним весело пообщаться, вы будете задавать кучу вопросов, однако вскоре придет осознание, что вы беседуете со статичным куском железа, у которого даже нельзя спросить «что ты сегодня делал?» Вернее спросить можно, но ответ вряд ли удивит.

«Если вы можете записывать данные, вы можете использовать их для обучения искусственного интеллекта (ИИ), и он будет вести себя в соответствии с параметрами, которые вы задали. Но он не может реагировать на случайные события. Люди понимают семантику более широко и способны давать совершенно непредсказуемые ответы и реагировать на ситуации по-разному.

В будущем мы, вероятно, сможем разработать ИИ, который будет реагировать по-человечески на новые ситуации, но мы не знаем, сколько времени это займет. В сообществе экспертов по ИИ сейчас идут дебаты на эту тему: одни считают, что на это уйдет 50 с лишним лет, а другие думают, что намного меньше», — утверждает Амит Рой-Чоудхури, профессор электротехники и вычислительной техники в Калифорнийском университете в Риверсайде.

Как бы то ни было, давайте разберемся, насколько хорошо мы можем воссоздать цифровую «копию» человека при помощи нейросетей уже сегодня.

Воспроизводим внешний вид

Для этого можно воспользоваться любой из существующих нейросетей для генерации изображений. Один из вариантов — MidJourney и при помощи этой нейросети сгенерировать несколько десятков/сотен картинок человека по загруженным снимкам.

Гораздо более интересным представляется вариант использования бесплатной нейросети Stable Diffusion. Ее можно установить себе на компьютер и дообучить на своем наборе данных. В этот набор должны войти фотографии человека, которого мы хотим воссоздать. Чем больше будет фотографий в различные моменты жизни и в разном эмоциональном состоянии, тем лучше нейросеть сможет потом генерировать изображения этого человека. Главное — подробно и правильно разметить фотографии, которые мы будем загружать в качестве обучающей выборки.

После обучения мы можем давать Stable Diffusion запросы на генерацию фотографий этого конкретного человека в различном возрасте, эмоциональном состоянии, с разной прической и в конкретных местах. Также можно задавать параметры снимка: например, попросить сгенерировать картинку человека в полный рост.

Также можно попросить сгенерировать несколько десятков (а лучше сотен) вариаций одной и той же фотографии человека. Например, задаем запрос «*имя человека* в темной комнате перед монитором, вид из веб-камеры, 4k» и генерируем несколько десятков вариаций под разным углом обзора.

После этого загружаем полученные снимки в нейросеть Instant NeRF от Nvidia и – вуаля! – у нас есть трехмерная сцена с нужным человеком, в которой мы можем рассмотреть его со всех сторон. Примечательно, что исходный код Instant NeRF находится в открытом доступе и использовать его тоже не составит труда.

Можно пойти еще дальше и использовать нейросеть Point-E для создания 3D-модели человека. Конечно, после этого придется серьезно поработать с прототипом в 3D-редакторе, добавив трехмерному аватару правильные черты лица, одежду и так далее. Но такой способ позволяет добиться куда большего – например, воссоздать целую комнату в трехмерном пространстве с предметами и нужным человеком. Затем это в пространство можно войти как игрок в VR-очках и общаться с аватаром, управляемым искусственным интеллектом. Например, в этом видео один из разработчиков Nvidia сгенерировал при помощи Instant NeRF трехмерное пространство из загруженных фотографий и прогулялся по нему при помощи VR-очков:

Звучит футуристично, но пока обеспечить полноценное воссоздание образа умершего человека и его существование в виртуальном пространстве — невероятно сложная задача, которая потребует комплексной работы нескольких нейросетей. Однако все технологии, необходимые для ее реализации, уже существуют. Остается объединить их.

Воспроизводим речь

Самое сложное — воспроизвести манеры человека и его реакцию на те или иные слова. Обычный чат-бот с такой задачей не справится, ведь он запрограммирован на ответы по заданному алгоритму.

С другой стороны, есть нейросети ChatGPT OpenAI и LaMDA от Google (скоро появится в открытом доступе), с которыми можно беседовать практически как с реальным человеком. Проблема лишь в том, что обычные пользователи пока не могут обучать нейросеть на собственных наборах данных и довольствуются тем, что алгоритм уже знает.

Однако это лишь вопрос времени, когда появится возможность самостоятельно дообучать нейросети на основе загруженных пользователями данных. Нет никаких сомнений в том, что ChatGPT, обученная на предоставленной ей информации о конкретной персоне, сможет давать ответы «в стиле» этого человека.

Воспроизводим голос

Если с чат-ботом, имитирующим личность человека, мы разобрались, то воссоздать голос тем более не составит труда. Для этого существует несколько сервисов. Самый продвинутый — нейросеть VALL-E от Microsoft, которой достаточно трех секунд образца аудио, чтобы она могла воспроизводить нужный голос. Однако этой технологией пока воспользоваться нельзя — Microsoft переживает за фейки, которые наводнят интернет, если к VALL-E появится открытый доступ.

И переживает техногигант не зря, ведь существует аналогичный бесплатный сервис для генерации аудио от стартапа ElevenLabs. Тысячи людей уже воспользовались им и далеко не в благих целях — кто-то, например, сгенерировал аудио, в котором Эмма Уотсон читает «Мою борьбу» Гитлера, а журналисты The Verge создали запись, где Джо Байден подтверждает правдивость теории «пиццагейт».

Звучат сгенерированные нейросетью голоса очень похоже на реальных людей. Так что, если у вас есть достаточное количество записей голоса нужного человека, вы без труда сможете воссоздать его речь при помощи нейросети. «Прикрутив» чат-бота по API к такому сервису, можно озвучивать реплики «цифрового двойника».

Однако чего пока не умеют нейросети, так это – продвигать бизнес в интернете. Зато умеет агентство TexTerra, у которого вы можете заказать услугу по видеомаркетингу для бизнеса.

Собираем воедино

Когда мы создали виртуальный портрет человека, воссоздали его манеру речи и голос, наступает самое сложное — объединить это всё так, чтобы оно заработало. Насколько это сложная задача, мы судить не беремся — оставим рассуждения программистам. Но кое-кому уже удалось провернуть подобное.

Речь про разработчика по имени Брайс (свои личные данные он предпочел не раскрывать), который создал аниме-девушку, способную видеть, отвечать и реагировать на действия своего создателя. При разработке системы он использовал ChatGPT, Stable Diffusion 2 и Microsoft Azure TTS. Последний сервис помогал генерировать голос и распознавать изображения с камеры.

В итоге, по словам парня, нейросеть стала не просто забавой — он стал так часто изучать китайский язык с ChatGPT-chan (так разработчик назвал виртуального персонажа), что у него начались проблемы в реальных отношениях и нейросеть пришлось удалить. Не беремся судить, правда это или просто хайп, но прецедент создан.

Если добавить ко всему вышесказанному сервис по восстановлению старых фото от MyHeritage и другую нейросеть от той же компании, заставляющую снимки двигать губами, идея по «воскрешению» давно умерших родственников при помощи нейросетей становится не такой уж утопической.

Как мы создали цифрового двойника

Все описанные выше технологии уже сегодня каждый может использовать для создания своей же цифровой копии. В качестве эксперимента мы в TexTerra сделали «клона» автора этой статьи. Для этого использовали всего три нейросети — ChatGPT для генерации «личности» и текста разговора, ElevenLabs для озвучки полученного текста голосом автора и DeepStory от MyHeritage для «оживления» фотографии.

Что получилось в итоге, вы можете оценить сами на видео ниже:

На первый взгляд, выглядит довольно дико и несуразно. Но убрать акцент — и это будет практически рабочий аватар. Самое интересное, что сделать такую цифровую копию самого себя сейчас может каждый — в отдельной статье мы подробно расписали, как вы можете справиться с этим за час.

Читайте также:

Нейросети увольняют дизайнеров (ну, почти): пример Tiffany и Nike

Китайская нейросеть делает из вас персонажа аниме. Бесплатно

Как составлять запросы к нейросетям: примеры, настройки, параметры

Добавил suare suare 8 Мая 2023
Комментарии участников:
KolVizin
+1
KolVizin, 8 Мая 2023 , url

«Нейросети открывают путь к бессмертию»

 Путь к бессмыслию они открывают, а не к бессмертию! Ну, научили машину имитировать человеческую речь, так попугай всегда это умел, а курсовые уже лет 30 так делают. Придет время и научится он думать по человечески, для этого и создают его. А пока это игрушка и уже очень надоевшая.



Войдите или станьте участником, чтобы комментировать