Осенью я давал интервью для документального фильма Высшей школы экономики "После промпта". В сам фильм попал небольшой фрагмент, и я долго думал что делать с осОсенью я давал интервью для документального фильма Высшей школы экономики "После промпта". В сам фильм попал небольшой фрагмент, и я долго думал что делать с ос

Кейс: НейроДудь

Осенью я давал интервью для документального фильма Высшей школы экономики "После промпта". В сам фильм попал небольшой фрагмент, и я долго думал что делать с остальным материалом. Так появился НейроДудь.

ВК версия

Если не считать монтажа самого интервью, работа над роликом заняла около трёх дней. Расскажу о ключевых этапах.

Визуал

Вначале нужно было сделать самого Дудя. Я сразу отказался от реалистичного варианта. Во-первых, это перебор, во-вторых, эффект зловещей долины был бы гораздо сильнее.

И это оказалось сложнее, чем я планировал. Потому что надо было решать сразу три задачи:

  • Дизайн локации должен хорошо монтироваться с основной сценой

  • Нужно было придумать дизайн самого робота

  • Робот должен быть похож на Дудя

Первые варианты выглядели как-то так:

Т-1000 был бы доволен
Т-1000 был бы доволен

Для генерации я использовал Nano Banana Pro. Попробовал разные нейросетки, но остановился на ней, так как детали нужно было дорабатывать итерациями. На работу с деталями способен и ChatGPT, но результат получался хуже.

Однако, я использовал ChatGPT, чтобы дорабатывать промт для Nano Banana. Без этого у меня получался то лысый краш-тестер:

Кейс: НейроДудь

То наш с Дудём внебрачный сын с голым животом и коленками:

Кейс: НейроДудь

Который в какой-то момент решил ещё и раздеться:

Чем-то неуловимо похож на лысого из Бразерс
Чем-то неуловимо похож на лысого из Бразерс

Спустя сутки мучений появился вариант, который меня более-менее устроил:

Кейс: НейроДудь

Осталось доработать окружение, цветокоррекцию и добавить привычную одежду:

da07d8ab11cb20ac13b63bf64001a8f0.png

Ещё я пытался сделать ему фирменные скрещенные ноги, но после нескольких часов попыток, решил, что лучшее - враг хорошего, и такой Дудь нам не нужен:

Нейросеть решила, что для этой позы нужно поменять и стул
Нейросеть решила, что для этой позы нужно поменять и стул

Следующим бастином было лицо. Мне не нравился текущий дизайн и я пустился в эксперименты:

Весь спектр эмоций Дудя
Весь спектр эмоций Дудя

Вот этот вариант мне нравился фирменной ухмылкой:

Кейс: НейроДудь
Кейс: НейроДудь

Но почему я от него отказался вы поймёте, когда дойдём до анимации. В конечном итоге, в финальный ролик попала доработанная версия одного из первых вариантов:

Кейс: НейроДудь
Кейс: НейроДудь

Достаточно похож, достаточно отличается, выглядит как следователь на допросе. В общем, то что нужно, чтобы пугать детей.

Синтез голоса

Этот этап был одновременно сложным и простым.

Простым, потому что Elevenlabs позволяет быстро и достаточно точно синтезировать голос. Но чтобы получился хороший результат, нужно собрать хороший референс - исходник реальной речи говорящего, и вот в этом была сложность.

Мне пришлось отсмотреть 4-часовое интервью Дудя и вырезать все моменты, где говорит он. Причём нужны были моменты, где он что-то спрашивает, у него тогда появляются характерные интонации.

И боже, как я устал. Классно его слушать фоном, когда чем-то занимаешься, но когда ты вынужден прям смотреть и искать моменты именно с Юрой, и смотреть прям на Юру - это отдельный вид пытки.

*звуки страданий
*звуки страданий

Вам наверняка интересно, сколько минут говорит сам Дудь в своих интервью. И вот вам бессмысленный факт, о котором никто не просил. Юра говорит примерно 40 минут в интервью, которое длится 4 часа. Не благодарите.

Анимация

И вот мы подошли к самому интересному. Чтобы сделать анимацию с липсинком, есть два подхода: простой и сложный.

Сложный выглядит так: вы берёте Runway и выбираете там режим "Act-Two". Дальше нужно снять себя на камеру в нужном ракурсе, сделать вид, что вы Юра Дудь, который задаёт вопросы. Дальше в Premiere подставить вместо своего голоса, голос Дудя, так чтобы он совпадал с губами. И скормить это видео Runway вместе с референсной картинкой, которую мы подготовили на предыдущем шаге.

Тогда генерация была бы классной, НейроДудь активно бы двигался, а его губы хорошо попадали в текст. Но я понял, что так заморачиваться не готов. Сразу было понятно, что этот ролик на грани корректности.

Сомнительная история, с точки зрения авторских прав, да и сам Ютуб легко бы мог его снести по просьбе Юры. (Юра, пожалуйста не кидай страйк). Прикольный эксперимент, но на постоянной основе точно так делать не стоит.

Поэтому я решил пойти по простому пути. Для этого есть сервис HeyGen. Он позволяет загрузить картинку и речь, чтобы получить видео, где нейросеть очень старается сделать липсинк. И даже пробует немного шевелить персонажа. В большинстве говорящих ИИ-картинках вы видите результат работы именно этого сервиса.

Но с ним тоже пришлось помучаться. Помните улыбающегося Дудя? Вот причина, по которой я отказался от этого дизайна:

1edb330ee20383a9b273fbc8ea7f2913.png

В процессе анимации это стал кто угодно, но только не Дудь. Нейросеть воспринимает улыбку, как базовые черты лица и из-за этого анимация становится странной. К тому же по голосу слышно, что человек не улыбается.

Но и с более строгим дизайном пришлось намучаться. Чаще всего проблема была в том, что нейросеть слишком сильно растягивала рот на акцентных моментах. Да и липсинк пока далёк от идеала.

af317178f9f8251385204f3ce7a1ce4d.png

Один раз НейроДудь даже впал в экзистенциальный кризис:

cf70a36331635f81225cfc60bc36cab7.png

Чуть проще было генерить вставки с реакциями Дудя. Делал я их с помощью нейросетей "Kling O1" и "Seedance 1.5" на платформе Кrea. Например тут пытался воссоздать фирменный возмущённый взгляд в камеру:

675b965895a3782549046050d8651b58.png

В конечном итоге, НейроДудь получился хоть и криповым, но всё равно достаточно залипательным.

Кроме Дудя я сделал круглого робота, который влетает в кадр со мной. Он нужен, чтобы чуть удержать внимание зрителя вначале ролика, пока они привыкают к говорящему.

53f120cd9d246bee51cc1c2b3497238b.png

Визуал робота генерировал в Reve - это мой основной инструмент для создания отдельных объектов. Анимацию делал с помощью "Seedance 1.5" на платформе Кrea. В сцену добавил с помощью After Effects.

Оформление

Интервью Дудя сложно представить, без его фирменной отбивки. Только нужно было поменять музыку, чтобы ютуб автоматически не жаловался на авторские права.

13e8b83fd4b31099f01941e1bf895924.png

Новый логотип сгенерировал с помощью той же Nano Banana, а ремикс на джингл в Stable Audio - это такая Suno курильщика. Пробовал вначале Suno, но сходу не получилось, а Stable сделал с первой попытки то, что нужно. Но за чем-то сложнее туда ходить точно не надо.

Итог

1. Это было весело.
2. Вся работа заняла примерно 3 дня
3. Если прикинуть общую подписку на сервисы и покупку токенов, то получится в районе $150

После интервью для Вышки я сел писать большую серию статей, где детальнее рассказал свой взгляд на будущее, а этот ролик стал классным дополнением.

Судя по коментам на ютубе, людям тоже зашло.

ВК версия

Спасибо, что прочитали, накидайте вопросов в комментариях

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.