Как работает чудо-нейросеть dall·e 2, которая генерирует любое изображение по тексту. объясняем подробно

Крипипаста эпохи ии: кто такая «лоаб», и почему о ней так много говорят в соцсетях

Киберпанк

Эти уникальные изображения Гарри Поттера увлекут вас в футуристическое путешествие, показывая новую, необычную сторону вашего любимого мира волшебства и магии.

В августе 2022 года поклонники книг о Гарри Поттере решили отправить героев в кибернетическое будущее, используя нейросеть Midjourney. Результат получился любопытным, но настолько жутким, что этого стоило бы избежать. С тех пор прошло достаточно времени, и Midjourney, а также другие главные нейросетевые конкуренты, значительно продвинулись в своих возможностях.

Мы подготовили для вас две подборки изображений Гарри Поттера в стиле киберпанка, созданных с помощью нейросетей. Новая подборка фотографий была создана с использованием современных технологий, что позволило добиться гораздо более качественных результатов. что вы думаете об этих подборках? Какая из них больше нравится вам и почему?

Гарри Поттер в стиле киберпанк от NodaShogun – варианты рисунков, сгенерированных нейросетьюБолее новый вариант рисунков, сгенерированных нейросетью

Как выявить Deepfake?

Проблема даже не в том, что такие системы надо запретить, а в том, что это уже невозможно. Они уже есть и развитие технологий, в том числе, и считывания лиц привело к их появлению и распространению открытого кода. Даже если представить, что система в нынешнем виде перестанет существовать, надо понимать, что ее создадут заново. Просто еще раз научат нейросети работать между собой и все.

Пока не все так страшно, и определить подделку можно буквально невооруженным глазом. Картинка похожа, но она достаточно грубая. Кроме этого, она иногда имеет некоторые проблемы с совмещением, особенно по границам лица. Но ничего не стоит на месте и развить ее еще больше совсем не сложно. Тот же Хао Ли уверен, что на это потребуется не больше нескольких месяцев, а для создания “масок”, которые не отличит даже компьютер, надо еще несколько лет. После этого пути назад уже не будет.

С одной стороны, от этого сможет защитить алгоритм, который уже создают YouTube и Facebook. Кстати, последние даже открыли конкурс на разработку технологии распознавания — Deepfake Detection Challenge («Задача по выявлению дипфейков»). Призовой фонд этого конкурса составляет 10 миллионов долларов. Конкурс уже идет и завершится в марте 2020 года. Еще можно успеть поучаствовать.

Заменить лицо на видео перестало быть проблемой.

Возможно, такая щедрость обусловлена фейковым видео с самим Марком Цукербергом. Если эти две вещи связаны, появление такого конкурса неудивительно.

Если замененное лицо будет полностью соответствовать оригиналу, противосила в лице специальной нейросети будет бессильна. В этом случае ей придется ловить минимальные отличия в мимике, движениях и манере говорить. В случае с известными людьми такая проблема будет решена на уровне видеосервиса, так как тот же YouTube знает, как двигается условный Дональд Трамп. Когда дело дойдет до менее известного человека, это будет сложнее. Хотя, это тоже можно будет доказать, посадив его перед камерой и ведя непринужденную беседу, пока нейросеть анализирует его движения. Получится что-то вроде изучения отпечатка пальца, но, как видим, это опять приведет к излишним сложностям.

Если вшить системы определения подлинности видео в камеры, их тоже можно будет обойти. Можно сделать так, чтобы камера маркировала снятое видео и было понятно, что оно не снято через отдельное приложение или не обработано в специальной программе. Но как в этом случае быть с видео, которые просто были обработаны. Например, смонтированное интервью. На выходе мы получим видео, в котором уже не будет того исходного ключа.

Немного мемов в конце.

Откуда берется фейк?

Сейчас уже слишком много всего, что принято называть фейками. Они есть везде. Их можно найти в фотографиях, в новостях, в производстве товаров и в информационных услугах. Проще сказать где нет явлений, сопровождаемых этим словом. Пока с ними можно бороться. Можно изучить происхождение фотографии, проверить отличительные черты фирменного товара от подделки, а новости перепроверить. Хотя, новости являются отдельной темой.

В наше время потребитель контента не хочет ждать и требует от его создателя моментального производства, иногда ему даже плевать на качество, главное, чтобы быстро. Отсюда и рождаются ситуации, когда кто-то что-то сказал, а остальные, не проверив, растащили это по своим сайтам и газетам. В некоторых случаях требуется много времени на раскрутку этого клубка обратно и доказательство того, что это все было неправдой.

Объяснять, для чего это все делается, смысла нет. С одной стороны стоят те, кто просто хочет посмеяться над ситуацией, с другой — те, кто действительно не знали, что они неправы. Отдельное место, примерно посередине, занимают те, кому это банально выгодно. Это могут быть интересы влияния на разном уровне, включая политический. Иногда это бывает целью получения прибыли. Например, сеяние паники на фондовом рынке и проведение выгодных операций с ценными бумагами. Но зачастую это бывает связано с неприязнью к человеку (компании, продукту и т.д) с целью принизить его. Простым примером является “опускание” в рейтингах неугодного кому-то фильма или заведения. Конечно, для этого нужна армия тех, кто пойдет и поставит дизлайк (иногда даже ботов), но это уже отдельная история.

СССР

Гарри Поттер стал настоящим явлением в мире книжной литературы, завоевав миллионы сердец читателей по всему миру. Но что было бы, если бы эту историю написали в другое время и в другом стиле? В этой подборке генерация нейросетей позволяет нам перенестись в атмосферу Советского Союза и взглянуть на приключения Гарри Поттера в новом свете.

Чтобы увеличить изображение нажмите по области где нет текста. На мобильных телефонах текст можно прокручивать нажатием по нему, чтобы дочитать описание до конца.

Гарри Поттер или товарищ Гончаров – Гарри, который не боится действовать в интересах коллектива, а не личных амбиций.Беллатриса Лестрейндж или товарищ Кирова – жестокая и беспощадная приверженка идеологии тоталитарного режима, готовая принять любые меры для достижения своих целей. Драко Малфой или товарищ Громов – высокомерный и заносчивый, но слабый и трусливый “привилегированный” ученик, который никогда не присоединится к борьбе за справедливость.Рон Уизли или товарищ Иванов – лучший друг Гарри, простой и надежный товарищ, готовый поддержать своих друзей в любой ситуации.Волан-де-Морт или товарищ Кузнецов – безжалостный и коварный враг Гарри и всего свободного мира, готовый на любые преступления ради достижения своих целей.Северус Снейп или товарищ Борисов – жесткий и бескомпромиссный, но честный и верный своим принципам.Альбус Дамблдор или товарищ Козлов – мудрый и опытный лидер, который всегда готов защищать своих подопечных и бороться за правду.Рубеус Хагрид или товарищ Сидоров – большой и добрый, но иногда неуклюжий, готовый принести себя в жертву, чтобы защитить своих друзей.Гермиона Грейнджер или товарищ Петрова – умная и трудолюбивая девушка, которая готова сражаться за свои убеждения.Гарри Поттер в советском союзе – варианты рисунков, сгенерированных нейросетью

Что такое Deepfake? Когда появился Deepfake?

Несложно догадаться, что Deepfake это небольшая игра слов, связанная с Deep Learning и теми самыми фейками, о которых я рассказывал выше. То есть, Deepfake должен вывести подделку на новый уровень и разгрузить человека в этом нелегком деле, позволив создавать поддельный контент, не тратя на это силы.

В первую очередь, такие подделки касаются видео. То есть, любой человек сможет сесть перед камерой, сказать что-то, а его лицо будет заменено на другого человека. Выглядит жутковато, ведь, по сути, надо будет просто уловить основные движения человека и отличить подделку будет просто невозможно. Давайте разберемся, с чего это все началось.

Первая генеративно-состязательная нейросеть была создана студентом Стэнфордского университета. Произошло это в 2014 году, а звали студента Ян Гудфеллоу. По сути, он столкнул между собой две нейросети, одна из которых занималась генерацией лиц людей, а вторая анализировала их и говорила похоже или нет. Так они обучали друг друга и в один прекрасный день вторая нейросеть начала путаться и принимать сгенерированные изображения за реальные. Именно такая постоянно усложняющаяся система и рождает Deepfake.

Сейчас одним из главных популяризаторов идеи Deepfake является Хао Ли (Hao Li). Он занимается не только этим, но и многим другим. За это он был не раз удостоен различных наград, в том числе, и негласных. Кстати, он один из тех, кому стоит сказать спасибо за появление в iPhone X анимодзи. Если интересно, на его сайте можно ознакомиться с ним более подробно. Сегодня не он является главной темой обсуждения.

Вспомнили мы о нем только из-за того, что на всемирном экономическом форуме в Давосе он показал свое приложение, которое позволит заменить лицо человека, сидящего перед камерой, на любое другое лицо. В частности, он показывал, как работает система на примере лиц Леонардо Дикаприо, Уилла Смита и других известных людей.

Выглядит это немного жутковато. С одной стороны, можно только восхититься современными технологиями, которые позволяют сканировать лицо, на ходу менять его на другое и выдавать новую картинку. На все это тратятся доли секунды и система даже не тормозит. То есть, это позволяет не просто обработать готовое видео и заменить лицо, но и участвовать такому персонажу в каком-нибудь живом общении по видеосвязи.

Опасность Deepfake. Как изменить лицо на видео?

Можно сколько угодно говорить о том, что такая технология нужна, это очень круто и не надо наговаривать. Можно даже дойти до крайности и начать говорить о том, что это позиция лютого олдфага, который просто боится всего нового, но тут действительно опасностей больше, чем пользы.

С такой технологией, особенно, если она будет с открытым кодом, любой желающий сможет сеcть и записать любое видео

Полбеды, если оно просто будет порочащим чью-то честь и достоинство, гораздо хуже, если это будет заявление, сделанное от имени важного человека. Например, записав ролик длиной всего 30-40 секунд от имени Тима Кука, можно обрушить чуть ли не всю IT-сферу США во главе с Apple

Фондовый рынок получит такой сильный удар, что это посеет панику среди инвесторов. В итоге тысячи людей потеряют в сумме миллиарды долларов.

Тот, кто не любит такой способ заработка, скажет, что так им и надо, пусть идут на завод. Но при самом печальном сценарии и завода не будет после такого. Кроме того, банально мы получаем человека, который обманом наварится на колебаниях стоимости ценных бумаг. Достаточно просто вовремя их купить и продать.

Ситуация может быть и хуже, если “шутник” выскажется от лица лидера крупного государства. Конечно, потом все вскроется, но за это время можно натворить немало неприятных дел. На фоне этого, просто подставить лицо знаменитости вместо актера в фильме для взрослых будет невинной шалостью.

С такими технологиями главное сканировать, а дальше дело техники. В прямом смысле слова.

Можно представить и обратную ситуацию, когда реальный человек что-то скажет, а потом будет всех уверять, что его подставили. Как быть в этой ситуации тоже не очень понятно. Это внесет такую смуту в новостные ленты, что перепроверить это в другом источнике просто не получится. В итоге станет вообще непонятно, что в этом мире правда, а что ложь. Вырисовывается картинка из фильмов о мрачном будущем, вроде Суррогатов или Терминатора, где Т-1000 представлялся другими людьми и, в том числе, звонил Джону Конору от имени его приемной матери.

Сейчас я даже не говорю о еще одном злоупотреблении, которое позволит собирать ложные улики. На фоне этого вся забавность игрушки становится слишком сомнительной.

Starryai

Как попробовать:

  • перейти на сайт Starryai, кликнуть «Start Creating»;
  • пройти верификацию через Google или Apple;
  • выбрать опцию Altair или Orion;
  • в окне Prompt ввести текстовое описание на английском языке;
  • в окне появится картинка, которая будет преобразовываться прямо на глазах;
  • кликнуть на готовое изображение и выбрать Download, также можно поделиться картинкой в соцсетях или даже создать из нее анимацию.

Нейросеть создает картинки на основе текстового описания, но с дополнениями. В режиме Altair можно создать сказочное изображение, которое будет представлять собой более абстрактные художественные рендеры ИИ. В режиме Orion можно создавать более сложные и кинематографичные изображения, смешивая до трех стилей. Для генерации используется система кредитов, которые можно не только купить за деньги, но и заработать — посмотреть рекламу или поделиться работой в соцсетях. Для уже готового изображения доступна опция увеличения разрешения за дополнительные кредиты.

ИИ был мал, и Санта вышел странным

Вдохновившись работой коллег по Data Science, журналисты издания MIT Technology Review Уилл Найт и Карен Хао тоже решили поэкспериментировать с нейронными сетями. В преддверии 2019 года они попытались научить ИИ генерировать сюжеты рождественских фильмов.

Для этого они собрали из «Википедии» синопсисы 360 новогодних блокбастеров и загрузили их в рекуррентную нейросеть textgenrnn, которая анализирует и генерирует текстовую информацию.

После обучения ИИ сгенерировал несколько десятков историй, большинство из которых, к сожалению, напоминали бессвязный набор предложений. Немногие тексты, в которых можно было обнаружить крупицы здравого смысла, подходили скорее для фильмов ужасов, чем для лёгких новогодних комедий. В них упоминались террористы, убийства и драки.

Учёные, к которым обратились Найт и Хао, объяснили причины. Во-первых, датасет из 360 записей слишком мал для обучения — сравните со 140 000 примеров, скормленных Shelley. Во-вторых, нейросети, подобные textgenrnn, в принципе неспособны оценивать логичность сюжета в длинных текстах, которые они генерируют. Создатели Shelley отчасти решили эту проблему, разбив рассказы на фрагменты и пригласив в соавторы пользователей Twitter.

«Нейросеть выбирает каждое последующее слово, основываясь на том, насколько велика вероятность его появления после предыдущего. Это похоже на попытку написать письмо, пользуясь Т9. В результате теряется логика и грамматическое согласование».

Карен Хао, журналист MIT Technology Review (цитата: MIT Technology Review)

Однако Найт и Хао не опустили руки и решили применить ИИ для более простой задачи — сгенерировать только названия новых фильмов. И здесь их ждал успех. Сеть textgenrnn выдала несколько десятков названий, подходящих для новогодних боевиков и хорроров.

Среди них журналисты выделили следующие: «Оно: Санта», «Рождественская миля» и «Бойцовское Рождество». Авторы исследования даже попросили дизайнеров (людей, не ИИ) создать постеры для этих лент.

В чёрном-чёрном доме есть чёрная-чёрная комната…

«Тень позади меня. Я почувствовал, как рука схватила меня за лодыжку и потащила под слой пыли…» — так мог бы начинаться новый рассказ Стивена Кинга. Но нет. Этот текст придумала нейросеть.

Учёные из медиалаборатории Массачусетского технологического института (MIT Media Lab), специализирующиеся на изучении ИИ, весьма своеобразно решили отметить Хэллоуин в 2017 году. К этому празднику они приурочили запуск нейросети Shelley, которая генерирует страшные истории. Свою разработку они назвали в честь Мэри Шелли — автора культового готического ужастика «Франкенштейн».


Изображение: MIT Technology Review

Для реализации проекта программисты собрали датасет из 140 000 леденящих кровь историй, опубликованных на Reddit. В частности, в одной из веток обсуждения под названием NoSleep пользователи выкладывают страшилки собственного сочинения в духе тех, что мы своим товарищам по третьему младшему отряду рассказывали короткими июньскими ночами.

К этим историям добавили несколько десятков культовых романов ужасов и «скормили» их Shelley. При помощи алгоритмов глубокого машинного обучения нейросеть научилась анализировать структуру хорроров и воспроизводить её при составлении новых текстов.

Однако самостоятельно написать роман или даже небольшую повесть от начала до конца Shelley пока неспособна. Поэтому её «поселили» в твиттер-аккаунте @shelley_ai и предложили всем желающим помочь ИИ в сочинении новых ужастиков.

Совместное творчество людей и нейросети происходило следующим образом. Вначале ИИ Shelley генерировал короткий фрагмент текста (не более 140 символов) и помечал его хештегом #yourturn («твоя очередь»). Затем пользователи делали ретвиты этого фрагмента и предлагали возможные продолжения. Нейросеть выбирала лучший, по её мнению, вариант и, отталкиваясь от него, генерировала следующий фрагмент. Получилось такое буриме имени Фредди Крюгера.

Всего Shelley проработала около месяца, каждый час публикуя новые текстовые фрагменты. Как отметила Пинар Янардаг из MIT Media Lab, решающим фактором производительности ИИ стало использование мощных видеокарт как для обучения сети, так и для её работы:

Shelley должна оперативно реагировать на предложения пользователей Twitter. Поэтому скорость — это очень важный параметр. Её нам обеспечивают видеокарты NVIDIA Titan X.

Действуя по очереди, люди и ИИ создали более 450 душераздирающих сюжетов, которые требовали лишь небольшой литературной обработки. Эксперты высоко оценили итоговые результаты, многие из которых не уступали по качеству хоррорам современных авторов.

По-видимому, при реализации проекта применялись не только аппаратные, но и программные средства от компании NVIDIA, в частности библиотека глубоких нейронных сетей NVIDIA CUDA (cuDNN).

«Shelley — это комбинация многослойной рекуррентной нейронной сети и алгоритма онлайн-обучения, который со временем учится на отзывах пользователей… Чем больше Shelley сотрудничает с людьми, тем более качественные и страшные истории она обучается сочинять».

Пинар Янардаг, ведущий исследователь MIT Media Lab (цитата: MIT Media Lab)

Что такое Deep Learning?

В последнее время этот термин звучит все чаще. Иногда он даже не имеет отношения к делу и его путают с чем-то другим. Так программный продукт выглядит более эффектно.

Не стоит думать, что понятие и основные принципы машинного обучения появились только несколько лет назад. На самом деле, им уже столько лет, что многие из нас тогда даже не родились. Основные принципы работы систем глубокого обучения и математические модели для их работы были известны еще в 80-е годы прошлого века.

В то время они не имели такого смысла из-за отсутствия одного важного компонента. Им являлась высокая вычислительная мощность

Только в середине двухтысячных появились системы, которые могут помочь работать в этом направлении и позволяют просчитывать всю необходимую информацию. Теперь машины развились еще сильнее и некоторые системы машинного зрения, голосового восприятия и некоторые другие работают настолько эффективно, что даже порой превосходят возможности человека. Хотя, на ответственные направления их пока не “сажают”, делая их дополнением возможностей человека с сохранением контроля над ними.

Мы их учим, но как они будут пользоваться своими знаниями и возможностями?

Достоевский

Эти фотографии, созданные нейросетями, выглядят как сцены из романов Федора Достоевского. Гарри Поттер и его друзья здесь показаны в угрюмой атмосфере, которая напоминает о трагических событиях известных произведений. Герои оказываются в различных ситуациях, полных драматизма и неизвестности. Как и в романах Достоевского, персонажи находятся в сложных эмоциональных состояниях, не способные понять свое место в мире.

Рон УизлиМинерва МакгонагаллДрако МалфойРон УизлиАльбус ДамблдорГарри ПоттерВолан-де-МортРубеус ХагридГермиона ГрейнджерГарри Поттер нейросетью, если бы серию романов написал Достоевский

ruDALL-E Kandinsky

Также можно посмотреть варианты сгенерированных для других пользователей картинок по похожим запросам (по нашему таких не нашлось).

Картинка по описанию ruDALL-E Kandinsky

Нейросеть в 2021 году разработало подразделение SberAI совместно со SberDevices, Самарским университетом, AIRI и SberCloud. Оно работает на базе программного обеспечения DALL-E, но генерирует картинки по описанию на русском языке. В открытом доступе уже есть модели генератора — ruDALL-E Malevich (XL), которая генерирует картинки в стиле Малевича; Sber VQ-GAN, которая генерирует изображения в хорошем разрешении; ruCLIP Small для ранжирования изображений и подписей, а также Super Resolution (Real ESRGAN) для генерации в супервысоком разрешении.

В 2022 году SberAI выпустила большую модель ruDALL-E Kandinsky, обученную на 12 млрд параметров. Она доступна в приложении «Салют» от SberDevices и в боте Discord. По словам разработчиков, генерация изображений учитывает точное описание желаемого и создает уникальные изображения, которые раньше не существовали. Их можно использовать для иллюстраций статей, а также в копирайтинге и рекламе.

Индустрия 4.0

Сможете угадать, что нарисовала нейросеть?

DALL-E Mini

Нейросеть в начале 2021 года представила компания Илона Маска OpenAI. Разработчики обучили ее создавать изображения из коротких текстовых подписей. Приложение работает на основе другой модели генерации текста от OpenAI — GPT-3. Она обучена на 12 млн параметров и способна создавать антропоморфные версии животных и объектов, объединять в картинке несвязанные концепции, подбирать текст для существующих изображений. Название программы отсылает к художнику-сюрреалисту Сальвадору Дали и персонажу Wall-E из одноименного мультфильма. В 2022 году команда выпустила версию DALL-E 2, которая генерирует реалистичные изображения, но пока она недоступна широкому кругу пользователей и компаний.

Понравилась статья? Поделиться с друзьями:
Wg-mods
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: