Language:

Поиск

MidJourney

  • Share this:
MidJourney

Прогресс, которого достиг Midjourney менее, чем за год, впечатляет. Нейросеть прошла путь от каракулей, едва-едва напоминающих объекты из текстового запроса, до фотореалистичных изображений, которые не всегда можно отличить от настоящих фотографий.

В марте 2023 появилась пятая версия Midjourney, которая, наконец почти решила вопрос с анатомией человеческих рук. Чтобы посмотреть, что еще может Midjourney v5, РБК Тренды сравнили, как разные версии алгоритма справляются с одними и теми же запросами. Мы попросили нейросеть нарисовать: полосатых котят, ретроавтомобиль, «лес рук», женщину средних лет, молодого разработчика, кресло в форме авокадо, город будущего, детский рисунок, Землю из космоса, мышонка в стиле Дали и руки, играющие на пианино.

Коротко о Midjourney (если знаете, листайте дальше к сравнению)

Midjourney — это искусственный интеллект, разработанный независимой исследовательской лабораторией Midjourney, базирующейся в Сан-Франциско. Эта нейросеть создает изображения на основе текстовых описаний, называемых «промптами», аналогично технологиям OpenAI DALL-E и Stable Diffusion. В настоящее время инструмент находится в открытом бета-тестировании. Команду Midjourney возглавляет Дэвид Хольц выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл и сооснователь Leap Motion.

Midjourney доступна через бота на платформе Discord. Пользователи вводят команду /imagine и текстовый запрос, после чего бот генерирует на его основе набор из четырех изображений. Понравившуюся картинку затем можно увеличить и сохранить отдельно.

Основатель Midjourney видит художников как потенциальных клиентов, а не конкурентов, и считает, что этот инструмент можно использовать для быстрого создания прототипов художественных концепций. Однако некоторые художники критикуют использование их работ в обучающих наборах данных, считая, что это обесценивает оригинальное творчество. В январе 2023 года три художника подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt за использование изображений без согласия авторов для обучения AI-инструментов.

Полосатые котята

Начнем с котят, потому что это один из самых популярных образов в интернете в принципе. По некоторым оценкам, 15% мирового интернет-трафика составляют изображения кошек.

 

 

 

Наш запрос к Midjourney выглядел так (полосатый котенок, играющий с бумажкой):

/imagine striped kitten playing with a lump of paper

Меньше года назад Midjourney v1 выдавала результат, в котором с трудом опознать котенка можно было только, если знать, каким был запрос. Актуальная версия v5 выдает уже настоящих котят с корректной анатомией и правильно нарисованной шерстью.

 

 

Ретроавтомобиль

На этом запросе хорошо видно, как Midjourney постепенно научилась работать с реальными объектами, а не «придумывать» что-то похожее. Скажем, если вы попросите v5 нарисовать Ford F-150, он его и нарисует. А в данном случае на картинке именно Porsche 901.

 

 

 

Наш запрос («Порше 901» в цвете «хамелеон»):

/imagine Porsche 901 in chameleon colour

 

Лес рук

Интересно также, как нейросеть работает с метафорами и абстракциями. Классический «лес рук» из школьных времен с помощью Midjourney превращается в картинку из головы Тима Бертона.

 

 

 

Наш запрос (лес рук на закате):

/imagine forest of hands in the dawn

 

 

 

Женщина средних лет

Человеческая анатомия и в особенности — лица — это одна из самых сложных задач даже для художника-человека, потому что в нашем мозгу есть специальная область, отвечающая за распознавание лиц. Из-за этого любое несоответствие мы хорошо различаем. К пятой версии изображения, которые генерирует нейросеть, уже сложно отличить от фото. Правда нашу просьбу нарисовать родинку на щеке алгоритм упорно игнорировал. Кроме того, интересно, как нейросеть справляется с неточным возрастом — «средних лет». Кажется, последняя версия Midjourney склонна рисовать женщин средних лет визуально более молодыми, чем это делали ранние версии алгоритма. 

 

 

 

Запрос (женщина средних лет с темными волосами и родинкой на левой щеке):

/imagine mid age woman with dark hair and a mole on the left cheek

 

 

 

Молодой разработчик

Эта подборка изображений хорошо иллюстрирует, как нейросеть интерпретирует «молодость», а также то, насколько важно правильно размечать датасет при обучении нейросетей в принципе, чтобы результаты были корректны во всех отношениях. Здесь показательно, что молодой программист у Midjourney v5 получился в половине вариантов азиатом. Зато из результатов пропали надписи на тарабарском языке.

 

 

 

Запрос (молодой JS-разработчик):

/imagine young js developer

 

 

 

Кресло в форме авокадо

А это один из запоминающихся образов, который в свое время эксплуатировали разработчики нейросети-конкурента, демонстрируя возможности Dall-E.

 

 

 

Запрос (кресло-авокадо):

/imagine avocado chair

 

 

 

Город будущего

В запросах о будущем по-прежнему важно указывать «настроение» картинки, которую вы хотите получить. Если этого не сделать, судя по всему, нейросеть будет отталкиваться от атмосферных кадров из фильмов о будущем, на которых она обучалась. Несмотря на общую тенденцию Midjourney v5 к фотореализму в данном случае получились скорее CGI-иллюстрации.

 

 

 

Запрос (людная улица города будущего в 2100 году, полная киборгов):

/imagine crowded futuristic city street of year 2100 full of cyborgs

 

 

 

Детский рисунок

Детские рисунки в целом удавались и предыдущим версиям нейросети, но у v5 получается красочнее и, кажется, все-таки аутентичнее.

 

 

 

Запрос (карандашный рисунок со львом, солнцем и пальмой на белом листе бумаги, сделанный трехлетним ребенком):

/imagine pencil drawing of a lion, sun and a palm made on a white sheet of paper by 3 years old kid

 

 

 

Австралия из космоса

Как и в других случаях с запросами о вполне конкретных объектах, форму которых мы в целом представляем, здесь сложность в том, чтобы выдать корректные очертания континента. В целом более или менее корректная география появляется уже в v4.

 

 

 

Запрос (австралийский континент из космоса ночью):

/imagine australian continent from space in the night

 

 

 

Мышонок в стиле Дали

Стилизации под конкретного художника при желании можно добиться указанием нужных цветов, техники и конкретных дополнительных объектов (например, длинных ног у мыши в этом случае), но без уточнения v5 все-таки ушла в сторону фотореализма.

 

 

 

Запрос (картина в стиле Дали с белой мышью, идущей по луже):

/imagine dali style picture of a white mouse walking through a puddle

 

 

 

Руки, играющие на пианино

И самое сложное — руки. Видно, что даже Midjourney v5 они по-прежнему даются не идеально, но прогресс очевиден. Теперь одну из четырех версий уже вполне можно использовать.

 

 

 

Запрос (руки, играющие на пианино, крупным планом):

/imagine close-up hands playing piano

 

 

 

Дмитрий Андреянов

Дмитрий Андреянов

Lorem ipsum dolor sit amet, consectetur adipisicing elit. Animi autem blanditiis deleniti inventore porro quidem rem suscipit voluptatibus! Aut illum libero, praesentium quis quod rerum sint? Ducimus iure nulla totam!