Количество различных инструментов, работающих на базе искусственного интеллекта, увеличивается каждый день. Кто-то сам себе разработчик, а кто-то (кто побогаче) просто покупает готовые решения или инвестирует в перспективные компании. Так, Microsoft в январе 2023 года заявила, что планирует расширить свое сотрудничество с создателем нашумевшего ChatGPT — OpenAI за счет миллиардных инвестиций. Результат не заставил себя долго ждать, и на рынке появился новый продукт на базе Dall-E 2 — Bing Image Creator. Он бесплатный, генерирует изображения без очереди и для работы с ним вам не нужно ничего кроме браузера и интернета.
В материале рассказываем про все, что нужно знать, чтобы пользоваться нейросетью Bing Image Creator. Поехали!
Что такое Bing Image Creator
Это генератор изображений по текстовому описанию. Интерфейс похож на интерфейс аналогичных инструментов и представляет из себя строку для ввода промта… и все. Здесь вы можете генерировать любой тип визуального контента: фото, иллюстрации и графику.
Кроме этого у сервиса есть все необходимое, что должно быть у качественного решения:
- возможность создавать изображения в разных стилях — достаточно отразить это в промте;
- механизм интеллектуальной настройки — можно определить такие параметры, как яркость, контрастность, насыщенность и другие;
- простота интерфейса — он интуитивно понятный;
- применимость результатов генерации в разных областях, где требуется визуальный контент;
- качество конкретных промтов (но, к сожалению, есть ряд ограничений — расскажем про них немного позже).
Очень неплохо для бесплатного инструмента.
Как работает нейросеть Bing Image Creator
Bing Image Creator работает на основе Dall-E, которая обучалась на больших массивах данных, состоящих из картинок и описаний к ним. Они были взяты из открытых источников или лицензированы для использования. После этого они были подвергнуты тщательной «зачистке», чтобы убрать из подборок откровенные фрагменты, насилие, расизм, ненависть и другие проявления неприемлемого контента.
Новые же изображение генерируются на основе «преобразователя» — типа машинного обучения, которое воспринимает контекст и шаг за шагом его преобразует, чтобы в результате создавать картинки по естественным языковым запросам. Такая модель работы позволяет не прекращать обучение ни на секунду, потому что оно продолжается и на основе тех выборов, которые делают пользователи при получении четырех вариантов.
Сам процесс генерации состоит из трех этапов:
- Восприятие системой текстового описания и его перевод в набор чисел, связанный векторами, которые показывают близость отдельных частей запроса пользователя.
- Создание на основе набора чисел черновика невысокого разрешения через диффузную модель, которая лежит в основе работы большинства нейросетей.
- Увеличение картинки, ее детализация и повышение качества.
Это очень примитивное описание алгоритма работы Bing Image Creator, но общий принцип именно такой.
Как пользоваться Bing Image Creator
На данный момент при переходе на сайт из России нас встречает надпись: «В ближайшее время в вашем регионе появится возможность создания изображений». Поэтому не отчаиваемся и включаем VPN. После этого можно приступать к работе.
Есть два способа для использования сервиса. Первый — через Bing Chat. Но в этом случае вам обязательно потребуется браузер Microsoft Edge, поэтому этот вариант мы рассматривать не будем — не у всех он есть и не всем он нравится.
Рассмотрим более простой и доступный для всех способ — через сайт bing.com. Для того, чтобы начать использование Bing Image Creator, вам понадобятся только учетная запись Microsoft и доступ к самому сайту. Аккаунты в OpenAl и Dalle-2 не нужны. Переходим на сайт по указанному url, нажимаем «Присоединиться и создать» и логинимся. Интерфейс полностью русский.
После этого можно вводить текстовое описание того, что вы хотите получить от генератора. Здесь желательно описать все максимально подробно, чтобы результат вас не разочаровал. И нажимаем кнопку «Создать» и ждем. Первые 100 генераций будут отработаны быстро, следующие — дольше.
На главной странице есть вкладка “Обзор идей”, где вы можете посмотреть на картинки и промты, по которым они были созданы.
По итогу генерации вам на выбор будет представлено четыре варианта. И результат не всегда будет идеальным, но это скорее особенность бесплатных инструментов. Они не настолько хороши, чтобы создавать что-то фотореалистичное. Здесь бывают проблемы с пальцами и позиционированием глаз. Это все мы обязательно проверим чуть позже. При это простые запросы генерируются достаточно хорошо.
Если вы довольны результатом, то одно из изображений можно скачать. Для этого достаточно кликнуть на понравившийся вариант — он увеличится в размерах и появятся кнопки «Поделиться», «Сохранить», «Скачать» и «Обратная связь».
Вот и весь алгоритм — ничего сложного.
Примеры промтов и изображений из Bing Image Creator
Сейчас давайте перейдем к самой интересной части — тестированию того, на что нейросеть способна. Как обычно, начнем с чего-то попроще, и постепенно будем усложнять запросы, добавляя им деталей. И обязательно посмотрим, как ИИ справится с руками, глазами и надписями, что сгенерирует, а что нет. Для чистоты эксперимента промты будем составлять на английском, но и про перевод не забудем. Приступим.
A hand shows like with a thumb / Рука показывает лайк большим пальцем.
A beautiful young woman with big sad eyes / Красивая молодая женщина с большими грустными глазами.
Graffiti on a wall in New York / Граффити на стене в Нью-Йорке.
Так, с руками, глазами и надписями разобрались. Теперь давайте посмотрим на конкретные промты.
Futuristic city, neon lights, bright colors / Футуристический город, неоновые огни, яркие цвета.
Glacier in the Arctic, three penguins are sitting around the fire / Ледник в Арктике, три пингвина сидят у огня.
A cute little owl with big eyes is sitting on the tree, summer, sunshine, good weather / милая маленькая совушка сидит на дереве, лето, солнечный свет, хорошая погода.
Anime robot is shooting a film on a professional camera /Робот из аниме снимает фильм на профессиональную камеру.
А теперь немного абстрактного:
True friendship / настоящая дружба.
И максимально детальный запрос.
A dog sitting on the chair in the kitchen is reading a newspaper, a tea pot and cookies are on the table, a TV is on the background, soft lamp light, evening,
moon in the window, hyperrealism / Собака сидит на стуле в кухне и читает газету, чайник и печенье на столе, телевизор на фоне, мягкий свет от лампы, вечер, луна в окне, гиперреализм.
И напоследок проверим стили.
A street in Paris, Van Gogh style / Улица в Париже в стиле Ван Гога.
Gym, isometric, pixel-art / тренажерный зал, изометрия, пиксель-арт.
Вот такие результаты работы ИИ. По качеству — судите сами.
Плюсы и минусы Bing Image Creator
У сервиса есть как неоспоримые плюсы, так и минусы. Сейчас про все расскажем.
Начнем, по традиции, с хорошего:
- работа на основе одной из самых мощных и качесвтенных моделей Dall-E;
- бесплатный доступ;
- быстрая регистрация — даже почту подтверждать не нужно;
- действительно удобный интерфейс;
- быстрая генерация, особенно, если у вас есть монетки для буста;
- неограниченное количество промтов;
- качественная итоговая картинка в разрешении 1024×1024;
- хорошо справляется с «природными» и «стилевыми» запросами.
Теперь о минусах:
- использование только с VPN;
- с итоговым вариантом ничего нельзя сделать: ни создать новые вариации на его основе, ни улучшить качество — получаете ровно то, что получаете с первого раза;
- проблемы с пальцами, расположением глаз и надписями — но этим грешат многие нейросети, не только бесплатные;
- слишком разборчивый защитный механизм, который может найти запрещённый контент даже в безобидных запросах;
- наличие водяного знака, который помещается в нижний левый угол картинки и необходим для демонстрации того, что она была сгенерирована искусственным путем:
- на сайте нет подсказок, как правильно писать промты, но они есть у нас.
Несмотря на то, что список минусов достаточно внушительный, они есть у подавляющего большинства нейросетей, генерирующих изображения по текстовым запросам. Так что Bing Image Creator совершенно точно достоин того, чтобы вы лично его опробовали.
Это достаточно мощный инструмент для создания изображений по текстовому описанию, который может представлять интерес для представителей творческих профессий, связанных с презентацией визуального контента: дизайнеров, художников, иллюстраторов и даже создателей видео. Доступность и простота освоения лишь добавляют ему очков.
Однако, не обошлось и без недостатков, главным из которых мы считаем непрозрачный алгоритм отбора промтов — некоторые из них не генерируются, несмотря на отсутствие каких-либо запрещенных тем. Тем не менее, зная отношение Microsoft к перспективным направлениям, можно предположить, что все будет хорошо, и сервис избавится от недостатков и обрастает дополнительными полезными функциями, например, редактором изображений. Но, конечно же, это произойдет не сразу.
FAQ
Ввиду того, что Microsoft приостановила свою деятельность на территории России, получить доступ к сервису можно только через VPN.
При переходе на сайт из России, вы увидите уведомление, что сервис в регионе не доступен, но ситуация изменится в ближайшем будущем.
Да, аналоги есть и достаточно много. Если отбирать по принципу бесплатности, то такие нейросети как Шедеврум, Stable Diffusion, Stable Doodle, Blue Willow, Playground AI и Lexica тоже вполне неплохо справляются со своими задачами.
Отличий между ними несколько. Во-первых, доступность — Bing бесплатная, а за Midjourney нужно платить. Во-вторых, интерфейс. У Bing отдельный сайт, у Midjourney — канал в Discord. В-третьих, Midjourney выглядит и ощущается как гораздо более мощный инструмент.