Искусственный интеллект часто сталкивался лицом к лицу с людьми в творческих состязаниях. Он может обыгрывать гроссмейстеров в шахматы, создавать симфонии, составлять проникновенные стихи, а теперь еще и создавать детализированное искусство из короткой словесной подсказки. Команда OpenAI недавно разработала мощное программное обеспечение, способное создавать широкий спектр изображений из заданных слов за считанные секунды. Эта программа известна как Dall-E 2. Она была создана, чтобы революционизировать то, как мы используем искусственный интеллект (ИИ) с изображениями. Представители журнала Science Focus поговорили с одним из ведущих инженеров Dall-E 2 Адитьей Рамешем, чтобы лучше понять работу ИИ, его ограничения и будущее, которое он может иметь. Что делает Dall-E 2? Еще в 2021 году компания OpenAI, занимающаяся исследованиями в области ИИ, создала программу, известную как Dall-E (для названия использовали фамилию великого художника Сальвадор Дали и аббревиатуру персонажа Wall-E). Это программное обеспечение смогло принять сформулированную подсказку и создать совершенно уникальное изображение, сгенерированное искусственным интеллектом. Например, «лиса на дереве» выдаст изображение лисы, сидящей на дереве, или запрос «астронавт с бубликом в руке» покажет астронавта с бубликом в руке. Вероятно, вы поняли принцип. Безусловно, это впечатляло, но изображения часто были размытыми, не совсем точными, и для их создания требовалось время. Теперь OpenAI значительно улучшила программное обеспечение, создав Dall-E 2 — новую мощную итерацию, работающую на более высоком уровне. Наряду с несколькими другими новыми функциями, ключевым отличием второй модели от первой является значительное улучшение разрешения изображения, меньшие временные задержки для создания и более интеллектуальный алгоритм формирования изображений. Программа не просто генерирует изображение в едином стиле: вы можете добавлять различные художественные приемы и стили по желанию (масляная живопись, пластилиновая модель, предмет из шерсти, рисунок на стене пещеры или даже постер фильма 1960-х годов). «Dall-E — очень полезный помощник, который усиливает то, что человек обычно может делать. Но на самом деле все это зависит от творчества человека, который использует ИИ. Художник или творческая личность способны создать действительно интересные вещи», — пояснил Адитья Рамеш. Мастер на все руки Помимо способности технологии генерировать изображения только по словесным подсказкам, Dall-E 2 имеет два других умных инструмента — inpainting (восстановление недостающих частей) и вариации. С помощью метода восстановления вы можете взять существующее изображение и отредактировать или изменить его части. Если у вас есть образ гостиной, вполне возможно добавить новый ковер, посадить собаку на диван, изменить картину на стене или даже разместить слона в комнате. Для сервиса вариаций требуется какое-либо уже существующее изображение. Загрузите фотографию, иллюстрацию или любую картинку, и инструмент вариаций Dall-E начнет генерировать сотни собственных версий. Вы можете выбрать изображение телепузика, а искусственный интеллект будет копировать его, создавая похожие версии. Даже если вы загрузите сделанную вами фотографию граффити, ИИ обработает ее и выдаст свои вариации. Также возможно использовать этот инструмент, чтобы объединить два изображения в одну причудливую смесь. Ограничения Dall-E 2 Нет никаких сомнений в том, что эта технология очень впечатляет. Однако у нее есть свои ограничения. Одна из проблем, с которой можно столкнуться, — путаница в определенных словах или фразах. Например, если ввести в строку «черная дыра внутри коробки», Dall-E 2 выдает изображение обычной дыры внутри коробки вместо космического тела. Такое часто происходит, когда слово имеет несколько значений, а фразы могут быть неправильно поняты, если используются разговорные выражения. Этого и следовало ожидать от искусственного интеллекта, понимающего буквальное значение слов. «Еще кое-что, к чему нужно привыкнуть в системе, — это то, как работают подсказки и художественные стили. Когда вы что-то вводите, исходное изображение может быть неправильным. Несмотря на то, что оно технически соответствует вашему запросу, оно не полностью соответствует ощущениям или идеям, которые были в голове. Потребуется некоторое время, чтобы привыкнуть и внести небольшие коррективы», — прокомментировал Рамеш. Еще одна область, в которой Dall-E способен запутаться, — это «переменное смешивание». Если попросить ИИ нарисовать красный куб поверх синего куба, иногда он путается и делает наоборот. Но инженер сказал, что это довольно легко исправить в будущих итерациях системы. Борьба со стереотипами и человеческими вводными данными Как и со всеми хорошими вещами в интернете, вскоре возникает один ключевой вопрос — как эта технология может использоваться неэтично? Не говоря уже о дополнительной проблеме, связанной с тем, что искусственный интеллект научился грубому поведению у людей в сети. Когда дело доходит до технологии создания изображений ИИ, кажется очевидным, что этим можно манипулировать разными способами: в качестве очевидных вещей на ум приходят пропаганда, фейковые новости и обходные пути. Чтобы предотвратить это, команда OpenAI, отвечающая за Dall-E, внедрила политику безопасности для всех изображений на платформе, которая работает в три этапа. На первом этапе отфильтровываются данные, содержащие серьезные нарушения: насилие, сексуальный контент и изображения, которые команда сочла бы неуместными. Второй этап — это фильтр, ищущий более скрытый смысл, который трудно обнаружить (политический подтекст или пропаганда в той или иной форме). И на третьем этапе каждое изображение, созданное Dall-E, проверяется человеком, но это нежизнеспособный этап в долгосрочной перспективе по мере роста продукта. Несмотря на использование такого подхода, команда четко осведомлена о предстоящем выпуске. Уже составлены риски и ограничения Dall-E и подробно описаны всевозможные проблемы, с которыми есть вероятность столкнуться. Например, изображения часто могут демонстрировать социальные стереотипы, связанные с использование термина «свадьба». А если ввести «адвокат», то ИИ выдаст картинки, на большинстве которых будут представлены белые пожилые мужчины; по запросу «медсестры» генерируются изображения белых женщин. Это вовсе не новые проблемы, и Google занимается ими уже много лет. У команды наряду с политикой безопасности есть четкие правила в отношении контента, которые должны соблюдать пользователи. Будущее Dall-E Итак, технология есть и явно работает хорошо, но что собирается делать дальше команда Dall-E 2? В настоящее время программное обеспечение медленно продвигается через список ожидания, и пока нет четких планов по его представлению широкой публике. Не спеша выпуская свой продукт, группа OpenAI может следить за его ростом, разрабатывая свои процедуры безопасности и готовя свое детище для миллионов людей, которые вскоре будут вводить свои слова в строке запроса Dall-E. Адитья Рамеш и вся команда хотят передать свое исследование в руки людей, но пока им просто интересно получать отзывы о том, как используется платформа. Разработчики определенно заинтересованы в более широком развертывании этой технологии, но в настоящее время у них нет планов по коммерциализации. По материалам статьи «Dall-E 2: Why the AI image generator is a revolutionary invention» Science Focus