Обзор GPT Image 2: Я тестировал GPT Image 2 в течение 2 недель по 5 сценариям использования, и результаты меня шокировали.

Хотя маркетинговые демонстрации всегда выглядят идеально, реальные результаты зачастую оказываются совершенно иными.

GPT Image 2, новейшая модель обработки изображений от OpenAI, обещает практически идеальное отображение текста и фотореализм. Но сможет ли она действительно справиться с запутанными и сложными подсказками, которые мы используем каждый день? Оправдывает ли она эти обещания?

Чтобы это выяснить, я провел последние две недели, испытывая GPT Image 2 на пределе его возможностей. Вот мой честный, непредвзятый обзор GPT Image 2, протестированного в пяти различных сценариях.

Вкратце: Стоит ли использовать GPT Image 2 ?

GPT Image 2 безусловно стоит приобрести профессиональным создателям контента и маркетологам, которые ставят точность выше художественного хаоса.

Я считаю это огромным шагом вперед в плане отображения текста и реалистичной компоновки, но, безусловно, это жертвует частью художественного стиля, присущего более старым моделям.

Если ваша работа основана на качественных маркетинговых материалах или точных макетах пользовательского интерфейса, это просто невероятно; однако, если вы стремитесь к смелому, абстрактному искусству, результаты могут показаться вам слишком приземлёнными.

Особенность	Производительность GPT Image 2
Лучше всего в	Визуализация текста, макеты пользовательского интерфейса, фотореалистичные человеческие лица
Худший в	Высоко стилизованное абстрактное искусство, хаотичные фантастические сцены.
Скорость	Примерно 15 секунд на поколение (стандартный уровень)
Цены	Входит в состав ChatGPT Plus (20 долларов в месяц) или Pro (200 долларов в месяц)
Для кого это предназначено	Маркетологам, дизайнерам и создателям контента необходим точный контроль.

Для получения более подробной информации вы можете ознакомиться с полным обзором GPT Image 2 .

Как я тестировал изображение GPT 2

Я протестировал GPT Image 2 в пяти стандартизированных тестовых сценариях, каждый из которых содержал от 3 до 5 вариантов подсказок, от простых до намеренно враждебных.

Каждое изображение было сгенерировано заново — без отбора, без масштабирования, без постобработки. Я оценивал каждый тест по 10-балльной шкале, основываясь на соблюдении сроков, техническом качестве, согласованности результатов в разных запусках и практической полезности для реальной творческой работы. Позвольте мне показать вам, что именно я обнаружил.

Тест 1: Человеческие лица и микровыражения

Мне нужны были портретные снимки людей, демонстрирующих тонкие, специфические эмоции. Не просто «счастье» или «грусть». Я надеялся, что они смогут показать мне микровыражения, например, «40-летняя женщина, пытающаяся скрыть свою усталость во время рабочей встречи» или «подросток, притворяющийся уверенным, но явно нервничающий».

Чтобы проверить, может ли GPT Image 2 создавать правдоподобную текстуру кожи и передавать эмоциональные нюансы, я использовал эти три запроса, и вот результаты, которые я получил.

Быстрый	Вывод изображения
Крупный план портрета 40-летнего мужчины с едва заметными морщинками вокруг глаз, выглядящего слегка растерянным, но с улыбкой. Он стоит в полумраке кофейни. Естественная текстура кожи, видимые поры, кинематографическое освещение.
Крупный план смеющейся пожилой женщины, глубокие морщины вокруг глаз, солнечный свет, отражающийся от тонких волосков на ее лице. Высококачественная текстура кожи, без сглаживания.
Профессиональная молодая женщина в зале заседаний, выглядит решительной, но слегка уставшей, с едва заметными темными кругами под глазами и слегка наклоненной головой. Мягкое офисное освещение.

Результаты по всем трем запросам меня искренне поразили. Меня впечатлило, как GPT Image 2 точно передал тонкое веселье в глазах, сохранив при этом реалистичные недостатки кожи, такие как поры и тонкие волоски.

На мой взгляд, это совсем не было похоже на пластиковый манекен, и даже "усталый" вид, который я просила в третьем задании, выглядел скорее естественно, чем преувеличенно.

Я также обратил внимание на то, как естественно освещение обволакивало лица, а размытие фона создавало ощущение, будто оно взято прямо из объектива настоящей камеры.

Оценка: 9,5/10

Тест 2: Отображение текста

На этот раз я хотел проверить, сможет ли модель сгенерировать реалистичную вывеску магазина, не превращая буквы в инопланетные иероглифы. Поэтому я использовал подсказки, включающие символы, цифры и слова.

Быстрый	Вывод изображения
Неоновая вывеска в дождливом киберпанковском переулке, на которой ярко-розовыми буквами написано «Полуночный лапшичный бар», а ниже, на меньшей вывеске, — «Открыто круглосуточно».
Винтажное меню закусочной 1950-х годов, на котором классическим рукописным шрифтом указаны «Бургеры 5.00 долларов», «Коктейли 3.00 доллара» и «Картофель фри 2.00 доллара».
Современный, лаконичный книжный магазин с элегантной вывеской «The Paper Architect» на стеклянной витрине.

Исходя из приведенных выше результатов, я считаю, что GPT Image 2 действительно идеально справился с орфографией, как и рекомендовал OpenAI .

На самом деле, в каждом из проведенных мною тестов все отображалось правильно. Я наблюдал, как модель идеально воспроизводила «Полуночный лапшичный бар», конкретные цены в меню закусочной и элегантный «Бумажный архитектор» без единой опечатки.

Я также заметил, как точно неоновое свечение отражалось в лужах. И, на мой взгляд, шрифт с засечками на витрине книжного магазина выглядел профессионально разработанным.

Хотя я и заметил, что выбор шрифтов иногда кажется несколько строгим , я все же считаю, что игра заслуживает высокой оценки за отображение текста.

Оценка: 9/10

Тест 3: Бесшовное редактирование на уровне пикселей.

Как правило, именно точные модификации являются слабым местом большинства моделей. Поэтому я хотел проверить, сможет ли GPT Image 2 справиться с таким итеративным проектированием, не испортив при этом всю композицию.

Для проверки этого я выполнил четыре отдельных задания по редактированию, в которых модели требовалось изолировать и изменить определенные детали, сохраняя при этом остальную часть окружения неизменной.

Задание: Замените синюю шелковую подушку слева от дивана на бархатную подушку цвета жженого апельсина с геометрическим узором, сохранив при этом все остальные элементы, освещение и тени без изменений.
Ввод изображения	Вывод изображения

Задание: Поставьте небольшую дымящуюся чашку черного кофе на пустой деревянный приставной столик, убедившись, что пар выглядит естественно, а освещение соответствует лампе рядом.
Ввод изображения	Вывод изображения

Задание: Измените цвет глаз модели с карего на пронзительно-изумрудно-зеленый, сохранив при этом блики и отражения неизменными.
Ввод изображения	Вывод изображения

Задание: Замените современный стеклянный журнальный столик в центре комнаты на деревенский столик из темного дуба, сохранив при этом те же отражения на полу и окружающем ковре.
Ввод изображения	Вывод изображения

Меня поразила невероятная стабильность. И я бы сказал, что её способность выделять и изменять конкретные детали, сохраняя при этом освещение и окружающую обстановку, находится на световые годы впереди .

Как видите, GPT Image 2 без проблем заменил подушку, добавил кофейную чашку и даже полностью переставил стол, идеально подобрав тени и существующее освещение.

Изменение цвета глаз было особенно впечатляющим, потому что оно не выглядело как плоский слой; оно сохранило естественную глубину радужной оболочки.

Держу пари, если бы я не показал вам этот процесс, вы бы точно подумали, что я получил эти результаты в Photoshop.

Оценка: 9,5/10

Тест 4: Реализм, основанный на знаниях о реальном мире

Я также проверил, обладает ли модель глубоким «здравым смыслом», сопоставив её с конкретными, малоизвестными архитектурными и экологическими стилями.

Вместо того чтобы использовать стандартные визуальные эффекты, я заставил его отображать определенные текстуры и структурную логику, чтобы проверить, понимает ли он, как материалы стареют и взаимодействуют с окружающей средой.

Быстрый	Вывод изображения
Вид на традиционный бруталистский жилой комплекс в Лондоне в серый, пасмурный день. Бетонные элементы, маленькие окна и выветренные пятна на стенах.
Фотография вулканического ландшафта Исландии, сделанная с большой высоты, на которой видны черные базальтовые колонны, дымящиеся геотермальные источники и участки ярко-зеленого мха.
Интерьер французской аптеки XIX века: полки из темного дерева, стеклянные бутылки с этикетками, нанесенными вручную, и мраморная столешница с небольшими трещинами и следами износа.
Детальный снимок традиционной японской чаши Кинцуги, где заполненные золотом трещины слегка приподняты и отражают мягкий свет чайной комнаты.
Моторный отсек классического маслкара 1960-х годов, демонстрирующий специфическую компоновку двигателя V8 с потертыми хромированными деталями и проводкой, соответствующей тому периоду.

С помощью GPT Image 2 я получил не только изображения зданий или пейзажей, но и именно ту атмосферу, которую себе представлял.

Например, в первом результате следы выветривания на стенах выглядели в точности как реальные повреждения от дождя, которые я видел в Лондоне, что доказывает мне, что модель невероятно точно передает реальные знания о реальном мире.

Особенно примечательными были чаша, выполненная в технике кинцуги, и моторный отсек V8, поскольку для их создания требовались специальные технические знания. Модель правильно расположила заполненные золотом трещины в керамике и точно воспроизвела компоненты двигателя.

Меня совершенно поразило то, что программа понимает «физику» старения материалов в определённых климатических условиях — и всё это без необходимости прямого указания с моей стороны.

Оценка: 9/10

Тест 5: Экстремальное следование инструкциям.

Единственный способ по-настоящему проверить предел прочности GPT Image 2 заключался в том, чтобы подвергнуть его внушительным условиям, введя в «кошмарный» сценарий. Поэтому я предложил пять различных списков потенциально противоречащих друг другу требований.

Поскольку именно следование инструкциям в крайне строгом режиме обычно приводит к ошибкам большинства моделей ИИ, я задал точное размещение, локализованное освещение и сверхспецифичные текстуры для нескольких объектов, чтобы посмотреть, какие детали будут отброшены.

Быстрый	Вывод изображения
Деревянный стол, слева красное яблоко, в центре наполовину наполненный стакан молока, справа открытая книга. Единственный луч света падает только на яблоко. Фон абсолютно черный. Страницы книги пожелтели, а на поверхности молока образовался маленький пузырек.
Футуристическая городская площадь, где в левой половине изображения идет дождь, а в правой — светит солнце. Мужчина в желтом дождевике стоит под дождем, а женщина в красном платье — на солнце. Тень мужчины должна падать к центру.
На столе лежат ноутбук, кофейная кружка и суккулент. На экране ноутбука отображается редактор кода с зеленым текстом. Кофейная кружка синяя с белой ручкой. Суккулент находится в терракотовом горшке. Кружка должна быть расположена ровно в 5 см справа от суккулента.
Кухонный стол с тремя банками: одна наполнена синими шариками, одна — красным песком, а одна пустая. Банка с синими шариками должна находиться посередине. За банками сидит кошка, но над крышками видны только её уши.
Рабочее место, где человек рисует кошку на планшете, а рядом с ним сидит настоящая кошка, смотрящая на планшет. На экране планшета должен отображаться процесс рисования, а на большом пальце левой руки у человека должно быть зеленое кольцо.

На мой взгляд, результаты по способности GPT Image 2 следовать инструкциям были очевидны.

Она с поразительной точностью запечатлела практически каждую деталь по всем пяти параметрам, от крошечного пузырька на поверхности молока и локального освещения на яблоке до очень специфических «кошачьих ушей».

Даже "зеленое кольцо на большом пальце левой руки" в задании E было отрисовано идеально, что является деталью, которую большинство моделей просто проигнорировали бы.

Исключительный уровень соответствия заданию, пожалуй, является самым большим преимуществом этой модели, и я считаю, что именно это делает GPT Image 2 незаменимым инструментом для пользователей, которые хотят, чтобы их точное видение было воплощено в пикселях без каких-либо компромиссов .

Оценка: 10/10

Что говорят реальные пользователи

Отзывы сильно разделились. Профессионалы высоко ценят точность, а обычные пользователи скучают по художественному хаосу старых моделей.

Судя по сообщениям на Reddit и Twitter, настроения пользователей очевидны. На r/ OpenAI хвалят способность модели выполнять сложные инструкции. Один из пользователей отметил: «Она наконец-то точно понимает, куда я хочу поместить объекты в кадре».

Но другие считают, что программа утратила свою душу. Распространенная жалоба заключается в том, что GPT Image 2 настолько сильно отдает приоритет реализму, что ей трудно создавать по-настоящему вдохновляющие или абстрактные произведения искусства.

Моё личное мнение

Я думаю, что эффективность GPT Image 2 как лучшего генератора изображений на рынке, основанного на искусственном интеллекте, во многом зависит от того, что именно вы пытаетесь сделать.

На мой взгляд, он гениален в коммерческой работе , но всё ещё не способен на необузданное, хаотичное творчество.

Если мне нужен макет товара, реалистичный портрет или изображение с текстом, я всегда использую GPT Image 2. Это экономит мне часы работы в Photoshop.

Но если я хочу создать дикий, абстрактный фантастический пейзаж, мне не хватает непредсказуемости старых моделей.

Вы можете сравнить GPT Image 2 и Nano Banana 2, чтобы лучше понять практическое применение GPT Image 2.

В целом, это идеальный инструмент для профессионалов, но художникам он может показаться скучным .

Как получить доступ к изображению 2 из GPT прямо сейчас

Вы можете использовать GPT Image 2 через официальный доступ или Pollo AI.

В настоящее время OpenAI проводит A/B-тестирование модели в рамках ChatGPT Plus, а это значит, что сегодня она доступна, а завтра может быть утеряна. Упомянутый уровень ChatGPT Pro обещает полный доступ, но для большинства пользователей это слишком высокая цена.

Если вам нужен гарантированный и простой доступ без необходимости проводить A/B-тестирование, Pollo AI предложит удобный способ использования GPT Image 2 и других моделей высшего уровня.

Это комплексная платформа для генерации моделей, объединяющая самые мощные в отрасли модели искусственного интеллекта в едином, оптимизированном рабочем пространстве.

Благодаря тому, что GPT Image 2 уже доступен в Pollo AI, вы можете интегрировать его расширенные возможности в свой творческий рабочий процесс уже сегодня.

Платформа также предоставляет возможность переключаться между другими топовыми моделями, такими как Nano Banana 2 и Seedream 5.0 . Это означает, что у вас всегда будут под рукой лучшие инструменты, независимо от требований проекта.

Помимо того, что платформа служит центром для создания моделей, она также включает в себя Pollo Agent , предназначенный для преобразования ваших сырых идей в контент, готовый к публикации .

Благодаря интеграции GPT Image 2 в Pollo Agent у вас появятся еще более совершенные способы создания изображений.

Самое приятное, что вы можете получить бесплатный доступ к GPT Image 2 на Pollo AI. Таким образом, вы можете протестировать весь потенциал GPT Image 2 без каких-либо первоначальных затрат.

Вместо того чтобы оставаться в стороне, вы можете освоить лучшие современные модели уже сейчас и оказаться в идеальном положении, когда выйдет вторая версия GPT Image 2.

Окончательный вердикт

GPT Image 2 — это огромный шаг вперед в использовании ИИ. Он исправляет самые проблемные моменты в генерации изображений с помощью ИИ — орфографические ошибки и игнорирование деталей подсказок.

Хотя это, возможно, и не самая "интересная" модель для экспериментов, она, бесспорно, наиболее полезна для реальных задач .

Если вы маркетолог, дизайнер или создатель контента, то это именно то обновление, которого вы так долго ждали.

Часто задаваемые вопросы

В чём разница между GPT Image 2 и DALL-E 3 ?

GPT Image 2 в значительной степени ориентирован на фотореализм, точное отображение текста и неукоснительное соблюдение инструкций, что делает его более подходящим для коммерческого использования. DALL-E 3 обычно считается более «креативным» и лучше подходит для стилизованного или абстрактного искусства.

Может ли GPT Image 2 правильно писать слова?

Да, он обладает практически идеальными возможностями рендеринга текста, что позволяет ему создавать читаемые вывески, документы и элементы пользовательского интерфейса с минимальным количеством ошибок.

Можно ли бесплатно использовать GPT Image 2?

Нет, в настоящее время он тестируется в платных версиях, таких как ChatGPT Plus и упомянутый ChatGPT Pro. Но вы можете использовать GPT Image 2 через Pollo AI , чтобы получить бесплатную пробную версию.

Можно ли использовать GPT Image 2 для коммерческой разработки API?

В настоящее время модель в основном доступна для ручного тестирования через ChatGPT и такие платформы, как Pollo AI. Хотя ожидается полноценный релиз API, большинство разработчиков в настоящее время используют его для создания прототипов высококачественных объектов до того, как станет широко доступна официальная интеграция на корпоративном уровне.

Поддерживает ли GPT Image 2 различные соотношения сторон?

Да, она гораздо гибче, чем предыдущие модели. В ходе тестирования я обнаружил, что она может обрабатывать всё — от стандартных квадратов 1:1 до кинематографических форматов 16:9 и вертикальных 9:16 — без растягивания или искажения объектов, что является огромным преимуществом для создателей контента в социальных сетях.

Улучшается ли согласованность тематики в проектах, состоящих из нескольких кадров?

Важно отметить, что GPT Image 2 значительно лучше сохраняет черты персонажа или дизайн продукта при работе с различными вариантами. Я заметил, что если я подробно описал персонажа один раз, модель могла воспроизвести его в разных позах с точностью примерно 80-90%.