GPT Image 2 評測：我測試了 GPT Image 2 兩週，涵蓋了五種使用情境，結果讓我感到震驚。

行銷宣傳影片中的示範總是看起來完美無缺，但實際應用時的結果卻常常是完全不同的故事。

GPT Image 2，OpenAI最新的圖像模型，承諾能提供近乎完美的文字渲染和寫實照片效果。但它真的能處理我們每天實際使用的那些複雜、難懂的提示嗎？它真的能兌現承諾嗎？

為了找出答案，我過去兩週把GPT Image 2逼到極限。以下是我對GPT Image 2的真實、不加修飾的評論，並針對五種不同情境進行測試。

總之， GPT Image 2值得買嗎？

GPT Image 2 對於那些重視精準度、不喜歡藝術風格混亂的專業創作者和行銷人員來說，絕對是物超所值。

我覺得這對文字渲染和真實的版面配置來說是個巨大的進步，但它確實犧牲了舊模型中一些藝術性的風格。

如果你的工作需要乾淨的行銷素材或是精確的UI模型，那這項工具會非常棒；但如果你正在尋找狂野、抽象的藝術，你可能會覺得結果有點太過寫實了。

特色	GPT圖片2的表現
最擅長	文字渲染、使用者介面模型、擬真的人臉
最不擅長	高度風格化的抽象藝術，充滿奇幻色彩的混亂場景
速度	每代大約15秒（標準方案）
價格	包含在「ChatGPT 4 Plus」（每月20美元）或「GPT-4 Pro」（每月200美元）方案中
適用對象	行銷人員、設計師和內容創作者需要精準的控制權

您可以閱讀GPT Image 2 的完整介紹，以獲取更詳細的資訊。

我怎麼測試 GPT Image 2

我讓GPT Image 2執行了5個標準化測試情境，每個情境都有3到5種提示詞變化，從簡單到刻意對抗性的都有。

每一張圖片都是全新生成的——沒有精挑細選，沒有放大畫質，也沒有後製處理。我根據提示詞的符合度、技術品質、每次生成的一致性，以及對實際創意工作的實用性，對每個測試結果從10分中打分。讓我來詳細告訴你我的發現。

測試一：人臉與微表情

我需要人物肖像照，而且要能展現細微、特定的情緒，不只是「開心」或「難過」那種。我希望它能呈現出微表情，像是「一個四十歲的女人在工作會議中試圖掩飾她的疲憊」或是「一個青少年假裝自信但明顯很緊張」。

為了知道GPT Image 2能不能生成逼真的皮膚紋理和細膩的情感表達，我用了這三個提示詞，以下是我的結果。

提示	圖片輸出
一張特寫的肖像照，主角是一位四十歲的男性，眼角有淡淡的魚尾紋，看起來有點困惑但又覺得好笑。他正站在一間燈光昏暗的咖啡店裡。皮膚紋理自然，毛孔清晰可見，電影般的打光。
特寫一位年長女性的臉部，她正在開懷大笑，眼周佈滿深深的皺紋，陽光灑落在她臉上的細毛。高解析度的皮膚紋理，沒有經過任何修飾。
一位年輕的專業女性，身處會議室，表情堅定但略顯疲憊，眼下有淡淡的黑眼圈，頭微微傾斜。柔和的辦公室燈光。

這三個提示詞的結果都讓我驚訝不已。我對GPT Image 2能夠捕捉到眼神中細微的趣味，同時又保留了皮膚上真實的瑕疵，像是毛孔和細毛，這點印象深刻。

在我看來，它完全不像塑膠模特兒，甚至我第三個提示中要求的「疲憊」表情，也顯得真實而非誇張。

我也注意到光線很自然地打在臉上，背景的模糊感讓我覺得就像是從真正的相機鏡頭拍出來的一樣。

分數：9.5/10

測試二：文字渲染

這次，我想要看看這個模型能不能生成一個寫實的店面招牌，而且不會把字體變成外星象形文字。所以我用了包含符號、數字和文字的提示詞。

提示	圖片輸出
在一個下著雨的賽博龐克風格小巷裡，有一個霓虹燈招牌，上面用亮粉色的字體清楚地寫著「午夜麵攤」，下面還有一個小一點的招牌寫著「24小時營業」。
一張復古的1950年代餐館菜單板，上面用經典的字體寫著「漢堡 $5.00」、「奶昔 $3.00」和「薯條 $2.00」。
一間乾淨、現代的書店店面，玻璃窗上用優雅的襯線字體寫著「紙建築師」的店名。

根據上述結果，我認為GPT Image 2確實像OpenAI宣稱的一樣，完美地處理了拼寫問題。

它在我跑的每一個測試中，都把所有東西拼寫正確。我看到這個模型完美地呈現了「午夜麵攤」的字樣，還有餐廳菜單上的確切價格，以及優雅的「紙上建築師」字樣，沒有任何一個錯字。

我也注意到霓虹燈的光芒在水窪中精準地反射出來。而且，我個人覺得書店櫥窗上的襯線字體看起來是專業設計的。

雖然我發現字體選擇有時候會有點死板，但我還是覺得它在文字渲染方面值得高分。

分數：9/10

測試三：無縫像素級編輯

精確的修改通常是大多數模型會失敗的地方。所以我想要看看 GPT Image 2 是否能夠處理這種迭代設計，而不會破壞整個構圖。

為了測試這個功能，我執行了四個不同的編輯任務，這些任務要求模型在保持其他環境不變的情況下，隔離並修改特定的細節。

提示：將沙發左邊的藍色絲質枕頭換成一個橘棕色的天鵝絨幾何圖案枕頭，其他所有元素、燈光和陰影都保持不變。
圖片輸入	圖片輸出

提示：在空的木製邊桌上放一杯冒著熱氣的黑咖啡，確保蒸氣看起來自然，燈光與旁邊的燈具相符。
圖片輸入	圖片輸出

提示：將模特兒的眼睛顏色從棕色改成銳利的祖母綠，但要保持眼神光和反光完全相同。
圖片輸入	圖片輸出

提示：將房間中央的現代玻璃咖啡桌換成鄉村風格的深色橡木桌，並保持地板和周圍地毯上的相同反光。
圖片輸入	圖片輸出

我對它的穩定性感到驚訝。而且我會說，它在保持光線和環境完整的情況下，能夠隔離和修改特定細節的能力，是遙遙領先的。

你們看，GPT Image 2把枕頭換了，加了咖啡杯，甚至把整個桌子都無縫地換掉，完美地搭配了陰影和現有的光線。

眼睛顏色的變化特別令人印象深刻，因為它看起來不像是一個平面的圖層；它保留了虹膜的自然深度。

我敢打賭，如果我沒有把製作過程給你看，你一定會以為這些圖檔是用 Photoshop 做出來的。

分數：9.5/10

測試四：艱澀的普世知識寫實

我也測試了這個模型是否具備深層的「常識」，我用了一些比較不那麼有名、比較特別的建築和環境風格來考驗它。

我沒有讓它預設使用一般視覺效果，而是讓它渲染特定的紋理和結構邏輯，看看它是否理解材料如何隨著時間推移而老化，以及如何與周圍環境互動。

提示	圖片輸出
倫敦一棟傳統的粗野主義風格公寓大樓，在一個陰沉的灰色天色下，從街頭望過去的樣子。可以看到混凝土的紋理、小小的窗戶，還有牆壁上風化的痕跡。
這張高空俯瞰的冰島火山地貌照片，呈現了黑色的玄武岩柱、冒著蒸氣的地熱噴口，以及點綴其間的霓虹綠苔。
一間十九世紀法國藥房的內部，有深色木製層架、手寫標籤的玻璃瓶，以及略有裂痕和磨損的大理石檯面。
這是一張特寫照片，拍攝的是一個傳統的日式金繕碗。碗上用金粉修補的裂縫微微隆起，捕捉到茶室柔和的光線。
這是一輛1960年代經典美式肌肉車的引擎室，展示了V8引擎的特殊佈局，以及風化過的鍍鉻零件和符合時代的線路。

我從GPT Image 2不只得到了建築物或場景的圖片，也得到了我所設想的氛圍。

舉例來說，在第一個結果中，牆壁上的風化圖案看起來就跟我以前在倫敦看過的真實雨水侵蝕痕跡一模一樣，這證明了這個模型對真實世界的物理現象有著驚人的掌握。

金繕碗和V8引擎艙的細節特別引人注目，因為它們需要特定的技術知識。這個模型準確地呈現了陶瓷器中用金粉修補的裂縫，並精確地佈置了引擎的各個組件。

我完全被它驚呆了，它竟然能理解材料在特定氣候下老化的「物理學」原理，而且我完全不需要在提示中明確地引導它。

分數：9/10

測試五：極端指令遵循

把GPT Image 2丟進「惡夢提示詞」情境，是唯一能真正測試它極限的方法。所以我給了它五份截然不同、甚至可能互相衝突的長長清單。

因為大多數AI模型在極端指令遵循方面通常會迷失方向，所以我為多個物件指定了精確的位置、局部光照和超特定的紋理，以觀察哪些細節會被省略。

提示	圖片輸出
一張木桌，左邊放著一顆紅蘋果，中間放著一杯半滿的牛奶，右邊放著一本打開的書。一道光束只照在蘋果上。背景是漆黑一片。書的頁面泛黃，牛奶表面有一個小氣泡。
一個未來感十足的城市廣場，圖片左半邊下著雨，右半邊卻陽光普照。一個穿著黃色雨衣的男人站在雨中，一個穿著紅色洋裝的女人站在陽光下。那個男人的影子應該要朝中間方向投射。
一張書桌，上面放著一台筆記型電腦、一個咖啡杯和一盆多肉植物。筆記型電腦的螢幕上顯示著一個程式碼編輯器，裡面有綠色的文字。咖啡杯是藍色的，配有白色把手。多肉植物種在陶土盆裡。咖啡杯必須精確地放在多肉植物的右邊兩英吋處。
廚房檯面上放著三個罐子：一個裝著藍色彈珠，一個裝著紅色沙子，另一個是空的。裝藍色彈珠的罐子必須放在中間。一隻貓坐在罐子後面，但只有牠的耳朵從罐子蓋子上方露出來。
一個工作空間，一個人正在平板電腦上畫貓，旁邊有一隻真的貓看著平板電腦。平板電腦的螢幕必須顯示正在畫的圖，而且那個人左手大拇指上要戴著一個綠色的戒指。

我覺得，GPT Image 2在理解指令這方面，表現如何，結果是顯而易見的。

它幾乎捕捉到了所有細節，而且精準度驚人，從牛奶表面上的小氣泡、蘋果上的局部光線，到非常具體的「貓耳朵」，所有五個提示都做到了。

就連提示E中的「左手拇指上的綠色戒指」都完美呈現，這是一個大多數模型都會忽略的細節。

這個模型對提示詞的遵循程度可以說是無與倫比，我認為這讓GPT Image 2成為那些希望他們的精確構想能夠毫無妥協地轉化為像素的用戶不可或缺的工具。

分數：10/10

真實使用者怎麼說

大家對這個功能評價兩極。專業人士很喜歡它的精準度，但一般使用者卻懷念舊款型號那種隨性、不羈的風格。

瀏覽Reddit和Twitter，大家對這個模型的看法很一致。r/ OpenAI的用戶都在稱讚它能理解複雜的指令。有位用戶提到：「它終於完全理解我希望物件在畫面中擺放的位置了。」

但也有人覺得它已經失去靈魂了。一個常見的抱怨是， GPT Image 2 太過強調寫實，以至於很難創作出真正能啟發人心或抽象的藝術作品。

我個人看法

我覺得GPT Image 2是不是市面上最好的AI圖像生成器，這很大程度上取決於你想用它來做什麼。

我覺得，它在商業設計方面是個天才，但它還是沒辦法做出原始、混亂的創意。

如果我需要產品模型圖、寫實人像，或是帶有文字的圖片，我都會選擇使用 GPT Image 2。它幫我省下了好幾個小時的 Photoshop 工作時間。

但是如果我想要生成一個狂野、抽象的奇幻風景，我會發現我會懷念舊版模型那種不可預測的特性。

你可以參考GPT Image 2 和Nano Banana 2的比較，這樣會更了解 GPT Image 2 的實際應用。

總之，這對專業人士來說是個終極工具，但可能會讓藝術家們覺得無聊。

現在要怎麼用GPT Image 2？

你可以透過官方管道或是Pollo AI來使用 GPT Image 2。

OpenAI目前正在對模型進行A/B測試，這表示你可能今天有這個功能，明天就沒有了。雖然說，ChatGPTChatGPT「進階版」的帳號可以完全使用這個功能，但對大多數使用者來說，這個價格實在是太貴了。

如果你想要保證、輕鬆地使用，又不想玩A/B測試， Pollo AI會提供一個無縫的方式來使用GPT Image 2和其他頂級模型。

這是一個整合式的生成平台，將業界最強大的AI模型整合到一個簡潔的工作空間中。

GPT Image 2 已經在Pollo AI上線了，您今天就可以將它先進的功能整合到您的創意工作流程中。

這個平台也讓您能靈活地在其他頂級模型之間切換，像是Nano Banana 2和Seedream 5.0 。這表示不論專案需求為何，您都能隨時掌握最好的工具。

除了作為一個示範平台，這個平台還搭載了Pollo Agent ，它能將您原始的想法轉化為可發表的內容。

您將會擁有更先進的創作方式，因為GPT Image 2也會整合到Pollo Agent裡面。

最棒的是，你可以在Pollo AI上免費使用 GPT Image 2。這樣你就可以在沒有任何前期成本的情況下，充分測試 GPT Image 2 的全部潛力。

與其袖手旁觀，不如現在就掌握當前最先進的模型，這樣當第二代GPT圖像生成模型推出時，你就能搶佔先機。

最終裁決

GPT Image 2 在人工智慧應用方面是個巨大的進步。它解決了人工智慧圖像生成中最令人沮喪的部分——拼寫錯誤和忽略提示細節的問題。

雖然這款模型可能不是最「好玩」的，但它無疑是現實世界應用中最實用的。

如果你是行銷人員、設計師或是內容創作者，這就是你一直期待的升級。

常見問題

GPT Image 2 和DALL-E 3有什麼差別？

GPT Image 2 主要著重於寫實攝影、精準的文字渲染和嚴格遵守提示，因此更適合商業用途。DALL DALL-E 3通常被認為更具「創意」，更擅長風格化或抽象藝術。

GPT Image 2可以正確拼寫單字嗎？

對，它有近乎完美的文字渲染能力，可以生成可讀的標誌、文件和使用者介面元素，而且錯誤極少。

GPT Image 2 是免費的嗎？

不，它目前正在付費方案中測試，像是ChatGPT Plus 和前面提到的ChatGPT Pro。但你可以透過Pollo AI使用 GPT Image 2，來獲得免費試用。

請問我可以使用 GPT Image 2 來開發商業用途的 API 嗎？

目前，這個模型主要透過像是ChatGPT和Pollo AI這樣的平台來進行手動測試。雖然預計會推出完整的 API，但大多數開發者目前都用它來製作高保真度的原型，直到官方企業級整合功能廣泛可用為止。

GPT Image 2 有支援多種長寬比嗎？

對啊，它比之前的型號靈活多了。我在測試的時候發現，它從標準的1:1正方形到電影感的16:9，還有直向的9:16格式，都能處理得很好，而且不會拉伸或扭曲畫面，這對社群媒體的創作者來說，真的是一大福音。

多張照片拍攝的專案，主體一致性會比較好嗎？

值得注意的是，GPT Image 2 在不同提示下，能更有效地保持角色特徵或產品設計。我發現，如果我詳細描述一個角色一次，模型就能以不同的姿勢重現該角色，且一致性約有八到九成。