ChatGPT Images 2.0 登場｜OpenAI 下一代圖像生成模型的五大升級、Thinking Mode 與設計師應用

從 duct tape 代號外洩到正式封箱出貨 ― Thinking Mode、99% 文字渲染、批次輸出 10 張，以及為什麼 5/12 前你該完成遷移

設計師 Riven

2026年4月21日下午 2:53

AI 設計

ChatGPT Images 2.0｜OpenAI 下一代圖像模型｜它能做什麼？

CONTENTS ・目錄

ChatGPT Images 2.0 登場｜OpenAI 下一代圖像生成模型的五大升級、Thinking Mode 與設計師應用

01 ― ChatGPT Images 2.0 是什麼

02 ― Duct Tape 代號：從秘密外洩到正式登場

03 ― 五大關鍵升級

04 ― vs Nano Banana Pro：三足鼎立的新格局

05 ― 怎麼開始用？Instant、Thinking 與 API 定價

06 ― 設計師該怎麼用

07 ― 兩個值得收藏的社群範例庫

08 ― 重點整理

2025 年 12 月，OpenAI 把 ChatGPT Images 升級到 GPT Image 1.5。當時大家以為那就是年度圖像模型大戲。

結果 4 個月後，三個帶著膠帶主題代號的匿名模型突然出現在 LM Arena ― maskingtape、gaffertape、packingtape ― 幾個小時內生成的範例讓整個 AI 圈安靜了一下，然後被 OpenAI 迅速撤下。

兩週後的 2026 年 4 月 21 日，ChatGPT Images 2.0（API 模型 ID：gpt-image-2）正式發布。代號確認為 duct tape（萬用膠帶）系列 ― OpenAI 的內部玩笑成真：這個產品真的準備好「封箱出貨」了。

它帶來的不只是畫質提升 ― 文字渲染趨近完美、中日韓字形第一次被認真處理，還新增了會先推理再畫的 Thinking Mode，能跨多張圖維持角色一致性，對分鏡、漫畫、品牌素材來說是劃時代的新能力。

這篇會拆解：它到底是什麼、五個關鍵升級、Thinking Mode 的實際意義、跟 Google Nano Banana Pro 的競爭格局，以及作為設計師你該怎麼用。

EDITOR'S NOTE ・一句話的實測筆記

不小心按到送出，它把整組 IG 輪播做好了

▲ 唯一的 prompt 只有一句「介紹一下 ChatGPT image-2」― 結果是這組 IG 輪播素材。

原本只是想試打一句「介紹一下 ChatGPT image-2」，不小心按到送出 ― 結果整組 IG 輪播貼文直接生出來了。我還沒給資料、沒描述風格、沒來得及說規格樣式。

以專業設計師的標準看，頂多 60 分。但重點不在 60 分，而是這是一句話就蹦出來的結果。認真下去寫需求、微調 prompt，能做到什麼程度難以想像。

想親自試的話，直接去 ChatGPT 圖像生成打幾個 prompt ― ChatGPT Images 2.0 已經全面開放，免費用戶也能用 Instant Mode，付費用戶還能用 Thinking Mode 做跨多張圖的連載內容。

▲ 完整輪播貼文｜Instagram @designer.riven

本文內所有樣本圖（含封面）皆由作者以 ChatGPT 圖像生成功能親自產出 ― 實測時間橫跨 2026 年 4 月 OpenAI 灰度測試與 4/21 正式發布後的版本。本篇所有視覺觀察均基於作者實機操作結果。

CHAPTER 01 ・ WHAT IS IT

ChatGPT Images 2.0 是什麼

ChatGPT Images 2.0 是 OpenAI 圖像生成模型家族的下一代，繼承自 2025 年 3 月的 GPT Image 1（俗稱「GPT-4o 圖像生成」）和 2025 年 12 月的 GPT Image 1.5。API 模型識別字為 gpt-image-2 ― 跟先前 gpt-image-1.5 的命名邏輯一致。

與前代最大的差異是兩層：架構和介面。架構上它是完全獨立的新模型，不是 GPT-4o 的延伸；延續 GPT Image 家族的自迴歸（autoregressive）生成方式，把圖像一個 token 一個 token 地寫出來，就像寫文字一樣 ― 這是它能理解「這張圖裡有文字」並把文字寫對的底層原因。

介面上則新增了兩種模式：Instant Mode（快速生成，預設模式，就是當初在 LM Arena 被拍到的 duct tape 版本）和 Thinking Mode（先推理、再生成，會花更多時間但能跨多張圖維持角色一致性）。這是第一次有主流圖像模型把「reasoning」做進來。

SPEC ・規格對照

項目

GPT Image 1.5

ChatGPT Images 2.0

發布時間

2025/12/16

2026/04/21

最大解析度

1536 × 1024

2K（2000 px wide）

文字準確率

約 90~95%

接近 99%（含 CJK）

批次輸出

單張

單次最多 10 張

推理模式

無

Instant + Thinking

這些數字是 OpenAI 4/21 發布頁公布的官方規格。特別注意解析度 2K（2000 px wide）― 比先前社群推測的 4K 小，但搭配新的 token 化 API 定價與批次輸出（單次最多 10 張），對電商 SKU 批量、廣告素材矩陣這種場景反而更划算。

ChatGPT Images 2.0 適用情境：社群貼文、知識輪播、產品 Mockup、廣告 Banner、海報、修圖

▲ ChatGPT Images 2.0 最常被拿來做的六種任務

CHAPTER 02 ・ THE LEAK

Duct Tape 代號：從秘密外洩到正式登場

2026 年 4 月 4 日，三個匿名圖像模型同時出現在 LM Arena 的圖像生成分類。代號主題一致，全是膠帶：

VARIANT 01

maskingtape

遮蔽膠帶

VARIANT 02

gaffertape

布紋膠帶

VARIANT 03

packingtape

封箱膠帶

幾個小時內，全部下架。

這套劇本不陌生。2025 年 12 月，OpenAI 在同一個平台上以 Chestnut（栗子）和 Hazelnut（榛果）兩個代號匿名測試了新圖像模型 ― 幾週後正式發布的就是 GPT Image 1.5。這是 OpenAI 的標準 canary release（金絲雀釋出）流程：先用代號放到 LM Arena 做盲測，然後在 ChatGPT 做 A/B 流量切割，最後才正式宣布。

而「膠帶」這個主題意味深長。有人把這串代號解讀為 OpenAI 的內部玩笑：這個產品已經準備好「封箱出貨」了。

結局揭曉：2026 年 4 月 21 日，OpenAI 正式發表 ChatGPT Images 2.0。發表會上直接確認了代號系列名稱：duct tape（萬用膠帶）。maskingtape、gaffertape、packingtape 是同家族的三個變體，用來平行測試不同調教策略。

也就是說，當時社群在 LM Arena 搶救下來的 600 組樣本，不是什麼半成品 ― 是 OpenAI 正式發布前最後一輪 A/B 基準測試的產出。那些讓人驚艷的範例就是現在你在 ChatGPT 裡點開就能用的模型。

「封箱出貨」那個內部玩笑，成真了。

CHAPTER 03 ・ FIVE UPGRADES

五大關鍵升級

對照 OpenAI 官方發布頁與社群搶救樣本，ChatGPT Images 2.0 相較前代 GPT Image 1.5 有五個非漸進式的跳躍：

ChatGPT Images 2.0 四大升級總覽：文字表現、複雜指令、多語言、編修能力

▲ 一張圖看關鍵升級｜下方逐一展開

01 ・ TEXT RENDERING

文字準確率從 90~95% 躍升到近 99%

這是 AI 圖像生成最老的毛病。GPT Image 1.5 時代，短字串還算堪用，但長字串、海報標題、UI 標籤、郵票與標誌常常糊掉。ChatGPT Images 2.0 能正確渲染 NeurIPS 論文海報這種密集排版的長文本、畫出每一根針準確對時的時鐘，甚至可以產出完整的長篇營銷落地頁，從 Hero 到 CTA 的文字全都正確。

02 ・ COLOR NEUTRALITY

消除前代那層揮之不去的黃色偏色

用過 GPT Image 1 / 1.5 的人都知道，它的輸出有一種獨特的「暖黃濾鏡」― 連白牆都會帶一點奶油色。這幾乎是它的簽名缺陷，任何商業素材都得後製校色。ChatGPT Images 2.0 的色彩中性乾淨 ― 白的是白、黑的是黑，對電商、品牌素材、產品攝影來說省掉一整道校色工序。

03 ・ RESOLUTION & BATCH

2K 原生解析度、單次最多 10 張

GPT Image 1.5 停在 1536 px 寬且只能單張輸出。ChatGPT Images 2.0 把原生解析度拉到 2000 px 寬，同時新增 batch 模式 ― 同一個 prompt 可以一次產 10 張版型一致但構圖變化的素材。對廣告 A/B 測試、電商 SKU 批量、IG 輪播產出特別有用，不用再跑 10 次 prompt。

04 ・ CJK SUPPORT

中日韓字形第一次被穩定處理

對中文市場來說這是最重要的一點。GPT Image 1.5 在中文、阿拉伯文、希伯來文的字形渲染始終不穩定 ― 筆畫斷裂、部首錯位、類似字混用是常態。ChatGPT Images 2.0 官方確認改善的非拉丁語系包含日文、韓文、中文、印地文、孟加拉文 ― 筆畫清晰、字形正確。對過去必須切換到 Nano Banana Pro 才能處理中文海報的人，這是工作流合併的契機。

05 ・ THINKING MODE

第一次有圖像模型會「先推理再畫」

這是 ChatGPT Images 2.0 最有顛覆性的功能，也是官方發布頁主打的賣點。兩種模式：Instant Mode（預設，快速生成，就是當初在 LM Arena 被拍到的 duct tape 版本）和 Thinking Mode（OpenAI Plus/Pro/Business 用戶獨享，會先推理再生成）。

Thinking Mode 解決的問題是「跨多張圖的一致性」。以前想畫漫畫分鏡、故事板、品牌素材連載，角色在每張圖都會走樣 ― 同一個人每次都被畫成不同人。Thinking Mode 會先規劃版面與角色設定，再逐張生成，跨多張圖維持一致的臉、服裝、光線邏輯。這等於開啟了 AI 做漫畫、做 IP 周邊、做多場景品牌視覺的可能性。

想感受 4/21 發布會的現場？OpenAI 官方直播的完整版本 ― 包含 Thinking Mode 即時 demo、跨多圖角色一致性測試、以及研究員在現場用對話逐步微調生成結果的實演：

▲ OpenAI 官方發布會｜Introducing ChatGPT Images 2.0 Source: YouTube @OpenAI

CHAPTER 04 ・ COMPETITION

vs Nano Banana Pro：三足鼎立的新格局

要理解為什麼 OpenAI 突然加速推 ChatGPT Images 2.0，得先看看它的對手。

2025 年下半年以來，Google DeepMind 的 Nano Banana Pro 一直佔據 LM Arena 圖像生成排行榜的第一名，特別在信息圖、編輯排版、文字渲染三個領域拉開跟 OpenAI 的差距。根據外流的內部備忘錄，Sam Altman 當時把這個狀態稱為「code red（紅色警戒）」。

ChatGPT Images 2.0 就是 OpenAI 對這個紅色警戒的直接回應。

MARKET POSITIONING ・三方定位

ChatGPT Images 2.0（OpenAI）

文字渲染與世界知識的新標竿

早期樣本顯示它在文字、UI、世界知識三個類別同時超越 Nano Banana Pro ― 這是很少見的「一次清掃」。對設計師最實用的場景：產品攝影、UI 樣機、電商素材、含中文的海報。

Nano Banana Pro（Google）

信息圖與編輯排版目前仍是王者

即使 ChatGPT Images 2.0 已經發布，Nano Banana Pro 仍在 LM Arena 首位。擅長長文排版、出版級信息圖、多欄雜誌風格。要做報導風格信息圖時仍是首選。

Nano Banana 2（Google）

成本與批量生成的最佳選擇

Pro 版的輕量版本。API 便宜、速度快，適合批量生成電商商品圖、大量 SKU 變體、或需要幾百張縮圖的媒體場景。

也就是說，這不再是「誰最強」的單一軸線競爭，而是變成「根據任務選模型」的多元市場。對專業用戶來說，這反而是好事。

“

AI 圖像生成的戰爭，終於從「誰畫得比較夢幻」變成「誰畫得比較能用」。

CHAPTER 05 ・ HOW TO USE

怎麼開始用？Instant、Thinking 與 API 定價

好消息：現在就能用。ChatGPT Images 2.0 已於 2026/04/21 全面上線 ChatGPT 網頁版、行動 App、Codex 與 API，分三種層級：

ACCESS ・存取層級

ChatGPT 免費用戶

Instant Mode

直接在 ChatGPT 對話中生成，預設即 gpt-image-2 Instant 模式。畫質與前代相比已經明顯升級，且沒有字數限制。

ChatGPT Plus / Pro / Business

Instant + Thinking Mode + 整合網路搜尋

付費用戶獨享 Thinking Mode ― 可跨多圖維持角色一致性。同時支援在生成過程中整合網路搜尋，可以讓 AI 先找資料再設計圖表、infographic、品牌視覺。

開發者 API

Model ID: gpt-image-2

兩種模式都開放，端點與前代 API 一致，程式碼可直接沿用。單次最多產 10 張圖，最大 2000 px 寬。

API 定價不再是「每張多少錢」，改採 token 計價 ― 這跟文字 API 邏輯一致，對需要高解析度或批次輸出的場景更靈活：

API PRICING ・ gpt-image-2

輸入文字 token

$5.00 / M

輸出文字 token

$10.00 / M

輸入圖像 token

$8.00 / M

輸出圖像 token

$30.00 / M

單位為美元（USD）、M = 每百萬 token。實際每張圖成本取決於解析度、是否使用 Thinking Mode、批次張數。一般 1024×1024 解析度的 Instant 單張估算約 $0.03–0.05。

還有一個時程上的硬截止點要記住：DALL·E 的 API 將在 5 月 12 日永久關閉。如果你的 App、工具、自動化流程還有依賴 dall-e-3 或 dall-e-2 的，在那之前要完成遷移到 gpt-image-2。

TIMELINE ・關鍵時程

04 / 04

三個 duct tape 變體代號出現在 LM Arena，數小時內撤下

04 / 21

ChatGPT Images 2.0 正式發布 ― 全面開放 ChatGPT、Codex、API

05 / 12

DALL·E 2 / DALL·E 3 API 永久關閉 ― gpt-image-2 成為唯一遷移路徑

CHAPTER 06 ・ FOR DESIGNERS

設計師該怎麼用

ChatGPT Images 2.0 正式上線後，有三件事值得立刻做 ― 不只是嘗鮮，而是重新審視你的工作流。

ACTION 01

重寫你的 prompt 庫

ChatGPT Images 2.0 讀 prompt 比 1.5 更「字面」。以前為了繞過文字渲染缺陷寫的那些 workaround（把文字拆成短句、用引號強調、加 render exact text as）大部分都不再必要 ― 甚至反而會降低效果。建議打開你最常用的 prompt 檔案，逐一放進 ChatGPT Images 2.0 測試，把補償老缺陷的那些語法拿掉。你會發現 prompt 可以寫得更短、更自然、更像在跟設計師說話。

ChatGPT Images 2.0 prompt 公式：主體 / 風格 / 構圖 / 光線材質 / 文字內容 / 比例

▲ Prompt 六元素公式｜越具體，越容易生成可用畫面

ACTION 02

重新規劃多模型路由

以前為了處理中文，很多人的工作流是「OpenAI 畫主體 → Nano Banana 補中文文字」。ChatGPT Images 2.0 把這道工序合併了 ― 中文海報、產品包裝、廣告素材都能一次完成。但 Nano Banana Pro 在信息圖、出版級排版仍有優勢，Nano Banana 2 在極大批量（數百張 SKU）的成本仍更划算。未來工作流會更像「不同任務路由到不同模型」 ― 把每種模型的甜蜜區找出來，寫成自己的路由表。

ACTION 03

拿 Thinking Mode 做跨多圖的連載內容

這是 ChatGPT Images 2.0 開啟的全新可能性：連載內容。以前做品牌人設、IG 分鏡、漫畫故事板的最大痛點是「第二張圖的角色跟第一張不像」。Thinking Mode 解決了這件事 ― 可以在一個對話裡產出跨多張圖的連貫敘事，角色外型、光線邏輯、場景風格都能保持一致。付費用戶可以嘗試：IP 角色 8 張輪播、電商產品 6 個應用情境、個人品牌 12 格 IG 內容 ― 這些以前要交給設計師的任務，現在用 Thinking Mode 能跑完整個流程。

ChatGPT Images 2.0 工作流：先說目標→補風格與版型→看第一版後微調→用編修功能改局部→最後人工校對

▲ 五步穩定出圖工作流｜每次只改 1-2 個變因，最容易得到穩定結果

CHAPTER 07 ・ PROMPTS IN THE WILD

兩個值得收藏的社群範例庫

如果你想看 ChatGPT Images 2.0 在真實設計任務裡能做到什麼，最快的方式是看社群已經做出來的東西。以下兩個資源角度不同但互補，都值得收藏：

第一個是 YouMind 做的 GPT Image 2 提示詞集合（資源頁名稱沿用舊稱），目前收錄 560+ 組 X 社群上傳的結構化提示詞 ― 從產品海報、UI 設計系統、美食地圖到廣告橫幅都有。核心是用 JSON 把版面拆成 type / style / layout / sections 欄位，再用 {argument name='...' default='...'} 語法包裝可替換的變數 ― 同一個模板能快速換題材重複產出。

以下挑幾個最能展現 ChatGPT Images 2.0 多面向能力的範例：產品海報、UI 系統、廣告素材、長圖落地頁 ― 過去需要專業設計師的四種產出類型。

TYPE 01 ・ PRODUCT POSTER

產品爆炸視圖海報

@wory37303852 ・ via YouMind

TYPE 02 ・ UI DESIGN SYSTEM

完整 UI 設計系統

@cheatyyyy ・ via YouMind

TYPE 03 ・ AD CAMPAIGN

日式廣告 2x2 網格

@makaneko_AI ・ via YouMind

TYPE 04 ・ LONG-FORM LANDING

深色模式落地頁

@IndieDevHailey ・ via YouMind

值得注意的細節：VR 海報的每個組件標籤都清晰可讀、UI 設計系統能把色票／字體／組件／mockup 整合到一張圖、日式廣告 4 格能一次產出 A/B 測試素材、落地頁把 Hero、時間軸、圖表、CTA 全部保持邏輯一致。

第二個是 EvoLinkAI 在 GitHub 上開源的 awesome-gpt-image-2-prompts，CC BY 4.0 授權，目前 375+ 星、11 種語言 README（含繁體中文）。跟 YouMind 最大的差別是：它依照類別分章，而且完整附上原始 prompt 與原作者 X 連結 ― 對要逐句學習 prompt 寫法的人更友善。

分五大類別：肖像與攝影（8 case）、海報與插畫（15+ case）、角色設計（5 case）、UI 與社群樣機（9 case）、以及一個特別豐富的 比較與社群實驗（30+ case）― 這最後一類專門收集 ChatGPT Images 2.0 對 Nano Banana Pro / Nano Banana 2 的對戰實測，對正在糾結該選哪個模型的人特別有用。

挑三個最能呈現 ChatGPT Images 2.0 核心能力的 case：

TYPE 05 ・ CITY POSTER

雙重曝光城市海報

@liyue_ai ・ via GitHub

TYPE 06 ・ CHARACTER SHEET

Q 版角色設定資料卡

@tsubaki_ew ・ via GitHub

TYPE 07 ・ PROMPT TEST

三層書架計數測試

@chetaslua ・ via GitHub

中文海報的字形清晰、角色設定卡結構像官方遊戲設定集。但最值得說的是第三張 ― Prompt「三層書架：最上層 1 本、中層 3 本、底層 7 本」這個看似簡單的任務，Nano Banana Pro、Nano Banana 2、GPT Image 1.5 都要三次嘗試才勉強做對，ChatGPT Images 2.0 一次就解開。

這兩個庫最有價值的地方是 可重用性。YouMind 的 JSON 可以直接複製到 ChatGPT 裡，把 default 欄位換成自己的內容；GitHub 那邊的 prompt 通常是自然語言形式（中日英混雜），複製過來改關鍵詞就能用。對做課程、寫部落格、跑廣告的人來說，這等於免費的模板彈藥庫。