ChatGPT Images 2.0 登場|OpenAI 下一代圖像生成模型的五大升級、Thinking Mode 與設計師應用
2025 年 12 月,OpenAI 把 ChatGPT Images 升級到 GPT Image 1.5。當時大家以為那就是年度圖像模型大戲。
結果 4 個月後,三個帶著膠帶主題代號的匿名模型突然出現在 LM Arena ― maskingtape、gaffertape、packingtape ― 幾個小時內生成的範例讓整個 AI 圈安靜了一下,然後被 OpenAI 迅速撤下。
兩週後的 2026 年 4 月 21 日,ChatGPT Images 2.0(API 模型 ID:gpt-image-2)正式發布。代號確認為 duct tape(萬用膠帶)系列 ― OpenAI 的內部玩笑成真:這個產品真的準備好「封箱出貨」了。
它帶來的不只是畫質提升 ― 文字渲染趨近完美、中日韓字形第一次被認真處理,還新增了會先推理再畫的 Thinking Mode,能跨多張圖維持角色一致性,對分鏡、漫畫、品牌素材來說是劃時代的新能力。
這篇會拆解:它到底是什麼、五個關鍵升級、Thinking Mode 的實際意義、跟 Google Nano Banana Pro 的競爭格局,以及作為設計師你該怎麼用。
EDITOR'S NOTE ・ 一句話的實測筆記
不小心按到送出,它把整組 IG 輪播做好了

▲ 唯一的 prompt 只有一句「介紹一下 ChatGPT image-2」― 結果是這組 IG 輪播素材。
原本只是想試打一句「介紹一下 ChatGPT image-2」,不小心按到送出 ― 結果整組 IG 輪播貼文直接生出來了。我還沒給資料、沒描述風格、沒來得及說規格樣式。
以專業設計師的標準看,頂多 60 分。但重點不在 60 分,而是這是一句話就蹦出來的結果。認真下去寫需求、微調 prompt,能做到什麼程度難以想像。
想親自試的話,直接去 ChatGPT 圖像生成打幾個 prompt ― ChatGPT Images 2.0 已經全面開放,免費用戶也能用 Instant Mode,付費用戶還能用 Thinking Mode 做跨多張圖的連載內容。
▲ 完整輪播貼文|Instagram @designer.riven
本文內所有樣本圖(含封面)皆由作者以 ChatGPT 圖像生成功能親自產出 ― 實測時間橫跨 2026 年 4 月 OpenAI 灰度測試與 4/21 正式發布後的版本。本篇所有視覺觀察均基於作者實機操作結果。
CHAPTER 01 ・ WHAT IS IT
ChatGPT Images 2.0 是什麼
ChatGPT Images 2.0 是 OpenAI 圖像生成模型家族的下一代,繼承自 2025 年 3 月的 GPT Image 1(俗稱「GPT-4o 圖像生成」)和 2025 年 12 月的 GPT Image 1.5。API 模型識別字為 gpt-image-2 ― 跟先前 gpt-image-1.5 的命名邏輯一致。
與前代最大的差異是兩層:架構和介面。架構上它是完全獨立的新模型,不是 GPT-4o 的延伸;延續 GPT Image 家族的自迴歸(autoregressive)生成方式,把圖像一個 token 一個 token 地寫出來,就像寫文字一樣 ― 這是它能理解「這張圖裡有文字」並把文字寫對的底層原因。
介面上則新增了兩種模式:Instant Mode(快速生成,預設模式,就是當初在 LM Arena 被拍到的 duct tape 版本)和 Thinking Mode(先推理、再生成,會花更多時間但能跨多張圖維持角色一致性)。這是第一次有主流圖像模型把「reasoning」做進來。
SPEC ・ 規格對照
項目
GPT Image 1.5
ChatGPT Images 2.0
發布時間
2025/12/16
2026/04/21
最大解析度
1536 × 1024
2K(2000 px wide)
文字準確率
約 90~95%
接近 99%(含 CJK)
批次輸出
單張
單次最多 10 張
推理模式
無
Instant + Thinking
這些數字是 OpenAI 4/21 發布頁公布的官方規格。特別注意解析度 2K(2000 px wide)― 比先前社群推測的 4K 小,但搭配新的 token 化 API 定價與批次輸出(單次最多 10 張),對電商 SKU 批量、廣告素材矩陣這種場景反而更划算。
▲ ChatGPT Images 2.0 最常被拿來做的六種任務
CHAPTER 02 ・ THE LEAK
Duct Tape 代號:從秘密外洩到正式登場
2026 年 4 月 4 日,三個匿名圖像模型同時出現在 LM Arena 的圖像生成分類。代號主題一致,全是膠帶:
VARIANT 01
maskingtape
遮蔽膠帶
VARIANT 02
gaffertape
布紋膠帶
VARIANT 03
packingtape
封箱膠帶
幾個小時內,全部下架。
這套劇本不陌生。2025 年 12 月,OpenAI 在同一個平台上以 Chestnut(栗子)和 Hazelnut(榛果)兩個代號匿名測試了新圖像模型 ― 幾週後正式發布的就是 GPT Image 1.5。這是 OpenAI 的標準 canary release(金絲雀釋出)流程:先用代號放到 LM Arena 做盲測,然後在 ChatGPT 做 A/B 流量切割,最後才正式宣布。
而「膠帶」這個主題意味深長。有人把這串代號解讀為 OpenAI 的內部玩笑:這個產品已經準備好「封箱出貨」了。
結局揭曉:2026 年 4 月 21 日,OpenAI 正式發表 ChatGPT Images 2.0。發表會上直接確認了代號系列名稱:duct tape(萬用膠帶)。maskingtape、gaffertape、packingtape 是同家族的三個變體,用來平行測試不同調教策略。
也就是說,當時社群在 LM Arena 搶救下來的 600 組樣本,不是什麼半成品 ― 是 OpenAI 正式發布前最後一輪 A/B 基準測試的產出。那些讓人驚艷的範例就是現在你在 ChatGPT 裡點開就能用的模型。
「封箱出貨」那個內部玩笑,成真了。
CHAPTER 03 ・ FIVE UPGRADES
五大關鍵升級
對照 OpenAI 官方發布頁與社群搶救樣本,ChatGPT Images 2.0 相較前代 GPT Image 1.5 有五個非漸進式的跳躍:
▲ 一張圖看關鍵升級|下方逐一展開
01 ・ TEXT RENDERING
文字準確率從 90~95% 躍升到近 99%
這是 AI 圖像生成最老的毛病。GPT Image 1.5 時代,短字串還算堪用,但長字串、海報標題、UI 標籤、郵票與標誌常常糊掉。ChatGPT Images 2.0 能正確渲染 NeurIPS 論文海報這種密集排版的長文本、畫出每一根針準確對時的時鐘,甚至可以產出完整的長篇營銷落地頁,從 Hero 到 CTA 的文字全都正確。
02 ・ COLOR NEUTRALITY
消除前代那層揮之不去的黃色偏色
用過 GPT Image 1 / 1.5 的人都知道,它的輸出有一種獨特的「暖黃濾鏡」― 連白牆都會帶一點奶油色。這幾乎是它的簽名缺陷,任何商業素材都得後製校色。ChatGPT Images 2.0 的色彩中性乾淨 ― 白的是白、黑的是黑,對電商、品牌素材、產品攝影來說省掉一整道校色工序。
03 ・ RESOLUTION & BATCH
2K 原生解析度、單次最多 10 張
GPT Image 1.5 停在 1536 px 寬且只能單張輸出。ChatGPT Images 2.0 把原生解析度拉到 2000 px 寬,同時新增 batch 模式 ― 同一個 prompt 可以一次產 10 張版型一致但構圖變化的素材。對廣告 A/B 測試、電商 SKU 批量、IG 輪播產出特別有用,不用再跑 10 次 prompt。
04 ・ CJK SUPPORT
中日韓字形第一次被穩定處理
對中文市場來說這是最重要的一點。GPT Image 1.5 在中文、阿拉伯文、希伯來文的字形渲染始終不穩定 ― 筆畫斷裂、部首錯位、類似字混用是常態。ChatGPT Images 2.0 官方確認改善的非拉丁語系包含日文、韓文、中文、印地文、孟加拉文 ― 筆畫清晰、字形正確。對過去必須切換到 Nano Banana Pro 才能處理中文海報的人,這是工作流合併的契機。
05 ・ THINKING MODE
第一次有圖像模型會「先推理再畫」
這是 ChatGPT Images 2.0 最有顛覆性的功能,也是官方發布頁主打的賣點。兩種模式:Instant Mode(預設,快速生成,就是當初在 LM Arena 被拍到的 duct tape 版本)和 Thinking Mode(OpenAI Plus/Pro/Business 用戶獨享,會先推理再生成)。
Thinking Mode 解決的問題是「跨多張圖的一致性」。以前想畫漫畫分鏡、故事板、品牌素材連載,角色在每張圖都會走樣 ― 同一個人每次都被畫成不同人。Thinking Mode 會先規劃版面與角色設定,再逐張生成,跨多張圖維持一致的臉、服裝、光線邏輯。這等於開啟了 AI 做漫畫、做 IP 周邊、做多場景品牌視覺的可能性。
想感受 4/21 發布會的現場?OpenAI 官方直播的完整版本 ― 包含 Thinking Mode 即時 demo、跨多圖角色一致性測試、以及研究員在現場用對話逐步微調生成結果的實演:
▲ OpenAI 官方發布會|Introducing ChatGPT Images 2.0 Source: YouTube @OpenAI
CHAPTER 04 ・ COMPETITION
vs Nano Banana Pro:三足鼎立的新格局
要理解為什麼 OpenAI 突然加速推 ChatGPT Images 2.0,得先看看它的對手。
2025 年下半年以來,Google DeepMind 的 Nano Banana Pro 一直佔據 LM Arena 圖像生成排行榜的第一名,特別在信息圖、編輯排版、文字渲染三個領域拉開跟 OpenAI 的差距。根據外流的內部備忘錄,Sam Altman 當時把這個狀態稱為「code red(紅色警戒)」。
ChatGPT Images 2.0 就是 OpenAI 對這個紅色警戒的直接回應。
MARKET POSITIONING ・ 三方定位
ChatGPT Images 2.0(OpenAI)
文字渲染與世界知識的新標竿
早期樣本顯示它在文字、UI、世界知識三個類別同時超越 Nano Banana Pro ― 這是很少見的「一次清掃」。對設計師最實用的場景:產品攝影、UI 樣機、電商素材、含中文的海報。
Nano Banana Pro(Google)
信息圖與編輯排版目前仍是王者
即使 ChatGPT Images 2.0 已經發布,Nano Banana Pro 仍在 LM Arena 首位。擅長長文排版、出版級信息圖、多欄雜誌風格。要做報導風格信息圖時仍是首選。
Nano Banana 2(Google)
成本與批量生成的最佳選擇
Pro 版的輕量版本。API 便宜、速度快,適合批量生成電商商品圖、大量 SKU 變體、或需要幾百張縮圖的媒體場景。
也就是說,這不再是「誰最強」的單一軸線競爭,而是變成「根據任務選模型」的多元市場。對專業用戶來說,這反而是好事。
“
AI 圖像生成的戰爭,終於從「誰畫得比較夢幻」變成「誰畫得比較能用」。
CHAPTER 05 ・ HOW TO USE
怎麼開始用?Instant、Thinking 與 API 定價
好消息:現在就能用。ChatGPT Images 2.0 已於 2026/04/21 全面上線 ChatGPT 網頁版、行動 App、Codex 與 API,分三種層級:
ACCESS ・ 存取層級
ChatGPT 免費用戶
Instant Mode
直接在 ChatGPT 對話中生成,預設即 gpt-image-2 Instant 模式。畫質與前代相比已經明顯升級,且沒有字數限制。
ChatGPT Plus / Pro / Business
Instant + Thinking Mode + 整合網路搜尋
付費用戶獨享 Thinking Mode ― 可跨多圖維持角色一致性。同時支援在生成過程中整合網路搜尋,可以讓 AI 先找資料再設計圖表、infographic、品牌視覺。
開發者 API
Model ID: gpt-image-2
兩種模式都開放,端點與前代 API 一致,程式碼可直接沿用。單次最多產 10 張圖,最大 2000 px 寬。
API 定價不再是「每張多少錢」,改採 token 計價 ― 這跟文字 API 邏輯一致,對需要高解析度或批次輸出的場景更靈活:
API PRICING ・ gpt-image-2
輸入文字 token
$5.00 / M
輸出文字 token
$10.00 / M
輸入圖像 token
$8.00 / M
輸出圖像 token
$30.00 / M
單位為美元(USD)、M = 每百萬 token。實際每張圖成本取決於解析度、是否使用 Thinking Mode、批次張數。一般 1024×1024 解析度的 Instant 單張估算約 $0.03–0.05。
還有一個時程上的硬截止點要記住:DALL·E 的 API 將在 5 月 12 日永久關閉。如果你的 App、工具、自動化流程還有依賴 dall-e-3 或 dall-e-2 的,在那之前要完成遷移到 gpt-image-2。
TIMELINE ・ 關鍵時程
04 / 04
三個 duct tape 變體代號出現在 LM Arena,數小時內撤下
04 / 21
ChatGPT Images 2.0 正式發布 ― 全面開放 ChatGPT、Codex、API
05 / 12
DALL·E 2 / DALL·E 3 API 永久關閉 ― gpt-image-2 成為唯一遷移路徑
CHAPTER 06 ・ FOR DESIGNERS
設計師該怎麼用
ChatGPT Images 2.0 正式上線後,有三件事值得立刻做 ― 不只是嘗鮮,而是重新審視你的工作流。
ACTION 01
重寫你的 prompt 庫
ChatGPT Images 2.0 讀 prompt 比 1.5 更「字面」。以前為了繞過文字渲染缺陷寫的那些 workaround(把文字拆成短句、用引號強調、加 render exact text as)大部分都不再必要 ― 甚至反而會降低效果。建議打開你最常用的 prompt 檔案,逐一放進 ChatGPT Images 2.0 測試,把補償老缺陷的那些語法拿掉。你會發現 prompt 可以寫得更短、更自然、更像在跟設計師說話。
▲ Prompt 六元素公式|越具體,越容易生成可用畫面
ACTION 02
重新規劃多模型路由
以前為了處理中文,很多人的工作流是「OpenAI 畫主體 → Nano Banana 補中文文字」。ChatGPT Images 2.0 把這道工序合併了 ― 中文海報、產品包裝、廣告素材都能一次完成。但 Nano Banana Pro 在信息圖、出版級排版仍有優勢,Nano Banana 2 在極大批量(數百張 SKU)的成本仍更划算。未來工作流會更像「不同任務路由到不同模型」 ― 把每種模型的甜蜜區找出來,寫成自己的路由表。
ACTION 03
拿 Thinking Mode 做跨多圖的連載內容
這是 ChatGPT Images 2.0 開啟的全新可能性:連載內容。以前做品牌人設、IG 分鏡、漫畫故事板的最大痛點是「第二張圖的角色跟第一張不像」。Thinking Mode 解決了這件事 ― 可以在一個對話裡產出跨多張圖的連貫敘事,角色外型、光線邏輯、場景風格都能保持一致。付費用戶可以嘗試:IP 角色 8 張輪播、電商產品 6 個應用情境、個人品牌 12 格 IG 內容 ― 這些以前要交給設計師的任務,現在用 Thinking Mode 能跑完整個流程。
▲ 五步穩定出圖工作流|每次只改 1-2 個變因,最容易得到穩定結果
CHAPTER 07 ・ PROMPTS IN THE WILD
兩個值得收藏的社群範例庫
如果你想看 ChatGPT Images 2.0 在真實設計任務裡能做到什麼,最快的方式是看社群已經做出來的東西。以下兩個資源角度不同但互補,都值得收藏:
第一個是 YouMind 做的 GPT Image 2 提示詞集合(資源頁名稱沿用舊稱),目前收錄 560+ 組 X 社群上傳的結構化提示詞 ― 從產品海報、UI 設計系統、美食地圖到廣告橫幅都有。核心是用 JSON 把版面拆成 type / style / layout / sections 欄位,再用 {argument name='...' default='...'} 語法包裝可替換的變數 ― 同一個模板能快速換題材重複產出。
以下挑幾個最能展現 ChatGPT Images 2.0 多面向能力的範例:產品海報、UI 系統、廣告素材、長圖落地頁 ― 過去需要專業設計師的四種產出類型。
值得注意的細節:VR 海報的每個組件標籤都清晰可讀、UI 設計系統能把色票/字體/組件/mockup 整合到一張圖、日式廣告 4 格能一次產出 A/B 測試素材、落地頁把 Hero、時間軸、圖表、CTA 全部保持邏輯一致。
第二個是 EvoLinkAI 在 GitHub 上開源的 awesome-gpt-image-2-prompts,CC BY 4.0 授權,目前 375+ 星、11 種語言 README(含繁體中文)。跟 YouMind 最大的差別是:它依照類別分章,而且完整附上原始 prompt 與原作者 X 連結 ― 對要逐句學習 prompt 寫法的人更友善。
分五大類別:肖像與攝影(8 case)、海報與插畫(15+ case)、角色設計(5 case)、UI 與社群樣機(9 case)、以及一個特別豐富的 比較與社群實驗(30+ case)― 這最後一類專門收集 ChatGPT Images 2.0 對 Nano Banana Pro / Nano Banana 2 的對戰實測,對正在糾結該選哪個模型的人特別有用。
挑三個最能呈現 ChatGPT Images 2.0 核心能力的 case:
中文海報的字形清晰、角色設定卡結構像官方遊戲設定集。但最值得說的是第三張 ― Prompt「三層書架:最上層 1 本、中層 3 本、底層 7 本」這個看似簡單的任務,Nano Banana Pro、Nano Banana 2、GPT Image 1.5 都要三次嘗試才勉強做對,ChatGPT Images 2.0 一次就解開。
這兩個庫最有價值的地方是 可重用性。YouMind 的 JSON 可以直接複製到 ChatGPT 裡,把 default 欄位換成自己的內容;GitHub 那邊的 prompt 通常是自然語言形式(中日英混雜),複製過來改關鍵詞就能用。對做課程、寫部落格、跑廣告的人來說,這等於免費的模板彈藥庫。
▲ 用之前先記住這幾件事|先存起來,下次做圖直接照這套
CHAPTER 08 ・ RECAP
重點整理
ChatGPT Images 2.0(API 模型 ID:gpt-image-2)已於 2026/04/21 正式發布,繼承自 GPT Image 1.5,全面上線 ChatGPT、Codex、API。
代號系列 duct tape(含 maskingtape、gaffertape、packingtape 三變體)於 4/4 在 LM Arena 曝光又撤下,是 OpenAI 標準的 canary release 流程 ― 「封箱出貨」的玩笑成真。
五大升級:99% 文字準確率、消除黃色偏色、2K 解析度+單次 10 張批次輸出、CJK 字形穩定、Thinking Mode 推理生成。
Thinking Mode 是真正的顛覆點:跨多張圖維持角色、光線、場景一致性,等於開啟 AI 做漫畫分鏡、IP 角色、連載品牌素材的新可能性。
對中文市場最大的意義:第一次有主流模型把中日韓字形認真處理 ― 過去要 OpenAI→Nano Banana 的兩段式工作流可以合併。
市場格局:ChatGPT Images 2.0(文字與世界知識)、Nano Banana Pro(信息圖排版)、Nano Banana 2(成本批量)三足鼎立。
設計師現在要做的:重寫 prompt 庫、規劃多模型路由、拿 Thinking Mode 做跨多圖的連載內容。留意 5/12 的 DALL·E API 終止期限。
RESOURCES ・ 延伸資源
・OpenAI | Introducing ChatGPT Images 2.0(2026/04/21 官方發布頁)
・OpenAI | The new ChatGPT Images is here(GPT Image 1.5 前代官方頁)
・OpenAI | Introducing 4o Image Generation(GPT Image 家族起源)
・TestingCatalog | OpenAI tests next-gen Image V2 model(發布前的洩漏事件原始報導)
・YouMind | GPT Image 2 提示詞集合(560+ 組社群結構化 prompt)
・GitHub | awesome-gpt-image-2-prompts(EvoLinkAI 整理的五大類 case 集,CC BY 4.0)
・OpenAI API | Image Generation Guide(gpt-image-2 API 文件與定價)





















