GPT-5.5 是什麼?OpenAI 最新 AI 完整介紹:從聊天工具變成會做事的助理

OpenAI 第一次把旗艦模型定位成 agent — 從「更聰明」轉向「更會做事」。本文拆解 GPT-5.5 新功能、實測案例、價格方案,以及跟 Claude Opus 4.7 的差異。
設計師 Riven

設計師 Riven

2026年4月24日 上午 8:41

AI 設計

OpenAI 這週發了 GPT-5.5。距離上一版 GPT-5.4 只隔了七週,距離 Anthropic 發 Claude Opus 4.7 只隔一週。模型更新的速度快到,連 OpenAI 自己的總裁 Greg Brockman 都在發布會上說:「大家大概已經分不太出差別了。」

但這次的定位,確實值得花幾分鐘看一下。

因為 GPT-5.5 不是「又一個更聰明的 AI」,而是 OpenAI 第一次明白地把自家旗艦模型定位成「會自己把事情做完的 agent」—— 你丟一個雜亂、多步驟的任務給它,它會自己規劃、用工具、檢查結果、卡住繼續推進,一路做到完成。

這篇整理 GPT-5.5 的新功能、實測案例、價格方案、跟 Claude Opus 4.7 的差異,還有對設計師跟創作者來說,這一代模型真正的意義在哪裡。

CHAPTER 01 / WHAT IS IT

GPT-5.5 是什麼

GPT-5.5 是 OpenAI 目前最強、最直覺的模型,內部代號「Spud」(馬鈴薯,沒人知道為什麼)。對 OpenAI 自己來說,這是他們首次把旗艦模型定位在「agentic coding」、「computer use」、「knowledge work」和「scientific research」這四個方向 —— 全部都是需要 AI 自己推進多步驟任務的場景。

講白話就是:以前 GPT 比較像「你問一句、它答一句」的聊天工具;GPT-5.5 的設計目標是「你丟一個任務給它、它會自己想辦法做完」。

OpenAI 在官方發布會上提了幾個具體強項:寫程式跟 debug、上網做研究、分析數據、做文件跟試算表、操作軟體、在工具之間切換直到把任務完成。這些能力本身都不新,但 GPT-5.5 的重點在於「它可以自己決定下一步要做什麼」—— 不用你一步一步指揮。

▲ OpenAI 官方發布影片

CHAPTER 02 / THE SHIFT

從「更聰明」到「更會做事」

如果你最近幾個月有追 AI 新聞,應該會有個感覺:每一家都在發新模型,但你實際用起來好像差不多。這不是你的錯覺,是產業的共識。

但 GPT-5.5 的敘事方式有個明顯的轉變。過去 OpenAI 的發布通常會強調「在 XXX benchmark 高了幾分」、「寫 code 更準」、「推理更強」—— 這些都是「更聰明」的敘事。GPT-5.5 的發布則幾乎整篇在講「它會完成任務」、「它不需要你盯著每一步」、「它會自己用你的工具」。

這個轉變的實際意義是:OpenAI 不是在賣一個更聰明的聊天 API,是在賣一個 agent runtime(代理執行環境)。

SHIFT IN POSITIONING

過去的 GPT

聊天工具

你問一句,它答一句。多步驟任務需要你把每一步的指令準確下好。

GPT-5.5

工作助理

你丟一個目標,它自己規劃、用工具、檢查結果,做到完成為止。

這個差別聽起來很抽象,但舉個例子就很清楚。OpenAI 發布會上 demo 的一個場景:你在 ChatGPT 裡下一個指令,「幫我看一下 Slack 上的 bug 回報,修掉這個 bug,開一個 PR,合併之後在 Slack 上回覆那個人」。GPT-5.5 會自己打開 Slack 搜訊息、讀 bug 內容、進到 GitHub 找對應的 code、寫修正、開 PR、等合併、然後回 Slack 報告完成。

這整個流程裡,你只下了一次指令。中間所有的工具切換、邏輯判斷、條件等待,都是 AI 自己處理的。

CHAPTER 03 / IN ACTION

11 分鐘做出一個幾何學 App

OpenAI 在發布會上秀的實測案例裡,最能看出 GPT-5.5 實力的是一個數學教授做的 demo。

波蘭 Adam Mickiewicz 大學的數學助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 裡,只下一個 prompt,花 11 分鐘做出一個完整的代數幾何學互動 App —— 可以視覺化兩個二次曲面的交線,並把結果曲線換算成 Weierstrass 標準形式。

GPT-5.5 在 Codex 中一個 prompt 11 分鐘建出的代數幾何 App

▲ Bartosz Naskręcki 用 GPT-5.5 + Codex 一個 prompt 11 分鐘做出的幾何學 App,可互動視覺化兩個二次曲面的交線(圖片來源:OpenAI)

這個 demo 有趣的地方不是「AI 很強」,而是它讓你看到工作方式的改變。過去就算你用 Cursor、Claude Code 或 Copilot,這種程度的 App 你至少要:寫 prompt、看它產生的 code、發現錯、再 prompt、再看、再修。整個過程你都要在場。

Bartosz 的做法是:寫一個 prompt,去泡咖啡,回來 App 做好了。中間的 11 分鐘,GPT-5.5 自己規劃架構、寫 code、測試、修 bug、繼續推進,完成度高到可以直接 demo。

BENCHMARK SCORES

Terminal-Bench 2.0

複雜命令列多步驟任務

82.7%

SWE-Bench Pro

真實世界 GitHub issue 解決

58.6%

OSWorld-Verified

電腦操作任務

78.7%

BrowseComp(GPT-5.5 Pro)

網頁搜尋難題(vs Gemini 3.1 Pro 的 85.9%)

90.1%

這些數字本身可以打折看 —— benchmark 跟實際使用體驗從來不是同一回事。但 Terminal-Bench 2.0 的 82.7% 是目前所有公開模型最高的,這個數字至少反映了一件事:OpenAI 真的把工程資源砸在「讓 AI 完成任務」這個方向。

CHAPTER 04 / VS CLAUDE

vs Claude Opus 4.7

GPT-5.5 的發布時間點很微妙 —— 比 Anthropic 發布 Claude Opus 4.7 晚剛好一週。兩家都在這一週推出主打「agentic 能力」的旗艦模型,但路線其實有明顯的差異。

HEAD TO HEAD

項目

GPT-5.5

Claude Opus 4.7

發布日期

4 月 23 日

4 月 16 日

主打場景

Agent 自動化、Codex

長任務、視覺、寫作

API 價格(輸入/輸出)

$5 / $30(百萬 token)

$5 / $25(百萬 token)

Context Window

400K(Codex)

1M(無加價)

SWE-Bench Pro

58.6%

64.3%

搭配工具

ChatGPT、Codex

Claude Design、Code

粗略來說:GPT-5.5 在 agent 流程自動化、命令列跟瀏覽器操作這塊優勢比較明顯;Opus 4.7 在 coding 本身的準確度、長內容連貫性、視覺辨識上更強,而且 context window 給到 1M、API 價格稍低。

更重要的脈絡是 Anthropic 在 Opus 4.7 發布隔天就推出了 Claude Design —— AI 視覺生成工具。兩家的方向其實分岔:OpenAI 把手伸進企業流程自動化,Anthropic 把手伸進設計工具市場。

CHAPTER 05 / PRICING

價格方案與誰能用

GPT-5.5 一發布就全面推送給付費用戶。如果你是 ChatGPT Plus、Pro、Business、Enterprise 的訂戶,打開 ChatGPT 或 Codex 就能直接用。免費方案目前還沒有。

STANDARD

GPT-5.5

Plus / Pro / Business / Enterprise 都能用。Codex 也同步推出 400K context window,並有 Fast mode(速度 1.5 倍、費用 2.5 倍)。

API 即將開放:$5 輸入 / $30 輸出(百萬 token)

PRO

GPT-5.5 Pro

Pro / Business / Enterprise 限定。更高準確度、更擅長複雜任務。BrowseComp 達 90.1%,領先 Gemini 3.1 Pro。

API 即將開放:$30 輸入 / $180 輸出(百萬 token)

價格這個環節值得多看一眼。GPT-5.5 API 的費用是 GPT-5.4 的兩倍(5.4 是 $2.5/$15),但 OpenAI 自己說 token 用量更省、所以「實際成本未必增加」—— 這種說法你懂的。

訊號其實很清楚:這個價格帶不是賣給 C 端的散戶玩家,是賣給有預算、需要跑長流程的企業客戶。OpenAI 現在有 900 萬個付費企業用戶、Codex 有 400 萬活躍使用者,這場仗是衝著 Anthropic 的企業市場打的。

CHAPTER 06 / FOR CREATORS

對設計師與創作者的意義

如果你是平面設計師、UI 設計師、內容創作者、獨立工作者 —— 這個規模的 agent 能力對日常工作到底會帶來什麼?

先說幾件 GPT-5.5 現在就能做到的事:讀完整個資料夾的資料做摘要、上網做競品研究並整理成 Notion 文件、把一份 Google Sheet 的數據做視覺化、根據品牌規範寫出多篇社群貼文、跑完一整個 Email 行銷流程。這些以前你需要開好幾個分頁、分好幾個 prompt 來處理的事,現在可以用一個目標描述解決。

但真正的改變不在功能清單,而在工作方式。

你不再是「下指令給 AI」,你是「把任務委派給 AI」。前者你要盯每一步,後者你交出去就走開。差別不是效率,是整個工作的重新設計。

— 這一代模型真正改變的東西

過去一年你可能用 AI 幫你寫文案、做圖、寫 code,但你大部分時間都還是在場 —— 你要看輸出、下次 prompt、調整、再看。這種模式你是 AI 的管理者。

GPT-5.5 的 agentic 設計讓你可以變成「任務發派者」。你描述目標、給權限、走開做別的事、回來看結果。整個工作流的核心技能從「怎麼下好 prompt」變成「怎麼定義好任務、怎麼驗收結果」。

這個轉變對個人工作者來說是很重要的機會 —— 你可以同時跑很多條工作流,人力成為瓶頸的地方少了。但也意味著,「會不會下 prompt」這個過去兩年的熱門技能,正在貶值。接下來更值錢的是「會不會設計好一個 agent 任務」。

版本號更新得越來越快、大家越來越分不清楚差別,這是表象。表象底下,AI 正在從「聊天工具」變成「工作環境」—— 而這件事,這週 OpenAI 跟 Anthropic 兩家同時往前踩了一步。

你手邊的工作流,接下來半年會不會重新設計一次?這個問題,比「要不要升級到 GPT-5.5」更值得花時間想。

AI 覺醒設計應用攻略
訂閱制✨ AI × 設計趨勢

AI 覺醒設計應用攻略|RAR 設計攻略訂閱方案

AI 工具每週都在更新,我幫你過濾雜訊,只整理對設計師真正有用的 AI 應用

AI 工具實測與工作流分享

設計師角度的 Prompt 技巧

每週精選 AI × 設計新知

文章標籤

# ChatGPT