Claude Opus 4.8 是什麼？跑分、誠實升級與設計師的實際用法

同價格、會自己踩煞車的 4.8——這次值得注意的不是跑分，是它開始承認「我不確定」

設計師 Riven

2026年5月29日下午 1:41

AI 設計

AI TOOLS · 2026

▲ Claude Opus 4.8 重點整理

QUICK ANSWER

Claude Opus 4.8 是 Anthropic 在 2026 年 5 月 28 日推出的旗艦模型升級，價格跟 Opus 4.7 一樣。跑分全面小幅提升，但這次真正的重點是「誠實」——它更會主動標記自己不確定的地方、少亂下結論，官方說它讓自己寫的程式碼帶 bug 卻不吭聲的機率，比上一代低了大約四倍。對把 AI 當生產工具的設計師來說，這比多兩個百分點的跑分有感得多。

CONTENTS

今天半個 AI 圈又洗了一輪版面。Anthropic 丟出 Claude Opus 4.8，距離上一代 Opus 4.7 只隔了四十一天——這在他們的節奏裡算是用衝刺的速度在出牌。同一天他們還宣布完成 650 億美元的 H 輪募資，估值衝到 9650 億美元，正式越過 OpenAI。模型跟錢一起發，氣勢做得很足。

但我看完發表第一個念頭是：跑分這次沒什麼好吹的。多數項目相對 4.7 只動了一兩個百分點，電腦操作那一項甚至只進步 0.6%。如果你只看那張表，會覺得這是一次「擠牙膏」更新。

真正值得寫一篇的，是 Anthropic 這次把賣點壓在一個你想不到的字上——誠實。一個更會說「這裡我不太確定」的模型。聽起來不像功能，但對任何把 AI 接進真實工作流、要靠它的產出交差的人來說，這可能是這半年最有感的一次升級。這篇我會拆三件事：跑分到底怎麼讀、誠實升級為什麼對設計師重要、還有那個藏在模型選單旁邊、多數人會用錯的新開關。

Anthropic Claude Opus 4.8 官方發表主視覺，抽象拼貼設計

▲ Anthropic 官方發表主視覺｜圖片來源：Anthropic

CHAPTER 01 · WHAT IS IT

這次更新到底是什麼

一句話：Opus 4.8 是 Opus 4.7 的小步快跑版，同價格、跑分小升、可靠度明顯變好，外加三個新東西上桌。如果你還在用 4.7 的工作流，幾乎可以無痛換過去。

先用一張圖把它的定位講清楚：

Claude Opus 4.8 是什麼：定位主打複雜推理與長任務、擅長長程式任務與研究分析、支援文字圖片 PDF、適合需要高品質結果的人

▲ Opus 4.8 一圖看懂：定位、擅長、支援、適合誰

價格維持原樣是這次的隱形重點。一般用量還是每百萬輸入 token 5 美元、輸出 25 美元；快速模式的速度拉到 2.5 倍，而且比之前便宜了三倍。能力往上、成本沒往上，這在現在這個各家模型輪流漲價的時間點，本身就是一種競爭動作。

跟模型一起上線的還有三樣：

一是 claude.ai 跟 Cowork 多了「努力程度」開關，讓你決定 Claude 花多少力氣回答（後面會細講，它比看起來重要）。二是 Claude Code 的 dynamic workflows，能規劃任務、同時跑上百個子代理、驗證後再回報，目前研究預覽、限 Enterprise／Team／Max。三是 Messages API 可在任務中途更新指令、不打斷快取，給用 API 串自動化流程的人用。

至於規格面，這四個重點記著就好：

Claude Opus 4.8 四個重點：1M Context 百萬 token 脈絡、128k Output 最大輸出、Adaptive Thinking 自適應思考、Vision PDF Tools 多模態

▲ 規格重點：1M 脈絡、128k 輸出、自適應思考、多模態工具

CHAPTER 02 · THE NUMBERS

跑分怎麼讀，還有那一格輸掉的數字

官方拿 Opus 4.8 跟自家 4.7、GPT-5.5、Gemini 3.1 Pro 排在一起比。先看圖，再聽我說哪幾格值得停下來。

Claude Opus 4.8 跑分對照表，比較 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 在程式、推理、電腦操作、知識工作、財務分析的成績

▲ Opus 4.8 跑分對照表｜圖片來源：Anthropic

該贏的有贏。寫程式的 SWE-Bench Pro 從 4.7 的 64.3% 拉到 69.2%，把 GPT-5.5 的 58.6% 跟 Gemini 的 54.2% 拉開一個身位。知識工作那項 GDPval-AA 拿到 1890 分，對手分別是 1769 跟 1314，差距更明顯。財務分析也小升。

但我要你看的是第二列：終端機程式（Terminal-Bench 2.1）。GPT-5.5 拿 78.2%，直接壓過 Opus 4.8 的 74.6%，而且這格還被特別標粗。Anthropic 在自己的發表圖裡，留了一格輸給對手，沒有修掉。

更狠的是底下那行小字。footnote 裡他們補了一句：如果 GPT-5.5 改用對方自家的 Codex CLI 環境跑，分數是 83.4%——也就是說，他們不只承認輸，還主動把自己輸得更難看的版本寫出來。

這個動作先記著。它不只是跑分上的小瑕疵，它其實就是這次發表真正想講的那件事的活廣告。下一章會把這條線收起來。

CHAPTER 03 · THE REAL UPGRADE

真正的升級：它開始承認「我不確定」

AI 模型有一個老毛病：它常常太有自信。明明證據很薄，還是會拍胸脯說「搞定了」。你用它寫程式、寫文案、做分析，最累的不是它做不出來，是它做錯了還一臉篤定，逼你自己回頭抓蟲。

為什麼大家在意 Opus 4.8：更誠實更穩定，約 4 倍更少忽略自身程式錯誤，長脈絡更穩、工具使用更乾淨、程式推理更可靠

▲ 這次升級的重點：更誠實、更穩定

Opus 4.8 這次主打的，就是治這個毛病。官方說它更會主動標記不確定的地方、少做沒根據的宣稱。而且給了一個具體數字：它讓自己寫的程式碼帶著瑕疵卻不吭聲的機率，比上一代低了大約四倍。早期測試的金融分析師回饋也是同一件事——它會主動指出輸入和輸出裡的問題，而這些問題以前都得使用者自己抓。

Anthropic 還跑了一份對齊評估。結論是 Opus 4.8 在「欺騙」「配合濫用」這類失準行為上的比例，比 4.7 明顯降低，幾乎追平他們目前最對齊的 Mythos Preview。下面這張官方圖看得最清楚——長條越矮越好。

Anthropic 對齊評估長條圖，比較 Sonnet 4.6、Mythos Preview、Opus 4.7、Opus 4.8 的失準行為分數，分數越低越好，Opus 4.8 明顯低於 Opus 4.7

▲ 失準行為評估，分數越低代表越少欺騙與配合濫用｜圖片來源：Anthropic

現在把上一章那一格輸掉的數字接回來。一家公司在自己的發表圖裡留一格敗績、還主動補上更難看的版本——這跟它主打「誠實」的模型，是同一個動作。產品在替發表稿示範它想賣的東西。這比任何一句行銷標語都有說服力。

我自己會這樣理解這次升級的價值。想像你帶一個 junior：A 每次都說「沒問題交給我」，結果三次有一次悄悄出包；B 會在卡住的時候舉手說「這段我不確定，你要不要看一下」。長期下來，你敢把重要的東西交給 B，不敢交給 A。Opus 4.8 想做的，是從 A 變成 B。

「我寧可要一個會說『這裡我不確定』的協作者，也不要一個每次都拍胸脯、最後讓我自己抓蟲的天才。」

RIVEN · 2026

這也接上了 4.7 的故事。我之前寫過，Opus 4.7 的招牌是「嚴格照字面執行」——你叫它做什麼它就做什麼，不再自行詮釋。那一代解決的是「聽不聽話」。4.8 往前走一步，補的是「有沒有判斷力」：它會問對問題、會在計畫不合理時踩煞車、會抓自己的錯。聽話加上判斷，協作者的樣子才算完整。

CHAPTER 04 · IN PRACTICE

設計師與內容創作者怎麼用

跑分跟你日常無關，能不能省你時間才有關。我把這次的更新翻成三個實際場景。

設計師怎麼用 Claude Opus 4.8：UX Research 整理、資訊架構與流程、文案與提案、設計 Critique、讀圖與 PDF

▲ 不是只有工程師能用：設計師的五種用法

一、學會把「努力程度」往下調

多數人看到 effort control 的直覺是「永遠開最高」。這是用錯了。這個開關真正的價值在往下調，不在往上。

高

預設值（High）

官方判斷品質與體驗最平衡的檔位。日常九成的事用這檔就好，不用動它。

Max

往上開（Extra / Max）

難題、需要長時間自己跑的非同步任務才開。它會燒更多 token 換更好的結果。官方建議困難任務用「extra」。

低

往下調（被低估的用法）

改錯字、調語氣、查一個小資料這種輕活，調低檔回得更快，而且更省你的用量額度。把額度留給真正難的事，這才是這個開關的精髓。

二、敢把長任務丟著不管

Opus 4.8 能更久地獨立工作，配上 Claude Code 的 dynamic workflows，可以一次處理過去得分好幾段才能跑完的大任務。對需要寫程式、做整站改版、跑大批內容的人，這代表你可以把任務交出去、去做別的事，回來再驗收。官方這支影片示範的就是這個——讓 Opus 4.8 接手長時間任務：

▲ 官方示範：用 Opus 4.8 與 Claude Code 處理長時間任務｜來源：Claude 官方頻道

三、把它當會挑毛病的審稿人

既然它更會主動標記問題，就別只叫它「生產」，要叫它「挑錯」。把你寫好的文案、排好的版面邏輯、做好的分析丟給它，明講「找出你不確定或可能有問題的地方」。4.8 在這種任務上的回饋，會比前幾代更敢踩你痛點，而不是一味稱讚。對一個人撐多個產品線的創作者來說，這等於多了一個不用排班的審稿同事。如果你還沒把 Claude 接進日常設計工作，我之前整理過一套設計師的 AI 工作系統，可以當起手式。

CHAPTER 05 · LIMITS

限制與該有的期待

講完優點，照慣例潑點冷水。Opus 4.8 是「明顯但溫和」的進步，這是 Anthropic 自己的用詞，我認同。它不是那種讓你「哇」一聲的世代躍進。

跑分多半是個位數百分點的提升，電腦操作那項甚至只多 0.6%。終端機程式還輸給 GPT-5.5。如果你是 4.7 的重度用戶，日常單次體驗的差別可能不會太戲劇化——真正的價值要在「長期靠它交差」的累積裡才看得出來。

另外，Anthropic 提過會有比 Opus 更聰明的新一代模型，目前叫 Mythos，但還沒對一般用戶開放，要等更強的資安防護到位，官方說「未來幾週」。dynamic workflows 也還是研究預覽，而且只給 Enterprise、Team、Max 方案。免費跟低階方案用不到 Opus，這點沒變。

所以該有的期待是：把它當成 4.7 的可靠度升級版，不是革命。值得換，但別期待換完世界就不一樣。想看上一代到底升級了什麼，可以對照我寫的 Opus 4.6 完整介紹，這樣整條 4.x 的演進線就接得起來。

CHAPTER 06 · TAKEAWAYS

重點整理

這次發表最值得帶走的一句話：模型的競賽正在從「誰更聰明」悄悄轉向「誰更可信」。對天天靠 AI 產出交差的人來說，一個會說「我不確定」的模型，價值遠超過跑分表上多出來的那兩格。

你該不該用 Claude Opus 4.8：適合需要高品質推理、超長脈絡理解、穩定工具使用、處理高難度專案的人

▲ 一句話總結：你該不該用 Opus 4.8

常見問題

Q：Claude Opus 4.8 什麼時候發布、要怎麼用？

A：2026 年 5 月 28 日發布，當天全面開放。可以在 claude.ai、Claude Code 跟 Claude API 使用，API 模型代號是 claude-opus-4-8。需要付費方案才用得到 Opus。

Q：Opus 4.8 比 Opus 4.7 強多少？

A：跑分上多為個位數百分點的提升，例如寫程式的 SWE-Bench Pro 從 64.3% 到 69.2%。但最大的差異不在數字，而在可靠度與誠實——它更會主動標記自己不確定的地方，讓程式帶瑕疵卻不吭聲的機率比 4.7 低約四倍。

Q：價格有漲嗎？

A：沒有，跟 4.7 一樣。一般用量每百萬輸入 token 5 美元、輸出 25 美元；快速模式 10 美元 / 50 美元，速度 2.5 倍且比之前便宜三倍。

Q：effort control（努力程度）這個新開關該怎麼設？

A：日常用預設的高檔就好。難題或長時間任務往上開 extra / max 換更好結果；改錯字、查小資料這種輕活往下調，回得快又省額度。重點是學會往下調，別永遠開最高。

Q：設計師有需要從 4.7 換到 4.8 嗎？

A：值得換，而且無痛。同價格、可靠度更好、更會挑出你產出裡的問題。但別期待革命性差異——把它當 4.7 的可靠度升級版看待最準確。

Q：Opus 4.8 是 Anthropic 最強的模型嗎？

A：是目前一般用戶能用到的最強。Anthropic 另有一個更聰明的 Mythos 系列，但還沒普遍開放，要等更強的資安防護到位，官方說未來幾週。

SUBSCRIPTION · AIWAKEN

AI 覺醒設計應用攻略

AI 工具每週都在更新，我幫你過濾雜訊，只整理對設計師真正有用的應用。

✦ AI 工具實測與工作流

✦ 設計師角度 Prompt 技巧

✦ 每週 AI × 設計新知

了解訂閱方案 →