生成式 AI 是什麼?設計師必懂的完整工具地圖與工作流入門
AI FUNDAMENTALS · 2026 GUIDE
QUICK ANSWER
生成式 AI(Generative AI)是能從一句話直接產出新內容的 AI 系統,包含文字(Claude、GPT)、圖像(Midjourney、Firefly)、影片(Sora、Seedance)、程式碼(Cursor、Claude Code)四大類。底層靠兩種引擎:Transformer 處理語言、Diffusion 處理視覺。對設計師來說,它不是替代工具,是把概念到成品之間的距離壓縮十倍。本文從原理、工具地圖、實戰工作流到三個現實限制,一篇看懂。
CHAPTER 01 · WHAT IS IT
生成式 AI 到底是什麼
最簡單的判斷方式:你打一句話,它「無中生有」回你一個新東西。文字、圖像、影片、音樂、程式碼,只要輸出是模型自己生出來、不是從資料庫撈出來的,就是生成式 AI。
這跟我們過去十年熟悉的 AI 完全不一樣。Spotify 的推薦演算法是 AI、Google 搜尋的排序是 AI,但那些是「判別式 AI(Discriminative AI)」——它的工作是把既有內容分類、排序、預測標籤。生成式 AI 是「無中生有」,它的工作是「從機率分布裡採樣出一個全新的樣本」。
兩者的差別,用設計師熟悉的話講:判別式 AI 是 Photoshop 的「主體選取」工具——它認得什麼是主體,但不能畫主體。生成式 AI 是 Firefly 的「生成填色」——你告訴它你要什麼,它從零畫給你。
過去十年 AI 在幫你「找」東西,接下來十年 AI 在幫你「造」東西。設計師的工作流會被重寫一次。
CHAPTER 02 · WHY IT MATTERS
為什麼設計師現在必須懂
2022 年 11 月 ChatGPT 上線那週,設計圈第一波反應是觀望。三年過去,情況變了:Adobe 把 Firefly 整進 Photoshop、Illustrator、Premiere、Lightroom,Figma 推出 Make 跟 Weave,Canva 出 Canva AI Studio,連 Linear、Notion、Slack 都接了大語言模型。生成式 AI 不再是「另外打開一個 app」的事,它直接住進設計師每天打開的工具裡。
我自己這兩年的工作流變化,可以給你一個量級的概念:過去做一張 IG 輪播主視覺,從找參考、發想、出稿,大概要兩到三個小時。現在從 prompt 到三版可選的草圖,十五分鐘。寫一篇 3000 字部落格,從研究到完稿原本一個工作天,現在四到五個小時。做一支 30 秒 YouTube Shorts,原本要拍要剪,現在 Seedance 2.0 + ElevenLabs + CapCut,三個小時內成片。
這個壓縮率不只是「快一點」,它直接改變了一件事的可行性。一個獨立設計師,現在能維護的內容產出量,是兩年前的五倍。不懂生成式 AI 的設計師,跟懂的設計師,差距正在指數級拉開。
10×
CONCEPT TO DRAFT
從發想到草稿的速度倍數
5×
CONTENT OUTPUT
獨立設計師可維護的產量
∞
VERSIONS
同一個概念可出的變體版本
CHAPTER 03 · HOW IT WORKS
兩種引擎,撐起整個生成式 AI
生成式 AI 表面看起來百花齊放,但底層只有兩種引擎在打天下:Transformer 跟 Diffusion。懂這兩個,你就懂為什麼 Claude 跟 Midjourney 看起來像是兩個世界的東西——因為它們真的是兩種完全不同的數學機器。
Transformer:語言、程式、推理的引擎
2017 年 Google 一篇論文《Attention Is All You Need》發明了 Transformer 架構,從此改寫整個 AI 史。它的核心想法很簡單:讓模型在生成下一個字的時候,可以「同時看到」前面所有字,並判斷哪些字對當下這個位置最重要——這個機制叫 self-attention(自注意力)。
你現在用的 ChatGPT、Claude、Gemini,本質都是放大版的 Transformer。當你問 Claude「幫我寫一封英文 email」,它做的事情其實是:從你的 prompt 出發,一個 token 一個 token 推測「下一個最合理的字是什麼」,直到整封信寫完。聽起來很笨,但當參數量大到一定規模(現在的旗艦模型動輒上兆參數),這個機制能寫程式、推理數學、翻譯詩、模擬人格。
▲ Anthropic 官方研究影片,用視覺化方式拆解 Claude 在生成回應時內部到底在「想」什麼。對理解 Transformer 黑箱內部最直觀的一支片。影/Anthropic
Diffusion:圖像、影片、聲音的引擎
Midjourney、Stable Diffusion、DALL·E、Firefly、Sora、Seedance——所有視覺類生成 AI,底層都是擴散模型(Diffusion Model)。它的邏輯反直覺到很迷人:模型先學會「怎麼把一張清晰的圖逐步加噪聲變成雜訊」,然後再學會「怎麼把純雜訊逐步去噪還原成清晰的圖」。
生成的時候,模型從一張完全隨機的雜訊圖開始,根據你的 prompt 一步一步把雜訊「降回」成具體圖像。所以你看 Midjourney 生圖的進度條,那個逐漸清晰的過程不是 UI 特效,是它真的在做的事情。
影片生成本質是「一次生成多張連續一致的擴散圖」,所以 Sora、Seedance 這類影片模型計算量比文生圖大上百倍——這也是為什麼影片生成現在還很貴、很慢、長片還做不出來。
TIMELINE · 2017–2026
生成式 AI 九年快轉
2017
Google 發表《Attention Is All You Need》,Transformer 架構誕生。當時沒人預期它會改寫世界。
2020
OpenAI 發表 GPT-3,1750 億參數震驚產業。同年 DDPM 論文奠定現代 Diffusion 模型基礎。
2022
Midjourney、Stable Diffusion、DALL·E 2 接連登場,圖像生成元年。11 月 ChatGPT 開放,五天破百萬用戶。
2023
GPT-4 發布、Anthropic Claude 上線、Adobe Firefly 整進 Creative Cloud。設計工具集體 AI 化。
2024
Sora 預覽、Suno 音樂生成、Claude 3.5 Sonnet 寫程式逆襲。多模態(multimodal)成關鍵字。
2025
GPT-5、Claude 4 系列、Veo 3、Seedance 2.0 接連登場。AI Agent(代理)從概念變實用。
2026
Claude Opus 4.7、Cowork、Claude in Chrome,模型開始能「在你電腦上幫你做事」。設計師的工作流再次重寫。
CHAPTER 04 · TYPE MAP
四大類型工具地圖
生成式 AI 的應用面太廣,但對設計師來說,只要把它分成四種輸出類型,工具選擇就清楚了。每一類我挑出最具代表性的、現在還在更新的工具,給你一張可以實際上手的地圖。
01 · TEXT
文字生成
寫稿、翻譯、改文、發想、分析、寫程式。所有文字工作的引擎。
主流工具: Claude Opus 4.7、ChatGPT、Gemini、DeepSeek
02 · IMAGE
圖像生成
概念視覺、品牌素材、illustration、icon、photo composite。
主流工具: Midjourney、Adobe Firefly、ChatGPT Image、即夢 AI
03 · VIDEO & AUDIO
影片與音訊
廣告短片、YouTube Shorts、配樂、配音、podcast。
主流工具: Sora 2、Seedance 2.0、Veo 3、Suno、ElevenLabs
04 · CODE & UI
程式碼與介面
前端原型、網頁、互動 demo、自動化腳本。設計開發界線正在消失。
主流工具: Claude Code、Cursor、Lovable、Figma Make、v0
四類之間正在快速融合。Claude 已經能在對話裡直接畫圖、寫程式、跑程式;Sora 2 可以從一張靜態圖生 30 秒影片;Figma Make 可以從一段文字產出可互動的網頁原型。「工具地圖」這件事,正在從四個獨立區塊,變成一張交叉地網。
TOOLS IN ACTION · 工具實際長這樣
四家代表工具的現場一瞥
講工具名稱沒有臨場感,看一眼官方視覺反而更直接。下面四張都是各家官方發布的素材,把這份地圖從文字落到畫面上。
CHAPTER 05 · IN PRACTICE
設計師三個高頻實戰工作流
講原理只能讓人聽懂,講工作流才能讓人用得起來。下面三個是我自己每週都跑的場景,新手可以直接照搬。
工作流一:從文字到提案視覺(30 分鐘版)
情境:客戶丟一段品牌簡介,要你三天內出三組提案概念圖。傳統做法是查資料、找 reference、出 sketch,大概兩到三天。
新做法:把品牌簡介丟給 Claude,請它從不同角度提三個 visual direction(例如「極簡幾何」「手繪溫度」「賽博龐克」),每個方向給你五個關鍵字。把這十五個關鍵字組合成 prompt 丟到 Midjourney 或 Firefly,每組生四張,半小時內你手上有三十六張可選的草圖。挑三組往下,做提案 deck。原本三天的工作,半天完工。
工作流二:一張封面,十個尺寸(15 分鐘版)
情境:做完一張橫式封面,要出 IG 直式、Threads 方形、YouTube 縮圖、FB 廣告、官網 hero 共十種尺寸。傳統做法是手動裁切跟重組,大概兩小時。
新做法:Photoshop 內建的 Generative Expand(生成擴展)直接把橫式擴成方形跟直式,AI 補上原本沒有的畫面。原本構圖差的角度,跟手繪重做差不多。十五分鐘搞定十個尺寸。
工作流三:長文本拆成多平台貼文(20 分鐘版)
情境:剛寫完一篇 2500 字部落格文章,要拆成 IG 輪播 9 卡、Threads 兩篇短文、FB 一篇長文、Email 開頭、YouTube Shorts 腳本。傳統做法每個平台重寫一次,半個工作日。
新做法:把原文丟給 Claude,給它每個平台的字數限制跟語氣指引,一次性產出五版改寫。設計師只負責挑、改、出視覺。二十分鐘所有平台素材到位。
AI 不會取代設計師,但會用 AI 的設計師會取代不會用的。這句話現在聽起來像口號,三年後它是現實。
CHAPTER 06 · LIMITS
三個必須誠實面對的限制
我不想寫一篇假裝生成式 AI 沒有問題的文章。它有三個現實限制,任何要長期用 AI 的設計師都要先想清楚。
一、版權與訓練資料的灰色地帶
Midjourney、Stable Diffusion 早期都被告過,訓練資料裡有大量未授權的藝術家作品。Adobe Firefly 是少數聲明「只用 Adobe Stock 授權圖訓練」的模型,所以商業使用最安心。如果你的客戶是國際品牌、上市公司、政府案,優先用 Firefly 跟 ChatGPT(OpenAI 有商業 indemnification),避免 Midjourney 直接出商用素材。
二、品質天花板:AI 80 分,但最後 20 分還是要設計師
AI 生圖的細節錯誤(手指、文字、邊緣)、AI 寫稿的語氣偏移(過度條列、AI 味、無意義收尾)、AI 影片的物理錯亂(東西穿過彼此、燈光跳變),都還是常態。AI 給你 80 分的初稿,但要做到 95 分的成品,人的判斷力仍然不可取代。
三、依賴風險:你的工作流會被一家公司綁定
Anthropic 漲價、OpenAI 改規則、Midjourney 改訂閱方案——你每天的工作流都可能因為一個外部決策被打亂。我自己的對策是不押注單一工具,文字主用 Claude、輔助 ChatGPT;圖像主用 Firefly,輔助 Midjourney;影片主用 Seedance,輔助 Veo。多備一條後路,永遠是專業創作者的基本盤。
CHAPTER 07 · TAKEAWAYS
設計師該怎麼進場
如果你還沒開始,不要一次學十個工具。從每天會用到的那一個切入:寫文案多就先用 Claude、做平面多就先用 Firefly、做影片多就先用 Seedance。一個工具用熟到能寫出讓自己滿意的 prompt,再加第二個。
接下來十年最有競爭力的設計師,不會是「會用 Photoshop」的人,而是「會把一個構想用三種 AI 工具串成成品」的人。Prompt 是新的「畫筆」,工作流設計是新的「排版」,挑選與品味是設計師永遠的護城河。
我在 RAR 設計攻略寫了快十年的設計觀察,過去兩年最大的轉變就是:幾乎每篇文章都跟 AI 有關。不是因為趕風口,是因為這真的就是設計圈正在發生的事。你可以不喜歡,但不能不知道。
FAQ · 常見問題
關於生成式 AI 的七個常見問題
Q1:生成式 AI 跟 ChatGPT 是同一件事嗎?
ChatGPT 是 OpenAI 推出的「一個產品」,生成式 AI 是它背後那一整類「技術」。Claude、Gemini、Midjourney、Sora 全部都是生成式 AI,但都不是 ChatGPT。把 ChatGPT 當成代名詞會錯過一整片更適合設計師的工具圈。
Q2:設計師要從哪個工具入門?
從你每天最常做的事情切入。文案多就先學 Claude(寫稿能力比 ChatGPT 細膩很多)、做平面設計就先學 Adobe Firefly(直接整在 Photoshop/Illustrator 裡)、做影片就先學 Seedance 2.0(中文支援好、價格友善)。一次只學一個,用到熟。
Q3:用 AI 生圖會不會有版權問題?
分兩塊看:訓練資料的版權目前還是灰色地帶,Adobe Firefly 是唯一聲明只用授權圖訓練的主流工具,所以商用案安心。輸出物的版權,大部分平台都規定屬於使用者,但具體還是要看你訂閱方案的條款。商業專案優先用 Firefly,個人創作 Midjourney 沒問題。
Q4:AI 會取代設計師的工作嗎?
不會取代,但會重新洗牌。重複性高的執行工作(裁圖、改尺寸、套版)會被吃掉,但「決定要做什麼、用什麼風格、怎麼跟客戶溝通」這些判斷工作只會更值錢。設計師的核心能力從「會做」變成「會想跟會挑」。
Q5:Prompt 要怎麼寫才好?
三個原則:給角色(「你是一個資深 UI 設計師」)、給情境(「為一家新創 SaaS 公司」)、給輸出格式(「用條列式給我三個方案」)。越具體越好。寫不出來的時候,讓 Claude 自己幫你寫 prompt——它擅長這個。
Q6:免費版工具夠用嗎,還是要付費?
探索期免費版夠了。但一旦你發現每天都會用,付費版投資報酬率非常高——一個月一千多塊台幣換來工時減半,任何接案設計師算一下就清楚。Claude Pro、Midjourney Standard、Firefly 付費版這三個是設計師最常見的核心組合。
Q7:中文支援好嗎?
文字類已經完全成熟,Claude 跟 ChatGPT 的繁中比兩年前細膩太多。圖像生成的中文 prompt 也夠用,但純中文書法、招牌字、特殊字體還是 ChatGPT Image 跟 Firefly 比較穩。影片生成中文字幕跟對嘴目前是 Seedance 2.0 領先。
FURTHER READING · 延伸閱讀
繼續往下走
想看更多 AI 工具實測與設計師應用,可以從這幾個入口開始:
→RAR 設計攻略 AI 工具分類,所有 AI 工具實測文章在這裡
→AI 覺醒設計應用攻略訂閱方案,每週深度 AI 工具情報
→RAR 設計攻略首頁,Figma、Photoshop、AI 全系列課程













