生成式 AI 是什麼？設計師必懂的完整工具地圖與工作流入門

從文字、圖像、影片到程式碼,一篇看懂 2026 年生成式 AI 的核心邏輯與實戰

設計師 Riven

2026年5月19日下午 1:06

AI 設計

AI FUNDAMENTALS · 2026 GUIDE

▲ 設計師視角的生成式 AI 完整工具地圖，從 ChatGPT、Midjourney、Figma AI 到 CapCut AI，五大類工具對應設計工作流的五個階段。AI 不是另一個 app，是新的創意 copilot。

QUICK ANSWER

生成式 AI（Generative AI）是能從一句話直接產出新內容的 AI 系統，包含文字（Claude、GPT）、圖像（Midjourney、Firefly）、影片（Sora、Seedance）、程式碼（Cursor、Claude Code）四大類。底層靠兩種引擎：Transformer 處理語言、Diffusion 處理視覺。對設計師來說，它不是替代工具，是把概念到成品之間的距離壓縮十倍。本文從原理、工具地圖、實戰工作流到三個現實限制，一篇看懂。

CHAPTER 01 · WHAT IS IT

生成式 AI 到底是什麼

最簡單的判斷方式：你打一句話，它「無中生有」回你一個新東西。文字、圖像、影片、音樂、程式碼，只要輸出是模型自己生出來、不是從資料庫撈出來的，就是生成式 AI。

這跟我們過去十年熟悉的 AI 完全不一樣。Spotify 的推薦演算法是 AI、Google 搜尋的排序是 AI，但那些是「判別式 AI（Discriminative AI）」——它的工作是把既有內容分類、排序、預測標籤。生成式 AI 是「無中生有」，它的工作是「從機率分布裡採樣出一個全新的樣本」。

兩者的差別，用設計師熟悉的話講：判別式 AI 是 Photoshop 的「主體選取」工具——它認得什麼是主體，但不能畫主體。生成式 AI 是 Firefly 的「生成填色」——你告訴它你要什麼，它從零畫給你。

過去十年 AI 在幫你「找」東西，接下來十年 AI 在幫你「造」東西。設計師的工作流會被重寫一次。

CHAPTER 02 · WHY IT MATTERS

為什麼設計師現在必須懂

2022 年 11 月 ChatGPT 上線那週，設計圈第一波反應是觀望。三年過去，情況變了：Adobe 把 Firefly 整進 Photoshop、Illustrator、Premiere、Lightroom，Figma 推出 Make 跟 Weave，Canva 出 Canva AI Studio，連 Linear、Notion、Slack 都接了大語言模型。生成式 AI 不再是「另外打開一個 app」的事，它直接住進設計師每天打開的工具裡。

我自己這兩年的工作流變化，可以給你一個量級的概念：過去做一張 IG 輪播主視覺，從找參考、發想、出稿，大概要兩到三個小時。現在從 prompt 到三版可選的草圖，十五分鐘。寫一篇 3000 字部落格，從研究到完稿原本一個工作天，現在四到五個小時。做一支 30 秒 YouTube Shorts，原本要拍要剪，現在 Seedance 2.0 + ElevenLabs + CapCut，三個小時內成片。

這個壓縮率不只是「快一點」，它直接改變了一件事的可行性。一個獨立設計師，現在能維護的內容產出量，是兩年前的五倍。不懂生成式 AI 的設計師，跟懂的設計師，差距正在指數級拉開。

10×

CONCEPT TO DRAFT

從發想到草稿的速度倍數

5×

CONTENT OUTPUT

獨立設計師可維護的產量

∞

VERSIONS

同一個概念可出的變體版本

CHAPTER 03 · HOW IT WORKS

兩種引擎，撐起整個生成式 AI

生成式 AI 表面看起來百花齊放，但底層只有兩種引擎在打天下：Transformer 跟 Diffusion。懂這兩個，你就懂為什麼 Claude 跟 Midjourney 看起來像是兩個世界的東西——因為它們真的是兩種完全不同的數學機器。

Transformer：語言、程式、推理的引擎

2017 年 Google 一篇論文《Attention Is All You Need》發明了 Transformer 架構，從此改寫整個 AI 史。它的核心想法很簡單：讓模型在生成下一個字的時候，可以「同時看到」前面所有字，並判斷哪些字對當下這個位置最重要——這個機制叫 self-attention（自注意力）。

你現在用的 ChatGPT、Claude、Gemini，本質都是放大版的 Transformer。當你問 Claude「幫我寫一封英文 email」，它做的事情其實是：從你的 prompt 出發，一個 token 一個 token 推測「下一個最合理的字是什麼」，直到整封信寫完。聽起來很笨，但當參數量大到一定規模（現在的旗艦模型動輒上兆參數），這個機制能寫程式、推理數學、翻譯詩、模擬人格。

▲ Anthropic 官方研究影片，用視覺化方式拆解 Claude 在生成回應時內部到底在「想」什麼。對理解 Transformer 黑箱內部最直觀的一支片。影/Anthropic

Diffusion：圖像、影片、聲音的引擎

Midjourney、Stable Diffusion、DALL·E、Firefly、Sora、Seedance——所有視覺類生成 AI，底層都是擴散模型（Diffusion Model）。它的邏輯反直覺到很迷人：模型先學會「怎麼把一張清晰的圖逐步加噪聲變成雜訊」，然後再學會「怎麼把純雜訊逐步去噪還原成清晰的圖」。

生成的時候，模型從一張完全隨機的雜訊圖開始，根據你的 prompt 一步一步把雜訊「降回」成具體圖像。所以你看 Midjourney 生圖的進度條，那個逐漸清晰的過程不是 UI 特效，是它真的在做的事情。

影片生成本質是「一次生成多張連續一致的擴散圖」，所以 Sora、Seedance 這類影片模型計算量比文生圖大上百倍——這也是為什麼影片生成現在還很貴、很慢、長片還做不出來。

▲ Anthropic 研究團隊在追蹤大型語言模型內部「思考路徑」時的視覺化，藍色節點代表激活的概念神經元。圖/Anthropic Research

TIMELINE · 2017–2026

生成式 AI 九年快轉

2017

Google 發表《Attention Is All You Need》，Transformer 架構誕生。當時沒人預期它會改寫世界。

2020

OpenAI 發表 GPT-3，1750 億參數震驚產業。同年 DDPM 論文奠定現代 Diffusion 模型基礎。

2022

Midjourney、Stable Diffusion、DALL·E 2 接連登場，圖像生成元年。11 月 ChatGPT 開放，五天破百萬用戶。

2023

GPT-4 發布、Anthropic Claude 上線、Adobe Firefly 整進 Creative Cloud。設計工具集體 AI 化。

2024

Sora 預覽、Suno 音樂生成、Claude 3.5 Sonnet 寫程式逆襲。多模態（multimodal）成關鍵字。

2025

GPT-5、Claude 4 系列、Veo 3、Seedance 2.0 接連登場。AI Agent（代理）從概念變實用。

2026

Claude Opus 4.7、Cowork、Claude in Chrome，模型開始能「在你電腦上幫你做事」。設計師的工作流再次重寫。

CHAPTER 04 · TYPE MAP

四大類型工具地圖

生成式 AI 的應用面太廣，但對設計師來說，只要把它分成四種輸出類型，工具選擇就清楚了。每一類我挑出最具代表性的、現在還在更新的工具，給你一張可以實際上手的地圖。

01 · TEXT

文字生成

寫稿、翻譯、改文、發想、分析、寫程式。所有文字工作的引擎。

主流工具： Claude Opus 4.7、ChatGPT、Gemini、DeepSeek

02 · IMAGE

圖像生成

概念視覺、品牌素材、illustration、icon、photo composite。

主流工具： Midjourney、Adobe Firefly、ChatGPT Image、即夢 AI

03 · VIDEO & AUDIO

影片與音訊

廣告短片、YouTube Shorts、配樂、配音、podcast。

主流工具： Sora 2、Seedance 2.0、Veo 3、Suno、ElevenLabs

04 · CODE & UI

程式碼與介面

前端原型、網頁、互動 demo、自動化腳本。設計開發界線正在消失。

主流工具： Claude Code、Cursor、Lovable、Figma Make、v0

四類之間正在快速融合。Claude 已經能在對話裡直接畫圖、寫程式、跑程式；Sora 2 可以從一張靜態圖生 30 秒影片；Figma Make 可以從一段文字產出可互動的網頁原型。「工具地圖」這件事，正在從四個獨立區塊，變成一張交叉地網。

TOOLS IN ACTION · 工具實際長這樣

四家代表工具的現場一瞥

講工具名稱沒有臨場感，看一眼官方視覺反而更直接。下面四張都是各家官方發布的素材，把這份地圖從文字落到畫面上。

Anthropic Claude Opus 4.7 概念視覺,神經連結頭像與創意塗鴉

01 · TEXT

Claude Opus 4.7 · Anthropic

Anthropic 為 Claude Opus 4.7 製作的概念視覺，神經連結頭像呼應它「對話即推理引擎」的定位。圖/Anthropic

02 · IMAGE

Adobe Firefly · Adobe

Adobe Firefly 官方產品頁主視覺，集合多種風格的 AI 生成作品——人像、靜物、商品、奇幻場景。圖/Adobe

Seedance 2.0 與 Veo 3.1、Kling 3.0、Wan 2.6 的圖生影片六項指標雷達評估圖

03 · VIDEO

Seedance 2.0 · ByteDance

ByteDance 官方放出的雷達評估，Seedance 2.0 對 Veo 3.1、Kling 3.0 在 6 項影音指標近乎全項拉開。圖/ByteDance Seed

Claude Code 介面截圖,左邊 session 列表、中間 agentic task panel、右邊代碼編輯器與 terminal

04 · CODE & UI

Claude Code · Anthropic

Claude Code 把寫檔、Lint、Typecheck、Build 一連串 agentic 動作排在一條時間軸上自己跑完。圖/Anthropic

CHAPTER 05 · IN PRACTICE

設計師三個高頻實戰工作流

講原理只能讓人聽懂，講工作流才能讓人用得起來。下面三個是我自己每週都跑的場景，新手可以直接照搬。

工作流一：從文字到提案視覺（30 分鐘版）

情境：客戶丟一段品牌簡介，要你三天內出三組提案概念圖。傳統做法是查資料、找 reference、出 sketch，大概兩到三天。

新做法：把品牌簡介丟給 Claude，請它從不同角度提三個 visual direction（例如「極簡幾何」「手繪溫度」「賽博龐克」），每個方向給你五個關鍵字。把這十五個關鍵字組合成 prompt 丟到 Midjourney 或 Firefly，每組生四張，半小時內你手上有三十六張可選的草圖。挑三組往下，做提案 deck。原本三天的工作，半天完工。

工作流二：一張封面，十個尺寸（15 分鐘版）

情境：做完一張橫式封面，要出 IG 直式、Threads 方形、YouTube 縮圖、FB 廣告、官網 hero 共十種尺寸。傳統做法是手動裁切跟重組，大概兩小時。

新做法：Photoshop 內建的 Generative Expand（生成擴展）直接把橫式擴成方形跟直式，AI 補上原本沒有的畫面。原本構圖差的角度，跟手繪重做差不多。十五分鐘搞定十個尺寸。

工作流三：長文本拆成多平台貼文（20 分鐘版）

情境：剛寫完一篇 2500 字部落格文章，要拆成 IG 輪播 9 卡、Threads 兩篇短文、FB 一篇長文、Email 開頭、YouTube Shorts 腳本。傳統做法每個平台重寫一次，半個工作日。

新做法：把原文丟給 Claude，給它每個平台的字數限制跟語氣指引，一次性產出五版改寫。設計師只負責挑、改、出視覺。二十分鐘所有平台素材到位。

AI 不會取代設計師，但會用 AI 的設計師會取代不會用的。這句話現在聽起來像口號，三年後它是現實。

CHAPTER 06 · LIMITS

三個必須誠實面對的限制

我不想寫一篇假裝生成式 AI 沒有問題的文章。它有三個現實限制，任何要長期用 AI 的設計師都要先想清楚。

一、版權與訓練資料的灰色地帶

Midjourney、Stable Diffusion 早期都被告過，訓練資料裡有大量未授權的藝術家作品。Adobe Firefly 是少數聲明「只用 Adobe Stock 授權圖訓練」的模型，所以商業使用最安心。如果你的客戶是國際品牌、上市公司、政府案，優先用 Firefly 跟 ChatGPT（OpenAI 有商業 indemnification），避免 Midjourney 直接出商用素材。

二、品質天花板：AI 80 分，但最後 20 分還是要設計師

AI 生圖的細節錯誤（手指、文字、邊緣）、AI 寫稿的語氣偏移（過度條列、AI 味、無意義收尾）、AI 影片的物理錯亂（東西穿過彼此、燈光跳變），都還是常態。AI 給你 80 分的初稿，但要做到 95 分的成品，人的判斷力仍然不可取代。

三、依賴風險：你的工作流會被一家公司綁定

Anthropic 漲價、OpenAI 改規則、Midjourney 改訂閱方案——你每天的工作流都可能因為一個外部決策被打亂。我自己的對策是不押注單一工具，文字主用 Claude、輔助 ChatGPT；圖像主用 Firefly，輔助 Midjourney；影片主用 Seedance，輔助 Veo。多備一條後路，永遠是專業創作者的基本盤。

CHAPTER 07 · TAKEAWAYS

設計師該怎麼進場

如果你還沒開始，不要一次學十個工具。從每天會用到的那一個切入：寫文案多就先用 Claude、做平面多就先用 Firefly、做影片多就先用 Seedance。一個工具用熟到能寫出讓自己滿意的 prompt，再加第二個。

接下來十年最有競爭力的設計師，不會是「會用 Photoshop」的人，而是「會把一個構想用三種 AI 工具串成成品」的人。Prompt 是新的「畫筆」，工作流設計是新的「排版」，挑選與品味是設計師永遠的護城河。

我在 RAR 設計攻略寫了快十年的設計觀察，過去兩年最大的轉變就是：幾乎每篇文章都跟 AI 有關。不是因為趕風口，是因為這真的就是設計圈正在發生的事。你可以不喜歡，但不能不知道。

SUBSCRIPTION · AIWAKEN

AI 覺醒設計應用攻略

AI 工具每週都在更新，我幫你過濾雜訊，只整理對設計師真正有用的應用。

✦ AI 工具實測與工作流

✦ 設計師角度 Prompt 技巧

✦ 每週 AI × 設計新知

了解訂閱方案 →

FAQ · 常見問題

關於生成式 AI 的七個常見問題

Q1：生成式 AI 跟 ChatGPT 是同一件事嗎？

ChatGPT 是 OpenAI 推出的「一個產品」，生成式 AI 是它背後那一整類「技術」。Claude、Gemini、Midjourney、Sora 全部都是生成式 AI，但都不是 ChatGPT。把 ChatGPT 當成代名詞會錯過一整片更適合設計師的工具圈。

Q2：設計師要從哪個工具入門？

從你每天最常做的事情切入。文案多就先學 Claude（寫稿能力比 ChatGPT 細膩很多）、做平面設計就先學 Adobe Firefly（直接整在 Photoshop/Illustrator 裡）、做影片就先學 Seedance 2.0（中文支援好、價格友善）。一次只學一個，用到熟。

Q3：用 AI 生圖會不會有版權問題？

分兩塊看：訓練資料的版權目前還是灰色地帶，Adobe Firefly 是唯一聲明只用授權圖訓練的主流工具，所以商用案安心。輸出物的版權，大部分平台都規定屬於使用者，但具體還是要看你訂閱方案的條款。商業專案優先用 Firefly，個人創作 Midjourney 沒問題。

Q4：AI 會取代設計師的工作嗎？

不會取代，但會重新洗牌。重複性高的執行工作（裁圖、改尺寸、套版）會被吃掉，但「決定要做什麼、用什麼風格、怎麼跟客戶溝通」這些判斷工作只會更值錢。設計師的核心能力從「會做」變成「會想跟會挑」。

Q5：Prompt 要怎麼寫才好？

三個原則：給角色（「你是一個資深 UI 設計師」）、給情境（「為一家新創 SaaS 公司」）、給輸出格式（「用條列式給我三個方案」）。越具體越好。寫不出來的時候，讓 Claude 自己幫你寫 prompt——它擅長這個。

Q6：免費版工具夠用嗎，還是要付費？

探索期免費版夠了。但一旦你發現每天都會用，付費版投資報酬率非常高——一個月一千多塊台幣換來工時減半，任何接案設計師算一下就清楚。Claude Pro、Midjourney Standard、Firefly 付費版這三個是設計師最常見的核心組合。

Q7：中文支援好嗎？

文字類已經完全成熟，Claude 跟 ChatGPT 的繁中比兩年前細膩太多。圖像生成的中文 prompt 也夠用，但純中文書法、招牌字、特殊字體還是 ChatGPT Image 跟 Firefly 比較穩。影片生成中文字幕跟對嘴目前是 Seedance 2.0 領先。

繼續往下走

想看更多 AI 工具實測與設計師應用，可以從這幾個入口開始：

→RAR 設計攻略 AI 工具分類，所有 AI 工具實測文章在這裡
→AI 覺醒設計應用攻略訂閱方案，每週深度 AI 工具情報
→RAR 設計攻略首頁，Figma、Photoshop、AI 全系列課程

文章標籤

# AI入門 # AI工作流 # 設計師AI # Firefly # Midjourney # Claude # AI設計 # 生成式AI