生成式 AI 是什麼?設計師必懂的完整工具地圖與工作流入門

從文字、圖像、影片到程式碼,一篇看懂 2026 年生成式 AI 的核心邏輯與實戰
設計師 Riven

設計師 Riven

2026年5月19日 下午 1:06

AI 設計

AI FUNDAMENTALS · 2026 GUIDE

生成式 AI 設計師工具地圖,五大類工具卡片:Chat Idea、Image Generation、Design Layout、3D Product、Video Motion,搭配設計工作流五階段流程

▲ 設計師視角的生成式 AI 完整工具地圖,從 ChatGPT、Midjourney、Figma AI 到 CapCut AI,五大類工具對應設計工作流的五個階段。AI 不是另一個 app,是新的創意 copilot。

QUICK ANSWER

生成式 AI(Generative AI)是能從一句話直接產出新內容的 AI 系統,包含文字(Claude、GPT)、圖像(Midjourney、Firefly)、影片(Sora、Seedance)、程式碼(Cursor、Claude Code)四大類。底層靠兩種引擎:Transformer 處理語言、Diffusion 處理視覺。對設計師來說,它不是替代工具,是把概念到成品之間的距離壓縮十倍。本文從原理、工具地圖、實戰工作流到三個現實限制,一篇看懂。

CHAPTER 01 · WHAT IS IT

生成式 AI 到底是什麼

最簡單的判斷方式:你打一句話,它「無中生有」回你一個新東西。文字、圖像、影片、音樂、程式碼,只要輸出是模型自己生出來、不是從資料庫撈出來的,就是生成式 AI。

這跟我們過去十年熟悉的 AI 完全不一樣。Spotify 的推薦演算法是 AI、Google 搜尋的排序是 AI,但那些是「判別式 AI(Discriminative AI)」——它的工作是把既有內容分類、排序、預測標籤。生成式 AI 是「無中生有」,它的工作是「從機率分布裡採樣出一個全新的樣本」。

兩者的差別,用設計師熟悉的話講:判別式 AI 是 Photoshop 的「主體選取」工具——它認得什麼是主體,但不能畫主體。生成式 AI 是 Firefly 的「生成填色」——你告訴它你要什麼,它從零畫給你。

過去十年 AI 在幫你「找」東西,接下來十年 AI 在幫你「造」東西。設計師的工作流會被重寫一次。

CHAPTER 02 · WHY IT MATTERS

為什麼設計師現在必須懂

2022 年 11 月 ChatGPT 上線那週,設計圈第一波反應是觀望。三年過去,情況變了:Adobe 把 Firefly 整進 Photoshop、Illustrator、Premiere、Lightroom,Figma 推出 Make 跟 Weave,Canva 出 Canva AI Studio,連 Linear、Notion、Slack 都接了大語言模型。生成式 AI 不再是「另外打開一個 app」的事,它直接住進設計師每天打開的工具裡。

我自己這兩年的工作流變化,可以給你一個量級的概念:過去做一張 IG 輪播主視覺,從找參考、發想、出稿,大概要兩到三個小時。現在從 prompt 到三版可選的草圖,十五分鐘。寫一篇 3000 字部落格,從研究到完稿原本一個工作天,現在四到五個小時。做一支 30 秒 YouTube Shorts,原本要拍要剪,現在 Seedance 2.0 + ElevenLabs + CapCut,三個小時內成片。

這個壓縮率不只是「快一點」,它直接改變了一件事的可行性。一個獨立設計師,現在能維護的內容產出量,是兩年前的五倍。不懂生成式 AI 的設計師,跟懂的設計師,差距正在指數級拉開。

10×

CONCEPT TO DRAFT

從發想到草稿的速度倍數

CONTENT OUTPUT

獨立設計師可維護的產量

VERSIONS

同一個概念可出的變體版本

CHAPTER 03 · HOW IT WORKS

兩種引擎,撐起整個生成式 AI

生成式 AI 表面看起來百花齊放,但底層只有兩種引擎在打天下:Transformer 跟 Diffusion。懂這兩個,你就懂為什麼 Claude 跟 Midjourney 看起來像是兩個世界的東西——因為它們真的是兩種完全不同的數學機器。

Transformer:語言、程式、推理的引擎

2017 年 Google 一篇論文《Attention Is All You Need》發明了 Transformer 架構,從此改寫整個 AI 史。它的核心想法很簡單:讓模型在生成下一個字的時候,可以「同時看到」前面所有字,並判斷哪些字對當下這個位置最重要——這個機制叫 self-attention(自注意力)。

你現在用的 ChatGPT、Claude、Gemini,本質都是放大版的 Transformer。當你問 Claude「幫我寫一封英文 email」,它做的事情其實是:從你的 prompt 出發,一個 token 一個 token 推測「下一個最合理的字是什麼」,直到整封信寫完。聽起來很笨,但當參數量大到一定規模(現在的旗艦模型動輒上兆參數),這個機制能寫程式、推理數學、翻譯詩、模擬人格。

▲ Anthropic 官方研究影片,用視覺化方式拆解 Claude 在生成回應時內部到底在「想」什麼。對理解 Transformer 黑箱內部最直觀的一支片。影/Anthropic

Diffusion:圖像、影片、聲音的引擎

Midjourney、Stable Diffusion、DALL·E、Firefly、Sora、Seedance——所有視覺類生成 AI,底層都是擴散模型(Diffusion Model)。它的邏輯反直覺到很迷人:模型先學會「怎麼把一張清晰的圖逐步加噪聲變成雜訊」,然後再學會「怎麼把純雜訊逐步去噪還原成清晰的圖」。

生成的時候,模型從一張完全隨機的雜訊圖開始,根據你的 prompt 一步一步把雜訊「降回」成具體圖像。所以你看 Midjourney 生圖的進度條,那個逐漸清晰的過程不是 UI 特效,是它真的在做的事情。

影片生成本質是「一次生成多張連續一致的擴散圖」,所以 Sora、Seedance 這類影片模型計算量比文生圖大上百倍——這也是為什麼影片生成現在還很貴、很慢、長片還做不出來。

神經網路節點連線圖,藍色節點與黑色連線交織,代表大型語言模型內部的注意力路徑

▲ Anthropic 研究團隊在追蹤大型語言模型內部「思考路徑」時的視覺化,藍色節點代表激活的概念神經元。圖/Anthropic Research

TIMELINE · 2017–2026

生成式 AI 九年快轉

2017

Google 發表《Attention Is All You Need》,Transformer 架構誕生。當時沒人預期它會改寫世界。

2020

OpenAI 發表 GPT-3,1750 億參數震驚產業。同年 DDPM 論文奠定現代 Diffusion 模型基礎。

2022

Midjourney、Stable Diffusion、DALL·E 2 接連登場,圖像生成元年。11 月 ChatGPT 開放,五天破百萬用戶。

2023

GPT-4 發布、Anthropic Claude 上線、Adobe Firefly 整進 Creative Cloud。設計工具集體 AI 化。

2024

Sora 預覽、Suno 音樂生成、Claude 3.5 Sonnet 寫程式逆襲。多模態(multimodal)成關鍵字。

2025

GPT-5、Claude 4 系列、Veo 3、Seedance 2.0 接連登場。AI Agent(代理)從概念變實用。

2026

Claude Opus 4.7、Cowork、Claude in Chrome,模型開始能「在你電腦上幫你做事」。設計師的工作流再次重寫。

CHAPTER 04 · TYPE MAP

四大類型工具地圖

生成式 AI 的應用面太廣,但對設計師來說,只要把它分成四種輸出類型,工具選擇就清楚了。每一類我挑出最具代表性的、現在還在更新的工具,給你一張可以實際上手的地圖。

01 · TEXT

文字生成

寫稿、翻譯、改文、發想、分析、寫程式。所有文字工作的引擎。

主流工具: Claude Opus 4.7、ChatGPT、Gemini、DeepSeek

02 · IMAGE

圖像生成

概念視覺、品牌素材、illustration、icon、photo composite。

主流工具: Midjourney、Adobe Firefly、ChatGPT Image、即夢 AI

03 · VIDEO & AUDIO

影片與音訊

廣告短片、YouTube Shorts、配樂、配音、podcast。

主流工具: Sora 2、Seedance 2.0、Veo 3、Suno、ElevenLabs

04 · CODE & UI

程式碼與介面

前端原型、網頁、互動 demo、自動化腳本。設計開發界線正在消失。

主流工具: Claude Code、Cursor、Lovable、Figma Make、v0

四類之間正在快速融合。Claude 已經能在對話裡直接畫圖、寫程式、跑程式;Sora 2 可以從一張靜態圖生 30 秒影片;Figma Make 可以從一段文字產出可互動的網頁原型。「工具地圖」這件事,正在從四個獨立區塊,變成一張交叉地網。

TOOLS IN ACTION · 工具實際長這樣

四家代表工具的現場一瞥

講工具名稱沒有臨場感,看一眼官方視覺反而更直接。下面四張都是各家官方發布的素材,把這份地圖從文字落到畫面上。

Anthropic Claude Opus 4.7 概念視覺,神經連結頭像與創意塗鴉

01 · TEXT

Claude Opus 4.7 · Anthropic

Anthropic 為 Claude Opus 4.7 製作的概念視覺,神經連結頭像呼應它「對話即推理引擎」的定位。圖/Anthropic

Adobe Firefly 官方產品頁主視覺,集合多種風格的 AI 生成作品

02 · IMAGE

Adobe Firefly · Adobe

Adobe Firefly 官方產品頁主視覺,集合多種風格的 AI 生成作品——人像、靜物、商品、奇幻場景。圖/Adobe

Seedance 2.0 與 Veo 3.1、Kling 3.0、Wan 2.6 的圖生影片六項指標雷達評估圖

03 · VIDEO

Seedance 2.0 · ByteDance

ByteDance 官方放出的雷達評估,Seedance 2.0 對 Veo 3.1、Kling 3.0 在 6 項影音指標近乎全項拉開。圖/ByteDance Seed

Claude Code 介面截圖,左邊 session 列表、中間 agentic task panel、右邊代碼編輯器與 terminal

04 · CODE & UI

Claude Code · Anthropic

Claude Code 把寫檔、Lint、Typecheck、Build 一連串 agentic 動作排在一條時間軸上自己跑完。圖/Anthropic

CHAPTER 05 · IN PRACTICE

設計師三個高頻實戰工作流

講原理只能讓人聽懂,講工作流才能讓人用得起來。下面三個是我自己每週都跑的場景,新手可以直接照搬。

工作流一:從文字到提案視覺(30 分鐘版)

情境:客戶丟一段品牌簡介,要你三天內出三組提案概念圖。傳統做法是查資料、找 reference、出 sketch,大概兩到三天。

新做法:把品牌簡介丟給 Claude,請它從不同角度提三個 visual direction(例如「極簡幾何」「手繪溫度」「賽博龐克」),每個方向給你五個關鍵字。把這十五個關鍵字組合成 prompt 丟到 Midjourney 或 Firefly,每組生四張,半小時內你手上有三十六張可選的草圖。挑三組往下,做提案 deck。原本三天的工作,半天完工。

工作流二:一張封面,十個尺寸(15 分鐘版)

情境:做完一張橫式封面,要出 IG 直式、Threads 方形、YouTube 縮圖、FB 廣告、官網 hero 共十種尺寸。傳統做法是手動裁切跟重組,大概兩小時。

新做法:Photoshop 內建的 Generative Expand(生成擴展)直接把橫式擴成方形跟直式,AI 補上原本沒有的畫面。原本構圖差的角度,跟手繪重做差不多。十五分鐘搞定十個尺寸。

工作流三:長文本拆成多平台貼文(20 分鐘版)

情境:剛寫完一篇 2500 字部落格文章,要拆成 IG 輪播 9 卡、Threads 兩篇短文、FB 一篇長文、Email 開頭、YouTube Shorts 腳本。傳統做法每個平台重寫一次,半個工作日。

新做法:把原文丟給 Claude,給它每個平台的字數限制跟語氣指引,一次性產出五版改寫。設計師只負責挑、改、出視覺。二十分鐘所有平台素材到位。

AI 不會取代設計師,但會用 AI 的設計師會取代不會用的。這句話現在聽起來像口號,三年後它是現實。

CHAPTER 06 · LIMITS

三個必須誠實面對的限制

我不想寫一篇假裝生成式 AI 沒有問題的文章。它有三個現實限制,任何要長期用 AI 的設計師都要先想清楚。

一、版權與訓練資料的灰色地帶

Midjourney、Stable Diffusion 早期都被告過,訓練資料裡有大量未授權的藝術家作品。Adobe Firefly 是少數聲明「只用 Adobe Stock 授權圖訓練」的模型,所以商業使用最安心。如果你的客戶是國際品牌、上市公司、政府案,優先用 Firefly 跟 ChatGPT(OpenAI 有商業 indemnification),避免 Midjourney 直接出商用素材。

二、品質天花板:AI 80 分,但最後 20 分還是要設計師

AI 生圖的細節錯誤(手指、文字、邊緣)、AI 寫稿的語氣偏移(過度條列、AI 味、無意義收尾)、AI 影片的物理錯亂(東西穿過彼此、燈光跳變),都還是常態。AI 給你 80 分的初稿,但要做到 95 分的成品,人的判斷力仍然不可取代。

三、依賴風險:你的工作流會被一家公司綁定

Anthropic 漲價、OpenAI 改規則、Midjourney 改訂閱方案——你每天的工作流都可能因為一個外部決策被打亂。我自己的對策是不押注單一工具,文字主用 Claude、輔助 ChatGPT;圖像主用 Firefly,輔助 Midjourney;影片主用 Seedance,輔助 Veo。多備一條後路,永遠是專業創作者的基本盤。

CHAPTER 07 · TAKEAWAYS

設計師該怎麼進場

如果你還沒開始,不要一次學十個工具。從每天會用到的那一個切入:寫文案多就先用 Claude、做平面多就先用 Firefly、做影片多就先用 Seedance。一個工具用熟到能寫出讓自己滿意的 prompt,再加第二個。

接下來十年最有競爭力的設計師,不會是「會用 Photoshop」的人,而是「會把一個構想用三種 AI 工具串成成品」的人。Prompt 是新的「畫筆」,工作流設計是新的「排版」,挑選與品味是設計師永遠的護城河。

我在 RAR 設計攻略寫了快十年的設計觀察,過去兩年最大的轉變就是:幾乎每篇文章都跟 AI 有關。不是因為趕風口,是因為這真的就是設計圈正在發生的事。你可以不喜歡,但不能不知道。

AI 覺醒設計應用攻略訂閱方案封面

SUBSCRIPTION · AIWAKEN

AI 覺醒設計應用攻略

AI 工具每週都在更新,我幫你過濾雜訊,只整理對設計師真正有用的應用。

AI 工具實測與工作流

設計師角度 Prompt 技巧

每週 AI × 設計新知

了解訂閱方案 →

FAQ · 常見問題

關於生成式 AI 的七個常見問題

Q1:生成式 AI 跟 ChatGPT 是同一件事嗎?

ChatGPT 是 OpenAI 推出的「一個產品」,生成式 AI 是它背後那一整類「技術」。Claude、Gemini、Midjourney、Sora 全部都是生成式 AI,但都不是 ChatGPT。把 ChatGPT 當成代名詞會錯過一整片更適合設計師的工具圈。

Q2:設計師要從哪個工具入門?

從你每天最常做的事情切入。文案多就先學 Claude(寫稿能力比 ChatGPT 細膩很多)、做平面設計就先學 Adobe Firefly(直接整在 Photoshop/Illustrator 裡)、做影片就先學 Seedance 2.0(中文支援好、價格友善)。一次只學一個,用到熟。

Q3:用 AI 生圖會不會有版權問題?

分兩塊看:訓練資料的版權目前還是灰色地帶,Adobe Firefly 是唯一聲明只用授權圖訓練的主流工具,所以商用案安心。輸出物的版權,大部分平台都規定屬於使用者,但具體還是要看你訂閱方案的條款。商業專案優先用 Firefly,個人創作 Midjourney 沒問題。

Q4:AI 會取代設計師的工作嗎?

不會取代,但會重新洗牌。重複性高的執行工作(裁圖、改尺寸、套版)會被吃掉,但「決定要做什麼、用什麼風格、怎麼跟客戶溝通」這些判斷工作只會更值錢。設計師的核心能力從「會做」變成「會想跟會挑」。

Q5:Prompt 要怎麼寫才好?

三個原則:給角色(「你是一個資深 UI 設計師」)、給情境(「為一家新創 SaaS 公司」)、給輸出格式(「用條列式給我三個方案」)。越具體越好。寫不出來的時候,讓 Claude 自己幫你寫 prompt——它擅長這個。

Q6:免費版工具夠用嗎,還是要付費?

探索期免費版夠了。但一旦你發現每天都會用,付費版投資報酬率非常高——一個月一千多塊台幣換來工時減半,任何接案設計師算一下就清楚。Claude Pro、Midjourney Standard、Firefly 付費版這三個是設計師最常見的核心組合。

Q7:中文支援好嗎?

文字類已經完全成熟,Claude 跟 ChatGPT 的繁中比兩年前細膩太多。圖像生成的中文 prompt 也夠用,但純中文書法、招牌字、特殊字體還是 ChatGPT Image 跟 Firefly 比較穩。影片生成中文字幕跟對嘴目前是 Seedance 2.0 領先。

FURTHER READING · 延伸閱讀

繼續往下走

想看更多 AI 工具實測與設計師應用,可以從這幾個入口開始:

RAR 設計攻略 AI 工具分類,所有 AI 工具實測文章在這裡
AI 覺醒設計應用攻略訂閱方案,每週深度 AI 工具情報
RAR 設計攻略首頁,Figma、Photoshop、AI 全系列課程

文章標籤

# AI入門# AI工作流# 設計師AI# Firefly# Midjourney# Claude# AI設計# 生成式AI