Gemini Omni Flash 是什麼?Google I/O 2026 影片生成新模型完整解析

用一句話改影片、保留角色與物理連續性,Google 把 AI 影片戰場推到下一個階段
設計師 Riven

設計師 Riven

2026年5月20日 上午 9:28

AI 設計

AI TOOLS · GOOGLE I/O 2026

Gemini Omni Flash 主視覺,標示 Google I/O 2026 新模型,左側列出超高速生成、高擬真畫質、多模態理解、一致性強化四項核心能力,右側展示未來城市場景的影片生成 demo

▲ Gemini Omni Flash — Google I/O 2026 影片生成新模型。

QUICK ANSWER

Gemini Omni Flash 是 Google 在 2026 年 5 月 19 日 I/O 發表的新一代多模態影片模型,核心能力是「用對話改影片」。給它一段你拍的素材,告訴它「把鏡子變成液態漣漪」,它能在保留原本角色、場景、物理連續性的前提下改寫,而且多輪指令會疊加記憶。今天起 Google AI Plus、Pro、Ultra 訂戶可在 Gemini app 與 Google Flow 使用,YouTube Shorts 與 YouTube Create App 免費開放,API 預計幾週後推出。單片上限 10 秒。

CHAPTER 01 · WHAT IS IT

Omni 是 Nano Banana 的下一步

昨晚的 Google I/O,真正該被設計師寫進筆記的不是 Gemini 3.5 Flash,也不是 Spark agent,是夾在中間的這顆模型——Gemini Omni Flash。它是 Google 一個叫 Omni 的全新模型家族的第一個成員,DeepMind CTO Koray Kavukcuoglu 親自寫文宣布。

官方那段敘事很值得拆開看。去年的 Nano Banana 把 Gemini 的智慧推進到圖片生成與編輯,讓人能修老照片、把草稿變設計稿。今年 Google 把同樣的邏輯往前一格,推到影片——但不是 Veo 的那種「文字生影片」,而是「任何輸入生影片,而且能用對話一直改」。

你可以丟一張圖、一段音樂、一支現成影片、一句指令,任意混合餵進去,它會推理出一個一致的輸出。然後你接著說「把場景換成下雨」「鏡頭拉到肩膀後方」「燈光跟著音樂節拍亮起來」,它記得前一步,在不破壞角色與場景連續性的前提下繼續改。

THREE PILLARS · OMNI'S CORE

01

對話編輯

多輪指令疊加,角色、物理、場景狀態跨輪保留

02

世界知識基礎

繼承 Gemini 對重力、流體、文化脈絡的理解

03

任意輸入混合

圖、文、影、音同時餵入,輸出一個連貫的影片

CHAPTER 02 · WHY IT MATTERS

從「生成一支」變成「改一支」

過去兩年的 AI 影片戰場大致長這樣:你打一段 prompt,模型吐一支影片,不滿意就改 prompt 再生一支。Sora、Veo、Runway、Pika、Kling、Seedance 全在這個範式裡比誰生得快、生得像、生得長。

Omni 把戰場挪到隔壁——video-to-video editing,而且是有狀態的多輪對話。這件事的差別比表面上大。當你能跟模型說「保留剛剛那個角色,只把背景換掉」「保留動作,把光換成夕陽」,你就不再是在「碰運氣抽卡」,而是在「跟模型協作雕刻一個畫面」。對設計師、影像工作者、廣告人來說,這是兩種完全不同的工作節奏。

Gemini Omni Flash demo:手掌上的玻璃球,球內是無限遞迴的黑白棋盤房間,房間中央又有同一隻手拿著同一顆球

▲ Prompt:把一顆漂浮的玻璃球放在手上,裡面是黑白棋盤房,房內又包著同一隻手拿球的場景——遞迴永不停。鏡頭緩慢推近製造視覺迴圈。Source: Google DeepMind

— KORAY KAVUKCUOGLU, CTO GOOGLE DEEPMIND

"Every instruction builds on the last. Your characters stay consistent, the physics hold up and the scene remembers what came before."

這段話的關鍵字是 remember。當 AI 影片模型開始記得上一輪在做什麼,它就從「素材生成器」升級成「協作者」。Photoshop 的 history panel 之所以重要,不是因為它讓你 undo,而是因為它讓你「在一個延續的脈絡裡疊代」。Omni 把這個邏輯搬到了影片生成上。

CHAPTER 03 · HOW IT WORKS

三個核心能力,各自解一個痛點

一、對話式編輯:讓多輪修改變成創作流程

Omni 對話編輯的示範裡有一個讓人印象深刻的例子:小提琴家拉琴的場景,先換到沙漠環境、再讓小提琴消失、再把鏡頭切到肩膀後方。三輪指令疊下來,小提琴家本人、姿勢、運弓動作完全沒變,只有環境跟視角在動。

這在過去等於要重新 inpaint、重新 keyframe、重新對動作。現在只剩說話。

Gemini Omni Flash demo:一座戶外雕塑被指令改成由透明泡沫組成的結構,光線從泡沫間穿透

▲ Prompt:Make the sculpture out of bubbles。一句話,整座雕塑的材質就從石頭變成透明泡沫——這是「對話編輯」最直觀的展示。Source: Google DeepMind

二、世界知識:讓物理跟邏輯不再出戲

Omni 不只看畫面像不像,它繼承了 Gemini 對物理(重力、動能、流體動力學)、歷史、科學、文化脈絡的理解。Google 給的示範:一顆彈珠在 chain reaction 軌道上連續滾動,鏡頭一鏡到底。這種多體碰撞、重力連鎖、無剪輯的場景,過去是 AI 影片最容易翻車的地方。

Gemini Omni Flash demo:一條鏡面金屬材質的鯨魚在白色雲狀流體上方游動

▲ Prompt:把鯨魚游動的動作套到一塊鏡面材質上,背景換成白色流體形狀。Omni 一次處理運動、材質、物理三件事。Source: Google DeepMind

另一個示範更貼近設計師會用的場景:claymation 風格的蛋白質摺疊科普解說。短 prompt 進去,出來的是一段視覺解說型短片。這已經不是「生成漂亮畫面」,是「把概念翻譯成視覺敘事」。

三、任意輸入混合:把素材、節奏、風格全打進同一個 prompt

Omni 可以同時吃圖、文、影、音(語音目前先開放,其他音訊類型陸續上)。官方有個示範把這件事用到極致:一張參考圖、一段參考影片、一首參考音樂,prompt 寫「以 image_0 為基底、像 video_0 那樣 light up、跟 audio_0 的節拍同步」,出來是一支 sci-fi 風的角色行走 cycle,踩在節拍上。

這套輸入語法的意思是:你不用再把「風格」「動作」「節奏」三件事分開做。把該有的引用都丟進去,Omni 自己接。

Gemini Omni Flash demo:半透明發光的蕨類葉子,周圍是會發光的螢火蟲

▲ Prompt(圖+影+音三輸入):加上豎琴聲對應每片蕨葉的觸碰,把葉子改成半透明生物發光材質,加入會跟著音樂發光的螢火蟲。Source: Google DeepMind

▲ Google DeepMind 官方介紹影片。Source: Google for Developers

CHAPTER 04 · GETTING STARTED

在哪用、多少錢、什麼上限

Google 這次的上架節奏蠻乾脆。今天起 Omni Flash 全球同步開放,鋪在四個地方:Gemini app、Google Flow(Google 的 AI 創作工具)、YouTube Shorts、YouTube Create App。前兩個要 Google AI 訂閱(Plus、Pro 或 Ultra 任一個都行),後兩個免費。開發者 API 預告「幾週內」推出。

10s

PER CLIP

$0

YOUTUBE SHORTS

3

PAID TIERS

10 秒這個上限有意思。Google DeepMind 產品總監 Nicole Brichtova 跟 TechCrunch 講得很白:這不是模型能力的天花板,是一個「先讓更多人用得起」的部署決定。短期內大部分人也還不想做超過 10 秒的影片,所以先把算力撥給更廣的接觸面。更長的版本之後會推,Pro 版也在路上。

另外一個小設定:Omni 提供「Avatar」功能,可以建立你自己的數位分身,用你的臉跟聲音生影片。要拿獎、要登月、要拍 vlog,都可以。

CHAPTER 05 · IN PRACTICE

設計師可以怎麼把它接進工作流

10 秒、可對話改寫、支援風格參考——這個工具型態天生適合三件事。

情境化的產品展示。你有一張產品圖,想生一段 10 秒、有節奏、有環境氛圍的展示影片。過去要去找 motion designer,現在自己丟圖+音樂+一句場景描述,先生第一稿,再用對話微調光、角度、場景。

概念視覺化。提案要解釋一個抽象機制(演算法、工作流、產品邏輯),過去畫 storyboard 加旁白,現在直接 prompt「claymation 風格的 X 解說」,出一段視覺解說。

影片素材改寫。你拍了一段不錯但場景不對的素材,可以保留主角跟動作、只換背景或光線氛圍,當作社群短片或廣告素材的修改版。這在過去要靠 rotoscoping 跟 compositing,現在是一輪對話。

我個人會把它擺在 Seedance 2.0 旁邊用——Seedance 強在「從零生」的視覺密度,Omni 強在「拿著現成素材繼續改」。兩個工具的甜蜜點不一樣,但要做 YouTube Shorts、IG Reels、廣告 demo 時,你會發現有 Omni 在身邊蠻舒服的,特別是免費版直接內建在 YouTube Shorts 裡這件事,對短影片創作者根本是降維。

CHAPTER 06 · LIMITS

三個現階段的天花板

Google 自己也沒藏。第一,10 秒的單片長度——前面講過,部署決定不是模型上限。第二,音訊與語音的編輯先沒開放。你能做「avatar 用自己聲音講話」,但不能拿一段現成影片改裡面的對白。Google 說這塊要「負責任地」想清楚再上,理由心知肚明:選舉、惡作劇、深偽,風險太大。

第三,所有 Omni 生成的影片都帶 SynthID 的隱形浮水印,可以透過 Gemini app、Chrome 裡的 Gemini、Google Search 去驗證。Google 在 I/O 上講 SynthID 已經標記了超過 1000 億筆內容。這是 Google 對「內容來源辨識」的押注,長期看也是 Omni 能繼續開放更多能力的前提。

CHAPTER 07 · COMPARED TO

跟 Veo、Seedance、Higgsfield 怎麼分

Veo 3 / 3.1 還會繼續活著,但定位變得清楚:Veo 走「文字、影像生影片」的高品質純生成路線,Omni 走「任意輸入+對話改寫」的編輯導向路線。同一個 Gemini 體系下兩條線並進。

外部競爭那塊,ByteDance 的 Seedance 2.0 在公開 benchmark 的視覺品質一直在領跑,Kling 3.0 在中文市場壓著打。獨立測試者的初步反應是:Omni Flash 的「生成本身」未必贏這兩個,但「對話編輯」這條軸幾乎沒有對手。

FEATURE
Omni Flash
Veo 3.1
Seedance 2.0
主力場景
改寫+編輯
純生成
純生成
多輪狀態保留
輸入類型
圖+文+影+音
圖+文
圖+文
單片上限
10 秒
8 秒
10 秒
免費入口
YT Shorts
即夢有限額

Google 真正的籌碼從來不是「我的模型最強」,是 distribution。Omni 一發表就鑲進 Search、Gemini app、Flow、YouTube 四條軌道,你不需要去裝什麼新工具、申請什麼 waitlist。打開手機裡的 Gemini 或是 YouTube Shorts,它就在那。其他人要拚通路,Google 拚的是它已經有的通路。

CHAPTER 08 · TAKEAWAYS

為什麼這次該認真打開來玩

我看 Omni 的角度跟看 Nano Banana 那時很像。當時很多人覺得 AI 圖片編輯已經被 Photoshop+Firefly 滿足了,Nano Banana 沒什麼新意,可是它把「圖層概念換成對話」這件事真的做順了之後,設計師的修圖節奏整個被改寫。Omni 在影片這層做了同樣的事。

10 秒、無音訊編輯、API 還沒到,這些限制都會在接下來幾個月被一一打開。真正該被記住的是這條方向線:AI 影片從「抽卡」進入「協作」。下一個會被影響的工作,是 motion designer 跟 social media editor 的日常 70%。

如果你今天還沒摸過 Omni,有 Google AI Plus 訂閱的話就打開 Gemini app 試試;沒有訂閱的話,YouTube Shorts 的 Remix 入口這週開,完全免費。先用一個你拍過的素材丟進去,跟它對話三輪——你會直接體會到「對話編輯」這四個字的份量。

延伸閱讀:想看 I/O 2026 整場的全貌、Gemini 3.5 Flash 怎麼定位、Spark agent 在做什麼,可以去看 Google I/O 2026 完整回顧

AI 覺醒設計應用攻略

SUBSCRIPTION · AIWAKEN

AI 覺醒設計應用攻略

AI 工具每週都在更新,我幫你過濾雜訊,只整理對設計師真正有用的應用。

AI 工具實測與工作流

設計師角度 Prompt 技巧

每週 AI × 設計新知

了解訂閱方案 →

FAQ

常見問題

Q:Gemini Omni Flash 跟 Veo 3.1 是同一個東西嗎?

A:不是。Veo 3.1 還在,定位是純文字、圖片生影片的高品質生成路線。Omni 是全新的家族,主打多輸入、對話編輯。兩條線目前並存。

Q:Omni Flash 免費嗎?

A:看入口。YouTube Shorts 跟 YouTube Create App 完全免費。Gemini app 跟 Google Flow 要 Google AI Plus、Pro 或 Ultra 任一訂閱。台灣可以直接訂閱。

Q:單支影片最長多久?

A:目前上限 10 秒。Google 官方說這是部署決定,不是模型限制,之後會放寬。Omni Pro 也在路上,但沒有時間表。

Q:可以拿來改別人拍的影片嗎?

A:技術上可以,版權上你自己負責。另外 Omni 現階段不開放編輯音訊跟語音內容,主要是避免被拿去做深偽影片,「avatar 用自己聲音講話」是例外。

Q:有 API 嗎?

A:還沒。Google 預告「幾週內」會給開發者跟企業客戶。先觀望就好,正式釋出再做整合決定。

Q:Omni 生的影片可以商用嗎?

A:要看你的訂閱方案條款,Plus、Pro、Ultra 各有不同的商用條款,建議發案前到 one.google.com 看清楚當前版本的 Terms。所有生成影片都會有 SynthID 隱形浮水印,這件事是必然的,改不掉。