Gemini Omni Flash 是什麼？Google I/O 2026 影片生成新模型完整解析

用一句話改影片、保留角色與物理連續性,Google 把 AI 影片戰場推到下一個階段

設計師 Riven

2026年5月20日上午 9:28

AI 設計

AI TOOLS · GOOGLE I/O 2026

Gemini Omni Flash 主視覺，標示 Google I/O 2026 新模型，左側列出超高速生成、高擬真畫質、多模態理解、一致性強化四項核心能力，右側展示未來城市場景的影片生成 demo

▲ Gemini Omni Flash — Google I/O 2026 影片生成新模型。

QUICK ANSWER

Gemini Omni Flash 是 Google 在 2026 年 5 月 19 日 I/O 發表的新一代多模態影片模型，核心能力是「用對話改影片」。給它一段你拍的素材，告訴它「把鏡子變成液態漣漪」，它能在保留原本角色、場景、物理連續性的前提下改寫，而且多輪指令會疊加記憶。今天起 Google AI Plus、Pro、Ultra 訂戶可在 Gemini app 與 Google Flow 使用，YouTube Shorts 與 YouTube Create App 免費開放，API 預計幾週後推出。單片上限 10 秒。

CHAPTER 01 · WHAT IS IT

Omni 是 Nano Banana 的下一步

昨晚的 Google I/O，真正該被設計師寫進筆記的不是 Gemini 3.5 Flash，也不是 Spark agent，是夾在中間的這顆模型——Gemini Omni Flash。它是 Google 一個叫 Omni 的全新模型家族的第一個成員，DeepMind CTO Koray Kavukcuoglu 親自寫文宣布。

官方那段敘事很值得拆開看。去年的 Nano Banana 把 Gemini 的智慧推進到圖片生成與編輯，讓人能修老照片、把草稿變設計稿。今年 Google 把同樣的邏輯往前一格，推到影片——但不是 Veo 的那種「文字生影片」，而是「任何輸入生影片，而且能用對話一直改」。

你可以丟一張圖、一段音樂、一支現成影片、一句指令，任意混合餵進去，它會推理出一個一致的輸出。然後你接著說「把場景換成下雨」「鏡頭拉到肩膀後方」「燈光跟著音樂節拍亮起來」，它記得前一步，在不破壞角色與場景連續性的前提下繼續改。

THREE PILLARS · OMNI'S CORE

對話編輯

多輪指令疊加，角色、物理、場景狀態跨輪保留

世界知識基礎

繼承 Gemini 對重力、流體、文化脈絡的理解

任意輸入混合

圖、文、影、音同時餵入，輸出一個連貫的影片

CHAPTER 02 · WHY IT MATTERS

從「生成一支」變成「改一支」

過去兩年的 AI 影片戰場大致長這樣：你打一段 prompt，模型吐一支影片，不滿意就改 prompt 再生一支。Sora、Veo、Runway、Pika、Kling、Seedance 全在這個範式裡比誰生得快、生得像、生得長。

Omni 把戰場挪到隔壁——video-to-video editing，而且是有狀態的多輪對話。這件事的差別比表面上大。當你能跟模型說「保留剛剛那個角色，只把背景換掉」「保留動作，把光換成夕陽」，你就不再是在「碰運氣抽卡」，而是在「跟模型協作雕刻一個畫面」。對設計師、影像工作者、廣告人來說，這是兩種完全不同的工作節奏。

Gemini Omni Flash demo：手掌上的玻璃球，球內是無限遞迴的黑白棋盤房間，房間中央又有同一隻手拿著同一顆球

▲ Prompt：把一顆漂浮的玻璃球放在手上，裡面是黑白棋盤房，房內又包著同一隻手拿球的場景——遞迴永不停。鏡頭緩慢推近製造視覺迴圈。Source: Google DeepMind

— KORAY KAVUKCUOGLU, CTO GOOGLE DEEPMIND

"Every instruction builds on the last. Your characters stay consistent, the physics hold up and the scene remembers what came before."

這段話的關鍵字是 remember。當 AI 影片模型開始記得上一輪在做什麼，它就從「素材生成器」升級成「協作者」。Photoshop 的 history panel 之所以重要，不是因為它讓你 undo，而是因為它讓你「在一個延續的脈絡裡疊代」。Omni 把這個邏輯搬到了影片生成上。

CHAPTER 03 · HOW IT WORKS

三個核心能力，各自解一個痛點

一、對話式編輯：讓多輪修改變成創作流程

Omni 對話編輯的示範裡有一個讓人印象深刻的例子：小提琴家拉琴的場景，先換到沙漠環境、再讓小提琴消失、再把鏡頭切到肩膀後方。三輪指令疊下來，小提琴家本人、姿勢、運弓動作完全沒變，只有環境跟視角在動。

這在過去等於要重新 inpaint、重新 keyframe、重新對動作。現在只剩說話。

Gemini Omni Flash demo：一座戶外雕塑被指令改成由透明泡沫組成的結構，光線從泡沫間穿透

▲ Prompt：Make the sculpture out of bubbles。一句話，整座雕塑的材質就從石頭變成透明泡沫——這是「對話編輯」最直觀的展示。Source: Google DeepMind

二、世界知識：讓物理跟邏輯不再出戲

Omni 不只看畫面像不像，它繼承了 Gemini 對物理（重力、動能、流體動力學）、歷史、科學、文化脈絡的理解。Google 給的示範：一顆彈珠在 chain reaction 軌道上連續滾動，鏡頭一鏡到底。這種多體碰撞、重力連鎖、無剪輯的場景，過去是 AI 影片最容易翻車的地方。

Gemini Omni Flash demo：一條鏡面金屬材質的鯨魚在白色雲狀流體上方游動

▲ Prompt：把鯨魚游動的動作套到一塊鏡面材質上，背景換成白色流體形狀。Omni 一次處理運動、材質、物理三件事。Source: Google DeepMind

另一個示範更貼近設計師會用的場景：claymation 風格的蛋白質摺疊科普解說。短 prompt 進去，出來的是一段視覺解說型短片。這已經不是「生成漂亮畫面」，是「把概念翻譯成視覺敘事」。

三、任意輸入混合：把素材、節奏、風格全打進同一個 prompt

Omni 可以同時吃圖、文、影、音（語音目前先開放，其他音訊類型陸續上）。官方有個示範把這件事用到極致：一張參考圖、一段參考影片、一首參考音樂，prompt 寫「以 image_0 為基底、像 video_0 那樣 light up、跟 audio_0 的節拍同步」，出來是一支 sci-fi 風的角色行走 cycle，踩在節拍上。

這套輸入語法的意思是：你不用再把「風格」「動作」「節奏」三件事分開做。把該有的引用都丟進去，Omni 自己接。

Gemini Omni Flash demo：半透明發光的蕨類葉子，周圍是會發光的螢火蟲

▲ Prompt（圖+影+音三輸入）：加上豎琴聲對應每片蕨葉的觸碰，把葉子改成半透明生物發光材質，加入會跟著音樂發光的螢火蟲。Source: Google DeepMind

▲ Google DeepMind 官方介紹影片。Source: Google for Developers

CHAPTER 04 · GETTING STARTED

在哪用、多少錢、什麼上限

Google 這次的上架節奏蠻乾脆。今天起 Omni Flash 全球同步開放，鋪在四個地方：Gemini app、Google Flow（Google 的 AI 創作工具）、YouTube Shorts、YouTube Create App。前兩個要 Google AI 訂閱（Plus、Pro 或 Ultra 任一個都行），後兩個免費。開發者 API 預告「幾週內」推出。

10s

PER CLIP

YOUTUBE SHORTS

PAID TIERS

10 秒這個上限有意思。Google DeepMind 產品總監 Nicole Brichtova 跟 TechCrunch 講得很白：這不是模型能力的天花板，是一個「先讓更多人用得起」的部署決定。短期內大部分人也還不想做超過 10 秒的影片，所以先把算力撥給更廣的接觸面。更長的版本之後會推，Pro 版也在路上。

另外一個小設定：Omni 提供「Avatar」功能，可以建立你自己的數位分身，用你的臉跟聲音生影片。要拿獎、要登月、要拍 vlog，都可以。

CHAPTER 05 · IN PRACTICE

設計師可以怎麼把它接進工作流

10 秒、可對話改寫、支援風格參考——這個工具型態天生適合三件事。

✦情境化的產品展示。你有一張產品圖，想生一段 10 秒、有節奏、有環境氛圍的展示影片。過去要去找 motion designer，現在自己丟圖+音樂+一句場景描述，先生第一稿，再用對話微調光、角度、場景。

✦概念視覺化。提案要解釋一個抽象機制（演算法、工作流、產品邏輯），過去畫 storyboard 加旁白，現在直接 prompt「claymation 風格的 X 解說」，出一段視覺解說。

✦影片素材改寫。你拍了一段不錯但場景不對的素材，可以保留主角跟動作、只換背景或光線氛圍，當作社群短片或廣告素材的修改版。這在過去要靠 rotoscoping 跟 compositing，現在是一輪對話。

我個人會把它擺在 Seedance 2.0 旁邊用——Seedance 強在「從零生」的視覺密度，Omni 強在「拿著現成素材繼續改」。兩個工具的甜蜜點不一樣，但要做 YouTube Shorts、IG Reels、廣告 demo 時，你會發現有 Omni 在身邊蠻舒服的，特別是免費版直接內建在 YouTube Shorts 裡這件事，對短影片創作者根本是降維。

CHAPTER 06 · LIMITS

三個現階段的天花板

Google 自己也沒藏。第一，10 秒的單片長度——前面講過，部署決定不是模型上限。第二，音訊與語音的編輯先沒開放。你能做「avatar 用自己聲音講話」，但不能拿一段現成影片改裡面的對白。Google 說這塊要「負責任地」想清楚再上，理由心知肚明：選舉、惡作劇、深偽，風險太大。

第三，所有 Omni 生成的影片都帶 SynthID 的隱形浮水印，可以透過 Gemini app、Chrome 裡的 Gemini、Google Search 去驗證。Google 在 I/O 上講 SynthID 已經標記了超過 1000 億筆內容。這是 Google 對「內容來源辨識」的押注，長期看也是 Omni 能繼續開放更多能力的前提。

CHAPTER 07 · COMPARED TO

跟 Veo、Seedance、Higgsfield 怎麼分

Veo 3 / 3.1 還會繼續活著，但定位變得清楚：Veo 走「文字、影像生影片」的高品質純生成路線，Omni 走「任意輸入+對話改寫」的編輯導向路線。同一個 Gemini 體系下兩條線並進。

外部競爭那塊，ByteDance 的 Seedance 2.0 在公開 benchmark 的視覺品質一直在領跑，Kling 3.0 在中文市場壓著打。獨立測試者的初步反應是：Omni Flash 的「生成本身」未必贏這兩個，但「對話編輯」這條軸幾乎沒有對手。

FEATURE

Omni Flash

Veo 3.1

Seedance 2.0

主力場景

改寫+編輯

純生成

多輪狀態保留

✦

—

輸入類型

圖+文+影+音

圖+文

單片上限

10 秒

8 秒

10 秒

免費入口

YT Shorts

—

即夢有限額

Google 真正的籌碼從來不是「我的模型最強」，是 distribution。Omni 一發表就鑲進 Search、Gemini app、Flow、YouTube 四條軌道，你不需要去裝什麼新工具、申請什麼 waitlist。打開手機裡的 Gemini 或是 YouTube Shorts，它就在那。其他人要拚通路，Google 拚的是它已經有的通路。

CHAPTER 08 · TAKEAWAYS

為什麼這次該認真打開來玩

我看 Omni 的角度跟看 Nano Banana 那時很像。當時很多人覺得 AI 圖片編輯已經被 Photoshop+Firefly 滿足了，Nano Banana 沒什麼新意，可是它把「圖層概念換成對話」這件事真的做順了之後，設計師的修圖節奏整個被改寫。Omni 在影片這層做了同樣的事。

10 秒、無音訊編輯、API 還沒到，這些限制都會在接下來幾個月被一一打開。真正該被記住的是這條方向線：AI 影片從「抽卡」進入「協作」。下一個會被影響的工作，是 motion designer 跟 social media editor 的日常 70%。

如果你今天還沒摸過 Omni，有 Google AI Plus 訂閱的話就打開 Gemini app 試試；沒有訂閱的話，YouTube Shorts 的 Remix 入口這週開，完全免費。先用一個你拍過的素材丟進去，跟它對話三輪——你會直接體會到「對話編輯」這四個字的份量。

延伸閱讀：想看 I/O 2026 整場的全貌、Gemini 3.5 Flash 怎麼定位、Spark agent 在做什麼，可以去看 Google I/O 2026 完整回顧。

RELATED · I/O 2026 系列

HUB · 完整回顧

Google I/O 2026 重點整理：Gemini Omni、3.5 Flash、Universal Cart 一次看懂 →

這篇是 I/O 2026 第一天 keynote 的全景概覽——Gemini Omni、3.5 Flash、Universal Cart、Android XR 一次看完，搭配其他 4 篇深度拆解一起讀，就能拼出整場發表的全貌。

SUBSCRIPTION · AIWAKEN

AI 覺醒設計應用攻略

AI 工具每週都在更新，我幫你過濾雜訊，只整理對設計師真正有用的應用。

✦ AI 工具實測與工作流

✦ 設計師角度 Prompt 技巧

✦ 每週 AI × 設計新知

了解訂閱方案 →

FAQ

常見問題

Q：Gemini Omni Flash 跟 Veo 3.1 是同一個東西嗎？

A：不是。Veo 3.1 還在，定位是純文字、圖片生影片的高品質生成路線。Omni 是全新的家族，主打多輸入、對話編輯。兩條線目前並存。

Q：Omni Flash 免費嗎？

A：看入口。YouTube Shorts 跟 YouTube Create App 完全免費。Gemini app 跟 Google Flow 要 Google AI Plus、Pro 或 Ultra 任一訂閱。台灣可以直接訂閱。

Q：單支影片最長多久？

A：目前上限 10 秒。Google 官方說這是部署決定，不是模型限制，之後會放寬。Omni Pro 也在路上，但沒有時間表。

Q：可以拿來改別人拍的影片嗎？

A：技術上可以，版權上你自己負責。另外 Omni 現階段不開放編輯音訊跟語音內容，主要是避免被拿去做深偽影片，「avatar 用自己聲音講話」是例外。

Q：有 API 嗎？

A：還沒。Google 預告「幾週內」會給開發者跟企業客戶。先觀望就好，正式釋出再做整合決定。

Q：Omni 生的影片可以商用嗎？

A：要看你的訂閱方案條款，Plus、Pro、Ultra 各有不同的商用條款，建議發案前到 one.google.com 看清楚當前版本的 Terms。所有生成影片都會有 SynthID 隱形浮水印，這件事是必然的，改不掉。