Google I/O 2026懶人包!AI代理接管生活 Gemini 3.5/Spark/Omni三大核心科技一文看清

更新時間:17:19 2026-05-20 HKT
發佈時間:17:19 2026-05-20 HKT

年度科技盛事Google I/O 2026大會揭幕,在長達兩小時的Keynote演講中,Google貫徹「AI-First」路線,發布了新一代Gemini 3.5系列模型、24/7工作的AI代理Gemini Spark,以及被喻為影片版Nano Banana的Gemini Omni,同時透過Gemini植入搜尋、辦公及眼鏡所有場景,將AI由輔助工具進化為核心大腦,以下為大家整理了各項重點技術,了解Gemini將會如何影響我們的日常生活及工作。

Google I/O 2026懶人包!AI代理接管生活 Gemini 3.5/Spark/Omni三大核心科技一文看清

Gemini 3.5系列:超強Flash版即日上架

Google正式發布新一代Gemini 3.5核心模型,當中主打輕量高效的Gemini 3.5 Flash即日向用戶免費開放,香港用戶現在打開Gemini App、Google Search已經用得到。據大會公布數據,新模型的資訊輸出速度比上代大幅提升,運算能加更勝Gemini 3.1 Pro,尤其處理複雜的程式碼生成,以及需要多步驟執行的AI代理(Agent)自動化任務,表現更為流暢。至於運算能力更強大的Gemini 3.5 Pro暫定6月登場。

  • Gemini 3.5 Flash:即日推出,Google強調是目前最強代理與編程模型,輸出速度快過Gemini 3.1 Pro。在程式碼生成與多步驟Agent代理自動化任務上表現極佳。
  • Gemini 3.5 Pro:官方預告要等到6月先推出。

Gemini Spark:24小時工作AI代理

Gemini Spark是一個真正在背後24/7工作的個人AI代理。
Gemini Spark是一個真正在背後24/7工作的個人AI代理。
Gemini Spark基於最新Gemini 3.5模型。
Gemini Spark基於最新Gemini 3.5模型。
一如OpenClaw,Gemini Spark能自動處理多步驟任務,並有Agent Payments Protocol防止AI自動付款。
一如OpenClaw,Gemini Spark能自動處理多步驟任務,並有Agent Payments Protocol防止AI自動付款。
Gemini Omni是多模態世界模型,打破以往文字、圖像與影片各自獨立處理的界限。
Gemini Omni是多模態世界模型,打破以往文字、圖像與影片各自獨立處理的界限。

這可能是上班族最期待的功能!Gemini Spark是一個24小時不停工作的個人AI代理,不用打開手提電腦或手機,Spark依然在雲端後台執行被指派的任務,且能夠深度串連用戶的Gmail、日曆及Google Drive,自動追蹤重要郵件、整理會議摘要,甚至跨平台串接Canva或OpenTable等第三方程式,自動幫用戶排好整個星期的工作或預先通知餐廳訂枱,名副其實全天候助理,並會於下周率先供訂閱「AI Ultra」服務的美國用戶試用。

  • 真Agent能力:基於Gemini 3.5,自動處理多步驟工作,如準備客戶會議資料。
  • 全天候開工:24小時在雲端處理任務,自動按排行程與工作流程。
  • 打通Google Apps:可以串聯你的Gmail、日曆、文件,自動追蹤郵件、整理會議記錄、甚至串接第三方App。
  • 安全機制:為防止AI「暴走」,Google推出Agent Payments Protocol(AP2),設有消費限額同商戶白名單,現階段任何交易都須用戶確認。

Gemini Omni:對應多模態 語音剪片

Gemini Omni是多模態世界模型,打破以往文字、圖像與影片各自獨立處理的界限。
Gemini Omni是多模態世界模型,打破以往文字、圖像與影片各自獨立處理的界限。
Gemini Omni能同時理解文字、圖像及聲音有元素,並直接生成影片。
Gemini Omni能同時理解文字、圖像及聲音有元素,並直接生成影片。
Gemini Omni Flash可直接用文字或語音指令進行影片修改。
Gemini Omni Flash可直接用文字或語音指令進行影片修改。
Gemini Omni Flash可直接用文字或語音指令進行影片修改。
Gemini Omni Flash可直接用文字或語音指令進行影片修改。

今年在多媒體生成領域的重大突破,首推多模態世界模型Gemini Omni,這款新模型打破以往文字、圖像與影片各自獨立處理的界限,能同時理解所有元素,並直接生成影片。率先推出的Gemini Omni Flash更帶來革新的「對話式影片剪輯」功能,未來在製作影片或拍攝YouTube Shorts時,不再需要繁複剪輯技術,直接用文字或語音指令,如說出「幫我將背景轉成旺角街景」或「令畫面左邊架車開快一點」,AI就能即時理解並修改影片中的特定元素。

  • 多模態世界模型:過去AI是文字歸文字、影片歸影片,Gemini Omni能同時理解文字、聲音、圖像並生成影片。
  • 語音剪片:Gemini Omni Flash不但可生成電影級影片,還能直接用語音或文字對話方式修改影片。

Google Workspace:全面語音辦公

Docs Live今夏同步登陸Gmail及Keep。
Docs Live今夏同步登陸Gmail及Keep。
Docs Live透過捕捉語音內容,將閣下靈感或想法生成完整充實的Google Doc。
Docs Live透過捕捉語音內容,將閣下靈感或想法生成完整充實的Google Doc。

針對商務及辦公市場,Google Workspace迎來近年最大升級,當中核心功能Docs Live,對懶得打字的用戶來說,現在處理文書,只需開啟語音,將腦海中零碎想法一口氣講出來,Gemini就會自動捕捉語音內容,進行邏輯梳理、排版,並在幾秒鐘內生成一份結構完整、內容充實的Google Doc文件。Google表示,這項強大的語音辦公功能將於今夏同步登陸Gmail及Keep,未來配合Gemini Spark,更能實現跨Sheets數據分析與自動發送報告的全自動工作流程。

  • Docs Live:只要開啟語音,把腦中想法全部講出來,Gemini就會自動梳理及生成結構完整Google Doc。
  • 自動工作流:配合Gemini Spark能自動跨越Sheets、Gmail與Docs處理繁雜的後台任務。

Android XR:語音眼鏡秋季登場

Google聯手Samsung於秋季推出首款Android XR語音智能眼鏡。並由Gentle Monster及Warby Parker負責設計。
Google聯手Samsung於秋季推出首款Android XR語音智能眼鏡。並由Gentle Monster及Warby Parker負責設計。
語音眼鏡可通過鏡頭分析眼前場景或物件,並透過語音跟用戶互動。
語音眼鏡可通過鏡頭分析眼前場景或物件,並透過語音跟用戶互動。

除了AI,Google I/O 2026宣布跟Samsung擴大合作,並於秋季推出首款採用Android XR系統的語音智能眼鏡,眼鏡設計交由Gentle Monster及Warby Parker負責,儘管是不設螢幕顯示的語音眼鏡(Audio Glasses),仍可透過語音跟AI互動,並可隨時叫Gemini幫忙認路、影相、播歌,又或翻譯文字。

  • 設計:Gentle Monster及Warby Parker參與設計,外觀偏向時尚,由於沒有螢幕,機身更輕巧。
  • 功能:透過Gemini AI可以影相、播歌、翻譯、亦可操控手機、智能手錶應用。

Google I/O 2026核心亮點概覽:

核心亮點

主要功能

上線時間 / 適用對象

Gemini 3.5 Flash

主打Agent與Coding,表現比Gemini 3.1 Pro更好

即日起全球免費開放

Gemini Spark

24/7雲端個人助理

下周開放美國AI Ultra訂閱者試用

Gemini Omni Flash

多模態影片生成與「對話式剪輯」

本周起陸續登陸YouTube / Gemini App

Docs Live

靈感講出來即變文件

今年夏天推出

Android XR語音眼鏡

聯手三星,全天候語音助理

今年秋季登場

 

文:B1807

圖:Google

 

延伸閱讀:Google Gemini正式開通!香港用戶解鎖5大實用AI功能