在 2025 年的 Google I/O 大會上,Google 展示了其在生成式 AI 領域的最新進展,特別是 Gemini 模型的多項創新功能。以下是 Gemini 相關功能的重點整理:
1. Gemini 2.5 Flash 與 2.5 Pro Deep Think
Google 推出全新的 Gemini 2.5 Flash 模型,提升了推理能力、多模態處理、程式碼生成和長脈絡理解等關鍵性能。此外,Gemini 2.5 Pro 引入了「深度思考」(Deep Think)模式,採用平行思考技術,增強了模型的推理能力。這些改進使得 Gemini 模型在 LMArena 排行榜上表現出色,僅次於 o3 模型。
2. Gemini Agent Mode
Gemini Ultra 方案訂閱者將可體驗全新的「代理模式」(Agent Mode),使用者只需陳述任務目標,Gemini 便能自主規劃並執行所有步驟。此模式整合了即時網頁瀏覽、深度研究以及 Google 應用程式連動等進階功能,僅需使用者少量介入指引,即可完成複雜的多步驟任務。
3. Gemini Live
Gemini Live 的相機與螢幕分享功能已免費開放給所有 Android 和 iOS 使用者。此功能允許使用者透過視覺互動進行提問並獲得協助,例如家電故障排除或購物建議。未來幾週,Gemini Live 將進一步整合 Google 地圖、日曆、Tasks 及 Keep 等服務,提供更流暢的即時協助。
4. Deep Research 更新
Gemini 應用程式透過多項功能升級,提升個人化體驗與實用性。Deep Research 將支援使用者上傳 PDF 文件及圖像檔案等個人檔案,並連結 Google 雲端硬碟及 Gmail 以強化個人化報告生成。其產出內容可一鍵轉至 Canvas 生成動態資訊圖表、互動測驗或多語言 Podcast。
5. Canvas 更新
Gemini 中的 Canvas 作為一個互動創意空間,能將使用者的文字描述轉化為實際創作。現由 Gemini 2.5 模型帶領,Canvas 功能更為強大直覺,支援以 45 種語言創作互動式資訊圖表、測驗及 Podcast 風格語音摘要。其 Gemini 2.5 Pro 版本更能以高速度和精確度將複雜概念轉化為可運作的程式碼,降低軟體開發門檻。
6. Imagen 4
Google 宣佈,即日起所有使用者皆可在 Gemini 應用程式中體驗 Imagen 4。Imagen 4 是一款圖像生成工具,能根據使用者想法,製作出逼真且包含清晰文字與排版設計的視覺內容,有助於使用者設計簡報、製作社群媒體素材或活動邀請函。
7. Veo 3
Veo 3 是最新的影片生成模型,其最大特色在於原生音訊生成功能,可同步產出如城市喧囂、自然聲響乃至角色對話等音效,提供沉浸式體驗。此功能將首先於美國推出,並透過 Gemini 應用程式開放給 Google AI Ultra 訂閱者使用。
8. Flow
Google 推出全新 AI 電影製作工具 Flow,專為創作者設計,整合了 Veo、Imagen 及 Gemini 等 Google 先進模型,協助用戶將創意構想轉化為電影級片段與場景。Flow 提供攝影機控制、場景建構等專業功能。即日起,美國地區的 Google AI Pro 及 Google AI Ultra 方案訂閱者可開始使用 Flow。Ultra 方案用戶更能搶先體驗 Veo 3 模型的原生音訊生成功能,為影片直接添加環境音效與角色對話。
總結而言,Google 在 2025 年的 I/O 大會上,透過 Gemini 模型的多項創新功能,展示了其在生成式 AI 領域的領先地位。這些功能不僅提升了使用者的創作效率,亦為未來的數位轉型提供了強大的工具支持。