Google推出Gemini 2.0，宣布邁向代理式AI新模型世代 (230671)

Google在生成式AI世代被OpenAI搶得先機，目前正積極的強化Gemini布局；隨著Gemini 1.0與Gemini 1.5於多模態及長文本取得相當的進展後，Google宣布新一代Gemini 2.0，強調Gemini 2.0原生即具備代理能力，能為AI應用提供全新的可能性，同時也會提升Google搜尋AI摘要與更多產品功能。

Google除了開始將Gemini 2.0模型交付給開發者與值得信任的測試者，後續將盡快整合至產品當中，首先將以Gemini與Google搜尋為第一步；Google同時宣布即日起開放Gemini 2.0 Flash實驗性質模型供Gemini使用者與開發者，Gemini使用者可透過桌面與行動網頁版本進行體驗，網頁版只需自下拉選單選取實驗版本即可啟用，開發者則可利用Google AI Studio與Vertex AI使用。

從多模態邁向原生AI代理的Gemini 2.0

Google Gemini 2.0象徵生成式AI技術自多模態再向前邁進，提供原生圖像、音訊的輸出與原生使用工具的能力，使生成式AI朝通用型助理再度邁進；Google強調Gemini 2.0的突破來自長期的投資與對AI領域的理解；Gemini 2.0由像是第六代TPU「Trillium」等客製化硬體進行訓練與訓練，同時也開放予客戶進行開發。Google指出，若Gemini 1.0的重點在於資訊的組織與理解，而Gemini 2.0則更聚焦在以此為基礎的實用性。

Google於Gemini Advanced推出稱為深度研究(Deep Research)新功能，可透過進階邏輯推論與更長的脈絡扮演研究助理，協助使用者探索複雜的主題與彙整報告。Google的AI摘要功能是當前的大熱門AI服務，已經觸及10億用戶並協助他們彙整複雜的內容；Google計畫將Gemini 2.9的進階推論導入AI摘要，藉此處理更複雜的主題與多層次問題，使其能夠進行高等數學方程式、多模態的查詢與寫作與編寫程式；Google預計自即日起進行有限測試，預計在2025年初大範圍推出，同時支援更多語言與在更多地區提供服務。

更快、性能更出色的Gemini 2.0 Flash

▲Gemini 2.0 Flash不僅在與Gemini 1.5相同的回應時間具備更出色的性能，多項基準表現甚至超越Gemini 1.5 Pro

Gemini 2.0 Flash以廣受歡迎的Gemini 1.5 Flash為基礎，在強調快速回應時間的前提具備更出色的性能，同時在多項關鍵基準測試以2倍的速度表現超越1.5 Pro，此外除了支援圖像、影片與音訊等多模態輸入外，還支援多模態輸出，可同時產生圖像、文字與具備文字轉語音、可調整的多語言音訊等特色，同時原生可呼叫Google搜尋、執行程式碼與使用自定義的第三方工具；Googl除了將在2025年1月全面開放Gemini Flash使用以外，還將提供更多模型尺寸；此外Google還推出全新多模態Live API，可提供及時音訊、影片串流輸入與使用多個組合工具的能力。

將Gemini 2.0納入多項實驗性計畫

Google也將Gemini用於許多AI服務的計畫，如Google於2024年IO大會展示的混合實境AI助理Project Astra，使用Gemini 2.0建構的Project Mariner網頁瀏覽輔助工具，以及針對開發者的AI代理Jules，還有用於遊戲的應用如Genie 2。

▲結合Gemini 2.0的Project Astra速度更快且能串接搜尋、智慧眼鏡與圖資服務

Project Astra藉由導入Gemini 2.0，進一步改善延遲，能實現與人類對話接近的反應速度，獲得使用多種語言甚至混合語言的對話，並可理解口音與罕見詞彙；此外也由於Gemini 2.0與更多工具的無縫整合，Project Astra能夠活用Google搜尋、智慧眼鏡與地圖；同時Project Astra也能記憶長達10分鐘的內容，並記住過往的互動與對話，使其更具個人化。

Project Mariner則是一項以瀏覽器探索人機互動未來性的早期研究雛形，透過AI理解瀏覽器中的各式資訊，諸如文字、程式碼、圖像、表單等，並透過實驗性的Chrome擴充套件協助使用者完成想執行的任務，當前利用WebVoyager基準測試評測Project Mariner，達到83.5%的表現；不過目前仍有許多尚待解決的問題，如準確度不穩定、完成任務的速度很慢，同時也要在安全與負責任的前提完成；目前Project Mariner已經提供給可信任的測試者測試，並與網路生態系進行討論與研究。

Jules則是透過AI代理協助開發者的前瞻實現技術，利用AI驅動的程式碼代理並直接整合至GitHub工作流程，可在開發者的指導與監督解決問題、制定計劃與執行計畫，目標是包括在程式設計等領域發揮作用。

Google Deepmind團隊利用遊戲協助AI模型遵循規則、規劃與邏輯推理不遺餘力，在12月上旬公布的Genie 2，即可透過單個圖像建構無盡可玩的3D世界；Google使用Gemini 2.0建構代理，協助玩家在遊戲的虛擬世界導航，同時根據螢幕的動作推理遊戲的玩法，並在即時對話提供下一步操作建議；Google也與如Supercell等遊戲開發者合作並探索這些代理的運作，包括在部落衝突一類的策略遊戲與卡通農場等模擬經營遊戲；此外透過AI代理，也能結合Google搜尋將豐富的遊戲姿勢提供給玩家。

從多模態邁向原生AI代理的Gemini 2.0

更快、性能更出色的Gemini 2.0 Flash

將Gemini 2.0納入多項實驗性計畫

猜你喜歡

Chevelle.fu

相關消息