Google在生成式AI世代被OpenAI搶得先機,目前正積極的強化Gemini布局;隨著Gemini 1.0與Gemini 1.5於多模態及長文本取得相當的進展後,Google宣布新一代Gemini 2.0,強調Gemini 2.0原生即具備代理能力,能為AI應用提供全新的可能性,同時也會提升Google搜尋AI摘要與更多產品功能。
Google除了開始將Gemini 2.0模型交付給開發者與值得信任的測試者,後續將盡快整合至產品當中,首先將以Gemini與Google搜尋為第一步;Google同時宣布即日起開放Gemini 2.0 Flash實驗性質模型供Gemini使用者與開發者,Gemini使用者可透過桌面與行動網頁版本進行體驗,網頁版只需自下拉選單選取實驗版本即可啟用,開發者則可利用Google AI Studio與Vertex AI使用。
從多模態邁向原生AI代理的Gemini 2.0
Google Gemini 2.0象徵生成式AI技術自多模態再向前邁進,提供原生圖像、音訊的輸出與原生使用工具的能力,使生成式AI朝通用型助理再度邁進;Google強調Gemini 2.0的突破來自長期的投資與對AI領域的理解;Gemini 2.0由像是第六代TPU「Trillium」等客製化硬體進行訓練與訓練,同時也開放予客戶進行開發。Google指出,若Gemini 1.0的重點在於資訊的組織與理解,而Gemini 2.0則更聚焦在以此為基礎的實用性。
Google於Gemini Advanced推出稱為深度研究(Deep Research)新功能,可透過進階邏輯推論與更長的脈絡扮演研究助理,協助使用者探索複雜的主題與彙整報告。Google的AI摘要功能是當前的大熱門AI服務,已經觸及10億用戶並協助他們彙整複雜的內容;Google計畫將Gemini 2.9的進階推論導入AI摘要,藉此處理更複雜的主題與多層次問題,使其能夠進行高等數學方程式、多模態的查詢與寫作與編寫程式;Google預計自即日起進行有限測試,預計在2025年初大範圍推出,同時支援更多語言與在更多地區提供服務。
更快、性能更出色的Gemini 2.0 Flash
▲Gemini 2.0 Flash不僅在與Gemini 1.5相同的回應時間具備更出色的性能,多項基準表現甚至超越Gemini 1.5 Pro
Gemini 2.0 Flash以廣受歡迎的Gemini 1.5 Flash為基礎,在強調快速回應時間的前提具備更出色的性能,同時在多項關鍵基準測試以2倍的速度表現超越1.5 Pro,此外除了支援圖像、影片與音訊等多模態輸入外,還支援多模態輸出,可同時產生圖像、文字與具備文字轉語音、可調整的多語言音訊等特色,同時原生可呼叫Google搜尋、執行程式碼與使用自定義的第三方工具;Googl除了將在2025年1月全面開放Gemini Flash使用以外,還將提供更多模型尺寸;此外Google還推出全新多模態Live API,可提供及時音訊、影片串流輸入與使用多個組合工具的能力。
將Gemini 2.0納入多項實驗性計畫
Google也將Gemini用於許多AI服務的計畫,如Google於2024年IO大會展示的混合實境AI助理Project Astra,使用Gemini 2.0建構的Project Mariner網頁瀏覽輔助工具,以及針對開發者的AI代理Jules,還有用於遊戲的應用如Genie 2。
▲結合Gemini 2.0的Project Astra速度更快且能串接搜尋、智慧眼鏡與圖資服務
Project Astra藉由導入Gemini 2.0,進一步改善延遲,能實現與人類對話接近的反應速度,獲得使用多種語言甚至混合語言的對話,並可理解口音與罕見詞彙;此外也由於Gemini 2.0與更多工具的無縫整合,Project Astra能夠活用Google搜尋、智慧眼鏡與地圖;同時Project Astra也能記憶長達10分鐘的內容,並記住過往的互動與對話,使其更具個人化。
Project Mariner則是一項以瀏覽器探索人機互動未來性的早期研究雛形,透過AI理解瀏覽器中的各式資訊,諸如文字、程式碼、圖像、表單等,並透過實驗性的Chrome擴充套件協助使用者完成想執行的任務,當前利用WebVoyager基準測試評測Project Mariner,達到83.5%的表現;不過目前仍有許多尚待解決的問題,如準確度不穩定、完成任務的速度很慢,同時也要在安全與負責任的前提完成;目前Project Mariner已經提供給可信任的測試者測試,並與網路生態系進行討論與研究。
Jules則是透過AI代理協助開發者的前瞻實現技術,利用AI驅動的程式碼代理並直接整合至GitHub工作流程,可在開發者的指導與監督解決問題、制定計劃與執行計畫,目標是包括在程式設計等領域發揮作用。
Google Deepmind團隊利用遊戲協助AI模型遵循規則、規劃與邏輯推理不遺餘力,在12月上旬公布的Genie 2,即可透過單個圖像建構無盡可玩的3D世界;Google使用Gemini 2.0建構代理,協助玩家在遊戲的虛擬世界導航,同時根據螢幕的動作推理遊戲的玩法,並在即時對話提供下一步操作建議;Google也與如Supercell等遊戲開發者合作並探索這些代理的運作,包括在部落衝突一類的策略遊戲與卡通農場等模擬經營遊戲;此外透過AI代理,也能結合Google搜尋將豐富的遊戲姿勢提供給玩家。