Google 推出 Gemini 2.5 Flash AI 模型,強調其低延遲和更高的成本效益,並允許用戶根據預算調整使用效率。
不久前宣布推出標榜在程式編寫、數學推理,以及科學分析有相當能力表現的Gemini 2.5 Pro實驗版 (Experimental)之後,Google在此次Google NEXT』25大會活動進一步宣布推出更低延遲運作、成本效益更高的Gemini 2.5 Flash,同樣透過Google Cloud服務的Vertex AI平台,以及Google AI Studio管道提供。
相比Gemini 2.5 Pro能處理前後達100萬個詞元內容理解處理,並且能進行深度資料分析、在特定專業領域提供關鍵見解,或是在理解整個程式碼後進行複雜編碼工作,成為Google當前能力最高的人工智慧模型,Gemini 2.5 Flash則是提供更低延遲執行效率,以及更低使用成本,預期成為多數應用服務主力使用模型,同時也能保持一定執行處理正確率表現,適合用於製作互動虛擬助理,或是即時內容摘要工具。
而Gemini 2.5 Flash同時具備動態、可控的推理能力,可依照提問內容複雜度自動調整處理時間 (可視為「思考預算」考量),針對可簡單回覆提問內容更快做出互動,同時開發者或企業也能設定使用成本,依照實際需求調整回應速度、準確率,藉此讓服務運作預算可更有效益地使用。
同時,為了讓使用者能更容易在Gemini 2.5 Pro及Gemini 2.5 Flash等模型之間選擇合適需求版本,Google推出實驗性質的Vertex AI模型最佳化工具,可依照使用者期望執行品質與成本自動為每個提示 (prompt)產生最佳品質響應結果。
針對工作負載無須在固定網路節點位置處理的需求,Google也推出名為Vertex AI Global Endpoint的跨區域流量感知路由,即使在高峰值存取流量,或是所處區域網路服務不穩定情況下,仍可確保Gemini人工智慧模型維持一定回應效率。
另外,Google也宣布在Vertex AI平台增加對應Gemini人工智慧模型使用的API資源,讓藉由Gemini人工智慧模型打造的代理服務能以更低延遲形式處理聲音、視訊及文字內容,藉此實現呈現更貼近人類即時對話、即時監控等互動效果,並且支援長度超過30分鐘的對話內容、多語言音訊分析,或是整合更多功能,藉此處理更複雜工作任務。