Google公布具原生多模態特質的新一代AI模型Gemini,將為Bard與Pixel裝置帶來全新升級

2023.12.07 12:22AM
照片中提到了Gemini,跟加爾明有關,包含了艾美利卡、產品設計、商標、牌、設計

Google宣布推出新一代具備原生多模態的AI模型Gemini,Google暨Alphabet 執行長Sundar Pichai指稱Gemini將是至今性能最強且最通用的模型;此次釋出的第一版本Gemini 1.0將提供包括Gemimi Ultra、Gemini Pro與Gemini Nano三種規模的模型,分別因應極致功能與複雜任務、擴展與跨任務以及裝置端應用等三種情境。同時Google也宣布Gemini也將於近期導入Bard人工智慧與Pixel設備,藉此提升使用體驗。

Gemini將導入包括Bard等多項Google服務與Pixel裝置

▲Bard將自即日起採用專用的Gemini Pro模型

在公布Gemini的同時,Google也宣布Gemini將陸續導入旗下服務與Pixel裝置,首先自即日起Bard將以專門調整的Gemini Pro作為核心,能有更進階的邏輯推理、規劃與理解能力,也是Brad推出以來最大幅度的更新;使用Gemini Pro模型的Bard將先以英文版本於170個以上的國家與地區提供服務,陸續將開放其他模態應用與擴展到不同語言與地區。

同時Google也將陸續把Gemini Nano導入Pixel裝置,如Pixel 8 Pro將率先能夠執行Gemini Nano,並支援如錄音工具提供摘要、Gboard進行智慧回覆,同時率先可在WhatApp使用、後續擴大到更多通訊軟體。

Google也預計將Gemini整合到Google更多核心服務,諸如Google Search、廣告、Chrome瀏覽器與Duet UI等;同時開始嘗試在 Google 搜尋裡測試使用 Gemini,可以讓生成式搜尋體驗(Search Generative Experience)的速度更快,在美國英文介面上的延遲會降低 40%,品質也會提高。

Gemini展現自單一任務到多模態等出色的AI性能

▲Gemini於文字、程式碼等多個測試面向超越現行最新最先進的基準

Google也公布橫跨自然圖像、音訊、影片理解與數學推理的Gemini的重大突破進展,Gemini Ultra在大型語言(LLM)研究與開發的32種廣泛被採用的基準測試,有30項超越當前最先進的LLM的基準效能。

另Gemini在MMLU(大規模多任務語言理解)測試,結合包括數學、物理、歷史、法律、醫學與倫理學等57項主題進行模型對世界的理解與解決能力,Gemini Ultra以90.04分成為第一個超越人類專家的AI模型,Gemini於MMLU的衡量方式能夠使回答難題前透過推理能力先更仔細思考,比起使用第一印象評估與明顯進化。

新的MMMU(大規模多學科多模態理解與推論基準測試)進行多模態、跨領域的測試認識,需要刻意去推理才能完成,而Gemini Ultra也在當前取得59.4%的領先分數;此外Gemini Ultra在未導入光學字元識別(OCR)的影像內文字擷取功能的情況下於圖像基準超越當前最新建的模型,也能顯見Gemini具備原生多模態的能力。

Gemini實現出色多模態性能的技術突破之處

 

▲Gemini於多項多模態測試基準領先超越當前先進基準的性能

相較現行多模態模型是針對不同模態訓練個別元件後組合在單一模型內的結果,往往僅在執行特定任務有較出色的表現,但處理較概念性或複雜的推論就會遇到困難;然而Google團隊一開始就將Gemini設計為原生多模態模型,一開始就在不同模態進行預訓練,而後透過額外多模態資料進行微調,如此一來在處理各種概念性與複雜多模態任務時,遠較利用拼湊多個元件的模型更為出色。

Gemini 1.0的多模態推論能力,能夠理解複雜的書面語視覺資訊,也使Gemini能自大量資料彙整出難以理解的知識;同時Gemini於閱讀、篩選與理解能力也相當出色,可自數十萬份文件擷取觀點,能自科學至金融領域帶來快速的突破。同時Gemini 1.0的訓練是同時識別與理解文字、圖像與音訊,所以能進一步理解細微的資訊並回答涉及複雜主題的問題。使Gemini在解釋、推論如數學與物理等複雜問題較傳統模型更為出色。

同時Gemini 1.9能夠理解、解釋當前常用的程式語言,例如Python、Java、C++和Go,並可產生高品質的程式碼,還能跨語言工作、解讀複雜資訊,使Gemini成為當前數一數二的程式設計基礎模型。此外Gemini Ultra在程式設計的基準的出色表現,即是由於Gemini的來源是來自程式設計者自己產生而非來自網路。同時Gemini也能作為引擎使用,藉此驅動進階程式生成系統。

Google於兩年前推出首個在程式設計競賽達到有競爭實力的AI程式碼產生系統AlphaCode,藉由Gemini的出現,Google團隊建立更進階的AlphaCode 2,專為程式設計與處理數學與理論電腦科學相關、複雜的競技程式設計的問題。AlphaCode 2相較AlphaCode在相同的競技程式設計競賽進行測試評估有大幅的領先,解決問題的數量幾乎是兩倍,同時超過85%的參賽者,相較僅領先50%參賽者的AlphaCode可說是明顯的成長,此外若程式設計師與AlphaCode 2協作,協助定義程式碼需要遵循的特定屬性時,表現甚至更好。

在TPU執行更具效率且具擴展性

▲Google同步宣布全新的Cloud TPU v5p AI加速器系統

Google藉由以TPU v4與v5e最佳化作為AI最佳化的基礎架構去訓練Gemini 1.0,能使Gemini具備可靠、高擴充性且服務效率最大化;相較先前性能更低的小型模型,Gemini在TPU的執行效率更高;同時Google也同步公布Cloud TPU v5p,是Google性能最高、效率最佳且具高擴充性的新系統,同時能加速Gemini發展,並協助開發者、企業用戶訓練大規模的生成式AI模型。

同時Google也同樣依循安全與責任的原則建構Gemini,在開發過程及遵循Google AI準則與多項產品的安全政策,同時也考慮Gemini多模態特質新增相對應的防護措施,盡可能進行測試與降低風險;目前為主,Gemini於Googl的AI模型當中於Gemini在偏誤、資料毒性(toxicity)等方面,都接受了最全面的安全性評估。在網路攻擊、說服能力和自主性等可能存在風險的領域,我們都進行了最新的研究,也運用Google Research團隊領先業界的對抗測試技巧,在部署Gemini前就率先找出關鍵的安全問題。同時也為了避免內部測試盲點,攜手不同背景的外部專家與夥伴合作。

自2023年12月中提供開發者利用Gemini Pro與Gemini Nano進行開發

Google也宣布將自2023年12月13日起,開發人員和企業客戶將可以透過Google AI Studio或Google Cloud Vertex AI中的Gemini API使用Gemini Pro,另外Android開發者也可透過AICore於建構作業導入Gemini Nano,預計AICore將會率先在Pixel 8 Pro推出。

至於功能更強大且複雜的Gemini Ultra仍在執行全方位的信任與安全檢查,包括透過Google信任的外部團隊進行攻擊演練,並透過專門調整的機制與人工回饋強化式學習,希望在正式推出前持續改良模型並確保推出後能夠盡可能降低風險;在調整過程會開放特定客戶、開發人員、合作夥伴及安全專家使用Gemini Ultra,透過這樣的早期實驗收集意見回饋,然後在明年年初讓更多開發人員及企業客戶使用。同時Google預計在2024年初推出功能更先進的Bard Advanced,建構於Gemini Ultra的基礎之上,將會是全新且先進的AI體驗。