2024年Google IO展示了多項AI與Google服務的整合,例如Project Astra利用現行的Gemini多模態模型為基礎,展現了人與AI互動的全新可能,此外在Gemini的更新「Gemini 1.5 Pro」方面,嵌入例如Google相簿、Gmail等各項服務,使用者透過Gemini協助可以獲得更精準的搜尋結果或是資料整理。如今Gemini已不再只是提供疑惑解答的AI助理,還可以進行旅遊規劃、防範詐騙等輔助功能,未來日常生活將與AI結合的更加緊密,創造出截然不同的AI應用體驗。
Google展示基於Gemini的Project Astra願景,透過手機、智慧眼鏡展現自然語言、影像辨識相互結合的AI助理體驗
Gemini是Google作為Google Assisit個人助理的下一階段,不過Google對於AI驅動技術的願景當然不僅於此;Google在Google IO 2024透過一段短片展示稱為Project Astra的AI助理願景,利用Gemini多模態模型為基礎,並分別智慧手機、智慧眼鏡展示人與Project Astra互動的新方式。
▲透過鏡頭影像找到附近發出聲音的裝置。
▲利用文字辨識方式將眼前螢幕的程式碼轉化為文字後分辨使用的程式語言。
▲幫助用戶找到自己遺落(但Project Astra眼角餘光曾掃到)的眼鏡。
▲分辨黑板上的問題提供適合的答案。
▲發揮創意幫眼前的景象下註解。
在短片中,Project Astra透過裝置的鏡頭與麥克風探索世界以及與使用者會度,無論是幫助使用者找出發出聲音的設備,分辨眼前使用的程式語言,從窗外的街景分辨身處何處,找到近在眼前卻一時想不起放在哪的眼鏡,分辨黑板上的難題並提供解決問題的建議,或是發揮創意幫眼前的景物下詮釋。
嚴格來說Project Astra較像是把Gemini所能辦到的AI助理應用以更自然的沉浸式人機介面呈現,裝置的鏡頭即是用戶與Gemini的視覺,自然語言則是用戶與Gemini溝通的手段,Project Astra如同一位博學且隨伺在旁的家庭教師,幫助用戶探索、解決所有看見的各式疑難雜症。
Gemini內建於Google相簿、Gmail強化搜尋體驗 連Meet也能整理重點
今年Google IO最一開始介紹的是Gemini升級版Gemini 1.5 Pro,並且持續將Gemini應用在Google旗下各項服務。例如Google相簿與Gemini搭配的「Ask Photos with Gemini」,將可更細緻地搜尋相片中的各項細節,還有Gemini應用於Gmail將可搜尋並且整理與摘要多封信件內容。
使用Gemini搜尋相簿內容、建立獨特集錦
Google相簿中有大量的照片與圖片,雖然使用者可以藉由搜尋找到照片,不過搜尋的結果偏向集結某個特定元素,並不一定符合要求。本次Google相簿應用Gemini 1.5 Pro將可搜尋相片中更詳細的資訊,例如透過問答的方式讓Gemini協助搜尋,找到相片中的車牌號碼資訊。
此外,在相片回憶集錦功能也將帶來改變,使用者將可透過Gemini篩選出特定照片類型,例如「女兒游泳的進步情況」等,針對特定的情境進行照片彙整,建立獨特的相片集錦。
▲Google相簿結合Gemini推出「Ask Photos with Gemini」功能。
▲使用者將可用問答的方式搜尋相片中的資訊,例如詢問車牌號碼。
▲Ask Photos with Gemini將可依照指示集結特定情境的照片,集結成集錦。
搜尋並整理Gmail信件內容、Google Meet會議重點摘要
Gemini也將應用於Gmail,使用者將可利用Gemini從雜亂的信箱中搜尋特定種類的信件並且進行內容摘要,例如學生家長可以搜尋來自學校的信件,並且透過Gemini摘要信件內容。除了信件內容本身以外,Gemini也可以分析信件的附件,因此包括日曆等重點事件也可以藉由詢問Gemini迅速掌握與安排。
如果使用者錯過Google Meet會議,如今將可藉由Gemini進行會議摘要,整理重點,甚至是回復邀請。此外Gemini也可以協助使用者擬定信件的草稿,減少回信所需要花費的時間,
▲使用者將可透過Gemini篩選Gmail信件並且歸納信件內容。
▲Gemini將可整理Google Meet會議內容並且進行重點摘要。
Gemini將提供旅遊規劃 機票、飯店甚至飲食禁忌都能做到好 堪比旅行社一條龍服務
不少AI應用開始進軍生活領域,Google旗下Gemini也將於近期提供旅遊規劃功能,你只要給它旅遊資訊,諸如去哪裡?去多久?偏好的旅遊方式,甚至是飲食禁忌,AI就能幫你做好一條龍的旅遊行程。這對於不喜歡自行規劃行程的人來說或許相當方便,此服務將於未來幾個月內推出。
AI旅行社Gemini將開張
Gemini將於未來幾個月內提供旅遊規劃功能,使用時你可以說出你想要去日本東京7天,偏好文化行程,不吃生魚片。那麼Gemini就會推薦你適合的機票、飯店以及餐飲店,而且這些資訊都是動態調整,可以隨時增加條件或是進行調整,就像是跟旅行社專員對話一樣。
規劃出來的行程內容取決於Gemini能取得的公開資訊,像是航班、旅館、餐廳等資訊,除此之外,你也可以加入額外的「私人」內容,像是自己的Gmail信件。假設你的Gmail信件有某飯店的特價資訊,或是某航空公司給你這類金卡會員的特惠機票,那麼Gemini就能整合這些額外資訊,給予你更適合的行程規劃。
Google並不是第一家利用AI提供旅遊規劃的公司,但未來或許會有越來越多的AI服務可以減少搜尋引擎的使用率,並提供你一條龍的解答方案,讓用戶省下更多的時間。
▲你可以提供Gemini必要的時間、地點資訊,若能補充自己或家人偏好什麼行程,則可以加強旅遊規劃的契合度。
▲AI會擷取對話的關鍵字句,參考公開與你額外提供的私人資訊分析出最適合的答案。
▲透過給予的資訊,AI能找出多種不同結果供你選擇,當你提供的資訊或條件越完整,則可能給出更適合你的規劃。
▲Gemini會提供行程的動態頁面,你可以點選或是調整行程內容,或是微調時間。
▲行程中航班、旅館等資訊皆來自公開資訊,你也可以加入自己的Gmail信件內容。
Google將為Google Photos推出Ask Photos with Gemini功能,提供更具個性化的照片搜尋體驗
Google積極將Gemini技術融入旗下服務,Google在Google IO 2024宣布將為Google Photos(Google相簿)推出Ask Photos with Gemini,透過與Gemini AI技術整合,改變照片搜尋的模式,可提供更進階且具個性化的照片搜尋與探索體驗,協助用戶從自己Google Photos大量的照片中找到有價值與紀念性的內容。Ask Photos with Gemini預計於2024年夏季陸續推出。
▲每天有60億照片與影片上傳至Google Photos。
▲現階段的Google Photos可透過物件辨識以照片中具備的元素分類,然而Ask Photos則可進一步找出自己車子的車牌。
▲相簿中有大量女兒的成長照片。
▲利用Ask Photos可聚焦整理用戶女兒學習游泳的歷程。
Google舉了2個例子,其一是既有的Google Photos已能透過影像分析將照片的元素進行分類,並使用戶可透過關鍵字如汽車的車牌進行分類,而Ask Photos with Gemini則可進一步從大量的照片先找出自己的車輛照片,再進一步從中找出帶有自己車子車牌的照片;另一個例子則是針對特定的情境照片進行彙整,例如可透過Ask Photos with Gemini搜尋自己的女兒學習游泳的過程,並將這些相關的照片整理。
Vertex AI推出具成本因素與低延遲的Gemini 1.5 Flash與針對視覺的PaliGemma
Google Cloud的Vertex AI託管開發平台宣布即日起推出Gemini 1.5的新分支Gemini 1.5 Lite的預覽版,是專為成本因素以及著重低延遲的任務形式的版本,另外還有Gemma開放模型家族當中首個視覺語言模型PailGemma。
Gemini 1.5 Lite可視為Gemini 1.5 Pro的延伸版本,具備相同的100萬個Token,但鎖定如聊天應用程式、字幕、影像與圖片分析、從長文章擷取關鍵內容與數據等成本與延遲應用;另外在2024年4月提供公開預覽版的Gemini 1.5 Pro也將在6月正式推出。
▲PaliGemma是Gemma開源模型當中首個針對視覺語言應用的分支。
PaliGemma是隸屬Google開源模型計畫Gemma當中的新分支,是產品線首個視覺語言開放模型,能夠針對影像字幕、視覺問答、理解圖像內文字、物件偵測、物件切割的應用案例提供最佳化,為Vertex AI客戶提供針對此類視覺語言等特定領域應用的更合適的開源模型選擇。
用AI分析通話防詐騙 聽到關鍵字就要你掛電話
全球反詐騙聯盟去年10月的報告顯示,全球有25%的人過去12個月中曾被詐騙,總計損失達1兆美元。Google將利用Gemini Nano來分析電話內容,當偵測到銀行行員、檢察官要你提供銀行帳戶、密碼或是要你轉帳、買點卡的時候,就會跳出警告語音與畫面,提醒你不要交出資料或是轉帳給對方。此種AI反詐騙藉由分析對話,可避免詐騙集團使用新電話號碼規避黑名單,並於偵測到高風險行為時給予用戶即時警告避免發生遺憾。
即時分析對話並給予警告
Gemini Nano是簡化的大型語言模型,可在手機端離線使用。它可以監控並即時分析通話內容,當對話觸及高風險的詞語或行為,像是提到銀行帳戶、密碼,或是要你購買點卡或轉帳時,手機會出現語音要你提高警覺,並於畫面上顯示要繼續通話或是立即掛斷。
用戶可以自行選擇是否要開啟此功能,同時該功能只在手機端運作,因此對話內容將不會回傳至伺服器保護你的隱私。然而這功能Google尚未宣布何時上線,但預計今年會公布更多相關內容。
透過分析對話來防詐騙,可避免詐騙集團使用新的電話號碼來規避黑名單,不過防詐騙最重要的還是用戶自己的警覺心。畢竟連警察往往都得苦口婆心勸人別轉帳出去,才能讓受害者回心轉意,區區AI能做的事情還是有限。
▲如果詐騙集團隱藏電話號碼,那麼黑名單將沒有用處。
▲當偵測到高風險對話,系統會跳出警告要你當心。
Google推出Ask with Video即時影像與語音搜尋方式,活用Gemini多模態特性理解影片與發問提供解答
Google宣布將推出由Gemini驅動的Ask with Video即時影像與語音搜尋方式,Ask with Video是透過手機的視訊鏡頭拍攝即時影像結合麥克風收錄的自然語言的新搜尋方式,發揮Gemini多模態特性,針對即時影像逐幀分析與理解自然語言,提供不同於傳統文字敘述或以圖搜圖的新搜尋方式。
▲Ask with Video是Gemini多模態的應用,可一方面將即時影像逐幀拆解元素、理解自然語言發問並分析問題
▲透過理解唱臂可能的故障成因後提供可能的解決辦法,同時也在拍攝到產品品牌之餘提供產品官網
Google以一台唱臂故障的鐵三角黑膠唱機為例,透過手機拍攝唱臂故障的情形,並詢問該如何修復,Ask with Video利用辨識影片中唱臂的晃動狀況分析是哪種故障情況,除了提供故障排除的建議以外,還可透過影片拍到的裝置品牌,一併提供產品官網的連結。
Circle to search幫你解數學題、預計年底2億台裝置使用
Google IO 2024宣布將有更多Android系統手機支援Circle to search功能。Circle to search又稱為「畫圈搜尋」,使用者只要圈選螢幕上的內容即可搜尋範圍內的圖片或文字,而在基礎的搜尋之外,本次Google宣布Circle to search將可應用在學習輔助,學生可透過Circle to search解題並且了解計算的步驟。
Circle to search輔助解題並展示計算步驟
Circle to search於2024年初在部分Android系統手機推出,使用者可藉由長按主畫面按鈕開啟功能,並且透過圈選螢幕上的區域開始搜尋圈選的圖像、文字等各種內容。如今Circle to search功能將可應用於學習領域,將協助學生解題並且展示解題步驟,能夠理解的題目類型包括文字敘述的物理測驗等,未來也將陸續支援更為複雜公式、圖表等題目類型。
▲Circle to search目前僅在部分Android手機推出,使用者在開啟Circle to search功能後,圈選螢幕上的指定區域即可開始搜尋。
▲Circle to search將支援解題功能,學生可將題目圈選,查詢答案與解題步驟。
▲未來Circle to search將可進行更複雜的公式或圖像計算。
預計年底將拓展至2億台裝置使用
在介紹Circle to search功能之後,Google也表示未來將有更多Android系統手機支援Circle to search,並且預計將於2024年拓展支援的裝置數量至2億台,是目前的1倍。Google同時也強調Circle to search是Android系統手機的獨特功能,且Android系統是體驗Google Ai的最佳平台。
▲Google表示2024年底支援Circle to search功能的裝置數量將超過2億台,是目前的1倍。
Gemini 1.5 Pro導入於Google WorkSpace工作流程 並推出協同作業秘書AI Teammate
Google將Gemini 1.5 Pro導入所有的WorkSpace文書工具服務中,未來右邊的側邊欄都會有Gemini的區塊可以使用,其中包括摘要總結和串接不同服務功能。不只是右側欄的Gemini功能區塊,Google還發表了協同作業秘書AI Teammate服務,只要在群組對話中,都可以問AI Teammate各種問題,例如某個專案的進度、講哪天會議的結論整理成文件,成為真正的專案管理秘書。
Gemini 1.5 Pro導入Gmail應用
右側欄的Gemini功能區塊可以摘要總結這封關於屋頂漏水的信件,使用者在輸入Q&A提示詞:「比較一下修繕的價格以及時間。」Gemeni就從信件中找出來非常方便。
不僅如此,在回信時Gemeni理解上下文以及來回信件,並提出回信的提示詞建議選項。總結功能本月就會在WorkSpace推出,Q&A提示詞功能將在7月推出。
▲任何信件都可以透過Gemini總結摘要。
▲摘要完成後還可以繼續輸入需求提示詞。
▲輸入完成後Gemini會幫你翻找信件然後整理出來!
▲回信的時候還會給你建議。
Gemini串接Google WorkSpace中的不同服務
展示一個從事攝影的自由工作者,總是有一堆未讀的信件。打開信件發現是某個支出帳單,中右邊的Gemini助理就可以輸入提示詞協助:幫我組織並追蹤帳單。
Gemeni馬上幫你將37張單據整理在1個資料夾,並做成1個Spread Sheet功能表單,使用者可以編輯或確認,確認後還回給你回信。
在帳單表單上還可以繼續請Gemini協助:「錢花去哪了?」Gemeni就會為你分析所有的支出,並分類支出的類別。Gemeni串接功能將於9月推出。
▲在閱讀信件時,Gemini就會給你建議動作了,例如看到是帳單就建議你是否要整理帳單。
▲整理後歸檔在資料夾並做出表單,使用者可以進行編輯或確認。
▲表單上還可以請Gemini繼續協助,例如將所有的支出分類。
協同作業秘書:AI Teammate
AI Teammate猶如組織協同作業的萬能助理,在展示中我們先為AI Teammate取名Chip。在專案中的各種討論,就可以將Chip拉進來,他會幫你找資料和解答。
例如我們問「IO的故事版在哪呢?」Chip就會從所有的資料中找給你。又例如:「IO的發表專案確認了嗎?」
Chip就會給你目前專案的作業進度,包括發想在4月25日確認、5月18日會完成設計、5月22日會測試、11月15日會開始行銷。每個結論都有引用的資料依據,都可以回頭爬梳資料。
最後還可以@Chip完成一份總結文件,幾分鐘就可以完成。AI Teammate將於2025年推出,確切的時程目前未知。
▲AI Teammate堪稱協同作業的萬能秘書,要什麼問就對了。
▲連專案進度都可以追蹤整理,每個條列重點都有信件或文件的來源依據。
Google代號Trillium的第六代TPU將在2024年末提供服務,性能提升4.7倍、能源效率高67%
Google宣布代號Trillium的第六世代TPU,宣稱相較現行的TPU v5e性能提高4.7倍,並改善67%能源效率;Google預計在2024年底為Google Cloud客戶提供Trillium的實例,除此之外Google也一併介紹在4月公布的客製化Arm處理器Axion將上線提供服務,以及預計於2025年初提供NVIDIA Blackwell GPU加速運算服務。
▲Trillium強化MXU、導入第三代SparseCore。
Trillium在設計進一步強化矩陣乘法單元(MXU)、拉高時脈與增加1倍的HBM記憶體頻寬與容量,同時還具備能加速處理排名與推薦工作負載第三代SparseCore嵌入式加速器進行工作卸載,同時透過客製化光通訊技術將晶片對晶片互連(CIC)頻寬較TPU v5e增加1倍;Trillium可在單一高頻寬、低延遲Pod具備256個TPU,且最多能擴展到高達數百個Pod,這些TPU晶片將以每秒高達PB級的速度相互連接。
▲Google Cloud亦計畫在2025年初提供NVIDIA Blackwell雲端實例
Google的TPU是除了NVIDIA GPU加速技術外市場的第二大AI晶片技術,不過市佔仍遠低於已達80%規模的NVIDIA GPU加速技術,同時只提供Google Cloud客戶雲端運算服務不販售硬體的模式也進一步限制TPU擴展的可能,然而作為雲端服務商,Google仍提供多元的加速技術,當前仍基於與市場主流的NVIDIA合作,畢竟滿足客戶需求才是服務商能夠獲利的關鍵。
Google將在2024年6月推出開源模型Gemma 2,並提供與NVIDIA合作可在單一Vertex AI執行的28B參數版本
Google Gemma是與Gemini同源的開放AI模型計畫,也是許多AI服務與應用作為客製化模型訓練的基礎,Google宣布將於2024年6月透過Vertex AI推出新一代Gemma 2,同時還將進一步擴展參數規模,屆時會推出27B參數版本,並強調表現能與具備更多參數的模型抗衡。此外,Google同步預計在夏天於Verstex AI推出Imagen 3圖像生成模型。
▲Gemma 2的27B參數是與NVIDIA合作可發揮Blackwell潛力的版本,可在單一Vertex AI的GPU Host執行
Google強調Gemma 2 27B參數版本是與NVIDIA密切合作的成果,是為發揮NVIDIA的下一代GPU(Blackwell)潛能的大型模型,並足以在Vertex AI的單一GPU Host執行,亦可在Google的TPU執行,Google預計Gemma 2將帶是具突破性且更具效益的開源AI模型。