Google Translate是相當實用的翻譯服務,不過全世界的語言相當多,有些語言礙於樣本因素難以建立可用的翻譯技術,但隨著AI的技術演進,Google Translate也在AI的加持下可支援更多元的語言;Google宣布將在近期為Google Translate新增達110種語言,約為全球8%人口所使用的語系,是歷年一口氣新增數量最多的一次,其中有1/4的語言為非洲語,此外也包括樣本容易與中文混淆的粵語;此外Google也宣布支援1,000種語言的計畫,以支援1,000種常用語言作為願景。
Google Translate將在近期上線110種語言翻譯服務
▲透過大型語言模型得以透過相近的語言學習正確的翻譯方式
Google能夠進一步為樣本相對缺乏、語言使用方式沒有統一的規則、或樣本容易與其它語言混淆的語言提供翻譯的關鍵在於導入PaLM2大型語言模型;Google此次新增的語言都有一個可以視為標準的鄰近語言,再將這個語言作為基礎,結合PaLM2大型語言模型的AI進行學習,使模型可透過類似的語言去學習相近或有類似淵源的語言,此外Google也強調會持續與語言學家、母語相關人士合作,使翻譯的結果更為正確。
Google舉出其中幾項新增語言的特性,如吉布地、厄立特里亞和衣索比亞等地使用的Afar語是由志工社群所貢獻的藍本,而粵語雖然很受歡迎但由於書寫容易與中文混淆故過去難以訓練有效模型,Manx則是隨著最後一位以該語言為母語的使用者去世後幾乎絕滅,巴基斯坦常用的Shahmukhi則是以阿拉伯文字書寫的變體語言,北非的Amazigh雖然有許多方言但書寫大致上可相通,Tok Pisin則是巴布紐幾內亞當地的語言,以英語作為基礎。