Meta發表具自我監督學習多樣語言的模型 XLS-R 對應多達 128 種語言互譯

2021.11.24 08:47PM
照片中提到了Facebook Al,跟銳步有關,包含了臉書人工智能、Facebook人工智能研究、火炬、臉書、機器學習

Meta接下來希望透過單一語言學習模型即可對應識別全球超過7000種語言,並且縮減不同語言之間溝通落差,讓不同語言背景的使用者日後可以更流暢地溝通。

Meta旗下Facebook人工智慧研究院宣布推出名為XLS-R,並且能對應多樣語言自我監督學習的模型,目前已經能識別128種語言,相比先前採用語言學習模型能以10倍資料量學習多達兩倍語言數量。

依照說明,XLS-R語言學習模型是以據自我監督的語句描述識別工具wav2vec 2.0為基礎,並且以長達43萬6000小時長度公開可使用語句進行訓練,並且建立超過20億組參數,藉此獲得可對應128種語言流暢互譯的訓練模型。

在BABEL語言測試中,XLS-R在對應印度阿薩姆語、菲律賓他加祿語、非洲史瓦希利語、寮國通用寮語,以及在伊朗、土耳其等地區使用的喬治亞語,與英語轉譯時的錯誤率,相比前一版本語言模型均明顯減少。

而在BLEU語言互譯的結果中,無論是在參考資料較多或較少情況,都能獲得更高測試分數。

Meta接下來希望透過單一語言學習模型即可對應識別全球超過7000種語言,並且縮減不同語言之間溝通落差,讓不同語言背景的使用者日後可以更流暢地溝通。

除了Meta持續投入語言互譯技術發展,包含Google、微軟、亞馬遜等業者也同樣藉由旗下數據資源建立語言學習模型,並且透過人工智慧技術實現即時互譯效果,藉此打破各地區語言隔閡現象。

例如,Google目前已經在Android作業系統整合運用人工智慧技術的即時翻譯功能 (Live Translate),不僅可在連接雲端情況下支援108種語言互譯,就算在離線狀態也能透過手機資料庫實現特定幾種語言互譯,至於NVIDIA則計畫藉由其GPU加速方式,藉此加快多種語言訓練學習效率。