Google 機器學習應用分享:基於機器學習並持續進化的翻譯

2017.05.03 12:07PM
是Google 機器學習應用分享:基於機器學習並持續進化的翻譯這篇文章的首圖

近期因為 Alpha Go 持續在圍棋領域擊敗各界好手,人工智慧議題又開始獲得關注,當然人工智慧並非新技術,但在機器學習技術於硬體、演算法雙方面逐趨成熟後,人工智慧發展獲得飛躍性成長, Google 為了讓媒體對機器學習的應用有更多了解,也預計規畫一系列定期講座,每一季以一個相關議題進行探討,而今天則首度以 Google 翻譯為議題,探討導入機器學習後帶來的效益。

關於機器學習/深度學習可見先前報導: GTC 2015 :結合平行運算、模仿人類感知的深度學習,正醞釀一波人工智慧革命

87c8ed23abd1b34028a1410bd3260dcb

Google 台灣總經理簡立峰表示,人工智慧並非新議題,早就開始被應用在各項領域,早期像是垃圾信辨識就已經導入人工智慧,然而過去在演算法與硬體發展限制下,人工智慧發展一度碰壁,但隨著 Google 開始導入機器學習後,停滯的齒輪又開始轉動, Google 也將 TensorFlow 演算法開放,促進人工智慧與機器學習的發展。

b6cde9b5cb6d671cd1552ef611196489

簡立峰表示,目前人工智慧雖獲得大幅成長,不過仍僅限於特定領域,人工智慧能達到的領域在於能夠被預測並且可學習的領域,例如垃圾郵件、圍棋等,但像是難以被預測、難以判斷知識領域,例如哲學、思考邏輯、感官等,就無法以人工智慧實現。

目前人工智慧以人類能力區分可簡單分為三個層級,包括透過各種感測器達到超人類的超人級,與人類能力近似如影像辨識的類人級,以及低於人類能例如翻譯的次人級。

bd744f2e6f4d2eae31742da170b97ece

在簡立峰作為簡短的人工智慧發展論述後,接著由 Google 在美國總部份負責 Google 翻譯的產品經理 Julie 針對目前 Google 翻譯如何應用人工智慧作介紹; Julie 表示,翻譯服務是相當重要的功能,因為目前高達五成的網頁內容是以英文撰寫,但使用英文作為主要語言的使用者卻不到兩成,是故 Google 在推出翻譯服務後也獲得好評。

不過不知道在初期就開始使用 Google 翻譯的使用者有沒有發現, Google 翻譯在 2015 年下半年後,精確度開始變高,更像是自然翻譯的結果,這是因為在 2015 年 9 月開始導入機器學習( NMT )取代原本的片語式架構,且目前導入的成果超過預期,在 13.5 個月內達到當初預期 3 年才能提供的服務水準,截自今年 4 月已經能提供 26 種翻譯語言。

bbcf097545bbfebc6a6f30c26d31df6a

目前 Google 翻譯透過機器學習,約可在 2 到 3 周訓練一個模型基礎,學習內容超過一億個案例,現階段已經提供 103 個平方組的模型;同時 Google 翻譯也為了加速模型產生,透過多語言模型交叉訓練學習,把不同語言、相同語意歸納,使翻譯訓練能在兩周內由 10 秒縮減到 0.2 秒。在透過機器學習後,最關鍵的是能夠判斷前後文的關係選擇正確詞彙,也因此能夠提供更接近人工翻譯的水準。

另一個結合多重機器學習應用的翻譯,就是 Google 的即時鏡頭翻譯,即時鏡頭翻譯透過影像辨識、分析文字、翻譯後再於螢幕上顯像;為了提升文字圖像辨識能力, Google 刻意提供與真實情況相同的模糊印刷文字、污漬、塵點等文字作為學習基礎,也因此能達到高精確的即時鏡頭翻譯品質。

b1f5e982c131fa86cf9f566a191403cf

Google 目前也打算在幾項 Google 翻譯領域持續強化,包括數字與日期,如人名等特殊名詞以及簡短與罕見查詢字串等,尤其像是人名與特殊名詞也是目前 Google 翻譯常遇到但卻無法正確翻譯的情境;至於口語化語句目前難以翻譯的主因,仍是因為無法提供充裕的學習樣本,畢竟口語化語句平常較少用於常規網頁內容撰寫,當遇到此類特殊用法時,目前還是無法提供正確的翻譯結果。

其次目前簡體、繁體中文(包括台灣與香港用語)仍歸納在相同的模型中,最主要的考量還是因為資料量,畢竟越充裕的資料量也能夠獲得越正確的結果,雖然各地的名詞還是有所不同,不過藉由機器學習的前後語意判斷,在顯示簡體或是繁體語言時,也能更正確的顯示簡體或是繁體的翻譯結果。