Meta 台灣工程師陳鵬仁分享閩南語直接翻譯成英語的技術背後故事

2022.10.27 06:27PM
照片中提到了NZIE、You、Bo,包含了男、人的、公共關係、男、人類行為

目前參考資料多半來自台灣學術單位,以及多個台灣閩南語連續劇內容,因此目前訓練模型所對應使用閩南語,會更像是台灣地區使用的閩南語,就連翻譯後的念音也更像是台灣腔。

針對Meta日前提出全球首款以語音對語音翻譯,讓閩南語能直接翻譯成英語的技術,參與此專案開發的台灣工程師陳鵬仁透過線上形式分享更多此項技術背後故事。

因為開發團隊有很多人熟稔閩南語,因此選擇以此作為第一個開發翻譯語言

陳鵬仁說明,最初在此專案選擇以閩南語作為第一個開發翻譯語言的原因,其實在於開發團隊有不少熟稔閩南語的同仁,因此可以在更快時間驗證翻譯結果是否正確、通順。

-▲UST技術實際運作架構

而為了打造能直接以語音對語音的翻譯技術,多達50人規模的開發團隊除了工程師,還包含語言學者與社會學家,以及倫理學家與諸多跨學術團隊成員,藉此研究目標翻譯語言背後結構與文化影響,例如美國所使用的英語與英國地區的英語雖然互通,卻有不少用字遣詞,或是發音上的差異。

而閩南語其實也有類似情況,光是在台灣、中國福建沿海地區,以及馬來西亞、新加坡等地所使用的閩南語就有不少差異,甚至閩南語還有七聲八調的不同,而在台灣也有明顯的南腔北調情形。

此外,閩南語實際上沒有標準化的文字系統,加上各地區發音用詞上的差異,更讓這個原本是以口語相傳為主的語言,更難以制式翻譯方式轉換成其他語言。陳鵬仁表示,實際上也是開始投入開發之後,才發現要順利將閩南語翻譯成其他語言,真的比想像中還難。

與台灣學術單位合作語庫,因此翻譯結果會有台灣腔

先前說明中,Meta是透過閩南語的念音轉換成數位資料,並且將這些資料進行分類、標示,並且透過機器學習訓練,讓其他語言可以對應合適翻譯結果。若其中有無法直接翻譯,或是難以呈現精準意思的情況,系統就會透過其他相近語言進行翻譯,並且將翻譯結果轉換成目標語言。

此項專案也與台灣相關機構合作,其中包含使用Taiwanese Across Taiwan建立長達300小時長度的台文語音語料庫,藉此建立第一個閩南語與英語雙向語音翻譯基準資料集,由於參考語庫含大量閩南語念音資料與可供對照的中文字幕內容,因此可以利用機器學習方式建立閩南語念音與中文之間的翻譯結果,並且可再利用中文翻譯結果轉換成英語,實現將閩南語翻譯成英語。

-▲台灣工程師陳鵬仁

至於目前參考資料多半來自台灣學術單位,以及多個台灣閩南語連續劇內容,因此目前訓練模型所對應使用閩南語,會更像是台灣地區使用的閩南語,就連翻譯後的念音也更像是台灣腔。陳鵬仁解釋,這主要還是取決訓練時所採用參考語庫內容,由於目前用於學習的語庫多半來自台灣,因此訓練成的語言模型自然就會有台灣腔。

目標讓更多人可以跨語言溝通

如同先前說明,Meta打造此翻譯系統,主要希望打破不同地區的語言隔閡,並且讓使用者能直接透過對話方式溝通,而非只是透過文字上的轉譯,甚至可以透過語音、聲調等方式更自然表達真實情感,而未來應用不只是面對面的交談,更包含Meta目前著重發展的元宇宙互動,讓位於各地的人都能流暢地聊天互動。

不過,目前此項技術仍受限演演算法、學習資料內容等限制,因此目前僅能做到逐句翻譯,暫時還無法對應流暢的對話表現,但陳鵬仁預期在日後累積更多可用於訓練的語庫資料,加上運算技術持續進步,將能實現更即時的語音互譯效果。

讓閩南語可順利翻譯為英語,陳鵬仁表示目前已經完成第一個里程碑,接下來則會計畫翻譯結果更加精準,之後才會逐步提升翻譯速度,並且讓此專案納入更多語言,例如台灣也有不少人使用的客家話,或是其他國家地區僅有口語相傳的語言也能透過此項技術建立學習模型,進而達成能與更多語言互譯目的,甚至也能藉此讓更多面臨瀕危的少數語言得以保留。

-▲陳鵬仁說明,目前在美國生活中,會透過台灣台語繪本讓年幼女兒學習台語

60 則回應

  • 只能說一堆玻璃心
    2022-10-31
  • 先不要 我不想外星人破解我的母語
    2022-10-31
  • 能不忘母語開發軟體超用心喔!
    2022-10-31
  • Excellent
    2022-10-31
  • 違反社群守則囉
    2022-10-31
  • 有沒有人試過,把“泰山跳愛河”的台語丟給它翻譯嗎?😌
    2022-10-31
  • 台語
    2022-10-31
  • 有沒有人試過,把“泰山跳愛河”的台語丟給它翻譯嗎?😌
    2022-10-31
  • 好棒的開發人!
    2022-10-30
  • 台語
    2022-10-30
  • 東印度公司和傳教人士落腳這塊土地時所接觸的語言是台語
    2022-10-30
  • 好棒的開發人!
    2022-10-30
  • 這個人是中國福建省人,哪裡是台灣人
    2022-10-30
  • 具有"台語"特色用字的補充接續:
    好/壞"淘tiyo"(撈/賺)。空缺,好"空kang"(缺)。"碰坑"(隧道)。"放調"(放話)。生世,"世命/出世"(生命/出生)。"直欲"(快要)。"繫jih接"(連繫/接洽)。鎮壓,"鎮de年錢/鎮de驚"(壓歲錢/壓驚)。生長,"生"(長)蟲/在樹上。"算不be直"(沒完沒了)。符合,"成本不be合hrg"(不符成本)。自從,"自"(從)頭開始。空缺,好"空"(缺)。回應,"應yng嘴應yng舌"(回嘴)。宰殺,"宰tai雞教猴/宰人"(殺雞儆猴/殺人)。"躐lang縫"(趁空檔)。撿拾,"拾kiyo"(撿)球。挑撿,"撿giyng"(挑)食。"睏落眠"(睡熟)。覺醒,"睏一醒"(睡一覺)。"阿薩利"(爽快)。"爽/爽快"(舒服)。"驚場"(怯場)。胸口"窒tsag窒tsag"(悶悶)。眼目,"目鏡/珠"(眼鏡/睛)。"倒摔仰hiyah"(倒栽蔥)。"伽gke減/淡薄"(多少)。展現,"展"(現)寶。...請大家作伙增補。
    2022-10-30
  • 台語是世界最美的語言之一!敬請加油!加油!加油!
    2022-10-30
  • 😏閩南語呀…閩南在福建呀!
    2022-10-30
  • 閩南語和台語還是有差別的
    2022-10-30
  • 結果是福建話
    2022-10-30
  • 第一個draft而已 加油!
    2022-10-30
  • 愛台灣 !
    2022-10-30
  • 國罵是語助詞嗎?有意義還是無意義 翻的出來嗎~
    2022-10-29
  • 國罵是語助詞嗎?有意義還是無意義 翻的出來嗎~
    2022-10-29
  • 網站的廣告可怕到完全無法看到內容 爛
    2022-10-29
  • 這是科技的進步。總之,它口譯了英語以外的語言。
    2022-10-29
  • 了解台語文
    就知道台語文學的精緻
    及先民生活的智慧---
    2022-10-29
  • 閩南語聽最多的幾句例如xxx,xxxx,xxxxx,xxxxxx有辦法翻譯嗎?
    2022-10-29
  • 螺絲起子
    閩南語: 路私企ㄗ˙
    台語:摟賴吧
    2022-10-29
  • 福建話就福建話
    還自稱台語?
    2022-10-29
  • 我有試玩過,翻譯的其實還不錯,但是速度有夠慢,一句明天要去哪裡玩,要等一分多鐘...
    2022-10-29
  • 大陸科大訊飛公司很早就開發出中國各省方言及全世界50國語言的翻譯機,堪稱地表最強翻譯軟體公司
    2022-10-29
  • 好可怕,以後連泉漳片臺語也會被祖
    2022-10-29
  • 有沒有出翻譯機 ?
    想買的商品
    2022-10-29
  • 台語 is not み南語
    2022-10-29
  • 我今天早上上經濟學英文寫作基礎的時候老師才放這個影片
    2022-10-29
  • 再來就...很快就被滅掉的廣東話吧...
    2022-10-29
  • Where is pikachu!?
    2022-10-28
  • 有粵語的嗎?(香港話
    2022-10-28
  • 超強
    2022-10-28
  • 台語跟閩南語口音不一樣,好嗎?小編是阿陸仔嗎?
    2022-10-28
    • Jokingly Lin 嗯台語不是閩南語,台灣的客家話、原住民話及閩南語等各個台灣本土族羣的母語都是台語!閩南語只是台語的一部份而已!
      2022-10-28
    • Makoto Hwang 少假鬼假怪反串。
      星馬華語、中國華語和台灣華語,因為時空不同文化差異,雖都華語,但早已不同,好嗎?同理,台灣母語和中國閩南語。
      2022-10-28
    • Jokingly Lin 台灣的客家人、原住民及閩南人都是臺灣人,也有一段共同的歷史。所以台灣的客家話,原住民話及閩南語都是台語並沒有錯呀!
      2022-10-28
  • 閩南是台灣的內地
    2022-10-28
  • 這文章怎麼大部分聽起來像是記者自己說,真的有訪問到陳鵬仁本人嗎?
    2022-10-28
  • 台灣人開發就台語
    想英語跟美語聽起來很像,但發音跟有些詞彙不同
    告訴高層要說閩南語那是商業考量,說台與,你要老大怎麼跟他老婆交代
    2022-10-28
  • 既然是台灣人開發的閩南語為什麼要叫福建話
    福建人講的語調跟台灣人已經天差地別了
    唯一口音像一點的就廈門了
    2022-10-28
    • 密歐克 留言串有人解釋的很清楚了,建議您可以看一下。
      2022-10-28
  • 強者我同學,他有考慮閩南語系統從廈門到台灣到新加坡口音都不一樣的問題喔!
    2022-10-28
  • 這文章怎麼大部分聽起來像是記者自己說,真的有訪問到陳鵬仁本人嗎?
    2022-10-28
  • 這文章怎麼大部分聽起來像是記者自己說,真的有訪問到陳鵬仁本人嗎?
    2022-10-28
  • 之前看到一個影片,有人拿布袋戲的聲音去給 meta翻譯結果當機了
    2022-10-28
  • 發表完產品fb股價就崩了
    2022-10-28
  • 台羅仔要7pupu惹
    2022-10-28
  • 肯定會有人爭論這語言叫臺語、閩南語、還是福建話,從語言的分類看就一目瞭然
    漢藏語系 ⊃ 漢語族 ⊃ 閩語支 ⊃ 沿海閩語 ⊃ 閩南語 ⊃ 泉漳片 ⊃ 臺灣話,臺灣話也就是臺灣俗稱的臺語,歸類為閩南語中的其中一支,廣義的俗稱閩南語包含了泉漳片、潮汕片等,每個片下面有多支語言,狹義的俗稱閩南語則單指泉漳片中的各支語言,這幾個語言比如泉州話、漳州話、廈門話、臺灣話雖然用詞和聲調有些區別,還有從不同其他語言來的借詞,但是基本能互通,尤其是廈門話、臺灣話這類因為泉州漳州移民而逐漸混和形成的語言,這些語言相互之間類似英語之下英國英語、印度英語和美國英語、南非英語,或者韓語之下延邊朝鮮語、北韓朝鮮語、南韓朝鮮語的方言 (dialect) 關係。
    由於閩南人移民東南亞者眾,東南亞中比如馬來西亞曾作為英語系國家的殖民地,閩南人來自福建而自稱其語言為福建話,從其語言直接音譯成英語就成了Hokkien。

    在國際標準化組織的ISO 639語言代碼的Chinese [zho],作為Macrolanguage,也就是一群關聯語言所組成的巨集,底下包含這些語言。
    cdo – 閩東語
    cjy – 晉語
    cmn – 官話
    cpx – 莆仙語
    czh – 徽語
    czo – 閩中語
    dng – 東干語
    gan – 贛語
    hak – 客家話
    hsn – 湘語
    ltc – 中古漢語
    lzh – 文言文
    mnp – 閩北語
    nan – 閩南語
    och – 上古漢語
    wuu – 吳語
    wxa – 瓦鄉話
    yue – 粵語
    cnp – 桂北平話
    csp – 桂南平話
    iso639-3.sil.org/code/zho
    2022-10-28
    • 也就是說漢語不等於華語,漢語是一大類相關聯的語言,現代標準漢語,在不同地方和場合被稱為的華語、國語、普通話,只是漢語的其中一員,是 漢藏語系 ⊃ 漢語族 ⊃ 官話 ⊃ 北京官話 ⊃ 現代標準漢語,現代標準漢語是經過人工規範後採用北京官話的語音系統,所形成的 "規範語言",華語、國語、普通話的都只是這現代標準漢語底下的變體。
      2022-10-28