目前參考資料多半來自台灣學術單位,以及多個台灣閩南語連續劇內容,因此目前訓練模型所對應使用閩南語,會更像是台灣地區使用的閩南語,就連翻譯後的念音也更像是台灣腔。
針對Meta日前提出全球首款以語音對語音翻譯,讓閩南語能直接翻譯成英語的技術,參與此專案開發的台灣工程師陳鵬仁透過線上形式分享更多此項技術背後故事。
因為開發團隊有很多人熟稔閩南語,因此選擇以此作為第一個開發翻譯語言
陳鵬仁說明,最初在此專案選擇以閩南語作為第一個開發翻譯語言的原因,其實在於開發團隊有不少熟稔閩南語的同仁,因此可以在更快時間驗證翻譯結果是否正確、通順。
而為了打造能直接以語音對語音的翻譯技術,多達50人規模的開發團隊除了工程師,還包含語言學者與社會學家,以及倫理學家與諸多跨學術團隊成員,藉此研究目標翻譯語言背後結構與文化影響,例如美國所使用的英語與英國地區的英語雖然互通,卻有不少用字遣詞,或是發音上的差異。
而閩南語其實也有類似情況,光是在台灣、中國福建沿海地區,以及馬來西亞、新加坡等地所使用的閩南語就有不少差異,甚至閩南語還有七聲八調的不同,而在台灣也有明顯的南腔北調情形。
此外,閩南語實際上沒有標準化的文字系統,加上各地區發音用詞上的差異,更讓這個原本是以口語相傳為主的語言,更難以制式翻譯方式轉換成其他語言。陳鵬仁表示,實際上也是開始投入開發之後,才發現要順利將閩南語翻譯成其他語言,真的比想像中還難。
與台灣學術單位合作語庫,因此翻譯結果會有台灣腔
先前說明中,Meta是透過閩南語的念音轉換成數位資料,並且將這些資料進行分類、標示,並且透過機器學習訓練,讓其他語言可以對應合適翻譯結果。若其中有無法直接翻譯,或是難以呈現精準意思的情況,系統就會透過其他相近語言進行翻譯,並且將翻譯結果轉換成目標語言。
此項專案也與台灣相關機構合作,其中包含使用Taiwanese Across Taiwan建立長達300小時長度的台文語音語料庫,藉此建立第一個閩南語與英語雙向語音翻譯基準資料集,由於參考語庫含大量閩南語念音資料與可供對照的中文字幕內容,因此可以利用機器學習方式建立閩南語念音與中文之間的翻譯結果,並且可再利用中文翻譯結果轉換成英語,實現將閩南語翻譯成英語。
至於目前參考資料多半來自台灣學術單位,以及多個台灣閩南語連續劇內容,因此目前訓練模型所對應使用閩南語,會更像是台灣地區使用的閩南語,就連翻譯後的念音也更像是台灣腔。陳鵬仁解釋,這主要還是取決訓練時所採用參考語庫內容,由於目前用於學習的語庫多半來自台灣,因此訓練成的語言模型自然就會有台灣腔。
目標讓更多人可以跨語言溝通
如同先前說明,Meta打造此翻譯系統,主要希望打破不同地區的語言隔閡,並且讓使用者能直接透過對話方式溝通,而非只是透過文字上的轉譯,甚至可以透過語音、聲調等方式更自然表達真實情感,而未來應用不只是面對面的交談,更包含Meta目前著重發展的元宇宙互動,讓位於各地的人都能流暢地聊天互動。
不過,目前此項技術仍受限演演算法、學習資料內容等限制,因此目前僅能做到逐句翻譯,暫時還無法對應流暢的對話表現,但陳鵬仁預期在日後累積更多可用於訓練的語庫資料,加上運算技術持續進步,將能實現更即時的語音互譯效果。
讓閩南語可順利翻譯為英語,陳鵬仁表示目前已經完成第一個里程碑,接下來則會計畫翻譯結果更加精準,之後才會逐步提升翻譯速度,並且讓此專案納入更多語言,例如台灣也有不少人使用的客家話,或是其他國家地區僅有口語相傳的語言也能透過此項技術建立學習模型,進而達成能與更多語言互譯目的,甚至也能藉此讓更多面臨瀕危的少數語言得以保留。
60 則回應
好/壞"淘tiyo"(撈/賺)。空缺,好"空kang"(缺)。"碰坑"(隧道)。"放調"(放話)。生世,"世命/出世"(生命/出生)。"直欲"(快要)。"繫jih接"(連繫/接洽)。鎮壓,"鎮de年錢/鎮de驚"(壓歲錢/壓驚)。生長,"生"(長)蟲/在樹上。"算不be直"(沒完沒了)。符合,"成本不be合hrg"(不符成本)。自從,"自"(從)頭開始。空缺,好"空"(缺)。回應,"應yng嘴應yng舌"(回嘴)。宰殺,"宰tai雞教猴/宰人"(殺雞儆猴/殺人)。"躐lang縫"(趁空檔)。撿拾,"拾kiyo"(撿)球。挑撿,"撿giyng"(挑)食。"睏落眠"(睡熟)。覺醒,"睏一醒"(睡一覺)。"阿薩利"(爽快)。"爽/爽快"(舒服)。"驚場"(怯場)。胸口"窒tsag窒tsag"(悶悶)。眼目,"目鏡/珠"(眼鏡/睛)。"倒摔仰hiyah"(倒栽蔥)。"伽gke減/淡薄"(多少)。展現,"展"(現)寶。...請大家作伙增補。
就知道台語文學的精緻
及先民生活的智慧---
閩南語: 路私企ㄗ˙
台語:摟賴吧
還自稱台語?
想買的商品
星馬華語、中國華語和台灣華語,因為時空不同文化差異,雖都華語,但早已不同,好嗎?同理,台灣母語和中國閩南語。
想英語跟美語聽起來很像,但發音跟有些詞彙不同
告訴高層要說閩南語那是商業考量,說台與,你要老大怎麼跟他老婆交代
福建人講的語調跟台灣人已經天差地別了
唯一口音像一點的就廈門了
漢藏語系 ⊃ 漢語族 ⊃ 閩語支 ⊃ 沿海閩語 ⊃ 閩南語 ⊃ 泉漳片 ⊃ 臺灣話,臺灣話也就是臺灣俗稱的臺語,歸類為閩南語中的其中一支,廣義的俗稱閩南語包含了泉漳片、潮汕片等,每個片下面有多支語言,狹義的俗稱閩南語則單指泉漳片中的各支語言,這幾個語言比如泉州話、漳州話、廈門話、臺灣話雖然用詞和聲調有些區別,還有從不同其他語言來的借詞,但是基本能互通,尤其是廈門話、臺灣話這類因為泉州漳州移民而逐漸混和形成的語言,這些語言相互之間類似英語之下英國英語、印度英語和美國英語、南非英語,或者韓語之下延邊朝鮮語、北韓朝鮮語、南韓朝鮮語的方言 (dialect) 關係。
由於閩南人移民東南亞者眾,東南亞中比如馬來西亞曾作為英語系國家的殖民地,閩南人來自福建而自稱其語言為福建話,從其語言直接音譯成英語就成了Hokkien。
在國際標準化組織的ISO 639語言代碼的Chinese [zho],作為Macrolanguage,也就是一群關聯語言所組成的巨集,底下包含這些語言。
cdo – 閩東語
cjy – 晉語
cmn – 官話
cpx – 莆仙語
czh – 徽語
czo – 閩中語
dng – 東干語
gan – 贛語
hak – 客家話
hsn – 湘語
ltc – 中古漢語
lzh – 文言文
mnp – 閩北語
nan – 閩南語
och – 上古漢語
wuu – 吳語
wxa – 瓦鄉話
yue – 粵語
cnp – 桂北平話
csp – 桂南平話
iso639-3.sil.org/code/zho