Meta 推出語音生成模型 Voicebox 使用 Flow Matching 演算法學習生成語音 (195118)

照片中提到了Meta Al、J. (，跟宇宙電視有關，包含了圖形、人工智能、生成式人工智能、語音合成、DALL-E

Meta Voicebox語音生成模型可學習原始音訊和文字，生成自然且生動的語音，且可進行內容編輯、風格轉換和生成不同聲音特色的語音內容。

Meta稍早公布名為Voicebox的語音生成模型，將可透過Flow Matching演演算法，從大量原始音訊與轉錄文字進行學習，進而生成自然生動的語音內容。

同時，Voicebox並未限制僅能用於特定領域的語音內容，透過足夠音訊與文字內容即可產生去除噪音、清晰語音，同時還能進行內容編輯、風格轉換，或是輸出不同聲音特色語音內容。

而藉由Flow Matching演演算法，即可直接從原始音訊、文字內容進行學習，同時產生語音內容，無須像過往同類型語音生成模型必須事先完成資料學習訓練，並且僅能針對單一語音內容進行訓練操作。

在Flow Matching演演算法設計中，更能學習語音與文字之間差異，即便對應相同文字內容，但在不同語音呈現方式，例如語調、語速、口音或重音表現差異，會讓相同文字內容有不同表意。

目前Voicebox是以累積5萬小時的語音錄音訓練結果構成，其中涵蓋英語、法語、西班牙語、德語、波蘭語、葡萄牙語公開錄音內容片段，以及對應文字內容，同時藉由自動生成人工智慧運作模式，不僅能快速學習各類語音發音、朗讀方式，只需輸入一段語音樣本與文字內容，就能以所輸入語音樣本風格朗讀文字，甚至進行後續編輯語調整。

但由於此模型可能會有被人濫用情況，因此目前Meta僅對外公布相關技術，並未公開相關模型與原始碼內容。

資料來源

https://mashdigi.com/meta-revealed-that-it-can-quickly-gener...

Mash Yang

猜你喜歡

資料來源

Mash Yang

相關消息