VALL-E 全攻略 (149690) - Cool3c

最新 | 熱門

微軟「VALL-E」人工智慧語音模型發表 3 秒長度資料即可模擬真實人聲包括不同情緒說話方式、不同房間環境發聲效果

雖然實際呈現結果中，依然會有部分聲音呈現像是機器發音，但確實有不少聲音呈現結果十分擬真，最主要還是與參考學習樣本是否充足有關，而不同人的習慣發音方式也會有所差異，因此並非所有模擬呈現聲音都相當自然。微軟研究人員在一篇論文中描述名為「VALL-E」的人工智慧語音模型，標榜僅需3秒鐘長度的聲音資料，即可建立模擬聲音本人說話語調，甚至可以加入不同情緒時的說話方式，以及在不同房間等環境下的發聲效果。依照微軟研究人員說明，此項人工智慧語音模型是以Meta在Libri-light聲音資料庫收錄源自7000多名演講者、長度超過60000小時的英語演講內容進行訓練，藉此讓人工智慧語音模型學習特定聲音念特定

Mash Yang

科技應用

微軟「VALL-E」人工智慧語音模型發表 3 秒長度資料即可模擬真實人聲包括不同情緒說話方式、不同房間環境發聲效果

Mash Yang

2 年前

微軟「VALL-E」人工智慧語音模型發表 3 秒長度資料即可模擬真實人聲包括不同情緒說話方式、不同房間環境發聲效果

相關文章