科技應用 AI stable Stable Audio 2.0 自然語言描述 Stable AI 推出 Stable Audio 2.0 可生成 3 分鐘立體音訊 Stable Audio 2.0 可透過文字生成長達 3 分鐘、44.1 kHz 規格的立體音訊,並支援自然語言描述和風格轉換等功能。 推出Stable Diffusion影像生成工具的人工智慧業者Stable AI,近期宣布推出其新款語音生成模型Stable Audio 2.0,將能透過文字產生時間長度達3分鐘的44.1kHz規格立體聲音訊,相比先前版本僅能產生45秒明顯有大幅成長。 Stable Audio 2.0跟1.0版本一樣,都是透過AudioSparx收錄超過80萬組音訊資料進行訓練,除了可透過文字產生音訊內容,更可透過上傳參考音訊樣本,讓使用者透過自然語言描述方式生成不同音訊內容 Mash Yang 1 年前