Google 利用深度學習,實現如人類般在嘈雜環境中將自己想聽的人的音軌獨立出來

2018.04.17 06:33PM
Sound, Artificial intelligence, Speech recognition, Google.ai, Technology, , Google, Deep learning, Speech, Artificial neural network, diagram, product, technology, diagram, product design, design, product, brand, font, system, angle

人類是一種相當特殊的生物,獨特的感官能夠針對環境做出相當多精密的調適,包括視覺的白平衡,以及在嘈雜環境中的指向性收音能力;能夠在混亂嘈雜環境中聆聽到眼前人物的聲音的能力有個專有名詞,稱為雞尾酒會效應,這項能力對人類來說是稀鬆平常,不過對機器來說卻相當困難,然而 Google 的研究員藉由深度學習所開發的 Looking to Listen ,成功的將複雜環境中視線指定人物的說話聲隔離出來。

對機器來說,要能夠將同一個人的說話聲給獨立分離出來並不難,要把背景噪音消除也不是難事,不過一般的音軌分析技術僅能將人聲音軌分離,但這項技術則是透過分析影片中的人物與音軌,將影片中人物的聲音與人物進行對照,並可在示範短片中選擇想要聆聽的人物的臉孔,就會將另一人的聲音隔離。

Artificial intelligence, , Google, Sound, Technology, Deep learning, Human voice, Computer Software, Artificial neural network, Cocktail party effect, , product, product design, product, font, brand

這項技術總共從 YouTube 蒐集高達 10 萬部演講影片,並將這些沒有背景干擾(包括沒有音樂、與他人的聲音)的影片剪接成超過 2,000 小時的影片,同時再把這些剪接過的影片混入環境噪音,他人的聲音,並搭配有其他人臉的影片等作成類似雞尾酒效應的情境,並透過多層卷積神經網路將這些混合後的聲音再度處理成獨立音軌,同時讓系統學習如何對照音軌與人物,使系統學習如何像人一樣可藉由雞尾酒效應獲得自己想聽的人物與聲音。

目前 Google 科學家也在思索這些技術可能應用的領域,未來不排除把這項技術用於 Google 的產品當中,或許未來結合攝影機的智慧家庭語音服務、會議影音的自動化逐字稿都是有可能的應用。

新聞來源: Google