
2009 年起,Youtube 開始提供自動字幕的功能,即便是沒有準備字幕的影片,也可以透過 Google 的語音辨識協助產生字幕。就在最近,Google 在 Youtube 的自動字幕上加入機器學習技術,未來將可以辨識出「掌聲」、「音樂」以及「笑聲」,讓字幕更加生動貼切。

圖片來源:Youtube
相信上面的 Logo 讀者們應該不陌生,打開 Youtube 頻道,無論食衣住行育樂皆可在上面找到相關資訊。不管是國語或是外語影片,許多人會習慣開啟字幕來觀賞,提升對影片的理解;除了一般的使用者,聽力不佳的朋友也可以透過 Youtube 上的字幕理解影片。雖然 Youtube 幾乎能夠辨識影片中談話的人聲,但是很多時候,環境的音效也是十分重要的,像是喜劇片中的罐頭笑聲或是戲劇的間奏,能夠幫助我們更加融入情境中。

目前支援 [APPLAUSE], [MUSIC] 及 [LAUGHTER]
影片連結:https://www.youtube.com/watch?v=oOtqbAxRkyM
相較於前三種狀況,「鈴聲響起」的狀況可能就難以直接從文字上辨別,可能是電話響、鬧鐘響或是其他鈴聲響起,因此現階段僅支援前面提及的三種音效辨識。
目前已經可以在 Youtube 上面使用這項功能,要注意的是只針對「自動產生」的字幕有效果,有興趣的朋友可以點選上方連結前往查看。目前仍在初步階段,因此辨識功能並非十分靈敏,不過確實是一大躍進。相信未來能夠更加靈敏、準確,除了目前的三種狀況外,也會有更多的音效支援,這對於聽力不佳的朋友們可以說是一大福音。(熊耿得)
[參考資料]
- Adding Sound Effect Information to YouTube Captions – Google Research Blog
- Visualizing Sound Effects – Youtube Engineering and Developers Blog
- YouTube』s AI can now describe sound effects
- YouTube uses AI to caption video sound effects
[其他好文推薦]