結合生成式AI與虛擬人物的數位化身在商業應用與遊戲領域相當受到重視,NVIDA年度活動GTC 2024多家技術夥伴如HippocraticAI、Inworld AI 、UneeQ展示它們如何利用NVIDIA的技術建構用於商業與遊戲的逼真數位化身,其中NVIDIA ACE、NVIDIA NeMo與NVIDIA RTX是實現能以自然語言互動的數位人的重要關鍵技術。
▲結合生成式AI的數位人能提供逼真、自然且多元的互動
NVIDIA ACE技術是結合人物臉部動畫、自動語音辨識與文字轉換的套件,可透過NVIDIA Audio2Face提供自然的人物臉部動畫,並透過NVIDIA Riva進行自動語音辨識與文字轉語音,同時能夠依據需求於本地端的GPU或透過雲端執行;NVIDIA NeMo則可幫助開發者提供企業就緒的生成式AI模型,包括精準的資料管理、先進自訂功能、RAG(檢索增強生成)與加速功能;而NVIDIA RTX技術則提供RTXGI(RTX全域照明)、DLSS 3.5等渲染技術,能在遊戲與應用程式實現光線的即時路徑追蹤。
HippocraticAI開發出具高度安全性的醫療保健代理,透過針對醫療領域的大型語言模型,該代理具備自動打電話連繫患者,追蹤照護協調工作,提供手術前指導,執行出院後管理等功能;該解決方案使用NVIDIA ACE 微服務、NVIDIA Audio2Face、 NVIDIA Animation graph及 NVIDIA Omniverse Streamer Client展示運用生成式AI開發醫療保健代理數位化身的潛力。
UneeQ則提供為客戶服務與互動是應用程式建立AI虛擬化身的服務,其數位人在網路上可代表品牌與客戶溝通,利用NVIDIA Audio2Face 微服務並搭配Synanim ML建立維妙維肖的虛擬化身,提供更優質的客戶體驗與參與度。
Inworld AI則與NVIDIA合作開發技術展示內容Cover Protocal,。Inworld的AI引擎整合了NVIDIA Riva 和 NVIDIA Audio2Face,前者能夠做到精確的語音轉文字,後者能夠做出逼真的臉部表情,並透過多模態方式表現NPC角色,使NPC具備認知、感知與行為,搭配由RTX技術渲染的虛擬人物,營造出逼真的敘事效果。