CES 2025:NVIDIA公布Cosmos世界基礎模型平台,結合真實資料與合成數據加速如機器人、自動駕駛等實體AI開發

2025.01.07 12:00PM

NVIDIA在CES宣布稱為Cosmos的世界基礎模型平台(World Foundation Model Platform),針對如機器人、自動駕駛等在實體世界的AI技術提供全新的開發方式;Cosmos利用真實世界數據與AI產生的合成資料建構Omniverse的數位孿生環境,能夠像使用ChatGPT一樣使Cosmos產生合乎情境的合成資料進行客製化訓練,使這些實體AI能夠在Cosmos提供的環境進行訓練、評估。

NVIDIA已經透過開源許可於HuggingFace、NVDIIA NGC目錄釋出Cosmos WFM,同時也即將提供經過最佳化的NVIDIA NIM微服務

包括1X, Agile Robots, Agility, Figure AI,Foretellix, Fourier, Galbot, Hillbot, IntBot, Neura Robotics, Skild AI, Virtual Incision, Waabi,小鵬汽車、Uber等都為首批導入Cosmos的機器人與汽車公司。

▲Cosmos可透過如ChatGPT的提示方式產生合適的數位孿生合成資料,同時確保符合物理特性

為了迎接機器人技術的ChatGPT時刻,NVDIA透過COSMOS技術使物理AI能夠民主化,使開發人員能輕鬆的開發通用型機器人;Cosmos是專為物理AI研究與開發提供的解決方案,可自文字、圖像、影像等輸入的數據產生符合物理原則的影像,並將這些合成資料用於實體AI如機器人、自駕車的訓練環境,包括工廠環境、道路狀況、氣候、動線與景物的變化等等,都能夠像使用ChatGPT產生合成影像一樣完成,且結果皆符合真實物理現象。

此外,NVIDIA也提供先進的開發工具,在實體AI開發領域往往需要PB級的影像數據與複雜的運算處理、整理與時間標戳記,NVIDIA提供完善的工具協助使用者不須手動完成;透過NVIDIA NeMoTM Curator於NVIDIA Blackwell平台,僅需14天就能為2,000萬小時的影片添加相關的標籤;透過NVIDIA Cosmos Tokenizer視覺標記產生器,能迅速將圖像與視訊轉換為標記,相對當前領先的標記器總壓縮率提高8倍、處理速度提升12倍;此外透過NVIDIA NeMo框架即可實現高效率的模型訓練、客製化與最佳化。
NVIDIA強調Cosmos是符合開放且負責任的AI為前提,優先考慮隱私、安全、保障、透明度與不必要的偏見,並承諾減少有害的文本、圖像,同時有著增強文字提示準確性的工具,且合成內容、模型也會具備隱形浮水印確保資料能夠識別為AI生成,NVIDIA也鼓勵開發者採用可信賴的AI並進一步增強應用程式的防護與浮水印。