高通談論 AI 測試:由於 AI 框架、模型難以標準化,無論規格、跑分軟體恐無法反應真實體驗

2020.10.21 05:47PM
照片中提到了Adreno 650、Qualcomm Neural Processing SDK、New Al mixed,包含了多媒體、金魚草865、高通金魚草、高通公司、5G

由於 AI 與機器學習近年在智慧手機漸漸被應用在影像處理相關應用相當熱門,而各家智慧手機品牌也紛紛強調 AI 為使用體驗帶來的影響與變化,尤其是照片與影片處理、直播特效等,都可看到 AI 技術加持後的影像品質提升與樂趣,這也使得手機晶片商開始強調 AI 性能跑分,高通也為此舉辦一場小規模說明會,針對 AI 跑分當前的狀況與意義進行說明。不過就結果來說,當前 AI 的跑分很難反應在實際體驗,至於原因將會在接下來簡單的陳述。

目前作為 AI 性能標準有三種方式,其一是單純以硬體性能得出的 TOPS 為主,其次是執行框架的測試時間,最後是由第三方 AI 測試軟體,不過三項測試標準都有盲點存在。

照片中提到了Finail-PowerPoint、Request control、26 E O,包含了軟件、電子產品、顯示裝置、軟件、儀表

▲單看綜合性能成績難以看出實際體驗

先從硬體性能測試開始聊起,雖然每一款晶片的 TOPS 乍看下似乎一翻兩瞪眼,不過會由於每一家廠商測試的基準不同,且牽涉到得分是由浮點或是整數運算得出,還有是否由於在特定情況由加速器達到較高的效能等因素,如果單看最終成績,會難以看出實際的性能組成,例如兩款處理器當中,其中甲雖然各項性能皆高於乙,但乙在 Int 16 透過加速器大幅加分,綜合得分高於甲,然而在行動裝置多半使用的是 Int 8 ,導致在實際體驗上甲的體驗仍優於乙、卻在帳面數據輸了。

照片中提到了control、88、How to compare Al capabilities of hardware:,包含了顯示裝置、顯示裝置、計算機程序、電腦終端、屏幕截圖

▲測試用的框架有時不會是最新的

至於以特定 AI 框架進行測試,則會出現幾種情況,其一是由於商業 AI 框架與模型具商業價值,有些熱門的框架與模型不一定會釋出或是僅釋出較舊的版本,導致與實際使用情況脫節,其次是這些框架又分為通用框架與晶片商的特別版本,而一般在行動裝置端多選擇特定晶片商提供的框架並進行最佳化,故以通用框架進行測試又可能會與現狀脫節。

照片中提到了Request control、影、Al benchmarks overview:,包含了多媒體、電腦顯示器、電子產品、計算機程序、顯示裝置

▲主流 AI 測試軟體雖然網羅常用 AI 應用,但版本不見得為最新

照片中提到了PowerPoint Slide Show Benchmarking vs benchmarketing Wiem Finall-PowerPoint、Request control、Al benchmarks overview:,包含了多媒體、電腦顯示器、電子產品、計算機程序、屏幕截圖

▲蘇黎世大學測試的內容過於理論性,對開發者較有價值

至於第三方測試軟體,當前亞洲較慣用的是中國的魯大師與安兔兔,這兩款 AI 測試軟體算是相對貼近現實,因為它們使用的 AI 測試內容較接近實際應用使用的 AI 框架與模型,然而仍會遇到使用的 AI 測試框架與模型不是最新版本的情況;至於某廠商特別愛用的蘇黎世大學 AI 測試,則是會遇到與現實 AI 應用情境脫鉤的情況,蘇黎世大學的測試仍在部分內容使用 CPU 執行 Int 16 應用,但應用開發者為了達到更好的效率,往往會轉為加速器執行效率較好的 Int 8 ,不過蘇黎世大學的 AI 測試倒是可以反應出開發者想知道的硬體在傳統 AI 框架的效能。

照片中提到了OPowePont Side Show Benchmarking vs benchmarketing Wiiam Finall-PowePoint、Request control、There are good and bad benchmarks-,包含了電腦顯示器、電腦顯示器、計算機程序、在線廣告、電腦終端

▲單純以結論來說,第三方測試軟體的結果會比較貼近實際應用

高通表示,單純以結果來說,透過安兔兔、魯大師測試的 AI 成績會較為貼近實際體驗,然而目前 AI 應用仍處在成長期的戰國時代,各種模型、框架日新月異, AI 開發者也持續不斷提升 AI 框架的執行效率與精確性,導致目前無論使用何種方式得到的成績仍僅供參考,不過高通的優勢即是在行動裝置擁有相當高的市占率,也使得 AI 開發者廣泛支援高通的 AIE 運算,使用高通平台的裝置能更容易得到更優秀的 AI 應用體驗。