阿里巴巴發表具視覺推理能力的 AI 模型 QVQ-72B

2024.12.26 11:13AM

阿里巴巴推出 QVQ-72B AI 模型預覽版,具備視覺推理能力及擴展的參數規模,強化多場景應用表現與性能。

日前推出加強邏輯推理的人工智慧模型「QwQ-32B-Preview」,阿里巴巴稍早宣布推出加入視覺推論能力的人工智慧模型「QVQ-72B-Preview」,並且強調在語言理解與視覺推論有大幅進展,標榜能解決複雜問題。

「QVQ-72B-Preview」除了在參數數量規模增加至720億組,更加入影像識別能力,配合大型自然語言模型的理解分析能力,透過前後文理解推論與視覺分析,進而推理解決複雜問題的方法。

阿里巴巴表示,「QVQ-72B-Preview」將可用於大型傢具於空間模擬放置,或是用於醫療影像分析診斷。同時,「QVQ-72B-Preview」在MathVista、MathVision、OlympiadBench的數學即可學基準測試取得優異表現,更在MathVision效能表現貼近OpenAI推出的o1人工智慧模型。

阿里巴巴, 阿里巴巴推出加入視覺推論能力、參數規模加大的人工智慧模型「QVQ-72B-Preview」<br><span style='color:#848482;font-size:16px;'>強調在語言理解與視覺推論有大幅進展,標榜能解決複雜問題</span>, mashdigi-科技、新品、趣聞、趨勢

不過,由於目前仍處於預覽階段,因此「QVQ-72B-Preview」在執行運作時可能會出現遞歸推理循環情況,同時在混用不同語言情況下也會增加其執行反應時間。

目前「QVQ-72B-Preview」已經透過Hugging Face平台託管,以開源形式提供所有人取用。