Google、卡內基美隆大學與 Multion 共同發布報告指出,相較於真實數據,使用合成數據更有利於提升人工智慧模型的推論能力。
Google近期與卡內基美隆大學、人工智慧代理技術新創MultiOn共同公布一項關於將合成數據用於大型人工智慧模型訓練的研究報告,指出合成數據將使人工智慧推論能力提升8倍。
在此報告中,研究人員透過兩種合成數據進行分析,其中包含以Gemini 1.5 Pro、GPT-4等大型人工智慧模型產生正確解決方法的正向數據,以及驗證錯誤問題的負面數據。
如果僅以正向數據進行訓練,人工智慧模型所能回答內容顯得有所侷限,其中可能無法全面理解解決問題背後的「思考邏輯」,進而傾向以傳統比對方式推論答案,同時隨著訓練數據量增加,更可能人人工智慧模型學習錯誤解答內容,進而影響模型泛用推論時的正確性。
因此導入負面數據的學習模式,將有利於使人工智慧模型從錯誤中學習,進而在後續推論過程避免出錯,藉此強化其邏輯推論能力。不過,使用負面數據時也可能包含錯誤訊息,因此過程中也必須導正人工智慧模型學習結果,避免將錯誤訊息當作正確內容進行學習。
而透過上述兩種以合成產生數據,將能讓人工智慧更有效地進行學習。研究團隊透過DeepSeek-Math-7B及LLaMa2-7B在內模型,在包含高品質、多種語言形成的小學數學文字題庫GSM8K,以及涵蓋代數、幾何、概率、數論等12500道複雜數學競賽題目構成的MATH數據集進行測試,顯示透過以合成形式產生正面數據與負面數據進行訓練結果,人工智慧模型的邏輯推論能力可大幅提升8倍,意味藉由合成數據訓練將能讓人工智慧模型製作變得更有效率,同時在應用上也會得到更準確無誤推論結果。