Anthropic 公開 Claude 模型運作原理解釋幻覺現象成因 #人工智慧模型 (237781)

Anthropic 公開 Claude 大型語言模型的內部運作機制，說明 AI 模型產生「幻覺」的原因，主要與訓練數據偏差和模型解讀錯誤有關，並分享了降低幻覺的技術開發進度。

Anthropic稍早公布其人工智慧模型Claude背後運作模式，藉此說明其人工智慧如何規劃、推論，以及編寫答案內容。

透過兩篇研究論文，Anthropic說明藉由名為「電路追蹤」 (circuit tracing)與「歸因圖」 (attribution graphs)的技術，藉此分析人工智慧模型背後運作方式，強調Claude並非只是模仿人類語言邏輯，而是實際進行「思考」。

例如要求Claude進行創作詩詞時，Claude會先規劃押韻方式，回答地理相關問題時也會先找出州，再回覆其首府所在位置，意味在回答相關提問內容時，Claude會先規劃完整解答架構，再以邏輯推論方式得出答案，並非刻板地像過往搜尋引擎方式逐一比對資料。

另外，研究中也解釋Claude處理多語言提問內容方式，其中是將語言轉換成共通的抽象「語言」，例如用不同語言提問與「小」有關字詞，Claude會先將其轉換為抽象「語言」，並且再從不同語言中找出與「小」有關字詞，因此能正確處理不同語言提問內容，同時也能更快處理跨語言的問題。

而Anthropic也說明人工智慧模型常見的「幻覺」現象，例如當模型識別提問內容有其知曉詞彙時，就會觸發生成解答，否則會拒絕回答。但問題在於若模型識別其知曉詞彙，實際上卻不知道解答時，則會在生成解答過程中產生錯誤內容。

因此，Anthropic認為人工智慧模型之所以會一本正經的回答錯誤內容，是基於上述原因所致。而若能掌握什麼因素導致人工智慧模型出錯，或許就避免更大影響問題發生。

資料來源

Mash Yang