一道小學生難度的數(shù)學題難倒了一眾海內(nèi)外AI大模型。
問題是:“9.11和9.9哪個更大?”就此問題,記者測試了12個大模型,結(jié)果顯示阿里通義千問、百度文心一言、Minimax和騰訊元寶答對了,但ChatGPT-4.0、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應(yīng)、商湯商量都答錯了。每個錯誤的原因都各有不同。
大部分大模型在問答過程中錯誤地比較了小數(shù)點后的數(shù)字,認為9.11大于9.9??紤]到數(shù)字涉及的語境問題,記者將其限定為數(shù)學語境下,但像ChatGPT這樣的高級模型也依然答錯。
這反映出大模型在數(shù)學能力上的不足,這是一個長期存在的問題。有行業(yè)人士認為,生成式語言模型從設(shè)計上更偏向文字思維而非數(shù)字思維。然而,針對性的語料訓(xùn)練或許能在未來逐步提升模型的理科能力。