據(jù)新浪科技報(bào)道,上海人工智能實(shí)驗(yàn)室旗下的司南評(píng)測(cè)體系OpenCompass對(duì)七個(gè)大型語言模型進(jìn)行了高考“語數(shù)外”全卷能力測(cè)試,并發(fā)布了首個(gè)大模型高考全卷評(píng)測(cè)結(jié)果。
此次測(cè)試的語文、數(shù)學(xué)和英語三科總分為420分。測(cè)試結(jié)果顯示,阿里巴巴的通義千問2-72B以303分的成績(jī)排名第一,OpenAI的GPT-4以296分緊隨其后,位居第二。上海人工智能實(shí)驗(yàn)室的書生浦語2.0排名第三。這三個(gè)大模型的得分率均超過70%。法國初創(chuàng)公司Mistral的大模型排名末尾。
從測(cè)試結(jié)果來看,大模型在語文和英語考試中的表現(xiàn)普遍較好,但在數(shù)學(xué)科目上表現(xiàn)欠佳,最高分僅為75分,全部未能及格。