ChatGPT是美國OpenAI公司去年11月發(fā)布的一款人工智能技術(shù)驅(qū)動的自然語言處理工具,去年11月30日推出以來,60天內(nèi)月活用戶直接破億,被認(rèn)為是史上用戶增長最快的消費(fèi)級應(yīng)用。
寫代碼、文案,做數(shù)學(xué)題,進(jìn)行不同語言之間的翻譯,ChatGPT的強(qiáng)大功能讓學(xué)習(xí)人工智能相關(guān)專業(yè)的復(fù)旦大學(xué)碩士研究生張嘯天感到既震驚又興奮。
“我主要讓它寫代碼,包括一些技術(shù)問題,解決方案。我感覺到它很聰明,篤定它可以通過圖靈測試。但它的極限是什么?我想知道它究竟有多聰明?!?/p>
于是,去年12月,張嘯天和兩位同學(xué)一起搜集了2010年到2022年的高考全國卷試題,剔除部分含有圖片的題目,讓ChatGPT作答。
經(jīng)過近5個月的測試,近日,ChatGPT的高考測試報告新鮮出爐。包括選擇題、填空題和問答題在內(nèi),ChatGPT共回答了2811道題目。結(jié)果顯示, ChatGPT更擅長文科,在歷史、地理、政治上取得了不錯的成績;而在生物、化學(xué)、物理等理科學(xué)科上表現(xiàn)不佳,尤其在物理上。
高考全國卷滿分為750分。復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院碩士研究生宗一告訴看看新聞Knews記者,“綜合歷年得分情況,ChatGPT做文科卷的得分會更高一些,接近400分;理科題的話,只有300分出頭?!?。
對于ChatGPT“文強(qiáng)理弱”的偏科情況,該項目的負(fù)責(zé)人、復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬解釋說,與文科試題側(cè)重考察常識不同,理科試題更關(guān)注邏輯推理能力,這恰恰是目前通用人工智能模型的短板。
據(jù)悉,通過對超過1萬億個人類詞匯和1700億個模型參數(shù)進(jìn)行高效迭代訓(xùn)練,ChatGPT具備強(qiáng)大的自我學(xué)習(xí)、推理和歸納總結(jié)能力。既然如此,為何它的“高考”成績卻不太理想呢?
邱錫鵬認(rèn)為,一方面是因為高考試題確實(shí)有難度;另一方面,測試成績與評價方式相關(guān)?!霸缙谖覀儾捎玫氖侨斯ぴu分,發(fā)現(xiàn)ChatGPT的水平大概可以達(dá)到500分。現(xiàn)在我們使用了更嚴(yán)格的方式,也就是機(jī)器評分,所以成績有一定的波動?!?/p>
值得注意的是,此次測試的版本為ChatGPT-3.5。隨著該模型不斷升級迭代,它的能力會越來越強(qiáng)。此次測試除了了解ChatGPT的高考水平外,研究團(tuán)隊還有一個更大膽的設(shè)想。
“我們構(gòu)造一個數(shù)據(jù)集,這個數(shù)據(jù)集可以用來衡量不同大型語言模型的效果。因為現(xiàn)在不同的公司、單位、機(jī)構(gòu)都在做自己的大模型,那么就是說我們就要有一個客觀的評價標(biāo)準(zhǔn)。大家都說自己的模型水平可以達(dá)到ChatGPT的百分之七八十,到底怎么樣,需要有一個客觀的測試。我認(rèn)為高考評測是比較客觀綜合的一種測試方式?!鼻皴a鵬表示,未來該數(shù)據(jù)集將大有可為。
(看看新聞Knews記者:周智敏 徐瑋)
劍網(wǎng)行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有
全部評論
暫無評論,快來發(fā)表你的評論吧