導(dǎo)航菜單

ChatGPT 通過了頂尖大學(xué)的考試,比反 AI 更該做的是改考題

導(dǎo)讀 當(dāng)法學(xué)院學(xué)生在嘗新玩 ChatGPT 的時(shí)候,應(yīng)該沒想過它轉(zhuǎn)身就成了跟自己一起參加同一場(chǎng)考試的「同學(xué)」。
當(dāng)法學(xué)院學(xué)生在嘗新玩 ChatGPT 的時(shí)候,應(yīng)該沒想過它轉(zhuǎn)身就成了跟自己一起參加同一場(chǎng)考試的「同學(xué)」。

在剛過去的 1 月,明尼蘇達(dá)大學(xué)法學(xué)院的 Jon Choi 教授和賓夕法尼亞大學(xué)沃頓商學(xué)院的 Christian Terwiesch 教授分別讓 ChatGPT「做」了次自己課程的期末試題。

結(jié)果 ChatGPT 還真都通過了!

這意味著讓 ChatGPT 再進(jìn)化一會(huì)兒,以后我們就不需要人類律師和管理者了嗎?

還是,這是一聲敲響的警鐘,提醒教育者們不要再把人類教得像 AI 一樣了?

在考過的兩個(gè)專業(yè)里,ChatGPT 在法學(xué)院考的成績(jī)比在商學(xué)院的差些,前者平均得分 C+,后者則能達(dá)到 B- 到 B 的成績(jī)。

具體來說,ChatGPT 在沃頓完成的是 MBA(工商管理學(xué)碩士)「運(yùn)營管理」科目的試題,每道題都需寫出「推演過程」。

測(cè)試時(shí),Terwiesch 教授把考試的原題輸入到 ChatGPT 中,并對(duì) ChatGPT 生成的回答進(jìn)行打分。

總的來說,ChatGPT 在回答基礎(chǔ)分析題時(shí)表現(xiàn)都很不錯(cuò);數(shù)學(xué)則不太行,可能突然就會(huì)算錯(cuò)一個(gè)小學(xué)難度的算數(shù);而相對(duì)復(fù)雜的分析題,ChatGPT 就基本沒轍。

例如,第一題考的就是對(duì)「管理瓶頸」概念的理解,并簡(jiǎn)單比較「生產(chǎn)過程」中哪個(gè)步驟效率最低,找出「瓶頸」。

這題回答教授直接打了 A+。

然而,當(dāng)考題里的「生產(chǎn)過程」變得更復(fù)雜,需要處理的原料不只一種,涉及的設(shè)備有差異也有重疊時(shí),ChatGPT 就算不出「管理瓶頸」了。

對(duì)于這題,ChatGPT 的推演過程雖然是錯(cuò)的,但卻「完美繞過」錯(cuò)誤推論,撞中了答案。

在算「接收站(receiving station)」效率時(shí),ChatGPT 得出的結(jié)果是「300 桶/小時(shí)」。

這個(gè)數(shù)雖然是錯(cuò)的,但以這個(gè)數(shù)字來說,它的確也是分析過程中算出來效率最低的一環(huán)。

誰想到,ChatGPT 卻「自己都不信自己」,沒把這一環(huán)選為「瓶頸」,而是選了算出來效率為「600 桶/小時(shí)」的「干燥機(jī)(dryer)」環(huán)節(jié)為「瓶頸」—— 選了個(gè)正確答案。

不過,雖然 Terwiesch 教授最后給 ChatGPT 的分?jǐn)?shù)有 B 級(jí),但他也有點(diǎn)「放水」了。

當(dāng) ChatGPT 回答出現(xiàn)錯(cuò)誤時(shí),Terwiesch 會(huì)向 ChatGPT 提供針對(duì)性的提醒,然后再讓它輸出一次回答,并以這個(gè)「優(yōu)化」結(jié)果來評(píng)分。

至于法學(xué)院的考試,ChatGPT 做了憲法、員工福利法、稅法和侵權(quán)法這四個(gè)課程的期末試題。

主導(dǎo)這次測(cè)試的 Jon Choi 教授表示,在「盲改」的情況下,ChatGPT 這四科都及格了,但成績(jī)基本都是全班墊底。

雖然 ChatGPT 的簡(jiǎn)答題比選擇題做得更好,但簡(jiǎn)答題的回答質(zhì)量卻極為不穩(wěn)定 —— 有時(shí)候答得可能比一般學(xué)生好(大多是法律條文默寫和案例復(fù)述),然而一錯(cuò)起來(通常是要求學(xué)生用具體理論分析案例的題),分?jǐn)?shù)通常都「錯(cuò)出新低」:

在面對(duì)法學(xué)院考試的最基本問題時(shí),ChatGPT 都表現(xiàn)糟糕,例如識(shí)別潛在法律問題和在案例中深度分析和應(yīng)用法律條文。

ChatGPT 那「不求理解,只會(huì)背書」的答題風(fēng)格也能低分飄過專業(yè)考試,多少顯示考題還是太依賴「死記硬背」了,ChatGPT 的表現(xiàn)顯然也沒法替代律師和管理者。

然而,如果人類學(xué)生也大概這種水平,同樣通過了考試,甚至畢業(yè)后去執(zhí)業(yè)了,那是不是更有問題?

批評(píng)多年的「背書就行」考試,ChatGPT 能逼出改變嗎?

在 ChatGPT 驚艷登場(chǎng)前,卡內(nèi)基梅隆大學(xué)教授 Danny Oppenheimer 就已提出質(zhì)疑:在 Google 搜索時(shí)代,為什么大學(xué)考試還只側(cè)重考學(xué)生對(duì)事實(shí)的重述?

Oppenheimer 指出,雖然有的教育者會(huì)反駁說,他們?cè)谡n堂上講解事實(shí)類信息時(shí),也會(huì)分析這些信息的意義、論證和應(yīng)用,但一到考卷上,立即就變回「背書就行」:

很多課程都是基于一個(gè)前提來構(gòu)建的,那就是學(xué)生會(huì)通過觀察老師以身作則式地去對(duì)事實(shí)進(jìn)行分析、拓展和應(yīng)用,學(xué)生自自然然就能發(fā)展出這一套技能 —— 這是一個(gè)非常值得懷疑的假設(shè)。

因此,Oppenheimer 建議課程從設(shè)置上就要直接反映出教育者希望學(xué)生最終學(xué)到的技能,結(jié)合新技術(shù)也很必要,如「在電腦輔助下做文學(xué)賞析」「如何和與你意見不合的人文明地溝通」。

考試可以結(jié)合事實(shí)性信息,但應(yīng)側(cè)重于學(xué)生的分析和應(yīng)用能力。

另外,讓學(xué)生去「預(yù)演」未來會(huì)遇到的場(chǎng)景也是練習(xí)技巧的直接方式,譬如讓研究氣候改變的學(xué)生來為大眾策展一場(chǎng)氣候相關(guān)展覽。

現(xiàn)在來到 ChatGPT 時(shí)代,這個(gè)改變自然是顯得更迫切,因?yàn)樗男时人阉饕娓撸瑫r(shí)也更具迷惑性。

ChatGPT 除了給學(xué)生省下翻看一頁頁搜索結(jié)果的時(shí)間外,還以夠用的語言結(jié)構(gòu)能力生成流暢的文段,即便事實(shí)準(zhǔn)確度非??梢伞?/p>

有趣的是,ChatGPT 也像一面鏡子。

一方面,它讓人想起應(yīng)試教育中的作文和簡(jiǎn)答題總像是無休止的「模仿」,標(biāo)準(zhǔn)范式下的填充,就跟 ChatGPT 一樣。

另一方面,靠「吃」大數(shù)據(jù)和由人類真實(shí)反饋「調(diào)教/?!钩砷L(zhǎng)而來,ChatGPT「一本正經(jīng)瞎扯」的內(nèi)容也特別像我們生活里會(huì)遇到的日常。

以至于沃頓商學(xué)院的 Terwiesch 教授都超驚喜,覺得 ChatGPT 能給未來的管理者們帶來極佳的學(xué)習(xí)素材 ——

商業(yè)世界里本來就充滿了一本正經(jīng)的一派胡言,就跟 ChatGPT 說的話一樣,商學(xué)院學(xué)生正好能用它來做鑒別練習(xí)!

你我都知,需要學(xué)下這個(gè)技能的遠(yuǎn)不止商學(xué)院學(xué)生。

然而,美國高等教育界從搜索引擎流行就開始有改革的討論,但到了今天仍然進(jìn)步有限,ChatGPT 的誕生能逼它跑得快些嗎?我們也只能繼續(xù)觀察。

人類的,類人的

我總認(rèn)為,每當(dāng)人類嘗試「再造」一些東西的時(shí)候,總會(huì)暴露出我們對(duì)事物的認(rèn)知限制,同時(shí)也幫助我們?nèi)チ私庾晕摇?/p>

嘗試在太空中「再造」食物時(shí),研究人員發(fā)現(xiàn)食物真不能只被降至「營養(yǎng)夠」。

要保持太空人們身心健康,色香味口感聲音無一不影響感知,環(huán)境要講究,一起吃飯的人也非常重要。

當(dāng)我們擁有一個(gè)能「流暢說人話」的 ChatGPT 時(shí),人們也開始發(fā)現(xiàn)人類語言不只關(guān)于「文字」。

一個(gè)只由語言素材訓(xùn)練的系統(tǒng)永遠(yuǎn)都不會(huì)接近人類智能,即便它從現(xiàn)在就開始訓(xùn)練,訓(xùn)練到宇宙毀滅都不行。

研究 AI 哲學(xué)的 Jacob Browning 和圖靈獎(jiǎng)得主 Yann Le Cun 在聯(lián)合撰寫的文章中指出。

他們認(rèn)為,文字作為一種高度濃縮的抽象符號(hào),人類能理解的基礎(chǔ)在于我們擁有豐富的非語言共識(shí)和個(gè)人體驗(yàn)。這也意味著文字總可能會(huì)帶來誤讀和歧義。

語言是我們溝通的工具,但教育者對(duì)學(xué)生的理解和評(píng)估,不應(yīng)只限于卷子上。

和先進(jìn)的大型語言模型打交道,顯現(xiàn)出我們單從語言中能得到的東西是多么有限。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡:

最新文章: