王 野
(南寧師范大學 計算機與信息工程學院,廣西 南寧 530299)
隨著ChatGPT 模型的發(fā)布[1],大型語言模型在文本生成、問答、摘要等領域為整個世界的技術和應用帶來了巨大的推動。當前,國內的中文大型語言模型也迅速跟進,阿里巴巴、清華大學等科技公司與研究院校紛紛推出了各自有代表性的中文大型語言模型,為教育教學的數字化轉型提供了有力的幫助。同時,以ChatGPT 為主導的大型語言模型在教育教學的自動評價技術中開始廣泛應用[2]。例如,Moore 等[3]利用ChatGPT 3 在化學教育教學中對學生的學習成績進行了智能評估,并根據評估結果提出不同的專業(yè)與指導建議;Shen 等[4]在數學的教育教學中,利用大型語言模型來生成數學題目;Bernius 等[5]在整個課程中都利用大型語言模型來評價與評估學生的學習成績,準確率達到了92%,被教師普遍接受;Zhu 等[6]建立了地理學科在線課程的形成性反饋系統(tǒng),反饋系統(tǒng)采用自動評分技術來評估學生的表現;Reham等[7]通過人工智能對學生的學習結果進行自動評價,取得了較好的效果。而大型語言模型在自動化的教學評價中不只針對學生個體,也可以大規(guī)模地進行問題的自動生成與回答,如Qu 等[8]利用大型語言模型來生成高質量的學科題目,同時生成答案講解,這在問題與答案的生成任務上取得了很大的突破;在英語學科上,Dijkstra 等[9]利用大型語言模型自動生成總結性反饋和評分測試;Jia 等[10]嘗試通過使用各種機器學習和深度學習模型檢測不同的特征來評估同行評審,最終利用先進的預訓練語言模型更好地完成了同行評審的評估。
綜上可看出,從國際上來說,大型語言模型在教育教學領域的應用十分廣泛。中文大型語言模型已經步入了新的發(fā)展階段,但其在教育教學應用中的真實效果仍需進一步驗證,其潛在的局限性和進一步的優(yōu)化方向也值得深入探索。本文基于特定數據集對中文大型語言模型的自動評估能力進行實驗與測試,來驗證中文大型語言模型的推理能力,并進一步說明中文大型語言模型對教育教學自動評估的應用與影響。
為了更好地驗證中文大型語言模型在教育教學領域的表現,本文以模型的訓練數據、參數規(guī)模與設計架構為依據,從業(yè)界和學術界具有重要影響力的中文大型語言模型中篩選出11 個具有代表性的中文大型語言模型。具體如下:
BELLE[11]由鏈家科技公司于2023 年3 月底發(fā)布,旨在推進中文對話大模型開源社區(qū)的建設,并致力于讓每一位用戶都能夠獲得屬于自己的、效果優(yōu)良的指令驅動語言模型。其核心目的是降低大型語言模型,尤其是中文大型語言模型的研究和應用難度。BELLE 不僅專注于大語言模型的預訓練,而且還關注基于開源預訓練的大語言模型,使每位用戶能獲得具備高效指令表達能力的定制模型。BELLE 項目持續(xù)提供指令訓練數據、相關模型、訓練代碼及應用場景,同時還持續(xù)評估不同的訓練數據和算法對模型表現的影響。
MOSS[12]是由復旦大學開發(fā)的一個高級聊天模型,于2023 年4 月正式上線。該模型支持中英雙語和多種額外功能,有160 億參數,并且可以在不同類型的高級顯卡上運行。它在大量的中英文數據和代碼上進行了預訓練,因此非常擅長理解語言和代碼。該模型還經過了特殊訓練,以支持復雜的多輪對話和多種應用。
Fengshenbang-LM[15](封神榜大模型系列)在2023 年5 月中旬由IDEA 研究院認知計算與自然語言研究中心主導發(fā)布,旨在成為中文大型語言模型和認知智能的基礎設施,以解決當前中文研究資源嚴重缺乏和研究進展滯后的問題。此體系是一個以中文驅動的基礎生態(tài)系統(tǒng),包括預訓練大模型、特定任務的微調應用、基準和數據集;目標是構建一個全面、標準化、以用戶為中心的生態(tài)系統(tǒng);還包括多模態(tài)、特定領域等任務。IDEA研究院提供了微調好的相關模型,使得計算資源有限的用戶也能輕松地使用。
清華大學在2023 年6 月發(fā)布了第二代中文大語言模型ChatGLM 2[16]。ChatGLM 2 在初代模型的基礎上全面升級,在多個數據集上的性能大幅提升;此外,該模型還利用Flash Attention[17]技術,將其上下文長度從2K 擴展至32K,為了支持更長的上下文,推出了ChatGLM2-6B-32K 模型,并使其大大加快了推理速度。
上海人工智能實驗室與商湯科技公司在2023年6 月聯合推出了InternLM[18],別稱“書生·浦語大模型”,展現了一套包含70 億參數的基礎模型及對話模型,使用了上萬億高質量的語料來構建。該模型支持8K 的語境窗口長度,這不僅允許更長的語句輸入,而且提供了較強的推理體驗。InternLM 設計了通用工具的調用功能,從而為用戶提供了一個靈活、自助的流程搭建平臺。為了支持模型的預訓練,InternLM 提供了一個輕量化的訓練框架。
YuLan-Chat[19]是由中國人民大學高瓴人工智能學院的師生聯合開發(fā)的。這一系列模型在2023年6 月發(fā)布,它專為聊天設計,名字“玉蘭”(YuLan)靈感來源于中國人民大學的?;āT撓盗心P驮贚LaMA[20]的基礎上進一步進行了中英雙語的預訓練與指令微調。該模型具有優(yōu)化語言的能力,用中文詞語擴展了英文數據集的原始詞表,增加了問答上下文的長度。同時,該模型還構建了高質量的雙語指令,從而可以更加高效地響應用戶問題。
百聆(BayLing)[21]是由中國科學院計算技術研究所的自然語言處理研究組研發(fā)的大規(guī)模語言模型,于2023 年6 月發(fā)布。該模型的特點是增強了中英生成、指令響應和多輪交互能力,可以在16GB 顯存的消費級顯卡上運行,協助用戶進行翻譯、寫作、創(chuàng)作和提供建議。BayLing 利用了LLaMA 作為其基礎模型,通過自動構建的交互式翻譯指令進行調優(yōu)。
悟道·天鷹[22](Aquila)語言模型由智源研究院在2023 年6 月發(fā)布,為首個結合中英雙語知識、遵循國內數據合規(guī)并支持開源商用許可的語言大模型。該模型基于中英文高質量語料進行從零訓練,中文數據占比約為40%,確保在預訓練階段獲得原生中文知識,而非依賴翻譯。Aquila 模型的中文數據來源于智源研究院多年積累的數據集,主要包含1 萬多個中文互聯網站源(其中99%為國內源)以及國內權威機構提供的高質量中文文獻和書籍。與此同時,此模型的訓練數據還在不斷地增長。
百川智能于2023年7月發(fā)布了一個名為Baichuan-13B[23]的開源中文語言模型。這個模型的數據量是目前最大的,訓練了1.4 萬億個詞片段,比LLaMA-13B[20]多了40%。它還支持中英雙語,并使用了先進的位置編碼技術,對于開發(fā)者來說,這是一個非常強大的工具。而Baichuan-13B-Chat版本則是專門為與用戶對話而設計的,易于用戶在客戶端部署。
3)力學模型和有限元分析結果表明支架的薄弱環(huán)節(jié)為伸縮梁、頂梁和護幫板,特別是伸縮梁比較脆弱,在超前支架的結構工程設計時應予以重視。
元象科技公司在2023 年8 月初推出了名為XVERSE-13B[24]的大型語言模型,它支持40 多種語言,如中文、英文、俄文和西班牙文等。這個模型采用了標準的Transformer 網絡結構,基于1.4萬億的特征數據進行訓練,能夠同時處理多種語言。
本實驗以GAOKAO-Bench[25]數據集為基準,對以上11 個大型中文語言模型的推理能力進行評估與測試。
顯卡型號:Geforce RTX 3080 Ti * 1。
編程語言:Python 3.8,PyTorch 1.9。
GAOKAO-Bench 數據集收集了2012—2022 年全國高考卷的題目,涵蓋了廣泛的學科領域。GAOKAOBench 包含2 811 個題目,其中選擇題1 781 題、填空題218 題、解答題812 題,多樣的題目分布可以較為客觀地評估模型在不同題型上的表現,如表1 所示。
表1 數據集分布情況
其中:TAVe表示所有學科的平均得分。Rcorrect,i取每一個學科的正確率,SFull表示該學科滿分,n 表示學科總數。
Rcorrect,i表示第i 個學科的正確率,Scorrect表示該學科的正確得分,Tpossible,i表示第i 個學科的總可能得分。
根據以上實驗設計,本文基于GAOKAO-Bench數據集,在9 個不同學科的基礎上,對當前國內流行的11 個開源中文大模型進行了準確率評估實驗,得到評估結果,見表2。
表2 11 個開源中文大模型評估結果
阿里云發(fā)布的Qwen 模型得分最高,平均分為46.23,其次是清華大學發(fā)布的ChatGLM 2 模型,其平均分為38.31。商湯科技等聯合發(fā)布的InternLM 模型在英語和數學上則較高。Baichuan 模型的平均分為37.15,表現與InternLM 相當,尤其在歷史和政治方面表現較好。中國人民大學發(fā)布的YuLan 模型與BayLing 模型分別在政治和地理學科上表現較為優(yōu)秀。
在英語學科中,商湯科技等聯合發(fā)布的InternLM 模型展現了類似母語者的能力,獲得了高達95.20 的得分。相比之下,Moss 和Jiangziya的表現較為不足,分別獲得了25.30 和18.80 的分數。這可能暗示著這兩個模型在英語學科的訓練數據相對較少,或者其模型結構不太適應英語學科。在數學學科中,ChatGLM 2 模型和InternLM模型展現了出色的表現,得分分別為77.25 和86.05;可能因為兩者接受了大量數學題目的訓練,或者模型結構可以很好地理解數學邏輯。對于科學學科如物理、化學和生物,大部分模型的表現都比較弱。在人文學科,如歷史、政治和地理中,InternLM 模型在歷史上取得了64.21 的高分,遠高于其他模型。這可能表明它在歷史學科的訓練數據相對豐富。而大多數模型在政治上的表現都相對較弱,如BayLing 和XVERSE 的得分都為0。
總結來說,這些模型在不同的學科上存在顯著的性能差異,這可能是由于它們的訓練數據、模型結構或算法優(yōu)化策略不同。語言模型為了在各自擅長的學科上有著更好的表現,研究者們在未來的模型開發(fā)中可能需要考慮更多針對特定學科的優(yōu)化策略和訓練方法。
像Qwen 和Aquila 這樣的模型并沒有采用明顯的預訓練模型或基座,這可能是因為它們采用了自定義或混合的預訓練模型。從結果來看,Qwen 的表現最佳,這顯示,完全自定義的模型也可能取得出色的成績。唯一使用了GLM 預訓練基座的模型是ChatGLM 2,在所有的模型中它取得了較高的平均分,也表明了采用GLM 預訓練模型可能帶來較好的效果。InternLM 是唯一一個使用InterLM 預訓練模型的模型,雖然它在綜合平均分上排名第4,但它在英語和數學這兩門學科上的表現超過了其他所有模型。Baichuan 和XVERSE 都使用了Transformer 預訓練模型,但表現相對較弱。在此,本研究不能僅根據這一點來評估Transformer 預訓練模型的性能,因為模型的表現受許多因素的影響,包括數據質量、模型調優(yōu)和特定任務的適應性等。有3 個模型YuLan、BayLing 和BELLE 采用了LLaMA 預訓練模型,它們的平均分在中等到低分之間,但在個別學科上表現相對較好,表明使用LLaMA 預訓練模型可能在特定學科上取得較好的表現。
阿里云發(fā)布的Qwen 模型在所有模型中得分最高,突顯了大型科技公司在人工智能和自然語言處理方面的優(yōu)勢。清華大學發(fā)布的ChatGLM 2 模型以及由上海人工智能實驗室與商湯科技聯合發(fā)布的InternLM 模型也有出色的表現,彰顯了學術研究和工業(yè)界合作對于推動這個領域發(fā)展的重要性。InternLM 在英語和數學上表現卓越,這可能反映了商湯科技等單位在技術和應用研究方向的主攻點。作為新興的模型如XVERSE,雖然總體得分并不高,但其開源模型也在一定程度上推動了中文大型語言模型的發(fā)展。因此,大企業(yè)、研究機構和新興公司都在人工智能與教育交叉領域發(fā)揮著重要的作用。
1.中文大型語言模型的自主創(chuàng)新能力問題
大型語言模型在不同語言的基礎上工作時展現了不同的推理能力。相較于英文數據,中文數據的開源程度較低,導致中文數據集的規(guī)模相對較小。此外,英文作為科研主流語言,在學術界和工業(yè)界都得到廣泛應用,積累了大量高質量的語料數據,這為英文自然語言處理的研究提供了極大的優(yōu)勢。盡管中文大型語言模型在教育領域有一定的應用價值和潛力,但大多數中文大型語言模型的核心算法和架構往往直接借鑒或修改來自國外研究者和機構發(fā)布的模型,如GPT[26]、BERT[27]和T5[28]。在本研究中,如表2 所示,LLaMA 模型基座在不少中文大型語言模型中被投入應用。這意味著,在算法和應用層面,中文大型語言模型依然在英文大型語言模型的基礎上工作,并有一定的依賴性,這可能對未來中文大型語言模型在教育領域的應用產生一定的制約。所以,對于我國來說,建立自己的中文大型語言模型極為重要。
2.中文大型語言模型在某些學科上的推理能力問題
通過對11 個不同來源的中文大型語言模型進行跨九大學科的綜合評估,研究發(fā)現:每個模型均有薄弱的學科。例如,大多數模型在自然科學上的推理能力都相對較弱。原因可能是供中文大型模型訓練的數據集較為稀少,截至本文編寫結束(2023 年8 月30 日),教育領域中已經開源的中文大型語言模型數據集相對較少,而專門針對單一學科進行訓練的數據集更為稀有。筆者認為,為了提高中文大型語言模型在某些薄弱學科上的推理能力,可以專門使用單一學科的數據集進行微調與遷移學習,如在數學學科,就有專門的訓練數據集GSM8K 和Math[29-30];而在物理學科,有供模型訓練的數據集PIQA[31]。綜上,針對中文大型語言模型在不同學科上的表現差異,未來的研究需要有針對性地對不同學科的教學內容和目標進行分類、策略調整及優(yōu)化。
3.中文大型語言模型的透明度與倫理問題
在實驗過程中,研究發(fā)現部分公司的中文大型語言模型尚未開源,如百度公司的中文大型語言模型文心一言。這些公司有更多的資源來開發(fā)和優(yōu)化模型,但由于商業(yè)利益,可能不愿意公開模型的完整細節(jié)。這并不利于中文大型語言模型的整體發(fā)展與進步,更嚴重的后果可能會導致倫理問題。一方面,在國內中文大型語言模型的研究中,需要強化模型的透明度和可解釋性,比如采用開源或第三方審計的方式,從而增加模型決策邏輯的可審查性;另一方面,在此背景下也應當建立全面的倫理指導原則和治理框架,這樣不僅能提高模型在教育評估和個性化教學中的準確性和可靠性,還有助于構建一個更加公平、透明和責任明確的大型語言模型應用生態(tài)環(huán)境。
文章通過綜合評估11 個不同來源的中文大型語言模型,揭示了模型在不同學科上的推理能力及存在的不足。由于數據和算法的局限,以及資源和透明度缺乏等問題,中文語言模型在教育應用方面還面臨多重挑戰(zhàn)。然而,機會總是與挑戰(zhàn)并存的。面對這一情況,相關領域的研究者要采取多元化的策略來應對,如提高中文大型語言模型的推理精度、數據多樣性和公開透明度等。這些模型有望在未來的教育自動評估、個性化教學和課程設計等領域發(fā)揮更加重要的作用。期待這些新技術不僅能推動教育的數字化轉型,同時也能在更加廣泛的社會文化層面產生深遠的影響。