陳思文, 孔亞琪, 劉 宇
(南京郵電大學教育科學與技術學院, 江蘇 南京 210023)
學業(yè)評價也被稱為教育評價或學術評價。通過學業(yè)評價,教師、學?;蚪逃到y(tǒng)能夠評估學生的學習進度程度,了解學生的知識和技能水平。學業(yè)評價通常涉及各種形式的測試和評估,包括標準化測試、項目評價、口頭評價、書面作業(yè)、課堂參與等[1]。盡管學業(yè)評價在教育過程中發(fā)揮了重要作用,但傳統(tǒng)的學業(yè)評價方法存在一些短板,一是在反映學生各項技能和知識水平方面存在一定的局限性,二是需耗費大量時間和資源進行評分,而且難以進行個性化評價。近年來,生成式人工智能(Artificial Intelligence Generated Content,AIGC)的出現(xiàn)為這些問題提供了可行的解決方案。通過利用深度學習和自然語言處理技術,生成式人工智能能夠對學生的作業(yè)和考試進行高效、公正且全面地評價,從而提供更詳盡的反饋,并更好地滿足個性化教學的需求[2]。因此,生成式人工智能在學業(yè)評價中的應用具有巨大的潛力及價值。然而,在使用AIGC技術時,需綜合考慮多方面的因素以保證其作用最大化,為學習評價提供了創(chuàng)新路徑。本文研究以ChatGPT為例,結合學業(yè)評價的生成與應用,驗證AIGC在學業(yè)評價中的應用效果及其風險應對策略。
近年來,生成式人工智能已經在教育領域得到了廣泛的應用。學業(yè)評價是教育評價的一個重要領域,其作用是幫助學生了解自身的學習表現(xiàn)與亟待改進之處,也能幫助教師更好地指導學生學習,提高教學質量。然而,傳統(tǒng)的學業(yè)評價方法易出現(xiàn)評價趨于主觀性,難以快速評價一定數量學生等問題。因此,在學業(yè)評價中使用AIGC可提高評價效率和準確性,在一定程度上也降低了評價中人的主觀性的影響[3]。針對生成式人工智能在學業(yè)評價中的應用,本文采用真實的學生學習數據作為輸入信息,并將這些數據分別輸入ChatGPT(一個大型的語言模型)和交給兩位數學專業(yè)教師用于評價,ChatGPT和兩位數學專業(yè)教師將針對學生的學習行為表現(xiàn),從診斷、激勵、指導、干預4個方面進行評價。
為了更好地使ChatGPT作為評價者對學生的學習和行為數據進行診斷、激勵、指導、干預,需要先編寫合適的Prompt(提示詞)引導ChatGPT成為一個評價者。其中,Prompt是一種文本片段,其目的是指導ChatGPT根據給定的條件生成特定類型的文本輸出,可理解為在給定的上下文中,使用某一主題或話題引導模型生成使用者所需的相關文本[4]。若要使用ChatGPT對學生進行學習評價并評估學生的課程表現(xiàn),需要先使用合適的Prompt指導ChatGPT生成正確的文本輸出,在此過程中應考慮以下幾個方面。
(1)輸入的信息:需要收集學生課堂內外表現(xiàn)的信息,如學生的出勤率、課堂表現(xiàn)和潛在的課堂問題等。
(2)評估的要素:確定用于評估學生表現(xiàn)的要素??梢愿鶕W生的課堂表現(xiàn),分析學生對某些概念的掌握程度,回答問題的能力,主動提出問題的頻率,以及對課程的積極參與度等。
(3)Prompt的生成:編寫合適的Prompt,并使用它引導ChatGPT為每名學生評估他們的表現(xiàn)。例如,給定一名學生表現(xiàn)評估的Prompt,ChatGPT會基于其內部的模型,生成一個文本輸出,這個輸出會包含一名學生的綜合表現(xiàn),對學生的學習表現(xiàn)進行概括,給出學習改進建議或其他此類有關文本。
在這個過程中,需要嘗試不同的Prompt,確保ChatGPT生成符合預期的文本輸出。同時,需要利用反饋告知ChatGPT其生成的文本是否合適,以便ChatGPT進一步優(yōu)化生成模型?;贑hatGPT的學業(yè)評價生成流程如圖1所示。
圖1 基于ChatGPT的學業(yè)評價生成流程圖Fig.1 Flow chart of academic evaluation generation based on ChatGPT
本文研究選擇了UCI Machine Learning Repository(加州大學歐文分校機器學習數據庫)中的Student Performance數據集作為學生信息數據來源。此數據集包含學習兩個課程(數學和葡萄牙語)的學生表現(xiàn)數據,涵蓋了學生的個人信息、家庭背景、學習習慣、課堂表現(xiàn)和成績等維度,為本文研究提供了一個全面且深入的視角理解學生的學習情況與生活情況,數據集中的部分學生學習數學課程數據如表1所示。
表1 Student Performance數據集中三名學生學習數學課程的表現(xiàn)數據Tab.1 Data of three students' performance in mathematics courses in the Student Performance dataset
在數據處理階段首先進行數據清洗,檢查并處理數據集中的缺失值和異常值以確保數據的準確性; 其次對數據進行了預處理,將二元變量轉換為文字變量,例如將1和0轉換為“是”和“否”,這樣處理的目的是使教師可以更直觀、更輕松地了解學生的數據,從而更好地對學生的學習數據進行評價決策。
Prompt構建完成后,以數據集中給出的數學課堂中隨機選擇三名學生的學習數據為例,將每名學生學習數學課程的表現(xiàn)數據以及Prompt輸入給ChatGPT,即可得到三名學生基于ChatGPT的學業(yè)評價內容文本。
情感分析是一種自然語言處理技術,它的目標是識別和提取文本中的主觀信息,如情緒、觀點、情感等[5]。在學業(yè)評價中進行情感分析的主要原因是更深入地理解評價者的態(tài)度和情緒傾向[6]。這種理解有利于判斷評價的積極性或消極性,以及評價的強度和情感色彩。首先,情感分析可以幫助量化評價內容的情感傾向,通過這種方法可以將主觀的、定性的評價轉化為可以量化和比較的數據。通過文本情感分析技術可以更公正、客觀地比較ChatGPT生成的評價內容和教師的評價內容。其次,情感分析可以揭示評價者的情緒狀態(tài)和態(tài)度,這對于理解評價者的觀點與意圖至關重要。再次,情感分析有利于發(fā)現(xiàn)潛在的問題和改進點。例如,如果情感分析結果顯示某位教師的評價總是傾向于消極,即需要進一步研究其評價方法和內容,檢查是否有需要改進的地方。同樣,如果ChatGPT生成的評價過于消極,那么需要調整Prompt生成策略,使其更好地反映學生真實的學習情況。
在進行情感分析的過程中,本文研究使用中文自然語言處理開源數據集weibo_senti_100k作為數據源,此數據集包含10 萬多條附帶情感標注的新浪微博評論,其中正向評論和負向評論各約5萬條。首先,對輸入的中文文本數據進行預處理,預處理包括分詞和構建詞匯表的過程。其次,使用jieba分詞庫將文本切分為單個詞語,并構建詞匯表(vocab)存儲詞語和對應的索引。
在預處理數據之后,將數據集分為訓練集和測試集,使用Bi-LSTM模型進行情感分析,這是因為Bi-LSTM在處理序列數據方面具有優(yōu)秀的性能。情感分析涉及對文本進行時序建模,以捕捉文本中的上下文信息和語義結構。Bi-LSTM作為一種循環(huán)神經網絡(RNN)的變體,能夠有效地處理序列數據,并具有一定的記憶能力。構建Bi-LSTM模型,該模型包括一個嵌入層(Embedding)、一個雙向LSTM層(Bi-LSTM)、一個全連接層(Fully Connected)和一個Dropout層(Dropout),其模型網絡結構圖如圖2所示。首先,將詞匯索引序列作為輸入,通過嵌入層將每個詞語轉換為固定維度的詞嵌入向量。其次,將嵌入向量輸入雙向LSTM層中得到隱藏狀態(tài)。最后,將隱藏狀態(tài)經過拼接和全連接層操作后,通過Dropout層得到模型的輸出結果。在訓練過程中,使用二元交叉熵損失函數(BCEWithLogitsLoss)作為優(yōu)化目標,并使用Adam優(yōu)化器進行參數更新。
圖2 Bi-LSTM模型網絡結構圖Fig.2 Bi-LSTM model architecture diagram
二元交叉熵損失函數是用于二分類問題的一種常用損失函數。假設有一個二分類問題,其真實標簽為y(取值為0或1),模型預測的概率為p。那么,二元交叉熵損失函數可以定義如下:
loss=-[y·ln(sigmoid(logits))+(1-y)·
ln(1-sigmoid(logits))]
(1)
其中,logits表示模型輸出的未經sigmoid函數處理的結果,y表示真實標簽(取值為0或1),sigmoid(·)表示sigmoid函數,ln(·)表示以e為底的自然對數。
Adam(Adaptive Moment Estimation)優(yōu)化器是一種用于深度學習模型的優(yōu)化算法,它結合了Momentum和RMSprop兩種優(yōu)化算法的優(yōu)點。Adam優(yōu)化器的更新規(guī)則如下。
(1)計算梯度的一階矩估計和二階矩估計:
mt=β1mt-1+(1-β1)gt
(2)
(3)
其中,mt和vt分別是梯度的一階矩估計和二階矩估計,β1和β2超參數(通常設為0.9和0.999),gt為在時間步t的梯度。
(2)對一階矩估計和二階矩估計進行偏差修正:
(4)
(5)
(3)使用修正后的一階矩估計和二階矩估計更新參數:
(6)
其中,θt是在時間步t的參數,α是學習率,ε是一個很小的數(通常設為10-8),以防止除以0。在訓練和驗證函數中,模型的預測結果和真實標簽被輸入損失函數中計算損失,然后通過反向傳播和優(yōu)化器更新模型參數。
此外,本文研究使用樸素貝葉斯模型和邏輯回歸模型兩種機器學習模型進行模型訓練,使用Bi-LSTM模型進行性能對比,各模型在測試集上的ACC(準確率)和LOSS(損失)指標如表2所示,從表2中的數據來看,Bi-LSTM模型在情感分析任務上明顯優(yōu)于樸素貝葉斯模型和邏輯回歸模型的機器學習模型。
表2 Bi-LSTM模型與樸素貝葉斯模型和邏輯回歸模型的性能對比Tab.2 Performance comparison of Bi-LSTM model with naive Bayes and Logistic Regression models
Bi-LSTM(雙向長短期記憶)模型是一種循環(huán)神經網絡(RNN)模型,它能夠處理序列數據,并且能夠捕捉序列中的長期依賴關系,這使得它在處理文本數據時,能夠理解文本的上下文信息,從而提高模型的預測性能。①雙向信息流:Bi-LSTM模型不僅能像傳統(tǒng)的LSTM模型那樣從前往后處理序列,還能從后往前處理序列,這使得Bi-LSTM模型在預測某個位置的輸出時,能夠同時考慮到該位置前后的所有信息,從而提高模型的預測準確性。并且,LSTM模型通過引入門控機制,能夠有效地避免在訓練深層網絡時常見的梯度消失和梯度爆炸問題。這使得模型能夠學習到更深層次的特征,從而提高模型的預測性能。②模型的泛化能力:從表2中的數據來看,Bi-LSTM模型的損失明顯低于樸素貝葉斯模型和邏輯回歸模型,說明Bi-LSTM模型在文本情感分析任務上的泛化能力更強。
使用訓練完成的Bi-LSTM模型分別對ChatGPT和教師的評價文本內容進行預測。首先對評價內容文本進行相同的停用詞預處理,其次將其轉化為向量,并使用Bi-LSTM模型進行預測。輸出模型對新文本的預測概率,可以幫助使用人了解模型對新文本的情感傾向的預測情況。以上過程可了解到Bi-LSTM模型對不同文本的情感傾向的預測情況,從而進行后續(xù)的分析與決策。ChatGPT的評價內容與教師的評價內容的文本情感分析結果統(tǒng)計圖如圖3所示,圖3中ChatGPT+學生1表示ChatGPT對學生1的評價內容的情感分析結果,分數越接近1,說明評價內容越積極。同樣,教師1+學生1表示教師1對學生1評價內容的情感分析結果,通過對比顯示,ChatGPT對學生的學業(yè)評價內容在情感表現(xiàn)上更為積極。
圖3 評價文本情感分析結果統(tǒng)計圖Fig.3 Statistical chart of sentiment analysis results of evaluation text
基于AIGC的學業(yè)評價生成與應用效果驗證過程中,對ChatGPT的評價內容與教師的評價內容進行中文文本相似度檢測是至關重要的。量化ChatGPT生成的評價內容與教師的評價內容在語義上的相似度,以此評估ChatGPT的評價質量與教師的評價質量。通過這種方式可以了解ChatGPT是否能夠生成與教師相似的、高質量的評價內容,從而評估AIGC在學業(yè)評價場景中的應用價值。
本文研究使用BERT模型進行中文文本相似度檢測。BERT(Bidirectional Encoder Representations from Transformers)是一種基于Transformer的預訓練模型,其模型網絡結構如圖4所示。Transformer模型的核心是自注意力機制(Self-Attention Mechanism),它能夠捕捉文本中的長距離依賴關系。BERT模型通過雙向的Transformer編碼器,能夠捕捉到文本中的上下文信息。
圖4 BERT模型網絡結構圖Fig.4 BERT model architecture diagram
在數據處理過程中,首先對評價內容文本進行停用詞的去除,其次使用BERT的分詞器對文本進行分詞,并轉化為模型需要的輸入格式。因為BERT模型在預訓練階段已經學習到了豐富的語言表示,所以研究在訓練過程中使用預訓練的BERT模型,不需要進行額外的訓練。
本文研究使用余弦相似度公式進行評價文本的相似度計算。余弦相似度是一種基于向量空間的度量,它可以衡量兩個向量夾角的余弦值,表示兩個向量的相似度。余弦相似度的計算公式如下:
(7)
其中,u和v是2個語句的向量,u·v表示u和v的點積,‖u‖和‖v‖分別表示u和v的模。余弦相似度的取值范圍為-1~1,值越大,則表示文本越相似。
訓練好模型后,輸入ChatGPT的評價內容和教師的評價內容,即可計算ChatGPT和教師之間的文本相似度,文本相似度結果如表3所示,表3中的“ChatGPT+教師1”表示ChatGPT對某名學生的評價內容與教師1對某名學生評價的內容之間的文本相似度,以此類推。結果顯示:ChatGPT的學習評價內容的相似度達到了教師評價的75.21%以上,已具備實際的應用價值及具有一定的市場潛力。
表3 ChatGPT與教師評價內容相似度檢測結果 Tab.3 Similarity detection results between ChatGPT's generated content and teacher evaluations
ChatGPT在學習評價中不可避免存在一定的主觀性和不確定性[7]。由于模型的訓練過程中使用的數據和評價標準在很大程度上決定了所生成的評價結果的質量,因此需要充分認識其局限性,努力尋找更準確和可靠的評價方法。ChatGPT在處理基本的語法和語義問題上表現(xiàn)良好,但其較難處理復雜的問題或特殊領域的評價,例如針對具體學科、職業(yè)或社會背景的評價。因此,必須尋找其他不同類型的模型和算法,在多樣化的評價場景和問題中獲得更好的評估效果。并且ChatGPT模型需要使用大量的用戶數據進行訓練和調整,這些數據可能涉及用戶隱私保護等問題,同時數據量必須達到一定規(guī)模才能對模型進行有效訓練和優(yōu)化[8]。所以,采取切實有效的數據采集和審核策略,確保數據的質量和隱私安全,是目前研究者面臨的最大挑戰(zhàn)。ChatGPT模型的不透明性以及算法的復雜性產生的評價結果較難被人們所理解,這種不透明性會影響對評價結果的準確性和可靠性的判斷,并且隨著各種學習場景的不斷變化,ChatGPT模型的適應能力不可避免地會受到一定的影響[9]。如果模型無法處理新的場景或問題,那么需要準備更新和改進模型,確保它能夠適應不斷變化的學習需求,為學習者提供更準確、可靠的評價和反饋服務。
ChatGPT模型基于深度學習算法,可以對大量的自然語言數據進行有效的訓練和處理。這使得模型可以對不同學生的學習表現(xiàn)進行個性化的評價,提供更加精準的反饋,這對于提高學生的學習動力和效果具有很大的促進作用。學業(yè)評價通常需要大量的人力和時間投入,而ChatGPT模型可以自動化評價和反饋過程,有助于教育機構和教育工作者提高評價的效率和精確度,使教育資源得到更高效的利用[10]。ChatGPT模型的應用和研究,為教育的評價、反饋和個性化服務提供了新的思路和方法,推動了教育行業(yè)的發(fā)展和創(chuàng)新[11]。ChatGPT模型的應用也提供了新的思路和方法,促進了教育評價方式的創(chuàng)新。教育領域可以對人工智能和自然語言生成等先進技術進行更深入的研究,探索更加準確、全面和高效的評價方式,滿足不斷變化的學習需求并進一步實現(xiàn)個性化學習[12]。ChatGPT模型在學習評價中具有廣泛的應用前景,需要進一步探索和開發(fā)更加高效和準確的評價方法,為社會提供更加優(yōu)質、個性化和便捷的教育服務。
本文研究主要關注于生成式人工智能系統(tǒng)ChatGPT在教育領域的應用潛力,并基于其啟發(fā)性內容生成、對話情境理解、序列任務執(zhí)行和程序語言解析4項核心能力,探討該系統(tǒng)在學業(yè)評價中的應用效果。本文研究使用真實的學習數據,對學生學習數據進行評價,并對其在評價過程中的診斷、激勵、指導和干預進行了相應的評估和比較。結果表明,與兩位教師的評價內容相比,ChatGPT生成的評價內容情感更積極,評價文本相似度達到了教師評價的75.21%以上。此研究證明了基于AIGC的學習評價潛力,證明了其優(yōu)良的自然語言理解和生成能力在提供學業(yè)評價的診斷和指導方面的可應用性。AIGC可在教育領域中為學生提供更加精準和個性化的學習支持服務,提高學生的學習效果和成果,有望在未來得到更為廣泛的應用。
盡管ChatGPT在自然語言理解、生成和多模態(tài)數據處理方面具有優(yōu)勢,但它仍存在一些技術局限性,例如系統(tǒng)可能會缺乏深入的語義理解或知識表示能力,導致其對某些學術領域(如數學或物理學)的特定領域知識進行推理或解釋方面存在困難。因此,在將其應用于學習評價的過程中,需要謹慎考慮其適應性與總體準確性。