歐陽元新,王樂天,李 想,蒲菊華,熊 璋
(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191)
2019 年2 月,中共中央、國務(wù)院印發(fā)了《中國教育現(xiàn)代化2035》,強(qiáng)調(diào)“因材施教”“知行合一”,其十大戰(zhàn)略任務(wù)之一“加快信息化教育時(shí)代變革”提出利用現(xiàn)代技術(shù)加快推動(dòng)人才培養(yǎng)模式改革,實(shí)現(xiàn)規(guī)?;逃c個(gè)性化培養(yǎng)的有機(jī)結(jié)合。教學(xué)的最終目的始終是為了促進(jìn)學(xué)習(xí)者的學(xué)習(xí)。不同學(xué)習(xí)者的學(xué)習(xí)需求千差萬別,如何應(yīng)對(duì)學(xué)生的個(gè)體差異,真正做到“因材施教”的個(gè)性化教學(xué)(學(xué)習(xí)),一直是擺在每個(gè)教育工作者面前的課題。在面對(duì)范圍更大、層次更復(fù)雜的學(xué)習(xí)者時(shí),如何獲得其對(duì)課程的直觀反饋,進(jìn)而動(dòng)態(tài)調(diào)整課程教學(xué)組織顯得尤為重要。
自然語言是人類表達(dá)信息的主要途徑之一,以自然語言表述的文本信息存在于教學(xué)活動(dòng)的各個(gè)環(huán)節(jié)之中。觀點(diǎn)挖掘和情感分析是分析用戶觀點(diǎn)、反饋、評(píng)估、態(tài)度和個(gè)人情感的研究領(lǐng)域。過去的15 年里,作為情感計(jì)算和自然語言處理的子任務(wù),關(guān)于主觀性和情感分析的研究已經(jīng)取得了蓬勃的發(fā)展[1]。情感分析在通常情況下不會(huì)單獨(dú)使用,其結(jié)果會(huì)作為更高層次應(yīng)用的一項(xiàng)特征輸入。情感分析技術(shù)的作用是檢測文本表達(dá)出的情感狀態(tài)。這些狀態(tài)序列可以通過模式識(shí)別的方式提取出情感變化特征,作為預(yù)測用戶情感狀態(tài)的依據(jù)。通過對(duì)課程反饋文本信息進(jìn)行情感分析,可得到學(xué)生對(duì)當(dāng)前課程有效的情感反饋,并以此為依據(jù),實(shí)時(shí)調(diào)整教學(xué)方案、優(yōu)化教學(xué)方法,實(shí)現(xiàn)更為精準(zhǔn)化和個(gè)性化的教學(xué)。
情感指的是一種態(tài)度、想法或感性的判斷,用來描述觀點(diǎn)中蘊(yùn)含的褒義或貶義的情感傾向。情感和觀點(diǎn)都是人主觀意愿的一種表達(dá),但二者之間存在明顯的區(qū)別,觀點(diǎn)偏重于人對(duì)于某一個(gè)事物形成的具體看法,情感更側(cè)重于人內(nèi)在的某種情感[2]。
教育數(shù)據(jù)挖掘(Educational Data Mining)是一個(gè)重要的研究領(lǐng)域,通過觀察學(xué)生的表現(xiàn),了解學(xué)生的學(xué)習(xí)情況來改善教育環(huán)境。但是僅僅通過學(xué)期末獲得的學(xué)生成績等反饋數(shù)據(jù),不能給已經(jīng)參加完該課程學(xué)習(xí)任務(wù)的學(xué)生帶來幫助。為了使正在學(xué)習(xí)中的學(xué)生同樣受益,需要實(shí)時(shí)進(jìn)行數(shù)據(jù)處理與分析,并快速給出反饋,幫助教師理解學(xué)生的學(xué)習(xí)行為和所遇到的不同問題。
教育領(lǐng)域反饋文本情感分析是一個(gè)致力于從反饋文本中提取情緒和觀點(diǎn)的任務(wù)。情感可以是消極的或者積極的,不同的情感對(duì)應(yīng)于不同的意見和建議。無論是在線下還是線上課堂,教師都可以通過對(duì)反饋文本的情感分析對(duì)課堂中的情緒狀態(tài)獲得快速的宏觀了解。這些情緒信息可以輔助教師定位到課程安排、知識(shí)體系、教學(xué)方法等方面上的問題,進(jìn)而改善教學(xué)質(zhì)量、提高學(xué)生學(xué)習(xí)效率。將情感分析技術(shù)應(yīng)用于學(xué)生課程反饋?zhàn)詣?dòng)化分析,在緩解教師工作壓力的同時(shí),還可有效提高教學(xué)質(zhì)量。
近年來,機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))方法逐漸成熟。此類方法通過對(duì)文檔進(jìn)行監(jiān)督訓(xùn)練可以得到能夠有效預(yù)測文檔情感極性的神經(jīng)網(wǎng)絡(luò);使用端到端訓(xùn)練方式可以快速利用大量的文本數(shù)據(jù)而不依賴人工分析;預(yù)訓(xùn)練深度語言模型的興起使得所有自然語言處理任務(wù)都有了強(qiáng)大的語言表示模型基礎(chǔ),便于構(gòu)建具體的應(yīng)用模型并快速投入到實(shí)際應(yīng)用中。
Piryani 等人對(duì)情感分析技術(shù)的綜述文獻(xiàn)中有統(tǒng)計(jì)表明,機(jī)器學(xué)習(xí)方法在當(dāng)前情感分析研究中占主導(dǎo)地位,約67.2%的文獻(xiàn)采用了機(jī)器學(xué)習(xí)方法進(jìn)行研究,其余的才是基于規(guī)則與情感詞典的方法。然而教育領(lǐng)域的情況正相反,后者仍然廣泛地應(yīng)用于教育領(lǐng)域研究中,并且占據(jù)了主導(dǎo)地位[3]??紤]到深度學(xué)習(xí)方法有數(shù)據(jù)依賴強(qiáng)、模型規(guī)模大、可解釋性差等先天缺點(diǎn),結(jié)合傳統(tǒng)方法與深度學(xué)習(xí)方法可以使兩者更好地互補(bǔ)、發(fā)揮優(yōu)勢。
大規(guī)模開放式在線課程(MOOC)是線上教育的產(chǎn)物,是教育領(lǐng)域中的一個(gè)相對(duì)較新的發(fā)展模式。雖然與傳統(tǒng)教室相比,在線課程具有各種獨(dú)特的優(yōu)勢和改變教育系統(tǒng)未來的潛力。但是,MOOC 教育模式仍然存在明顯短板[4],從教學(xué)的角度來看,大多數(shù)MOOC 使用視頻實(shí)現(xiàn)從教師到學(xué)生的內(nèi)容傳遞,缺少教師與學(xué)生之間的直接互動(dòng),導(dǎo)致教師缺少視覺或聽覺上的提示來區(qū)分沮喪與熱情的學(xué)生。
大多數(shù)MOOC 提供課程論壇作為交流和學(xué)習(xí)的工具,發(fā)表與回復(fù)課程評(píng)論是學(xué)生與授課教師或其他學(xué)生互動(dòng)的主要途徑。其中,課程評(píng)論是最典型的反饋文本形式。MOOC 的產(chǎn)生帶動(dòng)了大量課程和課程評(píng)論的產(chǎn)生,這些評(píng)論都是學(xué)生抒發(fā)自身情感和表達(dá)觀點(diǎn)的載體。Tucker 等人發(fā)現(xiàn),學(xué)生在論壇發(fā)言表現(xiàn)的情感傾向與其在MOOC 平臺(tái)的學(xué)習(xí)表現(xiàn)有一定程度的正相關(guān)性[5]。由于可以獲得大量的課程評(píng)論數(shù)據(jù),針對(duì)MOOC 的數(shù)據(jù)挖掘及情感分析技術(shù)應(yīng)用相對(duì)更為成熟,傳統(tǒng)的樸素貝葉斯、最大熵和支持向量機(jī)等技術(shù)都已被證明可以很好地與在線情感數(shù)據(jù)配合使用,也獲得了不錯(cuò)的效果。MOOC 平臺(tái)使用情感分析技術(shù),能夠基于學(xué)生用戶對(duì)課程的情感傾向判別,快速且準(zhǔn)確地從海量評(píng)論文本中篩選出價(jià)值較高的反饋信息,進(jìn)而實(shí)現(xiàn)用戶退課預(yù)警、個(gè)性化課程推薦等。教師則可以根據(jù)學(xué)生的反饋動(dòng)態(tài)調(diào)整教學(xué)安排,以滿足學(xué)生的個(gè)性化學(xué)習(xí)需求。
從中國大學(xué)MOOC 收集11 個(gè)課程大類、1 768 門課程的評(píng)論數(shù)據(jù)并進(jìn)行一定的人工標(biāo)注,構(gòu)建了一個(gè)量化的中文教育領(lǐng)域情感極性數(shù)據(jù)集,在此基礎(chǔ)上展開學(xué)生反饋文本情感分析研究。被評(píng)論課程所屬的具體領(lǐng)域見表1。由于語料所處的大領(lǐng)域與細(xì)分領(lǐng)域均會(huì)對(duì)情感分類中運(yùn)用的自然語言處理工具產(chǎn)生影響,本文在數(shù)據(jù)集中融合了多種領(lǐng)域的文本,嘗試在跨細(xì)分領(lǐng)域的數(shù)據(jù)集上驗(yàn)證模型的情感分類效果。
數(shù)據(jù)集中的每一個(gè)評(píng)論會(huì)有一個(gè)用戶給出的1~5 分的打分,其中5 分樣本占據(jù)了總評(píng)論數(shù)據(jù)的84%,3 分及以下評(píng)分樣本的數(shù)量僅占據(jù)總評(píng)論數(shù)據(jù)的3.8%。為了避免這種不平衡數(shù)據(jù)導(dǎo)致的模型偏見,從完整數(shù)據(jù)集構(gòu)建相對(duì)平衡的子集用于模型的構(gòu)建與訓(xùn)練,具體方法如下:從用戶打分為5 分的樣本中提取了15 000 條評(píng)論作為正樣本(積極情感)數(shù)據(jù),并對(duì)用戶打分為1~3分的6 731 條評(píng)論進(jìn)行人工標(biāo)注,最終篩選出負(fù)樣本(消極情感)評(píng)論4 148 條,與正樣本中的15 000 條數(shù)據(jù)共同構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集(見表2)。
表1 MOOC 實(shí)驗(yàn)數(shù)據(jù)集評(píng)論領(lǐng)域及評(píng)分分布
表2 MOOC 評(píng)論文本統(tǒng)計(jì)信息
從表2 中可以看出,評(píng)論負(fù)樣本的平均句長、中位數(shù)樣本句長與99%分位樣本句長都相比正樣本長一些,說明負(fù)樣本中潛在的語義信息更豐富,也更有可能包含對(duì)于課程改進(jìn)有價(jià)值的評(píng)價(jià)與觀點(diǎn)。由于MOOC 平臺(tái)的限制,評(píng)論的最大長度均為500 個(gè)字符,因此樣本最大長度均為500。圖 1 所示為數(shù)據(jù)集中不同分位的文本平均長度折線圖。
圖1 數(shù)據(jù)集中不同分位的文本平均長度
B E RT(Bidirectional Encoder Representation from Transformers)是由Google Brain提出的一種預(yù)訓(xùn)練深層語言模型,訓(xùn)練自BooksCorpus 與Wikipedia 語料,共計(jì)約320 億詞的文本。其架構(gòu)為多層編碼器堆疊而成的棧式結(jié)構(gòu),每一個(gè)編碼器都由自注意力層、全連接層與殘差連接組成。BERT 模型性能提高的代價(jià)是愈發(fā)復(fù)雜的模型結(jié)構(gòu)和陡增的參數(shù)數(shù)量,由此進(jìn)一步導(dǎo)致了訓(xùn)練、預(yù)測時(shí)間成本的增長。此外,深層語言模型生成的詞向量可能無法進(jìn)一步和下游網(wǎng)絡(luò)進(jìn)行良好的協(xié)同工作。
與其他領(lǐng)域公開數(shù)據(jù)集不同,MOOC 評(píng)論文本以短文本為主。此類短文本分類是一種典型的分類特征抽取任務(wù),更適合使用簡單模型進(jìn)行特征抽取。因此本文提出并訓(xùn)練得到一種基于注意力池化機(jī)制的裁切BERT 與卷積神經(jīng)網(wǎng)絡(luò)情感分析模型[6],嘗試將淺層BERT 詞向量與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,并在卷積操作后、池化操作前引入自注意力模塊,使得該模型結(jié)構(gòu)在MOOC 評(píng)論的情感分類任務(wù)上可以達(dá)到基礎(chǔ)BERT 模型的效果,但模型大小與性能消耗可以大大降低,整體模型工作原理如圖2 所示。實(shí)驗(yàn)結(jié)果表明,本方法在中國大學(xué)MOOC 評(píng)論文本數(shù)據(jù)集上,情感二分類(積極、消極)準(zhǔn)確率可達(dá)92.8%。
圖2 基于注意力池化機(jī)制的裁切BERT 與卷積神經(jīng)網(wǎng)絡(luò)情感分析模型
在線下課程教學(xué)中,同樣可以通過情感分析技術(shù)實(shí)現(xiàn)學(xué)生情感自動(dòng)化分析,及時(shí)發(fā)現(xiàn)學(xué)生情感波動(dòng),適時(shí)調(diào)整課程的教學(xué)模式與方法,以進(jìn)一步提高教學(xué)質(zhì)量。計(jì)算機(jī)導(dǎo)論與倫理學(xué)是北京航空航天大學(xué)開設(shè)的面向計(jì)算機(jī)專業(yè)的新生專業(yè)先導(dǎo)課程,于2008 年獲評(píng)國家級(jí)精品課。本文通過調(diào)查問卷的方式收集了2 078 條來自選課學(xué)生的課堂反饋數(shù)據(jù),并對(duì)正負(fù)樣本(積極/消極情感)進(jìn)行了人工標(biāo)注作為線下測試數(shù)據(jù)集(統(tǒng)計(jì)信息見表3),嘗試將本文提出的MOOC 評(píng)論文本情感分析方法應(yīng)用到計(jì)算機(jī)導(dǎo)論與倫理學(xué)線下教育應(yīng)用中。
表3 線下課程課堂反饋文本統(tǒng)計(jì)信息
從文本長度上看,課堂反饋文本同MOOC評(píng)論同屬于短文本。與MOOC 評(píng)論相比,由于課堂反饋問卷更為正式,因此課堂反饋中的文本長度相對(duì)較長。不同于MOOC 數(shù)據(jù)集中負(fù)樣本平均長度較長,本課程評(píng)論數(shù)據(jù)集文本平均長度為31,中位數(shù)文本長度均為24,99%分位長度為129,正負(fù)樣本間的文本長度沒有體現(xiàn)出明顯的差異,這表明正負(fù)樣本沒有過大的信息量差異,但正樣本中的一個(gè)極長的反饋文本,使得正樣本最大長度遠(yuǎn)大于負(fù)樣本最大長度。此外,線上數(shù)據(jù)存在大量的無意義單字,而課堂反饋數(shù)據(jù)不存在該情況。
將通過中國大學(xué)MOOC 評(píng)論數(shù)據(jù)集訓(xùn)練得到的情感分析模型應(yīng)用于對(duì)線下課堂反饋文本的情感分析中,具體實(shí)驗(yàn)結(jié)果見表4。
表4 裁切復(fù)合模型在課堂反饋數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可以看出,該模型在課堂反饋數(shù)據(jù)集上精確率達(dá)到84.8%,表明通過MOOC 評(píng)論數(shù)據(jù)訓(xùn)練得到的情感分析模型對(duì)于課堂反饋文本也具有較好的情感分類能力,但由于該數(shù)據(jù)集中同樣存在正負(fù)樣本不平衡的現(xiàn)象,導(dǎo)致模型存在偏見,使模型對(duì)正負(fù)樣本的區(qū)分體現(xiàn)出一定的差別。因此,模型在對(duì)正負(fù)樣本的區(qū)分上仍然體現(xiàn)出了與在MOOC 評(píng)論數(shù)據(jù)集上相似的現(xiàn)象,即對(duì)正樣本分類性能(90.5%)較對(duì)負(fù)樣本(72.7%)分類性能更優(yōu)。不同于MOOC 數(shù)據(jù)負(fù)樣本含有較正樣本更多的信息量,線下數(shù)據(jù)中的正負(fù)樣本間沒有明顯的信息量差異,這也會(huì)對(duì)分類預(yù)測產(chǎn)生一定的影響。
在線下課堂教學(xué)中,受制于一對(duì)多的教授方式,教師無法及時(shí)了解每名同學(xué)的情緒狀態(tài)。以開展教學(xué)改革研究的計(jì)算機(jī)導(dǎo)論與倫理學(xué)課程為例,每年的選課學(xué)生在300~400 人之間,讓教師僅僅通過課堂上的互動(dòng),很難照顧到所有的選課學(xué)生。應(yīng)用自動(dòng)化分析手段后,教師可以通過對(duì)學(xué)生反饋文本的情感分析,快速獲得學(xué)生的情緒狀態(tài),實(shí)現(xiàn)對(duì)課程安排、知識(shí)體系、教學(xué)方法等方面的針對(duì)性調(diào)整,進(jìn)而改善教學(xué)質(zhì)量、提高學(xué)生學(xué)習(xí)效率。另一方面,將相關(guān)方法集成到課程互動(dòng)平臺(tái)中,亦可根據(jù)分類預(yù)測的結(jié)果,實(shí)現(xiàn)對(duì)學(xué)生評(píng)論的個(gè)性化反饋和學(xué)習(xí)內(nèi)容推薦。
使用MOOC 評(píng)論文本作為訓(xùn)練集,對(duì)線下課程課堂反饋文本情感分析進(jìn)行嘗試,雖然存在模型偏見現(xiàn)象,模型仍能將線上MOOC 環(huán)境學(xué)習(xí)到的分類特征很好地應(yīng)用至線下課堂反饋文本上,這表明線上MOOC 環(huán)境和線下課堂環(huán)境的語義信息、語言情感特征是相似的,語言模型及其連接的神經(jīng)網(wǎng)絡(luò)均可以有效地在線上、線下環(huán)境應(yīng)用之間遷移。本文的主要工作目前集中于對(duì)反饋文本的語句級(jí)情感分析,下一步將繼續(xù)開展屬性級(jí)情感分析(即觀點(diǎn)挖掘)方面的研究和應(yīng)用工作。