張捷 陳付龍 張佩云
摘要:高校課程教學(xué)的評價主體是學(xué)生,以學(xué)生學(xué)習(xí)為中心的教學(xué)評價模式已被眾多的機構(gòu)與研究者所認可。從提升學(xué)習(xí)效果出發(fā),學(xué)生對教師課堂教學(xué)活動進行事實性評價是被普遍接受的方法,但目前的研究多集中在如何更科學(xué)合理的設(shè)計評價細則和指標,以供學(xué)生進行評教打分。本文從學(xué)生對教學(xué)活動的直接感受出發(fā),認為來自學(xué)生的感性評論也蘊含十分有價值的信息。通過引入基于機器學(xué)習(xí)的情感分析方法,將文字評論進行情感傾向分類,提供給教師和管理者更多的信息反饋和分析手段,是對現(xiàn)有教學(xué)評價系統(tǒng)功能進行改進的有益探索。
關(guān)鍵詞:教學(xué)評價;教學(xué)管理;教學(xué)質(zhì)量;情感分析;機器學(xué)習(xí)
中圖分類號:G40-058.1 文獻標識碼:A 文章編號:1009-3044(2019)04-0184-05
Abstract: The evaluation subject of curriculum teaching in colleges and universities is students. The student-centered teaching evaluation model has been recognized by many institutions and researchers. In order to improve the learning effect, it is generally accepted that students make factual evaluation of teachers' teaching activities. However, most of the current research focuses on how to design more scientific and reasonable evaluation rules and indicators for students to evaluate teaching. This article starts from the students' direct feelings about teaching activities, believes that the emotional comments from students also contain very valuable information. By introducing the method of affective analysis based on machine learning, the text comments are classified into emotional tendencies, and more information feedback and analysis methods are provided to teachers and managers. This is a useful exploration for improving the functions of the existing teaching evaluation system.
Key words: Teaching evaluation; Teaching management; Teaching quality; Sentiment analysis; Machine learning
來自教學(xué)活動直接受眾學(xué)生的反饋評價是高校教學(xué)質(zhì)量評價體系中不可缺少的一環(huán)。教學(xué)評價的目的在于反饋和交流,如何更好地分析學(xué)生對教師課堂教學(xué)的反饋,可以從大量評論性質(zhì)的文本語料中入手。而目前深度學(xué)習(xí)算法在文本情感分析方面展現(xiàn)出優(yōu)異性能,可將其移植到教學(xué)評價系統(tǒng)中,通過收集學(xué)生大量的直接評論來分析學(xué)生情感傾向,這將輔助教師更全面地認識課堂教學(xué)質(zhì)量,并提升相關(guān)教學(xué)管理的智能化水平。
1 學(xué)生情感分析在課程教學(xué)評價中的作用
在高校教學(xué)評價和質(zhì)量評估體系中,來自學(xué)生受眾群體對教師課堂教學(xué)包括實驗實訓(xùn)教學(xué)的直接反饋評價是非常重要的一環(huán)。通過充分運用心理學(xué)、統(tǒng)計學(xué)方法以及現(xiàn)代信息技術(shù)手段,在準確有效地收集學(xué)生反饋信息的基礎(chǔ)上加以分析,可使學(xué)校管理部門和教師對教學(xué)工作有一個清楚的認識,從而找到不足并改進工作方式方法,這對教學(xué)質(zhì)量的保障有著非常重要的意義[1][2]。國外早就認識到大學(xué)課程教學(xué)質(zhì)量的評價主體是學(xué)生,包括面向?qū)W生設(shè)置多樣化的評價指標體系,設(shè)立專門聯(lián)系學(xué)生與教師群體的“教與學(xué)技術(shù)委員會”等,其主旨在激勵和引導(dǎo)教師將傳統(tǒng)的教授模式向更加注重交流、探究和創(chuàng)新的模式轉(zhuǎn)變,從而更全面的提高人才培養(yǎng)質(zhì)量[3][4]。
近年來,國內(nèi)對大學(xué)課堂教學(xué)質(zhì)量及教學(xué)評價現(xiàn)狀的研究表明,應(yīng)當(dāng)充分認識到學(xué)生作為評價主體在大學(xué)課程教學(xué)質(zhì)量體系中的作用。吳艷[5]等通過對十所高校開展實證調(diào)查研究,發(fā)現(xiàn)不同年級不同特征的學(xué)生在評價教師的教學(xué)目標、教學(xué)方法、課堂管理等指標上具有顯著差異,認為課程教學(xué)是一種復(fù)雜性的雙向交互活動,其本身因評價主體的不同展現(xiàn)高度的不確定性。 俞佳君[6]認為我國高教改革已經(jīng)進入內(nèi)涵式發(fā)展階段,教學(xué)評價面臨從“教”到“學(xué)”的范式轉(zhuǎn)型,強調(diào)了從學(xué)生學(xué)習(xí)角度出發(fā)對教學(xué)活動進行價值判斷的重要性。周湘林[7]進一步指出學(xué)生對教學(xué)活動的直接評價是更實質(zhì)更真實的評價,而結(jié)合教法、學(xué)法及效用等多方面的標準才能對教師教學(xué)質(zhì)量做出較為中肯、全面的評價。
在教學(xué)評價的方法上,學(xué)生參與評教并結(jié)合科學(xué)的評價指標體系已成為共識[2][3][8][9][10],并且隨著網(wǎng)絡(luò)化技術(shù)的普及,目前多數(shù)高校均已正常實施。我們也注意到最近涌現(xiàn)出的新觀點。例如郭麗君[10]認為學(xué)生評價行為與教師的教學(xué)活動和教學(xué)效果之間可通過內(nèi)在的調(diào)控機制建立起聯(lián)系,而這一聯(lián)系應(yīng)當(dāng)是流動與循環(huán)的,即需反映教學(xué)活動與教學(xué)質(zhì)量評價之間的聯(lián)動性。王朋[11]通過研究美國大學(xué)教學(xué)評價的演變,分析了“以學(xué)生為中心”、“以教師為中心”和“以學(xué)習(xí)為中心”三種評價方式的目的與核心內(nèi)涵,并指出“以學(xué)習(xí)為中心”方式成為當(dāng)今美國大學(xué)的教學(xué)評價主流。
“以學(xué)習(xí)為中心”的教學(xué)評價方式強調(diào)教師的教學(xué)效果與學(xué)生的學(xué)習(xí)效果,二者構(gòu)成了教學(xué)活動的兩級,是既對立又統(tǒng)一的。我們認為結(jié)合教與學(xué)兩面的效用評價才是理想的評價方式,但因為效果往往附著于學(xué)生自身的素質(zhì)和能力,包括畢業(yè)就業(yè)及發(fā)展前景等因素,操作上存有滯后性和需多元協(xié)同等困難。從利于操作的事實評價入手不失為可行的方式。以學(xué)生為主體的教學(xué)效果事實評價具有多種形式,除了傳統(tǒng)的學(xué)生評教和成績測評以外,我們認為還應(yīng)當(dāng)重視教學(xué)過程中學(xué)生對教師教學(xué)的反饋,實質(zhì)上是強調(diào)單向教學(xué)范式向互動教學(xué)范式的轉(zhuǎn)變。以提高學(xué)習(xí)效果為目的,利用學(xué)生評價主體的能動性反饋課程教學(xué)活動,促進教師提升教法和教學(xué)效果,從而在“教”與“學(xué)”之間形成反饋環(huán),這是本文的出發(fā)點。
教學(xué)評價的本質(zhì)屬性是工具性,即改進—證明功能,學(xué)生評教的結(jié)果應(yīng)能證明教學(xué)成效和促進教師改進教法,這是教學(xué)評價得以進行的預(yù)設(shè)性前提[12]。而其中,學(xué)生對教師的教學(xué)僅以分數(shù)來評價往往過于片面。Carrell與West[13]的研究表明,學(xué)生評教分數(shù)與學(xué)習(xí)之間僅存有非常低的相關(guān)性,甚至不存在關(guān)系。獲得較高評教分數(shù)的教師往往過于關(guān)注學(xué)生的短期學(xué)習(xí)成績,并存在應(yīng)試教育或取悅學(xué)生的嫌疑;給出較高評教分數(shù)的學(xué)生往往更在意成績而非知識和技能本身,多數(shù)處于淺層學(xué)習(xí)階段[13]。學(xué)生評教分數(shù)僅可作為“消費者滿意度指數(shù)”,并不能充分證明教學(xué)的有效性,因為該數(shù)字極大地受到學(xué)生對教學(xué)認知的水平及教師外貌、興趣等其他因素的影響[14]。
評教分數(shù)本身的固有屬性是抽象性和單一性,其蘊含信息量十分有限。一種觀點認為,設(shè)計出更科學(xué)更合理的教師教學(xué)評價表,通過評價條目的完善可以改進對教學(xué)的診斷甚至建構(gòu)一致性的評價指標體系[7]。我們認為在此基礎(chǔ)上,還需增加對學(xué)生的情感分析。歸根結(jié)底,學(xué)生作為教學(xué)服務(wù)的受眾群體,其評價內(nèi)容具有更實質(zhì)更接近真實情況的特點。一方面,學(xué)生群體的因為對教學(xué)評價指標體系本身的認知達不到很高的理論層次,其測評行為易于流于形式;另一方面學(xué)生如果脫離了表格的約束,其通過語言文字直接表達出來的觀點往往卻是真摯的、富有情感的。這是通過評教分數(shù)無法獲取的重要信息,其價值在于學(xué)生群體作為人的屬性變得豐滿,而人的情緒、情感等相對更主觀的因素卻可能對學(xué)習(xí)效果帶來巨大的影響。
筆者所在的單位學(xué)生評教除了依據(jù)評價表格打分以外,還要求學(xué)生對老師的課程教學(xué)直接給出評論,以短文形式提交。事實上,除了期中與期末的集中評教軟件系統(tǒng),也要求教師關(guān)注其所講授課程的校內(nèi)論壇網(wǎng)站,其上也有學(xué)生對該課程教學(xué)實時表達的觀點。這些評論短文除了技術(shù)性問題討論之外,都或多或少蘊含了某個學(xué)生在特定階段的情感特征,如果能夠運用一定的技術(shù)方法,將這些蘊含在文字內(nèi)的大量情感信息加以分析并總結(jié),對教師的教學(xué)方法、教學(xué)內(nèi)容乃至溝通技巧的調(diào)整和改進十分有益。情感分析可作為教學(xué)評價系統(tǒng)的附加功能,輔助教師對學(xué)生產(chǎn)生更具體更全面的認識,做到有的放矢,從而幫助學(xué)生獲得更高的學(xué)習(xí)質(zhì)量,這是本文的立足點。
從大量評論性質(zhì)的文本語料中抽離出有用的信息,進行情感傾向分析屬于機器學(xué)習(xí)的范疇,它最早開始于監(jiān)督學(xué)習(xí)。傳統(tǒng)的監(jiān)督學(xué)習(xí)在早期曾取得十分好的效果,如Pang[15]等對電影評論的情感分析。Zhang[16]等比較了幾種監(jiān)督學(xué)習(xí)算法,得出基于特征的N元模型(N-Gram)輸入到支持向量機(SVM)中分析效果最好。但基于監(jiān)督學(xué)習(xí)的解決方案的缺點也十分明顯,包括語料庫依靠人工標注、需要基于規(guī)范文本的分析等,面對互聯(lián)網(wǎng)海量不規(guī)范文本數(shù)據(jù)時有很大局限。另一方面,基于無監(jiān)督學(xué)習(xí)的情感分析方法也開始出現(xiàn)。Turney[17]于2002年率先提出一種基于種子詞的無監(jiān)督學(xué)習(xí)方法,通過計算文本中詞語與種子詞中積極情感詞和消極情感詞的點互信息來判斷文本的情感極性。之后Singh[18]等根據(jù)情感強度為詞賦予不同情感值,并且考慮了否定詞、副詞等對情感極性的影響。國內(nèi)趙妍妍[19]等將文本情感分析歸納為情感信息抽取、分類和檢索歸納三項主要任務(wù)。孫艷[20]等提出了基于無監(jiān)督學(xué)習(xí)的主題情感混合模型,通過對句子和詞的情感標簽采樣,得到每個主題的情感詞,從而對文本進行情感分類。
2006年Hinton[21]通過利用單層的RBM自編碼預(yù)訓(xùn)練使得深層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練變得可能,這項研究把神經(jīng)網(wǎng)絡(luò)又推回到大家視線中。之后深度神經(jīng)網(wǎng)絡(luò)開始在各種識別、預(yù)測及分類問題中取得優(yōu)異的成績,成為目前最受關(guān)注的機器學(xué)習(xí)算法。期間谷歌于2013年推出word2vec工具[22]用于將文本語料轉(zhuǎn)化為詞向量,在此基礎(chǔ)上國內(nèi)開始出現(xiàn)利用深度學(xué)習(xí)算法對微博進行情感分析的研究[23]。而Kim[24]基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的情感分析研究進一步提高了準確率,但其模型對于中文的分析常出現(xiàn)因為不能充分表達復(fù)雜微妙的深層語境而無法抽取特征的困境。針對此國內(nèi)近來的中文情感分析研究愈發(fā)強調(diào)word2vec工具的重要性,即通過計算語義相似度、建立情感詞典、多特征聚類融合等word2vec功能預(yù)處理文本語料數(shù)據(jù),從而有效提高深度學(xué)習(xí)算法的性能[25][26]。本文將采用目前最主流的機器學(xué)習(xí)算法和工具處理學(xué)生對教師教學(xué)的評價短文情感分類問題。
2 情感分析方法的具體實施
受輸入數(shù)據(jù)的格式規(guī)范所限,傳統(tǒng)機器學(xué)習(xí)情感分析算法在面對未經(jīng)處理的大量文本語料例如互聯(lián)網(wǎng)評論時,往往很難發(fā)掘深層的語義信息,對發(fā)言者情感傾向分類的準確率較低。深度學(xué)習(xí)屬于機器學(xué)習(xí)領(lǐng)域近來最為熱門的研究方向,其在解決眾多實際問題中的性能表現(xiàn)使得人們相信機器學(xué)習(xí)或者說人工智能的未來在于此。
深度學(xué)習(xí)通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行分析以有效提取相關(guān)特征,是目前比較主流的用于解決情感分析問題的方法。本文側(cè)重于使用卷積神經(jīng)網(wǎng)絡(luò)(下稱CNN)建立學(xué)習(xí)模型,解決在網(wǎng)絡(luò)中學(xué)生對教師教學(xué)評論語料的情感分類問題,下面給出基本方法及實驗流程。
2.1 輸入數(shù)據(jù)處理與模型訓(xùn)練
輸入到CNN中的數(shù)據(jù)呈二維矩陣形式,故需將學(xué)生評論語料進行預(yù)處理。本文主要使用的工具為上文提及的word2vec,它亦是目前主流的文本預(yù)處理工具。因為語言文字本身的數(shù)據(jù)特性,需要word2vec將每個詞轉(zhuǎn)化為詞特征向量,并將每一句中的所有詞的詞向量組成二維矩陣,作為CNN模型的輸入。假設(shè)一個句子中每個詞對應(yīng)的向量長度都為k,一段評論短文中句子最多包含n個詞,則輸入矩陣維度為k×n。注意長度不夠的句子需補充k維0向量,直至矩陣滿足CNN模型處理的要求。圖1反映了使用工具將文本句子轉(zhuǎn)化為數(shù)字矩陣的過程。
為了解決訓(xùn)練時存在過度擬合的問題,提高訓(xùn)練后模型的泛化能力,本文一方面通過在損失函數(shù)中增加L2正則化項進行參數(shù)約束,另一方面在全連接層還使用了dropouts策略。dropouts是一種抑制過度擬合的技巧,通過隨機將一些激活值設(shè)置為0從而相對減少過擬合。dropouts層位于softmax輸出層之前的隱藏單元,限于篇幅,這里不再詳述。
2.2 實驗流程設(shè)計
本文的實驗流程設(shè)計如圖2所示。總體上可分為訓(xùn)練部分與測試部分,二者均需通過由文本預(yù)處理至CNN模型處理的諸多環(huán)節(jié)。其中文本預(yù)處理環(huán)節(jié)主要使用word2vec轉(zhuǎn)化詞向量,形成詞向量矩陣提供給基于CNN的情感分類器進行訓(xùn)練。訓(xùn)練數(shù)據(jù)的處理及模型的構(gòu)建將在本節(jié)介紹,而測試數(shù)據(jù)部分在下一節(jié)。
訓(xùn)練集基于第六屆中文傾向性分析評測(COAE2014)語料庫,它由中國中文信息學(xué)會信息檢索專業(yè)委員會向高校、科研機構(gòu)及社會征集而來,目的是建立并完善中文傾向性分析研究的基礎(chǔ)數(shù)據(jù)集和評測標準。COAE2014的數(shù)據(jù)任務(wù)5情感極性判斷所提供的語料涵蓋關(guān)于科技、食品、安全等領(lǐng)域,其中已人工標注好5000條數(shù)據(jù)可用于情感分類器的訓(xùn)練和交叉驗證。使用該語料庫可以保證獲得足夠的且便于驗證的網(wǎng)絡(luò)短文本,省卻了人工對詞語進行的情感極性標注。
文本預(yù)處理的第一步是要對語料進行及去停用詞處理,一般來說即對對語料集中的雜亂的標簽和特殊符號等無意義信息進行去噪處理,使用到flashtext方法。然后進行分詞與詞性標注,使用到thulac方法。表1舉例說明了上述各步驟中間結(jié)果。
預(yù)處理后我們得到了分好的詞語以及標注好的詞性,接下來需將詞語訓(xùn)練轉(zhuǎn)化為詞向量,使用的工具為word2vec。word2vec有一系列的訓(xùn)練參數(shù)且具有特定含義,可以比較好地對評價評論類語料分詞進行轉(zhuǎn)化。轉(zhuǎn)化后的向量集合作為CNN模型的輸入數(shù)據(jù)。
我們使用TensorFlow1.4構(gòu)建CNN模型,TensorFlow是目前主流的開源機器學(xué)習(xí)框架[27]。針對本文所要解決的問題類型,在CNN中考慮文本的上下文信息,若卷積窗口的大小設(shè)置為m,文本長度為n,則特征圖的長度自然為n+1-m。這里將窗口的大小設(shè)置為5,考慮到計算的時間長短以及準確性高低,過濾器數(shù)量經(jīng)過對比設(shè)置為100,根據(jù)數(shù)據(jù)估摸本文將batch設(shè)置為50,dropouts設(shè)置為0.1,迭代次數(shù)足夠即可我們設(shè)置為10。創(chuàng)建權(quán)重和偏置,定義可重復(fù)使用的初始化函數(shù)。截斷的正態(tài)分布噪聲設(shè)置為0.1,標準差設(shè)為0.1。為了使用線性整流函數(shù)(ReLU)激活,給偏置增加小正值以規(guī)避死亡節(jié)點。圖3與圖4反映了在TensorFlow1.4框架下載入數(shù)據(jù)集與初始化的情形。
緊接著對兩個卷積層進行創(chuàng)建,使用寫好的函數(shù)進行對偏置和權(quán)值參數(shù)分別初始化。對經(jīng)過兩次池化操作的矩陣進行變形,然后連接到一個全連接層。為了減輕過擬合,下面使用一個dropouts層。在訓(xùn)練時,我們隨機丟棄一部分節(jié)點的數(shù)據(jù)來減輕過擬合。最后我們將dropouts層的輸出連接一個softmax層,得到最終概率輸出。
在CNN模型創(chuàng)建好后開始訓(xùn)練過程:首先初始化所有參數(shù),設(shè)置訓(xùn)練時dropouts的keep_prob比率為0.5;然后使用大小為50的mini-batch,共進行10次訓(xùn)練迭代;為了實時監(jiān)測模型的性能,keep_prob設(shè)為1用以對準確率定期進行一次評測。圖6展示了上述訓(xùn)練過程的設(shè)置。
3 在教學(xué)評價系統(tǒng)上的測試結(jié)果
本文的測試數(shù)據(jù)采集自作者所在單位面向?qū)W生的教學(xué)評價軟件系統(tǒng),該軟件系統(tǒng)運行于校園網(wǎng)內(nèi),學(xué)生可在任何地點登錄網(wǎng)頁進行評論。測試集由本院2016-2017學(xué)年度四個年級、三個專業(yè)的共約1000名學(xué)生對30位老師課堂教學(xué)的評價語料組成。在此測試集上,除了使用工具進行必要的文本預(yù)處理及詞向量轉(zhuǎn)化外,我們還進行了最優(yōu)向量維度的選擇實驗。
向量維度對于模型復(fù)雜度的影響效果是顯著的,向量維度在增加的時候,整個模型的復(fù)雜度會成倍增加,本文將對比50維度,100維度,150維度,200維度幾種不同維度的二維詞向量矩陣,采用十折交叉法得到,即將樣本分成10等份并分別進行兩組實驗,最終結(jié)果取10次實驗結(jié)果的平均值。
如圖7所示,根據(jù)訓(xùn)練詞向量在50維度,100維度、150維度和200維度的準確率比較,認為維度最優(yōu)值是100。在此基礎(chǔ)上,我們對30位教師約40門專業(yè)課程進行了學(xué)生評價短文的情感傾向分析。我們將結(jié)果展現(xiàn)到每位相關(guān)教師的個人頁面,根據(jù)單個情感傾向分類結(jié)果統(tǒng)計為整體學(xué)生情感傾向。為了給教師比較好的觀感,該結(jié)論將間接地以詞云圖顏色表示。例如較為正面的顯示為紅色,顏色越深說明學(xué)生的評價越高;隨著顏色變淡直至灰色,說明總體評價不高。圖8為直接在TensorFlow1.4框架下對應(yīng)一位教師一門課程生成的詞云圖,可以看出該教師在這門課程中得到了偏向正面的評價。同時詞云圖中各個詞的詞頻也易于觀察,教師可從中得到學(xué)生對其教學(xué)活動的直接反饋信息。
在測試集上,為了驗證本文情感分析方法的性能,我們使用標準的情感分類評級方法標注了每條數(shù)據(jù)(評價短文)的極性。同時也輔以學(xué)生最終的評教分數(shù)作為驗證(按大于95分:優(yōu),85至95:良,75至85:一般,小于75其他計,并認為優(yōu)與良是正面評價,其余則相反)。隨后我們做了與其他模型的對比實驗。在詞向量的維數(shù)默認為100的前提下,本文選擇了如下這些模型或方法:
l SVM(支持向量機):選取PLSA作為情感特征,使用TF-IDF計算特征值,并利用libSVM工具進行分類工作;
l SVM+詞性:增加詞性特征,去掉部分無用的虛詞;
l RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)):除了使用簡單RNN模型訓(xùn)練分類器,其余與本文相同;
l RNN+詞性:增加詞性特征,去掉部分無用的虛詞;
l LSTM(長短時記憶單元):除了利用含LSTM單元的RNN訓(xùn)練分類器,其余與本文相同;
l LSTM+詞性:增加詞性特征,去掉部分無用的虛詞;
l CNN+Rand:在文本預(yù)處理后,使用隨機初始化方法構(gòu)造詞向量,輸入至CNN模型進行訓(xùn)練;
l CNN+Rand+詞性:隨機初始化構(gòu)造詞向量,并去掉無意義虛詞,輸入模型中進行訓(xùn)練;
l CNN+word2vec+詞性:本文方法。
表2是上述模型或方法在本文測試數(shù)據(jù)集上的性能表現(xiàn),即對教學(xué)評價系統(tǒng)上的學(xué)生評價語料的分類預(yù)測性能。
在表2中,根據(jù)COAE官方建議,評價指標選擇了如下三個:
l 準確率(precision):表征模型對樣本分類的正確的比率,該指標越接近1越好;
l 召回率(recall):表征模型對樣本的識別程度,該指標越接近1越好;
l F值(F-measure):是準備率與召回率的綜合,該值越高說明模型性能越好。
在表中可以直接看出本文方法在三個指標中均取得最優(yōu),說明此方法相對其余方法更適合處理互聯(lián)網(wǎng)短文情感傾向分類工作。通過比較幾組含詞性與不含詞性方法間的性能發(fā)現(xiàn),考慮詞性特征,即去除那些對文本情感影響不明顯的虛詞提升了分類準確率,說明語料中廣泛存在的虛詞對網(wǎng)絡(luò)短文本的情感傾向性影響不大甚至有副作用,建議在后續(xù)的教學(xué)管理系統(tǒng)中直接增加剔除虛詞的業(yè)務(wù)。
比較傳統(tǒng)的SVM模型與深度學(xué)習(xí)模型可以看到,CNN及簡單RNN和LSTM的準確率相較于傳統(tǒng)分類預(yù)測方法有顯著提升,其主要原因是深度學(xué)習(xí)算法可以通過神經(jīng)元層數(shù)的增加擁有更強的學(xué)習(xí)能力,尤其在特征提取上這相較于傳統(tǒng)學(xué)習(xí)算法具有更大的算力優(yōu)勢。這說明本文選擇的情感分析工具和方法是有效的。
4 結(jié)論
通過為傳統(tǒng)的教學(xué)評價環(huán)節(jié)引入基于深度學(xué)習(xí)的情感分析方法,提供給教學(xué)評價工作者新的分析工具與管理思路。同時,情感分析的結(jié)果也有助于教師更全面地更直觀地了解來自其教學(xué)活動受眾的反饋信息。我們認為學(xué)生的評教反饋信息不應(yīng)僅是以往冷冰冰的評教打分,還可以以數(shù)據(jù)處理及融合的方式直接展現(xiàn)給教師,這將有助于在“教”和“學(xué)”之間建立起互通的渠道,從而進一步提高教學(xué)活動的質(zhì)量。
參考文獻:
[1] 魏紅. 我國高校教師教學(xué)評價發(fā)展的回顧與展望[J]. 教師教育研究, 2001, 13(3):68-72.
[2] 蔡敏, 張麗. 大學(xué)生參與教師教學(xué)評價的調(diào)查研究[J]. 高等教育研究, 2005(3):69-73.
[3] 藍江橋. 中美兩國大學(xué)課程教學(xué)質(zhì)量評價的比較與思考[J]. 高等教育研究, 2003(2):39-42.
[4] 張虎生, 李聯(lián)明, 王運來. 美國斯坦福大學(xué)的本科教學(xué)與啟示[J]. 江蘇高教, 2004(5):115-117.
[5] 吳艷, 陳永明. 大學(xué)課堂教學(xué)的現(xiàn)狀分析及思考——基于全國十所高校的實證調(diào)查[J]. 高教探索, 2015(11):88-93.
[6] 俞佳君. 以學(xué)習(xí)為中心:高校教學(xué)評價的新范式[J]. 高教探索, 2016(11):11-15.
[7] 周湘林. 以學(xué)生學(xué)習(xí)為核心的高校教師教學(xué)評價方法創(chuàng)新研究[J]. 現(xiàn)代大學(xué)教育, 2017(1):93-97.
[8] 駱蘭, 薛艷, 唐國強. 論高校課堂教學(xué)質(zhì)量評估指標體系的構(gòu)建[J]. 高教探索, 2006(6):55-56.
[9] 劉麗娜, 杜艷秋, 羅玉萍. 大學(xué)教師教學(xué)評價:發(fā)展邏輯、體系構(gòu)成及多元協(xié)同[J]. 江蘇高教, 2018(1):44-48.
[10] 郭麗君. 教育生態(tài)視閾下的高校教學(xué)評價問題研究[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報:社會科學(xué)版,2017, 18(4):91-94.
[11] 王朋. 學(xué)生·教師·學(xué)習(xí):美國大學(xué)教學(xué)評價的路徑演變——基于約翰·比格斯的3P教學(xué)模型[J]. 高教探索, 2017(10):52-57.
[12] Tran N D. Reconceptualisation of Approaches to Teaching Evaluation in Higher Education[J]. Issues in Educational Research, 2015, 25(1):50-61.
[13] Carrell S E & West J E. Does Professor Quality Matter? Evidence from Random Assignment of Students to Professors[J]. Journal of Political Economy, 2010, 118(3):409-432.
[14] McNatt D B. Negative Reputation and Biased Student Evaluations of Teaching: Longitudinal Results from a Naturally Occurring Experiment[J]. The Academy of Management Learning and Education, 2010, 9(2):225-242.
[15] Pang T B, Pang B, Lee L. Thumbs up? Sentiment Classification Using Machine Learning[J]. Empirical Methods in Natural Language Processing, 2002:79-86.
[16] Zhang Z, Ye Q, Li Y, Law R. Sentiment Classification of Online Cantonese Reviews by Supervised Machine Learning Approaches[J]. International Journal of Web Engineering & Technology, 2009, 5(4):382-397.
[17] Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. Proceedings of Annual Meeting of the Association for Computational Linguistics, 2002:417-424.
[18] Singh P V, Sahoo N, Mukhopadhyay T. Seeking Variety: A Dynamic Model of Employee Blog Reading Behavior[J]. Ssrn Electronic Journal, 2010, 1617405.
[19] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8):1834-1848.
[20] 孫艷, 周學(xué)廣, 付偉. 基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 北京大學(xué)學(xué)報(自然科學(xué)版), 2013, 49(1):102-108.
[21] Hinton G E,Salakhutdinov R R. Reducing The Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504-507.
[22] Mikolov T. Word2vec Project[EB/OL]. [2014]. https://code.google.com/p/word2vec/.
[23] 梁軍. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報, 2014, 28(5):155-161.
[24] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
[25] 陳昀. 基于多特征融合的中文評論情感分類算法[J]. 河北大學(xué)學(xué)報(自然科學(xué)版), 2015, 35(6):651-656.
[26] 黃仁, 張衛(wèi). 基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J]. 計算機科學(xué), 2016, 43(s1):387-389.
[27] Abadi M, et al. TensorFlow: Large-scale machine learning on heterogeneous systems[EB/OL]. [2015]. https://tensorflow.org.
【通聯(lián)編輯:王力】