嚴(yán)中平,王曉卉,顧麗娜
(1.沈陽藥科大學(xué) 研究生院,遼寧 沈陽 110016;2.遼寧教育學(xué)院,遼寧 沈陽 110032)
根據(jù)教育部2014年發(fā)布的《教育部關(guān)于改進(jìn)和加強(qiáng)研究生課程建設(shè)的意見》文件“培養(yǎng)單位要加強(qiáng)研究生課程教學(xué)評價,制定科學(xué)的評價標(biāo)準(zhǔn),定期實施課程評價”[1],研究生評教作為輔助手段,在研究生課程評價監(jiān)管體系中發(fā)揮著重要的作用。研究生評教是研究生培養(yǎng)單位構(gòu)建研究生質(zhì)量的重要組成部分。研究生評教可以幫助研究生教師改進(jìn)教學(xué),提高質(zhì)量,也可以為研究生教學(xué)管理部門提供課程建設(shè)和培養(yǎng)方案修訂的決策參考[2]。研究生評教的質(zhì)量,不僅影響教師的教學(xué)方式和教學(xué)態(tài)度,還影響到研究生的學(xué)習(xí)效果以及教學(xué)評價的參與積極性[3]。因此,通過對研究生評教質(zhì)量分析,能夠及時讓教師和管理部門了解教學(xué)情況,促進(jìn)教師不斷改進(jìn)教學(xué)方法和教學(xué)內(nèi)容,促進(jìn)管理部門進(jìn)行課程體系建設(shè),從而提高研究生教學(xué)質(zhì)量和研究生培養(yǎng)質(zhì)量[4]。
當(dāng)前關(guān)于研究生評教質(zhì)量的研究,主要集中在三個方面:一是基于研究生評教的制度研究,認(rèn)為建立以學(xué)生為中心的教學(xué)評教制度是有效的,能夠確實提高學(xué)生評教的科學(xué)性和有效性等,如李沖等通過大連理工大學(xué)5年的實踐研究證明,建立以學(xué)生評教為主,輔以專家評價教學(xué)質(zhì)量保障體系是有效的[5];呂鵬認(rèn)為遵循學(xué)生主體地位,構(gòu)建具有發(fā)展性、全面性和易評性原則的評教體系,將帶來評教質(zhì)量的飛躍[6];保駿等認(rèn)為按照不同的課程類型適當(dāng)調(diào)整評價指標(biāo),并根據(jù)評價主體特點來設(shè)置動態(tài)權(quán)重,改善數(shù)據(jù)分析方法,可以提高教學(xué)評教的質(zhì)量[7]。二是研究生評教的有效性研究,探索研究生評教的影響因素、信度、效度分析等,例如李楠論證了高校學(xué)生評教結(jié)果雖然存在著干擾項,但整體是可靠的[8];王雪婷通過訪談和問卷調(diào)研,利用探索性因素分析的方式,構(gòu)建了學(xué)生(教師)評教模型,并通過信度和效度檢驗驗證[9];王力綱等基于區(qū)分度及可信度的學(xué)生評教模型,并利用新舊評教模型對同一被評教對象和參評對象評教后的不同評教結(jié)果進(jìn)行了分析對比[10];王堯分析了遼寧省12所高校學(xué)生評教指標(biāo)存在的問題以及改進(jìn)的措施[11]。三是基于評教數(shù)據(jù)或者評教數(shù)據(jù)挖掘或者授課評價文本的情感挖掘研究,找出研究生評教數(shù)據(jù)或者文本中隱藏的影響因素。毛豐付對浙江評教數(shù)據(jù)進(jìn)行分析后發(fā)現(xiàn)學(xué)生評教是有效的,同時也受很多因素的影響,存在著偏差[12];馬秀麟通過對2所高校的評教數(shù)據(jù)進(jìn)行對比分析,也論證了學(xué)生評教結(jié)果是有效的,能夠較為真實地反映教師的教學(xué)狀況[13];李正通過對學(xué)生評教的可信性和有效性進(jìn)行深入的分析與探討,并就改進(jìn)我國高校的學(xué)生評教工作提出合理的建議[14];在基于文本的情感分析研究中,羅玉萍和嚴(yán)霞分別利用不同的軟件,對學(xué)生評教的文本進(jìn)行分詞,兩人均采用了知網(wǎng)的情感詞典對語句進(jìn)行情感打分,表明基于文本的情感分析的方法也是科學(xué)有效的[15-16]。
通過文獻(xiàn)研究還發(fā)現(xiàn),不管是基于量表問卷的研究,還是基于情感挖掘的研究,都會因為研究生的情緒、研究生評教習(xí)慣等多方面的原因,出現(xiàn)數(shù)據(jù)失真,為了有效解決數(shù)據(jù)失真的問題,筆者將利用S大學(xué)的研究生督導(dǎo)體系問卷,進(jìn)行量表研究和文本情感的結(jié)合分析,探尋利用分層檢測、數(shù)據(jù)和情感挖掘結(jié)合的方法,有效解決評教數(shù)據(jù)失真的問題,提升研究生評教問卷的有效性,激勵研究生和導(dǎo)師共同提高教學(xué)質(zhì)量[17]。
S大學(xué)是一所歷史悠久的??菩痛髮W(xué),在行業(yè)具有較高的影響力。該校于2015年建立了現(xiàn)存的研究生督導(dǎo)管理體系,成立了一支教師督導(dǎo)和研究生督導(dǎo)聯(lián)絡(luò)員結(jié)合的督導(dǎo)隊伍。學(xué)校每年聘請20名督導(dǎo)聯(lián)絡(luò)員,對研究生課程進(jìn)行專門反饋,在聘任督導(dǎo)聯(lián)絡(luò)員時,選擇了一批思想覺悟高、誠實公正的研究生干部;要求他們學(xué)習(xí)態(tài)度端正,責(zé)任心強(qiáng),觀察事物細(xì)致,有較強(qiáng)的組織和協(xié)調(diào)能力,熱心為同學(xué)和班級服務(wù);同時也要求有一定的分析問題能力和文字表達(dá)能力。為了保障評價質(zhì)量,學(xué)校對這些督導(dǎo)聯(lián)絡(luò)員進(jìn)行專門的培訓(xùn)和考核,及時監(jiān)控評教數(shù)據(jù)質(zhì)量,對不太負(fù)責(zé)任的評教數(shù)據(jù)及時進(jìn)行整改;同時在評價過程中,使用匿名評價的方式,并為督導(dǎo)聯(lián)絡(luò)員發(fā)放酬金,提升了督導(dǎo)聯(lián)絡(luò)員的積極性。
該校督導(dǎo)聯(lián)絡(luò)員所使用的量表是在參考美國俄亥俄州立大學(xué)的學(xué)生評教手冊(Student Evaluation Of Instruction (SEI) Handbook)[18]基礎(chǔ)上(9道問題),結(jié)合之前校內(nèi)的評教表格,去掉重復(fù)的問題,然后按照教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)方法和教學(xué)效果進(jìn)行重新設(shè)計。在設(shè)計的過程中,基本保留了俄亥俄州立大學(xué)提問的風(fēng)格,并將校內(nèi)的問題也按照該風(fēng)格進(jìn)行重新優(yōu)化,保留問卷的原汁原味(見表1)。在保留這些客觀性量表的同時,還保留了四個主觀性評價問題:這門課程的授課亮點與特色是什么?這門課程的授課問題與不足是什么?研究生學(xué)習(xí)效果與學(xué)習(xí)過程中的問題。對于這門課程的建議與意見。通過這樣問卷的設(shè)計,盡量做到對教師的評教公平公正。
在研究生量表設(shè)計完成之后,S大學(xué)對研究生問卷進(jìn)行了試測,并將采集到的數(shù)據(jù)去掉重復(fù)值,得到有效數(shù)據(jù)453條,利用SPSS軟件對結(jié)果進(jìn)行信度分析,得出問卷克隆巴赫系數(shù)為0.973,表明問卷具有較好的信度。利用Amos22軟件對結(jié)果進(jìn)行斜交驗正性因子分析[19]。得到的卡方值為249.235,卡方值/自由度為2.651,小于3,CFI(0.981)、NFI(0.969)、IFI(0.981)均大于0.9,RMSEA(0.060)小于0.08,潛在變量到測量變量的標(biāo)準(zhǔn)化回歸系數(shù)均大于0.7,表明當(dāng)前二級指標(biāo),對一級指標(biāo)有較好的信度,當(dāng)前結(jié)構(gòu)可以使用。
表1 S大學(xué)的研究生評教問卷量表
S大學(xué)從2017年1月起開始使用該問卷,截止到2019年1月,共收集到數(shù)據(jù)1234條,涉及2016、2017、2018三個年級共計60名研究生督導(dǎo)聯(lián)絡(luò)員所填寫的數(shù)據(jù)。筆者對所有評教量表題按照各一級指標(biāo)進(jìn)行了加和,分別得到教學(xué)內(nèi)容、教學(xué)態(tài)度、教學(xué)方法和教學(xué)效果分?jǐn)?shù),將4個一級指標(biāo)的得分加和得到教學(xué)評價的總得分。為了配合將來對情感分析數(shù)據(jù)進(jìn)行對比分析,筆者還對此五項數(shù)據(jù)利用以下公式進(jìn)行了歸一的標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化數(shù)據(jù)。后續(xù)分析均在歸一化數(shù)據(jù)的基礎(chǔ)上進(jìn)行。
X = (X-Min)/(Max-Min)
筆者首先對得到的1234條數(shù)據(jù)進(jìn)行內(nèi)部一致性檢驗,發(fā)現(xiàn)其克隆巴赫系數(shù)為0.978,表明數(shù)據(jù)具有較好的可靠性,適合進(jìn)行數(shù)據(jù)分析。對教學(xué)評價總分的最終統(tǒng)計數(shù)進(jìn)行描述性統(tǒng)計發(fā)現(xiàn),教學(xué)評價均值在0.8318,標(biāo)準(zhǔn)偏差在0.2266,偏度為-2.247,峰度為4.507,偏度<0,峰度>0,表示教學(xué)評價分布呈負(fù)偏態(tài),且比較陡峭。
檢查直方圖(圖1)可以發(fā)現(xiàn),部分研究生的評分存在著偏低的情況,全是最低分或者全是最高分,特別是最高分的情況較多。但是在檢驗數(shù)據(jù)的過程中,發(fā)現(xiàn)數(shù)據(jù)中也存在著部分學(xué)生對所有問題評分全為5情況較多,看似好像沒有認(rèn)真地思考相關(guān)問題和教師的表現(xiàn),但是筆者就此問題詢問相關(guān)督導(dǎo)聯(lián)絡(luò)員,他們大部分認(rèn)為全評為5分的教師,上課表現(xiàn)確實符合他的心理預(yù)期,只有極個別的同學(xué),通過后期的評價看出,存在著不認(rèn)真的情況。
圖1 教學(xué)評價的直方圖
對教學(xué)評價量表進(jìn)行相關(guān)性檢驗,結(jié)果見表2,顯示教學(xué)態(tài)度、教學(xué)效果、教學(xué)內(nèi)容和教學(xué)方法之間顯著性P值均小于0.01,相互之間均存在顯著的相關(guān)性,這與之前進(jìn)行的研究生評教量表的斜交驗證性因子分析結(jié)果吻合。
表2 教學(xué)評價量表一級指標(biāo)的相關(guān)性檢驗
**. 在 0.01 級別(雙尾),相關(guān)性顯著。
在S大學(xué)課程體系中,研究生課程類型分為公共基礎(chǔ)課、學(xué)位選修課和非學(xué)位選修課。公共基礎(chǔ)課是所有研究生必修的課程,學(xué)位選修課程對本專業(yè)更重要,但這門課程同時也可能是別的專業(yè)的非學(xué)位選修課。筆者利用不同的課程類型與課程評價結(jié)果進(jìn)行方差分析(圖2),得出顯著性概率為0.008,小于0.05,表明課程類型與評價結(jié)果之間存在相關(guān)性。不同課程類型的教學(xué)評價分布圖表明研究生督導(dǎo)聯(lián)絡(luò)員在評教的過程中,對于學(xué)位選修課的教師的教學(xué)內(nèi)容、方法、態(tài)度和效果更加關(guān)注,也更為認(rèn)可;對于非學(xué)位選修課的相關(guān)教學(xué)評價關(guān)注度較低,認(rèn)可度也更低;對于公共基礎(chǔ)課的關(guān)注度和認(rèn)可度比學(xué)位選修課稍低,但是差別不大。
圖2 不同課程類型的教學(xué)評價分布圖
分詞,是利用軟件或者算法,將句子分割為詞語的過程[20]。為了對研究生所反饋的主觀性問題進(jìn)行分析,首先就需要利用分詞工具對反饋的問題進(jìn)行分詞。當(dāng)前有很多流行的分詞工具,例如羅玉萍采用的是3GSW分詞工具[15],嚴(yán)霞采用的是哈爾濱工業(yè)大學(xué)的自然語言處理工具(language technology platform,LTP[16])等,筆者在編程過程中,嘗試使用LTP、結(jié)巴、SnowNLP、HanLP等多種分詞工具,利用Python語言進(jìn)行編程比較,最終確定采用結(jié)巴分詞工具。結(jié)巴分詞工具是當(dāng)前Python語言中最流行的分詞工具,能夠自定義詞典,分詞速度較快,精確度較高,在NLP領(lǐng)域具有較高的推薦度。
在分詞之后,筆者對詞頻進(jìn)行了統(tǒng)計分析,去掉了比如“講解、上課時、這門、一門、X老師”等一些屬于高頻詞但是對分析沒有太大意思的狀語詞、量詞等詞匯。筆者對每個問題前10的高頻詞匯進(jìn)行人工檢索,生成了4個問題的關(guān)聯(lián)詞匯表(表3),從關(guān)聯(lián)詞匯表中,可以看到雖然每個問題的高頻詞匯相差不大,但是關(guān)聯(lián)詞匯還是有較大的差異,從關(guān)聯(lián)詞匯可以看出,每個研究生反饋的問題還是與所提問題回答較為吻合的,問題回答文本與問題有較高的關(guān)聯(lián)度。
表3 高頻詞的關(guān)聯(lián)詞匯表
情感是人類智能的一種特征表現(xiàn)。情感主要是人類身體和生理狀態(tài)在發(fā)生變化時的一種反映,也可以通過文本表達(dá)情感[21]。目前情感分析的方法主要有基于情感詞典的情感分析和基于機(jī)器學(xué)習(xí)的情感分析兩種,各有優(yōu)缺點。限于筆者所掌握的Python編程能力,這里選擇基于情感詞典的情感分析。目前可供選擇的情感詞典很多,但大多基于新聞和基于評論的比較多,沒有專門針對課程反饋的語料庫,比如哈爾濱工業(yè)大學(xué)的自然語言處理工具LTP,SnowNLP,大連理工大學(xué)情感詞匯本體等多種語料庫。筆者通過編程的反復(fù)篩選,選擇了大連理工大學(xué)中文情感詞匯本體作為語料庫。該語料庫是大連理工大學(xué)林鴻飛教授領(lǐng)導(dǎo)的團(tuán)隊構(gòu)建一個中文本體資源,情感分為7大類21小類,情感強(qiáng)度分為1,3,5,7,9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小,每個詞在每一類情感下都對應(yīng)了一個極性,其中0代表中性,1代表褒義,2代表貶義,3代表兼有褒貶兩性。一共標(biāo)注了24766個詞語,在情感詞典中屬于比較大的語料庫。
在情感得分計算過程中,筆者采用了圖3所示的情感評分算法[22]。同時采用了去停詞,標(biāo)記連詞、提取程度詞、否定詞等算法對情感得分進(jìn)行修正,基本包含了基于詞典情感分析的主流優(yōu)化算法。在計算過程中,使用的編程語言為Python3.6。具體過程如下:
首先使用結(jié)巴分詞工具,對所有問題反饋進(jìn)行分詞;第二步是去掉一些無意義的標(biāo)點符號、數(shù)字、助詞等;第三步是提取連詞(文章中算法所采用的連詞及其關(guān)聯(lián)權(quán)重見表4),判斷連詞前句與后句位置,以第二個連詞作為區(qū)分,前句和后句分別計算得分,再按照權(quán)重分別計算整體得分;若僅有一個連詞,則以該唯一連詞作為區(qū)分對象。如果不包括連詞,直接進(jìn)入計算得分步驟;第四步是訪問情感詞匯本體,確定詞匯極性及其強(qiáng)度,判斷該情感詞之前是否含有否定詞和程度詞(文章中算法所采用程度詞權(quán)重見表5),根據(jù)否定詞位置判斷是否含有否定或者雙重否定來確定詞匯極性是否反轉(zhuǎn);若不包含否定詞、連詞或程度詞,均分別略過相關(guān)步驟。最后累加本句情感計算評分,若為正則為正面,若為負(fù)則為負(fù)面,否則為中性。需要說明的是,在情感詞庫本體中,詞語極性標(biāo)注為3的僅有78個,僅占3‰,為了方便操作,在這里的情感計算中,詞的極性只考慮0、1、2三種類型。
圖3 情感評分算法示意圖
根據(jù)情感得分的正負(fù)值,得到表6的結(jié)果,顯示對于特色與亮點的反饋,是以正向情緒為主的,達(dá)到82.1%,這表明在描述教授課程授課特點的時候,研究生偏向于為教師說好話,這也符合對于該題的預(yù)期;關(guān)于問題與不足的描述中,負(fù)面情緒是最高的,28.6%表明研究生在回答問題過程中,對于問題的反饋較為認(rèn)真,覺得大多數(shù)同學(xué)本著認(rèn)真負(fù)責(zé)的態(tài)度在回答問題,而不是不敢說話或者隨意唱贊歌;在學(xué)習(xí)效果和課程建議的反饋中,約60%的研究生反饋為正向,中立情緒在30%左右,基本符合預(yù)期。在后續(xù)的研究生督導(dǎo)聯(lián)絡(luò)員培訓(xùn)過程中,筆者認(rèn)為還應(yīng)該繼續(xù)加強(qiáng)主觀問題反饋的培訓(xùn),讓情緒值分布與期望值更加接近,減少部分問題的正向情緒比重,更加客觀中立地表達(dá)某些觀點。
表4 連詞及其關(guān)聯(lián)權(quán)重
表5 程度詞及其權(quán)重
表6 四個問題反饋的情感得分正負(fù)值統(tǒng)計
將四個問題的情感得分與課程類別進(jìn)行對比分析(結(jié)果見圖4),可以發(fā)現(xiàn)特色亮點的情感得分均值最高,問題不足最低,學(xué)習(xí)效果與課程建議均值差別不大。從課程所屬類別情緒均值來看以及學(xué)習(xí)效果和問題不足情緒反饋來看,公共基礎(chǔ)課的情感得分最低,學(xué)位選修課居中,非學(xué)位選修課最高;在特色與亮點的反饋中,公共基礎(chǔ)課的情感得分最高,學(xué)位選修課最低,非學(xué)位選修課居中;而在課程建議的反饋中,學(xué)位選修課的情感得分最高,非學(xué)位選修課的情感得分均值最低。通過對相關(guān)學(xué)生的訪談,發(fā)現(xiàn)出現(xiàn)這幾種變化主要是基于以下原因:
1.該校以前公共基礎(chǔ)課授課人數(shù)較多,教師無法兼顧,影響授課效果,因此問題與不足和效果在類別中得分最低;但公共基礎(chǔ)課教師均為該校經(jīng)驗最豐富的教師,授課方式也相對多元化,所以特色與亮點的得分偏高。
2.學(xué)位選修課是與研究生專業(yè)相關(guān)的課程,因此在反饋的過程中,最為認(rèn)真,反饋的感覺是最真實的,不管課程有沒有特色都會認(rèn)真聽課,所以問題不足相對非學(xué)位課多一些,對課程建議比較多,專業(yè)課教師的教學(xué)方式也相對單一,學(xué)習(xí)效果一般。
3.研究生在選擇非學(xué)位選修課時一般會考慮將來得分較高或者學(xué)分較高的課程,所以在各個方面都評價相對較高,但是建議相對較少。
圖4 四個問題反饋的情感得分均值與課程類別比較
將特色亮點、問題不足、學(xué)習(xí)效果、課程建議四個問題反饋的情感得分值和課程類別進(jìn)行方差分析(結(jié)果見圖5),發(fā)現(xiàn)問題與不足與課程類別的P值小于0.05,有顯著性差異,表明研究生對于問題不足和課程類別的差異感受最明顯,對于這個問題的回答,反映了最真實的情緒。同時,根據(jù)問卷中多項選擇問題的統(tǒng)計(見表7),研究生授課課堂講授為主的比例是最高的,達(dá)到了95.1%,占總比例也達(dá)到了35%,表明該校研究生教師需要進(jìn)一步改進(jìn)授課方式,提升授課效果,否則不太容易讓研究生評教滿意。
最后,筆者對四個問題的反饋情感得分和教學(xué)評價總分,進(jìn)行相關(guān)性分析,結(jié)果見表8,發(fā)現(xiàn)問題不足的情感得分和學(xué)習(xí)效果的情感得分與教學(xué)評價匯總得分的P值分別為0.002和0.000,小于0.01,表明二者和教學(xué)評價匯總之間有相關(guān)性,特色亮點和課程建議的P值大于0.05。通過訪談,了解到對于特色亮點和課程建議兩個問題,有一定的宏觀性,研究生對問題駕馭能力不足,導(dǎo)致相關(guān)性不足;而對于問題不足和學(xué)習(xí)效果,一般回答都是較為直接的感受,是切身體會,能夠達(dá)到較好的效果,所以相關(guān)性比較好。
圖5 課程類別與四個問題反饋的情感得分的方差分析
表7 研究生授課方式分布統(tǒng)計
a. 值為 1 時制表的二分組。
表8 教學(xué)評價匯總和情感得分的相關(guān)分析
**. 在 0.01 水平(雙側(cè))上顯著相關(guān)。
隨著信息技術(shù)和研究生教育質(zhì)量內(nèi)部質(zhì)量保障體系的建設(shè)要求,研究生評教作為研究生授課教師的輔助考評手段,已經(jīng)受到了很多高校的重視,構(gòu)建一套行之有效的問卷,并對問卷進(jìn)行合理的結(jié)果分析和質(zhì)量驗證,對研究生課程質(zhì)量建設(shè)和研究生培養(yǎng)質(zhì)量保障來說,都是比較重要的,只有驗證過的研究生評教結(jié)果才是可信的。文章通過情感分析和數(shù)據(jù)分析的結(jié)合驗證,表明這種結(jié)合驗證的方法能夠更加有效驗證研究生評教問卷的質(zhì)量,基于情感挖掘和基于數(shù)據(jù)的挖掘,有相關(guān)性,也有差異性,基于S大學(xué)的問卷分析對該方法進(jìn)行了有效的驗證,能夠有效避免單一使用量表對研究生授課質(zhì)量進(jìn)行評價的局面。
研究生評教問卷質(zhì)量評價是一個復(fù)雜的系統(tǒng),有很多因素的影響,比如研究生反饋問卷時的心情、課程性質(zhì)、研究生本人對于反饋問題的駕馭能力等多方面的影響。對于不同的問題,從研究生角度,因為經(jīng)驗的原因,可能表達(dá)的情感不一定完全符合真實感受,有些同學(xué)在反饋過程中,也會存在敷衍的現(xiàn)象等。因此在今后的研究和實際工作中,要建立以研究生為中心的評價體系,以研究生訴求為基礎(chǔ),完善評價指標(biāo),改善研究生評教管理工作[23],對研究生教學(xué)督導(dǎo)員進(jìn)行更多培訓(xùn),提升問題的駕馭能力等,同時也可以考慮利用神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)的方法,提升情感評價的準(zhǔn)確性,提升研究生評教的整體質(zhì)量,使得評價結(jié)果更加有效、客觀。