卞 慧 王 茜 湯勇明
(東南大學(xué) 教師教學(xué)發(fā)展中心,南京 211100)
學(xué)生對教師開展的課堂教學(xué)進(jìn)行評價是課程課堂教學(xué)質(zhì)量評價的重要途徑,學(xué)生評教結(jié)果是評價教師教學(xué)質(zhì)量的重要依據(jù)之一。學(xué)生評教體現(xiàn)了學(xué)生在教學(xué)中的主體地位,凸顯了以學(xué)生為本的教學(xué)理念[1]。開展學(xué)生評教工作既能夠激發(fā)學(xué)生參與教學(xué)管理的責(zé)任意識,也能夠更好地激勵教師從學(xué)生視角出發(fā)查找問題和改進(jìn)方向,促使教師積極提升教學(xué)能力。同時,學(xué)生評教數(shù)據(jù)也為高校教學(xué)質(zhì)量管理部門開展教學(xué)管理和教學(xué)改革工作提供了數(shù)據(jù)保障,為課堂教學(xué)質(zhì)量閉環(huán)管理模式的構(gòu)建提供了數(shù)據(jù)支撐。
學(xué)生評教制度最早可追溯至1927年,美國普渡大學(xué)的教授雷默斯編制了標(biāo)準(zhǔn)化“學(xué)生評教量表”[2]。20世紀(jì)80年代中期,我國高校逐步開始試行學(xué)生評教制度。經(jīng)過近四十年的摸索實踐,學(xué)生評教制度已基本成為大多數(shù)高校教學(xué)管理中不可或缺的環(huán)節(jié)[3]。然而,在高校建設(shè)課堂教學(xué)質(zhì)量評價體系的實踐過程中,對學(xué)生評教制度的爭議一直存在[4]。對學(xué)生評教制度存疑的專家和教師對于學(xué)生是否能夠認(rèn)真評教和公正評教表示擔(dān)心,認(rèn)為學(xué)生評教存在一定的應(yīng)用風(fēng)險[5]。目前,組織了學(xué)生評教但對結(jié)果不敢用成了很多高校的窘境。如何對海量的學(xué)生評教數(shù)據(jù)進(jìn)行科學(xué)有效的統(tǒng)計,使得學(xué)生評教的結(jié)果可信可用是大多高校亟待解決的問題。本文首先針對D高校近年真實海量的學(xué)生評教數(shù)據(jù)開展多維度的有效性分析,并基于研究結(jié)果提出相應(yīng)的數(shù)據(jù)統(tǒng)計降噪處理算法和基于K-means的分類評價方案。
學(xué)生評教包括前期的籌備階段、中期的實施階段以及后期的數(shù)據(jù)統(tǒng)計階段。三個階段相輔相成,共同構(gòu)成了學(xué)生評教完整模式。但在一些高校的實踐過程中出現(xiàn)了重結(jié)果不重過程的情況[2]。學(xué)生評教結(jié)果可信可用的基礎(chǔ)在于有效提高學(xué)生對于評教工作的認(rèn)識,提升學(xué)生主動參與評教的意愿是工作前提[6]。因此,高校務(wù)必重視學(xué)生評教全流程、各環(huán)節(jié)的工作組織安排。
為了提高學(xué)生參與學(xué)生評教的積極性與便利性,D高校近兩年對學(xué)生評教系統(tǒng)進(jìn)行多方位更新升級,組織實施學(xué)生評教意愿提升計劃。首先,D高校打破了原有系統(tǒng)一次性完成評教任務(wù)的限制。目前,學(xué)生可以根據(jù)個人時間安排,分課程分次靈活評分,不會因為單次評教時間過長導(dǎo)致后續(xù)應(yīng)付性填報。其次,評教系統(tǒng)內(nèi)打分題預(yù)置八分良好缺省值,此舉有效統(tǒng)一了不同學(xué)生的評價基準(zhǔn)線、極大提高了學(xué)生評教效率,也為后續(xù)分析提供了更豐富的參考信息。另外,D高校為每位學(xué)生構(gòu)建其個人專屬的學(xué)生評教檔案。學(xué)生完成評教后可查看個人評教數(shù)據(jù)分析報表,內(nèi)容包括學(xué)生本人對于教師的評價與班級整體對于教師的評價的比較,學(xué)生本人課程成績與教學(xué)班整體課程成績的比較等。最后,學(xué)生評教數(shù)據(jù)取之于學(xué)生也應(yīng)該用之于學(xué)生,即學(xué)生評教數(shù)據(jù)在為教學(xué)管理提供數(shù)據(jù)支撐的同時也應(yīng)該為學(xué)生自身的學(xué)習(xí)提供參考幫助。因此,D高校根據(jù)學(xué)生評教數(shù)據(jù),建設(shè)學(xué)生評教優(yōu)質(zhì)課程榜,相關(guān)信息也在學(xué)生評教檔案界面反饋,可供學(xué)生在選課過程中進(jìn)行參考。如表1所示,實施學(xué)生評教意愿提升計劃后,學(xué)生參評率由68.69%上升至96.14%,已評教學(xué)班的數(shù)據(jù)有效率從96.16%上升至99.72%。
表1 D高校近年學(xué)生評教參與情況
學(xué)生評教相較于督導(dǎo)評價、同行評價和領(lǐng)導(dǎo)聽課等評價方式有著覆蓋面全、面向教學(xué)結(jié)果信息量大等不可替代的優(yōu)勢;以學(xué)生為中心的教學(xué)工作,也必然要求把學(xué)生的學(xué)習(xí)感受作為課堂質(zhì)量評價不可或缺的一環(huán)[7]。但與督導(dǎo)專家等相較,學(xué)生評教工作的組織往往讓學(xué)生參與時較為被動,學(xué)生在專業(yè)知識方面和教學(xué)方法技能方面的了解也不夠?qū)I(yè)。因此,學(xué)生進(jìn)行教學(xué)評價時的認(rèn)真度、對教師教學(xué)情況評分的公正客觀性值得進(jìn)行深入的研究[8]。本文從學(xué)生評教打分一致性、學(xué)生評教缺省值修改率和學(xué)生評教奇異值三個維度出發(fā),對D高校近年的學(xué)生評教數(shù)據(jù)進(jìn)行有效性分析。
圖1 學(xué)生評教問卷總體打分與分項打分一致性情況
數(shù)據(jù)表明,絕大多數(shù)學(xué)生在進(jìn)行課程問卷填寫時,能夠做到思維連貫,根據(jù)評價指標(biāo)文字提示認(rèn)真完成評價問卷內(nèi)容,少部分學(xué)生填寫問卷時存在思路前后不連貫的問題??傮w打分和分項打分的一致性可以視作學(xué)生評教認(rèn)真度的一項衡量指標(biāo)。
為有效統(tǒng)一學(xué)生打分基準(zhǔn),切實提高學(xué)生評教效率,D高校在學(xué)生評教問卷中創(chuàng)新性引入8分良好默認(rèn)值設(shè)置,即學(xué)生僅需要根據(jù)實際授課情況對他們認(rèn)為特別優(yōu)秀或者不滿意的教師合理上調(diào)或下降分值。該問卷設(shè)置帶來的另一個作用還包括考察學(xué)生是否簡單應(yīng)付式地對所有課程的評教問卷提交默認(rèn)值,對應(yīng)學(xué)生個人參與評價的認(rèn)真性考究。針對學(xué)生評教時是否主動修改缺省值進(jìn)行分析,可以通過對回收的問卷進(jìn)行分類標(biāo)簽實現(xiàn)。若問卷作答默認(rèn)值未修改后提交則標(biāo)記為“未修改問卷”。若某學(xué)期某學(xué)生提交的所有課程問卷均為未修改問卷,則該學(xué)生標(biāo)記為“評教主動性較弱學(xué)生”。如圖2所示,D高校絕大部分學(xué)生能夠認(rèn)真對待評教任務(wù),對不同課程不同教師的授課情況進(jìn)行分值調(diào)整。學(xué)生評教時是否修改缺省值也可以視作學(xué)生評教認(rèn)真度的一項衡量指標(biāo)。當(dāng)然,可以從信息平臺上通過學(xué)生個人評教檔案對少部分評教主動性較弱的學(xué)生予以提醒,促進(jìn)這些學(xué)生今后增強對于評教認(rèn)真負(fù)責(zé)的意識。
圖2 D高校學(xué)生評教缺省值修改率情況
由于學(xué)生評教是學(xué)生個體的主觀性評價,可能會存在由于師生間的誤解矛盾或者熟人現(xiàn)象等,個別學(xué)生給部分授課教師打出不符合實際教學(xué)情況的極高分或者極低分,往往表現(xiàn)為評教記錄中的奇異值打分。在奇異值處理方面,有些高校的處理方式是去除最高分和最低分,例如去除前5%和后5%的評分進(jìn)行偏差糾正,D高校往年工作中也采用這樣的統(tǒng)計辦法。但是,原始數(shù)據(jù)經(jīng)去除高分段和低分段后,在保證數(shù)據(jù)不受少部分學(xué)生的極端打分影響的同時,也可能導(dǎo)致部分有效信息缺失。特別是在小班化教學(xué)大規(guī)模普及的情況下,教學(xué)班內(nèi)每個學(xué)生個體的打分都有一定的信息量,并不是所有的高分打分或者低分打分都是奇異值。統(tǒng)計過程中為了保障評分的公正性,需要去除的僅僅是高分和低分中偏離教學(xué)班群體認(rèn)知的個別極高打分或者極低打分。因此,D高校在評分統(tǒng)計過程中引入離散值分析機制。根據(jù)教學(xué)班的平均打分情況X和標(biāo)準(zhǔn)差S,計算學(xué)生每人次打分?jǐn)?shù)據(jù)的離散度Qi=|(Xi-X)/S|,其中Xi為學(xué)生i對某個教學(xué)班的評價總分。若打分記錄離散值超過一定的閾值,則該打分記錄被認(rèn)定為奇異值,與教學(xué)班絕大多數(shù)學(xué)生的評價打分不符,有不合群或古怪嫌疑,可暫不納入該教學(xué)班評分統(tǒng)計。
從D高校近年的數(shù)據(jù)可以看出,學(xué)生評教打分奇異值整體占比僅在0.6%左右,所以常見的去除最高和最低的5%的打分會去除過多的有效打分。而且從奇異值涉及課程占比情況來看,并非所有的課程都需要進(jìn)行高分和低分?jǐn)?shù)據(jù)去除處理,僅15%左右的課程需要對奇異值進(jìn)行處理,具體情況如表2所示。通過奇異值分析策略,能夠在保障評分統(tǒng)計公平公正的前提下,最大程度上保留每個學(xué)生反饋數(shù)據(jù)的信息量。
表2 D高校學(xué)生評教奇異值分布情況
前面通過分析D高校近年來60萬余條學(xué)生評教數(shù)據(jù),可以看出絕大多數(shù)高校學(xué)生能夠做到端正態(tài)度,認(rèn)真對待評教工作,合理公正地進(jìn)行課程評價。但也存在少部分學(xué)生的評教認(rèn)真度和主動性較弱的情況。因此,結(jié)合學(xué)生評教認(rèn)真度衡量,有可能也有必要對學(xué)生評教數(shù)據(jù)進(jìn)行不同權(quán)重的降噪處理,從而提升學(xué)生評教數(shù)據(jù)的有效性,保障學(xué)生評價結(jié)果公平公正、可信可用。
結(jié)合上文所述的學(xué)生評教認(rèn)真度衡量指標(biāo),本文提出了包含數(shù)據(jù)降噪算法的評價數(shù)據(jù)綜合性處理方案。學(xué)生評教問卷由一條綜合評價指標(biāo)Z和K條X1,X2,…,Xk分項評價指標(biāo)組成。學(xué)生j對教學(xué)班i的各分項評價打分之和記為Xij。如圖3所示,數(shù)據(jù)降噪算法從離散度、一致性和缺省值修改率三個維度來考察學(xué)生評教數(shù)據(jù)的有效性,并針對不同情況賦予學(xué)生評教數(shù)據(jù)不同的權(quán)重。降噪算法所賦權(quán)重ξ1,ξ2,ξ3可根據(jù)本校實際情況進(jìn)行合理地動態(tài)調(diào)整,其中0≤ξ1<ξ3<ξ2。
圖3 學(xué)生評教數(shù)據(jù)降噪處理算法
首先,統(tǒng)計數(shù)據(jù)顯示本文所提的數(shù)據(jù)降噪算法相較最高分和最低分去除算法能夠保留近4.6%的有效的學(xué)生評價信息。因此,在數(shù)據(jù)在統(tǒng)計過程中采用本算法提出的奇異值判別機制代替原有的最高分和最低分去除機制能夠保留更多的學(xué)生評價信息,更加有效可行。同時,本文所提的算法能夠有效提升評教結(jié)果的可信度。正常情況下,教師教學(xué)水平在某一學(xué)期不應(yīng)有大幅波動,即教師在某一學(xué)期教授同一類課程的不同教學(xué)班的評教結(jié)果應(yīng)有一定的一致性。但由于學(xué)生評教噪聲數(shù)據(jù)的存在,出現(xiàn)了教師個人多個教學(xué)班評教結(jié)果差異較大的現(xiàn)象,這也是部分教師不相信學(xué)生評教結(jié)果最直接的導(dǎo)火索。例如,某教師一學(xué)期內(nèi)開設(shè)了建筑設(shè)計類課程2門次教學(xué)班,學(xué)生評教原始均分分別為89分和81.64分。在課程類型、授課學(xué)期和授課教師等主、客觀情況都相同的情況下,不同教學(xué)班評分的分差較大的問題需要進(jìn)一步探究實際情況。
采用本文所提的降噪算法對上述2個教學(xué)班的學(xué)生評教數(shù)據(jù)進(jìn)行處理后發(fā)現(xiàn):教學(xué)班B存在3位學(xué)生為評教主動性較弱學(xué)生,應(yīng)通過權(quán)重調(diào)整,降低其提交數(shù)據(jù)對于最終統(tǒng)計結(jié)果的影響。另有1位學(xué)生提交的數(shù)據(jù)未能通過問卷一致性檢驗,應(yīng)予以剔除。如圖4所示,經(jīng)降噪處理后,兩個教學(xué)班的統(tǒng)計得分分別為89分和87.45分。
圖4 同教師不同教學(xué)班的數(shù)據(jù)降噪處理前后對比
本文所提的降噪算法較好地解決了由于噪音數(shù)據(jù)導(dǎo)致的同一位教師授課的兩個教學(xué)班的評分不一致問題。進(jìn)一步對該學(xué)期的所有評教數(shù)據(jù)進(jìn)行降噪處理,以提高分析結(jié)果的可參考性。經(jīng)降噪處理后,全校同一位教師教授的多個教學(xué)班的評價結(jié)果的標(biāo)準(zhǔn)偏差均值降低3.57%。數(shù)據(jù)表明,降噪算法有效降低了極端打分以及非認(rèn)真評價數(shù)據(jù)對于評教統(tǒng)計結(jié)果的影響。
經(jīng)調(diào)研,目前大多數(shù)高校對學(xué)生評教數(shù)據(jù)匯總統(tǒng)計后進(jìn)行總分排序。學(xué)生評教排序的數(shù)值或者排序的占位百分比成為了部分教師關(guān)注的焦點??偡峙琶菍W(xué)生學(xué)業(yè)考核中常見的制度。學(xué)生學(xué)業(yè)考核的目的不僅在于檢驗學(xué)生的學(xué)習(xí)效果,也在于對學(xué)生的學(xué)習(xí)成果進(jìn)行衡量排序,以便后續(xù)升學(xué)就業(yè)等場景使用。但與學(xué)生學(xué)業(yè)考核不同的是,學(xué)生評教的目的不在于給教師的授課效果進(jìn)行排序,而是在于查找教師授課過程中存在的問題,及時改進(jìn)并提升教學(xué)質(zhì)量。因此,常見的總分排序法在學(xué)生評教結(jié)果的運用中存在一定的弊端。學(xué)生評教總分排序的弊端之一在于較小的分差可能會導(dǎo)致較大的排名差異,從而引發(fā)教師對排名結(jié)果的認(rèn)可度降低。另外,總分排名數(shù)據(jù)相對單一,無法顯示出教師授課存在問題的方面。因此,D高校采用分類分段評價模式代替原有總分排名模式。根據(jù)教師各維度評價指標(biāo),對授課教師進(jìn)行群體分類,再對不同教師群體大類進(jìn)行分段分析。實施分類分段評教后,高??梢詫Σ煌愋偷氖谡n教師在教學(xué)中存在的共性問題開展針對性的督導(dǎo)和培訓(xùn)。
由于具備收斂速度快、實現(xiàn)難度低等優(yōu)勢,基于K-means的分類算法被廣泛運用于各行各業(yè)。在對原始評教數(shù)據(jù)進(jìn)行降噪處理后,進(jìn)一步采用基于K-means的聚類算法對學(xué)生評教數(shù)據(jù)進(jìn)行分段建模分析。
如圖5所示,分類算法將教師教學(xué)情況分成四類。①A類:該類型教師教學(xué)效果優(yōu)秀,各維度評價均值達(dá)9分左右,可作為優(yōu)質(zhì)課程推薦給新入職教師、青年教師等觀摩學(xué)習(xí)。②B類:該類型教師教學(xué)效果整體良好,各維度評價均值達(dá)8.6分左右,各方面存在一定的提升空間。③C類:該類型教師教學(xué)基本合格,各維度評價均值達(dá)8.2分左右,基本為正向評價,即大部分學(xué)生小幅上調(diào)了8分缺省值。但該類型教師授課存在教學(xué)節(jié)奏把控弱和課堂重點不突出等較為明顯的弱勢方面,需要進(jìn)一步引導(dǎo)和提升。④D類:該類型教師的教學(xué)指標(biāo)學(xué)生評價總體為負(fù)向評價且部分指標(biāo)得分為極低分。此類型教師雖占比低,但教學(xué)往往存在較大的問題,需要教學(xué)質(zhì)量管理部門以及院系予以重點關(guān)注。
圖5 基于K-means的學(xué)生評教結(jié)果分類情況
如今隨著信息技術(shù)的發(fā)展,學(xué)生評教在不斷普及實踐的過程中得到了發(fā)展和完善,從紙質(zhì)問卷人工統(tǒng)計迭代更新到信息化評教系統(tǒng)為數(shù)據(jù)智能分析提供支撐。通過對D高校近年學(xué)生評教數(shù)據(jù)的有效性進(jìn)行多維度的探索分析,提出了數(shù)據(jù)降噪算法和基于K-means的分類評價方案。數(shù)據(jù)表明,所提方案具備有效性和可行性,能夠有效提升學(xué)生評教數(shù)據(jù)的可信度和可用性,讓學(xué)生評教數(shù)據(jù)更好地為教學(xué)服務(wù)。
未來D高校將持續(xù)發(fā)展完善評教機制,通過有效挖掘主觀評語信息、引入客觀數(shù)據(jù)拓寬課堂質(zhì)量評價維度、加強多維數(shù)據(jù)間的相關(guān)性分析等措施,完善多維融合評價體系。同時,D高校將繼續(xù)堅持教學(xué)實施、教學(xué)評價和教學(xué)培訓(xùn)三方聯(lián)動,構(gòu)建教學(xué)質(zhì)量的有效閉環(huán)管理體系,達(dá)成“以評促教”的根本目標(biāo)。