文/范宇辰 陳偉
對于高校而言,教學(xué)質(zhì)量的好壞直接標(biāo)示其辦學(xué)水平的高低,同時教學(xué)評價也是政府和教育主管部門加強高校管理、保障教學(xué)質(zhì)量、提升人才培養(yǎng)質(zhì)量的重要手段。對于教師教學(xué)效果的準(zhǔn)確評價,一方面可以作為評判教師教學(xué)質(zhì)量優(yōu)劣的指標(biāo);另一方面,對教師教學(xué)質(zhì)量進行科學(xué)、客觀、公平和全面的評價,是更合理選聘教師及評定教師晉職、晉升資格的需要,以此達到調(diào)動教師教學(xué)的積極性,提高教師的整體素質(zhì),提高教育教學(xué)質(zhì)量的目的。
然而,目前在評教過程中仍存在諸多問題,這些問題直接影響著教學(xué)質(zhì)量的提升乃至學(xué)校的整體發(fā)展。因此,如何克服目前高校教學(xué)評價體系的諸多弊端,科學(xué)公正地實現(xiàn)教師評價,引導(dǎo)教育教學(xué)改革就成為提高教學(xué)質(zhì)量過程中一個非常關(guān)鍵的環(huán)節(jié)。
傳統(tǒng)教評主要依賴于學(xué)生的評教數(shù)據(jù),方法是通過采集學(xué)生大量的客觀打分?jǐn)?shù)據(jù)與主管評價語句來對不同教師的教學(xué)成果進行評測。然而,由于技術(shù)水平的局限和技術(shù)手段的缺失,目前大部分高校教評僅利用了學(xué)生、管理者、專家等客觀打分?jǐn)?shù)據(jù),方法單一,模式簡單,并不能作為全面衡量教師教學(xué)成果的依據(jù)。而海量主觀評教數(shù)據(jù)的沉淀,不僅浪費了很多學(xué)生認(rèn)真用心的教學(xué)評價,更無法幫助高校通過科學(xué)的方式篩選出具有良好教學(xué)口碑的優(yōu)秀教師,為他們提供更好的發(fā)展平臺。
隨著技術(shù)的進步,如何利用好鮮活的主觀評教數(shù)據(jù),為教師教學(xué)效果提供評價的支撐,是我們需要解決的問題。自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,利用NLP自然語言處理技術(shù)可以充分分析、挖掘主觀評教數(shù)據(jù),為教學(xué)管理服務(wù)。自然語言工具箱(NLTK,Natural Language Toolkit)是一個基于Python語言的類庫,它也是當(dāng)前最為流行的自然語言編程與開發(fā)工具。在進行自然語言處理研究和應(yīng)用時,恰當(dāng)利用NLTK中的函數(shù)可以大幅度地提高效率,達到工作目標(biāo)。
自然語言情感分析目前可采用詞典分析或者機器學(xué)習(xí)來進行。詞典匹配是直接計算文本中的情感詞,得出它們的情感傾向分值。而機器學(xué)習(xí)方法的思路是先選出一部分表達積極情感的文本和一部分表達消極情感的文本,用機器學(xué)習(xí)方法進行訓(xùn)練,獲得一個情感分類器。再通過這個情感分類器對所有文本進行積極和消極的二分分類,最終的分類可以為文本給出0或1這樣的類別,也可以給出一個概率值。
機器學(xué)習(xí)的方法精確度更高,因為詞典匹配會由于語義表達的豐富性而出現(xiàn)很大誤差,而機器學(xué)習(xí)方法不會,可使用的場景更多樣,無論是主客觀分類還是正負(fù)面情感分類,機器學(xué)習(xí)都可以完成任務(wù),而無需像詞典匹配那樣要深入到詞語、句子、語法這些層面。詞典方法適用的語料范圍更廣,無論是手機、電腦這些商品,還是書評、影評這些語料,都可以適用。但機器學(xué)習(xí)則極度依賴語料,把手機語料訓(xùn)練出來的的分類器拿去給書評分類,那是注定要失敗的。
經(jīng)過分析,學(xué)生主觀評教數(shù)據(jù)均為短句,90%以上少于20個漢字,語義表達清晰,基本不存在復(fù)雜言論。所使用語料較為狹窄,85%以上均在200字語料范圍內(nèi)。因此,采用詞典匹配法,結(jié)合情感詞庫進行分析統(tǒng)計得出情感分值是成本較低且準(zhǔn)確度較高的做法。
為了滿足智慧校園建設(shè)的需要,學(xué)校統(tǒng)一數(shù)據(jù)中心大數(shù)據(jù)平臺采用H3C DataEngine構(gòu)建,很好的解決了大數(shù)據(jù)的存儲、管理、分析、挖掘等問題,構(gòu)建起了海量數(shù)據(jù)處理系統(tǒng)。
新華三的H3C DataEngine大數(shù)據(jù)平臺,是集數(shù)據(jù)采集、存儲、查詢分析、挖掘、可視化展示、應(yīng)用開發(fā)為一體的綜合性數(shù)據(jù)處理產(chǎn)品,其可幫助用戶構(gòu)建海量數(shù)據(jù)處理系統(tǒng),發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在價值。系統(tǒng)向下能采集用戶多源異構(gòu)的數(shù)據(jù)集,向上可構(gòu)建快捷的分析應(yīng)用。產(chǎn)品問世以來,已通過權(quán)威評測機構(gòu)數(shù)據(jù)中心聯(lián)盟的基礎(chǔ)能力及性能專項測評。其中功能測評通過全部28大項測試。性能專項,在6個廠家的12項測試中獲得6項第一,4項第二,產(chǎn)品整體能力獲得業(yè)界一致認(rèn)可。
在高校教育信息化領(lǐng)域,通過對重點應(yīng)用場景的分析,涉及數(shù)據(jù)類型包括業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)、實時流數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù)據(jù)這四種,H3C DataEngine大數(shù)據(jù)平臺針對以上數(shù)據(jù)類型的特點,優(yōu)化了底層數(shù)據(jù)庫處理平臺,內(nèi)置了常見大數(shù)據(jù)分析算法,涵蓋深度學(xué)習(xí)、流數(shù)據(jù)挖掘、文本處理,以及大規(guī)模機器學(xué)習(xí),并提供可視化數(shù)據(jù)挖掘組件服務(wù)。
本應(yīng)用通過學(xué)校統(tǒng)一數(shù)據(jù)中心實現(xiàn)評教數(shù)據(jù)庫與校主數(shù)據(jù)倉庫的數(shù)據(jù)交換、管理,在數(shù)據(jù)交換任務(wù)中,進行數(shù)據(jù)處理,包括去除空數(shù)據(jù)、補齊空余字段等,查詢出每條學(xué)生評教數(shù)據(jù)的主觀評價內(nèi)容。
具體實現(xiàn)流程為:
一是詞庫準(zhǔn)備。結(jié)合實際場景,以數(shù)據(jù)檢索、去重的方式建立評價詞庫。
二是語料處理、拆分詞匯等。加載停詞表,利用結(jié)巴分詞(jieba)將需要分析的語句拆分成詞匯。
三是情感分析。將拆分好的詞匯與自定義的語句分析表對應(yīng),利用自然語言處理模塊(NLTK)分析積極與消極詞匯。
四是結(jié)果寫入數(shù)據(jù)庫。遍歷每一條主觀評教數(shù)據(jù),將處理結(jié)果寫入評教庫中,如圖1所示。
圖1 將主觀評教數(shù)據(jù)寫入數(shù)據(jù)庫中
第一列為拆分后的評價內(nèi)容,用來展示頁面上的學(xué)生評價語義分析和學(xué)生詳細(xì)評價。標(biāo)記一的內(nèi)容為積極評價數(shù),標(biāo)記二的內(nèi)容為消極評價數(shù)。
教學(xué)評價系統(tǒng)可視化設(shè)計采用了echarts開發(fā)組件,可以流暢的運行在 PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器,底層依賴輕量級的 Canvas 類庫 ZRender,提供直觀,生動,可交互,可高度個性化定制的數(shù)據(jù)可視化圖表。
本案例采用了多種豐富的可視化設(shè)計效果,采用了包括雷達圖、餅圖、詞云分析等多種圖例,直觀展示自然語言情感分析結(jié)果,用戶普遍反映良好。
客觀評價分別來源于專家、教師、學(xué)生三類人群打分分值,并且通過建立數(shù)據(jù)模型,從學(xué)生、教師、班級三個角度來對原始數(shù)據(jù)進行處理與和優(yōu)化,以解決惡意評教、數(shù)據(jù)區(qū)分度不夠等問題。最終結(jié)果以百分制采用流量圖形式進行展示。
學(xué)生評價的具體語句以自動滾動的方式進行展現(xiàn);學(xué)生評價語義分析以環(huán)狀圖的方式展示篩選出的排名前十名的評價關(guān)鍵詞;情感分析結(jié)果以正面和負(fù)面評價人數(shù)及其占比的方式展現(xiàn)該名教師正負(fù)面情感分析結(jié)果。
目前,經(jīng)過小范圍使用測試,學(xué)院的教學(xué)管理人員和教師均對此表示認(rèn)可,該系統(tǒng)能有效利用海量的主觀評教數(shù)據(jù),大大加深了他們對于學(xué)生評教反饋的理解和認(rèn)識。
雖然,利用NLP進行教評情感分析已大大提高了學(xué)生主觀評價數(shù)據(jù)的利用度,也能基本準(zhǔn)確反映教學(xué)評價的主觀分析結(jié)果,但在處理過程中,仍存在著一定缺陷。
第一,由于中文語義表達的豐富性而出現(xiàn)誤差。如某同學(xué)評價語句為:“課程太難,不好理解”,拆分詞匯后“太難”、“不好理解”會被定義為負(fù)面評價詞匯,但實際上該同學(xué)僅是對課程做出評價,并不是對老師的教學(xué)進行評價,因而出現(xiàn)誤判。
第二,詞庫的詞匯量有限,對判斷結(jié)果的分析具有局限性。詞典匹配法先天特點決定,詞庫質(zhì)量直接影響結(jié)果的準(zhǔn)確性。實驗中,我們采用的積極詞匯和消極詞匯的詞庫詞匯量有限,當(dāng)超出詞庫所包含的詞語范圍后,便無法對某些詞語進行分析匹配。當(dāng)學(xué)生使用一些新奇詞匯(如網(wǎng)絡(luò)用語和新出現(xiàn)的流行語等)進行評價時,此分析方法將會具有一定的局限性,需定期對詞庫進行補充升級。
第三,利用機器學(xué)習(xí)的方法進行情感分析。機器學(xué)習(xí)的文本分析方法有很多,如樸素貝葉斯和支持向量機等模型構(gòu)建方法,或者采用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)分析復(fù)雜文本,目前進步非???,由于是從大量訓(xùn)練樣本數(shù)據(jù)中學(xué)習(xí)分類模型,這種方法具有人工干預(yù)少、通用性和靈活性較強且對領(lǐng)域和語言知識要求較少等優(yōu)點。對于長文本,復(fù)雜語義的內(nèi)容,使用機器學(xué)習(xí)的方法進行分析,準(zhǔn)確度將大大提高,同時不再受詞匯庫等的局限。未來,計劃采用機器學(xué)習(xí)、深度學(xué)習(xí)方法進一步改進分析模型,使其使用范圍更廣,應(yīng)用效果更好。