■劉各巧,陸海峰,金莉蘋
(1.四川廣播電視大學(xué)工程技術(shù)學(xué)院,四川成都 610021;2.國家開放大學(xué)教育信息管理與信息系統(tǒng)研究中心,四川 成都 610021)
在知識開放共享的時代背景下,大量在線學(xué)習(xí)平臺不斷涌現(xiàn)。豐富的學(xué)習(xí)資源、開放的平臺以及不受時空限制的學(xué)習(xí)模式吸引了大量學(xué)習(xí)者參與在線學(xué)習(xí),與此同時,平臺中積累了大量的學(xué)習(xí)行為數(shù)據(jù)。學(xué)習(xí)分析專家George Siemens教授[1]指出,對教學(xué)過程中的行為進行分析加速了教育數(shù)據(jù)挖掘和學(xué)習(xí)分析兩個重要分支的發(fā)展,其中學(xué)習(xí)分析旨在理解學(xué)習(xí)者的學(xué)習(xí)行為和心理特征。學(xué)習(xí)行為是學(xué)習(xí)分析的主要研究對象。在線學(xué)習(xí)分析不僅應(yīng)當(dāng)關(guān)注顯性學(xué)習(xí)行為,如瀏覽、做作業(yè)和考試等,還需關(guān)注一些隱形學(xué)習(xí)行為,如對課程的評論和論壇中的討論等。學(xué)習(xí)平臺中存儲的隱性學(xué)習(xí)行為極具價值,但在大多數(shù)研究中這些隱形學(xué)習(xí)行為數(shù)據(jù)往往被忽略,沒有得到更好的利用。隨著大規(guī)模開放在線課程的蓬勃發(fā)展,在線教育已從課程資源積累期逐步進入課程質(zhì)量提升期,這種變化使得針對在線課程質(zhì)量的評價數(shù)據(jù)受到重視。此外,這些評價數(shù)據(jù)中蘊含了學(xué)習(xí)者的情感痕跡,可以為教學(xué)決策、平臺建設(shè)、資源開發(fā)提供重要參考,因而受到研究者的重視。
為了能夠更好地獲取在線學(xué)習(xí)平臺中課程評價數(shù)據(jù)所蘊含的價值信息,本文通過依存句法分析和模板匹配方式抽取出課程評價數(shù)據(jù)中的評價觀點和期望觀點,隨后采用基于情感詞典方式識別評價觀點的情感傾向,進而從課程、授課教師、授課方式、學(xué)習(xí)感悟以及在線教學(xué)平臺等5個評價維度對學(xué)習(xí)者的評價和期望進行分析,以期對在線課程的質(zhì)量提升提供參考。
近年來,學(xué)習(xí)者在線文本交互中的情感和主題檢測日益受到關(guān)注。目前,已有部分針對在線學(xué)習(xí)平臺中文本內(nèi)容進行分析研究,例如,開放大學(xué)Ferguson等人[2]構(gòu)建一套基于標(biāo)注特征的訓(xùn)練模型來自動化探究話語的類型,完成對論壇中話語的二元分類;馬里蘭大學(xué)Ramesh等人[3]提出了一種基于種子詞的話題模型方法來挖掘MOOC平臺中學(xué)習(xí)者的話語內(nèi)容,旨在幫助預(yù)測其課程通過率;卡耐基梅隆大學(xué)的Wen等人[4]通過分析Coursera平臺中的討論帖,采用情感分析技術(shù)來監(jiān)測學(xué)習(xí)集體在課程中的情感演化趨勢,并發(fā)現(xiàn)其情感比率與退課率有顯著的關(guān)聯(lián);Wyner等人[5]在在線異步討論論壇上開展了問答情緒分析,提出了在討論一定教學(xué)主題引起對話中產(chǎn)生的五種情緒類別,如緊張、挫折、高確定性、低確定性和禮貌等對話中產(chǎn)生的五種情緒類別,以量化學(xué)習(xí)效果;Munezero等人[6]采用八種情緒分類對在線學(xué)習(xí)日記進行情緒識別,以跟蹤學(xué)生的情緒狀態(tài);Tian等人[7]提出了電子學(xué)習(xí)環(huán)境下交互式中文文本的情感識別框架。該框架可以提取互動對話中的主題,識別學(xué)習(xí)者的情感狀態(tài)。
總體來看,上述文獻大多數(shù)主要是針對某一門課程、某一專業(yè)或某一類話題等進行觀點分類和情感識別,這會導(dǎo)致算法應(yīng)用及數(shù)據(jù)的分析具有一定局限性。本文將從當(dāng)前國內(nèi)外最流行的且具有完善學(xué)習(xí)者評價體系的MOOC平臺上采集2000余門課程的21萬余條評價數(shù)據(jù),并對其進行觀點(正反面)抽取和情感分析,同時開創(chuàng)性地對評價數(shù)據(jù)中學(xué)習(xí)者的期望觀點進行挖掘,旨在充分地了解學(xué)習(xí)者的實際需求和期望,從學(xué)習(xí)者視角來對課程建設(shè)、教學(xué)模式改革以及平臺功能優(yōu)化等方面提出意見和建議。
本文所述的研究框架如圖1所示,研究過程包括評價數(shù)據(jù)采集及預(yù)處理、評價數(shù)據(jù)分詞及詞性識別、評價數(shù)據(jù)依存句法分析、評價觀點和期望觀點抽取、評價情感識別等5個步驟。
圖1 課程評價數(shù)據(jù)的觀點抽取和情感識別框架
本文的課程評價數(shù)據(jù)來源于中國大學(xué)MOOC(慕課)(https://www.icourse163.org/) 和 Coursera(www.coursera.org)兩個平臺上2474門課程的共計21萬條課程評價數(shù)據(jù),具體數(shù)據(jù)概況如表1所示。使用自行編寫的爬蟲程序從中國大學(xué)MOOC平臺和Coursera平臺上采集課程評價數(shù)據(jù),數(shù)據(jù)項包括平臺名稱、課程ID、課程名稱、評論文本、用戶名等。在采集過程中去除一些不相關(guān)的信息和重復(fù)的樣本,對評價數(shù)據(jù)進行預(yù)處理操作。
表1 評價數(shù)據(jù)概況
本文使用的分詞及詞性工具是HanLP[8],HanLP是一系列模型與算法組成的NLP工具包,提供詞法分析(中文分詞、詞性標(biāo)注、命名實體識別)、句法分析等功能。但在進行分詞及詞性識別過程中,發(fā)現(xiàn)通用的分詞算法對于本領(lǐng)域內(nèi)的一些專業(yè)詞匯不能做很好的區(qū)分,如表2中展示的例句“內(nèi)容很好,但希望授課方式可以再生動流暢一些。PPT有些欠條理,如果能總結(jié)知識點,并且提供下載就更好了”。其中“欠條理”“如果能”“就更好了”可以看作一個詞語,“欠條理”可以看作是一個用來修飾PPT的形容詞,“如果能”“就更好了”可以視為期望詞(將在后續(xù)作詳細介紹)。為了解決該問題,我們整理出一份行業(yè)詞典,并將其作為自定義詞典加載至分詞算法中,對分詞算法進行優(yōu)化。經(jīng)驗證,采用該方法的分詞結(jié)果更為準(zhǔn)確。
表2 評價語句的分詞及詞性分析示例
依存句法是由法國語言學(xué)家L.Tesniere最先提出[8],其主要是將句子分析成一棵依存句法樹,描述出各個詞語之間的依存關(guān)系。基于前序步驟,本文將使用依存句法分析算法確定評價數(shù)據(jù)的語法體系,然后推導(dǎo)出句法結(jié)構(gòu),分析評價語句中所包含的句法單位及之間的關(guān)系。例如,“內(nèi)容很好,但希望授課方式可以再生動流暢一些。PPT有些欠條理,如果能總結(jié)知識點,并且提供下載就更好了。”的依存句法分析結(jié)構(gòu)如表3所示,在表3中依存關(guān)系表示當(dāng)前詞語和關(guān)系id對應(yīng)的詞語之間的句法關(guān)聯(lián)關(guān)系,其中核心關(guān)系表示該詞是整個句子的核心,它的關(guān)系詞語id是0,是整個依存句法樹的根。句子中其他詞語直接或者間接與核心詞語存在關(guān)聯(lián)關(guān)系。比如id=1的“內(nèi)容”這個詞語和id=2詞語“很好”之間存在一種主謂關(guān)系的依存關(guān)系,其中名詞性詞語“內(nèi)容”作為主語是評價的對象,形容詞性詞語“很好”作為謂語是評價的情感特征。
表3 評價語句的依存句法分析示例
從語言學(xué)的角度來看,評價對象與其對應(yīng)的評價情感特征之間滿足一定的依存關(guān)系?;诖?,我們在采集的評價數(shù)據(jù)集上通過統(tǒng)計詞語的詞性和依存關(guān)系出現(xiàn)的頻率,選取出現(xiàn)頻率較高的規(guī)則來建立評論觀點抽取規(guī)則,形成依存匹配規(guī)則庫,如表4為部分評論觀點抽取規(guī)則。為了提高規(guī)則的適用度,在選取依存匹配規(guī)則時,需考慮選擇名詞性詞語或代詞作為評價對象,形容詞、副詞、動詞以及情感詞典作為評價情感詞。
評價數(shù)據(jù)不僅僅包括對課程、授課教師及授課方式等進行客觀評價,同時學(xué)習(xí)者還會根據(jù)自身需求提出主觀期望。為能夠更好地抽取評價數(shù)據(jù)中的評價觀點和期望觀點并識別情感,基于第三步驟基礎(chǔ)上,通過將依存匹配規(guī)則抽取出評價觀點的直接關(guān)系詞,與期望詞典中的詞語進行比對判定當(dāng)前的觀點屬于評價觀點還是期望觀點,為此根據(jù)課程評價的數(shù)據(jù)特征手工整理了一份期望詞典,如表5所示?;诖?,本文中的評論觀點將使用<評價對象,情感特征>二元組表示,其中評價對象為評論觀點的評價維度,如課程、授課教師、授課方式以及在線教學(xué)平臺等,情感特征為對評價對象發(fā)表的觀點或情感表達。但僅僅將情感特征抽取出來往往還不夠完善,缺乏情感傾向分析,我們將在第五步評價情感識別中補充情感的程度修飾詞和否定修飾詞,完善觀點的情感特征,并計算情感極性。
本步驟主要工作是基于第四步抽取出的評價對象和情感特征基礎(chǔ)上識別出評價數(shù)據(jù)中情感特征的情感傾向。為了準(zhǔn)確描述評價的情感特征,用定義<情感特征,否定修飾詞>程度修飾詞三元組來表示一個情感特征。
首先,提取情感三元組。在實際語言表述中,情感表述往往會搭配一些副詞來修飾。比如:“不”“很”“非?!薄坝幸稽c”等,這種修飾詞語可以分為兩類:一類是程度修飾,如表6中展示的“非?!薄坝行钡龋@類修飾詞會增強或者減弱被修飾詞所表達的情感特征,而不會完全改變被修飾詞的情感極性。另一類是否定修飾,如表6中展示的“不”“非”等,這類修飾詞會將被修飾詞所表達的情感特征置反。我們將使用依存句法分析的方式來提取評價數(shù)據(jù)中表達情感傾向特征詞的否定修飾詞和程度修飾詞,即在依存句法樹上提取出與情感特征詞有直接關(guān)系的否定修飾詞和程度修飾詞。為了解決程度修飾詞和否定修飾詞互相修飾的情況,再遞歸查找提取出的與程度修飾詞和否定修飾詞還有直接關(guān)系的否定修飾詞和程度修飾詞。
表4 依存匹配規(guī)則庫部分規(guī)則表
表5 期望詞典
表6 部分常用情感特征修飾詞表
其次,確定情感傾向的極性(正評價、負評價和中性評價)。我們采用基于情感詞語詞典的方法計算評價情感特征詞語的情感極性,參考知網(wǎng)Hownet[9]的情感詞語極性表對評論數(shù)據(jù)集中抽取出的評價情感詞語進行極性的設(shè)置,如果評價情感詞語不存在情感詞語詞典中,則通過計算該詞語與詞典中詞語的相似度判斷它的極性。具體的做法是引入Word2vec詞向量模型[10],Word2vec是2013年Google開發(fā)的一款用于詞向量計算的工具,可以很好地度量詞與詞之間的相似性。我們在通用文本數(shù)據(jù)集和本文所使用的評價數(shù)據(jù)集上訓(xùn)練了Word2vec。對于不存在情感詞語詞典中的情感詞極性的計算,采用已訓(xùn)練的Word2vec模型獲取情感特征詞語的稠密向量表示,并計算該向量與情感詞典中詞語向量表示最相似的5個情感特征詞語,統(tǒng)計排名前五個的詞語極性,采取投票機制確定該詞的最終極性。
最后,結(jié)合上述步驟獲取的程度修飾詞、否定修飾詞及情感詞極性共同確定情感特征的情感傾向。
本文采用“數(shù)據(jù)采集—分詞及詞性識別—依存句法分析—評價觀點及期望抽取—評價情感識別”的技術(shù)路線對21萬條課程評價數(shù)據(jù)進行觀點抽取及情感識別,將抽取出的觀點分為評價觀點和期望觀點,其中評價觀點172種81277條,期望觀點56種1289條。下面將對這兩種觀點分別進行分析:
圖2 評價維度類別占比
圖3 正面評價觀點
圖4 負面評價觀點
學(xué)習(xí)者的課程評價是反映在線課程質(zhì)量的一種重要途徑,與通過問卷調(diào)查獲悉教學(xué)質(zhì)量不同,學(xué)習(xí)者評價和反饋是以非結(jié)構(gòu)化文本數(shù)據(jù)的形式嵌入到課程評論區(qū)中,這無疑增加了數(shù)據(jù)處理的難度。本研究采取基于依存句法分析和模板匹配方式,將蘊含在課程評論中學(xué)習(xí)者對課程內(nèi)容、授課教師、授課方式以及在線學(xué)習(xí)平臺等方面真實的評價觀點抽取出來,并識別出觀點的情感極性。根據(jù)評價維度的主題方向,將評價維度分為對授課教師、課程、教學(xué)方式、在線教學(xué)平臺、學(xué)習(xí)感悟等五個方面。如圖2所示,學(xué)習(xí)者的評價觀點中對課程內(nèi)容的評價占比最高,達到54.55%,排名第二的學(xué)習(xí)感悟類占比為38.03%,對授課教師、授課方式、教學(xué)平臺的評價占比較少,分別為4.74%、2.39%、0.29%。學(xué)習(xí)者在評論課程時更聚焦于課程的內(nèi)容、設(shè)計及質(zhì)量,同時也有大量的學(xué)習(xí)者在課程評論中表達自己的學(xué)習(xí)感悟,這些感悟絕大多數(shù)體現(xiàn)在課程的實用性以及對工作、生活能有所幫助。對感悟類頻度較高的評價觀點進行課程評論追溯后,發(fā)現(xiàn)這些課程大多都是集中于生活、健康、工作,比如“心理急救”“運動科學(xué)”“斯坦福食品與健康導(dǎo)論”等,這從側(cè)面說明了新時代快節(jié)奏的工作壓力下,學(xué)習(xí)者更加注重生活和健康。從對教師及授課方式的整體評價來看,學(xué)習(xí)者更偏好教師思路清晰、課程內(nèi)容講解詳細、授課方式生動有趣的教學(xué)模式,同時課程若能夠提供視頻、教學(xué)實踐或項目會更好,這有利于學(xué)習(xí)者課后查漏補缺,完善知識框架。
在評價觀點的情感極性方面,正面評價的占比達到95.25%,如圖3所示,其中課程類評價占比最高,這說明大部分學(xué)習(xí)者對課程內(nèi)容、設(shè)計以及授課方式感到滿意,同時也說明了中國大學(xué)MOOC和Coursera平臺上的課程絕大多數(shù)都是優(yōu)質(zhì)的,這離不開知名教育機構(gòu)的參與,更離不開課程教師對課程結(jié)構(gòu)的精心設(shè)計、對課程資源的不斷豐富完善以及生動有趣的授課方式等。但仍有4.75%的負面評價觀點,如圖4所示,這些負面觀點主要是因為課程有錯誤、沒有解釋及課程無趣等引發(fā)的。為了更好地了解產(chǎn)生錯誤的原因,追溯課程評論后發(fā)現(xiàn)課程存在的錯誤主要分布在案例、課件(PPT)、測驗、練習(xí)及習(xí)題等;課程沒有解釋評論主要集中在計算機、數(shù)學(xué)類課程中,比如“掌握Excel中的數(shù)據(jù)分析”“大數(shù)據(jù)建模與管理系統(tǒng)”等,具體體現(xiàn)為代碼沒有注釋、關(guān)鍵概念沒解釋、關(guān)鍵操作步驟沒解釋、推導(dǎo)過程沒解釋等;課程無聊及浪費時間主要體現(xiàn)在課程內(nèi)容設(shè)計不符合學(xué)習(xí)者現(xiàn)實需求、課程內(nèi)容粗糙、平臺在處理用戶撤銷購買課程不及時導(dǎo)致收費、反饋的問題沒能得到解決以及課程的任務(wù)結(jié)構(gòu)設(shè)置不合理等問題。相對于正面的評價,負面評價更能幫助授課教師、平臺管理者及時掌握學(xué)習(xí)者的學(xué)習(xí)狀況、對課程的滿意度以及對平臺的訴求等,與此同時做出適當(dāng)調(diào)整。
通過對圖5中展示的期望觀點及頻度進行分析,期望觀點主要聚焦于課程學(xué)習(xí)支持、課程內(nèi)容及設(shè)計、授課方式及交流互動等方面。關(guān)于課程學(xué)習(xí)支持的總體期望方面,較多學(xué)習(xí)者提出了期望課程有幫助和可以獲得知識,追溯到原始評價中發(fā)現(xiàn),這類期望大部分是在課程新開設(shè)不久或?qū)W習(xí)者剛學(xué)課程不久發(fā)表的占居多。一方面可能是學(xué)習(xí)者對課程整體內(nèi)容設(shè)計不夠了解,另一方面學(xué)習(xí)者從自身現(xiàn)實需求出發(fā),對后續(xù)課程內(nèi)容表達學(xué)習(xí)期望。同時,也提醒了授課教師應(yīng)注重課程目錄的建設(shè)和提前公布,讓學(xué)習(xí)者在選擇課程時能更清晰地了解到課程的內(nèi)容和所包含的知識,減少選擇課程時的迷茫。
1.關(guān)于課程內(nèi)容及設(shè)計方面,學(xué)習(xí)者期望課程涵蓋基礎(chǔ)知識,授課教師能對必要的概念進行解釋,同時能夠豐富課程內(nèi)容,對于一些常規(guī)課程或?qū)嵺`操作類課程能夠設(shè)計得更具有挑戰(zhàn)性。這無疑對授課教師提出了更高的要求,教師在進行課程內(nèi)容設(shè)計時需多注意突出課程的新穎、實用、有趣等,讓學(xué)習(xí)者保持放松狀態(tài)就能高效地獲取知識。部分學(xué)習(xí)者期望課程能夠提供資源下載的功能,包含課程視頻、課件(PPT)、作業(yè)及習(xí)題等下載。平臺管理者在滿足學(xué)習(xí)者下載功能需求時,還應(yīng)該注意保護課程制作者的知識產(chǎn)權(quán),促進在線教學(xué)平臺健康持續(xù)的發(fā)展。
圖5 期望觀點
2.關(guān)于授課方式方面,少部分學(xué)生提出期望授課教師能夠總結(jié)知識點、課程內(nèi)容講得仔細和具體些、講課速度快一些,這些需求的提出主要是因為每位學(xué)習(xí)者在知識儲備、理解能力等方面存在個體差異而導(dǎo)致的,這也是“因材施教”在線上教學(xué)的一個具體體現(xiàn)。
3.關(guān)于互動交流方面,學(xué)習(xí)者期望平臺能提供作業(yè)點評、字幕以及彈幕等功能,這些功能的核心在于互動交流,包括學(xué)習(xí)者與學(xué)習(xí)者、學(xué)習(xí)者與教師之間的交流。課程字幕功能可以解決學(xué)習(xí)者在學(xué)習(xí)過程中因教師口音差異、語言差異而導(dǎo)致學(xué)習(xí)中斷的問題,輔助學(xué)習(xí)者更清楚了解課程內(nèi)容;同時還有助于課程的跨語種推廣,擴大課程的覆蓋面。彈幕是指直接顯現(xiàn)在視頻上的評論性字幕,以滾動、停留甚至更多動作特效方式在視頻上呈現(xiàn),是視頻觀看者發(fā)送的簡短評論,是近年來一種新興的視頻觀看體驗。部分學(xué)習(xí)者期望課程能增加彈幕的功能,一方面將有助于學(xué)習(xí)者之間的溝通交流,另一方面還可以增加學(xué)習(xí)的樂趣。但過多的字幕可能會干擾學(xué)習(xí)者的學(xué)習(xí)進度和效果,同時彈幕是由學(xué)習(xí)者自主發(fā)表的,這會導(dǎo)致彈幕質(zhì)量參差不齊,因此還需要平臺管理者能積極地引導(dǎo)學(xué)習(xí)者發(fā)表正面向上的彈幕,為在線教學(xué)建立和諧的學(xué)習(xí)環(huán)境。