張 瑩 宋 磊 韓 丹 蔡永明
濟南大學商學院 山東濟南 250022
自美國麻省理工學院2001年啟動開放課程運動后,各國200多所名校逐漸加入開放課程體系。近年來,國內網絡教育平臺進入飛速發(fā)展時期,目前較著名的平臺主要有網易公開課、MOOC學院、Coursera等。大量優(yōu)質課程資源在各大學習平臺聚集,涵蓋國內外高校開設的精品開放課程,學習者可以通過網絡挑選課程并進行自主學習。然而,面對海量的學習資源,學習者如何快速找到適合自己的課程資源成為一大難題。學習者大多通過課程簡介選擇課程,很多人往往花費了數(shù)小時之后才發(fā)現(xiàn)課程內容、講授方式并不適合自己。因此,急需一種方法幫助學習者快速、有效地把握課程內容、講課風格及講授質量。
在網絡課程內容評價方面,早有研究者從各個角度給出評判。宋志明[1]提出傳承知識、啟迪智慧,滿足學習者的學習需求是網絡公開課的主要目的。劉進軍(2011)[2]提出要建立完善的評價體系,實行學生和專家打分評價的模式。孫傳遠(2013)分析愛課程網的評論內容得出了開放課程質量評價的八個維度,給出正面或負面的評價傾向[3]。上述研究主要停留在人工評價方面,面對海量課程信息該方法費時費力,效率不高。本文利用LDA文本挖掘技術通過抽取用戶評論的主題,獲取課程的內容主題及用戶評論的情感傾向,為后來學習者提供課程選擇的重要依據。
潛在狄利克雷分配模型LDA是由DavidM.Blei等人在2003年提出的一種概率主題模型。其在PLSA基礎上,增加了文檔-主題分布及主題-特征詞的Dirichlet共軛先驗,生成一種更完備的概率主題模型。其貝葉斯生成圖如圖1所示。圖中,K為主題個數(shù),M為文檔總數(shù),Nm是第m個文檔的單詞總數(shù)。 是每個主題下詞的多項分布的 Dirichlet先驗參數(shù),是每個文檔下主題的多項分布的 Dirichlet先驗參數(shù)。Zm,n是第m個文檔中n個詞的主題,Wm,n是m個文檔中的n個詞。兩個隱含變量 m和 k分別表示第m個文檔下的主題分布和第k個主題下的單詞分布,前者是k維(k為主題總數(shù))向量,后者是v維向量(v為詞典中單詞的總數(shù))。
圖1 LDA貝葉斯生成模型圖
文檔的生成過程可描述為:首先,依據參數(shù) ,生成文檔-主題多項式分布 和主題-單詞多項式分布 ;其次,對第m篇文檔,隨機抽樣 得到文檔中每個詞的主題分布 m;根據所得每個詞所在的主題k,隨機抽樣 k到主題上的一個單詞。持續(xù)該過程直到生成整篇文檔。
本文以網易公開課浙江大學《王陽明心學》為研究對象,該課程共9集,由浙江大學董平老師主講,目前在網易公開課平臺上有5874人參與學習,579人跟帖評論。自課程站點(http://open.163.com/movie/2011/10/F/G/ M7GF17HPS_M7GHGQTFG.html)利用火車頭軟件抓取該頁面中的用戶評論數(shù)據,部分評論數(shù)據如下面圖2所示:
圖2 《王陽明心學》網絡評論數(shù)據
為保證分類過程中各環(huán)節(jié)的透明化,以減少中間過程的不可控因素,因此分詞方法主要采用中科院ICTCLAS分詞系統(tǒng)進行分詞,經過分詞、去除重復詞匯和停用詞、以及網頁非文字符號,生成分析語料庫。對模型進行訓練以獲取最優(yōu)參數(shù)的設定,將LDA模型中超參數(shù) 和 設為默認值 =50/k,=0.01,迭代次數(shù)設置為1000次。本文采用困惑度結合肉眼觀察結果,模型主題數(shù)最終確定為4個。從主題分布上看,比較突出的主題詞是“王陽明”,查看相關主題詞主要有:“不錯”、“內容”、“平淡”、“唯心”……,分析可見該課程隸屬唯心主義范疇,內容尚可,講課風格比較平淡。
對網絡課程的在線評論進行主題抽取,能快速獲取評論中的有效信息內容,為后來學習者和主講教師提供了重要的參考依據。不足之處在于,受分詞影響,主題挖掘僅能獲取零散的用戶評論中的情感詞,未能全面刻畫課程不同緯度的精確情感傾向。因此,下一步擬針對網絡課堂在線評論展開意見挖掘研究。
[1]宋志明.視頻公開課“中國傳統(tǒng)哲學通論”建設的經驗與體會[J].中國大學教學,2012,(1):13-15.
[2]劉進軍.視頻公開課:有挑戰(zhàn)才有價值[J].中國教育網絡,2011,(7):20.
[3]孫傳遠,劉玉梅.中國大學視頻公開課評價——基于愛課程網“精彩評論”的內容分析研究[J].現(xiàn)代教育技術,2013,23(12):91-95.