田娜 周驛 嚴(yán)蓉
摘 要:為深入挖掘和分析在線課程討論區(qū)中的文本數(shù)據(jù),有效識(shí)別出參與該課程學(xué)習(xí)者關(guān)注的話題,改進(jìn)在線課程教學(xué)效果,通過(guò)對(duì)學(xué)習(xí)者討論文本進(jìn)行高頻詞匯分析,得到詞云圖,形成對(duì)學(xué)習(xí)者關(guān)注內(nèi)容的整體認(rèn)識(shí);利用LDA話題模型對(duì)學(xué)習(xí)者的討論文本數(shù)據(jù)進(jìn)行話題挖掘,得到9個(gè)熱點(diǎn)話題。實(shí)驗(yàn)結(jié)果表明,學(xué)習(xí)者在線討論關(guān)注話題主要涉及Python語(yǔ)言編程基礎(chǔ)知識(shí)、課程證書(shū)、作業(yè)測(cè)試、開(kāi)發(fā)環(huán)境配置以及第三方庫(kù)的安裝等。利用LDA模型可以從大量課程討論文本數(shù)據(jù)中有效識(shí)別出學(xué)習(xí)者關(guān)注話題,進(jìn)而改進(jìn)在線課程。
關(guān)鍵詞:MOOC;課程討論話題;LDA;主題模型;話題挖掘
DOI:10. 11907/rjdk. 191855 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)005-0168-05
0 引言
MOOC一詞自出現(xiàn)以來(lái),就以其課程資源開(kāi)放性、不受觀看時(shí)間地點(diǎn)限制等特點(diǎn)引起廣泛關(guān)注[1]。這種新型的課程教學(xué)方式打破了傳統(tǒng)教學(xué)局限于教室、學(xué)校的時(shí)空界限,使教學(xué)內(nèi)容不再局限于課本,推動(dòng)了傳統(tǒng)教育教學(xué)模式的轉(zhuǎn)變,給教育教學(xué)注入了新活力[2]。教育部《2019年教育信息化和網(wǎng)絡(luò)安全工作要點(diǎn)》中提出:“要擴(kuò)大高校優(yōu)質(zhì)教育資源覆蓋面,積極服務(wù)學(xué)習(xí)型社會(huì)建設(shè),繼續(xù)推動(dòng)國(guó)家開(kāi)放大學(xué)網(wǎng)絡(luò)學(xué)習(xí)課程、通識(shí)課程、五分鐘課程等,使上線的網(wǎng)絡(luò)課程總量超過(guò)350門(mén),啟動(dòng)100門(mén)大規(guī)模在線開(kāi)放課程建設(shè)[3]?!痹谶@樣的背景下,各高校積極進(jìn)行MOOC課程建設(shè),涌現(xiàn)了一批優(yōu)秀在線課程學(xué)習(xí)平臺(tái),如中國(guó)大學(xué)MOOC、網(wǎng)易云課堂、愛(ài)課程網(wǎng)等。
在線課程討論區(qū)作為在線學(xué)習(xí)平臺(tái)學(xué)習(xí)者與學(xué)習(xí)者之間、學(xué)習(xí)者與教師之間最直接的交流空間,是當(dāng)前在線課程教學(xué)常用的輔助手段之一,其中包含學(xué)習(xí)者的重要學(xué)習(xí)內(nèi)容與學(xué)習(xí)行為數(shù)據(jù),對(duì)學(xué)習(xí)者的知識(shí)建構(gòu)、增強(qiáng)學(xué)習(xí)者之間的互動(dòng)以及教師進(jìn)行教學(xué)設(shè)計(jì)等具有重要意義[4]。但實(shí)踐中發(fā)現(xiàn)也有學(xué)習(xí)者沒(méi)有從MOOC平臺(tái)的學(xué)習(xí)中獲得足夠的知識(shí),MOOC未體現(xiàn)出應(yīng)有的價(jià)值,導(dǎo)致MOOC的高退學(xué)率。在MOOC論壇開(kāi)展相互討論在一定程度上可以解決該問(wèn)題[5]。
Kiemer等[6]研究證明,通過(guò)課堂的交互性對(duì)話,能夠激發(fā)學(xué)習(xí)者的內(nèi)在學(xué)習(xí)動(dòng)機(jī)和能力,增強(qiáng)課堂活力。雖然在線課程討論區(qū)具有眾多優(yōu)勢(shì),但是許多討論區(qū)存在學(xué)習(xí)者參與互動(dòng)頻率低、互動(dòng)話語(yǔ)質(zhì)量差等問(wèn)題。由于缺乏積極有效的引導(dǎo),在討論區(qū)中進(jìn)行討論時(shí),學(xué)習(xí)者之間的對(duì)話稍有不慎就會(huì)偏離主題;而討論區(qū)主題大都強(qiáng)調(diào)以教師為中心,忽視了不同學(xué)習(xí)者的個(gè)性化需求,造成學(xué)習(xí)者參與討論不積極。現(xiàn)在的在線課程討論區(qū)支持學(xué)習(xí)者發(fā)布文本,以此表達(dá)對(duì)某一問(wèn)題的看法或提出自己的問(wèn)題。文本作為學(xué)習(xí)群體之間一種普遍的交流方式,能夠表現(xiàn)出學(xué)習(xí)者自身心理加工過(guò)程,是學(xué)習(xí)動(dòng)機(jī)、認(rèn)知發(fā)展、情感態(tài)度、學(xué)習(xí)體驗(yàn)等的真實(shí)表現(xiàn)[7]。通過(guò)對(duì)在線課程討論區(qū)學(xué)習(xí)者互動(dòng)文本進(jìn)行挖掘與分析,可以有效反映學(xué)習(xí)者的學(xué)習(xí)現(xiàn)狀、促進(jìn)教師教學(xué)方法創(chuàng)新,對(duì)學(xué)生整體行為進(jìn)行監(jiān)控和預(yù)警。當(dāng)前,在線學(xué)習(xí)平臺(tái)主要依賴學(xué)習(xí)時(shí)長(zhǎng)、觀看視頻時(shí)長(zhǎng)、參與討論次數(shù)、考試成績(jī)等結(jié)構(gòu)化數(shù)據(jù)反饋學(xué)習(xí)情況,較少對(duì)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)(文本、圖片、視頻等)進(jìn)行研究與運(yùn)用 [8]。如果采用傳統(tǒng)的內(nèi)容分析法會(huì)存在費(fèi)時(shí)費(fèi)力、評(píng)價(jià)主觀性和反饋滯后性等問(wèn)題[9]。因此,通過(guò)對(duì)在線課程論壇中的文本數(shù)據(jù)進(jìn)行挖掘與分析,對(duì)促進(jìn)在線課程開(kāi)展具有重要意義。
1 文獻(xiàn)綜述
國(guó)外對(duì)在線學(xué)習(xí)研究起步較早,主要聚焦于學(xué)習(xí)行為研究、學(xué)習(xí)效果影響因素研究及在線學(xué)習(xí)工具、學(xué)習(xí)預(yù)警等。對(duì)于在線課程論壇,國(guó)外研究者也從聚焦于研究行為數(shù)據(jù)轉(zhuǎn)向分析論壇文本,關(guān)注于發(fā)現(xiàn)與挖掘論壇討論主題。Ezen-Can等[10]使用聚類(lèi)方法對(duì)系統(tǒng)平臺(tái)發(fā)表的文本數(shù)據(jù)進(jìn)行自動(dòng)識(shí)別,以此幫助理解學(xué)習(xí)者之間的學(xué)習(xí)行為和交互內(nèi)容;Ramesh等[11]以學(xué)習(xí)者文本數(shù)據(jù)為研究對(duì)象,提出基于種子詞的話題模型方法以預(yù)測(cè)學(xué)習(xí)者的課程通過(guò)率;Gianluca等[12]設(shè)計(jì)了RAMS(Rapid Monitoring of Learners' Satisfaction)系統(tǒng),通過(guò)挖掘Moodle討論區(qū)中的文本數(shù)據(jù)以及問(wèn)卷調(diào)查數(shù)據(jù),分析單個(gè)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)并評(píng)估學(xué)習(xí)者對(duì)于該課程的滿意度。
目前國(guó)內(nèi)對(duì)于在線課程論壇文本數(shù)據(jù)的研究逐漸增多。如劉三等[13]以某課程為例,應(yīng)用非監(jiān)督學(xué)習(xí)方法LDA模型對(duì)某在線課程中未完成和已完成兩種類(lèi)型的學(xué)習(xí)者的評(píng)論文本信息特征結(jié)構(gòu)及語(yǔ)義內(nèi)容進(jìn)行挖掘,為改進(jìn)該課程提供建議;劉智等[4]通過(guò)概率話題建模,分析論壇發(fā)帖,提取不同學(xué)習(xí)群體的熱點(diǎn)話題以及不同成效的學(xué)習(xí)者在不同時(shí)間段的學(xué)習(xí)情緒,為學(xué)習(xí)者知識(shí)建構(gòu)過(guò)程提供干預(yù);左明章等[7]以互動(dòng)話語(yǔ)分析理論為基礎(chǔ),對(duì)某大學(xué)云平臺(tái)的課程論壇發(fā)帖進(jìn)行實(shí)證研究,構(gòu)建基于在線學(xué)習(xí)平臺(tái)的互動(dòng)話語(yǔ)分析模型,旨在描述在線課程論壇學(xué)習(xí)行為,幫助教師識(shí)別特殊學(xué)習(xí)者并進(jìn)行干預(yù)。
2 研究設(shè)計(jì)
2.1 研究思路
本實(shí)驗(yàn)首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取學(xué)習(xí)者討論文本并對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,然后通過(guò)編程對(duì)預(yù)處理數(shù)據(jù)進(jìn)行詞云分析,形成對(duì)學(xué)習(xí)者關(guān)注內(nèi)容的整體印象;之后利用LDA主題模型方法對(duì)學(xué)習(xí)者討論文本進(jìn)行聚類(lèi),找出學(xué)習(xí)者關(guān)注的話題。將獲得結(jié)果反饋給教師以改進(jìn)教學(xué),也可幫助教學(xué)管理者完善在線平臺(tái)功能,實(shí)現(xiàn)更好的用戶體驗(yàn),還可幫助學(xué)習(xí)者對(duì)該課程形成基本的了解。研究框架如圖1所示。
2.2 研究對(duì)象
本實(shí)驗(yàn)研究對(duì)象是中國(guó)大學(xué)MOOC平臺(tái)上某課程討論區(qū)的發(fā)帖內(nèi)容。該課程作為中國(guó)大學(xué)MOOC上的一門(mén)國(guó)家級(jí)精品課程,課程共9周,開(kāi)課時(shí)間為2018年9月18日至2018年11月30日,擁有較多的學(xué)習(xí)參與者和豐富的交互數(shù)據(jù),本實(shí)驗(yàn)主要對(duì)課程討論區(qū)文本數(shù)據(jù)進(jìn)行研究。討論區(qū)包括教師答疑區(qū)、課堂交流區(qū)和綜合討論區(qū)3部分。
2.3 數(shù)據(jù)收集與預(yù)處理
網(wǎng)頁(yè)包含許多信息,如文本、script腳本、html標(biāo)記等,網(wǎng)絡(luò)數(shù)據(jù)收集指利用一種程序自動(dòng)收集網(wǎng)絡(luò)中包含的有用信息,一般是文本信息?,F(xiàn)有的網(wǎng)絡(luò)數(shù)據(jù)收集方法主要分為兩種:①采用商業(yè)爬蟲(chóng)軟件獲取數(shù)據(jù),如八爪魚(yú)采集器;②編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序獲取網(wǎng)絡(luò)數(shù)據(jù)。本實(shí)驗(yàn)通過(guò)編寫(xiě)Python程序獲取學(xué)習(xí)者討論區(qū)發(fā)帖文本數(shù)據(jù),收集到的數(shù)據(jù)主要包含發(fā)帖者的用戶名或ID、發(fā)帖時(shí)間、發(fā)帖內(nèi)容。在去除空值、無(wú)效數(shù)據(jù)之后,得到學(xué)習(xí)者論壇發(fā)帖數(shù)據(jù)共8 090條。
在獲取學(xué)習(xí)者論壇討論文本后,需要對(duì)原始論壇數(shù)據(jù)進(jìn)行預(yù)處理,主要目的是將在線課程論壇討論文本轉(zhuǎn)化為主題挖掘模型能夠識(shí)別的文本詞向量形式,有中文分詞、去重及去停用詞、詞頻統(tǒng)計(jì)、文本向量化幾個(gè)過(guò)程[14]。
2.3.1 分詞處理
不同于英文文本采用空格區(qū)分詞,中文文本詞與詞之間的間隔不明確,需要對(duì)文本進(jìn)行分詞操作。在眾多的中文分詞軟件中,本文采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的ICTCLAS漢語(yǔ)分詞系統(tǒng)作為分詞工具對(duì)討論文本進(jìn)行分詞處理。
2.3.2 去重與去停用詞
仔細(xì)觀察會(huì)發(fā)現(xiàn)文本中包含著大量的重復(fù)及無(wú)效詞匯,比如“啊”、“雖然”、“是的”、“好好好”等,這些詞匯會(huì)對(duì)LDA建模結(jié)果產(chǎn)生很大影響。對(duì)于文本中出現(xiàn)的虛詞、介詞等無(wú)實(shí)際意義詞匯,通過(guò)引用停用詞詞典(將哈工大停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)和百度停用詞表整理去重得到本實(shí)驗(yàn)所用停用詞表)進(jìn)行過(guò)濾。對(duì)于重復(fù)文本,本文在不考慮語(yǔ)義關(guān)系的情況下將其強(qiáng)制壓縮成單個(gè)詞語(yǔ)。
2.4 研究方法
主題模型主要用于計(jì)算機(jī)及相關(guān)領(lǐng)域,潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)、概率潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis,PLSA)以及潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)等都屬于傳統(tǒng)的主題模型方法。數(shù)據(jù)爬取、數(shù)據(jù)獲取、文本預(yù)處理、主題挖掘算法、主題建模與主題生成是主題挖掘的主要工作流程[15]。隨著模型的深入應(yīng)用,研究者發(fā)現(xiàn)LDA模型在文本方面有很好的處理效果,比如Phan等[16]發(fā)現(xiàn)LDA主題模型在表達(dá)文本主題時(shí)具有很好的聚類(lèi)效果;Basher[17]運(yùn)用LDA主題處理交互式文本,為文本主題抽取提供了新思路。
LDA由Blei[18]等于2003提出,其由文檔、主題和詞3層結(jié)構(gòu)組成,適合挖掘大規(guī)模文檔集中潛藏的主題信息?;凇霸~袋(Bag of words)”假設(shè),LDA把文檔視為多個(gè)潛在主題,每個(gè)主題又滿足單詞的多項(xiàng)式分布。因此,一篇文檔可以看作由多個(gè)主題構(gòu)成,每個(gè)主題又由多個(gè)單詞構(gòu)成[19]。對(duì)于一篇文檔來(lái)說(shuō),其生成過(guò)程如下:首先從代表文檔主題分布向量的θ中抽取一個(gè)主題,之后從抽取到的主題對(duì)應(yīng)的詞分布中抽取一個(gè)單詞,不斷重復(fù)此過(guò)程N(yùn),直至生成一篇含有N個(gè)詞的文檔。
3 研究結(jié)果分析
3.1 高頻詞匯分析
從圖3可以看出,學(xué)習(xí)者參與討論文本中出現(xiàn)頻率較高的詞為“Python”、“老師”、“代碼”、“視頻”、“作業(yè)”、“成績(jī)”、“課件”、“證書(shū)”等,這些詞匯大致反映出學(xué)習(xí)者學(xué)習(xí)該課程的主要目的以及該課程的基本內(nèi)容,即該課程是一門(mén)介紹Python編程的網(wǎng)絡(luò)課程,學(xué)習(xí)者對(duì)該課程的視頻資源、作業(yè)測(cè)試、課程證書(shū)等方面討論較多。此外,還有一些單詞是對(duì)該課程內(nèi)容的表述,如“Jieba”、“判斷”、“循環(huán)”、“函數(shù)”、“變量”、“字符”、“版本”等,這些詞在一定程度上是該課程主要知識(shí)內(nèi)容的總結(jié),比如“Jieba”作為目前中文文本預(yù)處理的主要工具,在該課程涉及文本處理的代碼中廣泛使用;而“判斷”、“循環(huán)”等屬于該課程第三節(jié)中程序控制結(jié)構(gòu)的重要內(nèi)容。
3.2 LDA話題聚類(lèi)
通過(guò)詞云圖對(duì)學(xué)習(xí)者參與討論的主要內(nèi)容形成整體印象,利用LDA模型對(duì)經(jīng)過(guò)預(yù)處理之后的討論文本進(jìn)行主題建模。首先確定主題個(gè)數(shù),研究發(fā)現(xiàn),在LDA話題模型中先驗(yàn)參數(shù)一般設(shè)定為[20]:[α]=0.1,[β]=0.01,經(jīng)過(guò)多次調(diào)參實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)主題數(shù)目num_topics=9時(shí)表1實(shí)驗(yàn)效果最為顯著。表1是學(xué)習(xí)者參與課程討論的話題—詞匯矩陣,在代碼編寫(xiě)過(guò)程中,通過(guò)計(jì)算學(xué)習(xí)者關(guān)注話題概率值,抽取概率值較高的9個(gè)話題,并抽取每個(gè)話題中出現(xiàn)概率較大的前10個(gè)單詞,這些單詞在一定程度上可以表現(xiàn)出該話題下的主要內(nèi)容。
由表1可以看出,話題1中學(xué)習(xí)者關(guān)注該課程學(xué)習(xí)之后證書(shū)的獲得,說(shuō)明參與該課程的學(xué)習(xí)者希望獲得課程證書(shū),而這些學(xué)習(xí)者大都能持續(xù)參與學(xué)習(xí),是該課程的主要參與者,是研究學(xué)習(xí)行為的主要對(duì)象;話題2主要是關(guān)于課程學(xué)習(xí)平臺(tái)以及課后作業(yè)、測(cè)驗(yàn),以及對(duì)該課程視頻資源、課件等內(nèi)容的關(guān)注,說(shuō)明該平臺(tái)功能還有需完善的地方。學(xué)習(xí)者對(duì)于作業(yè)、測(cè)驗(yàn)的關(guān)注,在一定程度上說(shuō)明了學(xué)習(xí)者參與學(xué)習(xí)的積極性,后期作業(yè)設(shè)置時(shí)要引起注意;話題3 中“turtle”是Python編程中常用的一種庫(kù),也是課程進(jìn)行蟒蛇繪制的主要工具,此外還有“溫度轉(zhuǎn)換”實(shí)例,也是該課程的主要實(shí)例之一,說(shuō)明學(xué)習(xí)者對(duì)蟒蛇繪制和溫度轉(zhuǎn)換兩個(gè)例子還存在問(wèn)題;話題4中出現(xiàn)概率較高的前4個(gè)單詞分別是“函數(shù)”、“定義”、“調(diào)用”、“變量”,說(shuō)明學(xué)習(xí)者主要關(guān)注函數(shù)相關(guān)知識(shí),如何定義一個(gè)函數(shù)、如何調(diào)用函數(shù)、函數(shù)的執(zhí)行等都是學(xué)習(xí)者關(guān)注的重點(diǎn);從話題5 中的單詞分布可以看出該話題主要集中于文本數(shù)據(jù)處理和格式化,其中“Jieba”庫(kù)是編程人員進(jìn)行中文文本分詞的主要工具包,也是繪制詞云,進(jìn)行詞頻統(tǒng)計(jì)以及其它文本操作需要用到的工具,“解答”、“疑問(wèn)”等詞說(shuō)明學(xué)習(xí)者在進(jìn)行文本數(shù)據(jù)處理過(guò)程中還存在一定問(wèn)題,需要教師或同學(xué)幫助;話題6中“元組”、“集合”、“列表”、“字典”等是Python編程中的數(shù)據(jù)類(lèi)型,說(shuō)明該話題主要是關(guān)于組合數(shù)據(jù)類(lèi)型的描述;話題7中“if”、“else”、“for”是Python編程語(yǔ)言中循環(huán)結(jié)構(gòu)的基本構(gòu)成。此外,“分支”一詞說(shuō)明學(xué)習(xí)者對(duì)分支結(jié)構(gòu)也有所關(guān)注,由此可見(jiàn),該話題主要是對(duì)Python編程語(yǔ)言中程序控制結(jié)構(gòu)的描述;在話題8中“字符串”、“字符”、“類(lèi)型”等詞說(shuō)明該話題主要表達(dá)學(xué)習(xí)者對(duì)基本數(shù)據(jù)類(lèi)型的關(guān)注;話題9主要是Python學(xué)習(xí)所需開(kāi)發(fā)環(huán)境的配置以及第三方庫(kù)安裝。
[11] RAMESH A,GOLDWASSER D, HUANG B,et al. Understanding MOOC discussion forums using seeded LDA[C]. Proceedings of the 9th ACL Workshop on Innovative Use of NLP for Building Educational Applications. New York:ACM Press,2014:28-33.
[12] GIANLUCA ELIA,GIANLUCA SOLAZZO,GIANLUCA LORENZO,et al. Assessing learners' satisfaction in collaborative online courses through a big data approach[J]. Computers in Human Behavior, 2019(92): 589-599.
[13] 劉三,彭晛,劉智,等. 面向MOOC課程評(píng)論的學(xué)習(xí)者話題挖掘研究[J]. 電化教育研究,2017,38(10):30-36.
[14] 潘怡,葉輝,鄒軍華. E-learning評(píng)論文本的情感分類(lèi)研究[J]. 開(kāi)放教育研究,2014,20(2):88-94.
[15] 陳迪,代艷君,王志鋒. 論壇主題挖掘研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2017,53(16):36-44.
[16] PHAN X H,NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections[C]. Proceedings of the 17th Inter?national Conference on World Wide Web. ACM, 2008:91-100.
[17] BASHER A R M A, FUNG B C M. Analyzing topics and authors in chat logs for crime investigation[J]. Knowledge and Information Systems, 2014, 39(2): 351-381.
[18] BLEI D M,NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3(3):993-1022.
[19] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類(lèi)研究[J]. 情報(bào)科學(xué),2015,33(1):63-68.
[20] HAO H, ZHANG K, WANG W, et al. A tale of two countries: International comparison of online doctor reviews between china and the united states[J]. International Journal of Medical Informatics, 2017(99):37-44.
(責(zé)任編輯:杜能鋼)