陸 偉
目前,國內(nèi)對于教育信息化、數(shù)字化學(xué)習(xí)等領(lǐng)域的研究主要從教育教學(xué)理論的創(chuàng)新發(fā)展、教育信息化的資源建設(shè)與應(yīng)用現(xiàn)狀、論文文獻的文本解構(gòu)與分析等方面展開。在教育信息化相關(guān)文本分析方面,部分學(xué)者基于期刊文獻數(shù)據(jù)庫,運用文獻計量等方法分析了國內(nèi)教育信息化領(lǐng)域的研究熱點和與趨勢,這些研究在量化描述教育信息化研究的特征的同時,也總結(jié)或預(yù)測了相關(guān)研究的主題或發(fā)展趨勢。本文以現(xiàn)有的文本分析研究為基礎(chǔ)進行了拓展。
采用網(wǎng)絡(luò)爬蟲抓取相關(guān)論文或新聞文本數(shù)據(jù),并使用中文分詞及關(guān)鍵詞提取、詞向量分析、文本聚類等技術(shù)方法,本文剖析和歸納了國內(nèi)教育信息化相關(guān)研究及新聞報道的關(guān)注點。研究發(fā)現(xiàn),慕課、翻轉(zhuǎn)課堂、微課、智慧教育等近年來興起的教學(xué)模式或教育理念引領(lǐng)了新一輪教育信息化相關(guān)研究的熱潮,也是新聞報道的熱點;同時,在文本挖掘中對比分析不同背景的語料資源也能夠獲得有價值的啟發(fā)。在詞向量與相關(guān)詞分析中,在論文和新聞文本語境下,教育信息化及若干熱點詞匯的“含義”存在一定的差別,這些差異反映了學(xué)術(shù)論文和新聞報道在關(guān)注的問題上有不同的聚焦。
本研究使用的論文文本數(shù)據(jù)來自中國知網(wǎng)(CNKI)學(xué)術(shù)期刊數(shù)據(jù)庫、博士學(xué)位論文數(shù)據(jù)庫以及優(yōu)秀碩士論文數(shù)據(jù)庫。新聞文本數(shù)據(jù)則來自中國教育信息化網(wǎng)——“教育部教育管理信息中心主辦的教育信息化資訊類綜合門戶網(wǎng)站”,該網(wǎng)站資訊頻道下的“信息化動態(tài)”欄目匯集了國內(nèi)各地教育信息化發(fā)展動態(tài)的相關(guān)報道。
本文利用網(wǎng)絡(luò)爬蟲抓取了數(shù)千篇論文文獻以及萬余篇新聞報道的文本信息,文本信息的檢索和爬取時間為2016年9月。論文文獻方面,我們以“教育信息化”為主題,在相關(guān)論文數(shù)據(jù)庫中進行搜索并采集了2000年至2016年9月期間刊發(fā)的有效期刊文獻5,347篇(其中核心期刊文獻1,356篇);優(yōu)秀碩士學(xué)位論文3,629篇,博士學(xué)位論文71篇。新聞?wù)Z料方面,中國教育信息化網(wǎng)匯集的教育信息化動態(tài)報道主要集中在近三年,2010年之前的報道相對很少,我們采集了2010年1月至2016年9月期間發(fā)布的有效新聞資訊共10,288篇。
圖1-1展示了CNKI相關(guān)文獻數(shù)據(jù)庫中以“教育信息化”為研究主題的文獻數(shù)量變化趨勢;由于2016年的數(shù)據(jù)信息并不完整(截止當(dāng)年9月),因此這一年度的數(shù)據(jù)量相比上一年均有所下降。在期刊類文獻中,2013年后相關(guān)文獻的數(shù)量有了明顯的上升,非核心期刊上刊發(fā)的相關(guān)文獻更是在此后的兩年內(nèi)增長了十多倍。在學(xué)位論文方面,碩士論文逐年增長,這一絕對數(shù)字的增長反映了教育信息化相關(guān)議題逐漸受到重視甚至追捧;另一方面,相關(guān)博士學(xué)位論文的數(shù)量很少,這可能與博士論文對理論創(chuàng)新性的要求較高有關(guān)。
需要說明的是,CNKI碩博學(xué)位論文數(shù)據(jù)庫中收入的學(xué)位論文文獻并不全面,個別重點院校相關(guān)重點學(xué)科的學(xué)位論文也不在收錄范圍;因此根據(jù)數(shù)據(jù)庫中現(xiàn)有的學(xué)位論文對院校、專業(yè)、導(dǎo)師等信息進行排名比較很可能會出現(xiàn)偏差。但是本文認(rèn)為,將現(xiàn)有的數(shù)據(jù)視為學(xué)位論文總體的“抽樣”或?qū)W科相關(guān)研究趨勢的代表,僅對論文的研究主題或內(nèi)容進行分析,仍然不失可行性。
圖1-1 以“教育信息化”為主題的研究文獻數(shù)量
圖1-2 教育信息化相關(guān)資訊報道量
圖1-2顯示的是中國教育信息化網(wǎng)站“信息化動態(tài)”欄目中近年來的相關(guān)資訊報道量;2016年的資訊信息截止到當(dāng)年9月,因此相比2015年出現(xiàn)了明顯下降。總體上看,相關(guān)資訊量在2013年后出現(xiàn)了爆發(fā)式的增長,這與期刊文獻(尤其是非核心期刊文獻)在2013年后出現(xiàn)的增長趨勢十分相似。
1.關(guān)鍵詞詞頻計算
本研究從關(guān)鍵詞詞頻統(tǒng)計、詞向量距離與相關(guān)詞分析以及文本聚類三個方面對現(xiàn)有的文本數(shù)據(jù)進行挖掘分析。在進行關(guān)鍵詞統(tǒng)計前,我們需要將文本資料按時期分類。參考已有的研究文獻,并結(jié)合本研究所采用文本的時期范圍和數(shù)量變遷特征,我們將教育信息化相關(guān)論文文本劃分為三個時期:2000—2005年,2006—2013年,2014—2016年;對于新聞文本,則劃分為2010—2013年,2014—2016年兩個階段。
本文首先采用Python版本的結(jié)巴(Jieba)分詞包對新聞文本進行分詞。在本文的研究語境下,對于“智慧教育”“三通兩平臺”“云計算”等專有名詞,默認(rèn)的分詞模式可能會將其進一步切分,因此需要構(gòu)建自定義詞表,使相關(guān)的專業(yè)詞匯能夠被準(zhǔn)確保留。對于期刊文獻和學(xué)位論文文獻,研究者已經(jīng)在文獻中提供了關(guān)鍵詞,僅需對其按階段分類統(tǒng)計即可;但新聞?wù)Z料并不存在現(xiàn)成的關(guān)鍵詞,對此,本文采用詞頻-逆文檔率(Term Frequency- Inverse Document Frequency,以下簡稱TF-IDF)算法提取了每篇新聞文本的關(guān)鍵詞。某詞語i的TF-IDF值可表示為:
其中,ni,d是詞i在文本d中出現(xiàn)的頻數(shù);nd是文本d中的總詞頻數(shù);N為語料庫中的文本總量;ni是詞i在語料庫中出現(xiàn)的總頻數(shù)——為避免分母為0(即語料庫中沒有詞i)而加1。TF-IDF值越大的詞被認(rèn)為對于文本越重要(能更好地代表文本);對關(guān)鍵詞按TF-IDF值進行排序,排名靠前的詞即可被選作為該本文的關(guān)鍵詞。
2.詞向量計算
Word2Vec是Google于2013年開源的一款將詞表征為數(shù)值向量的學(xué)習(xí)工具,它能夠勝任自然語言處理(NLP)領(lǐng)域的多種工作,例如,聚類、尋找近義詞、情感分類、詞性分析等。Word2Vec有多個開源版本,我們在Anaconda(一種用于科學(xué)計算的Python版本)環(huán)境下安裝了Gensim模塊進行詞向量訓(xùn)練—— 基于Skip-gram模型。
以詞向量(Distributed Representation)的方式將文本中的詞匯進行數(shù)學(xué)化的表示最早由辛頓提出[1],其基本思想是通過訓(xùn)練將每個詞映射到一個低維實數(shù)向量空間中(具體的向量維度可在模型系統(tǒng)中進行調(diào)整)。詞向量中的每一維代表一個具有一定語義和語法解釋的詞語特征。通過詞之間的距離(如余弦距離、歐式距離等)可以判斷它們之間的語義相似性。這不僅避免了傳統(tǒng)的“One Hot”向量表示法經(jīng)常遭遇的“維數(shù)災(zāi)難”,同時也解決了“詞匯鴻溝”問題,即詞之間不再是孤立的,潛在語義及語法特征相似的詞在距離上會更接近。對于兩個n維空間中的詞向量A(x11,x12,…,x1n)和B(x21,x22,…,xn2),其語義相似性可由夾角余弦值表示為:
余弦值越接近1,兩個詞的語義關(guān)聯(lián)度也越高。本研究使用的語料為經(jīng)過分詞處理后的論文文本(摘要)和新聞文本。借助Word2Vec深度學(xué)習(xí)工具包,我們嘗試尋找“教育信息化”等熱點詞匯的相關(guān)詞,并對不同的文本語料進行比較。
3.文本聚類
在機器學(xué)習(xí)領(lǐng)域,聚類是無監(jiān)督學(xué)習(xí)(Unsupervised Learning)的一個例子,聚類試圖將數(shù)據(jù)集中的樣本劃分為多個不相交的子集,每個子集稱為一個簇(Cluster),從而在數(shù)據(jù)中發(fā)現(xiàn)某種潛在的結(jié)構(gòu)。[2]事實上,以教育信息化為主題的研究或報道存在很多的子領(lǐng)域或子主題,統(tǒng)計高頻關(guān)鍵詞是揭示這一多樣性的方式之一;而基于文本的聚類分析可以幫助我們更全面地了解相似主題——尤其是那些相對獨立但不熱門的主題——的研究或報道。
本研究嘗試了對(核心)期刊文獻及新聞文本進行聚類。參考西格蘭提出的方法[3],我們根據(jù)一組指定詞匯在期刊(摘要)及新聞文本中出現(xiàn)的頻度來實現(xiàn)對相關(guān)文本的聚類。借助前述分析中使用的關(guān)鍵詞詞頻表,我們在不同類型的文本中分別提取詞頻不少于十次的詞,作為為該類型文本聚類時的公共詞匯表。利用這些詞匯列表和文獻或新聞標(biāo)題列表可以建立相應(yīng)的文本文件(即一個大的矩陣),記錄每篇文獻或新聞中相關(guān)詞匯的統(tǒng)計情況;同時,我們也對上述矩陣進行了轉(zhuǎn)置,從而實現(xiàn)對文本關(guān)鍵詞的聚類。在具體的聚類方式上,本文選擇了(凝聚的)層級聚類。
凝聚層級聚類采用自底而上的策略不斷合并兩個最為相似的對象,從而形成一個逐漸增大的簇,當(dāng)所有對象都在一個簇中或達(dá)到某個終止條件時,聚類結(jié)束。在研究的語境下,被合并的對象即為某篇文獻或新聞。對象之間的相似性基于兩者之間的距離或緊密程度。由于一些文獻或新聞的(摘要)文本字?jǐn)?shù)較多,這使得它們在總體上包含了更多的詞匯,為了糾正這一潛在的問題,我們采用了皮爾遜距離度量對象之間的相似性。
表2-1中顯示的是不同時期內(nèi),核心期刊與非核心期刊文獻以及碩博學(xué)位文獻中頻次排名前20的關(guān)鍵詞。從關(guān)鍵詞的分布來看,在2000—2005年和2006—2013年兩個時期,期刊文獻的研究關(guān)注點有較強的連續(xù)性,這一點與該時期內(nèi)期刊文獻的數(shù)量變化平緩相對應(yīng);2014年—2016年期間,以“教育信息化”為主題的研究不僅在數(shù)量上異軍突起,關(guān)注點也發(fā)生了很大的變化:翻轉(zhuǎn)課堂、慕課、微課、智慧教育等新興名詞是這一時期高頻關(guān)鍵詞的主要代表,它們?yōu)橐痪€教學(xué)實踐注入活力的同時,也改變了相關(guān)學(xué)術(shù)研究的方向和生態(tài)環(huán)境。
有趣的是,期刊論文與碩博學(xué)位論文的關(guān)鍵詞有較大的風(fēng)格差異。以2014—2016年期間的研究為例,期刊文獻的關(guān)鍵詞有較多宏觀或抽象的概念,例如大數(shù)據(jù)、教學(xué)改革等;碩博學(xué)位論文的關(guān)鍵詞則體現(xiàn)了較多微觀的教學(xué)場景,例如電子書包、課堂教學(xué)、交互式電子白板等。另一方面,諸如ASP.NET,B/S模式、J2EE等詞匯也頻繁出現(xiàn)在了學(xué)位論文的關(guān)鍵詞中。含有這類關(guān)鍵詞的論文基本由計算機技術(shù)、軟件工程等工科專業(yè)的學(xué)生撰寫,論文通常從技術(shù)層面探討相關(guān)的軟件設(shè)計或系統(tǒng)部署,服務(wù)于教育信息化相關(guān)工程建設(shè)。即便是相同的主題,期刊論文與學(xué)位論文的研究視角或風(fēng)格也可能存在差別,關(guān)鍵詞選取策略的不同某種程度上正反映了這種差異。
表2-1 期刊論文與學(xué)位論文高頻關(guān)鍵詞
對于新聞文本,我們采用TF-IDF算法對每篇新聞進行關(guān)鍵詞的提取及排序,選擇前五位關(guān)鍵詞為每篇新聞的關(guān)鍵詞代表。在以關(guān)鍵詞的TF-IDF值作為其權(quán)重值的情況下,我們統(tǒng)計了2014—2016年以及2010—2013年兩個時期的新聞文本高頻關(guān)鍵詞(TOP20)。
表2-2 新聞文本高頻關(guān)鍵詞(TOP20)
從表2-2中的結(jié)果可知,兩個時期的新聞文本共享了較多的高頻關(guān)鍵詞,例如培訓(xùn)、教學(xué)點、教育資源、數(shù)字化校園等。2014—2016年期間,與微課、慕課、翻轉(zhuǎn)課堂、智慧教育等相關(guān)的新聞大量涌現(xiàn),引領(lǐng)了這一時期的教育信息化相關(guān)報道。這部分解釋了為何與教育信息化相關(guān)的新聞報道量在2013年后出現(xiàn)了井噴式的增長?!拔⒄n”“慕課”,“翻轉(zhuǎn)課堂”等被認(rèn)為具有革命性的教育模式于2012年前后在西方國家興起,并于隨后的一兩年中風(fēng)靡全球,在初等至高等教育的各階段皆有應(yīng)用。對這些“教育信息化”的熱門概念或議題進行報道或研究可謂時勢使然。
詞向量訓(xùn)練的效果很大程度上取決于對文本語料的數(shù)量。當(dāng)有豐富大量的語料(句子)能夠反映詞語之間關(guān)系時,模型才可以充分學(xué)習(xí)句中的語義和語法關(guān)系。對于期刊和碩博論文,我們使用了論文的摘要文本,由于摘要篇幅相對較短,我們將期刊論文與碩博論文進行了合并,統(tǒng)一為論文文本;新聞文本仍然自成一類。事實上,我們也嘗試區(qū)分對核心期刊、非核心期刊以及碩博論文的摘要文本,分別進行詞向量訓(xùn)練,但是由于語料數(shù)量較少,分開訓(xùn)練的效果并不理想。使用Word2Vec進行詞向量模型訓(xùn)練后,本文計算了部分熱點詞匯的相似詞(表2-3)。
表2-3 教育信息化及部分熱點詞匯相關(guān)詞
表2-3中顯示的是教育信息化、數(shù)字化校園、慕課以及智慧教育的五個最相關(guān)詞匯(以余弦距離衡量)。總體上看,熱點詞匯的相關(guān)詞基本都符合我們的認(rèn)知。在新聞文本中,“教育信息化”的相關(guān)詞中出現(xiàn)了“三通兩平臺”和“三通工程”,這是全國各地十二五時期教育信息化建設(shè)的核心目標(biāo),幾乎是同時期教育信息化事業(yè)的代名詞。同時,相關(guān)詞也與文本類型有一定聯(lián)系。例如,在“慕課”的相關(guān)詞中,論文文本下準(zhǔn)確識別出了“SPOC”(Small Private Online Course),即小規(guī)模限制性在線課程,它被認(rèn)為是“后慕課時代”的一種典型課程范式,能夠更好實現(xiàn)慕課與傳統(tǒng)課堂的融合,部分期刊文獻和碩博論文均對此展開了專門討論,但它在新聞?wù)Z料中幾乎沒有出現(xiàn)。
不難看出,在論文文本下,“智慧教育”的相關(guān)詞中出現(xiàn)了“和諧社會”“轉(zhuǎn)型”“戰(zhàn)略”等詞,這一結(jié)果并不理想,其原因很可能在于期刊文獻及碩博論文的摘要文本中關(guān)于“智慧教育”的語料并不豐富。另一方面,新聞文本在分詞后全都納入了詞向量訓(xùn)練,相比論文摘要,新聞文本的詞庫量更大,句式也更為豐富多樣,因此模型訓(xùn)練都取得了為較理想的結(jié)果,這再一次說明了語料數(shù)量對于詞向量訓(xùn)練的重要性。
指定了一組固定詞匯后,我們可以根據(jù)單詞在文獻摘要或新聞文本中出現(xiàn)的次數(shù)對相關(guān)文本進行聚類(按行聚類);該分析能夠幫助我們發(fā)現(xiàn)研究或報道主題相近的文本。從基本的聚類格局來看,學(xué)期教育、基礎(chǔ)教育、職業(yè)教育、高等教育、繼續(xù)教育等不同教育階段均有涉獵教育信息化的研究;且不同教育階段的關(guān)注點存在一定差異。例如,基礎(chǔ)教育階段的教育信息化研究主題較為豐富,微課、翻轉(zhuǎn)課堂等研究直指基礎(chǔ)教育階段的教學(xué)模式改革,以電子書包、平板電腦等為關(guān)注點的研究注重對教學(xué)應(yīng)用、數(shù)字化校園建設(shè)等的考察;而在職業(yè)教育領(lǐng)域,大多數(shù)研究關(guān)注的是職業(yè)學(xué)校的數(shù)字教育資源建設(shè)以及借助信息化手段提升職業(yè)學(xué)校教師教學(xué)水平等主題。
在列上對數(shù)據(jù)進行聚類有助于進一步揭示結(jié)構(gòu)化的信息。在本研究的語境下,列代表的都是論文文獻或新聞文本中的關(guān)鍵詞,在列上進行聚類則可以知曉哪些詞經(jīng)常會結(jié)合在一起出現(xiàn)。例如,在新聞文本中,和“調(diào)研”聯(lián)系較為密切、時常一起出現(xiàn)的詞有“電教館”“電化教育”“會議”等;這反映了各地區(qū)電教館較為頻繁地參與了教育信息化調(diào)研工作的基本事實。
借助樹狀圖(圖2-1和圖2-2),我們可以更直觀地了解聚類結(jié)果。由于論文文獻或新聞報道的聚類量很大,限于篇幅,我們僅展示了部分聚類結(jié)果。圖中所有的子節(jié)點均由一個垂直線和兩條水平線連接;一般來說,水平線的長度反映了聚類中的誤差情況,水平線越短,兩個類的相似度也就越高。垂直線和水平線的交錯潛在地劃分了文本的類型或主題,這即是層級聚類的直觀意義。
圖2-1 期刊文獻聚類(部分)
圖2-2 新聞文本關(guān)鍵詞聚類(部分)
本研究發(fā)現(xiàn)慕課、翻轉(zhuǎn)課堂、微課、智慧教育等近年來興起的教學(xué)模式或教育理念為教育信息化相關(guān)研究注入了新的內(nèi)涵,相關(guān)研究或報道不斷涌現(xiàn),是新時期教育信息化事業(yè)發(fā)展的核心關(guān)切。不同的文本語料從不同的角度描繪了教育信息化的相關(guān)研究或事業(yè)發(fā)展;進行教育信息化相關(guān)文本挖掘分析時,綜合分析不同來源和背景的相關(guān)語料資源能夠獲得有價值的啟發(fā)。本文拓展了“教育信息化”相關(guān)領(lǐng)域文本分析和挖掘研究的文獻范疇,同時借鑒了較新的工具和方法,豐富了相關(guān)領(lǐng)域中文本挖掘分析的研究視角。
需要指出的是,本研究也存在一些缺點和不足,而這些缺陷可能會影響文本挖掘分析的效果。例如,與大多數(shù)該領(lǐng)域的文獻或文本分析研究相似,本文以“教育信息化”為主題在CNIK中進行了相關(guān)文獻的檢索;但是較早時期的相關(guān)研究未必會采用“教育信息化”這類術(shù)語表述方式,這可能會直接影響文獻檢索的結(jié)果并限制研究的視野。另外,在文本聚類方面,本文對相關(guān)研究主題的劃分尚不夠清晰,層級聚類結(jié)果的呈現(xiàn)也有待優(yōu)化,后續(xù)的研究可嘗試更多樣的聚類方法和可視化手段,后者包括高維度下的多維縮放,主題河(ThemeRiver)、數(shù)字景觀(Landscapes)等等。
即便存在一些缺陷,借鑒深度學(xué)習(xí)、自然語言處理等領(lǐng)域的工具、技術(shù)和方法對有關(guān)文獻或文本進行分析挖掘仍然能獲得有趣的啟發(fā)。當(dāng)然,即使在“教育大數(shù)據(jù)”時代,研究者也不應(yīng)忽略生活中的“小數(shù)據(jù)”;本文建議研究者將海量數(shù)據(jù)分析技術(shù)與實地調(diào)查相結(jié)合,以更好把脈各類教育事業(yè)的發(fā)展動態(tài)及其內(nèi)在規(guī)律。
注釋:
[1]Hinton, G.E.Learning Distributed Representations of Concepts [C].In Proc.Eighth Annual Conference of the Cognitive Science Society, 1986, (1): 1–12.
[2]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社, 2016:197.
[3]西格蘭著,莫映,王開福,譯.集體編程智慧[M].北京:電子工業(yè)出版社,2009:29-53.