辛瑞昊,董哲原**,苗馮博**,王甜甜**,李英瑞**,馮 欣
(1.吉林化工學院 信息與控制工程學院,吉林 吉林 132022;2.吉林化工學院 理學院,吉林 吉林 132022)
當今時代正是各行各業(yè)發(fā)展的時代,也是革新的時代。伴隨改革開放的不斷深化,我國高等教育實施全面性的改革,作為人才培養(yǎng)基地,各大高校面臨的改革任務越來越重[1]。利用現(xiàn)有高等教育改革文獻,厘清高等教育改革的現(xiàn)狀和發(fā)展,才可能有的放矢促進高等教育的發(fā)展[2-4]。鑒于此,本文提出一種文本挖掘和知識圖譜相結合的文獻分析方法,利用文本挖掘技術挖掘高等教育改革文獻信息,為文本分析提供數(shù)據(jù)支撐;利用高頻詞共詞分析構建詞頻矩陣,挖掘關鍵詞間的相互關聯(lián),有效確定高等教育研究熱點;利用文本聚類對主題詞間距離進行計算,劃分不同研究主題,明確高等教育主要研究主題;借助可視化結果直觀展示,為后續(xù)學者的研究提供思路。
自然語言處理是計算機科學與人工智能學科中的一個交叉方向[5],利用NLP技術可以使機器自動化對語言進行處理。為了能夠獲得更多研究方向下的重要信息,利用自然語言處理對摘要中主題詞進行抽取,用于對研究的相關數(shù)據(jù)擴充[6],利用jieba分詞對摘要中信息進行分割[7],提取出能準確表達文本信息的詞項單元,這些關鍵詞能表明文獻的中心觀點[8]。為了深入分析高等教育改革內(nèi)容,本文通過引用文獻、規(guī)則判斷和專家審核方法,將主題詞分為研究對象(O)、研究內(nèi)容(T)和研究方法(M)[9]。
目前對文本的特征提取大多使用詞頻統(tǒng)計方法。由于本文研究的主題詞主要分為研究對象、研究內(nèi)容、研究方法,所以在計算特征頻率的過程中,通過詞頻特征提取計算某個特征詞的特征頻率。采用TF-IDF(Term Frequency-Inverse Document Frequency)方法對文獻特征進行提取。通過計算TF-IDF值對數(shù)據(jù)集特征進行分類訓練,TF-IDF計算值越大,說明該詞與文本的相關性越大。
以人才培養(yǎng)詞頻統(tǒng)計為例,首先統(tǒng)計文獻中不同關鍵詞出現(xiàn)的次數(shù),例如人才培養(yǎng)出現(xiàn)過X次,文本共有N個詞,可得人才培養(yǎng)出現(xiàn)的詞頻為X/N;隨后計算逆文本頻率指數(shù)IDF,計算方法為log(DA/D),其中D為出現(xiàn)人才培養(yǎng)的文本的具體數(shù)量,DA為全部文獻樣本數(shù)量;最后進行TF-IDF具體數(shù)值的計算,計算公式如下:
(1)
采用TF-IDF特征提取法計算出文本中每個特征詞的TF-IDF權重值,并對其進行降序排序,然后根據(jù)預先設定的篩選條件選出滿足要求的特征詞,從而實現(xiàn)了對原特征空間的降維。
為了更深層次剖析高等教育改革文獻研究內(nèi)容中的主要研究方向,運用K-means算法結合余弦距離函數(shù)對研究內(nèi)容主題詞進行聚類[10-12]。K-means算法是一種通過多次迭代求解的聚類分析算法,是基于劃分式方法的一種聚類方法,它有線性的時間和空間復雜度。K-means算法流程如下:
1)上傳高等教育改革文獻數(shù)據(jù)集DS,設置隨機種子數(shù)(Seed值)及目標簇K值;
2)隨機從數(shù)據(jù)集中,選取K個文本{S1,S2…,SK}作為文本集初始聚類中心點;
3)通過計算每個對象與初始聚類中心的距離dis(DS,Sk);
4)對文獻和距離最近中心點進行匹配,將其分配給距離最近的聚類中心;
5)重新計算簇的中心,重復上述步驟1~4,直到簇心穩(wěn)定。
在進行聚類時,需要選擇合適的聚類距離衡量尺度??紤]到使用歐式距離來度量樣本之間的相似度會造成很大的誤差,本文利用K-means算法和余弦距離相結合的方法對研究內(nèi)容主題詞進行聚類,余弦公式相似度計算公式如下:
(2)
式中:si和cj表示兩個數(shù)據(jù)點;‖·‖表示為向量,若其值等于1,則兩向量相等;若等于零,則兩向量共同點。兩個主題詞之間的余弦相似度越高,這兩個主題詞之間的相似度越大。
為了定量化分析高等教育改革趨勢,本文采用文本挖掘與知識圖譜相結合的文獻智能分析方法,如圖1所示。
圖1 文獻智能分析框架
第一階段為數(shù)據(jù)收集。以“高等教育”和“改革”為主題,設置檢索時間為“2010—2020年”,邏輯關系為“與”,期刊來源為CSSCI、EI、SCI、北大核心,利用網(wǎng)絡爬蟲從選定的內(nèi)容中獲取文獻文本數(shù)據(jù)。
第二階段為數(shù)據(jù)預處理階段。在對重要信息提取后,將獲取到網(wǎng)頁加載存在問題的文獻進行篩選,將清洗后數(shù)據(jù)進行存儲。
第三階段是數(shù)據(jù)分析階段。利用處理后的文本數(shù)據(jù),對數(shù)據(jù)進行知識圖譜分析。通過高頻詞共現(xiàn)分析、文本聚類分析和可視化分析方法,揭示高等教育改革領域的核心主題和研究熱點。
本文數(shù)據(jù)來源于“中國知網(wǎng)(CNKI)”的期刊數(shù)據(jù)庫,研究文獻類型選擇“期刊”,以“高等教育”和“改革”為主題詞進行精確檢索,設置檢索時間為“2010—2020年”,邏輯關系為“與”,選擇期刊來源為CSSCI、EI、SCI、北大核心,共檢索出論文10 642篇,將這些文獻作為本文統(tǒng)計分析的數(shù)據(jù)源。采取定向爬蟲的方法,爬取知網(wǎng)有關“高等教育+改革”為主題的數(shù)據(jù)信息,作為本文分析的數(shù)據(jù)基礎。
中介中心度是衡量作者影響力的重要因素。一個結點充當“中介”的次數(shù)越高,它的中介中心度就越大[13]。高等教育改革研究領域核心作者發(fā)文量統(tǒng)計見表1。
表1 高等教育改革研究領域核心作者發(fā)文量統(tǒng)計
其中,鐘秉林的發(fā)文量最多(60篇),其次是馬陸亭(44篇),別敦榮以39篇的發(fā)文量位列第三。從作者的中介中心度來看,鐘秉林、馬陸亭也位于前列。此外,張應強、瞿振元中介中心度也較高,表明他們在高等教育改革研究領域有著較高的影響力。鐘秉林、馬陸亭、張應強等都從事高等教育工作,在高等教育改革中提出了很多鮮明的觀點。由此可知,在當下的高等教育改革中,從事教育的工作者,是高等教育改革過程中的主力軍。
關鍵詞通常指一組詞或者短語可以表達一個文檔核心主題,它能夠對文本內(nèi)容進行提取和凝練,幫助人們篩選信息從而定位到所需文檔。本文通過對樣本文獻提取高頻關鍵詞,可以從整體上呈現(xiàn)近十年間高等教育改革領域存在的研究熱點。目前確定高頻詞的方法主要以下三種:①平均TF-IDF排序。利用計算主題詞在所有文獻出現(xiàn)的平均TF-IDF,構建高頻詞矩陣,來確定高頻關鍵詞。平均TF-IDF值越接近1,說明該詞在總文獻出現(xiàn)的頻率越高。②主觀選定法,依據(jù)研究者的經(jīng)驗在詞頻閾值和選詞個數(shù)之間進行平衡選定。③利用齊普夫定律確定高頻詞頻值。本文采取第一種方法來確定高頻主題詞。
由于研究文獻數(shù)目大,在剔除無法明確定義類型的主題詞后,表2中可以看出排名前10主題詞的頻數(shù)、類型和平均TF-IDF權數(shù),其中“O”表示研究對象、“T”表示研究內(nèi)容。
表2 “高等教育”加“改革”研究高頻主題詞
共詞聚類分析法(Co-word Cluster Analysis)是文本聚類分析中的一種。它通過對期刊研究的關鍵詞進行聚類分析,對共詞網(wǎng)絡中各關鍵詞間的聯(lián)系強度進行運算,把相互間聯(lián)系相對緊密的主題聚集起來形成概念相對獨立的團體,可以直觀展現(xiàn)關鍵詞之間的關系。其結果如圖2所示。圓形節(jié)點越大,表示該關鍵詞的共現(xiàn)次數(shù)越多,連線越多,表明該關鍵詞與其他關鍵詞的共現(xiàn)次數(shù)越多。直觀地發(fā)現(xiàn),“高等教育”聚類面積最大,其次是“高校”“人才培養(yǎng)”“培養(yǎng)”,學者們密切關注這幾個層面。
圖2 主題關鍵詞聚類
研究內(nèi)容表征了高等教育中重點關注的問題和現(xiàn)象。本文利用余弦距離相似度對研究主題詞進行K-means聚類,將研究主題詞聚類成3個區(qū)域,聚類中心分別為人才培養(yǎng)、教學改革及治理,這3個主題詞所代表的主題形成了文本聚類研究領域的3個方面,如圖3所示。
年份/年圖3 研究主題年限統(tǒng)計分布圖
從研究主題年限統(tǒng)計分布能發(fā)現(xiàn),2010—2018年是我國高等教育改革研究的萌芽階段,學者們開始了高等教育探索,3個主題每年發(fā)文量在60篇以內(nèi)。在這個階段,高等教育改革引起學術界的廣泛重視。2018—2020年間是我國高等教育改革升溫階段,三個主題發(fā)文量呈逐年上升趨勢。2020年“人才培養(yǎng)”主題文獻發(fā)文量接近700篇,“教學改革”和“治理”主題文獻發(fā)文量接近300篇,這個階段學者們聚焦于高等教育改革研究。同時,根據(jù)研究主題年限統(tǒng)計分布圖,結合“十四五”建設高質量教學改革內(nèi)容,預示著相關主題增長趨勢還將持續(xù)下去。
為了清晰呈現(xiàn)研究內(nèi)容(O)和研究對象(T)的關系,探究其內(nèi)在關聯(lián),通過計算二者相關性進行熱點領域分析,如表3所示。通過相關性結果與高等教育研究主題相結合能夠得出,除“教育”“改革”“發(fā)展”等過于寬泛的熱點外,緊隨其后的就是“人才培養(yǎng)”;此外,在后續(xù)中主要熱點還有“教學改革”“治理”等?!笆奈濉苯ㄔO高質量教學體系指出,高校建設改革體系要堅持圍繞學生、關愛學生,真正把學生放在主體地位,研究學生的思想動態(tài)、成長規(guī)律,注重學生的全面發(fā)展,利用科技教學手段,培養(yǎng)新時代高層次人才;同時,將嚴格管理與人性管理結合起來,統(tǒng)籌教育體系和治理能力之間的關系,深化高等教育改革的總目標?!案叩冉逃?改革”主題主要圍繞“人才培養(yǎng)”“教學改革”“治理”這3個方面,這也與“十四五”高質量教育改革要求相契合。
表3 “高等教育+改革”研究對象和研究內(nèi)容相關性
本文提出一種文本挖掘和知識圖譜相結合的方法,對國內(nèi)的高等教育改革相關文獻進行數(shù)據(jù)挖掘和分析。通過作者產(chǎn)出與共現(xiàn)分析、高頻詞進行共現(xiàn)分析、主題詞文本聚類和可視化分析方法,揭示高等教育改革領域的核心主題和研究熱點。根據(jù)主題詞頻矩陣統(tǒng)計,高等教育(0.54)、教育(0.42)和高校(0.44)所對應的平均TF-IDF值高于知識圖譜構建規(guī)定的標準,在一定程度反映了高等教育改革較為集中于對高等教育、教育和高校的研究。文本聚類和熱點相關性分析結果表明,未來該領域的研究應該仍集中在人才培養(yǎng)、教學方式、治理體系及治理能力改革上。通過本文的研究,可以為我國高等教育改革的現(xiàn)狀研究及新研究方向的開拓,提供一定的依據(jù)和借鑒。