亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘與知識圖譜的文獻計量方法研究

        2023-08-04 07:18:58辛瑞昊董哲原苗馮博王甜甜李英瑞
        吉林化工學院學報 2023年1期
        關鍵詞:詞頻主題詞聚類

        辛瑞昊,董哲原**,苗馮博**,王甜甜**,李英瑞**,馮 欣

        (1.吉林化工學院 信息與控制工程學院,吉林 吉林 132022;2.吉林化工學院 理學院,吉林 吉林 132022)

        當今時代正是各行各業(yè)發(fā)展的時代,也是革新的時代。伴隨改革開放的不斷深化,我國高等教育實施全面性的改革,作為人才培養(yǎng)基地,各大高校面臨的改革任務越來越重[1]。利用現(xiàn)有高等教育改革文獻,厘清高等教育改革的現(xiàn)狀和發(fā)展,才可能有的放矢促進高等教育的發(fā)展[2-4]。鑒于此,本文提出一種文本挖掘和知識圖譜相結合的文獻分析方法,利用文本挖掘技術挖掘高等教育改革文獻信息,為文本分析提供數(shù)據(jù)支撐;利用高頻詞共詞分析構建詞頻矩陣,挖掘關鍵詞間的相互關聯(lián),有效確定高等教育研究熱點;利用文本聚類對主題詞間距離進行計算,劃分不同研究主題,明確高等教育主要研究主題;借助可視化結果直觀展示,為后續(xù)學者的研究提供思路。

        1 方 法

        1.1 基于自然語言處理的文獻主題提取

        自然語言處理是計算機科學與人工智能學科中的一個交叉方向[5],利用NLP技術可以使機器自動化對語言進行處理。為了能夠獲得更多研究方向下的重要信息,利用自然語言處理對摘要中主題詞進行抽取,用于對研究的相關數(shù)據(jù)擴充[6],利用jieba分詞對摘要中信息進行分割[7],提取出能準確表達文本信息的詞項單元,這些關鍵詞能表明文獻的中心觀點[8]。為了深入分析高等教育改革內(nèi)容,本文通過引用文獻、規(guī)則判斷和專家審核方法,將主題詞分為研究對象(O)、研究內(nèi)容(T)和研究方法(M)[9]。

        1.2 基于TF-IDF算法的主題詞特征提取

        目前對文本的特征提取大多使用詞頻統(tǒng)計方法。由于本文研究的主題詞主要分為研究對象、研究內(nèi)容、研究方法,所以在計算特征頻率的過程中,通過詞頻特征提取計算某個特征詞的特征頻率。采用TF-IDF(Term Frequency-Inverse Document Frequency)方法對文獻特征進行提取。通過計算TF-IDF值對數(shù)據(jù)集特征進行分類訓練,TF-IDF計算值越大,說明該詞與文本的相關性越大。

        以人才培養(yǎng)詞頻統(tǒng)計為例,首先統(tǒng)計文獻中不同關鍵詞出現(xiàn)的次數(shù),例如人才培養(yǎng)出現(xiàn)過X次,文本共有N個詞,可得人才培養(yǎng)出現(xiàn)的詞頻為X/N;隨后計算逆文本頻率指數(shù)IDF,計算方法為log(DA/D),其中D為出現(xiàn)人才培養(yǎng)的文本的具體數(shù)量,DA為全部文獻樣本數(shù)量;最后進行TF-IDF具體數(shù)值的計算,計算公式如下:

        (1)

        采用TF-IDF特征提取法計算出文本中每個特征詞的TF-IDF權重值,并對其進行降序排序,然后根據(jù)預先設定的篩選條件選出滿足要求的特征詞,從而實現(xiàn)了對原特征空間的降維。

        1.3 基于K-means算法的研究內(nèi)容聚類

        為了更深層次剖析高等教育改革文獻研究內(nèi)容中的主要研究方向,運用K-means算法結合余弦距離函數(shù)對研究內(nèi)容主題詞進行聚類[10-12]。K-means算法是一種通過多次迭代求解的聚類分析算法,是基于劃分式方法的一種聚類方法,它有線性的時間和空間復雜度。K-means算法流程如下:

        1)上傳高等教育改革文獻數(shù)據(jù)集DS,設置隨機種子數(shù)(Seed值)及目標簇K值;

        2)隨機從數(shù)據(jù)集中,選取K個文本{S1,S2…,SK}作為文本集初始聚類中心點;

        3)通過計算每個對象與初始聚類中心的距離dis(DS,Sk);

        4)對文獻和距離最近中心點進行匹配,將其分配給距離最近的聚類中心;

        5)重新計算簇的中心,重復上述步驟1~4,直到簇心穩(wěn)定。

        在進行聚類時,需要選擇合適的聚類距離衡量尺度??紤]到使用歐式距離來度量樣本之間的相似度會造成很大的誤差,本文利用K-means算法和余弦距離相結合的方法對研究內(nèi)容主題詞進行聚類,余弦公式相似度計算公式如下:

        (2)

        式中:si和cj表示兩個數(shù)據(jù)點;‖·‖表示為向量,若其值等于1,則兩向量相等;若等于零,則兩向量共同點。兩個主題詞之間的余弦相似度越高,這兩個主題詞之間的相似度越大。

        2 實例分析

        2.1 基于知識圖譜技術的文獻智能分析

        為了定量化分析高等教育改革趨勢,本文采用文本挖掘與知識圖譜相結合的文獻智能分析方法,如圖1所示。

        圖1 文獻智能分析框架

        第一階段為數(shù)據(jù)收集。以“高等教育”和“改革”為主題,設置檢索時間為“2010—2020年”,邏輯關系為“與”,期刊來源為CSSCI、EI、SCI、北大核心,利用網(wǎng)絡爬蟲從選定的內(nèi)容中獲取文獻文本數(shù)據(jù)。

        第二階段為數(shù)據(jù)預處理階段。在對重要信息提取后,將獲取到網(wǎng)頁加載存在問題的文獻進行篩選,將清洗后數(shù)據(jù)進行存儲。

        第三階段是數(shù)據(jù)分析階段。利用處理后的文本數(shù)據(jù),對數(shù)據(jù)進行知識圖譜分析。通過高頻詞共現(xiàn)分析、文本聚類分析和可視化分析方法,揭示高等教育改革領域的核心主題和研究熱點。

        2.2 數(shù)據(jù)來源和數(shù)據(jù)處理

        本文數(shù)據(jù)來源于“中國知網(wǎng)(CNKI)”的期刊數(shù)據(jù)庫,研究文獻類型選擇“期刊”,以“高等教育”和“改革”為主題詞進行精確檢索,設置檢索時間為“2010—2020年”,邏輯關系為“與”,選擇期刊來源為CSSCI、EI、SCI、北大核心,共檢索出論文10 642篇,將這些文獻作為本文統(tǒng)計分析的數(shù)據(jù)源。采取定向爬蟲的方法,爬取知網(wǎng)有關“高等教育+改革”為主題的數(shù)據(jù)信息,作為本文分析的數(shù)據(jù)基礎。

        2.3 作者產(chǎn)出與共現(xiàn)分析

        中介中心度是衡量作者影響力的重要因素。一個結點充當“中介”的次數(shù)越高,它的中介中心度就越大[13]。高等教育改革研究領域核心作者發(fā)文量統(tǒng)計見表1。

        表1 高等教育改革研究領域核心作者發(fā)文量統(tǒng)計

        其中,鐘秉林的發(fā)文量最多(60篇),其次是馬陸亭(44篇),別敦榮以39篇的發(fā)文量位列第三。從作者的中介中心度來看,鐘秉林、馬陸亭也位于前列。此外,張應強、瞿振元中介中心度也較高,表明他們在高等教育改革研究領域有著較高的影響力。鐘秉林、馬陸亭、張應強等都從事高等教育工作,在高等教育改革中提出了很多鮮明的觀點。由此可知,在當下的高等教育改革中,從事教育的工作者,是高等教育改革過程中的主力軍。

        2.4 主題詞的頻度和TF-IDF分析

        關鍵詞通常指一組詞或者短語可以表達一個文檔核心主題,它能夠對文本內(nèi)容進行提取和凝練,幫助人們篩選信息從而定位到所需文檔。本文通過對樣本文獻提取高頻關鍵詞,可以從整體上呈現(xiàn)近十年間高等教育改革領域存在的研究熱點。目前確定高頻詞的方法主要以下三種:①平均TF-IDF排序。利用計算主題詞在所有文獻出現(xiàn)的平均TF-IDF,構建高頻詞矩陣,來確定高頻關鍵詞。平均TF-IDF值越接近1,說明該詞在總文獻出現(xiàn)的頻率越高。②主觀選定法,依據(jù)研究者的經(jīng)驗在詞頻閾值和選詞個數(shù)之間進行平衡選定。③利用齊普夫定律確定高頻詞頻值。本文采取第一種方法來確定高頻主題詞。

        由于研究文獻數(shù)目大,在剔除無法明確定義類型的主題詞后,表2中可以看出排名前10主題詞的頻數(shù)、類型和平均TF-IDF權數(shù),其中“O”表示研究對象、“T”表示研究內(nèi)容。

        表2 “高等教育”加“改革”研究高頻主題詞

        2.5 文本聚類分析

        共詞聚類分析法(Co-word Cluster Analysis)是文本聚類分析中的一種。它通過對期刊研究的關鍵詞進行聚類分析,對共詞網(wǎng)絡中各關鍵詞間的聯(lián)系強度進行運算,把相互間聯(lián)系相對緊密的主題聚集起來形成概念相對獨立的團體,可以直觀展現(xiàn)關鍵詞之間的關系。其結果如圖2所示。圓形節(jié)點越大,表示該關鍵詞的共現(xiàn)次數(shù)越多,連線越多,表明該關鍵詞與其他關鍵詞的共現(xiàn)次數(shù)越多。直觀地發(fā)現(xiàn),“高等教育”聚類面積最大,其次是“高校”“人才培養(yǎng)”“培養(yǎng)”,學者們密切關注這幾個層面。

        圖2 主題關鍵詞聚類

        2.6 高頻共詞分析

        研究內(nèi)容表征了高等教育中重點關注的問題和現(xiàn)象。本文利用余弦距離相似度對研究主題詞進行K-means聚類,將研究主題詞聚類成3個區(qū)域,聚類中心分別為人才培養(yǎng)、教學改革及治理,這3個主題詞所代表的主題形成了文本聚類研究領域的3個方面,如圖3所示。

        年份/年圖3 研究主題年限統(tǒng)計分布圖

        從研究主題年限統(tǒng)計分布能發(fā)現(xiàn),2010—2018年是我國高等教育改革研究的萌芽階段,學者們開始了高等教育探索,3個主題每年發(fā)文量在60篇以內(nèi)。在這個階段,高等教育改革引起學術界的廣泛重視。2018—2020年間是我國高等教育改革升溫階段,三個主題發(fā)文量呈逐年上升趨勢。2020年“人才培養(yǎng)”主題文獻發(fā)文量接近700篇,“教學改革”和“治理”主題文獻發(fā)文量接近300篇,這個階段學者們聚焦于高等教育改革研究。同時,根據(jù)研究主題年限統(tǒng)計分布圖,結合“十四五”建設高質量教學改革內(nèi)容,預示著相關主題增長趨勢還將持續(xù)下去。

        2.7 高等教育改革熱點分析

        為了清晰呈現(xiàn)研究內(nèi)容(O)和研究對象(T)的關系,探究其內(nèi)在關聯(lián),通過計算二者相關性進行熱點領域分析,如表3所示。通過相關性結果與高等教育研究主題相結合能夠得出,除“教育”“改革”“發(fā)展”等過于寬泛的熱點外,緊隨其后的就是“人才培養(yǎng)”;此外,在后續(xù)中主要熱點還有“教學改革”“治理”等?!笆奈濉苯ㄔO高質量教學體系指出,高校建設改革體系要堅持圍繞學生、關愛學生,真正把學生放在主體地位,研究學生的思想動態(tài)、成長規(guī)律,注重學生的全面發(fā)展,利用科技教學手段,培養(yǎng)新時代高層次人才;同時,將嚴格管理與人性管理結合起來,統(tǒng)籌教育體系和治理能力之間的關系,深化高等教育改革的總目標?!案叩冉逃?改革”主題主要圍繞“人才培養(yǎng)”“教學改革”“治理”這3個方面,這也與“十四五”高質量教育改革要求相契合。

        表3 “高等教育+改革”研究對象和研究內(nèi)容相關性

        3 結 論

        本文提出一種文本挖掘和知識圖譜相結合的方法,對國內(nèi)的高等教育改革相關文獻進行數(shù)據(jù)挖掘和分析。通過作者產(chǎn)出與共現(xiàn)分析、高頻詞進行共現(xiàn)分析、主題詞文本聚類和可視化分析方法,揭示高等教育改革領域的核心主題和研究熱點。根據(jù)主題詞頻矩陣統(tǒng)計,高等教育(0.54)、教育(0.42)和高校(0.44)所對應的平均TF-IDF值高于知識圖譜構建規(guī)定的標準,在一定程度反映了高等教育改革較為集中于對高等教育、教育和高校的研究。文本聚類和熱點相關性分析結果表明,未來該領域的研究應該仍集中在人才培養(yǎng)、教學方式、治理體系及治理能力改革上。通過本文的研究,可以為我國高等教育改革的現(xiàn)狀研究及新研究方向的開拓,提供一定的依據(jù)和借鑒。

        猜你喜歡
        詞頻主題詞聚類
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于改進的遺傳算法的模糊聚類算法
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《疑難病雜志》2014年第13卷主題詞索引
        久久国产精品偷任你爽任你| 亚洲二区三区四区太九| 国产精品三级在线不卡| 亚洲一区毛片在线观看| 亚洲国产成人影院在线播放| 香色肉欲色综合| 亚洲免费观看一区二区三区| 少妇人妻精品久久888| 亚洲av无码一区二区三区网址| 国产精品毛片无码| 无码av一区在线观看| 国产一区二区三区中出| 色欲色香天天天综合vvv| 日本丰满熟妇bbxbbxhd| 国产精品 精品国内自产拍| 夜色视频在线观看麻豆| 精品久久久久久综合日本| 熟妇人妻av中文字幕老熟妇 | 中文字幕久久久久久久系列| 久久精品伊人久久精品| 欧美怡春院一区二区三区| 国精品无码一区二区三区在线| 亚洲VA中文字幕欧美VA丝袜| 日韩精品一区二区三区av| 国产精品日日做人人爱| 97se亚洲精品一区| 亚洲乱码少妇中文字幕| 免费观看日本一区二区三区| 成人免费看aa片| 亚洲国产av一区二区三区四区 | 久久久精品久久久国产| 久久国产成人精品av| 吸咬奶头狂揉60分钟视频| 国产精品不卡无码AV在线播放| 与最丰满美女老师爱爱视频| 国产肉体xxxx裸体137大胆| 欧美另类视频在线| 国产喷白浆精品一区二区豆腐| 激情人妻另类人妻伦| 98久9在线 | 免费| 中文字幕一区二区三区日韩网|