亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共詞分析的國內文本挖掘研究*

        2021-05-15 06:48:44宋卓遠闞乾超陳鐿尹楊云帆楊秀璋羅子江
        圖書館學刊 2021年4期
        關鍵詞:出版社

        宋卓遠 闞乾超 趙 凱 陳鐿尹 楊云帆 楊秀璋 羅子江

        (貴州財經(jīng)大學信息學院,貴州 貴陽550025)

        在信息迅速發(fā)展的時代,人們從以往對信息數(shù)量的需要轉變?yōu)閷π畔①|量的需求,而之前較少被人們注重的文本內卻包含著海量潛在價值。文本的來源多種多樣,有書本、論文、期刊、新聞、郵件、各類網(wǎng)絡評論、聊天記錄和社交媒體數(shù)據(jù)等,這些都和人們的生活息息相關。因此對文本進行有效挖掘具有重要價值。

        文本挖掘主要是從諸多復雜的文本數(shù)據(jù)中發(fā)掘隱形的、有用的數(shù)據(jù)模式、內在關聯(lián)、規(guī)律、發(fā)展趨勢等,從而被個人、企業(yè)和機構等進行有效利用[1]。文本挖掘涉及多個領域,可以輔助相關領域的研究,如楊亞楠等[2]基于多視圖協(xié)同的方式,對政策文本背后規(guī)律進行深入分析,證明了該技術框架的有效性;沈健等[3]提出一種基于文本挖掘的生物領域實例獲取方法,提高了該領域的文本檢索效率;張坤等[4]采用文獻計量、社會網(wǎng)絡分析等方法,對智慧圖書館文獻的外部及內部特征進行分析,并揭示其學科特色和整體格局;李夢杰等[5]利用LDA模型和聚類算法,對某互聯(lián)網(wǎng)教育平臺中課程信息進行研究,有效挖掘出學員所選課程背后隱含的關注點和興趣點;余本功等[6]基于機器學習和主題模型,對專利摘要進行內容挖掘,并構建出技術創(chuàng)新評價體系;戴德寶等[7]將文本挖掘和機器學習應用到股票數(shù)據(jù)的分析中,有效提高股指走勢預測的精度。

        以上皆是對文本挖掘領域的具體研究,然而國內學者對該領域的整體研究還相對較少,陳紅琳等[8]雖然通過共詞分析等方法對國內文本情感分析的研究成果進行熱點分析和趨勢預測,但未能揭示文本挖掘在其他研究方向的進展狀況。譚章祿等[9]采用聚類分析和卡方統(tǒng)計等定量化方法對國內文本挖掘文獻進行主題分析,該研究方式較為單一,很難全面挖掘出關鍵詞間的聯(lián)系及各主題的動態(tài)演化過程。針對以上問題,筆者提出一種基于共詞分析的方法,通過構建矩陣發(fā)掘高頻關鍵詞間的相互關聯(lián),有效確定當前研究熱點;利用層次聚類算法對各主題詞進行計算,并劃分成不同的研究主題,明確文本挖掘領域主要的研究方向;借助知識圖譜等可視化技術使分析結果直觀展現(xiàn),利于研究者梳理該領域各主題的發(fā)展脈絡及更好預測未來趨勢。

        1 數(shù)據(jù)和方法

        1.1 數(shù)據(jù)來源與預處理

        筆者數(shù)據(jù)爬取自中國知網(wǎng)期刊數(shù)據(jù)庫,于2019年6月6日,以“文本挖掘”為檢索主題,設定“核心期刊+CSSCI”為來源類別,對數(shù)據(jù)庫進行精確檢索,共獲得相關文獻627篇。經(jīng)人工篩選,剔除會議通知、重復和信息缺失等無效文獻,實際得到有效文獻556篇。

        1.2 研究方法

        筆者主要基于共詞分析法對文獻數(shù)據(jù)進行研究,總體思路如圖1所示。

        圖1 文本挖掘研究思路

        具體研究步驟如下:

        (1)通過Python技術完成文本挖掘文獻的爬取,并保存至本地,獲得數(shù)據(jù)包括文獻標題、作者、關鍵詞、發(fā)表年份、出版社、引用次數(shù)、下載次數(shù)和摘要8個特征;

        (2)對所獲的文獻數(shù)據(jù)進行人工預處理,剔除無效數(shù)據(jù)71篇,最后共得556篇有效文獻;

        (3)利用Excel、Ucinet軟件對已處理數(shù)據(jù)進行文獻計量分析,包括文獻時間分布、期刊來源分布和作者發(fā)文分布3個方面的研究;

        (4)使用Python抽取文獻關鍵詞,并對其中高頻關鍵詞構建共現(xiàn)矩陣、相似矩陣和相異矩陣;

        (5)采用共詞分析法實現(xiàn)高頻詞共現(xiàn)、主題聚類、主題演化等研究,并借助Gephi軟件和Python技術使分析結果可視化。

        2 文獻計量分析

        2.1 文獻時間分布

        對文獻數(shù)量年分布進行統(tǒng)計分析,結果如圖2所示。我國從1998年開始就有學者對文本挖掘進行過相關研究[10],此時正值該領域探索階段。2000年至今文獻量迅速增加并總體呈冪指數(shù)上升趨勢,用函數(shù)Y=1.499X1.1731擬合文獻曲線,擬合度R2=0.9172,表明擬合函數(shù)基本符合文獻實際發(fā)文情況,也間接反映出未來與文本挖掘相關的文獻還將繼續(xù)增加。同時,從文獻的累積量看,可用曲線Y=1.4112X2-3.3338X+10.036擬合,R2=0.9971,擬合程度良好,此趨勢線正處于拋物線的上升區(qū)間,意味著文本挖掘的研究進入黃金發(fā)展期,有很大前景。

        圖2 文獻時間分布

        2.2 期刊來源分布

        據(jù)統(tǒng)計,556篇文本挖掘論文分布于191種期刊中,平均每種期刊載文2.91篇。表1列出期刊載文量不少于5篇的所有期刊,其中《情報雜志》載文量最多,共刊載30次;《計算機研究與發(fā)展》總引用量最多,5篇文獻共被引用858次。依據(jù)布拉德福期刊劃分定律[11],將期刊按其載文量降序排列并大體均分為3個區(qū):核心區(qū)(9種期刊、190篇論文)、相關區(qū)(34種期刊、193篇論文)和邊緣區(qū)(148種期刊、173篇論文)。其中,核心區(qū)每種期刊載文量大于13篇,相關區(qū)每種期刊載文量3至6篇,邊緣區(qū)每種期刊載文量1至兩篇。3個區(qū)域內期刊數(shù)量之比(9:34:148)近似滿足1:a:a2的規(guī)律,可推算出布拉德福系數(shù)a≈4。

        對每個區(qū)域分析發(fā)現(xiàn),34.17%的論文約占期刊總數(shù)的4.7%,68.9%的論文約占期刊總數(shù)的22.5%,這折射出研究文本挖掘的文獻主要分布在少數(shù)期刊。這些期刊集中于3個學科領域,分別為圖書情報領域、計算機領域和生物醫(yī)學領域,即當前文本挖掘的熱門領域。

        表1 期刊來源分布(載文量≥5)

        2.3 作者發(fā)文分布

        經(jīng)統(tǒng)計分析,數(shù)據(jù)中發(fā)文量不少于3篇的作者有47人,用軟件Ucinet對其繪制作者合作網(wǎng)絡圖譜,如圖3所示。圖中,方塊代表發(fā)文作者,連線表示作者間的合作關系,每種顏色對應不同發(fā)文量,其中紫色代表發(fā)文量大于12的作者,紅色表示發(fā)文量為7至12篇的作者,綠色表示發(fā)文量在5至6篇的作者,黃色和藍色分別表示作者發(fā)文量等于4和3。

        圖3中可知,本領域作者分布稀疏,表明大多作者基本是在獨立研究。3人以上團隊僅有3個,其中以鄭光、呂愛平為首的團隊合作規(guī)模最大,主要研究文本挖掘在生物醫(yī)學方面的應用,代表著作有《基于文本挖掘技術初步探討雷公藤應用相關的生物學基礎》《基于文本挖掘方法探索糖尿病中醫(yī)養(yǎng)生理論與方法的規(guī)律》;肖衛(wèi)東團隊主要對多文本的比較性話題進行研究,該團隊曾提出一種PCCMix混合模型,有效解決了公共話題和特有話題的識別問題[12];汪雪鋒團隊以語義挖掘和主題詞簇的研究為主,并提出一種以SAO為主的形態(tài)識別方法,彌補了基于關鍵詞方法的不足[13]。

        圖3 作者合作網(wǎng)絡

        3 共詞分析

        3.1 高頻關鍵詞分析

        關鍵詞是論文主要內容的高度濃縮和概括,能夠反映論文的研究主旨或方法等內容。其中高頻關鍵詞能很大程度代表該論文研究領域中的研究熱點,有助于學者對該領域目前及未來的研究方向更好地把握。研究前,筆者對關鍵詞進行合并、刪除等預處理操作[14],如將“文本挖掘技術”“文本挖掘”和“網(wǎng)絡文本挖掘”等近義詞合并為“文本挖掘”;刪除部分對研究無價值的關鍵詞。統(tǒng)計顯示556篇論文共涉及1248個關鍵詞,其總頻數(shù)為2326,平均每個關鍵詞頻數(shù)為1.864。為便于研究,文中僅截取詞頻不低于5的50個高頻關鍵詞給予分析(見表2),這些關鍵詞詞頻總和為936,占所有關鍵詞的40.24%,高于知識圖譜構建規(guī)定的27%[15],達到分析標準。

        從表2中可知,“文本挖掘”詞頻最高,達433次;“文本聚類”“文本分類”“領域本體”“信息抽取”“主題模型”等詞的頻數(shù)也較高,這在一定程度上反映出文本挖掘領域較多注重挖掘方法、技術和相關模型的研究。

        表2 高頻關鍵詞統(tǒng)計

        3.2 關鍵詞共詞分析

        高頻關鍵詞雖能一定程度上反映研究領域的熱點主題,但無法揭示高頻詞與主題間的相互關系及動態(tài)變化。因此,文中采用共詞分析法構建一個50×50的高頻詞共現(xiàn)矩陣,如表3所示,表中對角上數(shù)值表示高頻關鍵詞的詞頻,其他區(qū)域內數(shù)值表示行列分別對應的高頻詞共同出現(xiàn)在一篇論文中的次數(shù)。其矩陣構建規(guī)則如公式(1)所示:

        式(1)中n為兩兩關鍵詞的共現(xiàn)次數(shù);wi為第i行對應的關鍵詞;wj為第j列對應的關鍵詞。

        為了消除共現(xiàn)矩陣內數(shù)值差異較大帶來的影響,筆者采用皮爾遜相關系數(shù)法將其轉換成數(shù)值在[0.1]間的相似矩陣,如表4所示,表中值越大,則說明兩詞間相關性越緊密,反之相關性越小。

        在后續(xù)的層次聚類分析中,相似矩陣內過多的0值會干擾實驗結果,有必要用1減去相似矩陣內各數(shù)值,從而得到相異矩陣,計算結果如表5。

        表3 高頻詞共現(xiàn)矩陣(部分)

        表4 高頻詞相似矩陣(部分)

        表5 高頻詞相異矩陣(部分)

        3.3 高頻關鍵詞共現(xiàn)知識圖譜

        借助Gephi軟件根據(jù)表3繪制文本挖掘高頻關鍵詞共現(xiàn)知識圖譜,結果如圖4所示,圖中圓圈代表關鍵詞,其大小為詞頻高低,連線代表詞間的共現(xiàn)關系,線的粗細表示詞共現(xiàn)頻次高低。圖4顯示,位于中心位置的是“文本挖掘”,和周圍“數(shù)據(jù)挖掘”“文本聚類”“文本分類”“情感分析”和“知識發(fā)現(xiàn)”等詞共現(xiàn)較多,聯(lián)系緊密,表明這些詞共同形成了整個圖譜的主體結構,即文本挖掘領域的熱點內容。其他關鍵詞逐漸向邊緣地帶擴散,連線變細,詞間聯(lián)系漸少,說明這些研究點關注度較小,還尚處在發(fā)展階段,但同時也意味著可能會有很大的研究空間。

        圖4 高頻關鍵詞共現(xiàn)知識

        3.4 主題聚類分析

        主題層次聚類是一種依據(jù)變量間距離和相似性將高頻關鍵詞自動分類的技術。文中調用Python對高頻關鍵詞的相異矩陣進行聚類分析,算法中method和metric參數(shù)分別選用ward和euclidean。其中歐式距離(euclidean)的計算公式如下:

        式(2)中dist(X,Y)表示X和Y兩點間的歐式距離;m表示空間維度,這里取值為2;xi表示X點的第i維坐標;yi表示Y點的第i維坐標。

        聚類結果如圖5所示,橫坐標軸為各類別間的距離,縱坐標軸為各主題高頻詞。圖中顯示出國內文本挖掘主題形成了4個類別:第一類為人工智能下的知識管理,包括“人工智能”“自然語言處理”“機器學習”“知識管理”“知識服務”等關鍵詞;第二類為挖掘技術及算法研究,包括“語義分析”“命名實體識別”“神經(jīng)網(wǎng)絡”“情感分析”“特征提取”“文本分類”“文本聚類”等關鍵詞;第三類為生物醫(yī)學,包括“證候”“中藥”“數(shù)據(jù)分層算法”“中成藥”“西藥”等關鍵詞;第四類為文本挖掘應用研究,包括“輿情分析”“政策分析”“圖書館”“專利分析”“知識圖譜”等關鍵詞。

        圖5 文本挖掘主題聚類分析

        3.5 主題演化分析

        為更好地把握文本挖掘領域熱點主題的動態(tài)趨勢,對556篇論文的時間和高頻詞繪制主題演化趨勢圖譜,如圖6所示。圖中將論文時間劃分成3個階段:(a)1998-2006年、(b)2007-2012年、(c)2013-2019年。從中可知:

        (1)總體情況:從各階段的網(wǎng)絡節(jié)點及密度可以看出,第一階段節(jié)點數(shù)較少且分布稀疏,最后階段節(jié)點規(guī)模最大且分布密集,主題熱點數(shù)總體呈上升態(tài)勢,表明了文本挖掘領域的整體發(fā)展狀況。其中各階段熱點均有變動,如2006年之前主要熱點有“文本挖掘”“數(shù)字化圖書館”“知識發(fā)現(xiàn)”“信息檢索”等;2007-2012年主要熱點有“文本挖掘”“機器學習”“領域本體”“中藥”等;2013-2019年主要熱點有“文本挖掘”“情感分析”“知識圖譜”“大數(shù)據(jù)”等。但是各個階段的年節(jié)點都以文本挖掘為中心發(fā)散分布,這說明以文本挖掘為主的聚類、分類等主題一直是該領域的主要研究內容,具有較好的延續(xù)性。

        (2)各階段情況:第一階段皆為新興主題,正值文本挖掘領域探索階段,其中“圖書館”“信息檢索”“知識發(fā)現(xiàn)”等詞出現(xiàn)年份較早,表明該階段研究主要源于圖書館現(xiàn)狀解析,較為貼近實際。

        第二階段中“機器學習”“命名實體識別”“中藥”等主題開始出現(xiàn),其中值得注意的是,“中藥”“西藥”“中成藥”“證候”等主題詞集中出現(xiàn)于2011至2012年,表明該時期文本挖掘在生物醫(yī)學方面的研究受到廣大學者的重視。相較于第一階段,“信息抽取”“中文信息處理”“專利”“可視化”等節(jié)點變大,反映出這些主題處于成長狀態(tài),相關內容及技術的研究增強了人們提取信息的能力。而“自然語言處理”“人工智能”“競爭情報”等節(jié)點沒明顯變化,熱點持續(xù)較低,態(tài)勢平緩,有待發(fā)展。

        第三階段,主題數(shù)量迅速增加,增長率遠超前兩個階段,各主題間關系也越為緊密、復雜。此階段的新興主題有“大數(shù)據(jù)”“知識圖譜”“情感分析”“主題模型”等,究其原因,可能是近年以來4G普遍及5G興起的緣故。和前兩個階段相比,“社交網(wǎng)絡分析”“專利”“競爭情報”等主題快速發(fā)展起來,表明其研究領域在不斷成熟,其中“專利”類主題3個階段均有存在,演化最為持久。同時,“中成藥”“證候”等生物醫(yī)學方面的主題節(jié)點逐漸變小且僅在2013至2014年間出現(xiàn)過,說明該類主題熱度在不斷下降直至消失,雖然在個別年份受到較大關注,但延續(xù)性較差,沒有得到進一步發(fā)展,屬于消亡主題。此外,2015到2019年,“自然語言處理”及“人工智能”類主題繼續(xù)沿之前態(tài)勢發(fā)展,持續(xù)時間較為長久,表明未來極有可能成為熱點。

        圖6 主題演化趨勢圖譜

        4 結語

        筆者提出一種共詞分析和文獻計量相結合的方法,對國內文本挖掘的相關文獻進行挖掘和計量。通過構建高頻關鍵詞共現(xiàn)知識圖譜和主題層次聚類揭示和分析國內文本挖掘領域的核心主題和研究熱點。同時,文中將文獻按時間分為3個階段,利用共詞分析對每階段主題詳盡分析,并借助有關工具對結果進行可視化展現(xiàn),大致理清該領域的總體發(fā)展狀況和各主題的演化過程。實驗結果發(fā)現(xiàn),本研究方法能夠有效洞悉文本挖掘領域的研究現(xiàn)狀及進展,發(fā)掘關鍵詞和主題間的動態(tài)關系,為未來研究提供一種新的視角和參考依據(jù)。

        猜你喜歡
        出版社
        從大廠“逃離”到出版社
        出版人(2024年9期)2024-09-22 00:00:00
        內卷
        科教新報(2024年4期)2024-03-17 09:48:21
        Investigation of Co-doped Mn oxide catalyst for NH3-SCR activity and SO2/H2O resistance
        我等待……
        讀者(2021年5期)2021-02-05 02:52:39
        今日華人出版社有限公司
        On the Problematic Sounds of English Interfered by Shaanxi Dialect from My Students and the Analysis of Reasons
        你想踩著哪一款輪子飛馳?
        Thoreau and Walden
        卷宗(2015年11期)2015-12-19 18:59:49
        石油工業(yè)出版社
        全國新書目(2014年7期)2014-09-19 20:45:40
        貴州教育出版社
        全國新書目(2014年7期)2014-09-19 16:00:53
        日韩无套内射视频6| 女人av天堂国产在线| 一本一道vs无码中文字幕| 国产激情精品一区二区三区| 国产偷2018在线观看午夜| 国产少妇一区二区三区| 国产一品二品三品精品在线| 亚洲avav天堂av在线网爱情| av中文字幕不卡无码| 国产在线视频网站不卡| 日韩精品免费一区二区三区观看| 色欲色欲天天天www亚洲伊| 福利在线国产| 久久国产劲爆内射日本| 熟女中文字幕一区二区三区| 伊人久久大香线蕉av网禁呦| 亚洲综合欧美在线| 国产在线精彩自拍视频| 色偷偷激情日本亚洲一区二区| 夜夜躁狠狠躁2021| 亚洲 无码 制服 丝袜 自拍| 老司机在线免费视频亚洲| 无码人妻精品中文字幕| 亚洲色欲久久久久综合网| 红杏性无码免费专区| 亚洲乱码中文字幕三四区| 国产伦人人人人人人性| 亚洲欧美国产日韩制服bt| 亚洲日本视频一区二区三区| 国产在线观看91一区二区三区| 男女爱爱好爽视频免费看| 999精品免费视频观看| 亚洲av综合av国一区二区三区| 特黄aaaaaaaaa毛片免费视频| 国产精品久久久av久久久| 日产乱码一区二区国产内射| 日本区一区二区三视频| a级毛片免费观看在线| 日韩爱爱视频| 午夜蜜桃视频在线观看| 国产精品天堂avav在线|