韓雪
[摘 要] 選取CNKI收錄的知識發(fā)現相關研究文獻,利用STAI構建高頻關鍵詞共現矩陣,運用SPSS繪制聚類樹狀圖,采用社會網絡分析及共詞分析等方法對2012年至2017年五年內知識發(fā)現領域研究熱點及趨勢進行分析,通過梳理國內知識發(fā)現領域研究現狀,以期為知識發(fā)現的研究和發(fā)展提供借鑒和指導。
[關鍵詞] 知識發(fā)現;社會網絡分析;共詞分析;可視化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 03. 055
[中圖分類號] G250 [文獻標識碼] A [文章編號] 1673 - 0194(2018)03- 0136- 03
0 引 言
隨著大數據時代的來臨,數據的指數級增長和廣泛的可用性為知識發(fā)現提供了巨大的潛力,并為在各個學科和各領域中的應用帶來了新的挑戰(zhàn),知識發(fā)現與數據挖掘也成為了國內學術界研究的熱點[1]。本文運用社會網絡分析方法和共詞分析方法,通過關鍵詞共現網絡和關鍵詞共詞聚類分析,探索我國知識發(fā)現研究熱點和內容結構,通過與國際研究前沿領域的比較,以期為后續(xù)知識發(fā)現研究與實踐的開展提供參考和建議。
1 數據來源與研究方法
1.1 數據來源
本文選取CNKI中國學術期刊網絡出版總庫為數據來源,檢索式為“主題=知識發(fā)現”;檢索時間從2012年1月1日至2017年5月1日,得到2 277檢索結果,經過數據清洗,去除新聞及通知等不相關檢索內容,共獲得2 216條檢索結果。
1.2 數據處理工具
在進行研究分析前,對數據進行預處理工具是數據分析的重要環(huán)節(jié)。本文使用文獻題錄信息統(tǒng)計分析工具(Statistical Analysis Toolkit for Informetrics, SATI)[2]對檢索結果進行字段信息抽取、條目頻次統(tǒng)計,最后構建共詞矩陣,將共詞矩陣導入社會網絡分析軟件Ucinet和SPSS進行分析,形象的展示知識發(fā)現的研究熱點與前沿發(fā)展趨勢。
1.3 構建共現矩陣
將從CNKI中檢索到的內容以endnote格式導出,然后導入SATI中,選擇作者以及關鍵詞作為字段抽取,進行頻次統(tǒng)計,生成高頻關鍵詞矩陣,將生成的矩陣保存為Excel格式,導入ucinet和SPSS中,為后續(xù)分析做準備。
1.4 研究方法
本文利用社會網絡分析方法構建高頻關鍵詞共現網絡圖譜,采用共詞聚類分析法,利用SPSS繪制關鍵詞聚類樹狀圖揭示知識發(fā)現領域研究結構及其存在的內在聯系[3]。
2 高頻關鍵詞共現網絡分析
將在SATI中生成的關鍵詞共詞矩陣導入ucinet,使用netdraw進行可視化分析生成高頻關鍵詞共現網絡,如圖1所示。其中節(jié)點越大,連線越多表明該關鍵詞屬于知識發(fā)現領域核心的關鍵詞,在該領域具有重要作用。由圖1可知,數據挖掘、知識發(fā)現、圖書館、關聯數據、關聯規(guī)則是知識發(fā)現領域的熱點研究問題。其中數據挖掘與知識發(fā)現處在該領域的絕對中心,一方面關于知識發(fā)現與數據挖掘關系的探討一直受到學者的關注,另一方面在某種程度上可以說,知識發(fā)現在其他領域的應用是圍繞著數據挖掘展開的。
3 高頻關鍵詞聚類分析
聚類分析是一種“物以類聚”的研究方法,它的基本思想是根據數據對象的特征,將特征相似的數據對象歸為一類,使得同一類中的數據對象的距離小于與其他類間的數據對象的距離,主要目的是用來判別數據對象之間關系的親疏程度。聚類分析方法又分為劃分法和層次法,層次聚類法是指將數據對象聚類成具有層次嵌套結構的樹狀圖,位于最頂層的根節(jié)點對應的是整個數據集,處于最底層的對應的是單獨的數據點[4],本文使用層次聚類法探討知識發(fā)現領域高頻關鍵詞之間的內在聯系,探究知識發(fā)現領域的研究熱點。
將高頻關鍵詞共現矩陣導入SPSS 20.0分析軟件中進行系統(tǒng)聚類分析,經過詳細比較研究,本研究采用組間聯接、歐式平方距離的方法聚類效果最好[5],得到高頻關鍵詞聚類樹狀圖,如圖2所示。對聚類結果進行分析,可以看出,在這五年中,知識發(fā)現領域的研究熱點大概可以分為四類:知識發(fā)現方法與技術研究;圖書館知識服務研究;知識發(fā)現應用領域研究;粗糙集理論與應用研究。
(1)知識發(fā)現方法與技術研究
包括關鍵詞關聯規(guī)則、Apriori算法、數據挖掘、決策樹、數據倉庫、聚類以及數據分析。其研究主要集中在關聯規(guī)則算法的研究與改進,決策樹算法研究與應用,數據倉庫關鍵技術研究,旨在通過改進技術提高數據挖掘的質量和效率,保證數據分析的正確性和有效性。
(2)圖書館知識服務研究
包括關鍵詞數字圖書館、知識服務、大數據等,其研究主要集中在圖書館知識發(fā)現系統(tǒng)研究,數字圖書館知識服務平臺研究,圖書館個性化服務研究。此類研究主要依托圖書館的海量資源、成熟的服務體系及大量用戶的知識需求,通過知識挖掘對各類文獻資源進行整合分析,針對不同用戶的需求為其提供精準的知識發(fā)現服務,旨在通過提供更好的信息服務內容和手段,提升用戶體驗[6]。
(3)知識發(fā)現應用領域研究
包括關鍵詞物聯網、聚類分析、關聯數據、可視化、中醫(yī)藥、本體、知識管理,其研究內容集中在將知識發(fā)現理論應用物聯網、關聯數據、中醫(yī)藥等領域,當前關聯數據被W3C推薦為語義網的最佳實踐,利用關聯數據數據量大、結構統(tǒng)一的特點,將知識發(fā)現與關聯數據結合進行語義網環(huán)境下的知識發(fā)現[7];在中醫(yī)藥領域,通過構建中醫(yī)藥學的本體工程進行中醫(yī)藥學知識發(fā)現,利用知識發(fā)現技術進行中醫(yī)病案數據庫研究、探索中醫(yī)診療規(guī)律[8]等方面也成為研究熱點。
(4)粗糙集理論與應用研究
包括關鍵詞粗糙集、屬性約簡、形式概念分析、概念格、屬性偏序結構,其研究重點在粗糙集理論與應用研究上。將粗糙集理論應用于知識發(fā)現研究,可以大幅提高數據處理的能力[9]。
4 結 語
本文主要以CNKI上發(fā)表的知識發(fā)現相關研究論文為基礎,基于社會網絡分析和共詞聚類分析,聚焦知識發(fā)現研究熱點,結果顯示近年來,知識發(fā)現領域研究熱點集中在提高知識發(fā)現能力以及知識發(fā)現與各領域結合方面,在知識發(fā)現挖掘方法、中醫(yī)藥學、生物醫(yī)學等領域發(fā)展較快,并已有一些研究成果, 隨著數據挖掘方法技術的不斷提高,知識發(fā)現將在各領域有更廣泛的應用。
主要參考文獻
[1]KDD2016Program.http://www.kdd.org/kdd2016/program/accepted-papers.html[EB/OL].(2017-01-15)[2017-12-09].
[2]劉啟元,葉鷹.文獻題錄信息挖掘技術方法及其軟件SATI的實現——以中外圖書情報學為例[J].信息資源管理學報,2012(1):50-58.
[3]鐘偉金. 共詞分析法應用的規(guī)范化研究——主題詞和關鍵詞的聚類效果對比分析[J]. 圖書情報工作,2011,55(6):114-118.
[4]王學東,杜曉曦,石自更. 面向學術博客知識交流的社會網絡中心性分析[J]. 情報科學,2013(3):3-8,16.
[5]白雪. 聚類分析中的相似性度量及其應用研究[D].北京:北京交通大學,2012.
[6]高勁松,李迎迎,梁艷琪,等. 基于文獻數據可視化的知識發(fā)現模型研究[J]. 圖書館學研究,2016(2):49-56.
[7]顧洪濤. 我國高校圖書館研究熱點探析[D].大連:遼寧師范大學,2014.
[8]陳蘭蘭. 基于社會網絡分析和共詞分析的國內關聯數據研究[J]. 圖書與情報,2013(5):129-132.
[9]農田泉. 知識發(fā)現技術在中醫(yī)藥研究中的應用[J]. 中醫(yī)學報,2013(2):210-211.
[10]王國胤,姚一豫,于洪. 粗糙集理論與應用研究綜述[J]. 計算機學報,2009(7):1229-1246.