譚珅 楊亞楠
摘要:在大數(shù)據(jù)時代背景下,數(shù)據(jù)可視化的應用的范圍愈加廣泛,重視程度更是在不斷提高。本文通過對數(shù)據(jù)可視化研究領域發(fā)表的相關文獻進行挖掘,借助社會網(wǎng)絡分析方法,對數(shù)據(jù)可視化研究領域的主題演化和研究現(xiàn)狀進行分析。
Abstract: Under the background of large data era, the application of data visualization is more and more extensive, and the degree of attention is constantly improving. In this paper, by mining the relevant literature published by domestic scholars in the field of data visualization, with the help of social network analysis method, the topic evolution and research status of data visualization research are analyzed.
關鍵詞:數(shù)據(jù)可視化;社會網(wǎng)絡分析;研究主題
Key words: data visualization;social network analysis;research topic
中圖分類號:TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2018)36-0215-02
0? 引言
新一代信息和互聯(lián)網(wǎng)技術與社會各領域的深度融合,使得人類生產和獲取數(shù)據(jù)的能力在以指數(shù)倍數(shù)增長[1],人類社會逐漸進入一個信息爆炸的時代[2]。當海量的數(shù)據(jù)充斥著世界,那么如何從海量的數(shù)據(jù)中甄別有價值的數(shù)據(jù)和垃圾數(shù)據(jù)[3],這就必然給信息處理技術帶來了更高的要求。在此背景之下,數(shù)據(jù)可視化作為數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)分析的理論和方法被各行業(yè)越發(fā)重視。對于海量的數(shù)據(jù),傳統(tǒng)技術無法直接進行分析,可視化技術借助計算機將原始數(shù)據(jù)、信息轉換更易于人類理解和接受[4],能夠更加快速的獲得具有價值的知識[5];與此同時,在某些情況下數(shù)據(jù)挖掘技術會造成數(shù)據(jù)遺失,一些更具價值“小數(shù)據(jù)”很容易被大量的數(shù)據(jù)所淹沒,如網(wǎng)絡安全的黑客攻擊、醫(yī)療數(shù)據(jù)的患者病例信息等,而將可視化技術和數(shù)據(jù)挖掘技術結合起來是更加有效地解決方法??傮w上看,從數(shù)據(jù)的采集、數(shù)據(jù)的存儲與管理、數(shù)據(jù)的分析與挖掘、數(shù)據(jù)展現(xiàn)與應用,可視化技術是作為大數(shù)據(jù)產業(yè)架構最終呈現(xiàn)環(huán)節(jié),對于之前環(huán)節(jié)起到了至關重要的作用,可以說數(shù)據(jù)可視化決定了數(shù)據(jù)資源管理的水平的高低。
本文旨在通過對學者們在數(shù)據(jù)可視化領域的研究成果進行梳理,借助社會網(wǎng)絡分析方法,呈現(xiàn)出我國數(shù)據(jù)可視化研究領域的研究現(xiàn)狀,對學者們接下來的研究方向選擇具有指導意義。
1? 數(shù)據(jù)獲取
本文選取中國知網(wǎng)(CNKI)為數(shù)據(jù)源,將主題、關鍵詞、篇名、摘要的檢索詞設定為“數(shù)據(jù)可視化”,并且為精確模式,四者之間為或者關系;期刊來源選定為SCI、EI和CSSCI;檢索時間設定為2002年到2017年,經(jīng)檢索獲得642篇文獻。發(fā)文量趨勢線擬合方程為y=0.07x3-1.0131x2+4.1689x+18.533,其中R2=0.847,表明擬合程度較好,可信度較高。
2002年以來數(shù)據(jù)可視化的發(fā)文量比較穩(wěn)定,每年50篇維持在以下,2014年發(fā)文量開始出現(xiàn)快速增長,反應出數(shù)據(jù)可視化的研究熱度在不斷升高。鑒于此,根據(jù)年發(fā)文量的變化,本文將數(shù)據(jù)可視化的研究劃分為2002-2013年和2014-2017年兩個階段。
2? 研究方法選擇
本文使用主要社會網(wǎng)絡分析方法對數(shù)據(jù)可視化技術研究情況進行探討,借助BICOMB從原始文件挖掘出中數(shù)據(jù),使用Pajek繪制出網(wǎng)絡圖后,對獲取到的屬性數(shù)據(jù)進行深入分析。考慮到網(wǎng)絡中各衡量指標的特性,筆者選取接近度中心性作為網(wǎng)絡圖中的衡量指標,其計算公式為:
其中Cc(vm)表示節(jié)點vm接近度中心性,N表示節(jié)點數(shù),dmn表示節(jié)點vm到vn的最短距離。
3? 研究結果分析
3.1 主要關鍵詞分析
借助BICOMB軟件對從文獻中提取到的關鍵詞進行提取,并且對于同義、大小寫等表達方式不同的關鍵詞進行合并處理,最后按關鍵詞進行排序統(tǒng)計。經(jīng)統(tǒng)計,第一階段獲得關鍵詞907個,頻次大于等于2的關鍵詞有118個,累計占比37.68%,前三位的是可視化、數(shù)據(jù)可視化、信息可視化;第二階段共計獲得關鍵詞1093個,頻次大于等于2的關鍵詞數(shù)為120個,累計占比37.91%,頻次位于前三位的是可視化、大數(shù)據(jù)、數(shù)據(jù)可視化。從位于前三位的關鍵詞變化中可以發(fā)現(xiàn),大數(shù)據(jù)在研究中地位得到突顯,涉及信息可視化研究的在減少。
3.2 關鍵詞中心性分析
通過計算兩個階段關鍵詞的中心性,將中心性劃分為三個層次:Cc(vm)≥0.60的節(jié)點為核心節(jié)點用;Cc(vm)≥0.50并且Cc(vm)<0.60的節(jié)點為中間節(jié)點;Cc(vm)<0.50的節(jié)點為邊緣節(jié)點用。
第一階段(2002-2013年):在本階段,詞頻大于等于3的關鍵詞共計41個,其中核心節(jié)點有兩個分別是可視化和信息可視化,中心性分別為0.66和0.61;處于中間節(jié)點的關鍵詞是數(shù)據(jù)可視化、數(shù)據(jù)挖掘、知識可視化和科學計量學,占總數(shù)的9.76%;邊緣節(jié)點共計35個,在總數(shù)中為85.37%。對各層次節(jié)點的數(shù)量對比可以發(fā)現(xiàn)邊緣層節(jié)點占比很高,這反映出在數(shù)據(jù)可視化研究較早階段研究關注點比較分散。在邊緣節(jié)點中,可視化分析、可視分析、空間分析等分析類詞頻和信息檢索、信息資源、信息系統(tǒng)等信息類詞頻都較多,反應出數(shù)據(jù)可視化研究在這些方面的關注度較高。進一步分析,發(fā)現(xiàn)節(jié)點間連線粗細進行觀察可以發(fā)現(xiàn),數(shù)據(jù)可視化與大數(shù)據(jù)、數(shù)據(jù)新聞、數(shù)據(jù)挖掘和在線數(shù)據(jù)服務4個詞關聯(lián)度較高,反應出在初期階段與數(shù)據(jù)可視化聯(lián)系緊密的研究領域。
第二階段(2014-2017年):本階段詞頻大于和等于3的關鍵詞共計49個,有2個核心節(jié)點分別為可視化和大數(shù)據(jù),中心性分別為0.65和0.62;中間節(jié)點有7個,分別為信息可視化、數(shù)據(jù)新聞、數(shù)據(jù)可視化、可視分析、數(shù)據(jù)挖掘、社會網(wǎng)絡分析、云計算,合計占比為14.29%;邊緣節(jié)點共計40個,合計占比為81.63%。較第一階段相比可以看出,中間節(jié)點的占比升高,數(shù)據(jù)可視化研究內容上有集中趨勢;信息可視化由第一階段的核心節(jié)點演化為第二階段中間節(jié)點;數(shù)據(jù)新聞、可視分析、數(shù)據(jù)分析等逐漸成為變?yōu)橹虚g節(jié)點,說明這些領域的關注度在不斷升高;數(shù)據(jù)可視化領域研究內容的主要范圍已經(jīng)逐漸形成。此外,節(jié)點聯(lián)系最為密切的是數(shù)據(jù)新聞和可視化兩個節(jié)點之間,并且數(shù)據(jù)新聞和大數(shù)據(jù)與數(shù)據(jù)可視化節(jié)點聯(lián)系度也較高。
3.3 網(wǎng)絡特性分析
經(jīng)計算得到兩個階段關鍵詞網(wǎng)絡的網(wǎng)絡密度、平均度和集聚系數(shù),如表2所示。通過數(shù)據(jù)對比發(fā)現(xiàn),關鍵詞網(wǎng)絡的網(wǎng)絡密度、平均度和集聚系數(shù)在不斷升高,反映出數(shù)據(jù)可視化研究領域內關鍵詞緊密程度和聯(lián)系程度不斷升高,并且研究內容整體上有集中趨勢。
4? 結論
我國的數(shù)據(jù)可視化研究雖然稍晚于國外,但是我國學者在這方面取得了許多研究成果,本文通過借助社會網(wǎng)絡分析方法,從關鍵詞詞頻、關鍵詞中心性和網(wǎng)絡特性分析等四個方面對2002-2017年間的數(shù)據(jù)可視化研究領域的研究文獻進行梳理,梳理出以下結論:
①在研究初期學者們對數(shù)據(jù)可視化研究的關注度較低,較長時間內年發(fā)文量在50篇以下,但隨著學者們對該領域關注度不斷升高,發(fā)文量逐年上升,尤其是近年來增長迅速。
②數(shù)據(jù)可視化領域的研究主題呈現(xiàn)出由關注于數(shù)據(jù)挖掘和可視化呈現(xiàn)演化為關注于數(shù)據(jù)挖掘和基于可視化進行相關分析,如在第二階段中數(shù)據(jù)分析、可視分析、社會網(wǎng)絡分析等分析類詞頻熱度較高,此外,大數(shù)據(jù)、云計算等具有時代特征的關鍵詞被學者們較為關注。
③我國數(shù)據(jù)可視化的研究主題內容不斷集中,核心節(jié)點之間的關聯(lián)性在升高,邊緣節(jié)點占比在降低,主要研究內容已經(jīng)逐漸形成;并且網(wǎng)絡密度、平均度和集聚系數(shù)等網(wǎng)絡特性指標在升高,研究主題之間關系越發(fā)緊密。
參考文獻:
[1]張金磊,張寶輝,劉永貴.數(shù)據(jù)可視化技術在教學中的應用探究[J].現(xiàn)代遠程教育研究,2013(06):98-104,11.
[2]劉智慧,張泉靈.大數(shù)據(jù)技術研究綜述[J].浙江大學學報(工學版),2014,48(06).
[3]耿學華,傅德勝.可視化數(shù)據(jù)挖掘技術研究[J].計算機應用與軟件,2006(02).
[4]HABER R B. Visualization idioms : A conceptual model for scientific visualization systems [J]. Visualization in Scientific Computing, 1990.
[5]孫秋年,饒元.基于關聯(lián)分析的網(wǎng)絡數(shù)據(jù)可視化技術研究綜述[J].計算機科學,2015,42(S1).