鄧志文 都平平 李新春
摘要:[目的/意義]單一數據源下機構知識可視化存在信息的缺失,基于多數據源的可視化可以相輔相成,互為補充。[方法/過程]分析了多數據源下機構知識動態(tài)可視化的關鍵技術,并針對知識節(jié)點的巨星問題給出一種多粒度數據采樣和屬性值加權的知識構造方法,對平臺的系統架構進行了詳細討論和設計,最后基于Echarts可視化套件對平臺中合作關系、研究熱點、機構分布等進行了實現。[結果/結論]多數據源知識可視化平臺能彌補單一數據源中可能丟失的各種關系,多粒度采樣讓可視化結果整體美觀協調,為機構的學術發(fā)展狀況、研究方向的確立、研究團隊的組建等決策提供了信息支持。
關鍵詞:多數據源;數據抽取;可視化;知識融合;數據采樣
DOI:10.3969/j.issn.1008-0821.2019.02.020
〔中圖分類號〕G255.76〔文獻標識碼〕A〔文章編號〕1008-0821(2019)02-0169-09
近些年來,國內很多大學或學術機構都在積極地建立自己的機構知識庫,機構庫存儲和管理著大量的研究文獻和機構知識,對這些大量文獻進行整理和梳理,并采用各種分析方法從中獲取隱含的有價值的信息和知識是圖書館提升情報服務能力的有效途徑,而這個過程需要科技分析人員花費大量時間和精力??梢暬治黾夹g以直觀的方式顯示知識之間的相互聯系,并采用數據挖掘、信息處理、知識計量等手段把復雜的知識領域通過圖形顯示出來,揭示知識領域的動態(tài)發(fā)展規(guī)律[1];國內使用最多的機構知識儲存平臺Dspace本身沒有這種可視化分析模塊,很多研究者都是基于第三方工具如CiteSpace、VOSviewer等對機構知識進行可視化圖譜分析[2],而這種分析結果都是靜態(tài)圖,并沒有將其嵌入到機構知識平臺實現其動態(tài)可視化;同時對這種單一源的數據進行可視化,其數據來源單一、資源有限,對應的可視化所展示的信息也有限?,F實中機構同一主題的信息(如某一專家的信息)往往分布在不同的數據源中,如能從多個不同類型的數據源中進行數據的獲取,這樣來自不同數據源中的知識能相輔相成,互為補充,所構建的知識可視化平臺也能全面豐富地反映有關主題的知識圖譜網絡,同時也能彌補單一數據源中可能丟失的各種關系[3]。
基于此本文分析了多數據源下機構知識動態(tài)可視化圖譜平臺的關鍵技術,并針對本文討論的可視化中出現的巨星問題給出了一種多粒度的數據采樣知識構造方法,有效回避了因巨星節(jié)點產生的信息不可見問題;最后設計了多數據源下機構知識動態(tài)可視化圖譜平臺,實現了其作者合作關系、研究熱點、機構分布等動態(tài)可視化展示,從其運行結果中該平臺有效揭示了機構的研究主題、研究前沿、潛在研究團隊等信息,在一定程度上為機構、用戶的決策需求提供了參考。
1關鍵問題
知識可視化是當下研究的熱點,谷歌公司早于2012年5月17日提出了知識圖譜的概念,并宣布以此為基礎構建下一代智能化搜索引擎[4]。知識可視化圖譜的構建對中文信息處理和檢索具有重要的現實意義和應用價值,吸引了大量的國內外研究者,其中也出現了很多可視化輔助工具,尤其在采集、預處理、分析和可視化學術數據等方面存在多種工具,許多工具不僅專業(yè)性強且功能豐富。在高?;蛘呖蒲袡C構中構建的知識圖譜大部分是通過各種專業(yè)性工具進行的手工構建,有時缺乏統一的方法,并且都是面向某一特定信息源(如Dspace數據、SCI數據、CNKI數據等),其知識源有限,所展示的信息也有限,而本文討論的基于多數據源的知識可視化平臺需要解決的問題包括以下幾方面。
1.1多數據源數據融合
由于多數據源的知識來源于不同平臺中,其知識的表示、知識的結構存在不同,同時知識之間也存在重復冗余等問題,所以必須要進行知識的融合。關于多數據源的融合已有很多理論研究成果,如文獻[5]針對結構化數據、半結構化數據、非結構化數據以及現有的一些通用知識圖譜庫等多數據源給出了其知識圖譜構建方法。本文從現實和可操作性考慮主要研究從高校和科研機構中各種結構化數據庫進行數據的融合,如:機構知識庫、學位論文庫、專家數據庫、教參庫等。
1.2可視化節(jié)點的巨星問題
在知識圖譜的節(jié)點關系圖中,往往節(jié)點的大小用來反映其在機構知識中的重要程度,比如作者合作關系圖中,作者節(jié)點越大則說明他的合作數就越多,而節(jié)點的大小一般都是通過挖掘機構知識中所有他的合作關系進行累加的值,由于各單位以及個人發(fā)文量以及合作人數都不一樣,其作者節(jié)點大小會存在很大差別,有時會出現巨型節(jié)點,此時很多可視化平臺會自動的過濾掉小節(jié)點,就好比站在宇宙邊緣看整個宇宙,只需要看到大恒星,不需要看到地球等小行星,這種巨星問題會造成局部信息的丟失,即使可視化平臺不過濾掉小節(jié)點,也會使整個顯示效果很不美觀和協調。另一方面,對于多個機構而言,用戶一般只關心可視化結果中各機構間的整體網絡關系情況,而對其某一單個機構的局部相關網絡此時不會有太多關注。但任何一個可視化開發(fā)套件都是依據所給的數據源如實的展現知識,它無法去智能的適應這種知識機構數的變化,因此在不同的機構數下需要有不一樣的數據采樣粒度。
1.3元數據的清洗
機構知識中由于人工操作不規(guī)范,在格式和內容上存在不一致,如關鍵詞間用逗號、漢字的分號、內容中有不該存在的字符等,這就造成元數據中存在異常的數據,需要對這些引起異常的數據進行清洗去除。因此需要分析所有異常數據可能性,并采用一定的方法最大限度地降低這些異常數據。
2多數據源的知識可視化關鍵技術
2.1基于ETL的數據抽取
本文討論多數據源主要針對機構中常見的各種關系數據庫中的數據,文獻[6]中給出了一種ETL數據抽取體系,基于此本文設計的多數據源數據抽取體系如圖1所示。該體系中ETL是中間層,其依據預先定義的規(guī)則負責從各種分布的數據源中如結構化數據、文本數據等抽取需要的數據進行清洗、轉換、采樣、融合,最后存入到目標數據平臺中,成為分析處理、數據挖掘、知識表示的基礎。進行數據抽取前需要確定各數據源運行的是什么DBMS(數據庫管理系統),并分析其元數據中是否存在手工輸入數據(如有人工錄入就存在數據的質量問題后續(xù)必須要進行數據清洗)和半結構或非結構化的數據等問題。其ETL體系中數據源訪問過程分為如下:
應用服務層:系統管理對元數據、機構、地理坐標等,可視化數據服務需要將獲取的元數據進行預處理、數據清洗、規(guī)范化、分析、采樣和結構映射6個步驟,其中數據清洗把臟數據、敏感數據過濾掉,采樣需要剔除和可視化結果無關的冗余數據,映射是調整數據結構到表示層能接受的格式。
數據表示層:可視化結果中無法把所有的數據都一次展示,該層需要對數據進行標準化處理,標準化的過程有賴于所依賴的可視化套件,也就是要將最終的數據轉換成用戶端可視化套件要求的數據格式。
4平臺實現
本研究以中國礦業(yè)大學的Dspace機構庫、Scholor專家?guī)旌蛯W位論文庫為數據源,并以Echarts[10]可視化套件作為動態(tài)可視化效果,實現了有關可視化設計,圖5是顯示的所有的作者合作關系圖,不同院系顏色不一樣,院系間存在有節(jié)點的鏈接,也就是說各院系間存在潛在的合作作者。
圖6是顯示的單個院系(安全學院)的作者合作關系圖。從圖5和圖6中可以看出各節(jié)點的大小不一樣,它與S類結構中的Value值相關,但整個可視化界面沒有出現巨星節(jié)點,節(jié)點間的大小比例都控制在比較合適的顯示范圍。同時從圖5和圖6不難看出在院系機構數不同的情況下,其機構顯示的節(jié)點數不一樣,實現了不同粒度的顯示。另外從圖6不難看出作者節(jié)點聚類為9個,也就是說該機構可能存在9個研究團體。
5總結
本文研究了多數據源下機構知識可視化的關鍵技術,并對可視化過程中的數據融合、數據清洗、數據采樣等關鍵問題進行了詳細描述,以Echarts為可視化工具對平臺進行了實現,從運行結果來看,平臺實現了多數據源的信息處理、知識計量和知識展示,數據查詢效率高,響應快,并很好地揭示了機構知識領域的動態(tài)規(guī)律和隱含知識。本研究獲取的知識數據源僅限定在關系化的結構數據,而機構中還存在很多的半結構或非結構化的數據,因此本研究所形成的可視化圖對機構來說還不全面,這也是本研究的不足,下一步工作需研究從更多和更廣的異構數據源中獲取知識進行可視化。
參考文獻
[1]秦長江,侯漢清.知識圖譜——信息管理與知識管理的新領域[J].大學圖書館學報,2009,(1):30-37.
[2]汪傳雷,張巖,陳欣.基于CiteSpaceⅢ知識圖譜的科技創(chuàng)新服務能力研究[J].現代情報,2016,36(4):156-164.
[3]胡芳槐.基于多種數據源的中文知識圖譜構建方法研究[D].上海:華東理工大學,2014.
[4]劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發(fā)展,2016,(3):582-598.
[5]吳運兵,陰愛英,林開標,等.基于多數據源的知識圖譜構建方法研究[J].福州大學學報:自然科學版,2017,45(3):329-335.
[6]徐俊剛,裴瑩.數據ETL研究綜述[J].計算機科學,2011,38(4):15-20.
[7]邱均平,董克.作者共現網絡的科學研究結構揭示能力比較研究[J].中國圖書館學報,2014,40(1):15-24.
[8]劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.
[9]高勁松,梁艷琪.關聯數據環(huán)境下知識融合模型研究[J].情報科學,2016,34(2):50-54.
[10]Echarts[EB/OL].http://echarts.baidu.com/,2018-09-05.
(責任編輯:郭沫含)