文/張青嶺 李顯正 李航宇 李華健
知識圖譜旨在通過可視化技術(shù)對客觀世界的概念、實體、事件及各部分之間的關(guān)系進行描述,具有直觀、定量、簡潔、獲取隱藏知識和客觀等優(yōu)點。2003年,知識圖譜這一概念在美國國家科學院組織的“知識圖譜測繪”研討會上第一次被提出,隨后便引起了學者的關(guān)注。近幾年,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等新一代信息技術(shù)的不斷發(fā)展,知識圖譜逐步進入大規(guī)模深入研究階段,已被廣泛應(yīng)用于生物信息、金融和醫(yī)療健康等領(lǐng)域,并在智能搜索、智慧問答、大數(shù)據(jù)風控、推薦系統(tǒng)等應(yīng)用中發(fā)揮著重要作用。
黨的十九大報告中提到,要推動信息化和農(nóng)業(yè)現(xiàn)代化共同發(fā)展,而農(nóng)業(yè)信息化已經(jīng)成為農(nóng)業(yè)現(xiàn)代化的重要組成部分。我國的農(nóng)業(yè)大數(shù)據(jù)不斷發(fā)展擴大,結(jié)構(gòu)越來越復(fù)雜,大數(shù)據(jù)可視化可將復(fù)雜的數(shù)據(jù)直觀化、定量化和簡單化,有利于推動我國農(nóng)業(yè)信息化的發(fā)展。
知識圖譜可以構(gòu)造復(fù)雜的知識網(wǎng)絡(luò),科學地預(yù)測前沿的研究熱點,擁有非常廣闊的研究價值和應(yīng)用前景。將知識圖譜這一可視化技術(shù)與農(nóng)業(yè)相結(jié)合,對檢索到的數(shù)據(jù)進行展示與分析,有助于農(nóng)業(yè)大數(shù)據(jù)的展示,有助于發(fā)現(xiàn)農(nóng)業(yè)生產(chǎn)規(guī)律。
知識圖譜是以科學學為基礎(chǔ),通過將應(yīng)用數(shù)學和信息科學等多門學科的理論方法相結(jié)合,通過可視化的形式實現(xiàn)多學科的融合,是科學計量學和信息計量學的新發(fā)展。目前,國內(nèi)研究學者對知識圖譜尚未給出統(tǒng)一定義。陳悅等將知識圖譜定義為科學計量學范疇內(nèi)的顯示科學知識的發(fā)展進程與結(jié)構(gòu)關(guān)系的一種圖像。借鑒以往學者對知識圖譜的定義,本文認為知識圖譜是由節(jié)點和邊構(gòu)成的能夠描述物理世界中復(fù)雜關(guān)系的圖形,其本質(zhì)上是一種語義網(wǎng)絡(luò),表達了各類實體、概念及其之間的語義關(guān)系。其中節(jié)點表示實體或概念,邊表示實體與實體之間的聯(lián)系。
表1:4種知識圖譜繪制工具比較
大多數(shù)學者認為知識圖譜具有直觀化、可視化和形象化的特征,但不同的研究學者對其特征還有不同的理解和解釋。
知識圖譜作為大數(shù)據(jù)可視化的一種重要表現(xiàn)形式,具有重要的研究和應(yīng)用價值。知識圖譜把復(fù)雜的知識領(lǐng)域用直觀簡潔的圖形展示出來,把有關(guān)知識體系系統(tǒng)地展示給用戶,進一步為該領(lǐng)域的學科研究提供極有價值的參考和依據(jù)。同時,知識圖譜具有強大的語義處理能力和開放組織能力。
在知識圖譜被提出之前,數(shù)據(jù)可視化基本停留在實體的客觀展示上,知識圖譜賦予了數(shù)據(jù)可視化一個新的方向,即展現(xiàn)實體間的關(guān)系,豐富的實體關(guān)系提供了一種從關(guān)系的視角來看世界的新方向。知識圖譜的核心即三元組,它使存儲的信息很容易地被人類和計算機解讀,并且使計算機具有一定的推理能力,進而讓知識圖譜具有一定的可解釋能力,彌補了之前的缺陷。此外,知識圖譜還具有規(guī)模龐大、系統(tǒng)性、客觀性和全面性等特征。
近年來,知識圖譜作為大數(shù)據(jù)可視化和人工智能重要組成部分,受到了國內(nèi)外學者和用戶的廣泛關(guān)注及高度重視。
2012年,谷歌將知識圖譜應(yīng)用于搜索引擎,以此來提升搜索質(zhì)量,之后在學術(shù)界掀起了一股熱潮,各大相關(guān)企業(yè)也推出了自己的知識圖譜產(chǎn)品。2017年11月,在北京召開的世界人工智能大會上,百度知識圖譜摘得了“AI創(chuàng)新產(chǎn)品”殊榮。2018年3月,蘇寧金融企業(yè)知識圖譜系統(tǒng)成功上線,阿里巴巴集團積極舉辦知識圖譜研討會,天津大學的科研團隊建立起了一套知識圖譜管理與推理系統(tǒng),知識圖譜在各領(lǐng)域的交流合作迎來了新的階段。
中國是傳統(tǒng)的農(nóng)業(yè)大國,但是我國的農(nóng)業(yè)仍處于分散式、半機械化的階段,存在多種資源利用率低的現(xiàn)象。
圖2:利用Gephi繪制的茶葉病害知識圖譜
然而大量的農(nóng)業(yè)數(shù)據(jù)資料是很分散的、不集中的,且存放在結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)格式中,很難形成一個相互聯(lián)系的整體,因此農(nóng)民及研究學者很難從中獲取到直觀有價值的信息。
而知識圖譜可以將這些離散的信息相互關(guān)聯(lián),形成一個可視化的語義網(wǎng)絡(luò),把復(fù)雜的農(nóng)業(yè)知識直觀地展示給農(nóng)民、農(nóng)業(yè)技術(shù)人員和相關(guān)決策者。知識圖譜還可以對市場進行輔助決策,幫助政府對生產(chǎn)合作社、農(nóng)民及企業(yè)之間進行信息管理與數(shù)據(jù)挖掘,進而將傳統(tǒng)的農(nóng)業(yè)轉(zhuǎn)換為精準農(nóng)業(yè)。
采用檢索式“SU=‘知識圖譜’*‘農(nóng)業(yè)’”(SU為主題),于2019年1月20日檢索中國知網(wǎng)(CNKI),發(fā)現(xiàn)目前國內(nèi)學者已發(fā)表81篇農(nóng)業(yè)知識圖譜相關(guān)的研究文獻,占全部知識圖譜研究文獻(4569)的1.77%,由此可見,知識圖譜中農(nóng)業(yè)上的應(yīng)用較少。
在國內(nèi),湖南省農(nóng)村農(nóng)業(yè)信息化工程技術(shù)研究中心通過對國內(nèi)外農(nóng)業(yè)信息化相關(guān)領(lǐng)域分析,探究知識圖譜在農(nóng)業(yè)信息服務(wù)中的應(yīng)用,利用湖南農(nóng)業(yè)產(chǎn)業(yè)知識搭建一個農(nóng)業(yè)知識群圖譜可視化系統(tǒng)。國內(nèi)還出現(xiàn)了像Agriculture_KnowledgeGraph一樣的搜索查詢系統(tǒng),此系統(tǒng)的主要功能在于利用農(nóng)業(yè)分類的樹形結(jié)構(gòu)對某種類型的植物或動物進行查詢,但是查詢結(jié)果較為單一,實用性較小。
目前,常用的知識圖譜的繪制工具有以下4種,介紹如下。
CiteSapce是一款用于計量和分析科學文獻數(shù)據(jù)的信息可視化軟件,由陳超美教授和他的團隊共同研發(fā)。
CiteSpace以從各大文獻數(shù)據(jù)庫(如Web of Science、CNKI、CSSCI等)導(dǎo)出的純文本數(shù)據(jù)為主要的數(shù)據(jù)來源。如圖1所示,導(dǎo)出的純文本數(shù)據(jù)中的文獻字段主要包括作者姓名、文章名稱、所載期刊、關(guān)鍵詞、摘要、作者單位和發(fā)表時間等信息。
CiteSpace能夠繪制施引文獻的合作圖譜、共現(xiàn)圖譜和共被引圖譜,并且為圖譜的展示提供了三種可視化模式,分別為聚類視圖、時間線視圖和時區(qū)視圖。
除此之外,CiteSpace還具有突發(fā)檢測、網(wǎng)絡(luò)裁剪、地理空間分析等實用性功能。
Ucinet是一款用于社會網(wǎng)絡(luò)分析的軟件,由L. Freeman編寫,后來主要由S. Borgatti和M. Everett進行維護更新。
Ucinet能夠處理多種數(shù)據(jù)格式的數(shù)據(jù),主要有初始數(shù)據(jù)文件(Raw Date File)、Excel數(shù)據(jù)文件以及數(shù)據(jù)語言文件(DL File)三種。初始數(shù)據(jù)文件僅包含數(shù)字,只能以矩陣的格式輸入。Ucinet支持直接從Excel表導(dǎo)入數(shù)據(jù),但數(shù)據(jù)列數(shù)最多只能支持255列。數(shù)據(jù)語言文件包含一系列數(shù)字以及描述數(shù)據(jù)的很多關(guān)鍵語句等。
與其他軟件相比,Ucinet最大的優(yōu)點是可以將一些原始數(shù)據(jù)轉(zhuǎn)換成矩陣格式,從而構(gòu)建各種關(guān)系矩陣,如作者共現(xiàn)矩陣、關(guān)鍵字共現(xiàn)矩陣和期刊共引矩陣等。
Gephi是一款跨平臺的、用于網(wǎng)絡(luò)分析和可視化的免費開源軟件。Gephi支持多種數(shù)據(jù)格式,包括“.dot”,“.gdf”,“.gml”,“.net”,“.gexf”等;能夠處理大量的數(shù)據(jù),支持的節(jié)點數(shù)達50,000個,支持的邊達1,000,000條,適合于繪制大型的圖譜。
Gephi提供多種對數(shù)據(jù)的操作方法和展示圖譜的方式。Gephi能夠?qū)崿F(xiàn)對圖譜中邊和節(jié)點的屬性的調(diào)節(jié),也有多種實時的布局算法,能夠?qū)D譜進行各種各樣的布局;而且能夠支持使用者對其二次開發(fā),增加其他算法。
Pajek是由斯洛文尼亞盧布爾雅那大學的Vladimir.Batagelj和Andrej.Mrvar應(yīng)用Pascal語言開發(fā)的一款用于分析大型復(fù)雜網(wǎng)絡(luò)的軟件,該軟件的安裝程序是免費的,但不提供源代碼。
Pajek可以讀取多種純文本格式的數(shù)據(jù)以及ASCII碼文件,包括Pajek網(wǎng)絡(luò)格式(PajekNwtworks)、Pajek矩陣格式(Pajek matrices)、UCINET DL f iles格式、Vega格式(Vega Graphs)、GEDCOM格式(GEDCOM Files)等多種數(shù)據(jù)格式。
相較于其他繪制工具,Pajek具有處理具有數(shù)百萬個節(jié)點的大型網(wǎng)絡(luò)的能力,還可以從大型網(wǎng)絡(luò)中提取一些小型網(wǎng)絡(luò),以便使用經(jīng)典算法進行更詳細的研究,并通過可視化功能顯示網(wǎng)絡(luò)和分析結(jié)果。
4種知識圖譜繪制工具的比較如表1所示。
CiteSpace是目前國內(nèi)研究者使用最多的一款軟件,軟件自身的功能比較完善,在構(gòu)建知識圖譜的整個流程中, 各個步驟的處理都能滿足不同研究者的需要,但該軟件對內(nèi)存的消耗大,不適合處理數(shù)據(jù)量大的數(shù)據(jù);Ucinet的優(yōu)點在于其使用簡單,并且具有強大的數(shù)據(jù)管理和轉(zhuǎn)化功能,但由于識別的數(shù)據(jù)格式都與矩陣有關(guān),需要花費很多時間和精力用于處理原始數(shù)據(jù);Gephi界面美觀,能夠處理大量的數(shù)據(jù),適合繪制大型的圖譜,也適用于對動態(tài)數(shù)據(jù)的追蹤與表現(xiàn),且支持運用插件進行擴展,但Gephi對純數(shù)據(jù)的處理功能較為薄弱;Pajek在數(shù)據(jù)與處理和數(shù)據(jù)規(guī)范化處理上有一定的不足,但它支持多種格式的輸入,并且提供了多種有效的算法,能將大型的網(wǎng)絡(luò)分解為多個子網(wǎng)絡(luò)。
本文以茶葉病蟲害為例,利用Gephi進行茶葉病蟲害知識圖譜的繪制,結(jié)果如圖2所示。圖2中的紅色節(jié)點表示病蟲害的名稱,藍色節(jié)點表示易發(fā)生地區(qū),黃色節(jié)點表示易發(fā)生條件,綠色節(jié)點表示防治方法;兩個節(jié)點之間有連線表示他們之間具有聯(lián)系,邊的粗細表示關(guān)系的強弱。
以圖2中“黑刺粉虱”節(jié)點為例,可以看出它與茶蚜、茶餅病等病蟲害之間存在聯(lián)系,易發(fā)生湖北省、浙江省、貴州省等省份,可以用誘蟲板、瓢蟲等進行防治。以“茶餅病”為例,可以看出其易發(fā)生在云南省、江西省等省份,并且和茶炭疽病之間存在聯(lián)系。
本文介紹了知識圖譜的基本知識和常用的種工具。利用Gephi工具繪制了茶葉病蟲害知識圖譜,并進行了相關(guān)的分析。隨著農(nóng)業(yè)大數(shù)據(jù)研究的不斷深入,知識圖譜作為重要的可視化工具有著廣闊的應(yīng)用前景,必將在輔助農(nóng)業(yè)決策中發(fā)揮越來越重要的作用。