王國明 卞玉露
摘要:為了解決萬維網(wǎng)上的數(shù)據(jù)日益龐雜、數(shù)據(jù)間互聯(lián)效率較低的問題,知識(shí)圖譜技術(shù)成為國內(nèi)外研究的熱點(diǎn)。本文以知識(shí)圖譜中的幾個(gè)關(guān)鍵技術(shù)為主要研究對(duì)象,分析了知識(shí)圖譜技術(shù)在醫(yī)學(xué)、電商等重要領(lǐng)域中的構(gòu)建過程,并且重點(diǎn)分析了基于知識(shí)圖譜技術(shù)的應(yīng)用案例,依此設(shè)計(jì)了知識(shí)圖譜的通用架構(gòu)框,該架構(gòu)對(duì)于知識(shí)圖譜技術(shù)未來的研究及其應(yīng)用具有重要意義。
關(guān)鍵詞:知識(shí)圖譜;知識(shí)提取;擴(kuò)展知識(shí)庫;體系架構(gòu)
中圖分類號(hào):TP39 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)31-0029-03
Research on Application Analysis and Architecture of Knowledge Graph
WANG Guo-ming, BIAN Yu-lu
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract: In order to solve the problems of increasingly complex data on the World Wide Web and low interconnection efficiency among data, this paper takes several key areas in knowledge graph as the main research objects, analyzes the construction process of knowledge graph technology in important fields such as medicine and e-commerce, and focuses on the application cases of knowledge graph in Suning, and designs the framework block diagram of knowledge graph according to this, which is of great significance for discussing the future research direction and practical theoretical application of knowledge graph.
Key words: Knowledge Graph; Extraction of knowledge; Expansion of knowledge; Architecture of the system
隨著web技術(shù)的不斷演變與大數(shù)據(jù)的不斷發(fā)展,互聯(lián)網(wǎng)中知識(shí)元數(shù)據(jù)日益增多、其規(guī)模也不斷擴(kuò)大,這就給各類知識(shí)間的相互關(guān)聯(lián)帶來了極大的挑戰(zhàn)。所以,人們急需尋得一個(gè)知識(shí)互聯(lián)新方法,使之既能適應(yīng)發(fā)展迅速的信息資源,又能滿足用戶的認(rèn)知需求。知識(shí)圖譜技術(shù)就是這一新方法,它特殊的表示和管理知識(shí)的方式使其逐漸成為當(dāng)今智能信息服務(wù)領(lǐng)域中的熱點(diǎn)技術(shù)[1-2]。
1 知識(shí)圖譜及其關(guān)鍵技術(shù)分析
知識(shí)圖譜技術(shù)由Google首次提出,這一概念的提出主要是為用戶提供方便學(xué)習(xí)和使用的搜索引擎,以提升用戶對(duì)知識(shí)的搜索速度和質(zhì)量,增強(qiáng)用戶對(duì)知識(shí)的理解。知識(shí)圖譜技術(shù)吸收了前人提出的語義網(wǎng)和本體的概念,使知識(shí)更有利于用戶和計(jì)算機(jī)間以及計(jì)算機(jī)之間的相互交流,使網(wǎng)絡(luò)更趨于智能化。知識(shí)圖譜技術(shù)包括)知識(shí)的提取、表示、整合、篩選和擴(kuò)展知識(shí)庫等關(guān)鍵技術(shù)[3]。
(1)知識(shí)提取
該過程是從大量待存儲(chǔ)的數(shù)據(jù)中提取所需知識(shí)并存入數(shù)據(jù)庫的過程。提取的內(nèi)容包括實(shí)體、關(guān)系、屬性等,其中,實(shí)體抽取過程對(duì)從相關(guān)數(shù)據(jù)源中提取的關(guān)系和信息進(jìn)行表示[4-5],屬性抽取常用對(duì)開放鏈接數(shù)據(jù)的提取和利用模式匹配進(jìn)行提取的方式[6-7]。在提取過程中,可以選擇兩種方式包括人工和自動(dòng)提取,前者指相關(guān)人員依據(jù)相關(guān)規(guī)則收集和整理而成的知識(shí)庫,后者則需使用相關(guān)關(guān)鍵技術(shù)來完成,如數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等。
(2)知識(shí)表示
知識(shí)的表示過程是對(duì)抽取到的知識(shí)進(jìn)行符號(hào)化地表示過程。目前表示知識(shí)的方法為三元組表示法,即(實(shí)體集合,關(guān)系集合,對(duì)應(yīng)值),符號(hào)表示成G=(E,R,S)??梢詫⑵渑c數(shù)據(jù)結(jié)構(gòu)中的圖進(jìn)行類比記憶,如知識(shí)圖譜中的實(shí)體與圖結(jié)構(gòu)中的節(jié)點(diǎn)相對(duì)應(yīng),知識(shí)圖譜中的關(guān)系與圖結(jié)構(gòu)中的邊相對(duì)應(yīng)。
(3)知識(shí)整合
對(duì)知識(shí)的整合過程,即對(duì)所有提取到的知識(shí)進(jìn)行加工、融合和建立相關(guān)鏈接的過程。隨后對(duì)存儲(chǔ)到數(shù)據(jù)庫中的知識(shí)進(jìn)行更新操作,刪除舊知識(shí)同時(shí)加入新知識(shí),以提升知識(shí)庫內(nèi)部數(shù)據(jù)的邏輯性。由于知識(shí)圖譜中知識(shí)對(duì)象的粒度不同,所以可分為兩個(gè)過程來完成對(duì)知識(shí)的整合,實(shí)體對(duì)齊過程和知識(shí)庫的融合過程,前者用來判斷待處理的實(shí)體在整個(gè)大數(shù)據(jù)中是否指向同一個(gè)數(shù)據(jù)元,后者則需要在克服知識(shí)庫中對(duì)象的融合困難問題時(shí)加入新的考慮[8]。
(4)擴(kuò)展知識(shí)庫
該過程是在已有的知識(shí)庫基礎(chǔ)上進(jìn)行深入地挖掘以更加豐富數(shù)據(jù)庫。借助該過程推斷出可能缺失的事實(shí)。通過前期對(duì)知識(shí)的整合,可得到一系列基本事實(shí)的表達(dá)或本體雛形,但這些事實(shí)并不一定等同于最終所需的知識(shí),故而可以通過構(gòu)建本體來實(shí)現(xiàn)概念間的相互約束。
(5)知識(shí)篩選
對(duì)整合并篩選好的知識(shí)進(jìn)行質(zhì)量評(píng)估,從中篩選出置信度比較高的數(shù)據(jù)存入知識(shí)庫,使用經(jīng)過篩選后的知識(shí)更能提高知識(shí)圖譜的準(zhǔn)確度,為后續(xù)的使用提供強(qiáng)有力的事實(shí)保障。相較于前幾個(gè)過程,這一步驟則是確保搭建成的知識(shí)圖譜有較高效率和精確度的關(guān)鍵一步。
2 知識(shí)圖譜的應(yīng)用及案例分析
知識(shí)圖譜技術(shù)可以應(yīng)用于許多智能信息服務(wù)中,目前,基于垂直行業(yè)的應(yīng)用已逐漸成為知識(shí)圖譜技術(shù)和大數(shù)據(jù)智能的前沿問題。如基于長尾的智能搜索過程、深度問答等,又如阿里巴巴的知識(shí)圖譜服務(wù)平臺(tái)“藏經(jīng)閣”,以及我們生活中使用的淘寶、天貓等應(yīng)用軟件均用到了知識(shí)圖譜。通過構(gòu)建可遷移的圖譜算法,從中提取所需知識(shí)輸出到指定系統(tǒng),該過程大大提升了應(yīng)用系統(tǒng)的智能化服務(wù)能力[9]。以下就針對(duì)醫(yī)學(xué)領(lǐng)域知識(shí)圖譜的應(yīng)用和測試案例進(jìn)行說明,著重針對(duì)基于運(yùn)維知識(shí)圖譜的應(yīng)用案例進(jìn)行分析,通過總結(jié)不同案例中知識(shí)圖譜的構(gòu)建過程搭建簡單的知識(shí)圖譜體系架構(gòu)。
(1)基于垂直行業(yè)的應(yīng)用
知識(shí)圖譜技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用相當(dāng)廣泛,就以在今年的新冠肺炎疫情病例活動(dòng)中知識(shí)圖譜的構(gòu)建過程為例[10]。分別從病毒的分類、病毒的基本信息、抗病毒的藥物等角度進(jìn)行考慮和分析,最終整合其中互聯(lián)的知識(shí),合并這四個(gè)子圖譜成新冠科研圖譜。分別從新聞網(wǎng)、抗疫一線等渠道獲取疫情期間的英雄人物信息,包括其主要事跡、成果等,將其合并為新冠百科圖譜。對(duì)于所有涉及到疫情、防疫等字眼的知識(shí),在大數(shù)據(jù)中均支持正向、反向,以及相互索引,包括每個(gè)事件本身包含的發(fā)展變化和脈絡(luò)走向。下圖1中就直觀展現(xiàn)出了該知識(shí)圖譜包含的部分屬性。
對(duì)于新冠健康圖譜,具體的構(gòu)建過程是先對(duì)各個(gè)省、市建立病例實(shí)體,毫無疑問,這些實(shí)體間必存在相對(duì)應(yīng)的聯(lián)系,如染病時(shí)間、直接和間接的接觸情況、染病渠道、病情癥狀相似度、臨床治療方案等,從這些數(shù)據(jù)中篩選出置信度較高的數(shù)據(jù),人工給出精確的病情診斷和治療方案,經(jīng)過整合和部分有效鏈接后存入知識(shí)庫中。在OpenKG發(fā)布的新冠知識(shí)圖譜數(shù)據(jù)中就將有關(guān)新冠的知識(shí)以三元組形式導(dǎo)入了2019-nCov圖譜中,以便后期醫(yī)護(hù)、研究人員對(duì)特殊病情的判斷能始終保持高準(zhǔn)確性,同時(shí)為后續(xù)人們了解該疫情以及使用其知識(shí)提供強(qiáng)有力的事實(shí)保障。
(2)基于運(yùn)維知識(shí)圖譜技術(shù)的應(yīng)用案例分析
相較于大部分知識(shí)圖譜而言,運(yùn)維知識(shí)圖譜具有天然優(yōu)勢即可以利用網(wǎng)絡(luò)設(shè)備固有的拓?fù)浣Y(jié)構(gòu)和系統(tǒng)應(yīng)用中的調(diào)用關(guān)系快速構(gòu)成知識(shí)圖譜中的實(shí)體和關(guān)系?,F(xiàn)就關(guān)于基于運(yùn)維知識(shí)圖譜構(gòu)建方面的應(yīng)用案例進(jìn)行分析,構(gòu)建過程圖如下圖2所示。
在網(wǎng)絡(luò)設(shè)備服務(wù)發(fā)生異常時(shí),運(yùn)維監(jiān)控系統(tǒng)會(huì)出現(xiàn)告警信息,這就給網(wǎng)關(guān)和網(wǎng)絡(luò)監(jiān)控者帶來了極大壓力。如圖2,在構(gòu)建過程中,通過使用CMDB等離線數(shù)據(jù)和物理設(shè)備網(wǎng)絡(luò)連接數(shù)據(jù)獲取設(shè)備間的連接關(guān)系和調(diào)用關(guān)系,用以構(gòu)建軟硬件合并的知識(shí)圖譜。通過使用歷史告警數(shù)據(jù)對(duì)知識(shí)圖譜發(fā)出告警信息,對(duì)這些信息進(jìn)行分類,使用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí)并對(duì)故障根因進(jìn)行定位,實(shí)現(xiàn)故障的預(yù)測和自愈[12]。經(jīng)過訓(xùn)練模型和計(jì)算概率,最終構(gòu)建出告警知識(shí)圖譜并將其應(yīng)用于知識(shí)圖譜中[11]。在面對(duì)海量的運(yùn)維監(jiān)控?cái)?shù)據(jù)時(shí),我們需要一個(gè)可以輔助分析系統(tǒng)內(nèi)部指標(biāo)間關(guān)系的工具可視化展示告警的路徑和影響范圍,該過程如下圖3所示。
通過基于運(yùn)維知識(shí)圖譜的告警收斂和根因定位(3.0版本)過程,即可將告警收斂到軟硬件知識(shí)圖譜的相關(guān)節(jié)點(diǎn)上[12]。如上圖3告警收斂和根因定位的過程圖所示,通過查詢Nebula圖譜獲取到歷史告警信息的關(guān)系,得出一條完整的可能根因鏈路,為運(yùn)維人員提供更好的索引信息,使告警信息的規(guī)模不斷縮小,逐步降低對(duì)網(wǎng)絡(luò)運(yùn)維的壓力。
3 知識(shí)圖譜的架構(gòu)
針對(duì)上文對(duì)知識(shí)圖譜技術(shù)的構(gòu)建過程的詳細(xì)描述和幾個(gè)重要領(lǐng)域的案例分析,合理構(gòu)建出知識(shí)圖譜的架構(gòu)框圖如下圖4所示。
如上圖所示,知識(shí)圖譜技術(shù)的架構(gòu)將被劃分為五個(gè)具體模塊,分別對(duì)應(yīng)提取知識(shí)、表示知識(shí)、整合知識(shí)、擴(kuò)展知識(shí)庫和篩選知識(shí)。構(gòu)建的具體流程是,先從待提取的數(shù)據(jù)中抽取出知識(shí)圖譜的組成要素如實(shí)體、關(guān)系、屬性等,并用形式化、符號(hào)化的語言表示出這些知識(shí)。對(duì)存入數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合、消除歧義,完成建立鏈接和更新的操作,隨后對(duì)知識(shí)庫中的內(nèi)容進(jìn)行擴(kuò)展,篩選其中合理有效的知識(shí)構(gòu)建出符合實(shí)際應(yīng)用的知識(shí)圖譜。圖中知識(shí)圖譜的構(gòu)建過程需要先從一些結(jié)構(gòu)化的數(shù)據(jù)中提取到數(shù)據(jù),從中完成對(duì)知識(shí)的篩選過程并將其存入到知識(shí)庫中,最后構(gòu)建出頂層的本體,屬于自底向上的構(gòu)建順序,該方法被大多數(shù)知識(shí)圖譜所采用。
4 總結(jié)和展望
本文主要研究了使用知識(shí)圖譜技術(shù)的五個(gè)關(guān)鍵技術(shù)步驟,通過分析一些基于知識(shí)圖譜技術(shù)的應(yīng)用和研究案例,著重針對(duì)基于知識(shí)圖譜技術(shù)的大規(guī)模告警收斂和根因定位實(shí)踐的案例進(jìn)行分析,完成了知識(shí)圖譜技術(shù)的架構(gòu)框圖,并針對(duì)各個(gè)步驟做出了簡要的介紹。知識(shí)圖譜技術(shù)是人工智能技術(shù)的重要組成部分,在未來,仍將會(huì)是人工智能及大數(shù)據(jù)研究方向的熱點(diǎn)問題,并且其算法會(huì)被逐漸補(bǔ)充和完善,其理論實(shí)踐會(huì)被進(jìn)一步證明和使用,更高效率地利用復(fù)雜多樣的數(shù)據(jù)源以提高準(zhǔn)確率和擴(kuò)展性,而不僅是只局限于集中在特定數(shù)據(jù)集上的研究和在學(xué)術(shù)上的討論。
參考文獻(xiàn):
[1] 袁凱琦,鄧揚(yáng),等.醫(yī)學(xué)知識(shí)圖譜構(gòu)建與研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2018,35(7):1929-1936.
[2] 徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606.
[3] 陸浩,王飛躍,劉德榮,等.基于科研知識(shí)圖譜的近年國內(nèi)外自動(dòng)化學(xué)科發(fā)展綜述[J].自動(dòng)化學(xué)報(bào),2014,40(5):994-1015.
[4] Wang F Y, Lai G, Tang S M. An application specific knowledge engine for researches in intelligent transportation systems[C]//Proceedings of the 7th International Conference on Intelligent Transportation Systems. Washington D.C., USA: IEEE, 2004. 841-846.
[5] Walczak S.Knowledge-based search in competitive domains[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(3):734-743.
[6] 王昊奮,張金康,程小軍.中文開放鏈接醫(yī)療數(shù)據(jù)的構(gòu)建[J].中國數(shù)字醫(yī)學(xué),2013,8(4):5-8,15.
[7] 于洪,何德牛,王國胤,等.大數(shù)據(jù)智能決策[J].自動(dòng)化學(xué)報(bào),2020,46(5):878-896.
[8] Dong X,Gabrilovich E,Heitz G,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.New York New York USA.New York,NY,USA:ACM,2014:601-610.
[9] 朱素媛,馬溪俊,梁昌勇.人工智能技術(shù)在搜索引擎中的應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,26(S1):657-661.
[10] 陳曉慧,劉俊楠,徐立,等.COVID-19病例活動(dòng)知識(shí)圖譜構(gòu)建——以鄭州市為例[J].武漢大學(xué)學(xué)報(bào)·信息科學(xué)版,2020,45(6):816-825.
[11] 國悅婷.運(yùn)維監(jiān)控系統(tǒng)告警收斂的算法研究與應(yīng)用[D].武漢:華中科技大學(xué),2017.
[12] 閆祎穎,何云瑞,陳亮,等.基于CMDB的信息系統(tǒng)故障根因定位技術(shù)的研究[J].通信電源技術(shù),2020,37(3):33-35,37.
【通聯(lián)編輯:梁書】
收稿日期:2021-05-17
基金項(xiàng)目:國家級(jí)大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(202010361092)
作者簡介:王國明(1965—),男,安徽阜陽人,碩士研究生導(dǎo)師,研究方向?yàn)榫W(wǎng)絡(luò)與信息安全,圖形圖像處理;卞玉露(1998—),女,江蘇鹽城人,在讀碩士研究生,研究方向?yàn)槿斯ぶ悄?,圖形圖像處理。