崔茜 國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作天津中心
科學(xué)知識圖譜,是顯示科學(xué)知識的發(fā)展進程與結(jié)構(gòu)關(guān)系的一種圖形,是以科學(xué)知識為計量研究對象的,是用定量統(tǒng)計方法發(fā)現(xiàn)科學(xué)知識指數(shù)增長規(guī)律的科學(xué)。隨著計量學(xué)的發(fā)展,科學(xué)知識圖譜從簡單的二維模型開始發(fā)展到三維空間模型。在中國,最先命名和引入科學(xué)知識圖譜的是在《科學(xué)學(xué)研究》上發(fā)表的一篇文章,開啟了科學(xué)知識圖譜在國內(nèi)的研究與傳播。
60-70 年代語義網(wǎng)絡(luò)逐漸興起,語義網(wǎng)絡(luò)其實就是一個網(wǎng)絡(luò),類似于一種生物鏈的結(jié)構(gòu)。所有的節(jié)點和邊組成了一個網(wǎng)絡(luò),節(jié)點代表某一種動物,邊構(gòu)成了動物之間的食物鏈關(guān)系。到了80-90 年代,描述邏輯日漸成熟,學(xué)者們一直在尋找如何讓計算機更好的執(zhí)行邏輯的推理,因此,越來越多的知識圖譜用于構(gòu)造描述邏輯語言,計算機解決某些問題的研究也從此開始。1995 年前后,知識圖譜被真正用于互聯(lián)網(wǎng)語言的邏輯描述上,從HTML、XML 到DAML+OIL 以及后來的OWL2 都見證了知識圖譜從弱語義到強語義的發(fā)展過程。
到2006 年的時候,語義網(wǎng)絡(luò)的技術(shù)堆棧已經(jīng)變得十分復(fù)雜,“語義網(wǎng)蛋糕模型”對語義網(wǎng)絡(luò)的不同技術(shù)做了羅列,同時,人們逐漸意識到必須將知識語義擴展到一個更高的維度,即我們所稱的“關(guān)聯(lián)數(shù)據(jù)”,一個三維的語義網(wǎng)絡(luò)。
知識圖譜在醫(yī)療、金融、法律、智能制造、通信等各個領(lǐng)域被廣泛應(yīng)用,在檢索、編輯、校驗、推理、開發(fā)等各個工具鏈上完美契合,知識圖譜本質(zhì)上來說可以看做一種程序,它讓計算機能夠理解真實的世界,同樣人們也能夠利用它去開發(fā)真實世界的資源。
知識圖譜以語義分析為基礎(chǔ),以模型為核心,基于數(shù)據(jù),利用深度卷積網(wǎng)絡(luò)、NLP 框架語義理解等技術(shù)對查詢詞進行深層次的分析,提供了實體、關(guān)系、屬性抽取等算法的服務(wù),從而達到構(gòu)建多領(lǐng)域知識圖譜平臺,服務(wù)不同行業(yè)、不同應(yīng)用。
知識圖譜的構(gòu)建過程是一個迭代更新的過程,包括信息抽取、知識融合和知識加工三個階段。信息抽取階段,用于從數(shù)據(jù)源中抽取出實體、屬性以及實體間的相互關(guān)系,以此形成知識表達。知識融合階段需要對不同數(shù)據(jù)源獲得的知識進行整合,消除語義矛盾;知識融合一般包括本體對齊和實體匹配兩個步驟。知識加工階段對于融合后的新知識進行評估和衡量,確保知識庫的質(zhì)量。
針對知識加工階段來說,其具體包括本體構(gòu)建、知識推理和質(zhì)量評估三個方面:本體構(gòu)建實際上是構(gòu)建知識圖譜上下層級或隸屬度的過程,即網(wǎng)絡(luò)的初步構(gòu)建過程;知識推理技術(shù)能夠發(fā)現(xiàn)知識圖譜中殘缺的關(guān)系,從而使網(wǎng)絡(luò)實體的關(guān)系更加完善;質(zhì)量評估的意義在于對知識的可信度進行量化,舍棄置信度低的知識保障整體網(wǎng)絡(luò)質(zhì)量。
知識圖譜中的實體、屬性以及關(guān)系不可能一成不變,因此,當(dāng)有新的元素加入到圖譜時,需要對圖譜進行更新。圖譜的更新包括全面更新和增量更新,全面更新即從零開始重新構(gòu)建圖譜結(jié)構(gòu),方法簡單,但計算量大;增量更新僅以新增知識為輸入添加到網(wǎng)絡(luò)中,資源消耗小,但是實施起來又十分困難。
搜索引擎本身是一個匹配的過程,通過用戶輸入的查詢返回搜索結(jié)果,搜索引擎的后臺來源于互聯(lián)網(wǎng),通過爬蟲技術(shù)將互聯(lián)網(wǎng)的信息獲取到本地。傳統(tǒng)的搜索引擎返回的僅僅是與查詢詞對應(yīng)的結(jié)果,而引入知識圖譜后,搜索的結(jié)果發(fā)生了巨大變化,例如在搜索某個明星時,其對應(yīng)的相關(guān)明星以及各自的作品都能夠作為結(jié)果展示。
類似的搜索產(chǎn)品有如百度知心、搜狗知立方等等。
知識圖譜的推薦主要是通過實體與實體之間的關(guān)系,通過一系列的算法將熱點進行排序,從而使用戶獲得更加準確、多樣的推薦結(jié)果。其實現(xiàn)的過程與搜索引擎類似。
隨著人工智能的不斷發(fā)展,知識圖譜在聊天機器人、問答系統(tǒng)等智能決策系統(tǒng)有了一定的應(yīng)用。機器人通過對知識圖譜的學(xué)習(xí)能夠獲得模擬人的行為,并達到舉一反三的能力,機器學(xué)習(xí)能力不再單一,學(xué)習(xí)內(nèi)容更加廣泛、豐富。
通過知識圖譜能夠得到公司股東、競爭對手、競爭產(chǎn)品、合作伙伴、分紅等一系列經(jīng)濟數(shù)據(jù),研究人員能夠從此圖譜中進行更深層分析,從而為市場提供更優(yōu)競爭力的咨詢和決策。
知識圖譜對于大數(shù)據(jù)的分析、數(shù)學(xué)模型的建立以及風(fēng)險預(yù)測評估等都發(fā)揮著重要的作用,其使抽象的、處于不同維度的數(shù)據(jù)以直觀的、有聯(lián)系的形式展示出來。但是知識圖譜的應(yīng)用絕不僅限于此,隨著科技的進步,越來越多的技術(shù)將通過知識圖譜的方式融合發(fā)展。