楊波,趙英俊
(核工業(yè)北京地質(zhì)研究院 遙感信息與圖像分析技術(shù)國家級重點(diǎn)實(shí)驗室,北京 100029)
知識是智能的基礎(chǔ),人類智能往往依賴有意或無意地運(yùn)用已知的知識[1]。以此類推,社會的發(fā)展無法離開人工智能的推動作用,有需求就會促進(jìn)知識圖譜的發(fā)展[2]。這里有兩個核心問題:如何建模眾源知識?如何在計算機(jī)中高效地存儲與收集眾源數(shù)據(jù)?本研究主要關(guān)注前者。
眾源數(shù)據(jù)的鈾資源知識表示即使用何種工具和方法對感興趣領(lǐng)域進(jìn)行知識建模,以便達(dá)到眾源數(shù)據(jù)的知識為我所有[3-5]。在數(shù)據(jù)網(wǎng)絡(luò)圖譜方面,知識圖譜是一種新型的互聯(lián)網(wǎng)絡(luò),即一種運(yùn)用關(guān)聯(lián)節(jié)點(diǎn)和弧來代替知識的模型[6]。在將社會網(wǎng)絡(luò)抽象化為語義網(wǎng)絡(luò)的過程中,出現(xiàn)了網(wǎng)絡(luò)聚集的現(xiàn)象,所以,需要定義一些基本的網(wǎng)絡(luò)基礎(chǔ)單元,如,本體、屬性和案例。同時,這些基本單元之間也有相關(guān)關(guān)系,在語義網(wǎng)絡(luò)中用邊的屬性表示基本單元的聯(lián)系和紐帶,這些邊的屬性是語義網(wǎng)絡(luò)中的核心[7-8]。為了給這些關(guān)聯(lián)設(shè)定步驟,前人學(xué)者設(shè)計了系列學(xué)術(shù)術(shù)語,并進(jìn)一步提出了表達(dá)邏輯,他是一種對語言處理簡化的規(guī)則,推理復(fù)雜度在置信區(qū)間內(nèi)[9-12]。萬維網(wǎng)標(biāo)準(zhǔn)委員會(World Wide Web Consortium,W3C)推出了以表達(dá)規(guī)范為基礎(chǔ)原則的本體規(guī)則Web 本體語言(Ontology Web Language,OWL)并宣布為網(wǎng)絡(luò)術(shù)語的官方語言。W3C 還推出了除上之外一種用于搭載Web 本體的規(guī)則資源描述框架(Resource Description Framework,RDF)。目前,利用向量來刻畫知識圖譜成為主流,其基本設(shè)定是將眾源數(shù)據(jù)定義為一個具有初始節(jié)點(diǎn)、連接屬性和結(jié)尾節(jié)點(diǎn)的知識建模方法。本文將詳細(xì)闡述對眾源數(shù)據(jù)的知識場景構(gòu)建方法,進(jìn)而探討如何基于該方法對鈾礦能源場景有效建模。
20世紀(jì)90年代,麻省理工人工智能實(shí)驗室的羅伯特·戴維斯定義了知識表示的幾個用途和特點(diǎn)[13-15]:
1)現(xiàn)實(shí)世界的符號化,即眾源數(shù)據(jù)應(yīng)該要按照既定的規(guī)則和語言規(guī)范進(jìn)行機(jī)器編碼。
2)虛擬本體庫,即眾源數(shù)據(jù)要提前收集和挖掘相關(guān)的知識庫和標(biāo)準(zhǔn)目錄。
3)人機(jī)交互的媒介,即除了相關(guān)的語法規(guī)范,還需要對其進(jìn)行標(biāo)準(zhǔn)化和數(shù)據(jù)模型的構(gòu)建和應(yīng)用場景的擴(kuò)展。
簡而言之,與傳統(tǒng)人工智能比較,大數(shù)據(jù)時代的眾源數(shù)據(jù)研究領(lǐng)域已經(jīng)發(fā)生了翻天覆地的變革。
弧邊屬性是公理領(lǐng)域的權(quán)威規(guī)范邏輯,在屬性邏輯里,可以用謂詞和變量表示知識,設(shè)定,用(x)表示是中國核電站。這里,中國核電站是一元謂詞,x 是變量,中國核電站是(x)的一個原子公式?!?中國核電站是(x)”是一個否定公式。在上面的例子中,若x 為某核電站,中國核電站是(x)為第一個命題p。若x 為某核電站,中國核電站是(x)為第二個命題q。
語義網(wǎng)絡(luò)這個概念由奎利恩等人提出用于闡釋人類語義數(shù)據(jù)同時也可以進(jìn)行推理[16-17]。語義網(wǎng)絡(luò)類似于互聯(lián)網(wǎng),可以用各種形式進(jìn)行表示,其具體的可視化展示類似帶有屬性的流程圖。這些流程圖中的各類“關(guān)節(jié)點(diǎn)”用以標(biāo)識各種事實(shí)、概念、事件等。這些圖中的關(guān)鍵點(diǎn)都至少帶有一個屬性,兩個關(guān)鍵點(diǎn)之間,如果存在關(guān)聯(lián)就用一個帶有方向的鏈接聯(lián)系起來,這些關(guān)聯(lián)可以代表屬性。表示眾源數(shù)據(jù)的單元是三元組:關(guān)鍵點(diǎn)1,聯(lián)想弧,關(guān)鍵點(diǎn)2,例如“某核電站,屬于,某國家”“某核電站反應(yīng)堆,類型,壓水堆”是三元組。因為語義網(wǎng)絡(luò)的節(jié)點(diǎn)是使用關(guān)聯(lián)弧進(jìn)行耦合,所以可以通過節(jié)點(diǎn)間的操作進(jìn)行知識推理。
1)語義網(wǎng)絡(luò)的優(yōu)點(diǎn)
衍生性:語義網(wǎng)絡(luò)是由人類生物群體的社會性特征衍生而來。
易用性:語義能夠便利地把主客觀時間運(yùn)用節(jié)點(diǎn)和屬性闡述清楚,因此,客觀社會和語義網(wǎng)絡(luò)很便捷地實(shí)現(xiàn)了符號化轉(zhuǎn)換,所以,語義網(wǎng)絡(luò)規(guī)則在人機(jī)交互的產(chǎn)品領(lǐng)域運(yùn)用的最合適。
結(jié)構(gòu)性:語義網(wǎng)絡(luò)的特征是模塊化的數(shù)據(jù)描述策略,這種方法對小模塊,特別是鈾資源領(lǐng)域的應(yīng)用,效果非常好??梢园芽陀^世界的眾源數(shù)據(jù)利用節(jié)點(diǎn)間的關(guān)系進(jìn)行顯示。
2)語義網(wǎng)絡(luò)的缺點(diǎn)
紛繁復(fù)雜的語言規(guī)則:利用語義網(wǎng)絡(luò)來表示眾源數(shù)據(jù)的鈾資源圖譜模型非常的靈活,而且用一種方法和另一種方法進(jìn)行圖譜建模差別較大,與此同時,由于不同的建模規(guī)則和方法,給后期的數(shù)據(jù)融合與知識推理增加了業(yè)務(wù)負(fù)擔(dān)。例如,“全球在建的核電機(jī)組65 個”可以表示為多種不同的語義網(wǎng)絡(luò)(圖1)。由圖1 可見,CN 是一個綜合接單,指的是對一個領(lǐng)域的綜合統(tǒng)稱,像核電站一樣。c是實(shí)體節(jié)點(diǎn),他將描述CN 的一個確數(shù),而g 是一個全稱變量,是全球這個概念的一個個體,b 和nps 都是存在變量,其中b 是在建這個概念的一個個體,nps 是核電站這個概念的一個個體,F(xiàn)指c覆蓋的范圍及案例,而?代表全稱量詞。核電作為鈾資源的應(yīng)用場景之一,可以把“全球建成442 座核電站”表示成:所有全球的s1都有屬于建成442 座核電站這個概念的元素(圖1)。
圖1 眾源數(shù)據(jù)組織的語義網(wǎng)絡(luò)Fig.1 Semantic network of crowdsourcing data utilization
紛繁復(fù)雜的歧義:該方法與上一個方法比較,缺點(diǎn)是無認(rèn)可的語言規(guī)則。在每一個專業(yè)領(lǐng)域,都有其特定的語義網(wǎng)絡(luò)。并且,本文對眾源數(shù)據(jù)進(jìn)行知識推理的過程中,研究發(fā)現(xiàn)在多級推理后,該網(wǎng)絡(luò)的準(zhǔn)確性與推理層級成負(fù)相關(guān)關(guān)系。與此同時,本文所使用的量詞和其他領(lǐng)域出現(xiàn)的量詞無法統(tǒng)一,容易造成語義歧義。
框架(Frame)最早由馬文明斯基在1957 年提出,作用是為了將計算機(jī)領(lǐng)域的自然語言處理更好的流程化[18-19]。該框架的核心內(nèi)容是,表示人類社會的發(fā)展與進(jìn)步是基于一種循環(huán)式前進(jìn),螺旋式上升的過程,當(dāng)人類在生產(chǎn)與生活中遇到困難時,就會利用原有的社會經(jīng)驗積累,從以往的經(jīng)歷中挖掘可用的知識儲備加以應(yīng)用,這個過程需要對眾源數(shù)據(jù)進(jìn)行收集、加工、改進(jìn)并利用到新的困難中,最后就會形成標(biāo)準(zhǔn)的流程解決思路,從而促進(jìn)社會的進(jìn)步。
基于鈾事件框架的提出是為了解決鈾語義網(wǎng)絡(luò)中出現(xiàn)的紛繁復(fù)雜的問題,將原有的復(fù)雜邏輯描述成具有特點(diǎn)對象的知識結(jié)構(gòu)。其基本原則是,規(guī)定類是其框架的原始單元。其中,類也有自己的元數(shù)據(jù),元數(shù)據(jù)本身具有初始屬性值。槽是用來刻畫框架的屬性信息,其中,槽的側(cè)面用于表示槽的元數(shù)據(jù)信息,槽的屬性是具體的領(lǐng)域數(shù)據(jù),側(cè)面的屬性同樣有領(lǐng)域值。除此之外,框架還允許給屬性設(shè)默認(rèn)值,以及設(shè)立觸發(fā)器以維護(hù)框架。
1)框架基本組成的一個示例
2)變量賦值框架模式
只要把框架“鈾資源”的變量賦值,就構(gòu)造出框架模式(表1)。其中該模式的特征是按照領(lǐng)域知識的構(gòu)建需要來定義變量名和變量賦值過程。
表1 帶變量框架實(shí)例Table 1 Example with variable frame
3)框架的優(yōu)點(diǎn)
體系化的將客觀世界的物質(zhì)聯(lián)系用框架和可視化知識構(gòu)建出來,可以完整地抽取核電站數(shù)據(jù),并且支持默認(rèn)值以及觸發(fā)器。
4)框架的缺點(diǎn)
構(gòu)建一個理想和高質(zhì)量的框架體系不但需要大量的人力和物力,而且還需要專業(yè)化的理論知識作為基礎(chǔ)。同時,默認(rèn)值會增大推理的復(fù)雜度,也缺失對于非統(tǒng)一數(shù)據(jù)的整理。
隨著知識圖譜的日新月異,大數(shù)據(jù)為眾源數(shù)據(jù)的知識建模提供了一把雙刃劍。雙刃劍的優(yōu)勢在于為眾源數(shù)據(jù)的挖掘開拓了新的鈾資源知識場景,雙刃劍的劣勢在于之前的學(xué)者并沒有相關(guān)的鈾知識建模研究。當(dāng)前的互聯(lián)網(wǎng)知識建??蚣軣o法滿足鈾礦知識場景的應(yīng)用需求,因此本文采用互聯(lián)網(wǎng)成熟的規(guī)范語言,如RDF、RDFS(RDF Schema)和OWL,創(chuàng)立一種新的鈾礦核電站知識表示模型。以上的幾種描述邏輯都可以和XML 耦合,本文以RDF為例,利用RDF 來構(gòu)建基于眾源數(shù)據(jù)的鈾資源本體知識。
RDF 規(guī)定,標(biāo)準(zhǔn)知識模型是一個三元組。在一個眾源數(shù)據(jù)的鈾資源案例中,知識的表示模型是:主語、謂語、賓語。在中國核電信息網(wǎng)中,“目前中西部已形成3 個萬噸——十萬噸級鈾資源基地,對提高我國鈾資源保障程度有重大意義”可以寫成以下RDF 三元組:(鈾資源基地,十萬噸級,中西部),(鈾資源,基地,中西部)。從案例中可以發(fā)現(xiàn),RDF 是擁有主節(jié)點(diǎn)的一個獨(dú)立事件。RDF 中的謂語是一個屬性。每一個弧有兩個節(jié)點(diǎn)連接,當(dāng)然,也可以用一個弧連接節(jié)點(diǎn)和節(jié)點(diǎn)的實(shí)例。換言之,RDF 中的賓語可以是一個個體,例如(鈾資源,基地,中西部)也可以是一個數(shù)據(jù)類型的實(shí)例,例如(鈾資源,位置,“107.091525,41.070502”^xsd:location)。
只要把一個案例的核心內(nèi)容抽取,主語和賓語就構(gòu)成了知識圖的節(jié)點(diǎn),三元組的謂語看成邊,那么一個RDF 知識庫則可以被看成一個圖或一個知識圖譜。三元組則是圖的單元。RDF 不僅需要抽取案例中的主語節(jié)點(diǎn)、謂語節(jié)點(diǎn)與賓語節(jié)點(diǎn),還需要符號化其尋址編碼的統(tǒng)一資源標(biāo)識符(Uniform Resource Identifier,URI),包括以上的鈾資源基地、十萬噸級和中西部(圖2)。
圖2 鈾資源三元組Fig.2 Uranium resource triad
全局標(biāo)識URI可以被簡化成前綴URI(圖3)。RDF允許沒有全局標(biāo)識的空白節(jié)點(diǎn)(Blank Node)。空白節(jié)點(diǎn)的前綴為“_”。例如,鈾資源基地是某一個級別關(guān)于中西部的鈾礦基地。
圖3 鈾資源前綴節(jié)點(diǎn)Fig.3 Uranium resource prefix node
RDF 是抽象的數(shù)據(jù)模型,對于具體的實(shí)際案例,可以有不同的案例模型,像常見的RDF/XML 和Turtle 等(圖4)。
圖4 鈾資源序列化規(guī)范Fig.4 Specification for serialization of uranium resources
在實(shí)際項目和科學(xué)研究中,研究者們都會根據(jù)具體的研究領(lǐng)域來確定最合適的眾源數(shù)據(jù)知識建模框架。因為不同的知識建??蚣軙诰唧w的內(nèi)容和表現(xiàn)形式上有所區(qū)別,但從根本上來看,他們之間的底層思路是相似的。常見的最典型的開放域知識圖譜有Freebase、Wikidata、ConceptNet,這里以Freebase 為例,嘗試構(gòu)建知識表示框架,并總結(jié)影響知識表示框架選擇的主要原因。為便于比較分析,以RDF、OWL 的描述術(shù)語和表達(dá)能力為主要比較對象。
Freebase 和以上幾個知識圖譜建模框架一樣,都需要定義基礎(chǔ)類與基礎(chǔ)原生要素及屬性,而且每個基礎(chǔ)類都有與之對應(yīng)的字符編碼,類似于身份證編碼,用于確定其位置及路徑信息。每一個實(shí)體類知識有一個案例類,例如,天山鈾資源基地就是一個對象類,而其尋址編碼是:“01068513720”。同時,該鈾資源屬性劃分為國家級類,其鈾礦空間地理地址為:“81.246346,43.590763”,其中,本文使用多重復(fù)合類(Compound Value Type,CVT)作為連接中心,用于處理多類型資源與空間位置的復(fù)合信息。示例的CVT 提出了關(guān)于鈾資源的多元關(guān)系(圖5)。
圖5 鈾礦知識結(jié)構(gòu)Fig.5 Uranium knowledge structure
與前面所述的表示方法不同的是,下面要構(gòu)建的方法是利用定量的方法把鈾資源網(wǎng)絡(luò)構(gòu)架抽象到數(shù)學(xué)公式中,而不是使用基于離散符號的表達(dá)方式。根據(jù)相關(guān)知識建模定量方法的文獻(xiàn)調(diào)研,本文將利用語義模型來進(jìn)行知識的網(wǎng)絡(luò)的定量化研究,該方法的核心模型是RESCAL?;驹硎鞘紫葘⑺械恼Z義知識編碼成三維知識符號,然后利用數(shù)據(jù)的張量關(guān)系,將前面的知識符號分解為主張量和副張量,最后通過設(shè)定誤差概率函數(shù)來保證自動獲取的知識圖譜的正確性。其中,得分函數(shù)為:
式中:h為知識模型中的頭實(shí)體;t為知識模型中的尾 實(shí)體;Mr為由h和t構(gòu)成,且數(shù)量為r的關(guān)系矩陣。
因該算法的模型是矩陣相乘,為防止相乘的結(jié)果為空,需要防止Mr的對角化。但因為是對角矩陣,所以存在hTdiag(r)t=tTdiag(r)h,也就是說這種簡化的模型只天然地假設(shè)所有關(guān)系是對稱的,顯然這是不合理的。后期需要針對該算法進(jìn)行進(jìn)一步的數(shù)學(xué)原理的文獻(xiàn)調(diào)研,找到更加合理的定量化算法來為眾源數(shù)據(jù)的知識挖掘提供數(shù)據(jù)基礎(chǔ)。
本文采納Protégé工具將對眾源數(shù)據(jù)構(gòu)建知識模型,Protégé 以Java為底層開發(fā)語言,是目前最受歡迎的知識建模開源工具之一[20]。其中Protégé 與其他眾源數(shù)據(jù)知識建模相比,除了操作簡單、用戶友好之外,其典型特點(diǎn)是在和傳統(tǒng)的知識建模中的工具對比后,Protégé 不僅方便易操作,而且還支持中文知識建模。Protégé 的常見功能包括:類建模、實(shí)例編輯、模型處理和模型交換。
1)鈾礦抽象建模類
Protégé的首頁有基本的常用工具欄和標(biāo)簽頁(圖6)。首先,選擇Web 本體語言類添加新的抽象類,然后創(chuàng)建想要的本體類,如在對話框中,“Name”一欄輸入名字“鈾礦”本體知識。
圖6 建模類Fig.6 Modeling class
2)建立鈾礦實(shí)體類節(jié)點(diǎn)與屬性
右擊主節(jié)點(diǎn),點(diǎn)擊添加子類,將名字改為“中國”,然后以該子類為節(jié)點(diǎn)繼續(xù)創(chuàng)建子類的鈾礦床節(jié)點(diǎn),最后建立礦床的子類33 鈾礦(圖7)。同樣,建立屬性與建立子類類似,先選擇一個對象屬性,如定義某礦床的的遙感影像、地點(diǎn)、國家、坐標(biāo)、產(chǎn)品、發(fā)現(xiàn)、開采以及開采公司等屬性信息。
圖7 建立子類與屬性Fig.7 Create subclasses and attributes
本文比較全面地利用知識圖譜技術(shù)對鈾礦地質(zhì)知識信息進(jìn)行建模,目前大部分開放知識圖譜的表示語言基于RDF、RDFS 和OWL,前面幾個本體建模語言是萬維網(wǎng)聯(lián)盟官方推薦的知識建模規(guī)范。除了這些標(biāo)準(zhǔn)語言,本文還測試通過利用知識圖譜的數(shù)據(jù)檢索規(guī)范SPARQL 進(jìn)行眾源數(shù)據(jù)的鈾礦地質(zhì)知識查詢與建模。最后,提出了利用眾源數(shù)據(jù)進(jìn)行知識圖譜的嵌入式方法,并以全球鈾礦資源的開采地為實(shí)例,利用Protégé 開源工具構(gòu)建基本的知識建模方法及步驟。本文提出的基礎(chǔ)知識建模方法為后續(xù)的知識儲存及融合打開了技術(shù)及創(chuàng)新思路。