尚福華,徐凡鈞,曹茂俊
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
測(cè)井?dāng)?shù)據(jù)處理與綜合解釋?zhuān)ㄒ缘貙釉u(píng)價(jià)為主線的測(cè)井資料定性解釋和定量分析處理評(píng)價(jià)基本方式和過(guò)程,貫穿于油田勘探開(kāi)發(fā)的全過(guò)程[1]。測(cè)井處理解釋模型是指測(cè)井信息與地質(zhì)信息之間的客觀關(guān)系。在理解了理論分析、實(shí)驗(yàn)研究和數(shù)據(jù)統(tǒng)計(jì)之后,將其關(guān)系抽象成便于人們理解的圖像[2]。當(dāng)前,通過(guò)測(cè)井處理解釋對(duì)地下地質(zhì)特征的分析解析和還原能力,在很大程度上依賴(lài)測(cè)井解釋專(zhuān)家的經(jīng)驗(yàn)、技能能力和判斷,但是,有這樣經(jīng)驗(yàn)的專(zhuān)家需要很長(zhǎng)時(shí)間才能形成,而且形成后往往有損失的可能性,所以測(cè)井資料處理與解釋自動(dòng)化智能化是當(dāng)前測(cè)井處理解釋領(lǐng)域探索的主要目標(biāo)之一。因此,怎樣對(duì)測(cè)井處理解釋領(lǐng)域龐大的知識(shí)加以表示,從而有助于在知識(shí)庫(kù)中迅速獲取目標(biāo)知識(shí),并實(shí)現(xiàn)領(lǐng)域知識(shí)的共享與重用,是測(cè)井處理解釋遇到的重要難點(diǎn)[3]。
知識(shí)圖譜實(shí)質(zhì)上是語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù),是通過(guò)將各種不同類(lèi)型的信息聯(lián)絡(luò)在一塊所獲得的一種關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜中的實(shí)體概念事件是節(jié)點(diǎn),以實(shí)體概念之間的相互關(guān)聯(lián)關(guān)系是邊,通過(guò)運(yùn)用數(shù)據(jù)挖掘、知識(shí)推理等技術(shù)提取知識(shí)之間潛在的語(yǔ)義關(guān)系,解釋客觀世界中的實(shí)體概念事件及其相關(guān)性[4]。與傳統(tǒng)信息服務(wù)知識(shí)庫(kù)在語(yǔ)義層面相關(guān)性不足的弊端相比,這種新型語(yǔ)義網(wǎng)絡(luò)的特點(diǎn)為測(cè)井處理與解釋信息之間潛在關(guān)聯(lián)的獲取和利用提供了新的發(fā)展方向。
知識(shí)圖譜的構(gòu)建應(yīng)該盡可能覆蓋測(cè)井處理解釋的綜合領(lǐng)域知識(shí)。知識(shí)圖譜構(gòu)建周期的第一步就是知識(shí)體系的構(gòu)建,它主要是利用數(shù)據(jù)實(shí)體上層知識(shí)系統(tǒng)的統(tǒng)一表示來(lái)描述模式層數(shù)據(jù),這也是整個(gè)知識(shí)圖譜系統(tǒng)最核心的建設(shè)過(guò)程,其建立直接影響著整個(gè)知識(shí)圖譜的數(shù)據(jù)結(jié)構(gòu)以及知識(shí)圖譜的使用方向,因此需要保證知識(shí)體系構(gòu)建的準(zhǔn)確性[5]。目前國(guó)內(nèi)外都已經(jīng)開(kāi)展了知識(shí)圖譜的研發(fā)工作,各大搜索引擎企業(yè)也都紛紛推出了商用的知識(shí)圖譜,比如,谷歌公司的知識(shí)圖譜、百度公司的“知心”、搜狗的“知立方”等。知識(shí)圖譜可以通過(guò)圖形化的方式顯示知識(shí)和相關(guān)領(lǐng)域的知識(shí),生動(dòng)地表達(dá)知識(shí)體系的內(nèi)容,將大量復(fù)雜的百科知識(shí)通過(guò)知識(shí)引擎的結(jié)構(gòu)化表示,真正表達(dá)出知識(shí)之間的語(yǔ)義信息,將原本的孤島知識(shí)實(shí)體及其相互關(guān)系表現(xiàn)為知識(shí),客觀地反映了人們對(duì)世界的認(rèn)知和思維方式[6]。此外,它還可以幫助人們從零散的知識(shí)中發(fā)現(xiàn)領(lǐng)域規(guī)律和發(fā)展趨勢(shì),為領(lǐng)域數(shù)據(jù)挖掘提供強(qiáng)有力的支持,幫助人們掌握該領(lǐng)域的一般規(guī)律。近年來(lái),知識(shí)圖譜在許多領(lǐng)域得到了廣泛的應(yīng)用,如文獻(xiàn)領(lǐng)域知識(shí)圖的構(gòu)建、基于構(gòu)建的領(lǐng)域知識(shí)圖譜的人工智能領(lǐng)域分析、文獻(xiàn)作者分析和研究熱點(diǎn)等??梢钥闯觯斯ぶ悄茴I(lǐng)域正受到越來(lái)越多的關(guān)注,研究人員和分析人員可以掌握該領(lǐng)域的研究熱點(diǎn)和發(fā)展情況[7]。基于大量醫(yī)療領(lǐng)域知識(shí)圖譜構(gòu)建也能夠很好地解決由于大量醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)給醫(yī)療文本信息自動(dòng)分析造成極大的麻煩的問(wèn)題[8]。文中測(cè)井處理解釋領(lǐng)域知識(shí)圖譜的形成過(guò)程,是指根據(jù)預(yù)定的地質(zhì)任務(wù),利用電子計(jì)算機(jī)對(duì)測(cè)井資源進(jìn)行自動(dòng)數(shù)據(jù)處理,并對(duì)綜合地質(zhì)、錄井與開(kāi)發(fā)文檔資料進(jìn)行綜合解釋分析,完成地層的劃分、有用礦物資源的評(píng)價(jià)與油氣儲(chǔ)集層和勘探開(kāi)發(fā)過(guò)程中遇到的其他地質(zhì)任務(wù)和工程問(wèn)題[9]。
目前關(guān)于測(cè)井處理解釋領(lǐng)域的知識(shí)圖譜構(gòu)建的研究頗少,因此,該文以測(cè)井處理解釋為核心,結(jié)合測(cè)井解釋領(lǐng)域知識(shí)特點(diǎn),重點(diǎn)研究分析測(cè)井處理解釋業(yè)務(wù)流程,并以知識(shí)圖譜的構(gòu)建為主體,利用知識(shí)抽取、知識(shí)融合和知識(shí)推理等方式,將測(cè)井解釋領(lǐng)域分散、隱形、不規(guī)范狀態(tài)的大量解釋知識(shí)、經(jīng)驗(yàn)進(jìn)行梳理,構(gòu)建了測(cè)井處理解釋領(lǐng)域知識(shí)圖譜。對(duì)目前測(cè)井解釋領(lǐng)域知識(shí)過(guò)于分散,難以繼承、共享和充分利用的問(wèn)題,可以有效地解決,提高了測(cè)井解釋知識(shí)的利用率和共享程度,降低了非測(cè)井專(zhuān)業(yè)操作人員的理解難度,提升了測(cè)井專(zhuān)業(yè)解釋人員的解釋效率。該文以地層評(píng)價(jià)為例,闡述了其在構(gòu)建領(lǐng)域知識(shí)圖譜中的應(yīng)用[10]。
測(cè)井處理解釋知識(shí)主要分為三部分內(nèi)容:專(zhuān)用術(shù)語(yǔ)、區(qū)域知識(shí)和通用知識(shí)。專(zhuān)用術(shù)語(yǔ)是指解釋知識(shí)庫(kù)中知識(shí)不同屬性項(xiàng)的名稱(chēng),同時(shí)列出不同屬性項(xiàng)中所包含的內(nèi)容。區(qū)域知識(shí)是結(jié)合地區(qū)特點(diǎn)研究、總結(jié)出來(lái)的區(qū)域性解釋知識(shí),對(duì)本區(qū)域的測(cè)井解釋和有相同地質(zhì)特點(diǎn)的區(qū)域有指導(dǎo)意義[11]。區(qū)域測(cè)井解釋知識(shí)往往與特定地質(zhì)條件相關(guān),但是有些測(cè)井解釋知識(shí)不受區(qū)域影響、具有通用性,如阿爾奇公式、環(huán)境校正圖版、典型儲(chǔ)層的測(cè)井解釋圖例等等,這些知識(shí)在測(cè)井解釋工作中經(jīng)常用到,因此在解釋知識(shí)庫(kù)中這部分內(nèi)容也需要整理入庫(kù)。如表1所示,第一層的區(qū)域知識(shí)可以進(jìn)一步劃分為層次結(jié)構(gòu),測(cè)井知識(shí)以及相關(guān)地質(zhì)知識(shí)。
通用知識(shí)可分為測(cè)井的常用概念、常用方法、解釋模型、解釋圖版以及典型圖例等基礎(chǔ)知識(shí),并且通過(guò)進(jìn)一步的屬性確認(rèn)可以進(jìn)一步確定解釋方法,典型圖例等相關(guān)的屬性以及內(nèi)容。如表2所示,該表具體劃分了通用知識(shí)的相關(guān)概念具體內(nèi)容。
測(cè)井處理解釋知識(shí)實(shí)體應(yīng)包括區(qū)域知識(shí)(表1)以及通用知識(shí)(表2)。測(cè)井處理解釋知識(shí)按照層次化結(jié)構(gòu)可以劃分成區(qū)域知識(shí)和通用知識(shí)[12]。區(qū)域知識(shí)模型是管理區(qū)塊、小層、層段等知識(shí),管理每一層的概念和子層概念以及相關(guān)基礎(chǔ)知識(shí)。通用知識(shí)概念模型是管理那些與特定地質(zhì)條件沒(méi)有關(guān)系的基礎(chǔ)知識(shí)概念和相關(guān)數(shù)據(jù)表,有解釋模型、解釋圖版、環(huán)境校正圖版以及響應(yīng)特征表等[13]。
測(cè)井處理解釋知識(shí)就是采用符合處理解釋知識(shí)的表示方式,對(duì)測(cè)井處理解釋參數(shù)、解釋模型、解釋圖版等問(wèn)題,在計(jì)算機(jī)中存儲(chǔ)、使用和管理的知識(shí)集合。這些知識(shí)包括區(qū)塊分層系存儲(chǔ)儲(chǔ)層特征、“四性”關(guān)系、解釋模型、識(shí)別保準(zhǔn)、典型圖例等區(qū)域知識(shí),并存儲(chǔ)典型儲(chǔ)層測(cè)井相應(yīng)特征、環(huán)境校正圖版、解釋模型等通用知識(shí)[14]。
表1 區(qū)域知識(shí)劃分描述
表2 通用知識(shí)劃分描述
續(xù)表2
進(jìn)行測(cè)井處理解釋的必要組成部分是測(cè)井處理解釋的知識(shí)關(guān)系,基于測(cè)井知識(shí)的關(guān)系,涉及對(duì)測(cè)井?dāng)?shù)據(jù)和信息的處理和解釋過(guò)程,如陳述性知識(shí)以及處理解釋過(guò)程中的管理和決策過(guò)程中的程序性知識(shí),如邏輯、使用符合測(cè)井解釋的知識(shí)在計(jì)算機(jī)中的存儲(chǔ)、使用和管理。測(cè)井儲(chǔ)集層劃分(見(jiàn)圖1),主要分為非儲(chǔ)集層劃分、儲(chǔ)集層評(píng)價(jià)以及解釋結(jié)果輸出,其中非儲(chǔ)集層劃分為測(cè)井信息以及地質(zhì)信息,儲(chǔ)集層劃分為非儲(chǔ)集層判別、油水過(guò)渡帶判別等[15]。
圖1 測(cè)井處理解釋儲(chǔ)集層關(guān)系分類(lèi)
測(cè)井處理解釋領(lǐng)域知識(shí)與測(cè)井處理解釋對(duì)象之間存在著多種關(guān)聯(lián)關(guān)系??梢曰跍y(cè)井處理解釋領(lǐng)域知識(shí)的分類(lèi)建立儲(chǔ)集層中的關(guān)系,如對(duì)于儲(chǔ)集層中的非儲(chǔ)集層劃分中就包含測(cè)井信息以及地質(zhì)信息。通過(guò)儲(chǔ)層集的知識(shí)來(lái)構(gòu)建測(cè)井知識(shí)圖譜,可以將知識(shí)圖譜構(gòu)建的更加完善。
2.1.1 構(gòu)建邏輯
知識(shí)圖譜的概念模型和邏輯基礎(chǔ)是模式層,模式層對(duì)數(shù)據(jù)層施加規(guī)范性約束。本體的概念通常被用作知識(shí)圖譜的模式層,知識(shí)圖譜的數(shù)據(jù)層受到本體定義的規(guī)范和公理的約束。由于知識(shí)圖譜的數(shù)據(jù)層就是本體的一個(gè)實(shí)例,也可以將知識(shí)圖譜看作是一個(gè)實(shí)例化的本體。假設(shè)不需要進(jìn)行推理,那么整個(gè)知識(shí)圖譜(自下向上建立)可以只有數(shù)據(jù)層,沒(méi)有模式層。在知識(shí)圖譜的模式層中,節(jié)點(diǎn)代表著本體概念,邊則代表概念之間的關(guān)聯(lián)關(guān)系。
在數(shù)據(jù)層,事實(shí)的存儲(chǔ)以三元組“實(shí)體,關(guān)系,實(shí)體”或“實(shí)體,屬性,屬性值”的形式保存,從而形成了一個(gè)圖形知識(shí)庫(kù),其中,知識(shí)圖譜的基礎(chǔ)組成部分是實(shí)體,即指人的具體姓名、地名、時(shí)間、日期和組織機(jī)構(gòu)名等。而關(guān)系則是在模式層中定義的關(guān)系的一個(gè)例子,代表各實(shí)體相互之間的語(yǔ)義關(guān)系。屬性是指對(duì)實(shí)體的描述以及實(shí)體與屬性值之間的映射關(guān)聯(lián)。也可以看成是實(shí)體和實(shí)體的“hasvalue”之間存儲(chǔ)的屬性值,它也可轉(zhuǎn)換為“實(shí)體,關(guān)系,實(shí)體”的三元組進(jìn)行存儲(chǔ)。
綜上,從邏輯結(jié)構(gòu)上,人們一般將知識(shí)圖譜劃分為數(shù)據(jù)層和模式層兩種層次結(jié)構(gòu)。模式層:在數(shù)據(jù)層上,是知識(shí)圖譜的基礎(chǔ),保留著已經(jīng)提煉過(guò)的各種知識(shí),人們常常使用本體庫(kù)來(lái)管理這一層(本體庫(kù)可以理解為面向?qū)ο罄锏摹邦?lèi)”這樣一個(gè)概念,本體庫(kù)就儲(chǔ)存著知識(shí)圖譜的類(lèi))。數(shù)據(jù)層:保留真實(shí)的各種數(shù)據(jù)信息。
2.1.2 構(gòu)建方式
知識(shí)圖譜的構(gòu)建技術(shù),主要有自頂向下和自底向上兩個(gè)方法。其中自頂向下構(gòu)建方法是指利用于百科類(lèi)網(wǎng)頁(yè)等結(jié)構(gòu)化數(shù)據(jù)源的高質(zhì)量數(shù)據(jù)中抽取本體和模式等數(shù)據(jù),再加入到知識(shí)庫(kù)中。而自底向上構(gòu)建,實(shí)際上就是借助相關(guān)技術(shù),獲取資源,從大量公開(kāi)收集置信度較高的數(shù)據(jù),對(duì)知識(shí)庫(kù)中數(shù)據(jù)進(jìn)行豐富擴(kuò)充。
自頂向下的方法首先界定好知識(shí)圖譜本體和數(shù)據(jù)模式,然后再向基礎(chǔ)知識(shí)庫(kù)添加實(shí)體。而這種構(gòu)建方法都必須要依賴(lài)于現(xiàn)有的結(jié)構(gòu)化知識(shí)庫(kù)作為其基礎(chǔ)知識(shí)庫(kù)。自底向上的方法就是構(gòu)建頂層的本體模式,從一些開(kāi)放的鏈接數(shù)據(jù)中提取較高可信度的概念實(shí)體,然后對(duì)知識(shí)庫(kù)中數(shù)據(jù)知識(shí)擴(kuò)充。目前,大多采用自底向上的方法進(jìn)行搭建知識(shí)圖譜,當(dāng)中最典型的案例便是谷歌公司的Knowledge Vault和微軟的Satori知識(shí)庫(kù)。
自頂向下的方法能夠表達(dá)概念之間的層次關(guān)系,它適用于數(shù)據(jù)量較小的知識(shí)圖譜構(gòu)建,但其依賴(lài)手工、對(duì)模式層的更新有一定影響。與自頂向下方法相比,自底向上法支持在數(shù)據(jù)量大的情況下構(gòu)建知識(shí)圖譜能夠達(dá)到快速更新的效果,但其具有知識(shí)噪音大和精確度不高的缺點(diǎn);混合方法靈活性強(qiáng)。
混合方式是指通過(guò)將自頂向下與自底向上相結(jié)合后,在知識(shí)抽取的基礎(chǔ)上,可以總結(jié)形成模式層,然后對(duì)模式層進(jìn)行更新,將新獲取的知識(shí)和數(shù)據(jù)加以進(jìn)行迭代更新歸納匯總,將實(shí)體填充到新更新的模式層中。如百度公司的知識(shí)圖譜就是通過(guò)混合方法構(gòu)建所得,利用了內(nèi)外部的大量用戶(hù)數(shù)據(jù)。
為解決復(fù)雜業(yè)務(wù)問(wèn)題構(gòu)建的領(lǐng)域知識(shí)圖譜,需要以業(yè)務(wù)知識(shí)為基礎(chǔ),否則,很難將領(lǐng)域知識(shí)圖應(yīng)用到實(shí)際問(wèn)題求解中。自頂向下的模式設(shè)計(jì)與自底向上的知識(shí)抽取相結(jié)合是構(gòu)建領(lǐng)域知識(shí)圖譜的重要方法。復(fù)雜的領(lǐng)域場(chǎng)景涉及廣泛的知識(shí)維度,需要來(lái)自各個(gè)業(yè)務(wù)方向的專(zhuān)家參與領(lǐng)域模型的制定。
該文采用自頂向下和自底向上相結(jié)合的方法構(gòu)造測(cè)井處理解釋領(lǐng)域的知識(shí)圖譜。根據(jù)上述實(shí)體結(jié)構(gòu)設(shè)計(jì)模式層,自上向下設(shè)計(jì)各個(gè)實(shí)體的層次結(jié)構(gòu)、屬性和語(yǔ)義關(guān)聯(lián)關(guān)系,指導(dǎo)知識(shí)抽取算法的設(shè)計(jì)?;诓煌?lèi)型的信息,從數(shù)據(jù)層自下而上提取實(shí)體信息及其語(yǔ)義關(guān)聯(lián)。根據(jù)模式層的結(jié)構(gòu)設(shè)計(jì),構(gòu)建一個(gè)記錄知識(shí)實(shí)體關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò)。通過(guò)知識(shí)融合等手段來(lái)消除冗余,運(yùn)用知識(shí)推理算法,形成綜合化的測(cè)井處理解釋知識(shí)圖譜,并以Neo4j圖數(shù)據(jù)庫(kù)的形式存儲(chǔ)。
如圖2所示,知識(shí)圖譜是基于知識(shí)的語(yǔ)義信息經(jīng)過(guò)一系列知識(shí)抽取、知識(shí)融合、知識(shí)加工和知識(shí)更新等技術(shù)手段,從原有外部知識(shí)庫(kù)以及結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí),對(duì)知識(shí)圖譜的有效性進(jìn)行保障,逐漸完善知識(shí)圖譜。
(1)數(shù)據(jù)層。
收集測(cè)井處理解釋領(lǐng)域數(shù)據(jù)和對(duì)源數(shù)據(jù)分類(lèi)處理,需要處理的數(shù)據(jù)包括測(cè)井基礎(chǔ)信息數(shù)據(jù)庫(kù)導(dǎo)出的結(jié)構(gòu)化數(shù)據(jù)、石油行業(yè)頒布的行業(yè)標(biāo)準(zhǔn)、半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)、相關(guān)規(guī)范和詞典等,作為知識(shí)實(shí)體和關(guān)系抽取的基礎(chǔ)數(shù)據(jù)來(lái)源。
(2)構(gòu)建技術(shù)層。
通過(guò)預(yù)定義的模式層,從文本數(shù)據(jù)與圖像數(shù)據(jù)中利用自然語(yǔ)言處理和深度學(xué)習(xí)等技術(shù)對(duì)相關(guān)實(shí)體及關(guān)系進(jìn)行歸類(lèi),抽取出相關(guān)實(shí)體。在此基礎(chǔ)上進(jìn)行測(cè)井處理解釋領(lǐng)域知識(shí)圖譜的構(gòu)建;最后,存儲(chǔ)工具選擇使用圖數(shù)據(jù)庫(kù),將知識(shí)圖譜表示成結(jié)構(gòu)化形式保存。該文使用較為普及的Neo4j數(shù)據(jù)庫(kù),Neo4j基于屬性圖模型進(jìn)行存儲(chǔ),因?yàn)閷傩詧D模型能夠很好地利用屬性表達(dá)節(jié)點(diǎn)和關(guān)系豐富的信息屬性。
(3)應(yīng)用領(lǐng)域?qū)印?/p>
在構(gòu)建的知識(shí)圖譜的基礎(chǔ)上,可提供可視化的顯示和相關(guān)聯(lián)查詢(xún)等應(yīng)用??紤]到測(cè)井處理解釋知識(shí)圖譜展示過(guò)程中存在大量的知識(shí)維度,本研究以圖數(shù)據(jù)庫(kù)為基礎(chǔ),實(shí)現(xiàn)測(cè)井處理解釋知識(shí)圖譜的可視化展示,此外,隨著測(cè)井處理解釋領(lǐng)域知識(shí)實(shí)體以及關(guān)系的豐富和擴(kuò)展,未來(lái)還可以提供知識(shí)推薦和知識(shí)問(wèn)答等基于知識(shí)圖譜的知識(shí)系統(tǒng)應(yīng)用。
圖2 測(cè)井處理解釋構(gòu)建框架
2.3.1 知識(shí)結(jié)構(gòu)
知識(shí)圖譜是對(duì)物理世界的一種符號(hào)表達(dá),它的通用表示方法有一種是三元組,即G∈(E,R,S),主要形式包括實(shí)體、關(guān)系、實(shí)體和概念、屬性、屬性值等,集合用SCE×R×E來(lái)表示,其中知識(shí)圖譜中的實(shí)體集用E={e1,e2,…,e|E}表示,共有不同實(shí)體|E|種;關(guān)系的集合用R={r1,r2,…,r|R}表示,共有不同關(guān)系|R|種;三元組的知識(shí)圖譜中的最基本元素是實(shí)體,每個(gè)實(shí)體都有全局唯一的標(biāo)識(shí)ID來(lái)確定,不相同的實(shí)體間含不相同的關(guān)系,每個(gè)實(shí)體用屬性、屬性值對(duì)來(lái)描述其內(nèi)在特征,這種關(guān)系可以用來(lái)連接兩個(gè)概念實(shí)體,描述它們之間的內(nèi)在關(guān)系。概念主要指集合、類(lèi)別、事物屬性、對(duì)象屬性,比如人物、地理等;屬性主要指對(duì)象可能存在的屬性、特征、特點(diǎn)以及參數(shù),例如性別、年齡、身高、出生日期等;屬性值主要指對(duì)象指定屬性的值,例如男性、15歲、160 cm、1993年02月02日等。
2.3.2 實(shí)體抽取
知識(shí)抽取是自然語(yǔ)言處理的一個(gè)重要分支,其研究?jī)r(jià)值也得到越來(lái)越多的認(rèn)可和重視。知識(shí)的來(lái)源可以分為結(jié)構(gòu)化知識(shí)、半結(jié)構(gòu)化知識(shí)和非結(jié)構(gòu)化知識(shí)。其中較為關(guān)鍵的就是從非結(jié)構(gòu)化的數(shù)據(jù)中抽取知識(shí),有一定的困難。根據(jù)提取的知識(shí)類(lèi)別,知識(shí)抽取可以區(qū)分為實(shí)體、關(guān)系和事件的抽取。抽取方法主要有二類(lèi),分別是基于規(guī)則和基于學(xué)習(xí)的抽取。其中基于規(guī)則的方法目前己經(jīng)趨于成熟,是準(zhǔn)確度最高的一種方法,涉及規(guī)則的編寫(xiě),需要大量的人工工作。機(jī)器學(xué)習(xí)的方法目前已經(jīng)很普遍了,但也需要標(biāo)注大量的數(shù)據(jù),在準(zhǔn)確度上有一定的瓶頸。近期基于神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)脫離了領(lǐng)域知識(shí)和標(biāo)注數(shù)據(jù),準(zhǔn)確度上有所提高。
測(cè)井解釋領(lǐng)域本體構(gòu)建數(shù)據(jù)來(lái)源主要包括三部分:
(1)測(cè)井基礎(chǔ)信息數(shù)據(jù)庫(kù)。目前的測(cè)井解釋軟件無(wú)論是基于文件系統(tǒng)還是基于數(shù)據(jù)庫(kù),都存儲(chǔ)了從測(cè)井?dāng)?shù)據(jù)中獲取的基本信息,例如曲線數(shù)據(jù)、參數(shù)表等。測(cè)井處理解釋領(lǐng)域的知識(shí)來(lái)源之一就是這些基本信息。
(2)測(cè)井行業(yè)所指定的技術(shù)標(biāo)準(zhǔn)、技術(shù)規(guī)范和詞典。該文分別參考了包括《測(cè)井原始資料質(zhì)量要求》、《碎屑巖油氣儲(chǔ)層精細(xì)描述方法》、《測(cè)井解釋報(bào)告編寫(xiě)規(guī)范》、《石油測(cè)井專(zhuān)業(yè)詞匯》和《裸眼井單井測(cè)井?dāng)?shù)據(jù)處理流程》。
(3)測(cè)井處理解釋領(lǐng)域?qū)<?。該文以測(cè)井處理解釋專(zhuān)家的指導(dǎo)意見(jiàn)為引領(lǐng),保障知識(shí)圖譜的建模和開(kāi)發(fā)的質(zhì)量。
針對(duì)異構(gòu)多源的測(cè)井處理解釋數(shù)據(jù),設(shè)計(jì)了差異化的測(cè)井處理解釋實(shí)體識(shí)別方法。其中,對(duì)于結(jié)構(gòu)化數(shù)據(jù),如測(cè)井基礎(chǔ)信息數(shù)據(jù)庫(kù),參照模式層,制定文本中數(shù)據(jù)字段到相應(yīng)的實(shí)體及關(guān)系轉(zhuǎn)換規(guī)則,構(gòu)造測(cè)井處理解釋知識(shí)三元組。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)《測(cè)井原始資料質(zhì)量要求》、《碎屑巖油氣儲(chǔ)層精細(xì)描述方法》等,需要將其文本轉(zhuǎn)化為文本序列形式,然后使用基于BERT預(yù)訓(xùn)練模型的長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)結(jié)合條件隨機(jī)場(chǎng)模型(CRF)的序列標(biāo)注算法對(duì)測(cè)井處理解釋知識(shí)實(shí)體進(jìn)行識(shí)別,其模型結(jié)構(gòu)如圖3所示。
圖3 實(shí)體抽取模型
BERT[16]模型是通過(guò)對(duì)海量數(shù)據(jù)訓(xùn)練所建立的,并具備了泛化能力較強(qiáng)的特征。此模型主要是通過(guò)雙向的Transformer編碼器完成的,表示在所有層中共同依賴(lài)于左右兩邊上下文信息,Transformer[17]與傳統(tǒng)的LSTM結(jié)構(gòu)相比能夠更加深入地表示詞的上下文。得益于BERT強(qiáng)大的特征提取能力,可以有效地提取語(yǔ)料特征,獲取相應(yīng)的字向量。隨后通過(guò)BiLSTM[18]層對(duì)訓(xùn)練語(yǔ)料進(jìn)一步提取上下文語(yǔ)義信息,并通過(guò)注意力機(jī)制[19]來(lái)捕捉文本中重要的信息。CRF層利用概率模型預(yù)測(cè)并輸出測(cè)井處理解釋知識(shí)實(shí)體序列標(biāo)簽的最優(yōu)表達(dá)式,從而完成自動(dòng)序列標(biāo)注測(cè)井處理解釋領(lǐng)域語(yǔ)料庫(kù)。同時(shí),針對(duì)測(cè)井處理解釋領(lǐng)域?qū)I(yè)性強(qiáng)的特殊性,該文將石油測(cè)井專(zhuān)業(yè)詞匯等專(zhuān)業(yè)詞庫(kù)導(dǎo)入輔助模型訓(xùn)練,提高測(cè)井處理解釋相關(guān)實(shí)體數(shù)據(jù)識(shí)別的精確度。
2.3.3 關(guān)系抽取
關(guān)系抽取的工作目標(biāo)是提取實(shí)體之間的關(guān)聯(lián)關(guān)系,從大量非結(jié)構(gòu)化的文本數(shù)據(jù)信息中,本測(cè)井處理解釋領(lǐng)域的研究包括層次關(guān)系抽取和非層次關(guān)系抽取兩部分。關(guān)系抽取的關(guān)鍵部分就是如何在測(cè)井解釋領(lǐng)域發(fā)現(xiàn)和抽取關(guān)系特征,要解決這個(gè)問(wèn)題應(yīng)該從業(yè)務(wù)流程出發(fā),剖析每個(gè)過(guò)程所涉及到的概念,并從中抽取出對(duì)應(yīng)的概念和關(guān)系。從語(yǔ)義上來(lái)說(shuō),概念之間的基本關(guān)系大致可以分為四類(lèi):總體-部分關(guān)系、分類(lèi)關(guān)系、實(shí)例與概念關(guān)系以及屬性關(guān)系。不過(guò)在實(shí)際建模過(guò)程中,這些類(lèi)別遠(yuǎn)不止這些,需要按照領(lǐng)域的具體內(nèi)容情況來(lái)判斷確定。
在實(shí)際抽取過(guò)程中,第一步是構(gòu)建實(shí)體之間關(guān)系的表達(dá)方式,測(cè)井處理解釋語(yǔ)料庫(kù)樣本,例如為表述測(cè)井參數(shù)與地質(zhì)參數(shù)之間的關(guān)系,可構(gòu)建出[巖石骨架]以及[孔隙、流體]的關(guān)系模式;巖石骨架以及孔隙、流體模式實(shí)體間的關(guān)系模板示例如圖4所示。
圖4 處理解釋關(guān)系模板示例
知識(shí)融合的目標(biāo)是統(tǒng)一同一實(shí)體或同一概念在不同數(shù)據(jù)源中的表示,并將同質(zhì)和異構(gòu)的圖譜映射聯(lián)系起來(lái),可以分為實(shí)體、屬性融合以及重名實(shí)體的消歧等多個(gè)層次。所謂實(shí)體的融合,就是針對(duì)不同數(shù)據(jù)源不能統(tǒng)一識(shí)別同一實(shí)體的問(wèn)題,利用融合技術(shù)來(lái)建立不同數(shù)據(jù)源中實(shí)體的語(yǔ)義關(guān)聯(lián)。重名實(shí)體的消歧,是對(duì)測(cè)井處理解釋知識(shí)中具有同名多源、同名異義和異名同義等特征的實(shí)體的融合。屬性的融合是針對(duì)一致性問(wèn)題,在不同數(shù)據(jù)源中同一個(gè)實(shí)體屬性不一致。
在測(cè)井處理解釋知識(shí)圖譜構(gòu)建過(guò)程中,不同數(shù)據(jù)源中同一測(cè)井處理解釋知識(shí)實(shí)體的名稱(chēng)、類(lèi)別和描述各不相同,必須消除各種測(cè)井處理和解釋知識(shí)實(shí)體的模糊性以及具有相同意義的實(shí)體的知識(shí)融合。該文綜合衡量數(shù)據(jù)融合對(duì)象在名稱(chēng)、屬性和層次類(lèi)別上的相似性,判斷它們是否為同一實(shí)體,并通過(guò)設(shè)置相似度閾值來(lái)判斷該實(shí)體是否需要融合。
對(duì)各種實(shí)體概念以及實(shí)體概念之間的關(guān)系明確之后,就需要對(duì)知識(shí)加以存儲(chǔ),形成知識(shí)圖譜。該文主要使用了Neo4j的圖形數(shù)據(jù)庫(kù)作為存儲(chǔ)體系。Neo4j是一個(gè)由Java語(yǔ)言設(shè)計(jì)開(kāi)發(fā)的開(kāi)源Native高性能圖數(shù)據(jù)庫(kù)系統(tǒng),底層采用圖形數(shù)據(jù)結(jié)構(gòu)加以保存,而圖模型則是由節(jié)點(diǎn)、有向邊和屬性構(gòu)成的;節(jié)點(diǎn)上包含屬性,屬性可以以任何鍵值對(duì)的形式存在;每個(gè)邊都具有一個(gè)方向、一個(gè)標(biāo)簽、一個(gè)起始節(jié)點(diǎn)和一個(gè)終止節(jié)點(diǎn);就像節(jié)點(diǎn)一樣,邊也是有屬性的。大幅度提升了數(shù)據(jù)檢索的性能。
根據(jù)Neo4j圖數(shù)據(jù)庫(kù),該文的測(cè)井處理解釋領(lǐng)域知識(shí)圖譜將通過(guò)以下機(jī)制統(tǒng)一地表示從測(cè)井處理解釋領(lǐng)域相關(guān)數(shù)據(jù)中提煉出的知識(shí):圖中各個(gè)節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)測(cè)井處理解釋知識(shí)實(shí)體對(duì)象;圖中的各條有向邊代表實(shí)體與實(shí)體之間的語(yǔ)義關(guān)聯(lián)關(guān)系;每個(gè)測(cè)井處理解釋知識(shí)實(shí)體中的鍵值對(duì)與實(shí)體所對(duì)應(yīng)的節(jié)點(diǎn)屬性一一對(duì)應(yīng);每個(gè)節(jié)點(diǎn)或邊都有全局標(biāo)識(shí)符進(jìn)行唯一標(biāo)識(shí),其部分可視化展示如圖5、圖6所示。
圖5 知識(shí)圖譜展示
圖6 實(shí)體關(guān)系示例
利用Protégé完成測(cè)井處理解釋本體的構(gòu)建,Protégé[20]是斯坦福大學(xué)開(kāi)源的領(lǐng)域本體構(gòu)建開(kāi)發(fā)工具,提供構(gòu)建本體中的實(shí)例、概念類(lèi)、關(guān)系和屬性,同時(shí)對(duì)特定的領(lǐng)域本體描述語(yǔ)言進(jìn)行隱藏,使用者僅需要從概念層面上完成對(duì)領(lǐng)域本體模型的構(gòu)建。
分析了測(cè)井解釋領(lǐng)域知識(shí)的痛點(diǎn)問(wèn)題,提出了基于測(cè)井解釋知識(shí)圖譜的構(gòu)建方案,從知識(shí)圖譜的起源與發(fā)展、定義以及構(gòu)建技術(shù)流程做了充分闡述。采用自頂向下的知識(shí)圖譜構(gòu)建方法,經(jīng)過(guò)模式設(shè)計(jì)、數(shù)據(jù)獲取、知識(shí)加工及知識(shí)存儲(chǔ)等技術(shù)構(gòu)建了測(cè)井解釋知識(shí)圖譜,用以解決目前測(cè)井解釋領(lǐng)域知識(shí)過(guò)于分散,難以共享充分利用的問(wèn)題,有效提高了測(cè)井解釋知識(shí)的利用率和共享程度。
該研究仍然有很多不足與待實(shí)現(xiàn)部分,如數(shù)據(jù)來(lái)源大部分為結(jié)構(gòu)化數(shù)據(jù),而對(duì)于文本數(shù)據(jù)信息的提取較為有限,因此,未來(lái)將進(jìn)一步提高文本信息的利用效果、知識(shí)關(guān)聯(lián)和知識(shí)定位性能,測(cè)井解釋知識(shí)圖譜的表達(dá)能力,完成基于測(cè)井處理解釋數(shù)據(jù)的知識(shí)挖掘與推理和語(yǔ)義檢索,提高測(cè)井解釋知識(shí)圖譜的性能和使用價(jià)值。