王曉麗, 鄧達(dá)康, 孟祥龍, 唐先明, 郭攀紅, 林暢松
( 1. 中國(guó)石油化工股份有限公司 石油勘探開(kāi)發(fā)研究院,北京 100083; 2. 中國(guó)地質(zhì)大學(xué)(北京) 能源學(xué)院,北京 100083; 3. 中國(guó)地質(zhì)大學(xué)(北京) 海洋學(xué)院,北京 100083 )
?
基于領(lǐng)域本體的油氣勘探開(kāi)發(fā)知識(shí)獲取模式及實(shí)現(xiàn)
王曉麗1,2, 鄧達(dá)康1, 孟祥龍1, 唐先明1, 郭攀紅1, 林暢松3
( 1. 中國(guó)石油化工股份有限公司 石油勘探開(kāi)發(fā)研究院,北京100083;2. 中國(guó)地質(zhì)大學(xué)(北京) 能源學(xué)院,北京100083;3. 中國(guó)地質(zhì)大學(xué)(北京) 海洋學(xué)院,北京100083 )
油氣勘探開(kāi)發(fā)行業(yè)的信息數(shù)據(jù)資源涉及多學(xué)科、多地域,結(jié)構(gòu)復(fù)雜,類型多樣。提出一種基于領(lǐng)域本體的油氣勘探開(kāi)發(fā)知識(shí)獲取模式,提取知識(shí)源的領(lǐng)域命名實(shí)體,將海量知識(shí)與已知的領(lǐng)域本體關(guān)聯(lián)起來(lái),實(shí)現(xiàn)快速知識(shí)獲?。煌ㄟ^(guò)改進(jìn)Trie索引樹(shù)詞典構(gòu)造方法、創(chuàng)建節(jié)點(diǎn)失敗指針優(yōu)化正向最大匹配分詞方法,快速匹配并提取已登錄領(lǐng)域命名實(shí)體;采用領(lǐng)域命名實(shí)體規(guī)則特征和聚類統(tǒng)計(jì)分析方法,識(shí)別未登錄領(lǐng)域命名實(shí)體(包括疑似命名實(shí)體和新增命名實(shí)體)。該模式能夠提高油氣勘探開(kāi)發(fā)領(lǐng)域知識(shí)源的命名實(shí)體提取效率和準(zhǔn)確率,有效解決油氣勘探開(kāi)發(fā)行業(yè)獲取知識(shí)的難題。
勘探開(kāi)發(fā); 領(lǐng)域本體; 領(lǐng)域命名實(shí)體; 知識(shí)獲取
油氣勘探開(kāi)發(fā)企業(yè)零散分布的海量成果文檔類、數(shù)據(jù)類等信息數(shù)據(jù)資源,涉及地質(zhì)、地理、分析化驗(yàn)等學(xué)科領(lǐng)域,結(jié)構(gòu)復(fù)雜,類型多樣,缺乏統(tǒng)一組織和管理,油氣勘探人員難以根據(jù)特定需求準(zhǔn)確、高效地獲取成果文檔、圖片和數(shù)據(jù)等知識(shí)。因此,從油氣勘探開(kāi)發(fā)信息數(shù)據(jù)資源中快速獲取知識(shí),并組織到知識(shí)庫(kù)成為油氣勘探知識(shí)管理亟需解決的問(wèn)題。
知識(shí)獲取是知識(shí)管理的基礎(chǔ)和核心技術(shù),也是制約知識(shí)管理的瓶頸[1]。本體理論在知識(shí)獲取中受到廣泛重視,本體的三層結(jié)構(gòu)架構(gòu)(即頂層本體、領(lǐng)域本體、應(yīng)用本體)對(duì)各行業(yè)的知識(shí)獲取組織具有指導(dǎo)作用[2]。應(yīng)用本體理論實(shí)現(xiàn)對(duì)多種形態(tài)知識(shí)的有效組織逐漸成為人們研究熱點(diǎn),在航空[3]、醫(yī)藥[4]和數(shù)學(xué)[5]等領(lǐng)域取得成果。考慮油氣勘探開(kāi)發(fā)領(lǐng)域知識(shí)源現(xiàn)狀,以及領(lǐng)域本體與知識(shí)源緊密關(guān)聯(lián)的特點(diǎn)[6],本體理論適用于指導(dǎo)油氣勘探開(kāi)發(fā)領(lǐng)域的知識(shí)組織。
應(yīng)用本體理論獲取組織知識(shí)的最重要環(huán)節(jié)是對(duì)知識(shí)進(jìn)行分詞處理,將隱含于知識(shí)文本的領(lǐng)域本體提取出來(lái)。自動(dòng)分詞技術(shù)是文本處理、知識(shí)管理等領(lǐng)域的重要信息處理技術(shù),分詞結(jié)果的質(zhì)量及效率決定本體提取的準(zhǔn)確度和速度[7]。油氣勘探開(kāi)發(fā)領(lǐng)域分詞存在歧義、未定義詞識(shí)別等問(wèn)題,歧義問(wèn)題如油氣勘探開(kāi)發(fā)常用的“地球化學(xué)分析”手段,可以切分為“地球化學(xué)/分析”和“地球/化學(xué)分析”形式,前者是油氣勘探開(kāi)發(fā)領(lǐng)域知識(shí)文本的正確分詞切分方式;未定義詞識(shí)別問(wèn)題如構(gòu)造單元命名、井名等。領(lǐng)域本體庫(kù)不可能囊括全部本體實(shí)例,并且在油氣勘探開(kāi)發(fā)過(guò)程中還不斷產(chǎn)生新的本體,如新增的勘探區(qū)塊、新打的鉆井,需要識(shí)別并提取在領(lǐng)域本體庫(kù)中不存在的未定義命名實(shí)體。常用的分詞方法包括基于詞典的字符串匹配分詞方法[8]、基于統(tǒng)計(jì)的分詞方法[9]等,前者簡(jiǎn)單易實(shí)現(xiàn),切分速度快,應(yīng)用效果很大程度上依賴于詞典的完備程度和查詢結(jié)構(gòu);后者常用于局部文本的歧義消除、詞性標(biāo)注等方面,不適用于全文本分詞處理。
基于油氣勘探開(kāi)發(fā)領(lǐng)域知識(shí)文本量巨大、已構(gòu)建較完備的領(lǐng)域詞典的情況,筆者改進(jìn)詞典結(jié)構(gòu),并優(yōu)化正向匹配分詞算法,實(shí)現(xiàn)大量詞典中已登錄領(lǐng)域命名實(shí)體的提取,并提出領(lǐng)域命名實(shí)體的規(guī)則特征;采用基于聚類統(tǒng)計(jì)的方法,識(shí)別詞典中未登錄領(lǐng)域命名實(shí)體。
本體在知識(shí)管理的研究和應(yīng)用中日益成為熱點(diǎn)[10]。頂層本體是獨(dú)立于特定領(lǐng)域的高層本體,描述最普通的概念及其關(guān)系,可擴(kuò)展衍生出領(lǐng)域本體[11];領(lǐng)域本體是特定領(lǐng)域的專門本體,描述特定領(lǐng)域的概念及其之間的關(guān)系,通過(guò)定義類、實(shí)例、屬性、關(guān)系和公理等元素刻畫某領(lǐng)域中類、實(shí)例及其之間的層次關(guān)系[5];應(yīng)用本體描述依賴于特定領(lǐng)域和任務(wù)的概念及其之間的關(guān)系。命名實(shí)體統(tǒng)一表述對(duì)象類型及實(shí)例,命名實(shí)體可以分為領(lǐng)域命名實(shí)體和常規(guī)命名實(shí)體[12],前者是指特定領(lǐng)域中的命名實(shí)體;后者是指地名、人名和機(jī)構(gòu)名等以名稱為標(biāo)識(shí)的常規(guī)實(shí)體,以及更廣義的實(shí)體[8]。
具體到油氣勘探開(kāi)發(fā)領(lǐng)域,領(lǐng)域本體是一套多層級(jí)的對(duì)象類體系、實(shí)例、類與實(shí)例的屬性描述及關(guān)聯(lián)關(guān)系[13],如工區(qū)、油氣田和井位等是油氣勘探領(lǐng)域具有特定含義的本體;一整套概念清晰而規(guī)范的油氣勘探概念類、屬性、實(shí)例、類與實(shí)例及實(shí)例之間的關(guān)系,構(gòu)成油氣勘探領(lǐng)域本體庫(kù)[14]。油氣勘探開(kāi)發(fā)領(lǐng)域本體的部分概念類及其關(guān)系、實(shí)例見(jiàn)圖1,其中實(shí)例和實(shí)例之間的關(guān)系繼承對(duì)應(yīng)的概念類。文中領(lǐng)域命名實(shí)體特指油氣勘探開(kāi)發(fā)領(lǐng)域本體的實(shí)例,其關(guān)系繼承已構(gòu)建好的本體概念類關(guān)系。油氣勘探開(kāi)發(fā)領(lǐng)域命名實(shí)體最重要的一類是地質(zhì)對(duì)象,如盆地、構(gòu)造單元和井等。
圖1 油氣勘探開(kāi)發(fā)領(lǐng)域本體的部分概念類及其關(guān)系、實(shí)例Fig.1 Diagram of the oil and gas exploration & production domain ontology
圖2 基于領(lǐng)域本體的油氣勘探開(kāi)發(fā)知識(shí)獲取模式Fig.2 Chart of the oil and gas exploration & production knowledge acquisition mode based on domain ontology
基于領(lǐng)域本體的油氣勘探開(kāi)發(fā)知識(shí)獲取模式見(jiàn)圖2。假設(shè)基于頂層本體的概念、公理等,已衍生并構(gòu)建一套完整的油氣勘探開(kāi)發(fā)領(lǐng)域本體,領(lǐng)域本體層為已知,應(yīng)用本體是指油氣勘探開(kāi)發(fā)知識(shí)獲取模式的領(lǐng)域本體,應(yīng)用本體層為未知。在實(shí)施知識(shí)獲取時(shí),一方面將已知的領(lǐng)域本體與知識(shí)條目的領(lǐng)域命名實(shí)體進(jìn)行匹配,另一方面不斷地從知識(shí)條目中挖取新的領(lǐng)域概念類和命名實(shí)體,填充到應(yīng)用本體層;之后將應(yīng)用本體層挖取的內(nèi)容補(bǔ)充到領(lǐng)域本體層。該模式通過(guò)識(shí)別、匹配知識(shí)的領(lǐng)域命名實(shí)體,將海量油氣勘探開(kāi)發(fā)知識(shí)納入到領(lǐng)域本體體系:領(lǐng)域本體的明確性將知識(shí)匹配到確定的領(lǐng)域命名實(shí)體,大幅減少獲取知識(shí)的重復(fù)性;領(lǐng)域本體的多層級(jí)性使與之匹配的知識(shí)之間建立相互關(guān)系,可以將知識(shí)以對(duì)象可視化方式呈現(xiàn)給用戶。
該模式的關(guān)鍵技術(shù)包括知識(shí)關(guān)聯(lián)的已登錄領(lǐng)域命名實(shí)體的提取技術(shù)、未登錄領(lǐng)域命名實(shí)體的識(shí)別技術(shù)等。通過(guò)改進(jìn)Trie索引樹(shù)詞典結(jié)構(gòu)和優(yōu)化正向最大匹配算法,可以直接將領(lǐng)域本體庫(kù)中已登錄領(lǐng)域命名實(shí)體從知識(shí)條目中匹配識(shí)別出來(lái);領(lǐng)域本體庫(kù)缺失舊的實(shí)例和未來(lái)的新實(shí)例,經(jīng)過(guò)分詞處理后,根據(jù)領(lǐng)域命名實(shí)體規(guī)則特征,進(jìn)行未登錄領(lǐng)域命名實(shí)體識(shí)別,通過(guò)聚類統(tǒng)計(jì)分析,經(jīng)過(guò)人工確定完善到領(lǐng)域本體庫(kù)。
領(lǐng)域命名本體識(shí)別提取的基礎(chǔ)是將知識(shí)條目進(jìn)行正確合理的分詞處理,領(lǐng)域命名實(shí)體包含在分詞處理結(jié)果中。
示例塔北隆起是塔里木盆地的一級(jí)構(gòu)造單元,以塔深1井為例,該區(qū)寒武紀(jì)主要為碳酸鹽巖局限臺(tái)地相沉積。
第一句話的文本處理結(jié)果:“塔北隆起/是/塔里木盆地/的/一級(jí)/構(gòu)造單元”,下劃線標(biāo)注的是命名實(shí)體識(shí)別結(jié)果,因此分詞結(jié)果的正確性在很大程度上決定命名實(shí)體識(shí)別結(jié)果的準(zhǔn)確度。基于詞典范圍盡可能大而全、保證分詞準(zhǔn)確度的原則,分詞過(guò)程充分考慮油氣勘探開(kāi)發(fā)領(lǐng)域的專業(yè)性,構(gòu)建盡可能完備、全面的領(lǐng)域本體詞庫(kù)、領(lǐng)域?qū)I(yè)詞庫(kù)和通用詞庫(kù),使計(jì)算機(jī)盡可能接近領(lǐng)域理解,進(jìn)而保證分詞結(jié)果滿足油氣勘探開(kāi)發(fā)研究的需求,因此快速查找詞典詞條成為分詞效率的關(guān)鍵[16]。
2.1改進(jìn)Trie索引樹(shù)詞典
2.1.1詞典結(jié)構(gòu)
典型的詞典查詢方法包括整詞二分法、Trie索引樹(shù)法和逐字二分法等[8],其中Trie索引樹(shù)法查找效率較高。Trie索引樹(shù)是采用多重鏈表形式的鍵樹(shù),其典型應(yīng)用模式是利用節(jié)點(diǎn)結(jié)構(gòu)建立詞典樹(shù)結(jié)構(gòu),將相同前綴的詞合并在同一個(gè)節(jié)點(diǎn)下,直到出現(xiàn)差異;然后從差異節(jié)點(diǎn)中分出子節(jié)點(diǎn)[17]。采用該方法建立油氣勘探開(kāi)發(fā)領(lǐng)域本體庫(kù)詞典Trie索引樹(shù)(見(jiàn)圖3),其首字?jǐn)?shù)量較多,每個(gè)首字節(jié)點(diǎn)包含很多子節(jié)點(diǎn),子節(jié)點(diǎn)深度較深,深度在4~5個(gè)字符的占到30%以上,深度在2~3個(gè)字符的占到50%以上;其他傳統(tǒng)領(lǐng)域的深度在2個(gè)字符以內(nèi)的占到95%以上,因此需要改進(jìn)基于油氣勘探開(kāi)發(fā)領(lǐng)域本體特征的Trie索引樹(shù)法。
圖3 油氣勘探開(kāi)發(fā)領(lǐng)域本體庫(kù)詞典Trie索引樹(shù)
改進(jìn)的詞典由首字哈希表、次字(關(guān)鍵字)哈希表和Trie樹(shù)節(jié)點(diǎn)構(gòu)成。次字節(jié)點(diǎn)和Trie樹(shù)節(jié)點(diǎn)包括繼續(xù)、中間、結(jié)束三種狀態(tài),分別用1,2,0表示,中間和結(jié)束狀態(tài)的節(jié)點(diǎn)可能是詞條尾字,區(qū)別在于中間狀態(tài)的詞條節(jié)點(diǎn)還有子節(jié)點(diǎn),可以構(gòu)成更長(zhǎng)的詞條。油氣勘探開(kāi)發(fā)領(lǐng)域改進(jìn)Trie索引樹(shù)的邏輯結(jié)構(gòu)見(jiàn)圖4。
2.1.2詞典構(gòu)造算法
步驟1:讀取詞條首字,將它作為子樹(shù)的頭節(jié)點(diǎn)插入首字哈希表;如果表中已存在該字符,則轉(zhuǎn)入步驟2。
步驟2:讀取次字字符,將它作為子樹(shù)的關(guān)鍵節(jié)點(diǎn)插入次字哈希表,狀態(tài)設(shè)置為繼續(xù);如果表中已存在該字符,則轉(zhuǎn)入步驟3。
步驟3:讀取下一個(gè)字符,在子樹(shù)中插入子節(jié)點(diǎn),狀態(tài)設(shè)置為繼續(xù),如果父節(jié)點(diǎn)狀態(tài)為結(jié)束,則修改狀態(tài)為中間;如果子樹(shù)中已存在該字符,則轉(zhuǎn)入步驟4。
圖4 油氣勘探開(kāi)發(fā)領(lǐng)域改進(jìn)Trie索引樹(shù)的邏輯結(jié)構(gòu)Fig.4 Logical structure diagram of improved trie of the oil and gas exploration & production domain ontology
步驟4:重復(fù)步驟3,將字符順序插入子樹(shù),直至最后一個(gè)字符。
步驟5:如果最后一個(gè)節(jié)點(diǎn)是新插入的節(jié)點(diǎn),則狀態(tài)設(shè)置為結(jié)束。
步驟6:重復(fù)步驟1-5。
2.2基于詞典的正向匹配分詞算法
正向最大匹配分詞方法的主要思想:假設(shè)分詞詞典詞條的最大長(zhǎng)度為m,取待匹配文本當(dāng)前字符串中的前m個(gè)字符與詞典詞條進(jìn)行匹配,如果匹配成功,則切分出這個(gè)詞;如果不成功,則去掉待匹配字符串的最后一個(gè)字并重新與詞典匹配,直到待分詞字符串不能切分為止[18]。在知識(shí)條目進(jìn)行正向匹配分詞時(shí),文中方法不需要預(yù)知詞條的最大長(zhǎng)度,以當(dāng)前字符作為首字,查找改進(jìn)Trie索引樹(shù)詞典,以當(dāng)前字符為首字的詞條組成自動(dòng)機(jī),根據(jù)剩余字符的狀態(tài)進(jìn)行轉(zhuǎn)移查詢匹配。當(dāng)某一字符匹配失敗時(shí),失敗指針[19]自動(dòng)機(jī)跳轉(zhuǎn)到具有最長(zhǎng)公共前綴的字符而繼續(xù)進(jìn)行匹配,直到字符狀態(tài)為終結(jié)或者無(wú)法轉(zhuǎn)移時(shí)切分該詞;繼續(xù)匹配,直到文本結(jié)束。
正向最大匹配分詞算法流程:
步驟1,從知識(shí)片段T中讀取字符Cn,在首字哈希表中查找Cn,形成頭節(jié)點(diǎn)N1;如果表中沒(méi)有Cn,則轉(zhuǎn)入步驟10。
步驟2,從T中讀取Cn+1,在頭節(jié)點(diǎn)對(duì)應(yīng)的次字哈希表中查找Cn+1,形成關(guān)鍵節(jié)點(diǎn)N2,如果表中沒(méi)有Cn+1,則轉(zhuǎn)入步驟10。
步驟3,從T中讀取下一個(gè)字符Cm,形成節(jié)點(diǎn)Nm,讀取其父節(jié)點(diǎn)中子節(jié)點(diǎn)個(gè)數(shù)i,沿子樹(shù)順序查找子節(jié)點(diǎn)N[m,j],設(shè)置初始值j=1。
步驟4,如果N[m,j]=Cm,則轉(zhuǎn)入步驟6;如果當(dāng)N[m,j]!=Cm時(shí),則沿失敗指針回溯到父節(jié)點(diǎn),繼續(xù)查找與父節(jié)點(diǎn)對(duì)應(yīng)的子節(jié)點(diǎn)N[m,j++],轉(zhuǎn)入步驟5。
步驟5,當(dāng)j
步驟6,讀取Nm字符狀態(tài),如果字符為繼續(xù)或中間狀態(tài),則轉(zhuǎn)入步驟7;如果為結(jié)束狀態(tài),則轉(zhuǎn)入步驟8。
步驟7,重復(fù)步驟3-6。
步驟8,提取詞條,轉(zhuǎn)入步驟1。
步驟9,如果前一節(jié)點(diǎn)狀態(tài)為中間,則轉(zhuǎn)入步驟8;否則,轉(zhuǎn)入步驟10。
步驟10,將索引回溯到n+1,轉(zhuǎn)入步驟1。
如示例中知識(shí)片段分詞匹配到“塔里木盆地”時(shí),當(dāng)前字符為“塔”,在首字哈希表中查找到“塔”,自動(dòng)機(jī)在“塔”的子節(jié)點(diǎn)哈希表中查到“里”,狀態(tài)為繼續(xù);在“塔里”的子樹(shù)節(jié)點(diǎn)中按順序查找到“木”,狀態(tài)為繼續(xù);當(dāng)前字符為“盆”,在“塔里木”的子節(jié)點(diǎn)按順序查找,首先查找到“河”,無(wú)法匹配,失敗指針自動(dòng)跳轉(zhuǎn)到“河”的父節(jié)點(diǎn)“木”,繼續(xù)按順序查找“塔里木”的子節(jié)點(diǎn),查找到“盆”,狀態(tài)為繼續(xù);最后查找到結(jié)束狀態(tài)的“地”(見(jiàn)圖3)。
改進(jìn)Trie索引樹(shù)詞典結(jié)構(gòu)清晰,能夠有效解決詞典不斷實(shí)時(shí)更新的問(wèn)題。該詞典結(jié)構(gòu)首字和次字支持哈希查找,剩余字符沿Trie索引樹(shù)鏈表查找,可以節(jié)省存貯空間和提高效率;同時(shí)在Trie索引樹(shù)節(jié)點(diǎn)添加失敗指針時(shí),可以減少正向最大匹配分詞算法中較長(zhǎng)詞條重復(fù)匹配次數(shù)。經(jīng)過(guò)語(yǔ)料庫(kù)測(cè)試,該算法的分詞和命名實(shí)體識(shí)別提取效果良好,不僅提高分詞效率,而且分詞準(zhǔn)確率達(dá)到0.985,召回率達(dá)到0.963。
油氣勘探開(kāi)發(fā)領(lǐng)域本體數(shù)量多,并且隨著油氣勘探開(kāi)發(fā)的深入,不斷產(chǎn)生新的本體實(shí)例,大量領(lǐng)域命名實(shí)體未錄入領(lǐng)域本體庫(kù),需要從知識(shí)中挖取新的領(lǐng)域命名實(shí)體,以完善領(lǐng)域本體和獲取知識(shí)。
3.1領(lǐng)域命名實(shí)體規(guī)則特征
油氣勘探開(kāi)發(fā)領(lǐng)域本體的命名具有一定規(guī)律性[8],將其規(guī)則特征總結(jié)為“A和B”的構(gòu)成模式,其中A為修飾語(yǔ),通常是具有地域語(yǔ)義的名詞及組合或簡(jiǎn)稱,有時(shí)包含數(shù)詞、動(dòng)詞等非名詞性修飾詞;B表示本體類的詞,是本體命名的中心語(yǔ),如“塔里木盆地”,其中“塔里木”為地域名詞,“盆地”為中心語(yǔ),是地質(zhì)對(duì)象本體的概念類之一。分析油氣勘探領(lǐng)域本體的命名特征,將“A和B”模式細(xì)化為具體類型領(lǐng)域本體的命名規(guī)則,假設(shè)“井”類本體的命名特征一般為“漢字1、漢字2、數(shù)字、‘井’”的形式,當(dāng)分詞結(jié)果中出現(xiàn)單字“井”,且緊鄰其前的為數(shù)字,如果數(shù)字前為1~2個(gè)單字詞,則將詞識(shí)別為疑似新本體;假設(shè)“塔深1井”開(kāi)始在領(lǐng)域本體庫(kù)中不存在,如示例中第二句話分詞結(jié)果為“以/塔/深/1/井/為/代表”,“井”字前面連續(xù)出現(xiàn)3個(gè)單字詞和1個(gè)數(shù)字,根據(jù)領(lǐng)域本體的命名規(guī)則,提取“塔深1井”為疑似井類實(shí)例。
3.2聚類統(tǒng)計(jì)
類似的疑似命名實(shí)體在知識(shí)獲取過(guò)程中可能多次出現(xiàn),對(duì)它進(jìn)行聚類統(tǒng)計(jì),分析疑似命名實(shí)體在多條知識(shí)中被重復(fù)佐證的次數(shù)及其對(duì)應(yīng)的語(yǔ)句佐證環(huán)境示例,借鑒條件隨機(jī)場(chǎng)方法(Condition Random Field,CRF)[20]選擇疑似新增命名實(shí)體,相較于K-Means聚類、等頻率和信息增益等離散化方法有更好的效果。
該方法主要利用本體的特征進(jìn)行判定:本體的字符長(zhǎng)度、本體的詞性結(jié)構(gòu)、本體的左信息熵和右信息熵、本體的全文詞頻、重要性指標(biāo)IDF和IFA,以及互信息等,其中本體的左、右信息熵是衡量語(yǔ)料庫(kù)中作為詞語(yǔ)左、右側(cè)鄰近詞語(yǔ)的固定程度,詞語(yǔ)之間的組合出現(xiàn)得越固定,其熵值越大:
(1)
(2)
式中:LE為左信息熵;RE為右信息熵;w為本體;A、B分別為本體左右的詞的集合;C(a,w)為本體w與集合元素a同時(shí)出現(xiàn)的次數(shù)。
(3)
式中:D為文檔總數(shù);|Dw|為包含本體w的文檔數(shù)量。
(4)
式中:M為互信息;p(w)為本體w出現(xiàn)的概率。
利用CRF方法預(yù)測(cè)已分詞詞語(yǔ)邊界是否為新詞邊界的問(wèn)題,判斷疑似本體是否包含在已有本體集合內(nèi);然后將疑似新增命名實(shí)體、新增知識(shí)點(diǎn)對(duì)應(yīng)的佐證示例匯集,并通過(guò)可視化方法展現(xiàn)給專家,最終確認(rèn)或否決新增命名實(shí)體。
(1)提出基于領(lǐng)域本體的油氣勘探開(kāi)發(fā)知識(shí)獲取模式。該模式通過(guò)提取知識(shí)的領(lǐng)域命名實(shí)體,將知識(shí)與已知的領(lǐng)域本體進(jìn)行關(guān)聯(lián),以領(lǐng)域本體為基礎(chǔ)快速獲取知識(shí),其關(guān)鍵在于快速提取已登錄領(lǐng)域命名實(shí)體和有效識(shí)別未登錄領(lǐng)域命名實(shí)體。
(2)采用改進(jìn)Trie索引樹(shù)詞典結(jié)構(gòu),結(jié)合帶有失敗指針的優(yōu)化正向最大匹配分詞算法將已登錄領(lǐng)域命名實(shí)體從知識(shí)條目中提取出來(lái)?;谳^完善的油氣勘探開(kāi)發(fā)領(lǐng)域本體庫(kù)、專業(yè)詞庫(kù)和通用詞庫(kù),對(duì)油氣勘探開(kāi)發(fā)領(lǐng)域命名實(shí)體詞條長(zhǎng)度普遍較長(zhǎng)的特點(diǎn),通過(guò)首字哈希表、次字哈希表和Trie樹(shù)節(jié)點(diǎn)結(jié)合,減少掃描匹配的重復(fù)次數(shù),提高提取已登錄領(lǐng)域命名實(shí)體的查找效率。
(3)采用領(lǐng)域本體規(guī)則特征和聚類統(tǒng)計(jì)分析結(jié)合的方法,有效識(shí)別未登錄領(lǐng)域命名實(shí)體,提出油氣勘探開(kāi)發(fā)領(lǐng)域本體命名的“A和B”模式規(guī)則特征;根據(jù)本體的字符長(zhǎng)度、左信息熵、右信息熵和互信息等特征,利用CRF方法預(yù)測(cè)已分詞詞語(yǔ)邊界是否為疑似命名實(shí)體邊界;最終人工確認(rèn)或否決新增命名實(shí)體。在新增命名實(shí)體時(shí),詞典不需要重新調(diào)整結(jié)構(gòu),插入簡(jiǎn)單,可以解決油氣勘探開(kāi)發(fā)領(lǐng)域本體庫(kù)需要不斷更新實(shí)例的問(wèn)題。
(4)該模式自動(dòng)分詞效率比傳統(tǒng)的二分法、Trie索引樹(shù)法提高50%以上,領(lǐng)域本體的識(shí)別提取結(jié)果準(zhǔn)確率達(dá)到95%以上,能夠滿足知識(shí)獲取效率和準(zhǔn)確率的要求,大幅提高將零散知識(shí)通過(guò)領(lǐng)域本體有效關(guān)聯(lián)并轉(zhuǎn)化為有效知識(shí)的效率和質(zhì)量,提高搜索匹配知識(shí)的效率,為組織知識(shí)地圖、實(shí)現(xiàn)智能搜索和推送奠定基礎(chǔ)。
[1]盧林蘭,李明.利用ontology實(shí)現(xiàn)的多庫(kù)知識(shí)獲取方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(15):3731-3733.
Lu Linlan, Li Ming. Multi-database knowledge acquisition method realized by using ontology [J]. Computer Engineering and Design, 2007,28(15):3731-3733.
[2]李楓林,毛展展.應(yīng)用本體構(gòu)建方法研究及案例分析[J].圖書(shū)館學(xué)研究,2014(19):31-41.
Li Fenglin, Mao Zhanzhan. Research on application ontology construction method and case analysis [J]. Research on Library Science, 2014(19):31-41.
[3]贠周會(huì),徐龍,宋利康,等.基于本體的航空產(chǎn)品鈑金件工藝知識(shí)獲取與表示研究[J].學(xué)術(shù)論文,2014(1/2):111-114.
Yun Zhouhui, Xu Long, Song Likang, et al. Knowledge acquisition and representation of aircraft sheet metal part based on ontology [J]. Aeronautical Manufacturing Gechnology, 2014(1/2):111-114.
[4]馬斌,柴智.基于領(lǐng)域本體的方劑知識(shí)獲取與研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(6):227-229.
Ma Bin, Chai Zhi. Chinese medicine prescription knowledge acquisition and research based on domain ontology [J]. Computer Technology and Development, 2013,23(6):227-229.
[5]鐘秀琴,符紅光,佘莉,等.基于本體的幾何學(xué)知識(shí)獲取及知識(shí)表示[J].計(jì)算機(jī)學(xué)報(bào),2010,33(1):167-174.
Zhong Xiuqin, Fu Hongguang, She Li, et al. Geometry knowledge acquisition and representation on ontology [J]. Chinese Journal of Computers, 2010,33(1):167-174.
[6]李乃峰.基于石油領(lǐng)域本體的語(yǔ)義關(guān)聯(lián)機(jī)制研究[D].大慶:東北石油大學(xué),2014.
Li Naifeng. Research on mechanism of semantic association based on ontology of petroleum domain [D]. Daqing: Northeast Petroleum University, 2014.
[7]徐楠楠,王東風(fēng),韓璞.基于正向最大匹配算法的電力兩票安全識(shí)別[J].計(jì)算機(jī)仿真,2014,31(1):145-148.
Xu Nannan, Wang Dongfeng, Han Pu. Recognition of two-ticket system in power station based on forward maximum matching algorithm [J]. Computer Simulation, 2014,31(1):145-148.
[8]趙琳瑛.基于隱馬爾科夫模型的中文命名實(shí)體識(shí)別研究[D].西安:西安電子科技大學(xué),2008:5-9.
Zhao Linying. Study on Chinese named entity recognition based on hidden Markov model [D]. Xi'an: Xidian University, 2008:5-9.
[9]劉杰.基于改進(jìn)的隱馬爾科夫模型的中文命名實(shí)體識(shí)別算法[J].太原師范學(xué)院學(xué)報(bào):自然科學(xué)版,2009(3):80-83.
Liu Jie. The arithmetic of Chinese named entity recognition based on the improved hidden Markov model [J]. Journal of Taiyuan Normal University: Natural Science Edition, 2009(3):80-83.
[10]Nntalya F N, Deborah L M. Ontology development101: A guide to creating your first ontology [D]. Stanford: Stanford University, 2000.
[11]宋文,張劍,邵燕.頂層本體研究[J].圖書(shū)館理論與實(shí)踐,2006(1):43-45.
Song Wen, Zhang Jian, Shao Yan. Study on the top ontology [J]. Library Theory and Practice, 2006(1):43-45.
[12]李志國(guó),鐘將,馮永,等.基于知識(shí)本體的文本分類技術(shù)及其應(yīng)用研究[J].計(jì)算機(jī)科學(xué),2007,34(8):184-186.
Li Zhiguo, Zhong Jiang, Feng Yong, et al. Study on the text classification algorithm based on knowledge ontology [J]. Computer Science, 2007,34(8):184-186.
[13]文必龍,張莉.石油勘探開(kāi)發(fā)領(lǐng)域本體的構(gòu)建方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(34):1-4.
Wen Bilong, Zhang Li. Method of building petroleum exploration and production domain ontology [J]. Computer Engineering and Application, 2009,45(34):1-4.
[14]鄧小亞.石油領(lǐng)域本體庫(kù)的構(gòu)建研究[J].電子設(shè)計(jì)工程,2011,20(19):1-4.
Deng Xiaoya. Research of ontology construction theory in oilfiled [J]. Electronic Design Engineering, 2011,
20(19):1-4.
[15]Peter M. Ontologies are us: A unified model of social networks and semantics [J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2007,5(1):5-15.
[16]李江波,周強(qiáng),陳祖舜.漢語(yǔ)詞典的快速查詢算法研究[J].中文信息學(xué)報(bào),2006,20(5):31-39.
Li Jiangbo, Zhou Qiang, Chen Zushun. A study on fast algorithm for Chinese dictionary lookup [J]. Journal of Chinese Information Processing, 2006,20(5):31-39.
[17]熊志斌,朱劍鋒.基于改進(jìn)Trie樹(shù)結(jié)構(gòu)的正向最大匹配算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(5):276-278.
Xiong Zhibin, Zhu Jianfeng. Forward maximum matching algorithm based on improved Trie tree structure [J]. Computer Applications and Software, 2014,31(5):276-278.
[18]趙曉凡,胡順義.基于正向最大匹配的漢語(yǔ)分詞[J].安陽(yáng)師范學(xué)院學(xué)報(bào),2010(5):13-15.
Zhao Xiaofan, Hu Shunyi. The Chinese word segmentation based on forward maximum match method [J]. Journal of Anyang Normal University, 2010(5):13-15.
[19]吳建勝,戰(zhàn)學(xué)剛,遲呈英.一種基于自動(dòng)機(jī)的分詞方法[J].計(jì)算機(jī)工程與應(yīng)用,2005(8):81-82.
Wu Jiansheng, Zhan Xuegang, Chi Chengying. An automaton-based word segmentation method [J]. Computer Engineering and Applications, 2005(8):81-82.
[20]陳飛,劉奕群,魏超,等.基于條件隨機(jī)場(chǎng)方法的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J].軟件學(xué)報(bào),2013,24(5):1051-1060.
Chen Fei, Liu Yiqun, Wei Chao, et al. Open domain new word detection using condition random field method [J]. Journal of Software, 2013,24(5):1051-1060.
2015-03-29;編輯:任志平
國(guó)家科技支撐計(jì)劃項(xiàng)目(2012BAH34F04)
王曉麗(1982-),女,博士研究生,工程師,主要從事碳酸鹽巖沉積學(xué)、油田知識(shí)管理方面的研究。
10.3969/j.issn.2095-4107.2016.04.009
TE19;TP311
A
2095-4107(2016)04-0074-06