姜楠
(石油工業(yè)出版社有限公司 北京 100011)
鉆井事故與復(fù)雜問題語義詞典的構(gòu)建方法
姜楠
(石油工業(yè)出版社有限公司 北京 100011)
基于目前石油鉆井事故與復(fù)雜問題決策支撐系統(tǒng)建設(shè)的需要,本文探索研究鉆井事故與復(fù)雜問題語義詞典的構(gòu)建方法,采用本體建?!捌卟椒ā睒?gòu)建鉆井事故與復(fù)雜問題語義詞典,并通過該詞典進(jìn)行事故與復(fù)雜問題本體的相關(guān)應(yīng)用研究。
鉆井事故與復(fù)雜問題;語義詞典;領(lǐng)域本體;構(gòu)建方法
1.1 知識(shí)表示
知識(shí)表示是知識(shí)形式化和符號(hào)化的過程,是把知識(shí)客體中的因子與知識(shí)關(guān)聯(lián)起來,便于人們理解知識(shí)。隨著知識(shí)交叉和復(fù)用的增加,傳統(tǒng)孤立的知識(shí)表示形式已不能滿足對(duì)海量信息的理解與應(yīng)用需求。
1.2 本體
本體(ontology)一詞由17世紀(jì)的德國經(jīng)院學(xué)者郭克蘭紐(Goclenius,1547~1628)首先使用。近幾十年里,該詞被廣泛應(yīng)用于信息技術(shù)領(lǐng)域,在人工智能、計(jì)算機(jī)語言及大數(shù)據(jù)等領(lǐng)域中扮演越來越重要的作用。本體是領(lǐng)域概念及概念之間關(guān)系的規(guī)范化、明確性描述,可共享,可作用于不同領(lǐng)域知識(shí)的語義消解,并且可反映某領(lǐng)域內(nèi)知識(shí)間的網(wǎng)狀聯(lián)系。
1.3 語義詞典
語義詞典是處理語言信息的基礎(chǔ),應(yīng)用于文獻(xiàn)檢索、自然語言查詢、機(jī)器翻譯等多領(lǐng)域,利用不同的語義概念和屬性標(biāo)記,結(jié)構(gòu)化存儲(chǔ)和表達(dá)文字之間上下位、近反義等多種語義關(guān)系。語義詞典定義比較松散,具有語義功能的詞典都可以稱為語義詞典。語義詞典描述的范圍通常比領(lǐng)域本體寬泛,包含了漢語中詞級(jí)的語法和語義知識(shí),可用于小句分析中的功能成分分析。
比較有代表性的本體工程構(gòu)建方法主要有骨架法、TOVE法、循環(huán)獲取法、七步法等。本文采用七步法進(jìn)行分析,結(jié)合循環(huán)獲取法逐步修改不斷完善的思想,把本體構(gòu)建的過程融入語義詞典的構(gòu)建過程中,提出鉆井事故與復(fù)雜問題語義詞典的構(gòu)建方法與步驟。
語義詞典構(gòu)建過程包括7個(gè)主要步驟(圖1)。
圖1 鉆井事故與復(fù)雜問題語義詞典構(gòu)建過程圖
2.1 確定本體的專業(yè)領(lǐng)域和范疇
領(lǐng)域知識(shí)往往十分龐大,本體不可能包括所有概念,因此,構(gòu)建領(lǐng)域本體首先要確定本體專業(yè)領(lǐng)域和應(yīng)用目標(biāo),其次是提供對(duì)本領(lǐng)域知識(shí)的共同理解,確定對(duì)該領(lǐng)域共同認(rèn)可的專業(yè)領(lǐng)域和范疇,描述出分類及屬性之間的相互關(guān)系。
2.2 收集專業(yè)資源和重要術(shù)語
確定專業(yè)領(lǐng)域后,需要收集事故與復(fù)雜問題相關(guān)資源和重要術(shù)語,詳細(xì)了解該領(lǐng)域資源類型等情況。通過查閱資源中所述專業(yè)內(nèi)容,對(duì)鉆井工程一線生產(chǎn)人員實(shí)地調(diào)研并與領(lǐng)域?qū)<曳磸?fù)溝通交流,得到本領(lǐng)域核心分類概念集合及各分類概念層次結(jié)構(gòu)關(guān)系表示。
2.3 確定分類概念
通過對(duì)已有資源分析研究,運(yùn)用專家咨詢方法提煉出鉆井事故與復(fù)雜問題領(lǐng)域的分類概念(表1)。
表1 鉆井事故與復(fù)雜問題領(lǐng)域的分類概念
2.4 細(xì)化概念分類層次
語義詞典分類概念確定后,要由上至下擴(kuò)展整個(gè)語義詞典的概念模型。對(duì)每個(gè)核心概念進(jìn)行細(xì)化結(jié)構(gòu)分析,劃分出更小的概念類,將整個(gè)問題解析為層次概念模型(表2)。
表2 鉆井事故與復(fù)雜問題語義詞典的分類概念層次模型
2.5 定義概念間的關(guān)系及屬性標(biāo)注
分類概念層次只是有了本體的總體框架,還需要定義分類概念的屬性結(jié)構(gòu)以填充詞典框架。屬性是分類概念中的實(shí)體性質(zhì),是對(duì)象性質(zhì)與對(duì)象間的關(guān)系統(tǒng)稱,其中描述對(duì)象自身性質(zhì)的屬性為數(shù)值屬性,描述對(duì)象間關(guān)系的屬性為對(duì)象屬性。對(duì)大量已有知識(shí)內(nèi)容進(jìn)行挖掘后得出該領(lǐng)域詞典的分類概念屬性模型(圖2)。
圖2 領(lǐng)域詞典的分類概念屬性模型圖
2.6 邏輯語義關(guān)系判斷
在構(gòu)建領(lǐng)域詞典過程中,客觀上由于各類資源組織方式不同,主觀上由于加入人工添加規(guī)則描述,導(dǎo)致詞典中分類之間語義關(guān)系存在偏差。結(jié)合外部語義詞典,查詢對(duì)比本文領(lǐng)域詞典中的分類及屬性之間的語義關(guān)系是否符合語義詞典中定義語義關(guān)系,包括上下位關(guān)系、同義關(guān)系、翻譯關(guān)系、部件與整體關(guān)系、問題與角色關(guān)系、屬性與宿主關(guān)系等。例如“木質(zhì)素磺酸鹽鉆井液”與“木質(zhì)素磺酸鹽泥漿”為同義關(guān)系,“設(shè)備”與“鉆井設(shè)備”為上下位關(guān)系,“泥漿處理”與“鉆井液處理”為整體—個(gè)體關(guān)系等。通過語義詞典匹配檢測(cè)判斷語義關(guān)系是否通過,若不通過則對(duì)其進(jìn)行修正并補(bǔ)充,使詞典更加正確、完整、有效。
2.7 機(jī)器自學(xué)習(xí)
語義詞典在實(shí)際應(yīng)用中需要不斷進(jìn)行增量迭代和自主優(yōu)化,本階段先建立基本的鉆井事故與復(fù)雜問題領(lǐng)域語義詞典,后續(xù)會(huì)繼續(xù)擴(kuò)展完善,并通過計(jì)算機(jī)輔助訓(xùn)練實(shí)現(xiàn)機(jī)器自主學(xué)習(xí),保證領(lǐng)域本體的完整性、權(quán)威性,有利于在實(shí)際生產(chǎn)中應(yīng)用。
(1)采用構(gòu)建本體的方法來構(gòu)建語義詞典,利用該語義詞典初步實(shí)現(xiàn)對(duì)鉆井事故與復(fù)雜問題知識(shí)點(diǎn)的語義標(biāo)引、語義結(jié)構(gòu)分析,并對(duì)知識(shí)點(diǎn)的完整度進(jìn)行分析,從而有效提高鉆井事故與復(fù)雜問題的處理效果,進(jìn)而減少安全生產(chǎn)事故。
(2)本研究所構(gòu)建的語義詞典具有較高的準(zhǔn)確性和規(guī)范性,可為整個(gè)行業(yè)相關(guān)應(yīng)用共享、復(fù)用提供借鑒。
(3)語義詞典構(gòu)建是一個(gè)復(fù)雜的過程,尤其是在構(gòu)建初期和維護(hù)階段,為了保證詞典的完整性及準(zhǔn)確率,需要花費(fèi)大量人力和時(shí)間。本語義詞典的構(gòu)建尚處于實(shí)驗(yàn)階段,今后還需要在實(shí)踐應(yīng)用中進(jìn)一步完善。
[1]張文秀,朱慶華.領(lǐng)域本體的構(gòu)建方法研究[J].圖書與情報(bào),2011,155(1):16-19.
[2]馬慧,趙捧未,王洪俊,孫辛博.民航不安全事件語義詞典構(gòu)建及應(yīng)用研究[J].數(shù)字圖書館論壇,2015,136(9):27-34.
[3]李景.領(lǐng)域本體的構(gòu)建方法與應(yīng)用研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2009.
[4]丁晟春,傅柱.基于航天敘詞表的領(lǐng)域本體半自動(dòng)化構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2011,34(11)113-116.