閆 東
(中國航天空氣動力技術(shù)研究院,北京 100074)
基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)系統(tǒng)研究
閆 東
(中國航天空氣動力技術(shù)研究院,北京 100074)
信息服務(wù)主要使用檢索詞匹配的方式來返回檢索結(jié)果,致使無法全面獲取與語義知識相關(guān)的資源,因而檢索結(jié)果無法準(zhǔn)確地反映知識資源與用戶檢索需求之間的相似度。經(jīng)研究,以本體技術(shù)和語義檢索技術(shù)為基礎(chǔ)的知識服務(wù)系統(tǒng)能夠有效彌補傳統(tǒng)信息服務(wù)系統(tǒng)的不足,改善由于地質(zhì)資料標(biāo)準(zhǔn)化程度低、語義不一致而造成的檢索效率低等現(xiàn)象。本文根據(jù)石油地質(zhì)學(xué)科知識特點,提出了基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)框架,將本體技術(shù)和語義檢索技術(shù)應(yīng)用到石油地質(zhì)學(xué)領(lǐng)域,形成包含資源層、知識層、產(chǎn)品層及服務(wù)層的石油地質(zhì)領(lǐng)域知識服務(wù)系統(tǒng)。首先研究領(lǐng)域本體的構(gòu)建技術(shù)方法,從領(lǐng)域資源中抽取知識,建立了結(jié)構(gòu)化的、計算機可讀的石油地質(zhì)領(lǐng)域知識--領(lǐng)域本體;然后研究面向知識服務(wù)的信息資源組織方法,整合了石油地質(zhì)領(lǐng)域多元、異構(gòu)資源,形成了面向多類應(yīng)用需求及層次的石油地質(zhì)知識產(chǎn)品;最后,利用開源搜索引擎工具包Lucene和Jena本體解析工具包,建立了簡單的語義檢索原型系統(tǒng),通過基于本體的語義擴展,實現(xiàn)了語義檢索試驗。試驗結(jié)果表明,基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)系統(tǒng)能夠準(zhǔn)確地為用戶提供檢索結(jié)果,提高地質(zhì)資料知識服務(wù)效果。
知識服務(wù);本體;石油地質(zhì);語義檢索
目前的信息服務(wù)主要是依靠檢索詞匹配的方式來實現(xiàn)資源的查詢與利用,因而檢索詞匹配的程度直接決定了資源的利用率和信息服務(wù)的效果。依靠檢索詞匹配方式的檢索系統(tǒng)主要存在的問題是,由于忽略了知識資源的語義層面,因而造成了大量語義知識資源的確缺失,無法準(zhǔn)確地反映知識資源與用戶檢索需求之間的相似度[1]。特別是面對海量、異構(gòu)的地質(zhì)資料數(shù)據(jù),傳統(tǒng)的信息服務(wù)系統(tǒng)很難滿足用戶的檢索需求。具有語義匹配功能和本體知識技術(shù)的知識服務(wù)系統(tǒng)成為當(dāng)前研究熱點和難點。
隨著信息服務(wù)系統(tǒng)的不斷發(fā)展,地質(zhì)資料已從傳統(tǒng)的借閱服務(wù)轉(zhuǎn)變?yōu)橹R服務(wù),即按照知識結(jié)構(gòu)和語義特征進行資料的組織、共享與服務(wù)已經(jīng)成為必然趨勢。本體能夠構(gòu)建出清晰的領(lǐng)域知識框架及脈絡(luò),繼承已有的知識資源,避免重復(fù)工作,使得知識資源的高效快捷的重用及共享成為可能。在本體的基礎(chǔ)上將行業(yè)內(nèi)的標(biāo)準(zhǔn)規(guī)范、統(tǒng)計數(shù)據(jù)、學(xué)科知識脈絡(luò)、研究進展和資源索引庫等資源進行多元融合,就可以形成較為豐富完善的領(lǐng)域產(chǎn)品,以產(chǎn)品層作為數(shù)據(jù)支撐,就可以構(gòu)建出個性化的領(lǐng)域知識服務(wù)系統(tǒng)。結(jié)合石油領(lǐng)域特點,本文提出了基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)框架,具體如圖 1所示。
圖1 基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)框架Fig.1 The framework of petroleum geological knowledge service system based on ontology
資源層:石油地質(zhì)領(lǐng)域的原始資源來自于書籍、研究報告、各類原始數(shù)據(jù)和統(tǒng)計數(shù)據(jù)、地質(zhì)圖庫、油藏模型以及網(wǎng)頁上的資源等各種形式的已有工作成果。
知識層:要實現(xiàn)地質(zhì)領(lǐng)域的知識服務(wù),首先要建立領(lǐng)域知識架構(gòu)。地質(zhì)本體能夠提供包括石油地質(zhì)領(lǐng)域、構(gòu)造地質(zhì)領(lǐng)域、古生物領(lǐng)域等各類地質(zhì)領(lǐng)域知識的結(jié)構(gòu)化描述、定義及屬性[2]。
產(chǎn)品層:知識服務(wù)需要有豐富多樣的產(chǎn)品作為支撐,包括基于本體的學(xué)科知識脈絡(luò)、數(shù)據(jù)產(chǎn)品、統(tǒng)計數(shù)據(jù)產(chǎn)品、研究進展報告及資源索引庫等。這些知識產(chǎn)品一方面提高用戶檢索資源的命中率,找到用戶真正需要的資源;,另一方面還能夠為用戶提供可能與檢索需求相關(guān)的參考概念,以及相應(yīng)的資源。
服務(wù)層:學(xué)科知識服務(wù)的主要途徑是用戶主動檢索。這種檢索可以在機構(gòu)內(nèi)網(wǎng),也可以通過互聯(lián)網(wǎng)。知識檢索的對象可以是結(jié)構(gòu)化的領(lǐng)域本體,可以是基于知識網(wǎng)絡(luò)索引的一般資源,服務(wù)層的目標(biāo)就是為各種類型用戶滿足各種不同的需求,最終提供個性化服務(wù)。
知識服務(wù)的根本目的就是能夠直截了當(dāng)?shù)臑橛脩籼峁┱嬲枰闹R和資源,省去用戶自己歸納總結(jié)篩選排除的過程。本文所提出的基于本體的地質(zhì)領(lǐng)域知識服務(wù)框架,能夠把松散地存放于各處的原始資料進行加工處理,形成系統(tǒng)的知識結(jié)構(gòu),將構(gòu)建成的領(lǐng)域本體進一步開發(fā)形成知識產(chǎn)品,最后實現(xiàn)知識服務(wù)。
結(jié)合石油地質(zhì)領(lǐng)域的特點,本文構(gòu)建了石油地質(zhì)領(lǐng)域本體,并基于開源的全文搜索工具包Lucene等技術(shù)實現(xiàn)了石油地質(zhì)領(lǐng)域知識檢索系統(tǒng)試驗[3]。
手工構(gòu)建本體是一項耗時耗力的巨大工程,自動化構(gòu)建本體技術(shù)尚不成熟[1,4],鑒于已有完善的《地質(zhì)敘詞表》和《石油主題詞表》,因而本文提出一種基于敘詞表的半自動化本體構(gòu)建方法,具體方法如圖2所示。
圖2 敘詞表轉(zhuǎn)換為本體的流程Fig.2 The process of converting the thesaurus into an ontology
地質(zhì)敘詞表又稱為地質(zhì)主題詞表,包含了地質(zhì)學(xué)科的詞匯和詞匯之間的各種關(guān)系。敘詞表的語義關(guān)系分為“用、代、分、屬、參”,分別用來表示詞匯之間的等同、等級、相關(guān)等語義關(guān)系。敘詞表包含較全面和權(quán)威的領(lǐng)域概念和重要的語義關(guān)系,為本體提供了較好的概念基礎(chǔ)。很多研究嘗試基于敘詞表進行構(gòu)建本體,研究重點在于敘詞表向本體轉(zhuǎn)換的方法。
由敘詞表構(gòu)建本體的方法將敘詞表的敘詞作為本體中概念的來源,在敘詞表概念關(guān)系的基礎(chǔ)上,修改完善概念的屬性、關(guān)系,并添加公理和函數(shù)。敘詞表的相關(guān)關(guān)系沒有更細的劃分,包含了本體一般定義中除了層次關(guān)系和等同關(guān)系外的所有關(guān)系。所以要想建立更精確的領(lǐng)域本體,除了敘詞的注釋,還需要參考其他知識來源,如《石油地質(zhì)》、《中國石油勘探開發(fā)百科全書》等,為本體的類添加需要的關(guān)系[4]。
最終通過概念和概念層級的確定、定義概念的屬性、對漢語拼音、敘詞編號、英文譯名、范疇號、注釋項的處理及為概念添加實例等工作[5],構(gòu)建了輕量級的石油地質(zhì)領(lǐng)域本體,完成的面向知識服務(wù)的石油地質(zhì)領(lǐng)域本體包含18278個概念,概念之間的關(guān)系達到16487個,概念的實例4137個。關(guān)系分為等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系,其中相關(guān)關(guān)系除包含敘詞表中固有的相關(guān)關(guān)系,還增加了相關(guān)領(lǐng)域?qū)W科,如信息技術(shù)及數(shù)學(xué)地質(zhì)。實例涵蓋了石油人物、書籍、機構(gòu)以及重點區(qū)域等,具體如圖3所示。
3.1 系統(tǒng)原型設(shè)計與實現(xiàn)
如圖4所示,石油地質(zhì)語義檢索原型系統(tǒng)主要由解析模塊、索引模塊、檢索模塊、語義標(biāo)引和本體模塊五部分組成[6],其中索引模塊中的語義標(biāo)引、本體模塊以及檢索模塊中本體搜索為本文在Lucene開源包基礎(chǔ)上新增的部分,并且對原有的排序模塊進行完善優(yōu)化,形成新的基于權(quán)重的排序模塊。各個模塊的具體功能介紹如下。
(1)解析模塊:主要對各種類型的電子文檔進行,目前能夠解析的文檔類型包括 Doc、PDF、Xml和Html,在未來工作中將進一步擴展可解析的文檔類型。
(2)索引模塊:基于Lucene已有的分詞器進行文檔預(yù)處理,去除停頓詞,保留主題詞。一方面將高頻主題導(dǎo)入形成石油地質(zhì)領(lǐng)域概念詞庫,另一方面將高頻主題詞作為每個文檔的標(biāo)引詞匯,形成語義標(biāo)引文檔集。
(3)本體模塊:利用Jena實現(xiàn)了本體的解析與推理[7],將本體中的等級、等同和相關(guān)關(guān)系解析處理,并利用概念擴展算法實現(xiàn)了對檢索詞的語義擴展[8-9],形成新的檢索詞列表。
(4)檢索模塊:將經(jīng)過本體擴展后的全新檢索詞列表重新作為輸入條件,在本體庫和資源庫中進行查詢,匹配相應(yīng)數(shù)據(jù)資源并返回至排序模塊。
圖3 石油地質(zhì)領(lǐng)域本體層級關(guān)系展示Fig.3 The display of the relationships in petroleum geology domain ontology
圖4 基于Lucene的知識檢索系統(tǒng)功能框圖Fig.4 The framework of the retrieval system based on Lucene
(5)排序模塊:根據(jù)本體中的概念與概念之間的距離,對匹配到數(shù)據(jù)資源進行重新排序,并將最終權(quán)重計算后的結(jié)果作為最終的系統(tǒng)檢索結(jié)果返回給用戶[10]。
當(dāng)用戶輸入檢索詞后,整個原型系統(tǒng)的工作流程如圖5所示,Lucene基礎(chǔ)層完成對文檔的索引和標(biāo)注,應(yīng)用層通過Jena本體解析工具和語義擴展算法完成對用戶輸入查詢詞的擴展[1,11-13],并返回新的檢索列表對應(yīng)的結(jié)果,使用應(yīng)用排序規(guī)則實現(xiàn)資源的綜合排序,最終為用戶提供準(zhǔn)確的信息服務(wù)[14,15]。
3.2 檢索試驗
地質(zhì)知識檢索系統(tǒng)實現(xiàn)了基于石油地質(zhì)領(lǐng)域本體的語義查詢,圖6顯示了輸入“油氣田”關(guān)鍵詞并檢索石油地質(zhì)本體的查詢結(jié)果頁面[1]。
(1)“油氣田”相關(guān)概念:油氣區(qū)、油氣藏、油氣田勘探、油氣田開發(fā)等,其屬性有“定義”,其實例有中原油田、長慶油田等。
(2)通過擴展“油氣田”的相關(guān)概念,可檢索出標(biāo)引為“油氣藏”、“油氣田勘探”、“油氣田開發(fā)”、“油氣田管理”等文檔。
(3)還可以對檢索結(jié)果進行深一步的概念查找,如“油氣生成”。
本文將知識服務(wù)應(yīng)用到地質(zhì)學(xué)領(lǐng)域,提出了基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)的框架和解決方案,該框架包括資源層、知識層、產(chǎn)品層和服務(wù)層,并實現(xiàn)了基于本體的石油地質(zhì)語義檢索原型試驗,試驗結(jié)果有力的驗證了本文的論點。
同時,由本文的研究可以看出,在大數(shù)據(jù)時代,數(shù)據(jù)和資源的結(jié)構(gòu)化是實現(xiàn)數(shù)據(jù)管理和利用的必需手段。地質(zhì)領(lǐng)域信息資源也面臨著由異構(gòu)、非結(jié)構(gòu)化向共享化、知識化的發(fā)展。單就石油地質(zhì)領(lǐng)域,建立覆蓋范圍更廣、粒度更細的本體,還需要更多石油專業(yè)人才和信息科學(xué)人才的加入。并且,個性化的知識服務(wù)也是信息服務(wù)發(fā)展的必然趨勢。個性化知識服務(wù)能夠為用戶提供更有針對性、更便捷的服務(wù),當(dāng)然同時提高了用戶的學(xué)習(xí)和工作效率,必將開啟地質(zhì)領(lǐng)域知識服務(wù)的新篇章。
圖5 基于Lucene知識檢索系統(tǒng)架構(gòu)Fig.5 The structure of the retrieval system based on Lucene
圖6 檢索結(jié)果實例Fig.6 The example of the retrieval system
[1] 潘懋, 閆東, 張文靜, 等. 基于本體的地質(zhì)領(lǐng)域知識服務(wù)系統(tǒng)研究[C]// 全國數(shù)學(xué)地質(zhì)與地學(xué)信息學(xué)術(shù)研討會.2014.Pan Mao, Yan Dong, Zhang Wenjing, et al. Research on the knowledge service system of geological domain based on ontology [C]// national conference on mathematical geology and geology information, 2014.
[2] 杜睿山, 尚福華, 吳雅娟. 基于本體的石油開發(fā)領(lǐng)域知識構(gòu)建研究[J]. 科學(xué)技術(shù)與工程, 2010, 10(19): 4656-4662.Du Ruishan, Shang Fuhua, Wu Yajuan. The research on the knowledge of petroleum development based on ontology[J].Science and technology and engineering, 2010, 10(19):4656-4662.
[3] 鄧小亞. 石油領(lǐng)域本體庫的構(gòu)建研究[J]. 電子設(shè)計工程,2011, 19(20): 1-4.Deng xiaoya. Research on the construction of oil domain ontology library [J]. Electronic design engineering, 2011,19(20): 1-4.
[4] 陳曦, 閆東, 潘懋, 等. 基于領(lǐng)域知識庫的地勘單位分類算法[J]. 科學(xué)技術(shù)與工程, 2017, 17(13): 192-196.Chen xi, yan dong, pan tem, et al. Classification algorithm of geological exploration unit based on domain knowledge base[J]. Science and technology and engineering, 2017, 17(13):192-196.
[5] Knight, Colin, Gasevic, Dragan, and G. Richards. "An Ontology-Based Framework for Bridging Learning Design and Learning Content. " Journal of Educational Technology &Society 9. 1(2006): 23-37.
[6] Tudorache, T, et al. "WebProtégé: A Collaborative Ontology Editor and Knowledge Acquisition Tool for the Web."Semantic Web 4. 1(2013): 89.
[7] 吳紅, 李玉平, 胡澤文. 基于領(lǐng)域本體的專利信息檢索系統(tǒng)研究與實現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù), 2010(6): 71-77.Wu Gong, li Yuping, Hu Zewen. Research and implementation of patent information retrieval system based on domain ontology[J]. Journal of modern information technology, 2010(6): 71-77.
[8] 閆東, 潘懋, 陳小紅, 等. 基于擴展主題詞表的頁巖氣領(lǐng)域本體構(gòu)建研究[J]. 科學(xué)技術(shù)與工程, 2015, 15(17): 184-192.Yan Dong, Pan Mao, Chen Xiaohong, et al. Study on approach of building shale gas domain ontology based on extended thesaurus[J]. Science technology and engineering,2015, 15(17): 184-192.
[9] 王瑞軍. 基于元數(shù)據(jù)模型的電子政務(wù)檢索系統(tǒng)的設(shè)計與實現(xiàn)[J]. 軟件, 2014, 35(3): 33-34.Wang ruijun. Design and implementation of e-government retrieval system based on meta-data model [J]. Software,2014, 35(3): 33-34馮汝偉, 謝強, and丁秋林. "基于文本聚類與分布式Lucene的知識檢索. " 計算機應(yīng)用 33. 1(2013):186-188.
[10] 潘志文, 鄧丹君. 基于Lucene 的web 信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[J]. 軟件, 2014, 35(5): 37-39.Pan zhiwen, deng danjun. Design and implementation of web information retrieval system based on Lucene [J]. Software,2014, 35(5): 37-39.
[11] 李向偉, 康毓秀. 基于內(nèi)容的視頻檢索與挖掘關(guān)鍵技術(shù)研究[J]. 軟件, 2014, 35(8): 26-31.Li xiangwei, kang yuxiu. Research on key technology of video search and mining based on content [J]. Software, 2014,35(8): 26-31.
[12] 浦慧忠. 基于Web 挖掘的用戶興趣建模方法的研究[J].軟件, 2014, 35(7): 126-1280.Pu huizhong. Research on modeling methods of user interest based on Web mining [J]. Software, 2014, 35(7): 126-128.
[13] 周樹理, 嚴(yán)建文, 包紅林, 等. 石油勘探開發(fā)領(lǐng)域本體構(gòu)建及應(yīng)用[J]. 計算機系統(tǒng)應(yīng)用, 2015, 24(5): 172-176.Zhou shuli, yan jianwen, bao honglin, et al. Ontology construction and application of petroleum exploration and development [J]. Computer system application, 2015, 24(5):172-176.
[14] 宋聞達. 基于深度檢測的用戶行為分析以及Web推送的設(shè)計與實現(xiàn)[J]. 軟件, 2014, 35(12): 98-102.Song wenda. User behavior analysis based on in-depth detection and design and implementation of Web push [J].Software, 2014, 35(12): 98-102.
[15] 鮮國建. 農(nóng)業(yè)科學(xué)敘詞表向農(nóng)業(yè)本體轉(zhuǎn)化系統(tǒng)的研究與實現(xiàn)[D]. 中國農(nóng)業(yè)科學(xué)院, 2008.Xian Jianguo. The research and realization of ontology transformation system based on agricultural science thesaurus[D], Chinese Academy of Agricultural Sciences, 2008.
Research on Petroleum Geological Knowledge Service System Based on Ontology
YAN Dong
(China Academy of Aerospace Aerodymanics, Beijing, 100074)
In consequence of distributed storage and non-unified processing techniques of the abundant geological data in China, it is difficult to retrieval geological information. Organizing geological resources by knowledge will provide help for geological information management and services. As the development of Artificial Intelligence, the study of Knowledge Services based on Semantic Web technology ontology and semantic search has become a hot topic in information services. In this paper, the knowledge service has been applied to geology. According to the characteristics of geological knowledge, this paper presented the geological knowledge service framework based on ontology. In order to realize the geological knowledge service based on ontology, three key problems need to be resolved: how to build structured and computer-understandable geological knowledge, which is the geological domain ontology; the integration of multiple, heterogeneous geological resources to generate multi-application and multilevel geological knowledge products; the retrieval of geological knowledge. This paper studied the construction method and technology of the geological domain ontology, studied on the model of the petroleum geology knowledge, and edited the petroleum geology ontology using Protégé. On the basis of the geological resources index with ontology, studied the semantic retrieval model based on petroleum geology ontology, and realized the knowledge retrieval system in petroleum geology field based on Lucene.
Knowledge service; Ontology; Petroleum geology; Semantic retrieval
B016
A
10.3969/j.issn.1003-6970.2017.11.020
本文著錄格式:閆東. 基于本體的石油地質(zhì)領(lǐng)域知識服務(wù)系統(tǒng)研究[J]. 軟件,2017,38(11):101-106
閆東(1990-),女,中國航天空氣動力技術(shù)研究院,助理工程師,碩士研究生,研究方向:地址信息系統(tǒng)。