朱光++楊嘉韻++吳先華++豐米寧
〔摘要〕通過(guò)對(duì)本體、形式概念分析等理論研究進(jìn)行分析,提出一種以“文檔——術(shù)語(yǔ)”為核心,形式概念分析為技術(shù)手段的氣象災(zāi)害領(lǐng)域的本體構(gòu)建方法。針對(duì)氣象災(zāi)害領(lǐng)域知識(shí)庫(kù)和主題詞表的缺失,以中英文學(xué)術(shù)論文為數(shù)據(jù)源,對(duì)氣象災(zāi)害領(lǐng)域術(shù)語(yǔ)的層次關(guān)系抽取和分析進(jìn)行了詳細(xì)闡述和論證,具體包括領(lǐng)域術(shù)語(yǔ)的抽取和篩選,文檔術(shù)語(yǔ)矩陣的建立,主題概念格的生成,術(shù)語(yǔ)層次關(guān)系分析;本體OWL描述和可視化展示等過(guò)程,最后利用GATE Developer對(duì)構(gòu)建本體的有效性進(jìn)行了驗(yàn)證。
〔關(guān)鍵詞〕氣象災(zāi)害;形式概念分析;術(shù)語(yǔ);概念格;層次關(guān)系;本體
DOI:10.3969/j.issn.1008-0821.2017.05.014
〔中圖分類(lèi)號(hào)〕G254〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)05-0079-10
Research on Construction of Hierarchy Relationship and
Ontology of Meteorological Disaster Based on FCAZhu GuangYang JiayunWu XianhuaFeng Mining
(School of Economics and Management,Nanjing University of Information
Science and Technology,Nanjing 210044,China)
〔Abstract〕Based on the analysis of ontology and Formal Concept Analysis(FCA),this paper proposed an effective ontology construction method of meteorological disaster,which was with“documents——terms”as a core and with FCA as a technological means.Aiming at the lack of knowledge base and thesaurus,the extraction and analysis of hierarchy relationship was discussed in detail.Firstly,the professional terms were extracted and filtered from academic paper documents.Secondly,the“documents——terms”matrix and concept lattice were built,then the analysis process of hierarchy relationship of domain terms was discussed.At last,the OWL description and visually displaying of ontology was proposed while the usability of constructed ontology was verified through GATE Developer.
〔Key words〕meteorological disaster;Formal Concept Analysis(FCA);terms;concept lattice;hierarchy relationship;ontology
隨著全球氣候變暖,社會(huì)經(jīng)濟(jì)活動(dòng)日益密集,極端天氣事件日益頻發(fā),給我國(guó)乃至全世界造成了巨大的經(jīng)濟(jì)損失。因此,針對(duì)各類(lèi)氣象災(zāi)害(如洪水、臺(tái)風(fēng)、暴雪等),如何在數(shù)據(jù)融合的基礎(chǔ)上,制定有效的應(yīng)急管理措施成為全社會(huì)關(guān)注的重要問(wèn)題。然而,由于我國(guó)幅員遼闊,氣象災(zāi)害涉及的地域、機(jī)構(gòu)和人員十分復(fù)雜,各個(gè)地區(qū)和部門(mén)所采集、存儲(chǔ)和共享的氣象災(zāi)害數(shù)據(jù)在領(lǐng)域術(shù)語(yǔ)、概念規(guī)范、數(shù)據(jù)格式上并不一致,這給氣象災(zāi)害多部門(mén)協(xié)同應(yīng)急決策帶來(lái)了很大的困擾。在大數(shù)據(jù)環(huán)境下,如何利用本體建立一個(gè)規(guī)范的氣象災(zāi)害領(lǐng)域術(shù)語(yǔ)體系,描述和融合各類(lèi)多維、異構(gòu)、不規(guī)范的“氣象災(zāi)害大數(shù)據(jù)” 成為災(zāi)害應(yīng)急管理中的基礎(chǔ)性和緊迫性問(wèn)題。
所謂本體,被引用最廣泛的定義是由Gruber提出的“本體是對(duì)數(shù)據(jù)和概念模型的明確的規(guī)范說(shuō)明”[1]。具體來(lái)說(shuō),本體是用來(lái)描述某個(gè)領(lǐng)域內(nèi)的概念詞表以及概念之間的關(guān)系,使得領(lǐng)域概念具有共同認(rèn)可的、明確的、惟一的定義。在此基礎(chǔ)上,不同地區(qū)、機(jī)構(gòu)、實(shí)體乃至人機(jī)之間可以克服數(shù)據(jù)的異構(gòu)性,更好地進(jìn)行協(xié)同合作[2]。在大數(shù)據(jù)環(huán)境下,本體構(gòu)建是一項(xiàng)極其繁雜的工作,人工手動(dòng)構(gòu)建本體需要耗費(fèi)大量的時(shí)間和財(cái)力,半自動(dòng)和自動(dòng)的本體構(gòu)建方法越來(lái)越受到國(guó)內(nèi)外學(xué)者的關(guān)注和青睞。形式概念分析(Formal Concept Analysis,F(xiàn)CA)作為一種基于Harris假設(shè)和獲取本體概念層次的方法,能夠挖掘領(lǐng)域中隱含的概念以及概念之間的層次關(guān)系,通過(guò)構(gòu)造概念格(Concept Lattice),半自動(dòng)地構(gòu)建本體[3]。
本文在沒(méi)有外部知識(shí)庫(kù)和主題詞表的支持下,以CNKI和Web of Science的學(xué)術(shù)文獻(xiàn)為數(shù)據(jù)來(lái)源,運(yùn)用形式概念分析方法,提出一種以“文檔——術(shù)語(yǔ)”為核心,形式概念分析為技術(shù)手段的氣象災(zāi)害領(lǐng)域本體構(gòu)建方法,在非結(jié)構(gòu)化文本資源分詞和詞頻統(tǒng)計(jì)的基礎(chǔ)上,利用ConExp構(gòu)建概念格,分析主題概念的層次關(guān)系,采用OWL語(yǔ)言對(duì)其進(jìn)行形式化描述,并以此為基礎(chǔ)構(gòu)建目標(biāo)領(lǐng)域本體。
1國(guó)內(nèi)外相關(guān)研究
本體是近年來(lái)國(guó)內(nèi)外學(xué)者普遍關(guān)注的研究熱點(diǎn),作為一種能在語(yǔ)義和知識(shí)層面描述領(lǐng)域術(shù)語(yǔ)的概念建模工具,已被廣泛應(yīng)用于知識(shí)工程、語(yǔ)義檢索、智能挖掘和推理等領(lǐng)域。
目前已有多種本體構(gòu)建方法(如TOVE法、骨架法、METHONTOLOGY法、七步法等[4])和本體構(gòu)建工具(OntoSaurus[5]、WebOnto[6]到Protégé[7]、OntoEdit[8]),運(yùn)用這些方法和工具,用戶(hù)不用了解本體描述語(yǔ)言的細(xì)節(jié),就可以進(jìn)行本體內(nèi)容的組織和數(shù)據(jù)的映射。然而,這些工具提供的僅僅是本體編輯功能,通常需要基于專(zhuān)家的知識(shí)結(jié)構(gòu)手工構(gòu)建本體,耗時(shí)費(fèi)力,可移植性差,也會(huì)造成概念的冗余[9]。概念格是反映對(duì)象與屬性間的聯(lián)系以及泛化與特化關(guān)系的一種完備的概念層次結(jié)構(gòu),通過(guò)形式化分析自動(dòng)生成本體概念層次,并以此作為本體構(gòu)建與生成的基礎(chǔ),可以有效提高本體構(gòu)建效率,避免概念冗余。
目前基于概念格的本體構(gòu)建方法已成功地應(yīng)用于醫(yī)療、信息檢索、知識(shí)發(fā)現(xiàn)等領(lǐng)域,Haav[10]提出一種基于概念格的本體構(gòu)建方法,從短文本中提取形式背景,直接引用形式概念分析中的概念層次構(gòu)建概念格,并通過(guò)概念格篩選和縮減從形式背景計(jì)算得到初始本體;Cimiano等[11]在文獻(xiàn)[10]的基礎(chǔ)上,運(yùn)用自然語(yǔ)言解析構(gòu)建概念格,并由概念格生成領(lǐng)域本體;Nanda等[12]從結(jié)構(gòu)化的產(chǎn)品材料明細(xì)表中提取概念術(shù)語(yǔ)與屬性,并運(yùn)用FCA分析概念層次,最后基于概念層次結(jié)構(gòu)生成概念格并構(gòu)建領(lǐng)域本體;Juan Cigarrán-Recuero等[13]運(yùn)用FCA構(gòu)建概念格,對(duì)數(shù)字資源的語(yǔ)義注釋進(jìn)行有效性評(píng)估;KBalasubramaniam[14]在形式概念分析的基礎(chǔ)上,構(gòu)建一個(gè)基于混合模糊本體(Hybrid Fuzzy-Ontology)的語(yǔ)義檢索模型,可以有效提高檢索的準(zhǔn)確率和召回率;牟冬梅等[15]針對(duì)醫(yī)學(xué)領(lǐng)域的專(zhuān)業(yè)性特點(diǎn),利用形式概念分析描述概念背景,通過(guò)“醫(yī)學(xué)系統(tǒng)命名法——臨床術(shù)語(yǔ)(SNOMED CT)”的概念表、描述表和關(guān)系表對(duì)構(gòu)建概念格進(jìn)行修正,在此基礎(chǔ)上構(gòu)建醫(yī)學(xué)領(lǐng)域本體;畢強(qiáng)等[16]針對(duì)不同領(lǐng)域的異質(zhì)性和語(yǔ)義分歧性,對(duì)異質(zhì)領(lǐng)域本體的概念格進(jìn)行解析,通過(guò)概念相似度計(jì)算建立跨本體的映射,并最終構(gòu)建多本體協(xié)同知識(shí)地圖;王昊等[17]以“白血病”為例,采用FCA理論將主題背景轉(zhuǎn)換為領(lǐng)域概念格,進(jìn)而分析概念屬性的術(shù)語(yǔ)之間的上下位關(guān)聯(lián),最終形成領(lǐng)域術(shù)語(yǔ)本體;滕廣青等[18]通過(guò)概念格的疊置運(yùn)算,獲取基于主題詞表和文本兩大異構(gòu)資源的概念格,在此基礎(chǔ)上構(gòu)建異構(gòu)資源領(lǐng)域本體;陸佳瑩等[19]將概念格理論引入產(chǎn)品本體構(gòu)建過(guò)程,提出的本體構(gòu)建方法能夠?qū)Ξa(chǎn)品和服務(wù)信息進(jìn)行形式化的、通用的知識(shí)表示,從而滿(mǎn)足企業(yè)進(jìn)行信息管理的需求。
但從現(xiàn)有研究來(lái)看,國(guó)內(nèi)外關(guān)于本體理論和技術(shù)在氣象領(lǐng)域的應(yīng)用和研究較少,Joel L C等[20]利用本體描述氣象領(lǐng)域的關(guān)鍵術(shù)語(yǔ),設(shè)計(jì)了一套關(guān)于氣象農(nóng)業(yè)的可視化服務(wù)系統(tǒng);Quillon H[21]提出一個(gè)本體概念集成模型,用來(lái)整合水資源信息;Hoill J[22]等設(shè)計(jì)一個(gè)基于本體驅(qū)動(dòng)的氣象災(zāi)害服務(wù)模型,可以對(duì)氣象災(zāi)害進(jìn)行快速反應(yīng),輔助決策。在國(guó)內(nèi),何險(xiǎn)鋒等[23]提出了一種基于W3C標(biāo)準(zhǔn)的氣象災(zāi)害本體化設(shè)計(jì)方法,以一階謂詞將氣象災(zāi)害表達(dá)為基于氣象要素的邏輯判斷,并應(yīng)用于本體化設(shè)計(jì)中,以此建立起氣象災(zāi)害分類(lèi)樹(shù)、等價(jià)公理、對(duì)象屬性集合和數(shù)據(jù)屬性集合,最終構(gòu)建得到氣象災(zāi)害本體知識(shí)庫(kù);羅煒等[24]在歸納氣象數(shù)據(jù)集特征的基礎(chǔ)上,運(yùn)用面向?qū)ο蟮姆椒▽?duì)氣象數(shù)據(jù)集元數(shù)據(jù)進(jìn)行對(duì)象化,提出了包括元數(shù)據(jù)類(lèi)、數(shù)據(jù)集標(biāo)識(shí)信息類(lèi)等10個(gè)元數(shù)據(jù)類(lèi)和表示元數(shù)據(jù)元素域的代碼表類(lèi)的構(gòu)建方法,并構(gòu)建了元數(shù)據(jù)本體。綜合來(lái)看,目前氣象領(lǐng)域僅有的本體構(gòu)建方法大多依賴(lài)于專(zhuān)家經(jīng)驗(yàn)分析,主觀因素影響較大,數(shù)據(jù)量較大時(shí)構(gòu)建效率低下。
基于此,本文選取概念格理論作為研究的理論基礎(chǔ),以專(zhuān)業(yè)學(xué)術(shù)文獻(xiàn)作為領(lǐng)域術(shù)語(yǔ)來(lái)源,運(yùn)用FCA深入挖掘氣象災(zāi)害領(lǐng)域概念之間的層次關(guān)系,提出氣象災(zāi)害領(lǐng)域本體構(gòu)建的技術(shù)方案,促進(jìn)氣象工作人員對(duì)氣象災(zāi)害進(jìn)行有效的組織和管理,實(shí)現(xiàn)氣象災(zāi)害數(shù)據(jù)的融合共享。
2構(gòu)建流程
本文將FCA理念引入氣象災(zāi)害領(lǐng)域,在沒(méi)有結(jié)構(gòu)化主題詞表的情況下,借助專(zhuān)業(yè)學(xué)術(shù)論文建立中英文氣象災(zāi)害專(zhuān)業(yè)術(shù)語(yǔ)之間的概念層次關(guān)系,并進(jìn)行比較,在此基礎(chǔ)上實(shí)現(xiàn)本體構(gòu)建和可視化展示,構(gòu)建過(guò)程和實(shí)現(xiàn)方法如圖1所示。具體包括以下3個(gè)步驟:
1)數(shù)據(jù)預(yù)處理。首先從學(xué)術(shù)論文文檔中抽取標(biāo)題、摘要、關(guān)鍵詞作為領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的候選集合,然后利用分詞技術(shù)找出領(lǐng)域核心詞匯,并根據(jù)詞匯的出現(xiàn)頻次篩選領(lǐng)域?qū)I(yè)術(shù)語(yǔ)。
2)形式概念分析。將領(lǐng)域?qū)I(yè)術(shù)語(yǔ)看作屬性集,學(xué)術(shù)論文文檔看作對(duì)象集,建立“文檔×術(shù)語(yǔ)矩陣”,用形式概念描述領(lǐng)域背景知識(shí),并利用概念格算法將形式化背景轉(zhuǎn)換成概念格,根據(jù)可視化的概念格模型抽取術(shù)語(yǔ)之間的層次和屬性關(guān)系。
3)本體構(gòu)建。利用OWL標(biāo)準(zhǔn)化語(yǔ)言描述術(shù)語(yǔ)之間的層次和屬性關(guān)系,從而建立氣象災(zāi)害領(lǐng)域本體,并通過(guò)GATE Developer進(jìn)行語(yǔ)義標(biāo)注驗(yàn)證本體的可用性。圖1氣象災(zāi)害領(lǐng)域本體構(gòu)建流程
21數(shù)據(jù)預(yù)處理
本文以“氣象災(zāi)害”為主題詞,在CNKI數(shù)據(jù)庫(kù)中檢索獲取核心期刊論文1 221篇,經(jīng)過(guò)篩選保留1 218篇;以“Meteorological Disaster”為主題詞,在Web of Science數(shù)據(jù)庫(kù)中檢索獲取論文365篇。抽取論文的標(biāo)題、摘要和關(guān)鍵詞作為領(lǐng)域術(shù)語(yǔ)候選集合。
英文領(lǐng)域術(shù)語(yǔ)抽取的傳統(tǒng)做法是對(duì)文檔分詞,去除停用詞和空格后,計(jì)算術(shù)語(yǔ)的TF-IDF值作為術(shù)語(yǔ)在文檔中的權(quán)重,繼而根據(jù)權(quán)重閾值進(jìn)行篩選[25]。而在中文領(lǐng)域術(shù)語(yǔ)抽取過(guò)程中,由于中文領(lǐng)域核心詞匯通常是較長(zhǎng)的短語(yǔ),基于TF-IDF的權(quán)重篩選方法并不適用,因此本文使用中科院ICTCLAS 2016分詞系統(tǒng)對(duì)論文文檔進(jìn)行分詞處理[26],在此基礎(chǔ)上直接對(duì)詞頻進(jìn)行統(tǒng)計(jì)。由于不同作者的寫(xiě)作風(fēng)格、用詞習(xí)慣及學(xué)術(shù)素養(yǎng)等方面存在差異,所以需要在詞頻統(tǒng)計(jì)過(guò)程中進(jìn)行人工干預(yù),保證抽取的領(lǐng)域核心詞匯的一致性和準(zhǔn)確性。篩選后的部分領(lǐng)域術(shù)語(yǔ)如表1所示,對(duì)這些術(shù)語(yǔ)進(jìn)行形式概念分析,并建立概念格。
22形式概念分析
FCA(Formal Concept Analysis)是一種用于數(shù)據(jù)分析、表1部分領(lǐng)域術(shù)語(yǔ)詞頻統(tǒng)計(jì)結(jié)果
術(shù)語(yǔ)(中文)頻次術(shù)語(yǔ)(英文)頻次氣象災(zāi)害2 466Disaster771農(nóng)業(yè)1 483Meteorological545干旱884Drought540氣候773Flood422天氣459Climate362低溫431Precipitation348減災(zāi)377Hazard234預(yù)報(bào)318Rainfall211高溫290Storm170凍害240Weather160暴雨237Forecast160旱災(zāi)215Monitor152洪澇193Warning145旱澇169Wind135冰雹163Agriculture132
知識(shí)管理、本體構(gòu)建等領(lǐng)域的數(shù)學(xué)方法,利用對(duì)象和屬性間的映射關(guān)系來(lái)描述領(lǐng)域的形式化背景,并從中抽取內(nèi)涵和外延的層次關(guān)系,構(gòu)建概念格[27-28]。
基于FCA的術(shù)語(yǔ)層次分析大致分為兩個(gè)步驟:
1)建立形式化背景。形式化背景可以定義為一個(gè)三元組:
F=(O,M,R)(1)
其中,O表示對(duì)象集合,M表示屬性集合,R表示對(duì)象和屬性間的映射關(guān)系。在本文中,形式化背景實(shí)質(zhì)上就是“文檔 術(shù)語(yǔ)”矩陣,可以定義為:
F=(Documents,Terms,I)(2)
其中,Documents表示文檔集合,Terms表示術(shù)語(yǔ)集合,I表示術(shù)語(yǔ)Ti是否在文檔Dj中出現(xiàn)或出現(xiàn)的頻次[29]。以中文術(shù)語(yǔ)為例,部分術(shù)語(yǔ)和文檔之間的關(guān)聯(lián)如表2所示,表中“1”表示文檔和術(shù)語(yǔ)存在關(guān)聯(lián),“0”不存在關(guān)聯(lián)。文檔集合Documents={D1,D2,D3,D4,D5,D6,D7,D8},術(shù)語(yǔ)集合Terms={氣象災(zāi)害,干旱,預(yù)警,氣溫,服務(wù),低溫,監(jiān)測(cè)}。表2氣象災(zāi)害領(lǐng)域的“文檔×術(shù)語(yǔ)”矩陣
DocumentTerm氣象
災(zāi)害干旱預(yù)警天氣服務(wù)低溫監(jiān)測(cè)D11100100D21110100D31000100D41000101D51001010D61111000D71001101D81001110
2)建立概念格。在建立概念格之前首先給出以下定義:
在形式化背景F=(O,M,R)中,存在惟一的偏序集合與之相對(duì)應(yīng)。根據(jù)集合所建立的概念格,每個(gè)節(jié)點(diǎn)稱(chēng)之為概念,定義為C(X,Y),X∈O表示概念C(X,Y)的外延,Y∈M表示C(X,Y)的內(nèi)涵[30]。選取若干領(lǐng)域術(shù)語(yǔ)如表2所示,定義主題概念C1:
C1=({D1,D2,D6},{氣象災(zāi)害,干旱})
C1的外延為{D1,D2,D6},內(nèi)涵為{氣象災(zāi)害,干旱},該主題概念描述的是“氣象災(zāi)害”和“干旱”的相關(guān)內(nèi)容,文檔D1、D2、D6都是關(guān)于此主題的學(xué)術(shù)論文,即術(shù)語(yǔ)集合中的每個(gè)術(shù)語(yǔ)都出現(xiàn)在文檔集合中的每個(gè)文檔中,術(shù)語(yǔ)集合和文檔集合共同組成了一個(gè)主題概念,文檔集合稱(chēng)為該主題概念的外延,術(shù)語(yǔ)集合稱(chēng)為該主題概念的內(nèi)涵。
在此基礎(chǔ)上,運(yùn)用德國(guó)達(dá)姆施塔特科技大學(xué)開(kāi)發(fā)的形式概念分析工具ConExp[31]構(gòu)建概念格。ConExp可以利用概念格的形式表示一個(gè)有限形式背景的結(jié)構(gòu),并用Hasse圖表示。概念格的每一個(gè)節(jié)點(diǎn)相當(dāng)于形式概念,頂端元素的外延是具有這些屬性的對(duì)象的集合,底端元素的內(nèi)涵是這些對(duì)象所具有的屬性的集合。根據(jù)表2的“文檔 術(shù)語(yǔ)”矩陣所建立的概念格如圖2所示。
Hasse圖中圓形結(jié)點(diǎn)表示主題概念,圓形大小表示主題外延的個(gè)數(shù)。在層次結(jié)構(gòu)中,上層為父概念,下層為子概念。最頂層概念的屬性是所有對(duì)象均具有的屬性,因此外延最多;相反最底層概念包含所有屬性,因此外延最少。在表2中,“氣象災(zāi)害”是所有對(duì)象(文檔)均具有的屬性(術(shù)語(yǔ)),出現(xiàn)在所有文檔中,而具有所有屬性(術(shù)語(yǔ))的文檔為空。
每個(gè)主題概念包含兩個(gè)部分,上半部分代表屬性,下半部分代表對(duì)象。在Hasse圖中,若屬性半圓為藍(lán)色,則表示有新增屬性鏈接到該節(jié)點(diǎn)上;若對(duì)象半圓為黑色,則表示有新增對(duì)象鏈接到該節(jié)點(diǎn)上。每個(gè)概念結(jié)點(diǎn)的屬性集合是該節(jié)點(diǎn)上層所有屬性的總和(繼承父概念屬性),對(duì)象集合是該節(jié)點(diǎn)下層所有對(duì)象的總和(覆蓋子概念外延)。例如圖中最左測(cè)“D4,監(jiān)測(cè)”節(jié)點(diǎn),其屬性集合為{氣象災(zāi)害,服務(wù),監(jiān)測(cè)},對(duì)象集合為{D4,D7},組成一個(gè)完整的主題概念:C(X,Y)=({D4,D7},{氣象災(zāi)害,服務(wù),監(jiān)測(cè)})。
建立概念格的目的是描述概念之間的上下層關(guān)系,即分析下層概念如何通過(guò)新增屬性從上層概念衍生出來(lái)。如Hasse圖所示,新增屬性(術(shù)語(yǔ))所在的對(duì)象(文檔)是以其為根節(jié)點(diǎn)的下子樹(shù)的外延(文檔)總和。例如圖2中的“D4,監(jiān)測(cè)”節(jié)點(diǎn),新增“監(jiān)測(cè)”屬性,該屬性出現(xiàn)在文檔D4和D7中。該節(jié)點(diǎn)的父節(jié)點(diǎn)新增了“服務(wù)”屬性,其出現(xiàn)在文檔D4、D7以及文檔D1、D2、D3、D8中。在此情境下,包含術(shù)語(yǔ)“服務(wù)”的文檔集合是包含術(shù)語(yǔ)“監(jiān)測(cè)”文檔集合的超集,因此,“服務(wù)”是“監(jiān)測(cè)”的上位術(shù)語(yǔ)[32]。同理可得圖2中其它術(shù)語(yǔ)的上下層關(guān)系,如表3所示。表3術(shù)語(yǔ)的上下層關(guān)系
上位術(shù)語(yǔ)下位術(shù)語(yǔ)氣象災(zāi)害干旱氣象災(zāi)害氣溫,低溫服務(wù)監(jiān)測(cè)服務(wù)預(yù)警
從圖2和表3可以看出,基于FCA的概念格構(gòu)建可以清晰地反映出術(shù)語(yǔ)之間的上下層關(guān)系,從而為本體描述及可視化展示奠定基礎(chǔ)。
23本體OWL描述及可視化展示
在對(duì)領(lǐng)域術(shù)語(yǔ)進(jìn)行形式概念分析的基礎(chǔ)上,利用W3C組織發(fā)布的OWL(Ontology Web Languages)[33]對(duì)主題概念和概念之間的邏輯關(guān)聯(lián)進(jìn)行語(yǔ)義描述,從而便于計(jì)算機(jī)存儲(chǔ)和處理。
本文將每一個(gè)術(shù)語(yǔ)定義為一個(gè)類(lèi),將術(shù)語(yǔ)之間的上下層關(guān)系定義為類(lèi)間的上下位關(guān)系。OWL中描述類(lèi)上下位關(guān)系的標(biāo)簽是owl Class和rdfs:subclassOfrdf,前者用于定義一個(gè)類(lèi),后者用于定義當(dāng)前類(lèi)的父類(lèi),編碼方式如公式(3)所示[34]:
#parentclass name/> 利用OWL描述術(shù)語(yǔ)({氣象災(zāi)害},{干旱}),({disaster},{flood})的上下層關(guān)聯(lián),如圖3所示。在術(shù)語(yǔ)量較大時(shí),可通過(guò)程序自動(dòng)生成類(lèi)定義及編碼結(jié)構(gòu)。 本文采用Protégé[35]對(duì)OWL文件進(jìn)行讀寫(xiě),并完成OWL文件到可視化圖形的轉(zhuǎn)化,并利用Ontograf[36]插件對(duì)本體概念進(jìn)行篩選、檢索、定位和展示。 圖3術(shù)語(yǔ)上下層關(guān)系的OWL編碼 3結(jié)果分析 根據(jù)上述流程,對(duì)本文的數(shù)據(jù)進(jìn)行處理和分析,獲取“氣象災(zāi)害”領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ),并對(duì)其進(jìn)行形式化分析和本體構(gòu)建。 31數(shù)據(jù)預(yù)處理結(jié)果分析 在1 218篇關(guān)于“氣象災(zāi)害”的中文學(xué)術(shù)論文中,經(jīng)過(guò)詞頻統(tǒng)計(jì)和篩選獲取57個(gè)專(zhuān)業(yè)術(shù)語(yǔ),共存在26 117個(gè)關(guān)聯(lián)。在365篇關(guān)于“Meteorological Disaster”的英文學(xué)術(shù)論文中,經(jīng)過(guò)詞頻統(tǒng)計(jì)和篩選獲取35個(gè)專(zhuān)業(yè)術(shù)語(yǔ),共存在12 034個(gè)關(guān)聯(lián)。以〈文檔,術(shù)語(yǔ),頻次〉三元組形式存儲(chǔ)以上關(guān)聯(lián),將此作為術(shù)語(yǔ)層次關(guān)系分析的依據(jù)。 32FCA結(jié)果分析 將中英文文檔術(shù)語(yǔ)三元組分別轉(zhuǎn)換為“文檔×術(shù)語(yǔ)”矩陣,生成氣象災(zāi)害領(lǐng)域的形式化背景。在中文矩陣FC=(Documents,Terms,I)中,Documents共有1 218個(gè)對(duì)象,Terms中共有57個(gè)對(duì)象,I中有26 117關(guān)聯(lián)。對(duì)其進(jìn)行形式概念分析,生成主題概念6 697個(gè)。在英文矩陣FE=(Documents,Terms,I)中,Documents共有365個(gè)對(duì)象,Terms中共有35個(gè)對(duì)象,I中有12 034個(gè)關(guān)聯(lián)。對(duì)其進(jìn)行形式概念分析,生成主題概念3 149個(gè)。由于主題概念數(shù)量較多,本文從橫向和縱向兩個(gè)維度對(duì)局部術(shù)語(yǔ)間上下層關(guān)聯(lián)進(jìn)行分析。圖4中文術(shù)語(yǔ)的局部層次結(jié)構(gòu)圖 圖4、圖5分別從橫向維度上顯示了文檔中出現(xiàn)頻次最高的前15個(gè)中英文術(shù)語(yǔ)的層次結(jié)構(gòu)圖,在中文術(shù)語(yǔ)層次結(jié)構(gòu)圖中,生成653個(gè)主題概念,圖中僅截取了部分主題概念及其層次關(guān)系。由于文檔中均包含“氣象災(zāi)害”術(shù)語(yǔ),圖5英文術(shù)語(yǔ)的局部層次結(jié)構(gòu)圖 因此該術(shù)語(yǔ)處于Hasse圖的頂端,其下有若干下位術(shù)語(yǔ),主要的上下層關(guān)系包括: ①“氣象災(zāi)害”→“農(nóng)業(yè)”; ②“氣象災(zāi)害”→“冰雹”; ③“氣象災(zāi)害”→“旱澇”; ④“氣象災(zāi)害”→“氣候”; ⑤“氣象災(zāi)害”→“暴雨”→“洪澇”; ⑥“氣象災(zāi)害”→“干旱”→“旱災(zāi)”; ⑦“氣象災(zāi)害”→“天氣”→“高溫”; ⑧“氣象災(zāi)害”→“天氣”→“低溫”; ⑨“氣象災(zāi)害”→“減災(zāi)”→“預(yù)報(bào)”。 同理,在英文術(shù)語(yǔ)層次結(jié)構(gòu)圖中生成683個(gè)主題概念,主要的上下層關(guān)系包括: ①″meteorological disaster″→″storm″; ②″meteorological disaster″→″drought″; ③″meteorological disaster″→″agriculture″; ④″meteorological disaster″→″climate″; ⑤″meteorological disaster″→″hazard″; ⑥″meteorological disaster″→″wind″; ⑦″meteorological disaster″→″precipitation″→″rainfall″; ⑧″meteorological disaster″→″precipitation″→″flood″; ⑨″meteorological disaster″ →″nature″→″weather″; ⑩″meteorological disaster″→″monitor″→″forecast″; ″meteorological disaster″→″monitor″→″warning″。 圖6從縱向維度顯示了“氣象災(zāi)害”的下位術(shù)語(yǔ)“天氣”為根節(jié)點(diǎn)的主題概念格,共生成38個(gè)主題概念,主要的上下位關(guān)系包括: ①“天氣”→“高溫”; ②“天氣”→“監(jiān)測(cè)”→“防治”; ③“天氣”→“低溫”→“冷害”; ④“天氣”→“低溫”→“凍害”; ⑤“天氣”→“低溫”→“寒害”。 同理,可以以“氣象災(zāi)害”的任意一個(gè)下位術(shù)語(yǔ)為根節(jié)點(diǎn),從縱向維度對(duì)其主題概念格進(jìn)行分析。 33術(shù)語(yǔ)層次體系的本體描述及可視化展示 根據(jù)OWL定義的基本語(yǔ)法和標(biāo)簽,對(duì)本文獲取的“氣象災(zāi)害”領(lǐng)域中英文術(shù)語(yǔ)和上下層關(guān)系進(jìn)行OWL編碼,構(gòu)建“氣象災(zāi)害”領(lǐng)域本體,如圖7所示。在此基礎(chǔ)上,利用Protégé軟件讀取OWL文件,并通過(guò)Ontograf插件進(jìn)行類(lèi)檢索和可視化展示。圖8展示了“Disaster”類(lèi)的層次結(jié)構(gòu),左側(cè)以樹(shù)形結(jié)構(gòu)顯示了本體的所有類(lèi)及其層次關(guān)系,可實(shí)現(xiàn)本體概念的順序?yàn)g覽;右側(cè)上方的“Search”選項(xiàng)可以實(shí)現(xiàn)本體類(lèi)的定位與檢索,右側(cè)下方以樹(shù)狀圖方式顯示出了與“Disaster”類(lèi)相關(guān)的主題概念,連線(xiàn)中箭頭指向了子類(lèi)方向。通過(guò)繪圖區(qū)上方的工具欄可對(duì)圖形進(jìn)行調(diào)整,圖9采用spring圖對(duì)“Disaster”類(lèi)的層次結(jié)構(gòu)進(jìn)行了展示。
34本體驗(yàn)證
本文采用英國(guó)Sheffield大學(xué)研發(fā)的GATE(General Architecture for Text Engineering)Developer[37]自然語(yǔ)言處理工具對(duì)構(gòu)建的本體進(jìn)行測(cè)試和驗(yàn)證,通過(guò)加載OWLIM Ontology、Ontology Tools等本體插件,可實(shí)現(xiàn)對(duì)氣象災(zāi)害(Meteorological Disaster)本體OWL文件的瀏覽和測(cè)試,如圖10所示。圖10GATE對(duì)“Meteorological Disaster”本體的瀏覽
利用GATE Developer對(duì)30篇“Meteorological Disaster”主題的網(wǎng)頁(yè)進(jìn)行本體語(yǔ)義標(biāo)注和驗(yàn)證,標(biāo)注信息以可視化的高亮方式顯現(xiàn)在文本資源中,標(biāo)注實(shí)例可以提高信息的查準(zhǔn)率和查全率。以“Hurricane Katrina”的維基百科網(wǎng)頁(yè)為例[38],其本體語(yǔ)義標(biāo)注如圖11所示,從而證明本文構(gòu)建的本體可以在GATE中被識(shí)別,語(yǔ)義標(biāo)注具有有效性和實(shí)用性。
4結(jié)語(yǔ)
本文以FCA為理論基礎(chǔ),以中英文學(xué)術(shù)論文為數(shù)據(jù)來(lái)源,提出一種以“文檔——術(shù)語(yǔ)”為核心的“氣象災(zāi)害”領(lǐng)域本體構(gòu)建方法。在抽取和篩選領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的基礎(chǔ)上,建立“文檔——術(shù)語(yǔ)”形式化背景,進(jìn)而采用FCA理論將形式化背景轉(zhuǎn)換為主題概念格,并分析領(lǐng)域術(shù)語(yǔ)之間的上下層關(guān)系,最后利用OWL對(duì)術(shù)語(yǔ)的上下層關(guān)系進(jìn)行描述,圖11GATE對(duì)網(wǎng)頁(yè)的本體語(yǔ)義標(biāo)注
形成領(lǐng)域本體,為氣象災(zāi)害領(lǐng)域知識(shí)的語(yǔ)義檢索和可視化展示奠定了基礎(chǔ)。本研究得到的結(jié)論有以下幾點(diǎn):
1)在缺乏外部知識(shí)庫(kù)和主題詞表的情景下,可以通過(guò)抽取學(xué)術(shù)論文的專(zhuān)業(yè)術(shù)語(yǔ),并建立概念格來(lái)獲取領(lǐng)域主題概念間的層次關(guān)系;
2)相對(duì)于醫(yī)學(xué)等其它領(lǐng)域,氣象災(zāi)害術(shù)語(yǔ)層次關(guān)系的“縱向”深度較淺,但具有較寬的“橫向”廣度,這是由于氣象災(zāi)害領(lǐng)域的二級(jí)分類(lèi)較多(如暴雨、干旱、臺(tái)風(fēng)等),每類(lèi)主題的研究偏向于某一方面(如災(zāi)害評(píng)估、應(yīng)急預(yù)警、系統(tǒng)建模等),缺乏細(xì)致和深層次的挖掘;
3)通過(guò)比較發(fā)現(xiàn),氣象災(zāi)害領(lǐng)域的英文術(shù)語(yǔ)相對(duì)于中文術(shù)語(yǔ)數(shù)量偏少,但專(zhuān)業(yè)性更強(qiáng),準(zhǔn)確度更高,因此信息的查準(zhǔn)率和查全率更高。
在未來(lái)的研究中,對(duì)下列問(wèn)題可以作進(jìn)一步的研究:
1)減少本體構(gòu)建的冗余。本文構(gòu)建的本體存在一定的交叉性和重復(fù)性,在未來(lái)的工作中需要對(duì)本體的領(lǐng)域和范圍進(jìn)行界定,并通過(guò)本體間的映射完成主題的語(yǔ)義互聯(lián);
2)數(shù)據(jù)來(lái)源多樣化。本文選取學(xué)術(shù)論文作為術(shù)語(yǔ)來(lái)源,在今后的工作中可以將氣象災(zāi)害的網(wǎng)頁(yè)、新聞報(bào)道、統(tǒng)計(jì)數(shù)據(jù)作為術(shù)語(yǔ)的抽取對(duì)象;
3)選取二級(jí)分類(lèi)領(lǐng)域進(jìn)行本體構(gòu)建??梢詫?duì)氣象災(zāi)害的某個(gè)子領(lǐng)域(如暴雨、臺(tái)風(fēng)、洪水等)進(jìn)行術(shù)語(yǔ)層次關(guān)系分析和本體構(gòu)建,從而在縱向?qū)哟紊贤诰蛐g(shù)語(yǔ)層次關(guān)系的深度,進(jìn)一步提升領(lǐng)域本體的實(shí)用性。
參考文獻(xiàn)
[1]Thomas R Gruber.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[2]Deng Z,Tang S,Zhang M,et al.Overview of Ontology[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2002,38(5):730-738.
[3]Gaihua Fu.FCA based ontology development for data integration[J].Information Processing and Management,2016,52(5):765-782.
[4]Farquhar A,F(xiàn)ikes R,Rice J.The Ontolingua server:A tool for collaborative ontology construction[J].Intl Journal of Human-Computer Studies,1997,46(6):707-727.
[5]Toward distributed use of large-scale ontologies[EB/OL].http:∥ksi.cpsc.ucalgary.ca/KAW/KAW96/swartout/Banff96final2.html,2016-08-01.
[6]Duineveld A,Stoter R,Weiden M,et al.Wonder tools?A comparative study of ontological engineering tools[J].Intl Journal of Human-Computer Studies,2000,52(6):1111-1133.
[7]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006,17(9):1837-1847.
[8]Navigli R,Velardi P,Gangemi A.Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.
[9]胡可云,陸玉昌.概念格及其應(yīng)用進(jìn)展[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2000,40(9):77-81.
[10]Haav H M.A Semi-Automatic Method to Ontology Design by Using FCA[C]∥Proceedings of the 2nd International Workshop on Concept Lattices and their Application,2004:13-24.
[11]Cimiano P,Hotho A,Stumme G,et al.Conceptual Knowledge Processing with Formal Concept Analysis and Ontologies[C]∥Proceedings of the 17th International Conference on Industrial and Engineering Application of Artificial Intelligence and Expert System,2004:189-207.
[12]Nanda J,Simpson T W,Kumara S R,et al.A Methodology for Product Family Ontology Development Using Formal Concept Analysis and Web Ontology Language[J].Journal of Computing and Information Science in Engineering,2006,6(2):103-113.
[13]Juan Cigarrán Recuero,Joaquín Gayoso Cabada,Miguel Rodríguez Artacho,et al.Assessing semantic annotation activities with formal concept analysis[J].Expert Systems with Applications,2014,41(11):5495-5508.
[14]Balasubramaniam K.Hybrid Fuzzy-Ontology Design using FCA based Clustering for Information Retrieval in Semantic Web[C]∥Peer-review under responsibility of scientific committee of 2nd International Symposium on Big Data and Cloud Computing,2015:135-142.
[15]牟冬梅,張艷俠,黃麗麗,等.基于SNOMED CT和FCA的醫(yī)學(xué)領(lǐng)域本體構(gòu)建研究[J].情報(bào)學(xué)報(bào),2013,32(6):653-662.
[16]畢強(qiáng),騰廣青.基于概念格的多本體協(xié)同知識(shí)地圖構(gòu)建研究[J].情報(bào)學(xué)報(bào),2012,31(10):1018-1025.
[17]王昊,朱惠,鄧三鴻.基于形式概念分析的學(xué)科術(shù)語(yǔ)層次關(guān)系構(gòu)建研究[J].情報(bào)學(xué)報(bào),2015,34(6):616-627.
[18]滕廣青,畢強(qiáng).基于概念格的異構(gòu)資源領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011,(5):7-12.
[19]陸佳瑩,袁勤儉,黃奇,等.基于概念格理論的產(chǎn)品領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,(5):38-46.
[20]Joel L C,Mara A,Claiton M S.Visual interpretation of events in petroleum exploration:An approach supported by well-founded ontologies[J].Expert Systems with Applications,2015,42(5):2749-2763.
[21]Quillon H.Using a Model MAP to prepare hydro-meteorological models for generic use[J].Environmental Modeling & Software,2015,73(8):260-271.
[22]Hoill J,Kyungyong C.Ontology-driven slope modeling for disaster management service[J].Cluster Computing,2015,18(2):677-692.
[23]何險(xiǎn)峰,張祥鋒,鄭利娟,等.氣象災(zāi)害本體設(shè)計(jì)[J].氣象科技,2012,40(6):1007-1013.
[24]羅煒,胡友彬,孔華武.氣象數(shù)據(jù)集元數(shù)據(jù)的本體推理研究與實(shí)現(xiàn)[J].電腦與信息技術(shù),2012,20(2):4-8.
[25]Qiming Luo,Enhong Chen,Hui Xiong.A semantic term weighting scheme for text categorization[J].Expert Systems with Applications,2011,38(10):12708-12716.
[26]NLPIR漢語(yǔ)分詞系統(tǒng)[EB/OL].http:∥ictclas.nlpir.org/newsDetail?DocId=387,2016-08-04.
[27]Wille R.Restructuring lattice theory:an approach based on hierarchies of concepts[C]∥Proceedings of the NANO Advanced Study Institute,Banff,Canada,1982:445-470.
[28]Xiangping Kang,Duoqian Miao.A study on information granularity in formal concept analysis based on concept-bases[J].Knowledge-Based Systems,2016,105(8):147-159.
[29]Poelmans J,Elzinga P,Viaene S,et al.Text mining scientific papers:a survey on FCA-based information retrieval research[C]∥Proceedings of 12th Industrial Conference,2012:273-287.
[30]Chinho Lin,Ju Chuan Wu,Hua Ling Tsai.A hybrid approach to knowledge flow[J].Industrial Management & Data Systems,2013,113(5):628-646.
[31]Concept Explorer[EB/OL].http:∥sourceforge.net/projects/conexp/,2016-08-05.
[32]Rehman Z,Kifor C V.An Ontology to support semantic management of FMEA knowledge[J].International Journal of Computers Communications & Control,2016,11(4):507-521.
[33]OWL[EB/OL].http:∥www.w3.org/TR/owl-features/,2016-08-08.
[34]Nguyen T H,Grundy J C,Almorsy M.Ontology-based automated support for goal-use case model analysis[J].Software Quality Journal,2016,24(3):635-673.
[35]Protégé[EB/OL].http:∥Protege.stanford.edu,2016-08-08.
[36]Falconer S.Ontograf[EB/OL].http:∥protegewiki.stanford.edu/wiki/Onto-graf,2016-08-08.
[37]GATE Developer[EB/OL].https:∥gate.ac.uk/family/developer.html,2016-08-16.
[38]Hurricane Katrina[EB/OL].https:∥en.wikipedia.org/wiki/HurricaneKatrina,2016-08-16.