李致遠,馮志勇,王 鑫+,李元放,饒國政
1.天津大學 計算機科學與技術(shù)學院,天津 300027
2.天津市認知計算與應(yīng)用重點實驗室,天津 300072
3.澳大利亞莫納什大學 克萊頓信息技術(shù)學院,澳大利亞
基于本體指標的本體版本演變分析方法*
李致遠1,2,馮志勇1,2,王鑫1,2+,李元放3,饒國政1,2
1.天津大學 計算機科學與技術(shù)學院,天津 300027
2.天津市認知計算與應(yīng)用重點實驗室,天津 300072
3.澳大利亞莫納什大學 克萊頓信息技術(shù)學院,澳大利亞
LI Zhiyuan,FENG Zhiyong,WANG Xin,et al.Approach to analyzing ontology versioning evolution based on ontology metrics.Journal of Frontiers of Computer Science and Technology,2016,10(2):151-162.
隨著語義Web的發(fā)展和Web本體語言(Web ontology language,OWL)的普及,在各個領(lǐng)域出現(xiàn)了越來越多大規(guī)模的本體,其中部分本體已歷經(jīng)多個版本的演變,因而需要一種簡單而有效的方法,幫助人們分析和了解不同版本的本體內(nèi)部的變化情況。在已有的本體指標相關(guān)工作的基礎(chǔ)上,提出了Property層上的4個本體指標,并且選擇版本更新比較完整的OpenGALEN和OpenCyc本體作為數(shù)據(jù)集,基于OWL-API設(shè)計了一個實用工具,對多個版本下的本體在Ontology層、Class層和Property層的指標進行了度量。通過分析實驗結(jié)果和指標所代表的意義,總結(jié)出本體指標變化所體現(xiàn)出的本體版本演變的規(guī)律。
本體版本;本體指標;本體分析;本體演變;OWL-API
隨著語義Web和Linked Data[1]運動的發(fā)展,本體[2-3]作為一種能夠描述知識的模型,已經(jīng)成為語義Web及其相關(guān)技術(shù)中的重要組成部分,被廣泛應(yīng)用在人工智能、信息查詢以及生物醫(yī)療等多個領(lǐng)域當中。Web本體語言(Web ontology language,OWL)[4]在語義Web中是描述本體的語言,也是一項W3C所推薦的Web標準,目前許多本體如OpenGALEN[5]和Open-Cyc[6]等都提供了支持Web本體語言標準的文件。
近年來,在不同領(lǐng)域中涌現(xiàn)出大量新的本體,與此同時,許多本體如NCI Thesaurus Ontology和Open-Cyc等的規(guī)模也在不斷地擴大。因為本體數(shù)量和規(guī)模的迅速增長,給維護和分析本體帶來了極大的困難,所以需要定義本體指標量化本體創(chuàng)建、改變和重構(gòu)的難易程度,方便人們維護和分析本體。因此從事本體度量指標的研究者提出了許多相關(guān)指標。文獻[7]通過借鑒評估軟件度量指標的方法,依據(jù)其中部分適用于構(gòu)造本體指標的方法設(shè)計對應(yīng)的本體度量指標,并且綜合了文獻[8-9]提出的部分指標,系統(tǒng)地提出了Ontology層和Class層的本體指標。文獻[10]通過研究機器學習的相關(guān)技術(shù),提出了可以預(yù)測分類時間的本體指標,并對350個本體進行實驗,證明了該指標能夠有效預(yù)測本體的推理效率。文獻[11]運用語義指標作為特征值,建立了一個高精度、廣泛適用性和統(tǒng)計結(jié)果顯著的回歸模型,可以用來預(yù)測本體在不同的6個推理器上的分類性能。但這些指標大多集中在對Ontology層和Class層的度量分析,尚未發(fā)現(xiàn)對Property層的指標進行設(shè)計分析的相關(guān)工作。
同時,隨著OWL的推廣和發(fā)展,許多本體出現(xiàn)了版本的演變,因此也出現(xiàn)了許多關(guān)于本體版本控制和管理的相關(guān)工作。文獻[12]定義了本體在本體管理過程中的4個演變階段,提供方法來表示和鑒定當前本體在它生命周期中發(fā)生的變化。文獻[13]從本體的構(gòu)建與維護角度出發(fā),基于相似度提出了一種本體演變的檢測方法,并且提出一個算法來選擇一個最為合理的本體演變策略,使得其過程代價最小。類似的工作還有文獻[14-15],從結(jié)構(gòu)和語義兩方面討論了NCI Thesaurus Ontology的變化過程。然而這些研究沒有能夠使用一套系統(tǒng)的本體指標來分析版本演變的過程。
本文基于先前研究者的相關(guān)指標,尤其是借鑒文獻[7]對本體度量指標的設(shè)計方法,在其原有的Ontology層和Class層指標之外,類似于Class層的設(shè)計思路構(gòu)建了相應(yīng)的Property層的指標,使得對本體的度量更加豐富和系統(tǒng)。并且選擇規(guī)模較大的Open-GALEN和OpenCyc本體,對它們的多個歷史版本的Ontology層、Class層以及Property層的指標進行度量。通過分析這些指標變化所代表的意義,總結(jié)出一些在這些本體版本演變過程中所表現(xiàn)出的規(guī)律。可以為以后的研究人員提供一個新的思考角度,同時能夠為本體的創(chuàng)建、維護和分析提供一種更為簡單而高效的方法。
本文的主要貢獻如下:
(1)對度量本體復(fù)雜度的指標進行擴充,即增加Property層指標的度量方法;
(2)基于OWL-API[16]編寫一個分析本體指標的實用工具,分別在Ontology層、Class層和Property層對本體進行全面的度量;
(3)運用該工具度量OpenGALEN和OpenCyc這兩個本體的不同歷史版本,通過對比和分析總結(jié)出這些本體指標隨版本演變所表現(xiàn)出的規(guī)律。
本文組織結(jié)構(gòu)如下:第2章給出構(gòu)建指標的圖結(jié)構(gòu)模型,并介紹相關(guān)本體指標的度量方法;第3章提出擴展的Property層指標和本體版本演變的分析方法;第4章設(shè)計實驗獲取本體的不同歷史版本的度量指標結(jié)果,并對這些數(shù)據(jù)進行對比和分析;第5章對全文進行總結(jié)。
首先給出本體轉(zhuǎn)化為圖結(jié)構(gòu)的形式化定義,然后簡單回顧本文實驗分析用到的文獻[7]中總結(jié)的Ontology層指標和Class層指標。
2.1圖結(jié)構(gòu)的轉(zhuǎn)化規(guī)則
本文所用到的指標是建立在一個圖結(jié)構(gòu)上的指標,這樣就可以把本體復(fù)雜度的度量轉(zhuǎn)化為圖結(jié)構(gòu)復(fù)雜度的度量。本文一共用到了4個圖結(jié)構(gòu):有向圖G=<N,P,E>,其中N代表圖中的所有節(jié)點,包括命名的class和individual組成的節(jié)點Nn和匿名的class和individual組成的節(jié)點Na;P代表property,分為用戶自定義的屬性Pn和OWL/RDFS屬性Pa;E代表圖G中的邊,其形式為E?N×P×N。對應(yīng)的類繼承關(guān)系圖是G′=<N′,P′,E′>,N′表示class,P′為sub-ClassOf,E′僅為與subClassOf有關(guān)聯(lián)的邊。后兩個是本文新定義的圖結(jié)構(gòu),property的有向圖GP=<NP,PP,EP>,其中NP表示將property作為這個圖的節(jié)點,PP是連接兩個property之間的OWL/ RDFS屬性,它的邊的表示形式為EP?NP×PP×Np。property的繼承結(jié)構(gòu)圖為GP′=<NP′,PP′,EP′>,NP′表示把property作為節(jié)點,PP′是subPropertyOf屬性,EP′僅為與subPropertyOf有關(guān)聯(lián)的邊。其具體轉(zhuǎn)化規(guī)則見圖1和圖2。
Fig.1 Translation rules from OWL descriptions to graph structure圖1 OWL描述轉(zhuǎn)化為圖結(jié)構(gòu)表示的規(guī)則
在圖1和圖2中,τ為轉(zhuǎn)換函數(shù),A和B為命名class,C和D表示OWL中對class的描述和限制,Q和S表示property,a和b表示individual,_:1表示一個編號為1的匿名class,_:1′表示一個編號為1的匿名property。其中大部分轉(zhuǎn)換規(guī)則引自文獻[8],僅為了完善property相關(guān)圖結(jié)構(gòu),在OWL描述轉(zhuǎn)化規(guī)則中加入了規(guī)則(7),在OWL公理轉(zhuǎn)化規(guī)則中加入了規(guī)則(21)和(22),從而建立了描述兩個property之間關(guān)系的圖結(jié)構(gòu)。需要注意的是該結(jié)構(gòu)主要的目的是為了分析本體的復(fù)雜度,而不涉及語義的等價轉(zhuǎn)換。其正確性分析類似于class層的正確性分析,可參見文獻[7]中的詳細說明。
2.2Ontology層指標
Ontology層共有4個指標來度量本體的復(fù)雜度,即SOV、ENR、TIP和EOG。
SOV是一個通過統(tǒng)計所有的命名實體,來表示本體的規(guī)模大小的指標,該指標的計算方法是SOV=|Nn|+|Pn|,其中Nn為命名classes與individuals的總量,Pn為用戶定義的property的數(shù)量。SOV這個值越大,本體的內(nèi)容越豐富,維護和分析本體的難度越大。
Fig.2 Translation rules from OWL axioms to graph structure圖2 OWL公理轉(zhuǎn)化為圖結(jié)構(gòu)表示的規(guī)則
ENR是圖G=<N,P,E>中所有邊與所有節(jié)點的比值,表示圖的連接密度。該指標的計算方法是。這個值越大,圖G節(jié)點間的邊會越多,本體內(nèi)的關(guān)系的復(fù)雜度會越大。
TIP是圖G′=<N′,P′,E′>與對應(yīng)的樹結(jié)構(gòu)的差異度,該指標的計算方法是。這個值越大,該本體的繼承結(jié)構(gòu)就越不像一棵樹的結(jié)構(gòu),其中的繼承關(guān)系也就越復(fù)雜。
2.3Class層指標
Class層也有4個指標來度量本體的復(fù)雜度,即NOC、DIT、CID和COD。
NOC是圖G′=<N′,P′,E′>中每個class的孩子節(jié)點的數(shù)目,該指標的計算方法為NOCC=#{D|D∈N′∧(D,rdfs:subClassOf,C)∈E′},其中C∈N′。這個值越大,表示改變這個class對子類的影響越大,從而越難改變這個class。
DIT是圖G′=<N′,P′,E′>中每個class到根節(jié)點的路徑長度。該指標用于表示一個class受祖先類影響的程度,該指標值越大,其祖先類就越多,改變這個class的難度也就越大。注意本文定義所有的類均繼承自owl:Thing。
CID是圖G=<N,P,E>中指向給定的class的邊的數(shù)目,該指標的計算公式為CIDC=#{(D,Q,C)∈E|D∈N∧Q∈P},其中C∈N。該指標表示依賴于這個class的節(jié)點數(shù),這個值越大,越多節(jié)點依賴于這個class,改變它所帶來的影響越大。
COD是圖G=<N,P,E>中指定的class到其他節(jié)點的邊的數(shù)目,其對應(yīng)的計算公式為CODC= #{(C,Q,D)∈E|D∈N∧Q∈P},其中C∈N。該指標用于表示這個class依賴于其他class的程度,這個值越大,表示這個class依賴于越多的節(jié)點,該class就更容易受其他類改變的影響。
首先介紹擴充的Property層指標的度量方法,而后提出本體演變的規(guī)律和分析方法。
3.1Property層指標
因為Property層與Class層有類似的繼承關(guān)系,并且property之間也存在著一些非繼承的關(guān)系,故而可以依據(jù)Class層構(gòu)造指標的方法來構(gòu)造Property層上的指標。本節(jié)類似于Class層指標的建立方法,提出了4個Property層的指標,即NOPC、DIPT、PID和POD。為了便于理解本文所建立的指標,圖3構(gòu)造了一個簡單的描述家族成員關(guān)系的Property層規(guī)則,圖4是根據(jù)這個規(guī)則構(gòu)造的圖。
Fig.3 OWLaxioms of family relationship on Property-level圖3 家族成員關(guān)系的Property層規(guī)則
Fig.4 Graph of family relationship on Property-level圖4 家族成員關(guān)系的Property層圖結(jié)構(gòu)
DIPT是圖GP′=<NP′,PP′,EP′>中每個property到根節(jié)點的路徑長度。該指標表示一個property受祖先屬性影響的程度,該值越大,這個property的祖先屬性就越多,改變它的難度也就越大。需要注意的是這里同樣規(guī)定所有的屬性繼承自owl:Thing。例如,在圖4中hasKinsfolk和hasMother的DIPT值分別為1和3。
PID是圖GP=<NP,PP,EP>中指向給定的property的邊的數(shù)目,描述為 PIDQ=#{(S,R,Q)∈EP|S∈NP∧R∈PP},其中Q∈NP,R∈NP。該指標表示依賴于這個property的屬性數(shù),這個值越大,越多屬性依賴于這個property,其改變所帶來的影響就越大。例如,在圖4中hasSibling和hasMaleSibling的PID值分別為4和0。
POD是圖GP=<NP,PP,EP>中指定的property到其他property的邊的數(shù)目,該指標的計算方法是PODQ=#{(Q,R,S)∈EP|S∈NP∧R∈PP},其中Q∈NP,R∈PP。該指標用于表示這個property依賴于其他property的程度,這個值越大,指定的property就依賴于越多的屬性,就越容易受其他property改變的影響。例如,在圖4中hasBrother和hasMaleSibling的POD值分別為2和1。
3.2本體版本演變規(guī)律與分析算法
本體隨著版本的變化有一些規(guī)律性的變化趨勢存在,因此本文將一些比較顯著的演變規(guī)律進行如下總結(jié),然后設(shè)計算法來驗證規(guī)律的正確性。
規(guī)律1(不同本體間的規(guī)模差異判定)這里將本體i記作Oi,Oi在第k個版本的本體表示為,將本體所涉及的領(lǐng)域記作Domain(Oi),將本體Oi的指標 j記作Metricj(Oi),并且這個本體的規(guī)模記作Scale(Oi)。在任意時刻的本體版本演變中,假如,且Domain(O1)? Domain(O2)成立,那么任意時刻各自本體最新版本的,其中l(wèi)atest表示距指定時間節(jié)點最近的版本號。
規(guī)律2(本體指標在各層次的變化幅度)這里將Oi在Ontology層、Class層和Property層的對應(yīng)指標集合分別記作[Oi]O_l、[Oi]C_l、[Oi]P_l,Ontology層的所有指標的平均變化量 VO_l的計算方法為,其中。同理可以獲得Class層和Property層的平均變化量VC_l和VP_l。Ontology層指標平均變化幅度要大于Class層,且Class層指標平均變化幅度要大于Property層,即VO_l>VC_l>VP_l。
規(guī)律3(本體指標的發(fā)展趨勢)本體的演變趨勢是由快速發(fā)展到趨于穩(wěn)定的過程,可表示為,其中的版本分界值l<m<n,應(yīng)根據(jù)版本數(shù)量盡可能取更多的版本數(shù)量的指標進行平均求值。
為了分析和驗證本體版本演變的規(guī)律,本文總結(jié)出一個通用的分析算法,該算法以偽代碼的形式表示如下。
算法1本體版本演變的算法
算法1用于分析獲取本體版本演變的規(guī)律。輸入為具有多個版本的不同本體,輸出為對應(yīng)的指標分析結(jié)果。在初始化過程中,需要預(yù)先選擇(Select())或設(shè)計(Design())一些不同層次的本體指標,本文對應(yīng)的是上述的12種指標。在第1~13行是選取每一種本體,第2~12行是選取對應(yīng)本體的不同版本的文件,第3~5行計算每個Ontology層的指標,第6~8行計算每個Class層的指標,第9~11行用于計算每個Property層的指標。最后將獲取的指標分析得出結(jié)果,這里Law1()、Law2()和Law3()函數(shù)分別對應(yīng)于上文提出的規(guī)律1~規(guī)律3的算法,如果指標計算結(jié)果與規(guī)律的形式化表示一致,則返回正確,否則返回錯誤。第17行省略的是本文尚未總結(jié)的本體版本演變的規(guī)律。
本文基于OWL-API設(shè)計了一個可以對本體進行度量的工具,能夠針對文中提到的12個指標統(tǒng)計結(jié)果并輸出,并且選取當前版本更新較為完整的Open-GALEN(http://www.opengalen.org/sources/sources. html)和OpenCyc(http://www.cyc.com/platform/opencyc/ downloads)本體作為數(shù)據(jù)集,與這些本體的歷史版本的指標進行對比,最后從指標角度探討了本體版本演變過程中所體現(xiàn)的規(guī)律。
4.1本體數(shù)據(jù)集
本文所使用的數(shù)據(jù)集信息參見表1。
Table 1 Characteristics of experimental datasets表1 實驗數(shù)據(jù)集
OpenGALEN是一個開放型醫(yī)學術(shù)語本體,它共有8個版本的變化,本次實驗所采用的版本是Open-GALEN2到OpenGALEN8,共計7個版本,Open-GALEN1由于沒有OWL格式的本體而未被選用。在OpenGALEN8中,由于版本內(nèi)容變化較大,本文選取了以前版本的直接繼承的部分OpenGALEN8_ CRM來進行比較分析。
OpenCyc是一個綜合型的本體,本次實驗所采用的版本是opencyc-2008-06-10到opencyc-2012-05-10,共4個版本。
4.2Ontology層結(jié)果分析
表2表示的是對于Ontology層指標的度量結(jié)果,D1到D7是OpenGALEN本體的版本,D8到D11是OpenCyc本體的版本。圖5為這兩個本體的Ontology層指標隨版本變化的趨勢圖。
Table 2 Measurement values of Ontology-level metrics表2 Ontology層指標的度量
SOV指標的變化趨勢如圖5(a)、(e),它的值在兩個本體上隨版本的變化都是不斷增長的。Open-GALEN和OpenCyc平均每個版本的增長率分別為0.05和0.11,因此OpenCyc的SOV的平均增長速度要更快,而且該值在OpenGALEN中的增長速度在D4后已經(jīng)明顯放緩。
Fig.5 Evolution of Ontology-level metrics on different rersions datasets圖5 不同版本的數(shù)據(jù)集上Ontology層指標變化情況
SOV指標解釋 說明這兩個本體版本更新都會帶來實體規(guī)模的擴充。OpenCyc增長速度更快說明綜合領(lǐng)域本體的實體擴充數(shù)量要大于醫(yī)學領(lǐng)域。而且可以看出OpenGALEN本體在D4之后已經(jīng)穩(wěn)定和完善,因此SOV的增加明顯變緩,而OpenCyc正處于高速發(fā)展階段,因此其SOV增長一直保持較快的速度。
TIP指標的變化趨勢如圖5的(b)、(f),該指標與SOV的變化趨勢相似,TIP在兩個本體中平均每個版本的增長率分別為0.06和0.42。TIP在OpenGALEN本體的D4版本之后增長明顯變緩。
TIP指標解釋 說明隨著版本變化兩個本體的繼承關(guān)系在不斷擴充,且變得更為復(fù)雜。與OpenGALEN本體相比,OpenCyc本體的版本更新會對已有繼承關(guān)系做更多的擴充工作。而且當本體比較成熟后它的繼承結(jié)構(gòu)所需完善的內(nèi)容會很少。
ENR指標的變化趨勢如圖5的(c)、(g),它在兩個本體中表現(xiàn)出了不同的變化特點。在OpenGALEN本體中,ENR值隨版本的變化大體上保持在2.04左右,但在OpenCyc本體中,它的ENR值卻在不斷地增加。
ENR指標解釋 說明OpenGALEN本體中平均每個class出現(xiàn)在不同axiom中的個數(shù)沒有太大變化,即這個本體版本變化過程中擴充的axiom很少。但在OpenCyc本體版本演變過程中,該本體每個版本都會對axiom進行擴充。
EOG指標的變化趨勢如圖5的(d)、(h),該指標在OpenGALEN本體中度的分布情況在最近版本中沒有變化,而OpenCyc本體隨版本變化度的分布發(fā)生了變化。
EOG指標解釋 說明OpenGALEN本體在版本變化過程中不僅擴充的axiom少,而且對已有的axiom的調(diào)整也少。而OpenCyc本體在版本變化過程中EOG的變化趨勢和ENR基本類似,因此它的axiom的關(guān)系會隨版本的變化而進行調(diào)整。
4.3Class層結(jié)果分析
表3表示的是Class層的指標分布情況。首先將所有命名class按照度量值升序排列。其中Med表示中位數(shù),Q3表示位于排序3/4處的class所含有的指標值,Max表示最大值。D1到D7是OpenGALEN本體對應(yīng)的版本,D8到D11是OpenCyc本體對應(yīng)的版本。由于class眾多,本文將所有class的相應(yīng)指標求平均值,然后用圖6記錄了該層指標平均值的變化情況。
NOC在表3中相比于OpenGALEN本體,Open-Cyc本體含有孩子節(jié)點的class的比例要更大些。而在圖6(a)中,OpenGALEN本體的NOC平均值只在從D2更新到D3時發(fā)生了變化。而在圖6(e)中,OpenCyc本體每個版本都在發(fā)生變化。
NOC指標解釋 該值的分布表明這兩個本體中大部分class沒有孩子節(jié)點。平均值的變化趨勢說明在醫(yī)學領(lǐng)域本體中的相關(guān)概念的子類數(shù)量擴充較少,而綜合領(lǐng)域本體的相關(guān)概念的子類數(shù)量的變化較多。
Table 3 Measurement values of Class-level metrics表3 Class層指標的度量
Fig.6 Evolution of Class-level metrics on different versions datasets圖6 不同版本的數(shù)據(jù)集上Class層指標變化情況
DIT在兩個本體中的Med值都大于0。在圖6(b)、(f)中,這兩個本體的DIT平均值在不斷變化,而且沒有表現(xiàn)出變化的規(guī)律。
DIT指標解釋 該值的分布表明這兩個本體中大部分class都含有父類。DIT平均值的變化趨勢表明,這兩個本體的class的深度在不斷地發(fā)生變化,即本體版本的更新都會調(diào)整繼承關(guān)系的結(jié)構(gòu)。
CID在OpenGALEN本體中Med大于0,而Open-Cyc本體小于0。在圖6(c)、(g)中,這兩個本體的變化趨勢都是前幾次更新CID的均值在不斷地增加,但增長速率逐漸變緩,之后的幾個版本出現(xiàn)了較小幅度的減少。
CID指標解釋 該值的分布表明在OpenGALEN本體中,大部分的class擁有入度,而OpenCyc本體中大部分class沒有入度。而圖中的變化趨勢表明在版本更新過程中,class對其他class的影響力共經(jīng)歷了增加、穩(wěn)定到減少3個過程的變化,反映了本體版本演變的過程就是對class之間的結(jié)構(gòu)逐步完善、趨于穩(wěn)定、最后精煉的過程。
COD在兩個本體中Med值都大于0,并且該值在這兩個本體中的分布情況基本保持了穩(wěn)定。在圖6(d)中,該本體指標的平均值除了在D4版本時發(fā)生了很小的變化之外,基本保持了穩(wěn)定。而在圖6(h)中,該本體指標的平均值在不斷地增加,但增加的速率不斷地變緩。
COD指標解釋 該值的分布表明在兩個本體中大部分的class都會受到其他class改動的影響。隨著本體版本的變化,OpenGALEN本體中的class所受其他class影響的程度的變化情況并不明顯,說明該本體的class關(guān)系已經(jīng)較為完善。而在OpenCyc本體中,在前幾個版本更新時,新版本中的class更加易受其他類的影響,之后版本的演變過程中,對class所受影響程度的改變越來越小。這個過程說明OpenCyc本體的class的關(guān)系經(jīng)歷了從高速發(fā)展到相對穩(wěn)定的過程。
4.4Property層結(jié)果分析
表4表示的是對于Property層指標的統(tǒng)計結(jié)果的分布情況,統(tǒng)計的同樣是Med、Q3和Max,D1到D7是OpenGALEN本體的相應(yīng)版本,D8到D11是Open-Cyc本體的相應(yīng)版本。圖7表示的是該層指標的平均值的變化情況。
Table 4 Measurement values of Property-level metrics表4 Property層指標的度量
Property層的指標值比Class層的值明顯偏小,原因是本體中property的數(shù)量要遠少于class的數(shù)量。在表4中除了OpenGALEN的DIPT外,其他的分布都是極度扭曲的,大部分的值都集中在了Max值附近,因而只有少數(shù)property擁有孩子節(jié)點、入度和出度。而在圖7中,只有OpenGALEN的NOPC一直保持了穩(wěn)定,其余的折線圖都只在第一個版本發(fā)生了很小的減少,而后便保持了穩(wěn)定。圖中PID與POD值相同是因為圖的平均入度等于平均出度。Open-Cyc本體中的PID與NOPC值基本相同是因為該圖結(jié)構(gòu)中的絕大多數(shù)邊都是與subProperty相關(guān)的邊。
Property指標解釋 說明在版本更新過程中,屬性之間的關(guān)系在創(chuàng)建時就已經(jīng)比較完善,只需在后續(xù)版本做少量修正和擴充。而在之后的版本更新過程中,property節(jié)點與其他節(jié)點的依賴關(guān)系基本保持穩(wěn)定。
Fig.7 Evolution of Property-level metrics on different versions datasets圖7 不同版本的數(shù)據(jù)集上Property層指標變化情況
4.5實驗總結(jié)
將不同本體中與本體規(guī)模相關(guān)的指標進行比較,例如SOV和TIP,可知在任何一個版本中,這些指標在OpenGALEN本體中的值都要小于在OpenCyc本體中的值,因此OpenGALEN作為醫(yī)學本體,隨版本演變其內(nèi)部的改動幅度和規(guī)模要小于OpenCyc這個綜合性本體,說明本體的領(lǐng)域背景之間的關(guān)系可以反映到本體的規(guī)模大小上,驗證了規(guī)律1的正確性。
通過研究本體的3個層次指標隨版本演變所產(chǎn)生的變化情況,可以求出OpenGALEN本體中的VO_l、VC_l和VP_l分別為0.19、0.04、0.02,而在OpenCyc本體中這些值對應(yīng)為0.93、0.34、0.32,由此可驗證在Ontology層上的指標變化最為明顯,Class層的指標也有變化,但這些變化大多集中在其指標值較大的class上,而Property層指標值變化很小。這說明在版本的演變過程中,整個本體的結(jié)構(gòu)變化是較明顯的,部分重要的class的改動和擴充也較為顯著,而property的結(jié)構(gòu)較為穩(wěn)定,從而驗證了規(guī)律2的正確性。
從兩個本體指標的值隨本體演變的折線圖可以反映規(guī)律3中給出的公式,即在Ontology層和Class層的指標隨版本演化是不斷增長且增速變緩的,Property層的變化相對較小,故驗證了規(guī)律3的正確性。而且,OpenGALEN本體在最近的版本演變中指標變化幾乎為0,而OpenCyc本體的指標卻依然在不斷增加,說明OpenGALEN本體已經(jīng)處于一個發(fā)展較為成熟的階段,而OpenCyc本體正處于一個高速發(fā)展的時期。
結(jié)合4.4節(jié)指標解釋的分析,表明本文提出的Property層指標可以豐富文獻[7]中的指標系統(tǒng),有利于發(fā)現(xiàn)更多property結(jié)構(gòu)變化的規(guī)律。本文將本體版本控制和本體指標的研究方法相結(jié)合,分析本體指標在不同版本下的實驗結(jié)果,驗證了3.2節(jié)中提出的規(guī)律的正確性,因此驗證了基于本體指標分析版本演變的方法的有效性,為本體的分析提供了一個新的方法。
本文首先進一步擴充了度量本體指標的工作,即添加了Property層的4個指標;而后結(jié)合已有的度量指標,設(shè)計工具度量了多個版本的OpenGALEN和OpenCyc本體;最后通過對不同本體多個版本的相應(yīng)指標的分析和比較,總結(jié)出OpenGALEN和OpenCyc本體在版本演變過程中所表現(xiàn)出的規(guī)律。實驗結(jié)果的分析過程能夠跟蹤本體內(nèi)部的演變情況,可以為維護和分析本體的人員提供必要的幫助。
目前本體規(guī)模大,種類多,指標和測量的本體規(guī)模還需要進一步擴充,因此計劃提出Individual層的度量指標,并且度量更多的擁有版本演變的本體,如NCI Thesaurus本體和Gene本體等。希望能夠通過大量本體不同版本的指標的對比分析,總結(jié)出更多的本體版本演變規(guī)律。
References:
[1]Bizer C,Heath T,Berners-Lee T.Linked data—the story so far[J].International Journal on Semantic Web&Information Systems,2009,5(3):1-22.
[2]Gruber T R.Toward principles for the design of ontologies used for knowledge sharing?[J].International Journal of Human-Computer Studies,1995,43(5):907-928.
[3]Li Shanping,Yin Qiwei,Hu Yujie,et al.Overview of researches on ontology[J].Journal of Computer Research and Development,2004,41(7):1041-1052.
[4]Horrocks I,Patel-Schneider P F,Harmelen F V.From SHIQ and RDF to OWL:the making of a Web ontology language[J]. Web Semantics Science Services&Agents on the World Wide Web,2003,1(1):7-26.
[5]Rector A L,Rogers J E,Zanstra P E,et al.OpenGALEN: open source medical terminology and tools[C]//AMIA Annual Symposium Proceedings,Washington,USA,Nov 8-12,2003:982-982.
[6]Matuszek C,Cabral J,Witbrock M J,et al.An introduction to the syntax and content of Cyc[C]//Proceedings of the 2006 AAAI Spring Symposium on Formalizing and Compiling Background Knowledge and Its Applications to Knowledge Representation and Question Answering,Stanford,USA,Mar 27-29,2006.Palo Alto,USA:AAAI,2006: 44-49.
[7]Zhang Hongyu,Li Yuanfang,Tan H B K.Measuring design complexity of semantic Web ontologies[J].Journal of Systems&Software,2010,83(5):803-814.
[8]Kang Dazhou,Xu Baowen,Lu Jianjiang,et al.A complexity measure for ontology based on UML[C]//Proceedings of the 10th IEEE International Workshop on Future Trends of Distributed Computing Systems,Suzhou,China,May 26-28,2004.Piscataway,USA:IEEE,2004:222-228.
[9]Yao H,Orme A M,Etzkorn L.Cohesion metrics for ontology design and application[J].Journal of Computer Science, 2005,1(1):107-113.
[10]Kang Yongbin,Li Yuanfang,Krishnaswamy S.Predicting reasoning performance using ontology metrics[C]//LNCS 7649:Proceedings of the 11th International Semantic Web Conference,Boston,USA,Nov 11-15,2012.Berlin,Heidelberg:Springer,2012:198-214.
[11]Kang Yongbin,Pan J Z,Krishnaswamy S,et al.How long will it take?Accurate prediction of ontology reasoning performance[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence,Québec City,Canada,Jul 27-31,2014. El Segundo,USA:AIAccess Foundation,2014:80-86.
[12]Javed M,Abgaz Y M,Pahl C.Ontology change management and identification of change patterns[J].Journal on Data Semantics,2013,2(2/3):119-143.
[13]Li Gaofan,Wang Peng,Yu Bin.Ontology evolution detection:method and results[M]//The Semantic Web and Web Science.Berlin,Heidelberg:Springer,2014:134-145.
[14]Goncalves R S,Parsia B,Sattler U.Analysing the evolution of the NCI thesaurus[C]//Proceedings of the 2011 24th International Symposium on Computer-Based Medical Systems,Bristol,UK,Jun 27-30,2011.Piscataway,USA:IEEE, 2011:1-6.
[15]Gon?alves R S,Parsia B,Sattler U.Analysing multiple versions of an ontology:a study of the NCI thesaurus[C]//Proceedings of the 24th International Workshop on Description Logics,Barcelona,Spain,Jul 13-16,2011.Tilburg,Netherlands:Sun SITE Central Europe CEUR-WS,2011:147-157. [16]Horridge M,Bechhofer S.The OWL API:a Java API for OWL ontologies[J].Semantic Web,2011,2(1):11-21.
附中文參考文獻:
[3]李善平,尹奇韡,胡玉杰,等.本體論研究綜述[J].計算機研究與發(fā)展,2004,41(7):1041-1052.
LI Zhiyuan was born in 1990.He is an M.S.candidate at Tianjin University,and the student member of CCF.His research interests include ontology analysis and ontology measurement.
李致遠(1990—),男,天津大學碩士研究生,CCF學生會員,主要研究領(lǐng)域為本體分析,本體評估。
馮志勇(1965—),男,1996年于天津大學獲得博士學位,現(xiàn)為天津大學教授、博士生導(dǎo)師,CCF高級會員,主要研究領(lǐng)域為知識工程,服務(wù)計算。
王鑫(1981—),男,2009年于南開大學獲得博士學位,現(xiàn)為天津大學副教授,CCF高級會員,主要研究領(lǐng)域為圖數(shù)據(jù)庫,語義Web,大規(guī)模知識處理。
李元放(1977—),男,2006年于新加坡國立大學獲得博士學位,現(xiàn)為澳大利亞莫納什大學講師,主要研究領(lǐng)域為語義Web,本體推理,本體度量。
饒國政(1977—),男,2009年于天津大學獲得博士學位,現(xiàn)為天津大學副教授,CCF會員,主要研究領(lǐng)域為知識工程,軟件工程。
Approach toAnalyzing Ontology Versioning Evolution Based on Ontology Metrics*
LI Zhiyuan1,2,FENG Zhiyong1,2,WANG Xin1,2+,LI Yuanfang3,RAO Guozheng1,2
1.School of Computer Science and Technology,Tianjin University,Tianjin 300027,China
2.Tianjin Key Laboratory of Cognitive Computing andApplication,Tianjin 300072,China
3.Clayton School of Information Technology,Monash University,Australia
+Corresponding author:E-mail:wangx@tju.edu.cn
With the development of semantic Web and the popularity of OWL(Web ontology language),more and more large-scale ontologies are being developed in various fields,some of them have evolved through a number of versions.There is an increasing need for finding a simple and effective way to analyze their evolution.Inspired by some related works about analyzing and designing ontology metrics,this paper presents four ontology metrics on OWL Property-level and selects large ontologies OpenGALEN and OpenCyc that have different versions as the datasets,then designs a tool based on OWL-API to calculate ontology metrics at Ontology-level,Class-level and Propertylevel.In the end,this paper analyzes the experimental results and the meaning of ontology metrics,and points out some features of ontology metrics in different ontology versions.
ontology versioning;ontology metrics;ontology analysis;ontology evolution;OWL-API
2015-06,Accepted 2015-08.
FENG Zhiyong was born in 1965.He the Ph.D.degree from Tianjin University in 1996.Now he is a professor and Ph.D.supervisor at Tianjin University,and the senior member of CCF.His research interests include knowledge engineering and service computing.
WANG Xin was born in 1981.He the Ph.D.degree from Nankai University in 2009.Now he is an associate professor at Tianjin University,and the senior member of CCF.His research interests include graph databases, semantic Web and large-scale knowledge processing.
LI Yuanfang was born in 1977.He the Ph.D.degree from National University of Singapore in 2006.Now he is a lecturer at Monash University,Australia.His research interests include semantic Web,ontology reasoning and ontology measurement.
RAO Guozheng was born in 1977.He the Ph.D.degree from Tianjin University in 2009.Now he is an associate professor at Tianjin University,and the member of CCF.His research interests include knowledge engineering and software engineering.
10.3778/j.issn.1673-9418.1506044
*The National Natural Science Foundation of China under Grant No.61100049(國家自然科學基金);the National High Technology Research and Development Program of China under Grant No.2013AA013204(國家高技術(shù)研究發(fā)展計劃(863計劃)).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-08-28,http://www.cnki.net/kcms/detail/11.5602.TP.20150828.1513.006.html
A
TP311