●顧鐵軍,李 毅
(1.東華大學傳播系,上海201620;2.公安部第三研究所檢測中心,上海200031)
面向復雜規(guī)范文本的基礎評價本體構建及本體關系完善研究
●顧鐵軍1,李 毅2
(1.東華大學傳播系,上海201620;2.公安部第三研究所檢測中心,上海200031)
規(guī)范;評價本體;本體關系;雙向挖掘
為實現面向復雜規(guī)范文本的評價任務的有效知識表示和管理,從規(guī)范文本的特征分析出發(fā),首先建立起基礎評價本體架構,接著以評估數據為知識資源,提出基于雙向關聯挖掘和賦權計算的非分類本體關系的發(fā)現方法。最終,結合具體規(guī)范建立起相關的基礎評價本體,并實施了本體關系挖掘實驗,結果表明在有意義關系擴展方面具有較好的改善。
面向復雜規(guī)范文本的評價通常是指建立在標準、規(guī)范,乃至法律法規(guī)等復雜文本基礎上,由專業(yè)的評估機構遵循特定的評估方法,開展包含一定約束力和強制性的評估實踐。隨著全球化、標準化進程的推進,這種評價形式已成為產品質量監(jiān)督、服務提供保證、商業(yè)流程管理、公共政策執(zhí)行等活動中必不可少的方法和手段。然而,這類評價體系的應用常常存在以下問題:(1)規(guī)范文本的復雜性表現為多維度、多層次、多指標的評價體系結構,包含評價任務、對象及其環(huán)境的諸多術語和概念,且這些概念之間可能存在錯綜聯系的知識關系,純粹人工進行知識梳理有一定難度,對專業(yè)水平要求較高;(2)規(guī)范文本使用自然語言描述,形式呈現半結構化或非結構化,為對其進行嚴謹科學的知識表示增大了難度,導致評估過程易受測評人員的主觀經驗判斷所影響;(3)評估所涉及的不同參與者,如評估體系制定者和評估實施者雖然都依托公開的規(guī)范,但理解的程度和層次不同,缺乏統(tǒng)一的評價知識表示參照基礎,容易出現歧義和爭議;(4)符合性檢驗為其主要的評價方法,建立在基本的滿足符合與否的判斷層次上,這種評價結果對評價決策指導的作用有限,大量原始的測評數據沒有得以有效地利用,實際可能湮沒了有價值的知識聯系和規(guī)則。
對此,需要一種創(chuàng)新的方法將復雜規(guī)范文本評價體系所蘊含的知識結構化地描述出來,結合信息處理技術使其更好地支持評價過程,以充分利用該評價體系所蘊涵的內在知識特征,彌補其在表示和理解上的不一致所帶來的不利影響。原先作為哲學概念的本體在知識表示方面展現出了蓬勃的生命力和契合度,它能夠有效地描述評價概念以及概念之間的關系。本文提出一種較為通用的評價本體知識體系的理論框架,首先,構建面向復雜規(guī)范文本的基礎評價體系本體,包括概念、概念間的分類關系以及一般規(guī)范語言的表示;進而,利用評估數據挖掘出潛在的非分類關系,實現對基礎本體的補充和完善。
面向復雜規(guī)范文本的評價與語義和本體的結合主要針對特定領域或特定規(guī)范,通用性研究不多。例如,Zhong B T等[1]就工程建設、建筑質量管理的本體語義建模做出了一系列的探究。Nash E等[2]討論了基于標準的自我評估自動化的可行性,研究了農業(yè)產品標準如元數據、本體術語集和本體化規(guī)則的形式化表示,以及基于德國肥料使用規(guī)范的相關應用。Gábor A等[3]以高等教育的質量保證過程為案例,提出了過程本體、參考本體以及基于本體匹配的評價方法。Gong P[4]聚焦銀行領域的應用,提出語義標注過程模型,以形式化邏輯形成一套集成商業(yè)控制流和數據流的規(guī)范評價理論。Ekelhart A等[5]構建了一種支持信息技術安全評估的通用準則的本體工具,能夠給出通用準則的本體表示,并支持技術認證過程的評價。
復雜規(guī)范文本的評價體系蘊藏了大量的非分類關系,而非分類關系的發(fā)現是目前本體學習中的重要和較新的研究問題。主要的研究方法包括針對領域文本、語料庫的語言學分析和數據挖掘方法,或是兩者的結合。例如,Wong M K等[6]提出了從非結構化文本中抽取非分類關系的多階段關系搜索框架,包括跨多個句子抽取概念等若干創(chuàng)新性工作。Villaverde J等[7]通過從領域文檔中抽取鏈接特定概念對的、且被頻繁使用的動詞的方法來發(fā)現和標注非分類關系。劉萍[8]等結合形式概念分析(FCA)和關聯規(guī)則挖掘,識別領域核心概念、概念間的等級關系和相關關系。谷俊等[9]利用基于上下文的術語相似度計算獲得術語間的相似度權重,加入術語間可能存在修飾詞等情況的考量,使得關聯規(guī)則挖掘更適合于本體關系獲取研究。劉巍等[10]提出通過SKOS敘詞表轉化方法構建本體,以關聯規(guī)則挖掘作為概念間關聯屬性的本體補充,并基于本體實現語義化檢索的應用功能。
在若干具體情境實證的基礎上,通過對評價規(guī)范文本以及測評過程中與之密切關聯的活動及結果信息的分析和總結,本文建立了面向復雜規(guī)范文本的基礎評價本體,分解為三層,即頂層本體、面向規(guī)范的評價體系框架本體和面向具體評估對象的評價內容實例。通過這三層結構,可以構筑出評價知識構成元模型,作為基礎提供對特定領域的規(guī)范評價體系本體的構建支持,進而納入實際產品或服務展開評價應用情境,從而形成面向復雜規(guī)范文本的評價本體知識體系。
(1)頂層評價本體。頂層評價本體,通過對規(guī)范化文本的表述形式進行分析,可抽取出頂層本體所概括的評價體系的通用知識結構和內涵,結合測評活動的規(guī)律特征,從而形成面向復雜規(guī)范文本的評價體系本體構建的通用知識表示基礎,即評價知識構成的元模型。頂層評價本體的主要概念包括評價標準條目、評價條目關系、測評結果和符合性評價結果、評價對象、評價內容、評價條件、符合性描述形式和預期結果。結合測試或檢驗以及評價過程,頂層評價本體的概念框架如圖所示。
圖頂層評價本體的結構
(2)面向規(guī)范的評價體系框架本體。面向規(guī)范的評價體系框架本體是基于頂層評價本體構建的通用知識表示方法,可實現對一類復雜評估對象的評價體系的本體建模表示。該層本體針對特定領域的評估體系制定者,支持領域內知識共享的評價體系描述。
(3)面向評估對象的評價內容實例。評估對象可以是產品、服務、人員、組織等,該層最接近具體的評估對象,它針對不同評估對象的需求,從面向規(guī)范的評價體系框架本體衍生出本體的實例形式,針對遵循評價規(guī)范的評估實施者,可借助語義技術支持提供依據評價體系本體獲得的、具備互操作性的自動或半自動的評價結果。
4.1 面向復雜規(guī)范文本的評價本體的知識特征
面向復雜規(guī)范文本的評價本體圍繞評價標準條目概念、將其分解為評估對象、評估內容、評估條件等若干子概念,對以評估為目的賦予特征的相關概念及關系進行提取和表示。在細粒度層次上,規(guī)范文本的特定表述形式,如涇渭分明的主客體關系、具有明顯要求性、強制性特征的檢驗特征詞匯等,使得基本規(guī)范性知識較為適合使用規(guī)則的方式描述,這種規(guī)則類似于邏輯理論中的蘊含式,其前件和后件取自于規(guī)范評價本體所界定的相關概念。而在粗粒度層次上,本體中評價條目之間表現出豐富的合取、析取、對等、充分或必要條件、時間序列等內在邏輯性知識關系,這類特殊的本體概念關系可歸入非分類關系的擴展。顯見,本體概念、概念間的分類關系應用復雜規(guī)范文本評價體系和專家經驗較容易發(fā)現,然而,概念間的非分類關系,尤其是上述的邏輯性關系具有一定的隱性知識特征,難以直接發(fā)現,或人工經驗判斷的代價過高。
另一方面,評價本體本質上是一種任務本體,不同于領域本體,后者在本體學習上使用的數據主要來源于本體特征概念描述的領域相關文檔;而評價本體所描述的評價體系相對較為統(tǒng)一、是專業(yè)人士智慧和經驗的結晶,具有高度的認同性、甚至是唯一性,可挖掘的規(guī)范性內容有限,但據此體系產生的大量的評估數據卻蘊涵了豐富的評價知識關系資源,因此,對評價任務本體所蘊涵的知識關系挖掘應來源于遵循規(guī)范文本的評估結果數據。
4.2 基于雙向挖掘和賦權計算的本體關系發(fā)現方法
針對上述評價本體的知識特征,本文提出了一種本體關系的自動發(fā)現方法,其核心是關聯規(guī)則挖掘算法。它通過在數據集中不同元素的同時發(fā)生頻率等統(tǒng)計性信息中發(fā)現它們之間的特定的關系規(guī)則。市場購物分析的商業(yè)決策應用中首先引入了這種數據挖掘技術,可用于分析和預測消費者的購物行為和習慣。
在本文所討論的上下文中,經典關聯規(guī)則算法,如Apriori中的交易對應于滿足特定評價結果的、基礎評價本體所建立的評價條目概念項的數據子集。由于面向規(guī)范文本的評價結論首先為布爾型的符合性判斷結果,因此適合關聯規(guī)則挖掘的基本問題描述背景。但由于評價數據結果集的特殊性,如不同的結果都占據一定的比例、不同的結果都具有評價的意義性以及噪聲干擾,如符合性結果居多,導致本文的評價本體關系的挖掘場景有所不同,如果直接依照Apriori算法僅對符合性結果數據集進行掃描,將會產生較多的冗余頻繁項集,這些項集所涉及的評價項目可能并不是真正存在相關關系,而僅僅因為易滿足評價條件而表現為同時出現的頻繁性。反之,如果針對不符合結論的評價數據結果集進行挖掘能適度減少冗余問題,但其所產生的評價項目之間的頻繁關系不具有反推性,即同樣受限于上述的同構性問題。為了解決這一問題,本文設計了基于雙向挖掘的本體關系發(fā)現方法,將正反挖掘結合起來,以提升本體關系的強度,從而增加結果的準確性和合理性。
該算法的相關定義和過程描述如下:
正向挖掘的支持度閾值為min_sup1,逆向挖掘的支持度閾值為min_sup2,算法的可信度閾值為min_conf。雙向挖掘所獲得的頻繁項集和強關聯規(guī)則分別設為Lp和RP(正向)、LNE和RNE(逆向)。雙向挖掘的項集可信度權重分別為ω0、ω1。綜合獲得的關聯規(guī)則集設為R。
輸入:評價數據集E,min_sup1,min_sup2,min_conf,ω0,ω1。
輸出:強關聯規(guī)則,也即本體關系R。
過程(包含部分偽碼形式):
*從中抽取候選數據集Ep,則,使其滿足,對于每一個候選事務及其對應可評價項目概念來說,都有Eij=1。
*執(zhí)行關聯規(guī)則挖掘算法,基于min_sup1、min_conf,獲得正向挖掘的Lp和Rp。
*從E中抽取候選數據集ENE,則,使其滿足,對于每一個候選事務及其對應可評價項目概念來說,都有Eij=0。
*執(zhí)行關聯規(guī)則挖掘算法,基于min_sup2、min_conf,獲得逆向挖掘的LNE和RNE。
*For each Rpxin Rp(其中,x=1,2,…,k,k是Rp中的規(guī)則數)
For each RNEyin RNE(其中,y=1,2,…,q,q是RNE中的規(guī)則數)
針對Rpx計算逆規(guī)則Rpx,并在RNE中進行搜索,如果匹配發(fā)現Rpx同時也是RNE的子集成員RNEy,那么則將放入綜合的關聯規(guī)則集R中,即將放入規(guī)則集中R,即
End For
End For
*For eachin RD(其中,z=1,2,…,n,n是RD中的規(guī)則數)
于Lp或LNE中確定所對應的頻繁項集,分別取該項集在兩個挖掘方向上的可信度,并結合權值ω0、ω1,計算賦權可信度
End For
考慮到數據收集的客觀性和完整性,本文選取了某測評中心關于防火墻技術的實際評估數據,規(guī)范文本取自國家標準《信息安全技術防火墻技術要求和測試評價方法》(GB/T20281-2006)。[11]該文本涵蓋了功能、性能、安全、保證不同的側面,三種安全級別的分類,包括上百項細目評價技術指標和要求。
5.1 防火墻技術標準的基礎評價本體及規(guī)范關系的推理規(guī)則構建
相應于第三部分的基礎評價本體構建體系,鑒于頂層評價本體的抽象化特點,本節(jié)聚焦于建立面向防火墻技術規(guī)范的評價體系框架本體和面向不同防火墻產品的評價內容實例。在領域專家、標準制定者、測評人員的共同推動下,本文建立起防火墻技術評價體系框架本體,其中包括了相關概念及其屬性,概念間的分類關系、形如part-of的顯性非分類關系以及基于SWRL描述的規(guī)則及推理的規(guī)范知識。
5.2 基于評估數據的本體關系挖掘實驗及評價
本次實驗選取了近五年來參與測評的1652款防火墻產品的基于規(guī)范文本(GB/T20281-2006)的原始評估數據作為待挖掘數據集。使用4.2節(jié)所述的本體關系發(fā)現方法對評估數據集進行挖掘,經試驗調整,設min_sup1為0.4,min_sup2為0.2,min_conf為0.6。考慮到本體關系中兩項關系的典型性,本實驗僅對包含兩項評價標準條目的可能本體關系進行了實現和記錄。雙向挖掘所獲得的部分規(guī)則情況如表1所示。
表1 雙向挖掘后所獲得的部分規(guī)則結果
表1中列出了5組相對的規(guī)則形式,依據本文提出的算法,規(guī)則5、7、8、9、10為挖掘出的潛在關聯結果。其中,規(guī)則5位于雙向挖掘結果的重疊區(qū)域,屬于典型的有意義規(guī)則。規(guī)則7和規(guī)則8屬于逆向單向強關聯規(guī)則,經賦權計算的結果超出可信度閾值得以保留;規(guī)則9和規(guī)則10屬于正向單向強關聯規(guī)則,同樣賦權計算后得以保留。相應的本體關系可作領域解釋為,負載均衡與DNAT之間存在技術基礎關系、支持VRRP和支持STP之間存在功能共性關系,端口支持與協(xié)議類型之間存在雙向蘊含關系,體現出評價的對等性。顯然,這些關系通過預先定義或推理的方式都很難獲取。由規(guī)則結果,結合領域專家的關系類型歸屬解釋,所獲取的部分本體關系概括如表2所示,其中概念名稱為5.1節(jié)基礎評價本體所定義的元評價標準條目的原始描述簡稱。
表2 獲取的部分本體關系
由于缺乏標準的對比參照,本實驗以專家評判為基準,將本文提出的評價本體知識關系的發(fā)現方法、與僅實施正向或逆向挖掘的結果進行對比性分析,以評估本文提出方法的效果??紤]到獲取完整的本體關系較為困難,本文主要就方法效果的查準率分別與單次單向挖掘進行了計算和比較,如表3所示。
表3 與單次單向挖掘的關系數和查準率比較
從表2中可以看出,正向挖掘結果的查準率相對較低(79.17%),可見由于符合性評價結果居多,使得針對正面評價數據集的抽取產生了較多的冗余。逆向挖掘由于相對冗余度較小,查準率達到了87.80%。經雙向挖掘和賦權計算處理后,本文提出的本體關系挖掘算法的規(guī)則集結果的正確關系數和查準率分別提升到了41條和91.11%,驗證了本方法能夠有效地改進單次抽取的準確性。
當前本體構建主要聚焦于領域本體,而任務本體由于可能存在復雜的目標對象、處理流程和特定表示關系等也不應被忽視。本文首先面向復雜規(guī)范文本和評價流程建立起由三層結構構成的基礎評價本體,形成本體概念、分類關系和規(guī)則定義的框架,繼而針對評價本體蘊含隱性非分類關系的特征,提出基于雙向挖掘和賦權技術的方法實現對這種特定關系的自動發(fā)現,并通過針對評價實例數據的實驗及對比評估驗證了該方法的有效性,從而豐富和完善了前期形成的評價本體。同時,本文提出的面向評價任務本體的構建方法,能夠適用于不同規(guī)范指導下的評價活動,具有一定的普適性。未來的發(fā)展方向可考慮由兩項評價條目關系擴展到多項,并囊括更多的實驗性能評估的著力點,同時可以將評價本體與相關領域知識及領域本體結合起來,研究相互推動的構建或完善的方法。
[1]Zhong B T,et al.Ontology-based semantic modeling ofregulationconstraintforautomatedconstructionquality compliancechecking[J].AutomationinConstrution,2012(28):58-70.
[2]Nash E,et al.Towards automated compliance checking based on a formal representation of agricultural production standards[J].Computers and Electronics in Agriculture,2011(78):28-37.
[3]Gábor A,et al.Compliance Check in Semantic Business Process Management[C]//OTM 2013 Workshops. SpringerBerlinHeidelberg,2013:353-362.
[4]GongP.Compliance checkingforsemanticallyannotatedprocess model[J].International Journal of Digital Content Technology and its Applications(JDCTA),2012,6(21):670-679.
[5]Ekelhart A,et al.Ontological Mapping of Common Criteria’s SecurityAssuranceRequirements[C]//Proceedings of the IFIP TC-11 22nd International InformationSecurityConference.Boston:SpringerUS,2007: 85-95.
[6]Wong M K,et al.A multi-phase correlation search framework for mining non-taxonomic relations from unstructured text[J].Knowledge and Information Systems,2014,38(3):641-667.
[7]Villaverde J,etal.Supporting thediscovery andlabeling of non-taxonomic relationships in ontology learning[J].Expert Systems with Applications,2009,36(7):10288-10294.
[8]劉萍,胡月紅.基于FCA和關聯規(guī)則的情報學本體構建[J].現代圖書情報技術,2012,216(2): 34-40.
[9]谷俊,等.基于改進關聯規(guī)則的本體關系獲取研究[J].情報理論與實踐,2011,34(12):121-125.
[10]劉巍,等.利用轉化SKOS和關聯規(guī)則挖掘創(chuàng)建本體及其檢索應用[J].現代圖書情報技術,2013,235/236(7/8):22-27.
[11]中國國家標準化管理委員會.GB/T 20281-2006信息安全技術防火墻技術要求和測試評價方法[S].北京:中國標準出版社,2006.
G254.29
A
1005-8214(2015)11-0053-05
顧鐵軍(1978-),女,東華大學副教授,研究方向:信息管理、知識組織與傳播;李毅(1978-),男,公安部第三研究所副研究員,研究方向:網絡安全與測評。
2015-05-27[責任編輯]王崗
本文系教育部人文社會科學研究青年基金項目“質量評價領域中復雜指標體系的本體化建模與實證支持平臺研究”(項目編號:12YJCZH059)的研究成果之一。