高國偉 王亞杰 李永先
(遼寧師范大學(xué)管理學(xué)院,遼寧大連116029)
知識元表示方法研究
高國偉 王亞杰 李永先
(遼寧師范大學(xué)管理學(xué)院,遼寧大連116029)
隨著數(shù)據(jù)和信息的日益增長,找到恰當(dāng)?shù)闹R已成為真正的挑戰(zhàn)和急待解決的任務(wù)。如何表示知識元則是實現(xiàn)知識檢索的關(guān)鍵問題,這一問題一直困擾著人們從數(shù)據(jù)檢索、信息檢索向知識檢索跨越。本文在對現(xiàn)有知識元表示研究評述的基礎(chǔ)上,提出了“概念、關(guān)系、問題”三元組的知識元表示方法,介紹了該方法的特點,并分別對概念、關(guān)系、問題表示進行了形式化描述,最后通過應(yīng)用實例證明了該表示方法的有效性和實用性。
知識檢索;知識元;知識元表示;知識庫
知識元的表示是一個符號化和形式化的過程,如何構(gòu)建相應(yīng)的知識元形式化描述方法和知操作方法是實現(xiàn)知識檢索的關(guān)鍵問題[1]。隨著知識管理領(lǐng)域的不斷發(fā)展,眾多學(xué)者提出不同的知識元表示方法,并在知識元研究領(lǐng)域取得了一定進展。文獻[2]提出用樹結(jié)構(gòu)來組織和表示知識元;文獻[3]采用了框架表示法,利用二元組標(biāo)記知識元;文獻[4]采用面向?qū)ο蠓?,利用三元組表示數(shù)值型知識元的結(jié)構(gòu);文獻[5]采用基于本體的知識表示方法建立文本知識元的抽取實驗提出了四層知識元模型;文獻[6]采用謂詞邏輯表示法,利用五元組來表示知識元的結(jié)構(gòu);文獻[7]采用產(chǎn)生式表示法,利用六元組表示數(shù)值型知識元;文獻[8-9]定義了一個七元組知識元模型:KE:=〈id,T,CT,st,tc,title,did〉;文獻[10]抽象地給出了一系列關(guān)于模型和知識的概念,進而提出了模型知識元的概念;文獻[11]給出面向非常規(guī)突發(fā)事件演化分析的知識元表示模型;文獻[12]通過不同層次模型參數(shù)與知識元屬性之間的映射,實現(xiàn)通過模型組合網(wǎng)絡(luò)進行模型組合。
以上研究為知識元表示方法提供了很好的研究思路和方法,但仍存在以下問題:(1)二元組、三元組表示方法局限于文本知識元的表示及建構(gòu),僅側(cè)重于對知識元客體的描述,忽略了對知識元之間關(guān)系的表達;(2)四元組、六元組、七元組的表示方法,使得知識元的結(jié)構(gòu)化程度日益增高的同時,表達方式顯得冗長,知識元之間關(guān)系的描述工作量大,造成推理不完備的隱患;也增加了計算機對自然語言處理的難度,造成在實際的中文文本知識元抽取過程中,計算機對語義內(nèi)容的誤解,使得知識元抽取的準確率下降,造成文本結(jié)構(gòu)的破壞。
本文借鑒本體論和認識論,從客觀知識世界本原角度出發(fā),從實體和關(guān)系層面約束知識元,進而對這些約束的知識元進行分析,在模型知識元[10]的基礎(chǔ)上,進行相應(yīng)擴展,提出了“概念、關(guān)系、問題”的知識元表示方法。該表示方法主要揭示了知識元屬性間約束,以及知識元之間的關(guān)系,對知識元的粒度性做出形式化的描述,從根本上提高了計算機對文本知識元抽取的準確率。
“概念、關(guān)系、問題”知識元表示方法基本出發(fā)點是[13]:客觀知識世界綜合體系描述了人類對客觀事物的總體認知,已有認識對未知問題的求解具有指引和向?qū)ё饔?,問題和目標(biāo)的邏輯關(guān)系,使得我們可以通過問題求解模型,依據(jù)已有知識對未知問題進行解答,從而實現(xiàn)智慧層面上的目標(biāo)屬性。因此,“概念、關(guān)系、問題”知識元表示方法具有如下優(yōu)點:
1.1 繼承性
“概念、關(guān)系、問題”的三元組結(jié)構(gòu),堅持以問題為出發(fā)點,通過對客觀知識的概念和關(guān)系的整合,以達到求解的目標(biāo)。這樣就帶來了天然的層次性和結(jié)構(gòu)性。在對問題的求解過程中,使得對象能封裝復(fù)雜的行為,使知識元表示的細節(jié)對使用者保持透明,從而降低了計算推理的復(fù)雜度,通過繼承性減少了知識元表達的冗余,知識庫的修改、增加、刪減以及使用和維護都十分方便;對一個知識單元進行修改不會影響其它單元,每一知識單元中所包含的知識規(guī)則有限,推理空間小,提高了推理效率[14]。
1.2 擴展性
“概念、關(guān)系、問題”的三元組知識元表示方法是將對象看成了客觀世界及其映射系統(tǒng)的最小單元,因而事物都可以由這些最小單元聚集而成。該三元組表示方法的特征是不斷的細分,這和知識結(jié)構(gòu)的不斷擴展是一致的[15]。
1.3 互操作性
“概念、關(guān)系、問題”的三元組表示方法表達了領(lǐng)域內(nèi)重要概念、屬性、問題及其相互關(guān)系形式化描述的基礎(chǔ),這種形式化描述可成為計算機系統(tǒng)中可重用和共享的組件,可以在不同的建模方法、范式、語言和軟件之間進行翻譯和映射,以實現(xiàn)不同系統(tǒng)之間的互操作和集成,從而降低計算機對文本知識元內(nèi)容的誤解,提高知識元的抽取準確率[16]。
按哲學(xué)觀點,一個客觀知識總是可分的,可以分成單元、元素,這些細分的部分都是客觀事物的子事物,是一種客觀實在,這些客觀實在可以被稱為知識元??陀^存在的知識元是一個對象,對其的描述涉及概念、屬性、關(guān)系等方面。
從事物普遍聯(lián)系的角度,構(gòu)成一個客觀知識的所有知識元都是相互聯(lián)系的,這種聯(lián)系體現(xiàn)在知識元之間相互依賴、相互作用關(guān)系。任何一個客觀事物或者任一領(lǐng)域的知識,都可以分解為實體和關(guān)系加以描述[17]。
而問題是人的主觀目標(biāo)或要求與客觀事物系統(tǒng)狀態(tài)的差異,在對客觀知識世界中,問題是關(guān)于人們主觀目標(biāo)和客觀事物系統(tǒng)的集合[18]。
這樣針對知識元的表示可以從概念C,關(guān)系R,問題P的表示進行,從而形成了客觀知識世界的“概念——關(guān)系——問題”體系,即CRP體系。
2.1 概念的表示
2.1.1 概念的定義
人們對客觀知識世界的認識經(jīng)歷了一個漫長的過程,從感性認識到理性認識是一個循序漸進的過程,人們把感知到的信息收集起來加以概括和抽象就得到了概念,因此概念能夠反映出事物的本質(zhì)屬性。反之如果給定一個事物的概念,那么對該事物而言,必然存在著一系列對特征、屬性、數(shù)值等的描述。
2.1.2 概念的分類
通過對概念的類型進行劃分來滿足處理不同問題時的需要。依據(jù)概念的定義,可以有如下兩種分類方式:(1)描述型概念,即對一組給定的概念,它們的外沿描述如果是針對名詞解釋、數(shù)值、問題、信息等,那么可以把對應(yīng)的概念劃分為一個概念類。(2)過程型概念,即對一組給的概念,他們的外沿描述如果是針對步驟、方法、定義、原理等,那么可以把對應(yīng)的概念劃分為一個概念類[19]。
2.1.3 概念的數(shù)學(xué)描述
對于一個具體的知識元m(m∈K),如果采用“概念、關(guān)系、問題”的體系來表示的話,概念的表示就是CRP表示體系的基礎(chǔ),它是由基本概念、屬性特征以及相關(guān)數(shù)值構(gòu)成,有如下數(shù)學(xué)描述;設(shè)Nn為它對應(yīng)客觀事物的名稱,設(shè)Cn為它對應(yīng)已知事物的特征狀態(tài)集,設(shè)Vn表示它對應(yīng)的量值狀態(tài)集,那么對應(yīng)的概念集合可表示為如下一個三元組:
Kn=(Nn,Cn,Vn)
對于一個已知事物,有Nn≠?,Cn=?,Vn=?。Cn為至少是定性描述的狀態(tài)集,Vn為對已知事物狀態(tài)定量描述集。而當(dāng)對一個客觀事物認知達到較高層次時,一般Cn為定量描述的特征狀態(tài)集,Vn為數(shù)理邏輯關(guān)系和函數(shù)描述的量值狀態(tài)集,從而使這一模型聯(lián)系到相應(yīng)的數(shù)學(xué)模型,進而方便了后續(xù)基于計算機平臺上的數(shù)據(jù)運算。
2.2 關(guān)系的表示
2.2.1 關(guān)系的定義
依據(jù)客觀事物是普遍聯(lián)系的哲學(xué)思想,關(guān)系反映了事物及其特性之間的相互聯(lián)系,即事物之間存在著關(guān)聯(lián)關(guān)系。構(gòu)成事物的概念和屬性之間的相互聯(lián)系形式多樣,這是一個具體關(guān)系的概念。由于選取的參照物不同,在一定條件下,概念和關(guān)系之間可以相互轉(zhuǎn)化,關(guān)系對概念起到解釋說明的作用,即關(guān)系本身也具有概念和屬性等特質(zhì)[20]。
2.2.2 關(guān)系的分類
關(guān)系是事物之間相互因果、相互影響與相互作用所形成的聯(lián)系、交往和組合。由于關(guān)系在運用和處理的過程中,可以和概念相互轉(zhuǎn)化,為了能夠更好地表示事物之間的關(guān)聯(lián)關(guān)系,有必要對關(guān)系進行分類:(1)描述型關(guān)系,即基于事物之間關(guān)系的概念進行分類[21]。概念是按照特征、問題、數(shù)值等進行組織和管理的,因此關(guān)系也可以按照特征、問題、數(shù)值的結(jié)構(gòu)方式進行描述。(2)過程型關(guān)系,即基于事物之間相互作用的過程進行分類。過程是按照步驟、方法、定義、原理等進行組織和管理的,因此關(guān)系也可以按照步驟、方法、定義、原理的結(jié)構(gòu)方式進行描述。
2.2.3 關(guān)系的數(shù)學(xué)描述
關(guān)系是對事物概念、屬性之間相互關(guān)聯(lián)的解釋說明[22]。對應(yīng)一個具體的知識元m(m∈K),如果采用“概念、關(guān)系、問題”體系來表述的話,有如下數(shù)學(xué)描述:設(shè)r(r∈K)為Rm×Rm上的映射關(guān)系,一般情況下,Cr表示特征、屬性、隸屬等;構(gòu)建具體的映射函數(shù):
其中Rir稱為起點屬性狀態(tài)集,Ror稱為目標(biāo)屬性狀態(tài)集,fr為對應(yīng)存在的具體映射函數(shù),那么對應(yīng)的關(guān)系集合表示為如下一個四元組:
其中,Cr除了可描述特殊屬性外,還可擴展描述其如何辨識的方法特征。這里Cr≠?,≠?,?,fr≠?。
2.3 問題的表示
2.3.1 問題的定義
問題是人們對客觀世界的認知和改造過程中,客觀目標(biāo)和主觀預(yù)期之間的差異。問題是標(biāo)準模糊所帶來的結(jié)果,標(biāo)準不能解決問題,只能判斷問題產(chǎn)生的原因所在。反之給定一個問題,必然存在已經(jīng)明確知道的,關(guān)于問題的特征描述,即問題的初試狀態(tài);也存在關(guān)于構(gòu)成問題結(jié)論的屬性描述,即問題要求的答案或目標(biāo)的狀態(tài)[23];還存在著問題之間關(guān)于解決障礙的數(shù)學(xué)描述。
2.3.2 問題的分類
一個具體問題除了具有特征描述,還有相應(yīng)的屬性描述。問題的屬性回答了目標(biāo)現(xiàn)在的狀態(tài),為后續(xù)問題求解提供必要的信息。對于一個問題集合,可以按照問題的屬性進行分類:(1)描述型問題,即通過名詞解釋、數(shù)值、特征等對問題的初試狀態(tài)和目標(biāo)狀態(tài)予以描述;(2)過程型問題,即通過步驟、方法、原理、定義等對問題的初試狀態(tài)和目標(biāo)狀態(tài)予以描述[24]。
2.3.3 問題的數(shù)學(xué)描述
對應(yīng)一個具體的知識元m(m∈K),問題是智慧層面上對實現(xiàn)目標(biāo)的出發(fā)點和歸宿,所以問題的表示是CRP體系的核心,是基于目標(biāo)的基本狀態(tài)解決預(yù)期和目標(biāo)之間差異的關(guān)鍵。因此有如下數(shù)學(xué)描述:設(shè)Cp為問題的特征狀態(tài)集,Pp為問題的屬性狀態(tài)集,Rp為問題之間的關(guān)系集,設(shè)p∈K,則問題的集合可以表示為如下一個三元組:
Kr=(Cp,Pp,Rp)
其中,Cp為初試問題的可測特征描述。當(dāng)Cp=0時表示初試問題的特征狀態(tài)不可描述;當(dāng)Cp=1時為可描述的;當(dāng)Cp=2時為常規(guī)可測度的;當(dāng)Cp=3時為隨機可測度的;當(dāng)Cp=4時為模糊可測度的。
本章以監(jiān)督信息的相關(guān)知識元來驗證基于“概念——關(guān)系——問題”的知識元表示方法。運用“概念——關(guān)系——問題”的知識元表示方法對安全事故涉及的相關(guān)知識元進行抽取,并將抽取后的安全事故知識元整理分類,在此基礎(chǔ)上按前文提出的三元組結(jié)構(gòu)進行表示,從而論證其科學(xué)性及有效性。
3.1 知識元獲取
知識元的獲取是為用戶提供知識檢索的基礎(chǔ)。在從文本內(nèi)容獲取知識元的過程中,運用“概念、關(guān)系、問題”模型的知識元表示方法,具體操作如圖1,基于“概念、關(guān)系、問題”知識元表示方法對文本知識進行抽取,知識元獲取引擎分別以概念約束、關(guān)系約束、問題約束,為截取條件,獲取的新知識元,然后通過挖掘、篩選、融合等技術(shù),將處理后的知識元按照不同屬性分類,進而建立不同屬性的知識元擴展集合,最后將這些知識元集合存儲到知識庫中[25]。
3.2 知識元的表示(以監(jiān)管信息知識表示為例)
通過對監(jiān)管信息的相關(guān)知識進行“概念——關(guān)系——問題”的知識元抽取,可以得到如下的相關(guān)業(yè)務(wù)知識元:
經(jīng)營行為監(jiān)管(違規(guī)日期,違規(guī)內(nèi)容,檢查單位,檢查內(nèi)容,檢查結(jié)果,檢查日期,整改要求,整改期限)
年度核查(年審年份,審驗日期,年審內(nèi)容,年審結(jié)果,核對情況,審驗機關(guān))
質(zhì)量管理檢查考評(考評項目,考評內(nèi)容要求,考評標(biāo)準,考評備注)
檢查考評反饋通知(被檢查企業(yè),責(zé)任部門,發(fā)出時間,檢查考評結(jié)論,處理情況,處理意見)
安全事故(事故名稱,事故編號,事故類別,事故過程,事故地點,事故位置,事故處理,事故損失,事故后果,事故級別,傷亡人數(shù),事故原因)
上述業(yè)務(wù)知識元的表示方法如表1、表2、表3所示(此處只給出經(jīng)營行為監(jiān)管、年度核查、安全事故3個知識元的表示方法)。
圖1 知識元抽取流程圖
表1 經(jīng)營行為監(jiān)管相關(guān)知識元表示
本文首先論述了目前知識元表示方法存在的局限性[26],從客觀知識世界的角度,提出了一種基于“概念、關(guān)系、問題”的知識元表示方法,該方法將知識按照屬性差異分為概念知識元結(jié)合、關(guān)系知識元集合和問題知識元集合,并通過構(gòu)造數(shù)學(xué)映射輔助對關(guān)系和問題的描述該方法是以解決問題為出發(fā)點,因此具有繼承性、擴展性和互操作性。最后通過完成對知識元的抽取實驗,實現(xiàn)了對監(jiān)管信息的相關(guān)知識元的表示,從實踐的角度論證了該方法的有效性和科學(xué)性。目前的研究僅構(gòu)造了一般條件下的表示方法,在相關(guān)信息不完備及描述模糊等極端情況下對知識元的表示存在影響,完善知識元表示方法等問題將在后續(xù)研究中繼續(xù)深入。
[1]楊建林.信息技術(shù)導(dǎo)論[M].南京:南京大學(xué)出版社,2009.
[2]Zou Junhua,Liu Qingtang.Knowledge Element Model for Knowledge Abstract and Fusion System,New Trends in Information and Service Science,2009.NISS'09.International Conference on June 30 2009-July22009:23-26.
[3]周寧,余肖生,劉瑋,等.基于XML平臺的知識元表示與抽取研究[J].中國圖書館學(xué)報,2006,(3):42-46.
[4]溫有奎,徐端頤,潘龍法.基于XML平臺的知識元本體推理[J].情報學(xué)報,2004,23(6):643-648.
[5]Zhao Feng,He Weiping,YangHaozhong,et al.A Study of Internet-knowledge Acquiring Method to Aid Thinking in Product Design. Computer Science and Information Techology,2009.ICCSIT 2009. 2nd IEEE International Conference on 8-11Aug,2009:472-475.
[6]畢經(jīng)元.基于知識元鏈接的汽車零部件知識管理系統(tǒng)[J].浙江大學(xué)學(xué)報,2009,43(12):2209-2212.
[7]肖洪,薛德軍.基于大規(guī)模真實文本的數(shù)值知識元挖掘研究[J].計算機工程與應(yīng)用,2008,44(30):150-152,222.
[8]Chang X,Zheng QH.Knowledge Element Extraction for Knowledgebased Learning Resources Organization.Heidelberg:Spinger,2008:102-113.
[9]Hu Y H,Li H,Cao Y B,et al.Automatic Extraction of Titles from General Documents Using Machine Learning.Inf.Process Manage,2006,42(5):1276-1293.
[10]王延章.模型管理的知識及其表示方法[J].系統(tǒng)工程學(xué)報,2011,(6):128-134.
[11]陳雪龍,肖文輝.面向非常規(guī)突發(fā)事件演化分析的知識元網(wǎng)絡(luò)模型及其應(yīng)用[J].大連理工大學(xué)學(xué)報,2013,(4):615-624.
[12]楊德寬,王雪華,裘江南,等.基于知識元網(wǎng)絡(luò)的突發(fā)事件模型組合調(diào)用[J].系統(tǒng)工程,2012,(9):87-93.
[13]朱曉蕓,陳奇,楊棖,等.決策支持系統(tǒng)中的廣義知識元及模型庫[C]∥東北大學(xué)出版社,1993:791-794.
[14]袁名依.基于知識元本體的知識統(tǒng)一表示[J].現(xiàn)代計算機,2008,(283):46-48,57.
[11]MAKI D P,THOMPSON M.Mathematical Models and Applications,with Emphasis on Social,Life,and Management Sciences[M].Englewood Cliffs,New Jersey:Prentice-Hall,1973.
[12]MORENO Y,NEKOVEE M,PACHECO A.Dynamics of Rumor Spreading in Complex Net-works[J].Physical Review E,2004,69:066130.
[13]NEKOVEE M,MORENO Y,BIANCONI G,et al.Theory of Rumour Spreading in Complex Social Networks[J].Physica A:Statistical Mechanics and its Applications,2007,374(1):457-470.
[14]匡文波,郭育豐.社會治理視域下網(wǎng)絡(luò)謠言消解模式探析[J].西北大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2013,43(3):134-137.
[15]阮璋瓊,尹良潤.黨報微博運營現(xiàn)狀及發(fā)展路徑[J].中國報業(yè),2012,(1):58-60.
[16]劉金榮.基于SNA的突發(fā)事件微博謠言傳播研究[J].情報雜志,2013,(7):78-82.
[17]石秋靈.當(dāng)今微博謠言分類及影響謠言傳播效果的關(guān)鍵指標(biāo)研究[J].中國傳媒科技,2013,(8):128-129.
[18]韓國良,孫海霞.微博謠言產(chǎn)生的原因及對策探析[J].采寫編,2014,(3):54-55.
[19]上海交通大學(xué)發(fā)布2013輿情藍皮書[EB/OL].http:∥scitech. people.com.cn/n/2013/0822/c1057-22656071.htm.
(本文責(zé)任編輯:孫國雷)
[15]王宇,劉淼.一種基于知識元的期刊文獻知識倉庫構(gòu)建[J].情報理論與實踐,2013,(8):91-94.
[16]李珊珊,王宇.基于HNC理論的期刊文獻知識元檢索[J].情報雜志,2013,(9):190-194.
[17]陳雪龍.基于決策問題形式化的模型構(gòu)造方法[J].計算機工程,2008,(5):51-53,56.
[18]陳雪龍.基于實體——關(guān)系——問題知識表示體系的決策模型構(gòu)造方法[J].系統(tǒng)管理學(xué)報,2007,(3):326-331,336.
[19]仲秋雁,郭艷敏,王寧.基于知識元的情景生成中承災(zāi)體實體化約束模型[J].系統(tǒng)工程,2012,(5):75-80.
[20]陳雪龍,董恩超,王延章,等.非常規(guī)突發(fā)事件應(yīng)急管理的知識元模型[J].情報雜志,2011,(12):21-30,26.
[21]王寧,黃紅雨,仲秋雁,等.基于知識元的突發(fā)事件衍生網(wǎng)絡(luò)仿真平臺的設(shè)計與實現(xiàn)[J].情報雜志,2012,31(11):150-155.
[22]許永濤.基于E_R_P建模體系的政務(wù)資源元數(shù)據(jù)表示模型[J].計算機工程,2007,(10):49-51,97.
[23]于淼.基于實體——關(guān)系——問題建模體系的政務(wù)資源整合研究[J].系統(tǒng)工程與電子技術(shù),2004,(5):647-651.
[24]溫有奎.知識元挖掘[M].西安:西安電子科技大學(xué)出版社,2005.
[25]楊建林.知識表示與知識相關(guān)性度量研究[J].情報理論與實踐,2011,34(5):1-5.
[26]馬創(chuàng)新.論知識表示[J].現(xiàn)代情報,2014,34(3):21-24,28.
(本文責(zé)任編輯:孫國雷)
Research on the Method of Knowledge Element Representation
Gao GuoweiWang YajieLi Yongxian
(School of Management,Liaoning Normal University,Dalian 116029,China)
Lacking knowledge element representation,with the increasing of data and information growth,it has been an urgent problem to be solved.How to represent knowledge element is the key to achieve the knowledge retrieval.The paper proposed a representation method of“Concept-Relationship-Problem”,Through giving a kind of recessive description method of relations between attributes of knowledge elements,the incompleteness of knowledge inference is conquered.Therefore,the goal of comprehensive knowledge support to knowledge retrieval could be realized by means of the proposed knowledge element model. In the end of the paper,an example is analyzed to prove the efficiency and practicability of the knowledge element model.
knowledge element;knowledge element representation;knowledge-based
10.3969/j.issn.1008-0821.2015.03.003
G302
A
1008-0821(2015)03-0015-04
2014-12-30
國家自然科學(xué)基金項目“客觀知識體系中的語義傳遞模型研究”(項目編號:71073017)研究成果之一。
高國偉(1973-),男,副教授,博士,研究方向:移動電子政務(wù)、信息資源管理和知識管理。