陶星,李衛(wèi)華,汪中飛
(廣東工業(yè)大學(xué)計算機學(xué)院,廣東廣州510006)
基于知網(wǎng)的可拓領(lǐng)域信息元庫的構(gòu)建方法
陶星,李衛(wèi)華,汪中飛
(廣東工業(yè)大學(xué)計算機學(xué)院,廣東廣州510006)
為了解決某個領(lǐng)域的矛盾問題,須構(gòu)建領(lǐng)域信息元庫以提高計算機語義理解能力。結(jié)合知網(wǎng)的表達知識的形式化特點,提出了對基元進行改造,增強語義互操作性的方法。在知網(wǎng)2000版中,以教育領(lǐng)域為案例,提取出教育領(lǐng)域的概念及其屬性,并在此基礎(chǔ)上改造與更新,構(gòu)造可拓學(xué)的教育領(lǐng)域基礎(chǔ)庫。在實驗過程中采用關(guān)系型數(shù)據(jù)庫實現(xiàn)了信息元的存儲,表明了可以提高語義互操作能力,驗證了該方法的可行性。
可拓學(xué);知網(wǎng);信息元;矛盾問題;語義
可拓學(xué)是由中國學(xué)者于1983年提出的一門原創(chuàng)性橫斷學(xué)科,它以形式化的模型,探討事物拓展的可能性以及開拓創(chuàng)新的規(guī)律與方法,并用于解決矛盾問題[1]。所謂矛盾問題,是指在現(xiàn)有條件下無法實現(xiàn)人們要達到的目標(biāo)的問題。要解決某個領(lǐng)域的矛盾問題,使計算機自動生成可拓策略,必須有該領(lǐng)域的知識庫做為支持。這是可拓策略生成系統(tǒng)亟需解決的一個關(guān)鍵且基礎(chǔ)的問題[2]。
文獻[3]提出“可拓信息-知識-智能形式化體系結(jié)構(gòu)”這一構(gòu)想,指出研究以物元、事元和關(guān)系元為基本元的信息表示體系,以建立信息元庫。
知網(wǎng)(HowNet)是一套知識描述規(guī)范體系,一個通用的常識知識庫,描述了世間萬物所有的概念、概念的屬性及屬性之間的關(guān)系[4]。但是知網(wǎng)并不能解決矛盾問題。以知網(wǎng)的知識資源為基礎(chǔ),借助可拓學(xué)基元表達體系,將有望讓其計算機自動生成(或人機結(jié)合引導(dǎo)生成)解決矛盾問題的策略。
本文提出一種基于知網(wǎng)來建立領(lǐng)域可拓信息元庫的方法,并以教育領(lǐng)域為研究案例,探討改進后的基元如何表達可拓知識和解決語義二義性問題,是未來解決某一領(lǐng)域的矛盾問題的基礎(chǔ)研究。
在“可拓信息-知識-智能形式化”體系[3]研究中提出了該體系的主要功能模塊:信息元庫、知識表示庫、可拓策略庫。為了實現(xiàn)該體系,信息元庫的建立是首要工作。
信息元庫集成了領(lǐng)域的基礎(chǔ)知識,是支持策略生成系統(tǒng)的基礎(chǔ)庫。由于信息元庫容量龐大,且其中涉及領(lǐng)域繁雜,又有非結(jié)構(gòu)化組織,對于許多的復(fù)雜情況根本不存在查詢結(jié)果,必要時,仍需要查詢整個信息元庫,查詢效率極低。本文將分別建立信息物元、信息事元、信息關(guān)系元模型,并將其存儲在信息元庫中,每次查詢時先在信息元庫中查詢;若不能得出查詢結(jié)果,再進行可拓變換,這樣可提高查詢效率。
2.1 知網(wǎng)的知識網(wǎng)絡(luò)體系
知網(wǎng)是一個以英、漢雙語所代表的概念以及概念的特征為基礎(chǔ),以揭示概念與概念之間以及概念所具有的特性之間的關(guān)系為基本內(nèi)容的常識知識庫[4]。知網(wǎng)知識庫中的概念是通過義原與義原之間的關(guān)系來描述的。
知網(wǎng)所描述的概念之間的關(guān)系有:上下位關(guān)系、同義關(guān)系、反義關(guān)系、對義關(guān)系、部件—整體關(guān)系、屬性—宿主關(guān)系、材料—成品關(guān)系、施事/經(jīng)驗者/關(guān)系主體—事件關(guān)系、受事/內(nèi)容/領(lǐng)屬物、屬性關(guān)系、實體—值關(guān)系、事件—角色關(guān)系、相關(guān)關(guān)系。這些關(guān)系形成了一個網(wǎng)狀的知識系統(tǒng),進而使計算機對其可進行操作。
2.2 知網(wǎng)知識庫描述語言
知網(wǎng)知識庫描述語言是一種面向計算機的結(jié)構(gòu)化描述語言[5]。為了實現(xiàn)計算這一設(shè)計目標(biāo),知網(wǎng)的創(chuàng)立者進行了2個工作:1)將概念分解為義原,并形成一套完整的分類體系;2)將義原通過各種關(guān)系的組織表達一個概念。因為知網(wǎng)中的每個義原都表示一個唯一的特定的意義,這樣就能解決自然語言處理的語義的歧義性問題。
在知網(wǎng)知識庫描述語言(KDML)2000版中,通過一些特定的符號來描述義原之間的關(guān)系的。如表1所示。
表1 KDML符號及其含義Table 1 Symbols and meanings of KDML
例如:
這個概念的含義是:大學(xué)生是N范疇。是“人”類別的一員,是施行“學(xué)”行為的,屬于教育領(lǐng)域類概念。
知網(wǎng)的哲學(xué)思想:世界上一切事物(物質(zhì)的,精神的或事情)都在一定的時間和空間內(nèi)不停地運動和變化。它們通常是從一種狀態(tài)變化到另一種狀態(tài),并通常由其屬性值的改變來體現(xiàn)[2]。這一思想與可拓學(xué)的思想有異曲同工之妙。初步的研究顯示,將可拓學(xué)與知網(wǎng)這2個中國原創(chuàng)的理論和應(yīng)用工具相結(jié)合,研究解決矛盾問題的策略生成問題,可為策略生成研究提供一種新的思路。
由于知網(wǎng)本身就是一個具有語義的通識知識庫,可以借助知網(wǎng)中義原及其語義關(guān)系的表達方式,對信息元的結(jié)構(gòu)進行重新構(gòu)造。
3.1 信息物元的構(gòu)造
信息物元,是指具體對象、其特征和量值構(gòu)成的有序三元組,而知網(wǎng)中的義原均為概念,并非具體的對象,所以,對信息物元并不需要基于知網(wǎng)進行重新改造,仍然使用可拓學(xué)中對于物元的定義。例如:
3.2 信息關(guān)系元的構(gòu)造
信息關(guān)系元主要描述的是信息物元和信息事元之間的關(guān)系。通過對知網(wǎng)的描述,可以知道知網(wǎng)在描述概念及概念之間的關(guān)系上,已經(jīng)有完備且有效的關(guān)系,只是知網(wǎng)不具備解決矛盾問題的能力。基于此,本文提出信息關(guān)系元模型如表2所示。
表2 信息關(guān)系元的結(jié)構(gòu)Table 2 Structure of relation-element
在此信息關(guān)系元結(jié)構(gòu)中,定義了4種關(guān)系屬性。1)isKindOf,即具有繼承關(guān)系或者上下位的信息元,譬如:“筆-鋼筆”、“白-雪白”等;2)isPartOf,表示具有整體與部分關(guān)系或者包含關(guān)系的信息元,又可細分為組合和聚合,譬如:“中國-上?!薄ⅰ吧郑瓨洹钡?;3)hasAttributeOf,表示與該具有屬性關(guān)系的信息元;4)hasInstanceOf,表示概念及其概念實例關(guān)系。譬如:“學(xué)?!钡纳衔粚傩允恰皥鏊?,其屬性有很多:名稱、地點、級別等。“學(xué)?!庇挚煞譃椋骸靶W(xué)”、“中學(xué)”、“高中”、“大學(xué)”、“研究院”等。通過這樣的關(guān)系定義,希望其不僅可以支持基本的可拓變換:置換變換、增(減)變換、擴(縮)變換、分解變換和復(fù)制變換,并能具有一定的智能,幫助對矛盾問題的理解。
本文規(guī)定,每種信息關(guān)系元,都有某些固定的特征,譬如:關(guān)系前項(antecedent)、關(guān)系后項(conse?quent),其余特征需根據(jù)知網(wǎng)中的知識表達,進行相應(yīng)的改造。詳細的改造方法如下。
基于知網(wǎng)中的關(guān)系符,本文分別進行如下處理。
1)空符號
在知網(wǎng)中,空符號義原主要存在于概念詞典中,一般有3種含義。
在知網(wǎng)中,實體、事件、屬性/屬性值、數(shù)量/數(shù)量值定義的第1項均為空符號義原,用來表示其主要特征。對于實體和事件概念來說,該第1項表示上下位關(guān)系。在信息物元中,將定義為isKindOf屬性。例如:
其對應(yīng)的信息關(guān)系元為
對于屬性和數(shù)量的概念,因為其含有的“&”關(guān)系,可不對第1義原進行處理,將在之后的“&”關(guān)系的處理中詳細介紹。
2)“&”關(guān)系
在知網(wǎng)中,“&”表示“屬性-宿主”關(guān)系。對此類概念,不提取第1義原,改為提取該概念和第2義原之間為上下位關(guān)系。因為第2義原描述了具體的數(shù)量/屬性類,可以更加準(zhǔn)確地對概念的語義范圍進行界定。例如:
按照上述轉(zhuǎn)換規(guī)則,可以得到上下位信息關(guān)系元(isKindOf):“模式”-“樣式”,其對應(yīng)的信息關(guān)系元為
其表示的意義為:“模式”是屬于物質(zhì)的樣式類別。
3)“%”關(guān)系
在知網(wǎng)中,“%”表示“整體-部分”關(guān)系,與屬性/數(shù)量關(guān)系類似,不再提取第1義原作為其上下位關(guān)系,而是直接提取“%”關(guān)系作為isPartOf屬性。例如:
從中,可以提取2個信息關(guān)系元,上下文關(guān)系元(isKindOf):“琴鍵”-“部件”、整體部分信息關(guān)系元(isPartOf):“琴鍵”-“樂器”。其對應(yīng)的信息關(guān)系元為
在知網(wǎng)中,對于這些關(guān)系的提取,都可以直接進行,不再贅述。
3.3 信息事元的構(gòu)造
對于信息事元的改造,一方面要保證其語義的完整性,另一方面,更要規(guī)定其模型,針對不同類型的事件,事件模型不一樣。對于某一領(lǐng)域內(nèi)的知識,應(yīng)該進行分類,并建立相應(yīng)的事件模式。譬如:“報考”這一事件一定有考生(actingObject)和學(xué)校(re?ceivingObject)的參與,所以在建立這類事元時,施動對象(actingObject)和接受對象(receivingObject)特征是固定的必不可少的。
知網(wǎng)2000中使用到約70個動態(tài)角色是指概念在實際的語言中所構(gòu)成的各種關(guān)系,如施事、受事、經(jīng)驗者、時間、處所等[6]。有了這些動態(tài)角色的注釋,通過形式化的表示,計算機就能更好地理解其含義。
本文針對信息事元的構(gòu)造,采用的方法為:提取第1義原為信息事元的上位屬性,提取動態(tài)角色為信息事元的第2屬性。譬如“報考”這一事元,在知網(wǎng)中對其的定義為:
其對應(yīng)的信息事元為
對于沒有動態(tài)角色的義原,例如:
直接取第1義原為該事元的上位屬性,即
3.4 信息復(fù)合元的構(gòu)造
對于現(xiàn)實世界中的復(fù)雜事件的描述,需要使用復(fù)合元。復(fù)合元包括多種形式,包括:物元和事元的復(fù)合,物元和關(guān)系元的復(fù)合等。
前面已經(jīng)詳細討論了信息物元、信息關(guān)系元和信息事元的構(gòu)造,那么至于信息復(fù)合元的構(gòu)成,即它們的復(fù)合,唯一不同的是在信息關(guān)系元與其他信息元的復(fù)合中,信息關(guān)系元將做為其他信息元的特征。例如:“張三要報考廣東工業(yè)大學(xué)”這一事件,可以建立如下信息復(fù)合元:
subject=1,即表示理科;subject=2,表示文科。collegeLevel=0,表示國家重點“985”院校,col?legeLevel=1,表示國家重點“211”或者一本院校,二本院校、三本院校等其他類院校,以此類推。
綜上,分別確定了信息物元、信息關(guān)系元、信息事元和信息復(fù)合元的結(jié)構(gòu),并舉例說明該結(jié)構(gòu)是可以反映一個無語義二義性的客觀世界,同時也具有表達可拓知識并支持可拓變換的能力。
在之前文獻的研究中,利用可拓學(xué)很好地解決了某個矛盾問題,譬如:租房可拓策略生成系統(tǒng)、自助游可拓策略生成系統(tǒng)[7],而并未涉及到某個領(lǐng)域的矛盾問題的求解。也有文獻討論了基于本可拓模型的復(fù)合元[8],基于可拓模型的本體進化研究[9],為本文的研究提供了很好的基礎(chǔ)。本文以教育領(lǐng)域為案例,說明如何用改進語義能力的信息元解決領(lǐng)域矛盾問題。譬如,高考填報志愿,理想中的學(xué)校分熟線和自己高考分?jǐn)?shù)存在矛盾;學(xué)習(xí)中,學(xué)習(xí)能力方法和預(yù)期成績存在矛盾等。為此,建立一個教育領(lǐng)域的概念體系是研究的關(guān)鍵基礎(chǔ)步驟。
4.1 教育領(lǐng)域概念結(jié)構(gòu)
圖1 教育領(lǐng)域概念體系Fig.1 Education concept system
教育概念體系反映了教育體系概念和及其屬性[10]。本文總體上將教育客體分為3類:自然類教育客體,如學(xué)科,專業(yè)等;社會類教育客體,如學(xué)校的各類管理組織機構(gòu)、教學(xué)設(shè)備等;精神類教育客體,如教育理論、教育思想等[11]。教育領(lǐng)域的概念結(jié)構(gòu)如圖1所示。面[10]。這種由于咨詢用戶自身對高考填報志愿咨詢領(lǐng)域語義信息理解一致的慣性及咨詢目標(biāo)十分明確的特點,大大降低了專家的參與度,在確定類、屬性和關(guān)系的處理上很容易達成共識。因此,本文采用自底向上建模方法,先行確定核心概念和關(guān)系,保障語義的正確性和完整性。
在知網(wǎng)知識庫2000中,分別查詢“學(xué)?!?、“專業(yè)”、“指標(biāo)”等義原。發(fā)現(xiàn):
建立對應(yīng)的信息復(fù)合元為
4.2 教育領(lǐng)域信息元的構(gòu)建
以高考填報志愿為例說明可拓領(lǐng)域信息元庫的建立方法。實踐證明,多年來,考生在報考時的關(guān)注重點在于:高校名稱、高校地點、高校聲譽、專業(yè)設(shè)置、學(xué)科排名、分?jǐn)?shù)線、招生人數(shù)和就業(yè)前景幾個方
再具體到某一個事件的表述:“張三要報考廣東工業(yè)大學(xué)”這一事件,可以建立語義關(guān)系如圖2所示。
圖2 報考事件的語義關(guān)系圖Fig.2 Semantic relations of“register for examination register for examination”
這樣清楚直觀的表示后,可以方便計算機理解并處理此語義關(guān)系,即可清晰的表達出具有清晰的語義互操作性的信息元。
4.3 實驗結(jié)果
應(yīng)用前面所討論的理論知識,考慮到關(guān)系型數(shù)據(jù)庫具有查詢、插入、修改和刪除操作的簡潔性,從執(zhí)行效率和成本角度考慮,本文使用關(guān)系型數(shù)據(jù)庫建立教育領(lǐng)域的概念體系[11]。本文使用的是SQL Server Express關(guān)系型數(shù)據(jù)庫。
知網(wǎng)是一個較為完整的知識系統(tǒng),且具有語義可操作性。所以,將知網(wǎng)2000知識庫存入SQL Server 2012 Express數(shù)據(jù)庫中,數(shù)據(jù)庫名為:Extenics_HowNet,并提取其中關(guān)于“教育”的所有詞匯,共606條記錄,建立表:Edu_HowNet。再按照G_C屬性值的不同,分別建立Edu_HowNet_N,Edu_HowNet_V,Edu_HowNet_ADJ 3張表,如圖3所示。
圖3 信息元表結(jié)構(gòu)Fig.3 Table of information element
如何才能證明計算機是否能理解我們的語義關(guān)系呢?本文主要通過基元語義相似度算法來判斷。如果算法的輸入結(jié)果在可接受范圍內(nèi),就可以判定該領(lǐng)域信息元庫具有語義互操作性。
在可拓信息-知識-策略形式化體系研究過程中,一個待求解問題最初可能是用自然語言表達的信息,如果自然語言存在二義性,計算機無法識別,就無法對該問題建立正確的可拓模型,更無法進一步處理。假設(shè)一個考生想要報考華師,但是在知識庫中并沒有“華師”這個基元,所以,利用文獻[12]的詞匯相關(guān)度算法,找出所有與其相關(guān)的詞語。
首先,建立“華師”信息物元,
然后,在信息元庫中查詢相應(yīng)信息物元信息,發(fā)現(xiàn)并未存放“華師”這一信息物元的具體信息。通過與知識庫中的基元比較,得出結(jié)果如下:
數(shù)據(jù)庫中查詢結(jié)果如圖4所示。
圖4 查詢結(jié)果Fig.4 Result of query
于是,可以將計算結(jié)果:“華中師范大學(xué)”,“華南師范大學(xué)”,“華東師范大學(xué)”推送給用戶。再通過與用戶的交互與反饋,確定哪所“華師”,從而消除語義模糊,以達到理解用戶意圖的目的。
本文基于知網(wǎng)這個通用的語義知識庫,借助知網(wǎng)義原表達方式,解決概念語義二義性問題并提出了一種建立可拓領(lǐng)域信息元庫的創(chuàng)建方法,并以教育領(lǐng)域的高考信息咨詢問題為例,用計算機實現(xiàn)了該建庫方法,驗證了該方法可行性,得到了可接受的結(jié)論。這個基礎(chǔ)工作的完成對今后可拓策略生成系統(tǒng)解決教育領(lǐng)域矛盾問題有重要意義。
[1]楊春燕,蔡文.可拓工程[M].北京:科學(xué)出版社,2007:1?10.YANG Chunyan,CAI Wen.Extension engineering[M].Beijing:Science Press,2007:1?10.
[2]李立希,楊春燕,李鏵汶.可拓策略生成系統(tǒng)[M].北京:科學(xué)出版社,2006:1?23.LI Lixi,YANG Chunyan,LI Huawen.The extension strategy generating system[M].Beijing:Science Press,2006:1?23.
[3]楊春燕,蔡文.可拓信息-知識-智能形式化體系研究[J].智能系統(tǒng)學(xué)報,2007,2(3):8?11.YANG Chunyan,CAI Wen.A formalized system of exten?sion information?knowledge?intelligence[J].CAAI Transac?tions on Intelligent System,2007,2(3):8?11.
[4]董振東.HowNet[EB/OL].[2013?10?09].http://www.keenage.com.
[5]郝長伶,董強.知網(wǎng)知識庫描述語言[C]//全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議.哈爾濱,中國,2003:371?377.HAO Changling,DONG Qiang.Knowledge database mark?up language of HowNet[C]//The 7th National Conference on Computer Linguistics.Harbin,China:2003:371?377.
[6]滕巖.基于領(lǐng)域知識的智能信息檢索研究[D].濟南:山東大學(xué),2006,61.TENG Yan.The research of intelligent information retrieval system based on domain knowledge[D].Jinan,China:Shandong University,2006,61.
[7]方卓君,李衛(wèi)華,李承曉.自助游可拓策略生成系統(tǒng)的研究與實現(xiàn)[J].廣東工業(yè)大學(xué)學(xué)報,2009,26(2):83?89.FANG Zhuojun,LI Weihua,LI Chengxiao.Research and realization of extension strategy generating system for inde?pendent travel[J].Journal of Guangdong University of Technology,2009,26(2):83?89.
[8]劉宗妹.本體可拓模型的復(fù)合元實現(xiàn)及應(yīng)用研究[D].廣州:廣東工業(yè)大學(xué),2010:1?48.LIU Zongmei.Research on ontology extension model imple?mented with complex elements and its application[D].Guangzhou,China:Guangdong University of Technology,2010:1?48.
[9]何平.基于可拓模型的本體進化研究[D].廣州:廣東工業(yè)大學(xué),2011,89. HE Ping.Study of the ontology evolution based on extension model[D].Guangzhou,China:Guangdong University of Technology,2011,89.
[10]馬捷,劉小樂,黃嵐,等.教育領(lǐng)域本體構(gòu)建研究[J].情報理論與實踐,2012,35(7):104?108.MA Jie,LIU Xiaole,HUANG Lan,et al.Research on the ontology construction in educational domain[J].Information Studies:Theory&Application,2012,35(7):104?108.
[11]劉小樂.教育領(lǐng)域頂層本體構(gòu)建及其應(yīng)用研究[D].吉林:吉林大學(xué),2012,64.LIU Xiaole.The construction and application research of the top?level ontology of educational domain[D].Jilin,China:Jilin University,2012,64.
[12]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].計算語言學(xué)及中文信息處理,2002,(7):59?76.LIU Qun,LI Sujian.Word similarity computing on how?net[J].Computational Linguistics and Chinese Information Processing,2002,(7):59?76.
Construction of HowNet?based extendable domain information element base
TAO Xing,LI Weihua,WANG Zhongfei
(College of Computer,Guangdong University of Technology,Guangzhou 510006,China)
To solve contradictory problems in a domain,it is necessary to construct the domain information element base and to improve the semantic recognition ability of computer software.Combined with the characteristics of for?malized expression of knowledge in HowNet,this paper proposes an approach to redefine the construction of basic?element which is the logic cell of Extenics to enhance semantic interoperability.Taking the domain of education as an example,the concepts and their properties of education are extracted in HowNet 2000,and further reconstructed and updated.Thereby the basic?element base of Extenics in the domain of education is built.A relational database(SQL Express)has been used to store the information element in the experiment,showing that the new basic?ele?ment can improve semantic interoperability,and proving the feasibility of the method.
Extenics;HowNet;information element;contradictory problem;semantic
陶星,女,1989年生,碩士研究生,主要研究方向為智能軟件。
李衛(wèi)華,女,1957年生,教授,主要研究方向為面向Agent計算、網(wǎng)絡(luò)信息系統(tǒng)、智能軟件。發(fā)表學(xué)術(shù)論文40余篇。
汪中飛,男,1988年生,碩士研究生,主要研究方向為智能軟件。
TP39
A
1673?4785(2015)05?0790?07
10.11992/tis.201412006
http://www.cnki.net/kcms/detail/23.1538.TP.20150827.1024.008.html
陶星,李衛(wèi)華,汪中飛.基于知網(wǎng)的可拓領(lǐng)域信息元庫的構(gòu)建方法[J].智能系統(tǒng)學(xué)報,2015,10(5):790?796.
英文引用格式:TAO Xing,LI Weihua,WANG Zhongfei.Construction of HowNet?based extendable domain information element base[J].CAAI Transactions on Intelligent Systems,2015,10(5):790?796.
2014?12?08.
日期:2015?08?27.
國家自然科學(xué)基金資助項目(61273306).
陶星.E?mail:xingtao0724@163.com.