陳 欣
解放軍外國語學(xué)院,河南 洛陽 471003
在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,如何利用計(jì)算機(jī)高效地理解和處理自然語言日益成為一個核心課題。自然語言處理須以語言知識為依托(黃曾陽,1998∶99),它包括語法、語用和語義知識,其中語法知識最早應(yīng)用于自然語言處理。自20世紀(jì)70年代起,對語義知識的研究日益受到重視,研究者們相繼提出了語義網(wǎng)絡(luò)(Semantic Network)、概念依存理論(Conceptual Dependency Theory)、格語法(Case Grammar)等語義表示理論。這些理論的發(fā)展和應(yīng)用使自然語言處理從語法層面深入到了語義層面,完成了形式到內(nèi)容質(zhì)的飛躍。
近年來,基于本體(Ontology)形式來表達(dá)和組織語義知識的方法成了人工智能領(lǐng)域的研究熱點(diǎn)之一,Nirenburg和Raskin(2004)提出了一種基于本體的語義理論,即本體語義學(xué)(Ontological Semantics),在這個理論中,本體是析取和表示自然語言文本意義的核心資源。在自然語言處理中,語義分析需要龐大的語義知識庫,20世紀(jì)80年代以來,國內(nèi)外發(fā)展了一批語義知識庫,著名的有WordNet、HowNet、北大的CCD等,從知識表示的角度來說,上述知識庫都可成為本體知識庫。
概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts,HNC)理論是由中國科學(xué)院聲學(xué)研究所黃曾陽研究員創(chuàng)立的自然語言理解和處理的理論體系,它緊扣建立概念聯(lián)想脈絡(luò)、模擬大腦語言感知過程這條主線,設(shè)計(jì)了一套符號體系來表達(dá)自然語言的語義知識。作為HNC理論的一大特色,精心設(shè)計(jì)的符號體系使得HNC理論的多個處理模塊環(huán)環(huán)相扣。這種高度抽象的符號化表達(dá)方式新穎簡介且便于計(jì)算機(jī)處理,但另一方面,其符號體系的獨(dú)特性、系統(tǒng)性和復(fù)雜性也增加了人們學(xué)習(xí)、理解、發(fā)展和應(yīng)用HNC理論的難度。與HNC符號化的表示不同,本體的表示可以將概念間的層次結(jié)構(gòu)和概念之間的關(guān)系明確地表達(dá)出來,便于人們的理解和應(yīng)用,同時用形式化描述語言的本體也可直接應(yīng)用于自然語言的計(jì)算機(jī)處理。如果將HNC理論對概念的表述用通用的本體形式表示出來,無疑將促進(jìn)HNC理論的發(fā)展和應(yīng)用,實(shí)現(xiàn)人和機(jī)器之間的知識共享。
本研究將基于HNC概念基元符號體系所揭示的概念知識,探討如何采用本體的方法和技術(shù)構(gòu)建知識庫,并進(jìn)行智能查詢。
本研究將采用Windows XP Professional SP1作為本體的建構(gòu)環(huán)境與使用環(huán)境。所要使用的軟件有本體編輯軟件Protégé3.4.1和JRE。Protégé3.4.1的安裝文件可從http∶//protege.stanford.edu下載,它集成了JRE的安裝文件,因此無需單獨(dú)下載JRE的安裝文件。
綜合分析常見本體知識庫的功能和特點(diǎn),緊密結(jié)合實(shí)際學(xué)習(xí)過程中的需求,以HNC理論為核心,建立一個本體知識庫,并通過Protégé軟件對知識進(jìn)行管理,實(shí)現(xiàn)對知識的更新,達(dá)到使本體知識庫高效率、高質(zhì)量、低成本的建設(shè)目標(biāo)。
圖1 知識庫體系結(jié)構(gòu)
現(xiàn)有的本體構(gòu)建方法一般都是本體通過研究組織和團(tuán)體本體項(xiàng)目開發(fā)的經(jīng)驗(yàn)總結(jié)而來的,方法很多但相互之間又有重疊的部分,Noy和McGuinness提出了一個簡單的知識工程方法——“七步法”,主要針對領(lǐng)域本體的構(gòu)建。我們以編輯工具Protégé為例來說明本體構(gòu)建的步驟。主要步驟如下:
1)確定本體的領(lǐng)域和范圍;
2)考慮重用已有的本體;
3)列舉本體中的重要的術(shù)語;
4)定義類及類的層次結(jié)構(gòu);
5)定義類的屬性;
6)定義屬性的限制條件;
7)創(chuàng)建實(shí)例。
基于HNC理論的本體知識庫主要包括三大模塊,即“HNC概念表示”模塊、“實(shí)例”模塊、“查詢”模塊,下面對每個模塊做一介紹。
“HNC概念表示”模塊。根據(jù)HNC概念節(jié)點(diǎn)的語義網(wǎng)絡(luò)及其相互聯(lián)系,在模塊中把HNC概念以樹形圖的形式表示出來,通過此模塊,我們可以更加清晰直觀地觀察HNC語義網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的關(guān)系,對我們更加深入地研究HNC理論大有裨益。在屬于不同級別節(jié)點(diǎn)的概念間,我們也可以通過屬性的設(shè)計(jì)建立聯(lián)系,使概念更加網(wǎng)絡(luò)化。
“實(shí)例”模塊。在概念節(jié)點(diǎn)的底層我們可以建立實(shí)例來具體說明這一概念。下面我們以“飛機(jī)”實(shí)例來具體解釋。比如,在“飛機(jī)”實(shí)例中我們可以建立不同的飛機(jī)型號,而不同型號的飛機(jī)的性能也不盡相同,在Protégé軟件中,我們可以把不同“性能”進(jìn)行賦值,從而完成實(shí)例的具體化和形象化,這也為進(jìn)行智能查詢進(jìn)行了鋪墊。
“查詢”模塊。Protégé自帶插件String Search和Queries可提供檢索服務(wù)。String Search插件只能進(jìn)行簡單的基于字符串的查詢,且功能單一,對中文的支持性也欠佳,因此主要采用Queries插件實(shí)現(xiàn)本體知識庫的智能查詢。由于基于HNC理論的本體知識庫中的術(shù)語由于定義清晰、表述準(zhǔn)確,并在概念層次上是統(tǒng)一的,因此檢索的時候不會返回重復(fù)的和無關(guān)的結(jié)果。本體中的概念描述主要是通過建立概念間關(guān)系和為概念定義各種屬性來實(shí)現(xiàn)的,所以本體不但能對概念進(jìn)行單獨(dú)的描述,而且可以從整個領(lǐng)域的高度出發(fā)來描述概念,具有較強(qiáng)的知識表現(xiàn)能力,能夠提供較高的查準(zhǔn)率與查全率。
基于HNC理論的本體知識庫建設(shè),對HNC相關(guān)概念及概念間關(guān)系進(jìn)行了清晰直觀地表述,并實(shí)現(xiàn)了智能查詢,提供了較高的查準(zhǔn)率和查全率。但是,知識庫仍存在以下不足,首先是概念中具體屬性間的聯(lián)系無法建立,無法在深層次上進(jìn)行知識表示,其次是隨著HNC理論的發(fā)展,其擴(kuò)展空間還很大,最后是使用的Protégé軟件及其插件還有更進(jìn)一步的擴(kuò)展空間,以提高知識庫的質(zhì)量。
綜上所述,基于HNC理論的本體知識庫建設(shè)是對HNC理論的與本體知識庫建設(shè)之間的有益結(jié)合,相信隨著HNC理論的發(fā)展和本體知識庫建設(shè)技術(shù)的進(jìn)步,此研究還有更大的應(yīng)用價值。
[1]Nirenburg, S.& Raskin, V.Ontological Semantics[M].Cambridge, MA: The MIT Press,2004.
[2]黃曾陽.在反思中前進(jìn)在碰撞中成長[D].第二屆HNC與語言學(xué)研究學(xué)術(shù)研討會論文集. 北京:海洋出版社,2004.
[3]黃曾陽(口述),池毓煥(整理).HNC概念基元符號體系概覽.HNC內(nèi)部資料,2006.
[4]苗傳江.HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論[M].北京:清華大學(xué)出版社,2005.
[5]郁書好.基于本體的教學(xué)知識庫研究[D].河海大學(xué)碩士學(xué)位論文,2006.
[6]張克亮.面向機(jī)器翻譯的漢英句類及句式轉(zhuǎn)換[M].開封:河南大學(xué)出版社,2007.