文 亮,李 娟,劉智穎,晉耀紅
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
在自然語(yǔ)言處理(NLP)領(lǐng)域,知識(shí)表示(knowledge representation)的主要目標(biāo)是把知識(shí)數(shù)字化、形式化、系統(tǒng)化,便于計(jì)算機(jī)儲(chǔ)存、識(shí)別、理解和處理知識(shí)。知識(shí)表示是自然語(yǔ)言理解的前提和基礎(chǔ),任何語(yǔ)言的理解都要建立在知識(shí)表示的基礎(chǔ)上。
在人工智能領(lǐng)域,本體(ontology,又稱為本體論)是一種“形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明”[1]。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對(duì)象類型或概念及其屬性和相互關(guān)系[2]。所以,本體實(shí)際上是依據(jù)某種類別體系,對(duì)實(shí)體、概念、事件及其屬性和相互關(guān)系的形式化表達(dá)。
概念層次網(wǎng)絡(luò)(hierarchical network of concepts, HNC)[3]理論以概念聯(lián)想脈絡(luò)為主線,建立了一種模擬大腦語(yǔ)言感知過(guò)程的自然語(yǔ)言表述、理解和處理模式,使計(jì)算機(jī)獲得消解歧義、理解自然語(yǔ)言的能力。HNC通過(guò)類別符號(hào)、層次符號(hào)以及結(jié)構(gòu)符號(hào)的組合,構(gòu)建了自然語(yǔ)言概念空間的符號(hào)化表述體系,可以表述詞語(yǔ)、句子、句群和篇章層面的語(yǔ)義知識(shí);同時(shí),HNC以概念基元為基本單位,概念基元的聯(lián)想脈絡(luò)模擬了人腦的認(rèn)知機(jī)制,可以實(shí)現(xiàn)概念之間的激活、聯(lián)想、擴(kuò)展、濃縮和存儲(chǔ)功能。
本文基于概念層次網(wǎng)絡(luò)的知識(shí)表示方式,構(gòu)建了多語(yǔ)言本體詞語(yǔ)知識(shí)庫(kù)。具體來(lái)說(shuō),是以HNC概念節(jié)點(diǎn)表為綱,對(duì)每一個(gè)概念進(jìn)行文字解釋,并列出概念所對(duì)應(yīng)的多語(yǔ)言詞語(yǔ),目前為中英雙語(yǔ)詞語(yǔ)捆綁。
目前的知識(shí)表示方式主要有兩種方式: (1)以WordNet[4]、知網(wǎng)(HowNet)[5]等本體知識(shí)庫(kù)為代表的知識(shí)表示方式;(2)以Word Embedding為代表的詞向量的知識(shí)表示方式。
WordNet是一個(gè)包含了語(yǔ)義信息的機(jī)讀詞典,它能夠支持自動(dòng)文本分析以及人工智能應(yīng)用。首先,WordNet 描述了每一個(gè)詞的基本意義;然后,根據(jù)詞條的意義,WordNet 將具有相同意義的詞條集合為一個(gè)Synset(同義詞集合);其次,WordNet 描述了不同Synset之間的語(yǔ)義關(guān)系。但是,WordNet只描述了名詞、動(dòng)詞、形容詞和副詞組成的同義詞網(wǎng)絡(luò),既不深入到義素分析中的義原(primitive)或概念,也不擴(kuò)展到超越單詞層面的腳本(script)或框架(frame),其描述的語(yǔ)義信息和關(guān)系相對(duì)有限,有其不足之處。
知網(wǎng)是一個(gè)描述詞語(yǔ)(漢語(yǔ)和英語(yǔ))所代表的概念,揭示概念與概念之間以及概念間各種關(guān)系的常識(shí)知識(shí)庫(kù)。知網(wǎng)定義了事件、萬(wàn)物、屬性、屬性值、部件、空間和時(shí)間七類最頂層的概念。建立了這七類概念之間的關(guān)系。知網(wǎng)通過(guò)800個(gè)“義原”對(duì)這些概念進(jìn)行描述。義原指的是最基本的、不能再分割的表達(dá)意義的最小單位。為了描述概念間的關(guān)系,知網(wǎng)定義了同義、反義、對(duì)義、上下義等語(yǔ)義關(guān)系。但知網(wǎng)對(duì)概念的定義過(guò)于模糊,使用義原解釋概念,雖然有利于整合概念之間的關(guān)系,但這種描述語(yǔ)言的方式不夠形式化和結(jié)構(gòu)化,在計(jì)算機(jī)處理語(yǔ)言時(shí)不能很好地被利用。
詞向量的知識(shí)表示方式一種是one-hot representation,另一種是distributed representation, Tomas Mikolov 等提出的詞向量表示工具Word2Vec[6]很有代表性,它將詞語(yǔ)轉(zhuǎn)化為向量,之后,Tomas Mikolov團(tuán)隊(duì)也將其推廣到了句子和文檔的表示中[7],將它們轉(zhuǎn)換為一個(gè)低維語(yǔ)義空間中的數(shù)值向量。其優(yōu)勢(shì)在于將自然語(yǔ)言處理過(guò)程中的語(yǔ)義鴻溝現(xiàn)象,通過(guò)低維空間中向量間數(shù)值計(jì)算得以一定程度的改善或解決[8],因此基于深度學(xué)習(xí)知識(shí)表示技術(shù)在自然語(yǔ)言處理領(lǐng)域得到了廣泛應(yīng)用。但是,向量表示難以具體描述具體的語(yǔ)義信息,在消解歧義方面還面臨著巨大的挑戰(zhàn)[9]。
基于概念層次網(wǎng)絡(luò)的知識(shí)表示體系和其他知識(shí)表示方式相比,該體系以語(yǔ)言理解基因?yàn)楹诵?,綜合語(yǔ)義和語(yǔ)境信息,描述跨越詞匯、句子、句群篇章多個(gè)層面的、統(tǒng)一的語(yǔ)義知識(shí)表示方法,解決語(yǔ)義信息系統(tǒng)化問(wèn)題。這種表示體系可以解決面向海量文本處理時(shí),知識(shí)表示不統(tǒng)一、語(yǔ)義信息無(wú)法系統(tǒng)化利用的問(wèn)題。不僅可以為大規(guī)模中文語(yǔ)義處理核心關(guān)鍵技術(shù)和應(yīng)用系統(tǒng)研究提供理論基礎(chǔ),建設(shè)的知識(shí)庫(kù)也可以為面向領(lǐng)域的知識(shí)資源建設(shè)提供支持。
同時(shí),HNC多語(yǔ)言本體表示方式以數(shù)字化、基元化的概念表示為基礎(chǔ),給出概念之間的關(guān)聯(lián)性、句子的表述模式、句群和篇章的表述框架,以及概念在句子、句群和篇章中的語(yǔ)義、語(yǔ)用信息。語(yǔ)言理解基因不僅可以激活詞匯之間的語(yǔ)義計(jì)算,也可以激活句子層面的關(guān)聯(lián)計(jì)算,同時(shí)可以激活句群和篇章層面的語(yǔ)境計(jì)算,把大規(guī)模文本內(nèi)容轉(zhuǎn)換為動(dòng)態(tài)記憶。將知識(shí)推理蘊(yùn)含于符號(hào)表示之中,與其他工作相比具有獨(dú)特性與優(yōu)勢(shì)。
概念層次網(wǎng)絡(luò)(hierarchical network of concepts,HNC)是模擬大腦對(duì)語(yǔ)言感知的過(guò)程建立起的表示概念聯(lián)想脈絡(luò)的語(yǔ)義網(wǎng)絡(luò)[10]。這個(gè)理論框架是以語(yǔ)義表達(dá)為基礎(chǔ)的,它對(duì)語(yǔ)義的表達(dá)是概念化、層次化、網(wǎng)絡(luò)化的,所以稱它為概念層次網(wǎng)絡(luò)理論[11]。
HNC理論認(rèn)為概念無(wú)限而概念基元有限、語(yǔ)句無(wú)限而句類有限、語(yǔ)境無(wú)限而語(yǔ)境單元(理解基因)有限、顯記憶無(wú)限而隱記憶有限,所以HNC將語(yǔ)言概念空間分為概念基元空間、句類空間、語(yǔ)境單元空間、語(yǔ)境框架空間四個(gè)層級(jí)。HNC對(duì)這四層級(jí)的結(jié)構(gòu)體設(shè)計(jì)了相應(yīng)的符號(hào)體系,建立了語(yǔ)言概念空間體系(包括語(yǔ)義概念基元體系和語(yǔ)句基元體系),通過(guò)作用效應(yīng)鏈,建立起層次性、網(wǎng)絡(luò)性的概念表述模式,從而使計(jì)算機(jī)能夠理解詞語(yǔ)、句子、句群及篇章的語(yǔ)義。
2.2.1 語(yǔ)言概念空間符號(hào)體系
詞匯層面的表示模式主要通過(guò)概念節(jié)點(diǎn)來(lái)表示,對(duì)應(yīng)于概念基元表示式,即概念基元符號(hào)體系。這種表示模式具有語(yǔ)義完備性,能夠與自然語(yǔ)言的詞語(yǔ)建立起語(yǔ)義映射關(guān)系。同時(shí),它高度形式化,每一個(gè)符號(hào)基元(每個(gè)字母或數(shù)字)都具有確定的意義,可充當(dāng)概念聯(lián)想的激活因子。
HNC把概念分為抽象概念和具體概念。具體概念是指必須確定“所指對(duì)象”的概念,基本物概念和掛靠概念屬于具體概念,如光和房子;抽象概念是指不必確定“所指對(duì)象”的概念,除了基本物概念和掛靠概念的都屬于抽象概念。
抽象概念的第一子類即作用效應(yīng)鏈,HNC命名為主體基元概念,黃曾陽(yáng)先生認(rèn)為“所謂一個(gè)事物的知識(shí)表示,歸根結(jié)底就是對(duì)作用、過(guò)程、轉(zhuǎn)移、效應(yīng)、關(guān)系和狀態(tài)這六個(gè)側(cè)面的表述”[12],這六個(gè)節(jié)點(diǎn)是自然語(yǔ)言對(duì)萬(wàn)事萬(wàn)物進(jìn)行描述的六個(gè)基本角度,也是一切事物發(fā)生、發(fā)展和消亡的六個(gè)基本環(huán)節(jié)。在這六個(gè)一級(jí)節(jié)點(diǎn)之下,衍生出許多子節(jié)點(diǎn),共同描述每個(gè)概念的不同方面。
抽象概念的第二子類為“擴(kuò)展基元概念”,主要描述人類活動(dòng)的方方面面,包括生理本能活動(dòng)、心理活動(dòng)及精神狀態(tài)、思維活動(dòng)、社會(huì)活動(dòng)等一級(jí)節(jié)點(diǎn)及其衍生的子節(jié)點(diǎn)。HNC理論用五元組特性表示抽象概念的特性?,F(xiàn)代漢語(yǔ)將詞分為動(dòng)詞、名詞、形容詞、副詞等詞性,HNC理論用五元組來(lái)描述同一概念的不同側(cè)面,分別代表概念的動(dòng)態(tài)(v)、靜態(tài)(g)、值(z)、屬性(u)和效應(yīng)(r),具體如表1所示。
表1 抽象概念的五元組特性
具體概念中,基本物概念節(jié)點(diǎn)主要包括熱、光、聲、電磁、微觀基本物、宏觀基本物和生命體這些一級(jí)節(jié)點(diǎn)及其衍生子節(jié)點(diǎn),但基本物只是具體物的一小部分,掛靠概念也用來(lái)描述具體物。掛靠指把一個(gè)概念的層次符號(hào)與相關(guān)概念的層次符號(hào)拼接在一起。例如,表示“教師”這個(gè)具體物,首先p代表人,其次基元概念的a行是專業(yè)活動(dòng),所以就將p(人)和 a71(a代表專業(yè)活動(dòng),a7代表教育,a71代表教)的層次符號(hào)拼接在一起,pa71就代表“教師”。
HNC使用英語(yǔ)字母、數(shù)字、組合結(jié)構(gòu)符作為概念或概念基元的表示符號(hào)。描述抽象概念的字母主要有j(表示基本概念)、l(語(yǔ)法邏輯概念)、f(語(yǔ)習(xí)邏輯概念)、s(綜合邏輯概念),抽象概念具有五元組特性(字母表示如表1所示);描述具體概念的字母主要有p(人)、w(物),這些字母表示的符號(hào)稱為類別符號(hào)。數(shù)字0~14表示概念的層次性內(nèi)涵,稱為層次符號(hào)。HNC定義了12 種概念組合符,即: 作用(#)、效應(yīng)($)、對(duì)象(&)、內(nèi)容(|)、偏正(/)、主謂(‖)、展開(kāi)(+)、并(,)、選(;)、一般邏輯組合(lyy)、非(!)、反(^),這些字母用來(lái)表示符合概念的組合結(jié)構(gòu)。
HNC對(duì)自然語(yǔ)言概念的符號(hào)化表述可以一般化為:
∑{類別符號(hào)串}{層次符號(hào)串}{組合結(jié)構(gòu)符號(hào)}{類別符號(hào)串}{層次符號(hào)串}
類別符號(hào)串和層次符號(hào)串構(gòu)成一個(gè)概念基元的表達(dá)式,組合結(jié)構(gòu)符號(hào)可以將兩個(gè)或多個(gè)概念基元組合成新的概念。
例如: “思考”的表達(dá)式v80,v代表類別符號(hào),表示這個(gè)概念是動(dòng)態(tài)的作用,80代表層次符號(hào),8表示思維活動(dòng),80是8的子節(jié)點(diǎn),表示一般思維活動(dòng)。“阻礙”的表達(dá)式為v376#v362, v376表示阻礙,v362表示抑制,前者是作用,后者是該作用產(chǎn)生的效應(yīng),#表示作用產(chǎn)生了后面的效應(yīng),組合起來(lái)就表示阻礙這個(gè)概念。
基于HNC的詞語(yǔ)表示在計(jì)算語(yǔ)義距離時(shí)非常方便,如“國(guó)家”表示為pj2,“亞洲國(guó)家”表示為pj2*1,“中國(guó)”表示為pj2*16,從它們的HNC表達(dá)式可以看出“國(guó)家”和“中國(guó)”之間是有關(guān)聯(lián)關(guān)系的。其中,p表示人,pj表示人化的基本概念,數(shù)字表示概念的層次性。
人工生成HNC符號(hào)的效率和成本很低,在應(yīng)用過(guò)程中,也產(chǎn)生了HNC符號(hào)與詞匯的映射工具[13],這一自動(dòng)化映射工具大大減輕了詞匯與HNC符號(hào)的轉(zhuǎn)換成本,為后續(xù)的詞匯理解、句子理解、句群和篇章理解奠定了基礎(chǔ)。
2.2.2 語(yǔ)言理解基因
語(yǔ)言概念空間符號(hào)體系的數(shù)字化表示是語(yǔ)言理解基因的基礎(chǔ)結(jié)構(gòu),語(yǔ)言理解基因主要靠詞語(yǔ)直接激活,有了詞語(yǔ)層面的激活才有語(yǔ)句和篇章層面上層建筑的實(shí)現(xiàn)。
語(yǔ)言理解基因的總體設(shè)計(jì)思路可以用如下語(yǔ)言表述:
理解基因::=范疇表示+結(jié)構(gòu)與功能的各級(jí)綜合表示 (::=表示等價(jià)于)
范疇描述層次性;結(jié)構(gòu)與功能描述網(wǎng)絡(luò)性(關(guān)聯(lián)性)。下文以多語(yǔ)言本體知識(shí)庫(kù)構(gòu)建為例實(shí)現(xiàn)基于語(yǔ)言概念空間符號(hào)體系的本體構(gòu)建。
2.3.1 多語(yǔ)言本體知識(shí)庫(kù)構(gòu)建的具體標(biāo)準(zhǔn)
2.3.1.1 概念節(jié)點(diǎn)的選擇
HNC語(yǔ)義網(wǎng)絡(luò)中任何一個(gè)節(jié)點(diǎn)都代表一個(gè)概念,同時(shí)也都是概念的基元。雖然在現(xiàn)實(shí)生活中概念是無(wú)限的,但作為概念的“元素”的基元是有限的,這些概念基元可以組合成無(wú)窮無(wú)盡的概念,從而描述自然語(yǔ)言的所有概念。
HNC理論認(rèn)為大腦自然語(yǔ)言理解基因的直接主體構(gòu)成大約是15 000個(gè)的概念基元,這有限的15 000個(gè)概念基元基本可以描述無(wú)限的概念。這項(xiàng)理解基因的探索屬于大腦研究的戰(zhàn)略性課題,目前HNC詞語(yǔ)知識(shí)庫(kù)針對(duì)性地選取了全部的5 000個(gè)高層概念節(jié)點(diǎn)對(duì)它們進(jìn)行描述,這5 000個(gè)高層概念節(jié)點(diǎn)囊括了約10萬(wàn)條詞語(yǔ)。
2.3.1.2 標(biāo)注規(guī)范
多語(yǔ)言本體知識(shí)庫(kù)以HNC概念節(jié)點(diǎn)表為綱,對(duì)每一個(gè)概念進(jìn)行符號(hào)化表示和詳細(xì)描述,囊括概念涉及的各個(gè)側(cè)面的詞語(yǔ),并且通過(guò)概念間的關(guān)聯(lián)表示出概念與概念之間的關(guān)系。標(biāo)注主要從對(duì)單個(gè)概念節(jié)點(diǎn)的具體描述、概念與概念間的關(guān)聯(lián)兩方面展開(kāi)。
1) 概念節(jié)點(diǎn)的描述
HNC將概念節(jié)點(diǎn)映射為由字母、數(shù)字、一些代表組合結(jié)構(gòu)符號(hào)組成的HNC表達(dá)式。表達(dá)式的每一個(gè)符號(hào)都具有確定的意義,充當(dāng)概念聯(lián)想的激活因子。如2.2.1節(jié)所述,HNC把概念區(qū)分為具體概念和抽象概念,抽象概念節(jié)點(diǎn)具有五元組特性中的全部或部分屬性,每個(gè)詞語(yǔ)從不同側(cè)面描述這個(gè)概念節(jié)點(diǎn)的多元性表現(xiàn)。具體概念(除基本物概念外)則通過(guò)掛靠的方式來(lái)表示。
知識(shí)庫(kù)中描述的概念節(jié)點(diǎn)的信息[14]應(yīng)包括: ①該節(jié)點(diǎn)的中英文命名,②概念節(jié)點(diǎn)之間的層次關(guān)系(上位概念、下位概念和同位概念),③該節(jié)點(diǎn)所捆綁的詞語(yǔ)(動(dòng)態(tài)詞語(yǔ)、靜態(tài)詞語(yǔ)、屬性詞語(yǔ)、值詞語(yǔ)、效應(yīng)詞語(yǔ)),④概念之間的關(guān)聯(lián)性。
2) 概念關(guān)聯(lián)性
詞語(yǔ)知識(shí)庫(kù)中,概念之間具有關(guān)聯(lián)性,概念關(guān)聯(lián)式是語(yǔ)言理解基因的主體信息渠道。關(guān)聯(lián)主要通過(guò)節(jié)點(diǎn)的定義和結(jié)構(gòu)符號(hào)的運(yùn)用規(guī)定節(jié)點(diǎn)之間的關(guān)系,具體包含以下幾類:
(1) 概念間的層次性
概念節(jié)點(diǎn)之間具有高層、中層和底層之分,高層節(jié)點(diǎn)表達(dá)概念的層次性,中層節(jié)點(diǎn)表達(dá)概念的對(duì)偶、對(duì)比和包含特性,底層概念表達(dá)概念的網(wǎng)絡(luò)性。HNC語(yǔ)義網(wǎng)絡(luò)中高層層數(shù)是確定的,如j類: 基本概念,其高層節(jié)點(diǎn)的層數(shù)是兩層,表示為j0,j1,j2,…,j8。中層節(jié)點(diǎn)的例子在自然語(yǔ)言中非常常見(jiàn),如“強(qiáng)u00c21”與“弱u00c22”是對(duì)比關(guān)系,“對(duì)jgu841”與“錯(cuò)jgu842”是對(duì)偶關(guān)系,“年wj10”“月wj10-0”“日wj10-00”之間是包含關(guān)系。層次性判斷可簡(jiǎn)化為概念表達(dá)式的數(shù)字串是否相同,因而語(yǔ)義距離計(jì)算的部分問(wèn)題就可使用逐層比較數(shù)字串的方法來(lái)解決。
(2) 概念間的網(wǎng)絡(luò)性
概念的網(wǎng)絡(luò)性分為兩種形式: 交式關(guān)聯(lián),鏈?zhǔn)疥P(guān)聯(lián)。
① 交式關(guān)聯(lián)指的是兩個(gè)概念有交叉,即同一概念本體從不同觀察角度看到的不同映象。如“死亡”這個(gè)概念,從過(guò)程看,它是“代謝”的“謝14e62”;從“效應(yīng)”看,它是“消失312”;從狀態(tài)看,它是“減少50041e42”,所以過(guò)程節(jié)點(diǎn)14e62、效應(yīng)節(jié)點(diǎn)312和狀態(tài)節(jié)點(diǎn)50041e42是交式關(guān)聯(lián)的。
② 鏈?zhǔn)疥P(guān)聯(lián)是作用效應(yīng)鏈各環(huán)節(jié)的因果性表現(xiàn)。例如,“效應(yīng)的擴(kuò)展與縮小vg34”鏈?zhǔn)疥P(guān)聯(lián)于“量與范圍j4”。
(3) 概念關(guān)聯(lián)符號(hào)定義的關(guān)聯(lián)性
上述幾種關(guān)聯(lián)類型主要通過(guò)概念節(jié)點(diǎn)本身的表征符號(hào)來(lái)揭示概念之間的關(guān)聯(lián)性。除此之外,HNC理論還定義了常見(jiàn)的10種邏輯關(guān)聯(lián)類型,并設(shè)計(jì)了特定的關(guān)聯(lián)符號(hào)將概念關(guān)聯(lián)起來(lái),用于描述概念之間的內(nèi)容邏輯關(guān)系。
比如,關(guān)聯(lián)符號(hào)“=%”表示一個(gè)概念包含另一個(gè)概念。具體的關(guān)聯(lián)符號(hào)及其含義如表2所示。
表2 概念關(guān)聯(lián)式的10個(gè)特定內(nèi)容邏輯符號(hào)
2.3.1.3 標(biāo)注一致性
針對(duì)選取的5 000個(gè)高層概念節(jié)點(diǎn),我們希望盡可能地根據(jù)概念找到概念所描述的所有詞語(yǔ),將描述它的不同側(cè)面的詞語(yǔ)窮盡性地填寫在知識(shí)庫(kù)中。知識(shí)庫(kù)的每個(gè)概念由兩個(gè)不同的填寫者進(jìn)行填寫,經(jīng)過(guò)對(duì)比,對(duì)填寫者不確定或兩位填寫者標(biāo)注不一致之處進(jìn)行討論,經(jīng)過(guò)討論決定最終標(biāo)注結(jié)果。
根據(jù)以上的標(biāo)注規(guī)范,我們對(duì)選取的5 000個(gè)高層概念節(jié)點(diǎn)進(jìn)行了描述,具體實(shí)例以節(jié)點(diǎn)“3a1”即概念“獲得”來(lái)展示,如表3所示。
表3 概念“獲得”的具體描述
概念節(jié)點(diǎn)“3a1”的中文命名為【獲得】,英文命名為“obtain”。
概念【獲得】的形式化表示符號(hào)為“3a1”, 其上位概念為“3a【獲得與付出】”,下位概念為“3a13【不道德的獲得】;3a19【需求】;3a1a【索取】”,同位概念為“3a2【付出】”。
概念關(guān)聯(lián)的五元組中動(dòng)態(tài)詞語(yǔ)為“獲得; 博得; 捕獲; 得到; 取得; 贏得; 攫取 obtain; receive; gain; achieve; win; get; procure; attain; acquire”,靜態(tài)詞語(yǔ)有“obtaining; procurement; acquisition”,值詞語(yǔ)為“獲得性”,效應(yīng)詞語(yǔ)為“得分; 薪水; 收入; 稅收; 成果 score; payment; achievement; tax; outcome”,屬性詞語(yǔ)為“available; obtainable; handy”。
掛靠類型和具體概念這兩處為空值。
關(guān)聯(lián)式為“::=”表示節(jié)點(diǎn)【3a1】等價(jià)于關(guān)聯(lián)節(jié)點(diǎn)【(201∪3818)$461】。
通過(guò)表3中各項(xiàng)信息的描述,“獲得”這一概念就以概念層次網(wǎng)絡(luò)的表示方式被描述出來(lái)了。
2.3.2 知識(shí)庫(kù)中概念的更新
HNC理論認(rèn)為概念無(wú)限而概念基元有限,現(xiàn)有的HNC概念符號(hào)能夠表示任何概念,而具體概念向抽象概念掛靠,新出現(xiàn)的具體概念可以通過(guò)向抽象概念掛靠實(shí)現(xiàn)。
目前,本體廣泛應(yīng)用的一個(gè)瓶頸在于本體構(gòu)建的自動(dòng)化程度不高,多數(shù)本體還依賴于手工構(gòu)建。如何提高本體構(gòu)建的自動(dòng)化程度,減少本體構(gòu)建的成本,提高本體的共享程度,是目前亟待解決的問(wèn)題。我們所構(gòu)建的多語(yǔ)言本體知識(shí)庫(kù)是一個(gè)動(dòng)態(tài)更新的系統(tǒng),填寫者可以按要求填寫概念知識(shí),管理員經(jīng)過(guò)審核后可以確認(rèn)刪除或修改填寫的概念節(jié)點(diǎn)。我們希望不斷有新的填寫者加入本體知識(shí)庫(kù)的構(gòu)建中,采用眾包的方式,不斷擴(kuò)展、完善知識(shí)庫(kù),使之成為能被調(diào)用的活知識(shí)。填寫界面如圖1所示。
圖1 多語(yǔ)言本體知識(shí)庫(kù)中概念知識(shí)填寫細(xì)目
填寫者可以填寫概念符號(hào)的屬性值,包括中英文命名,此概念捆綁的動(dòng)態(tài)詞語(yǔ)、靜態(tài)詞語(yǔ)、屬性詞語(yǔ)、值詞語(yǔ)、效應(yīng)詞語(yǔ)(填寫的詞語(yǔ)需有中英文對(duì)照),基本概念、上下位概念和概念關(guān)聯(lián)。
2.3.3 多語(yǔ)言本體知識(shí)庫(kù)的應(yīng)用
多語(yǔ)言本體知識(shí)庫(kù)目前已應(yīng)用到機(jī)器翻譯的實(shí)際任務(wù)中,可解決漢英概念之間的映射問(wèn)題,這種映射不單單只是詞語(yǔ)之間的映射,而是兩種自然語(yǔ)言之間的轉(zhuǎn)換,這種自然轉(zhuǎn)換可以提高機(jī)器翻譯系統(tǒng)的譯準(zhǔn)率。同時(shí)數(shù)字化、符號(hào)化的詞語(yǔ)表示方式對(duì)于語(yǔ)義距離的計(jì)算很有優(yōu)勢(shì),在選擇候選詞時(shí),系統(tǒng)能夠根據(jù)HNC編碼優(yōu)先判定常用搭配語(yǔ)塊。
句子層面的知識(shí)表示模式是指用句類表示式描述句子的語(yǔ)義結(jié)構(gòu)特征,HNC用句類(sentence category,簡(jiǎn)稱SC)表示式來(lái)表征無(wú)限的語(yǔ)句。HNC定義的句類指的是句子的語(yǔ)義類型,而不是指陳述句、疑問(wèn)句、祈使句和感嘆句之分[15]。句類體系主要由廣義作用句和廣義效應(yīng)句組成,前者包括作用句、轉(zhuǎn)移句、關(guān)系句和一般判斷句四個(gè)類型,后者包括過(guò)程句、效應(yīng)句、狀態(tài)句和基礎(chǔ)判斷句四個(gè)類型[16]。這八大類型細(xì)分為57種基本句類,57種基本句類理論上可以衍生出3 192組混合句類。以57種基本句類為基元,通過(guò)句類的混合和復(fù)合就可以實(shí)現(xiàn)對(duì)自然語(yǔ)言語(yǔ)句的語(yǔ)義結(jié)構(gòu)描述。句類命名和句類符號(hào)對(duì)應(yīng)關(guān)系如表4所示。
表4 句類命名和句類符號(hào)對(duì)應(yīng)關(guān)系
句類表示式由語(yǔ)塊構(gòu)成,語(yǔ)塊是語(yǔ)句的下一級(jí)語(yǔ)義構(gòu)成單位。HNC定義語(yǔ)塊是句類的函數(shù),即句類決定句類表示式中含有哪些語(yǔ)塊的表示式。語(yǔ)塊存在主塊和輔塊兩種基本類型,語(yǔ)塊和主塊用同一個(gè)字母K表示,輔塊用字母fK表示。主塊四要素為: 特征要素(E)、作用者(A)、對(duì)象(B)和內(nèi)容(C),輔塊七要素為: 手段(Ms)、工具(In)、途徑(Wy)、比照(Re)、條件(Cn)、起因(Pr)、目的(Rt)。
HNC句類一般表示式如下:
SC=JK1+{EK+JKm}(m=2~4)
SCR= SC+fKm
舉例如下:
例1李四||拒絕了||領(lǐng)導(dǎo)的要求。
X21J=X2A+X2+XBC
主動(dòng)反應(yīng)句=反應(yīng)者+反應(yīng)行為+反應(yīng)引發(fā)者及其表現(xiàn)
例子中,X21是句類代碼,X表示作用句,等號(hào)右邊是這個(gè)句子的句類表示式。其中,X2A表示反應(yīng)者,X2表示反應(yīng)行為,XBC表示反應(yīng)引發(fā)者及其表現(xiàn)。
主動(dòng)反應(yīng)句屬于廣義作用句,還可以有不同的格式代碼,例子可以變?yōu)椤袄钏陌杨I(lǐng)導(dǎo)的要求拒絕了(!11X21J=X2A+XBC+X2)”、“領(lǐng)導(dǎo)的要求被李四拒絕了(!12X22J=XBC+X2A+X2)”。
通過(guò)字母符號(hào)及句類衍生,HNC句類表示式可以實(shí)現(xiàn)對(duì)有限的句類的表示,從而解決無(wú)限的語(yǔ)句形式化問(wèn)題。
在HNC表示體系下,我們把信息抽象成三個(gè)側(cè)面: 領(lǐng)域、情景、背景,三個(gè)側(cè)面構(gòu)成語(yǔ)境三要素[17]。(在這里,我們把句群、段落、篇章稱為信息的載體。)對(duì)句群、段落、篇章的表示就是對(duì)不同顆粒度大小的語(yǔ)境的描述。通過(guò)對(duì)表征信息的三個(gè)不同側(cè)面(領(lǐng)域、情景、背景)的描述,我們可以形式化地表示出語(yǔ)境。
在HNC語(yǔ)境框架理論中,領(lǐng)域描述事件的所屬類型,可以看成是對(duì)事件范疇的靜態(tài)描述。情景用來(lái)描述事件的作用效應(yīng)鏈的具體表現(xiàn)。各參與者以及他們之間的語(yǔ)義關(guān)系、事件的內(nèi)容通常由情景描述指定。背景則用來(lái)描述事件發(fā)生的條件、敘述者和論述者的背景、敘述者和論述者的特定視野等。情景和事件背景可以理解為是領(lǐng)域的函數(shù)。
HNC理論認(rèn)為,任何語(yǔ)段、篇章等構(gòu)成的語(yǔ)境都是由若干個(gè)有限的基本構(gòu)件組合而成。我們把這些基本構(gòu)件稱為語(yǔ)境單元。語(yǔ)境單元由領(lǐng)域DOM、情景SIT和背景BAC三要素構(gòu)成,而背景BAC又分為事件背景BACE和述者背景BACA。語(yǔ)境框架被用來(lái)抽象表示語(yǔ)境各要素的構(gòu)成方式。語(yǔ)境各要素的構(gòu)成方式可以形式化地表示如下[18]:
SGUN=(DOM;SIT;BACE;BACA)
SGUD=(8y: |DOM;SIT;BACE;BACA)
SIT=SCD(A,B,C)
其中,SGUN—語(yǔ)境單元,分為敘述(Narrate)型、論述(Discuss)型;DOM—領(lǐng)域;SIT—情景;BAC—背景;BAC[E//A]——事件//述者背景;SGUD—語(yǔ)境框架;SCD—領(lǐng)域句類。
語(yǔ)境描述的基礎(chǔ)來(lái)源于對(duì)上下文詞語(yǔ)的HNC概念符號(hào)的解析。在HNC中,概念基元體系網(wǎng)絡(luò)中的擴(kuò)展基元概念專門用來(lái)描述人類活動(dòng)。人類不同的領(lǐng)域活動(dòng)由不同的符號(hào)表示。HNC定義了11大類的領(lǐng)域,每一大類都可以有不同的子類,不同的子類也可以進(jìn)行組合。語(yǔ)境三要素中的領(lǐng)域信息可以通過(guò)解析相關(guān)詞語(yǔ)的HNC語(yǔ)義符號(hào)得到。在確定領(lǐng)域信息后,根據(jù)不同領(lǐng)域所蘊(yùn)含的世界知識(shí),通過(guò)進(jìn)行HNC特有的語(yǔ)義句類分析就可以形成對(duì)領(lǐng)域句類SCD的判定。此后,再利用人類專家設(shè)計(jì)完成的領(lǐng)域句類知識(shí)為指導(dǎo),我們就可以確定語(yǔ)境的情景SIT描述。另外,在領(lǐng)域句類知識(shí)的指導(dǎo)下,通過(guò)分析輔語(yǔ)義塊或某些HNC 語(yǔ)義符號(hào),我們就可以用HNC符號(hào)形式化地描述出背景BAC。語(yǔ)境的三要素(領(lǐng)域、情景、背景)確定之后,語(yǔ)境的表示也就自然出來(lái)了。
本文構(gòu)建的多語(yǔ)言本體詞匯知識(shí)庫(kù)可以作為自然語(yǔ)言理解系統(tǒng)的基礎(chǔ)資源,應(yīng)用于信息檢索、自動(dòng)問(wèn)答、機(jī)器翻譯等領(lǐng)域。相較于WordNet和HowNet,HNC詞匯知識(shí)庫(kù)是完全符號(hào)化、數(shù)字化的,具有形式化、層次化、網(wǎng)絡(luò)化的特點(diǎn),在具體應(yīng)用及任務(wù)中更加便于計(jì)算機(jī)分析和處理自然語(yǔ)言。
基于概念層次網(wǎng)絡(luò)的知識(shí)表示方法能更好地解決自然語(yǔ)言歧義性這一難題,本文描述了概念層次網(wǎng)絡(luò)多個(gè)層次(詞匯、句子、句群、篇章)的語(yǔ)義知識(shí)表示方式,限于篇幅和實(shí)際描述的浩大工程,本文對(duì)詞匯層面的知識(shí)表示方式及其本體實(shí)現(xiàn)做了具體描述,對(duì)句子和句群及篇章層面只介紹了基本的表示模式,對(duì)于其具體實(shí)現(xiàn)及應(yīng)用將另行撰文闡述。
[1] Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220.
[2] Fensel D. Ontologies[M]. Berlin and Heidelberg: Springer, 2001: 11-18.
[3] Liu Z, Hu R, Jin Y, et al. The multi-language knowledge representation based on hierarchical network of concepts[C]//Proceedings of the 16th Workshop on Chinese Lexical Semantics. Springer International Publishing, 2015: 471-477.
[4] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[5] Dong Z, Dong Q. HowNet Chinese-English conceptual database[R]. Technical Report Online Software Database, ACL, 2000.
[6] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Proc of ICLR. 2013,arXiv: 1301.3781.
[7] Le Q V, Mikolov T. Distributed representations of sentences and documents[C]//Proceedings of the ICML 2014, 2014: 1188-1196.
[8] 劉康,張?jiān)?紀(jì)國(guó)良,等. 基于表示學(xué)習(xí)的知識(shí)庫(kù)問(wèn)答研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào),2016,(06): 807-818.
[9] 劉知遠(yuǎn),孫茂松,林衍凱,等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展,2016(02): 247-261.
[10] 黃曾陽(yáng). HNC理論全書[M].北京: 科學(xué)出版社,2015.
[11] 黃曾陽(yáng). HNC理論概要[J]. 中文信息學(xué)報(bào),1997,11(04): 12-21.
[12] 黃曾陽(yáng). HNC的發(fā)展和未來(lái)[C]. HNC 與語(yǔ)言學(xué)研究學(xué)術(shù)研討會(huì), 2001: 53-68.
[13] 熊亮,姚娟. HNC符號(hào)與詞匯的映射工具的設(shè)計(jì)[C]. HNC 與語(yǔ)言學(xué)研究學(xué)術(shù)研討會(huì), 2001: 368-372.
[14] 李偉.基于HNC理論的本體知識(shí)表示研究[D].北京: 北京師范大學(xué)碩士學(xué)位論文, 2016.
[15] 苗傳江. HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論[M ].北京: 清華大學(xué)出版社, 2005.
[16] 晉耀紅. HNC(概念層次網(wǎng)絡(luò))語(yǔ)言理解技術(shù)及其應(yīng)用[M ].北京: 科學(xué)出版社, 2006.
[17] 黃曾陽(yáng).語(yǔ)言概念空間的基本定理和數(shù)學(xué)物理表示式[M].北京: 海洋出版社, 2004.
[18] 黃曾陽(yáng). 語(yǔ)境表示式與記憶[J]. 云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2010,(04): 7-14.
E-mail: liuzhy@bnu.edu.cn