王東升,王 石,王衛(wèi)民,符建輝,諸 峰
(1 江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江 212003; 2.北京工業(yè)大學(xué) WIC研究院,北京 100124; 3中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)
問(wèn)答系統(tǒng)是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。能否正確地理解用戶(hù)意圖是自動(dòng)問(wèn)答系統(tǒng)的關(guān)鍵,其核心是自然語(yǔ)言理解。面向領(lǐng)域的自然語(yǔ)言理解(NLU)技術(shù)是垂直搜索引擎、領(lǐng)域相關(guān)問(wèn)答系統(tǒng)等應(yīng)用的核心技術(shù)之一,可以解決當(dāng)前實(shí)際需求與開(kāi)放域自然語(yǔ)言理解系統(tǒng)能力不匹配的強(qiáng)烈矛盾[1]。問(wèn)答系統(tǒng)中用戶(hù)提交的問(wèn)題通常是一些長(zhǎng)度較短的“句子”,與長(zhǎng)文本相比,短文本的理解有一些不同之處。首先,很多場(chǎng)景下要處理的短文本通常不符合書(shū)面語(yǔ)的語(yǔ)法,這就意味著傳統(tǒng)的NLP方法如詞性標(biāo)注、依賴(lài)句法分析等不能直接用到短文本理解中。再次,短文本的語(yǔ)境信息通常比較有限,含有很多的歧義信息。比如,在Web搜索場(chǎng)景下,大部分的查詢(xún)不超過(guò)5個(gè)詞,而微博中帖子一般不超過(guò)140個(gè)字。因此,短文本中通常缺乏一些統(tǒng)計(jì)信息來(lái)支持一些統(tǒng)計(jì)文本處理技術(shù),如主題建模等[2]。
本文的主要貢獻(xiàn)如下:
(1) 提出了一種通用的帶約束的語(yǔ)義文法形式,與本體等語(yǔ)義資源相結(jié)合,可以在詞匯級(jí)、句法級(jí)、語(yǔ)義級(jí)對(duì)自然語(yǔ)言句子的解析過(guò)程進(jìn)行約束;
(2) 提出了一種高效的文法匹配算法,依據(jù)各種約束條件預(yù)先過(guò)濾一些規(guī)則,以匹配度計(jì)算模型找到最佳匹配,可以極大地提高系統(tǒng)效率;
(3) 應(yīng)用不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,我們提出的方法可以有效提高問(wèn)答系統(tǒng)的整體性能。
文本及口語(yǔ)理解是近年來(lái)國(guó)內(nèi)外研究的一個(gè)熱點(diǎn),專(zhuān)題國(guó)際會(huì)議或評(píng)測(cè)競(jìng)賽包括Interspeech、ICASSP、ASRU、SLT、Sigdial、SemEval、Semantic Parsing workshop等以及專(zhuān)題國(guó)際期刊TASLP等,國(guó)際會(huì)議如ACL、EMNLP、COLING、NAACL、AAAI、NIPS等也有相關(guān)專(zhuān)題。總體來(lái)說(shuō),文本理解方法大致可以分為兩種:淺層語(yǔ)義分析方法和深層語(yǔ)義分析方法。其中,淺層語(yǔ)義分析通常會(huì)標(biāo)注與句子中謂詞有關(guān)成分的語(yǔ)義角色,如施事、受事、時(shí)間和地點(diǎn)等,比如在檢索型問(wèn)答系統(tǒng)中,可采用該技術(shù)對(duì)查詢(xún)進(jìn)行標(biāo)注,并充分利用數(shù)據(jù)源(Web或語(yǔ)料庫(kù))中的冗余信息,通過(guò)檢索和匹配等技術(shù)來(lái)定位答案。但對(duì)一些文本資源相對(duì)缺乏而又要求精確文本理解的應(yīng)用來(lái)說(shuō),淺層文本語(yǔ)義分析技術(shù)就顯得不夠了,比如面向知識(shí)庫(kù)的問(wèn)答系統(tǒng),通常需要精確理解文本語(yǔ)義并將之轉(zhuǎn)化成計(jì)算機(jī)可理解或可處理的形式化表示,并進(jìn)而轉(zhuǎn)化成具體知識(shí)庫(kù)的查詢(xún)語(yǔ)言如Sparql等。
深層語(yǔ)義分析方法分為兩類(lèi),第一類(lèi)方法是基于近年來(lái)發(fā)展較快的深度學(xué)習(xí)技術(shù)。這些方法一般通過(guò)嵌入學(xué)習(xí)技術(shù)[3](embedding)、深度學(xué)習(xí)技術(shù)(如DNN、RNN、LSTM)[4]等學(xué)習(xí)語(yǔ)料庫(kù)、知識(shí)庫(kù)和問(wèn)句的語(yǔ)義表示及它們相互之間的語(yǔ)義映射關(guān)系[5],從而將用戶(hù)的自然語(yǔ)言問(wèn)題、知識(shí)庫(kù)中的實(shí)體、概念、類(lèi)以及關(guān)系等轉(zhuǎn)換為壓縮、低維、稠密的數(shù)值向量(分布式語(yǔ)義表示)[6],并將知識(shí)庫(kù)問(wèn)答等任務(wù)看成是語(yǔ)義向量之間的相似度計(jì)算或分類(lèi)過(guò)程?;谏疃葘W(xué)習(xí)的語(yǔ)義分析方法的優(yōu)點(diǎn)是魯棒性較強(qiáng),并且由于采用端到端的學(xué)習(xí)策略,可以部分消除錯(cuò)誤累積問(wèn)題。但目前這類(lèi)方法還存在以下問(wèn)題:①深度學(xué)習(xí)方法通常需要依賴(lài)大量的訓(xùn)練語(yǔ)料,而對(duì)于一些領(lǐng)域應(yīng)用來(lái)說(shuō)(如醫(yī)療領(lǐng)域),在系統(tǒng)建設(shè)初期,獲取高質(zhì)量的訓(xùn)練語(yǔ)料仍然是個(gè)瓶頸[7]; ②已有的基于深度學(xué)習(xí)的文本理解方法多是針對(duì)簡(jiǎn)單問(wèn)題,對(duì)于復(fù)雜問(wèn)題的理解能力尚且不足[8]; ③可解釋性較差,特別是在實(shí)際系統(tǒng)出現(xiàn)問(wèn)題時(shí),無(wú)法進(jìn)行及時(shí)有效的人工干預(yù)[9]; ④目前取得一些較好結(jié)果的研究大多集中于詞級(jí)別的嵌入,如何從詞嵌入得到有效的句子、篇章等的嵌入表示,是目前急需解決的問(wèn)題[10]。
第二類(lèi)方法是基于符號(hào)邏輯的語(yǔ)義分析方法,即基于符號(hào)化的文法對(duì)用戶(hù)的自然語(yǔ)言問(wèn)句進(jìn)行分析并轉(zhuǎn)化成結(jié)構(gòu)化的語(yǔ)義表示。在這一類(lèi)方法中,一類(lèi)是采用級(jí)聯(lián)式的自然語(yǔ)言處理方法,即先對(duì)句子進(jìn)行詞法、句法分析,再依據(jù)句法規(guī)則與領(lǐng)域語(yǔ)義的對(duì)應(yīng)關(guān)系,對(duì)句法分析結(jié)果進(jìn)行語(yǔ)義解釋。這類(lèi)方法的優(yōu)點(diǎn)是各模塊的研究較成熟,特別是在書(shū)面語(yǔ)的處理上,詞法、句法分析等準(zhǔn)確率較高。但是,級(jí)聯(lián)式的自然語(yǔ)言處理方法對(duì)于短文本理解來(lái)說(shuō),通常是低效的[11],特別是一些口語(yǔ)問(wèn)答系統(tǒng) 、社交媒體(如微博)中用戶(hù)的問(wèn)題通常是一些口語(yǔ)化、弱規(guī)范甚至不規(guī)范的短文本,會(huì)導(dǎo)致語(yǔ)言分析過(guò)程的前兩步常常就不能產(chǎn)生正確的結(jié)果,就更不用說(shuō)后續(xù)的語(yǔ)義處理了[12]。另一類(lèi)則通過(guò)將語(yǔ)義附著于詞匯或文法規(guī)則上,實(shí)現(xiàn)語(yǔ)法和語(yǔ)義一體化分析,比如語(yǔ)義文法(semantic grammar)[13]、SC文法(sub-category grammar)[14]、組合范疇語(yǔ)法(category compositional grammar,CCG)[15]、依存組合語(yǔ)法(dependency-based compositional semantics,DCS)[16]等。這類(lèi)方法的優(yōu)點(diǎn)是可解釋性較好,產(chǎn)生的是一個(gè)有層次的解析結(jié)果,缺點(diǎn)是起到重要作用的文法一般主要由人工生成,比如CCG 中的詞匯表和規(guī)則集,在進(jìn)行領(lǐng)域轉(zhuǎn)換和擴(kuò)展時(shí),需要耗費(fèi)大量的人力和時(shí)間來(lái)生成或擴(kuò)展規(guī)則庫(kù),所以目前基于有監(jiān)督[16](如提供自然語(yǔ)言問(wèn)題—語(yǔ)義表示對(duì),自然語(yǔ)言問(wèn)題—答案對(duì))或無(wú)監(jiān)督[17]的自動(dòng)文法學(xué)習(xí)成為研究人員探索的重點(diǎn)。另外,單純的短語(yǔ)結(jié)構(gòu)語(yǔ)法生成能力過(guò)強(qiáng),常常會(huì)產(chǎn)生一些不合語(yǔ)法的句子和歧義的句子,并不是一個(gè)特別適合于描寫(xiě)自然語(yǔ)言的語(yǔ)法,但為了繼承已有的研究成果,不宜完全拋棄短語(yǔ)結(jié)構(gòu)語(yǔ)法,而應(yīng)該在其基礎(chǔ)上提出有效的手段來(lái)限制其過(guò)強(qiáng)的生成能力[14]。
通過(guò)對(duì)上述幾類(lèi)方法的分析發(fā)現(xiàn),基于符號(hào)邏輯的語(yǔ)義分析方法具有分析結(jié)果層次性較豐富、可解釋性較好等特點(diǎn),缺點(diǎn)是一些文法形式過(guò)復(fù)雜或過(guò)簡(jiǎn)單,導(dǎo)致解析效率低或存在過(guò)生成等問(wèn)題。比如,目前語(yǔ)義解析中采用較多的組合范疇語(yǔ)法CCG[18],在某些場(chǎng)景下,附著于CCG文法規(guī)則的邏輯表達(dá)式(logic form)會(huì)非常復(fù)雜,導(dǎo)致解析CCG時(shí)搜索空間巨大[16]。而另外一些文法形式如FunQL,則過(guò)于簡(jiǎn)單,導(dǎo)致表達(dá)能力不足,存在過(guò)生成、易產(chǎn)生解析歧義等問(wèn)題[19]。
Fred Karlsson等提出的一種形式簡(jiǎn)單并可利用語(yǔ)境信息進(jìn)行歧義消解的帶約束文法[20],可有效限制文法的生成能力,針對(duì)不同的需求,可在文法規(guī)則中加入對(duì)當(dāng)前匹配所對(duì)應(yīng)上下文的詞、詞性、句法等進(jìn)行約束[21],最早用于詞形(Morphophonology)分析、句法分析等,近年來(lái)有研究者將其用于問(wèn)答、對(duì)話系統(tǒng)等[22-23]。本文在約束文法的基礎(chǔ)上,提出一種基于本體的帶約束語(yǔ)義文法及其理解方法,通過(guò)在文法約束中融合詞匯、句法、語(yǔ)義(領(lǐng)域本體)知識(shí)以及匹配控制等,從而對(duì)文法解析過(guò)程進(jìn)行多層次約束,可以有效提高文法解析的魯棒性,降低匹配歧義問(wèn)題。
在本節(jié)中,我們主要介紹基于領(lǐng)域本體的領(lǐng)域建模方法和帶約束語(yǔ)義文法及其匹配方法。其中,3.1節(jié)給出了構(gòu)建領(lǐng)域模型所需的定義,3.2節(jié)給出了帶約束語(yǔ)義文法的定義,3.3節(jié)給出了帶約束語(yǔ)義文法的匹配算法。
在人工智能領(lǐng)域中,本體和知識(shí)表示密切相關(guān),是一種“形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明”。在智能系統(tǒng)中,它被看作是支持知識(shí)共享與重用的重要工具。領(lǐng)域本體(domain ontology)所建模的是某個(gè)特定領(lǐng)域,或者現(xiàn)實(shí)世界的一部分。領(lǐng)域本體所表達(dá)的是那些適合于該領(lǐng)域的術(shù)語(yǔ)的特殊含義。本節(jié)的領(lǐng)域建模與下節(jié)的約束文法構(gòu)建過(guò)程密切關(guān)聯(lián),所以在本節(jié)的領(lǐng)域本體中增加了與語(yǔ)義文法相關(guān)的屬性和概念,比如文法中的“總是必須關(guān)系”(REQ)、“總是可選關(guān)系”(OPT)等。
定義1領(lǐng)域本體用一個(gè)三元組表O=(N,E,M),也可將其看作是一個(gè)有向無(wú)環(huán)圖(DAG),其中:
(1)N:有向圖中的節(jié)點(diǎn)集合。圖中的節(jié)點(diǎn)包括所有的領(lǐng)域相關(guān)概念、語(yǔ)義文法中的非終結(jié)符等;在本體中,節(jié)點(diǎn)包括如下幾種類(lèi)型或其組合:
(a) 關(guān)鍵概念 vs 輔助概念。關(guān)鍵概念類(lèi)型的節(jié)點(diǎn)是指領(lǐng)域相關(guān)的實(shí)體概念,而輔助概念是指在構(gòu)造文法時(shí),對(duì)一些詞或短語(yǔ)所建立的一些有用的分組,這些分組中的詞,或者是具有相同的句法層次上的作用(如非終結(jié)符<疑問(wèn)詞>可重寫(xiě)為如下的短語(yǔ)或詞:“如何,怎么,怎么辦,……”),或者這些詞在當(dāng)前處理領(lǐng)域中具有某種程度上的語(yǔ)義等價(jià)性,(如非終結(jié)符<刪除詞類(lèi)>可重寫(xiě)為“刪除,刪掉,關(guān)掉,關(guān)……”)。
(b) 頂層節(jié)點(diǎn)vs 非頂層節(jié)點(diǎn)。頂層節(jié)點(diǎn)是指那些作為文法開(kāi)始符的非終結(jié)符,而非頂層節(jié)點(diǎn)則是指除了頂層節(jié)點(diǎn)之外的其他的非終結(jié)符。
(c) Pre-NT vs pre-T vs Mixed。在所有規(guī)則中,如果一個(gè)非終結(jié)符A的所有子節(jié)點(diǎn)(即出現(xiàn)在以A為L(zhǎng)HS的規(guī)則的RHS中)都是非終結(jié)符,或者出現(xiàn)的終結(jié)符都是“可選”,則非終結(jié)符A的類(lèi)型為pre-NT;如果一個(gè)非終結(jié)符A的所有子節(jié)點(diǎn)(即出現(xiàn)在以A為L(zhǎng)HS的規(guī)則的RHS中)都是終結(jié)符,或者出現(xiàn)的非終結(jié)符都是“可選”,則非終結(jié)符A的類(lèi)型為pre-T;其他的非終結(jié)符類(lèi)型設(shè)為Mixed。
(2)E:表示節(jié)點(diǎn)之間的有向邊的集合,EN×N。
(3)M:是一個(gè)映射函數(shù),M:ESM,其中SM={ISA,REQ,OPT},其中:
(a) ISA:表示N中節(jié)點(diǎn)間的上下位關(guān)系。
(b) REQ:表示N中節(jié)點(diǎn)在語(yǔ)義文法中的“總是必須”關(guān)系。關(guān)系“REQ”是指若某非終結(jié)符A總是作為必選成分出現(xiàn)在另一個(gè)LHS為非終結(jié)符B所對(duì)應(yīng)的規(guī)則的RHS中,即形如“BA*”(“*”表示其他規(guī)則成分,下同),則建立非終結(jié)符A到非終結(jié)符B的有向邊,并且標(biāo)記邊的關(guān)系類(lèi)型為REQ。
(c) OPT:表示N中節(jié)點(diǎn)在語(yǔ)義文法中的“總是可選”關(guān)系關(guān)系“OPT”是指若某非終結(jié)符A總是作為可選成分出現(xiàn)在另一個(gè)LHS為非終結(jié)符B的所對(duì)應(yīng)的規(guī)則的RHS中,即形如“B[A] *”,則建立非終結(jié)符A到非終結(jié)符B的有向邊,并且標(biāo)記邊的關(guān)系類(lèi)型為“OPT”。
初始構(gòu)建系統(tǒng)時(shí),領(lǐng)域本體由領(lǐng)域?qū)<逸o助知識(shí)工程師進(jìn)行設(shè)計(jì),關(guān)系僅包括上下位關(guān)系(ISA);在核心語(yǔ)義文法設(shè)計(jì)完成后,依據(jù)核心語(yǔ)義文法建立圖中節(jié)點(diǎn)之間的有向邊(即關(guān)系)。對(duì)于任意兩個(gè)非終結(jié)符A和B,若要建立一條從B到A的有向邊,則A必須作為一條規(guī)則的LHS出現(xiàn),且B出現(xiàn)在同一條規(guī)則的RHS中。本體作為語(yǔ)義文法的“骨架”,在文法擴(kuò)展學(xué)習(xí)時(shí),領(lǐng)域本體將是對(duì)現(xiàn)有文法進(jìn)行擴(kuò)展學(xué)習(xí)的重要“知識(shí)源”。
同時(shí),在具體應(yīng)用時(shí),一般還需建立一個(gè)“問(wèn)題本體”(problem ontology)用于處理用戶(hù)問(wèn)題。問(wèn)題本體刻畫(huà)了用戶(hù)查詢(xún)意圖的語(yǔ)義分類(lèi),語(yǔ)義文法中的開(kāi)始符與查詢(xún)意圖相對(duì)應(yīng)。問(wèn)題本體本質(zhì)上對(duì)應(yīng)著用戶(hù)查詢(xún)意圖的分類(lèi)體系,本體的上層對(duì)應(yīng)著對(duì)查詢(xún)問(wèn)題意圖的粗分類(lèi),而本體的下層則對(duì)應(yīng)著對(duì)查詢(xún)問(wèn)題意圖的細(xì)分類(lèi)。問(wèn)題本體中的節(jié)點(diǎn)的粒度大小與具體的應(yīng)用相關(guān)。比如,一般可以將問(wèn)題本體分為三層:第一層包括所有的問(wèn)題集合;第二層是對(duì)問(wèn)題的查詢(xún)主題的分類(lèi),這是一個(gè)較粗的分類(lèi);第三層為問(wèn)題查詢(xún)意圖的分類(lèi)(也稱(chēng)作問(wèn)題焦點(diǎn)),是在每一個(gè)主題下的細(xì)分類(lèi)。
在給出語(yǔ)義文法的形式定義之前,先給出幾個(gè)基礎(chǔ)性概念的定義。
定義2(字符集)任何漢字、任何字母、任何標(biāo)點(diǎn)、任何數(shù)字、任何制表符構(gòu)成的文本形式的符號(hào)。
定義3(終結(jié)符)終結(jié)符(terminal)具有以下兩種形式之一:
(1) 詞條集:由詞組成的有限集合,此處的詞是指詞典中的一個(gè)條目;
(2) 由字符集中的任意字符構(gòu)成的字符串。
定義4(語(yǔ)義類(lèi))語(yǔ)義類(lèi)(semantic class)是某個(gè)論域中兩個(gè)或以上詞義相同或相近的詞所構(gòu)成的有限集合。語(yǔ)義類(lèi)與領(lǐng)域本體中的概念相對(duì)應(yīng)。例如,在金融領(lǐng)域,開(kāi)通、辦理、申請(qǐng)等詞表達(dá)的意思相近,因此我們定義一個(gè)詞類(lèi)“辦理詞類(lèi)”,即辦理詞類(lèi)={開(kāi)通,辦理,申請(qǐng)}。
定義5(文法約束)文法約束(constraints)是一種邏輯表達(dá)式。為了便于文法分析和文法學(xué)習(xí),我們提出了一種有限的約束形式,采用析取范式(DNF)表示。其BNF形式如下:
|
|
| not-streq(
| contain(
| not-contain(
| begin-with(
| not-begin-with(
| end-with(
| not-end-with(
| leneq(,
| lengt(,
| lenlt(,
| followed-by(
| pos(
| not-pos(
| isa(
| not-isa(
| not-followed-by(
| preceded-by(
| not-preceded-by(
|immediately-followed-by(
|not-immediately-followed-by(
|immediately-preceded-by(
|not-immediately-preceded-by(
|plus(
|minus(
|multi(
|div(
|power(
|root(
|...
::=
|
|
|
|strrep(
由于漢語(yǔ)是一種意合型語(yǔ)言,句子中的某些成分通??梢猿霈F(xiàn)在句子的多個(gè)位置,而這些句子含義卻變化不大,為了處理這種現(xiàn)象,本文還引入了一種特殊的約束,稱(chēng)為匹配控制約束。其形式為:
control(
其中,
定義6(基本型非終結(jié)符、帶標(biāo)號(hào)的非終結(jié)符)基本型非終結(jié)符(basic non-terminal)即為一般文法中的非終結(jié)符,如N、V、NP、VP等。在本文中,非終結(jié)符由ASCII英文字母、數(shù)字和連字符組成。帶標(biāo)號(hào)的非終結(jié)符為形如<標(biāo)號(hào)>:<基本型非終結(jié)符>的符號(hào)串,它用于對(duì)文法產(chǎn)生式中的同一基本型非終結(jié)符的多次出現(xiàn)進(jìn)行區(qū)分。 例如,在產(chǎn)生式“NP→ ADJ N | N N”中出現(xiàn)多個(gè)N,我們可以采用以下形式將其中的N進(jìn)行區(qū)分:
NP→ADJ1:N|2:N3:N
定義7(通配型非終結(jié)符)通配型非終結(jié)符(ANY)簡(jiǎn)稱(chēng)通配符,是一種特殊的非終結(jié)符,可用于匹配任何終結(jié)符。
由于通配符的強(qiáng)大匹配能力,如果不對(duì)其進(jìn)行限制,那么將在文法解析過(guò)程中產(chǎn)生大量的歧義,所以需要對(duì)其匹配進(jìn)行適當(dāng)?shù)南拗?。定義4中的文法約束主要用來(lái)對(duì)通配型非終結(jié)符的匹配進(jìn)行“監(jiān)管”,即檢查通配符的匹配成分是否滿(mǎn)足文法約束限制,若匹配成分不能滿(mǎn)足約束限制,那么規(guī)則匹配失敗。當(dāng)然,文法約束不僅僅用作對(duì)通配符進(jìn)行約束,還可以對(duì)其他的一些非終結(jié)符如基本型非終結(jié)符等進(jìn)行限制。
定義8(確定型產(chǎn)生式規(guī)則的表示)確定型產(chǎn)生式規(guī)則的表示形式如下:
[
|
|
|
|’[’
//“[ ]”表示“可選”,其他默認(rèn)為“必選”
|
|
|
//本體中的“關(guān)鍵概念”
|< Auxiliary-concept>
//本體中的“輔助概念”
|“QUERY-FOR-TRAFFIC”|…
其中,
下文中,在不導(dǎo)致混淆的前提下,我們有時(shí)采用Head→Body表示產(chǎn)生式,而忽略其后的限制。
定義9(語(yǔ)義文法)語(yǔ)義文法G為一個(gè)四元組G=(VT,WT,S,R),其中:
(1)VT:語(yǔ)義文法中的終結(jié)符(terminals);
(2)VNT:表示語(yǔ)義文法中的非終結(jié)符(non-terminals)。注意,語(yǔ)義文法中的非終結(jié)符包括兩類(lèi)不交的非終結(jié)符結(jié)合,即VNT=VN∪Vw且VN∩Vw=φ,其中:
VN包括基本型非終結(jié)符集、本體中的關(guān)鍵概念、輔助概念等;Vw是通配型非終結(jié)符集。
(3)S:表示語(yǔ)義文法的開(kāi)始符集合S={S1,…,Sn}。本文的語(yǔ)義文法與問(wèn)題本體中的概念相對(duì)應(yīng),開(kāi)始符體現(xiàn)了對(duì)查詢(xún)句子的語(yǔ)意分類(lèi)(如用戶(hù)查詢(xún)的“查詢(xún)意圖”分類(lèi)),領(lǐng)域語(yǔ)意通常與某一領(lǐng)域事件類(lèi)型相對(duì)應(yīng)。
(4)R:語(yǔ)義文法中的確定型產(chǎn)生式集合。
定義10(產(chǎn)生式的簡(jiǎn)潔表示)為了便于產(chǎn)生式的編輯,根據(jù)定義7、定義8,我們給出一種文法產(chǎn)生式的簡(jiǎn)潔的一般表示形式,即將下面的形式:
→[等價(jià)地改寫(xiě)成如下形式:
Body@head@control-constraint@constraints
其中,control-constraint為Body中的終結(jié)符、非終結(jié)符的匹配控制;constraints為產(chǎn)生式的約束;當(dāng)constraints不出現(xiàn)時(shí),用null代替;在規(guī)則的約束條件中,可以引入各種約束,包括詞匯級(jí)(詞匯依存)、語(yǔ)義級(jí)(語(yǔ)義依存)等,可以彌補(bǔ)傳統(tǒng)PCFG的上下文無(wú)關(guān)的不足。
為了提高系統(tǒng)的匹配效率,系統(tǒng)為語(yǔ)義文法規(guī)則集合建立了倒排索引,即由組成文法規(guī)則的詞或語(yǔ)義類(lèi)來(lái)索引規(guī)則。同時(shí),系統(tǒng)只對(duì)文法規(guī)則中的必須詞位上的詞類(lèi)或詞建立索引。這樣的好處是:在解析過(guò)程中,大大減少了候選規(guī)則的數(shù)量,提高了系統(tǒng)解析效率。下面給出語(yǔ)義文法解析算法的偽代碼。
算法的輸入為全部分詞形成的有序的詞集合QWs。系統(tǒng)根據(jù)領(lǐng)域詞典對(duì)句子Q進(jìn)行分詞,查找知識(shí)庫(kù),給分詞成分標(biāo)注相應(yīng)的語(yǔ)義類(lèi)型,QWs[i]用三元組表示為:(i,詞,類(lèi)型1|…|類(lèi)型n),i表示第i個(gè)分詞成分,三元組的第三項(xiàng)表示詞項(xiàng)的語(yǔ)義類(lèi)型列表。算法的輸出為句子的所有解析樹(shù)所對(duì)應(yīng)的頂層節(jié)點(diǎn)列表,按照解析樹(shù)得分的高低,輸出前n個(gè)??筛鶕?jù)不同的應(yīng)用,調(diào)整n的大小,本文的實(shí)驗(yàn)取值為3。
在上述解析過(guò)程中,步驟(5)為語(yǔ)義文法規(guī)則過(guò)濾子過(guò)程,其根據(jù)文法規(guī)則中的各詞位的性質(zhì)、規(guī)則匹配控制限制、文法規(guī)則的約束等,判別語(yǔ)義文法與句子或句子的子串匹配是否合法。
在啟用文法規(guī)則的約束檢查時(shí),首先按照句子與文法規(guī)則的規(guī)則體部分的匹配結(jié)果,對(duì)約束中的變量進(jìn)行實(shí)例化,然后調(diào)用相應(yīng)的約束謂詞實(shí)現(xiàn)函數(shù)對(duì)約束進(jìn)行檢查,若約束檢查結(jié)果為真,則通過(guò)檢查,否則視為違反約束,文法規(guī)則匹配失敗。
即使經(jīng)過(guò)規(guī)則過(guò)濾,一個(gè)句子還是可能會(huì)生成多棵解析樹(shù)。本文通過(guò)引入匹配度計(jì)算模型,計(jì)算解析樹(shù)的得分,并依此對(duì)解析樹(shù)進(jìn)行排序。在匹配度計(jì)算模型中,考慮了以下四個(gè)特征。
【特征1】規(guī)則匹配詞分布密度
組成規(guī)則的詞或語(yǔ)義類(lèi)所匹配的成分在句子中分布越緊密,詞之間的相互作用越強(qiáng),與規(guī)則匹配上時(shí)產(chǎn)生的歧義性越?。欢?dāng)分布密度越小,組成規(guī)則的詞之間相隔較遠(yuǎn)時(shí),產(chǎn)生歧義的可能性就越大。規(guī)則匹配詞在句子中的分布密度的定義如式(1)所示。
(1)
其中,wp表示文法規(guī)則,CQWs表示句子Q所對(duì)應(yīng)的分詞集合,m表示規(guī)則wp與句子Q匹配的詞數(shù),WPosi表示規(guī)則wp所匹配的第i個(gè)詞在句子Q中的位置。ε是為了防止分母等于0所設(shè)的一個(gè)很小的數(shù)。
【特征2】規(guī)則歷史匹配準(zhǔn)確率
系統(tǒng)中的核心文法庫(kù)由人工構(gòu)造而成,規(guī)則質(zhì)量參差不齊,同時(shí)隨著系統(tǒng)的不斷演進(jìn),原先構(gòu)造的規(guī)則會(huì)有不符合當(dāng)前要求的情形。所以,在匹配規(guī)則時(shí),要考慮規(guī)則匹配的歷史準(zhǔn)確率,若某個(gè)規(guī)則的歷史匹配準(zhǔn)確率越高,則有理由相信此規(guī)則的匹配歧義越低,反之則相反。規(guī)則歷史匹配準(zhǔn)確率定義如式(2)所示。
(2)
其中,HAllMatchNUM(wpi)表示歷史記錄中規(guī)則wpi匹配的句子總數(shù),HCorrectNUM(wpi)表示歷史記錄中規(guī)則wpi匹配正確的句子總數(shù)。對(duì)于歷史匹配準(zhǔn)確率低于設(shè)定閾值的規(guī)則,系統(tǒng)會(huì)提醒規(guī)則編輯人員修改或刪除規(guī)則。
【特征3】 匹配相關(guān)度
句子與規(guī)則相匹配的成分所計(jì)算出來(lái)的分值體現(xiàn)了兩者的匹配相關(guān)程度,相關(guān)度越高,句子與規(guī)則匹配的可能性越大。規(guī)則wp與句子(用其分詞CQWs表示)匹配相關(guān)度公式定義如式(3)所示。
(3)
詞或詞類(lèi)的idf值從一個(gè)方面反映了該詞或詞類(lèi)的重要程度,通常越低頻的詞,即只出現(xiàn)在少數(shù)的規(guī)則中,其idf值越大,該詞或詞類(lèi)所含有的信息量就越多,這個(gè)詞或詞類(lèi)也就越重要。在規(guī)則匹配度計(jì)算模型中,以詞或詞類(lèi)在規(guī)則集合中的idf值作為其權(quán)重。在式(3)中,Matchedwpi,CQWs表示規(guī)則wpi與問(wèn)句分詞CQWs匹配的詞位集合,t∈wpi。|t|表示wpi匹配項(xiàng)所對(duì)應(yīng)的詞的長(zhǎng)度,nt表示詞或詞類(lèi)t索引到的規(guī)則總數(shù),N表示系統(tǒng)中的規(guī)則總數(shù),α為詞位的匹配權(quán)重,若t∈requiredwpi則取α=1,若t∈optionalwpi則取α=0.5,這一取值為經(jīng)驗(yàn)值,體現(xiàn)了不同性質(zhì)詞位的重要程度,實(shí)驗(yàn)結(jié)果表明此取值最佳。requiredwpi表示規(guī)則wpi的必選詞位集合,optionalwpi表示規(guī)則wpi的可選詞位集合,下同。
【特征4】匹配不相關(guān)度
未被解析樹(shù)所覆蓋的句子的成分所計(jì)算出來(lái)的分值代表解析樹(shù)與句子的不相關(guān)度,不相關(guān)度越大,句子與解析樹(shù)相匹配的可能性越小。解析樹(shù)T與句子(用其分詞CQWs表示)匹配不相關(guān)度公式定義如式(4)所示。
(4)
其中,T表示解析樹(shù),NoMatchedT,CQWs表示CQWs中未被解析樹(shù)覆蓋的詞集合,|s|表示詞的長(zhǎng)度,s∈CQWs且s?T。匹配不相關(guān)度考慮了句子中未能被解析樹(shù)覆蓋的成分對(duì)最終匹配結(jié)果的影響,其分值越大,表明在剩余成分中還有一些重要的詞(特征詞)未被匹配,此時(shí)解析樹(shù)與句子匹配上的可能性越小。
最終的解析樹(shù)與句子的匹配度將上述幾個(gè)因素都考慮進(jìn)來(lái),在它們之間取得平衡。加入了上述幾個(gè)特征的最終的匹配度計(jì)算如式(5) 所示。
(5)
其中,T表示句子的解析樹(shù),Wwp,CWQs表示CWQs與規(guī)則wpi匹配的規(guī)則詞分布密度;HPrewpi表示規(guī)則wpi的歷史匹配準(zhǔn)確率;MT,CWQs表示CWQs與解析樹(shù)匹配的詞位數(shù),即解析樹(shù)覆蓋句子的詞數(shù)越多,兩者意思相近的可能性越大,故將這一特征也納入到匹配度計(jì)算模型中。
為了驗(yàn)證上述方法的有效性,本文方法在兩個(gè)領(lǐng)域中進(jìn)行了應(yīng)用,分別構(gòu)造了面向通信領(lǐng)域的業(yè)務(wù)信息問(wèn)答系統(tǒng)和面向金融領(lǐng)域的某銀行業(yè)務(wù)信息問(wèn)答系統(tǒng),首先按照本體建模的一般原則,結(jié)合領(lǐng)域特點(diǎn),分別建立了通信業(yè)務(wù)領(lǐng)域本體和銀行業(yè)務(wù)領(lǐng)域本體。圖1給出了通信業(yè)務(wù)領(lǐng)域本體(部分)。
圖1 通信業(yè)務(wù)領(lǐng)域本體
從上述本體層次結(jié)構(gòu)可以看到,業(yè)務(wù)相關(guān)的概念作為本體的類(lèi),業(yè)務(wù)(類(lèi))之間的父子關(guān)系作為“Isa”關(guān)系,這種關(guān)系具有繼承性,即子節(jié)點(diǎn)可繼承父親節(jié)點(diǎn)的相關(guān)屬性。另外,建立了用以處理用戶(hù)的提問(wèn)句子的問(wèn)題本體。在兩個(gè)應(yīng)用領(lǐng)域中,本文均按照業(yè)務(wù)的生命周期,即業(yè)務(wù)的介紹、開(kāi)通、故障、優(yōu)惠、取消等,來(lái)組織用戶(hù)咨詢(xún),再在每一個(gè)業(yè)務(wù)的生命周期階段作細(xì)分類(lèi)。如“開(kāi)通類(lèi)”可再細(xì)分為:開(kāi)通方法、開(kāi)通失敗原因等(用“IO”表示InstanceOf關(guān)系)。兩個(gè)應(yīng)用領(lǐng)域的問(wèn)題本體在中間層次上幾乎是相同的,只是在本體的葉子節(jié)點(diǎn)上有區(qū)別。問(wèn)題本體體現(xiàn)了用戶(hù)問(wèn)句語(yǔ)義和問(wèn)題焦點(diǎn)的分類(lèi)。由于篇幅所限,這里只給出了通信業(yè)務(wù)領(lǐng)域的問(wèn)題本體,如圖2所示。
圖2 通信業(yè)務(wù)領(lǐng)域的問(wèn)題本體
根據(jù)設(shè)計(jì)的領(lǐng)域本體,由領(lǐng)域?qū)<以O(shè)計(jì)相應(yīng)的核心語(yǔ)義文法。由于本文的方法是一種面向領(lǐng)域的自然語(yǔ)言理解方法,依賴(lài)于構(gòu)建的領(lǐng)域本體及語(yǔ)義文法等,很難與其他已有的語(yǔ)義理解方法進(jìn)行直接比較,為了使得實(shí)驗(yàn)結(jié)果更加客觀,本文的Baseline設(shè)置為按照解析結(jié)果生成的先后順序,對(duì)解析結(jié)果進(jìn)行排序,并從解析結(jié)果中任意選擇一個(gè)解析結(jié)果返回,對(duì)本文提出方法與Baseline方法進(jìn)行了比較。
本文在兩個(gè)應(yīng)用領(lǐng)域中分別構(gòu)造了測(cè)試數(shù)據(jù),包括某銀行的業(yè)務(wù)信息查詢(xún)系統(tǒng)和某通信公司的產(chǎn)品及業(yè)務(wù)的信息查詢(xún)系統(tǒng)。其中,前者的領(lǐng)域概念較少,信息查詢(xún)點(diǎn)較少,而后者是一個(gè)較大的領(lǐng)域,涉及的領(lǐng)域概念比較多,信息查詢(xún)點(diǎn)較多。通過(guò)將方法應(yīng)用于不同規(guī)模的領(lǐng)域中,來(lái)檢測(cè)方法的可擴(kuò)展性(scalability)。根據(jù)兩個(gè)數(shù)據(jù)集所在領(lǐng)域,本文分別設(shè)計(jì)了領(lǐng)域本體及語(yǔ)義文法。
數(shù)據(jù)集1BSC Data Set,數(shù)據(jù)集中的問(wèn)題是關(guān)于某個(gè)銀行的產(chǎn)品或業(yè)務(wù)的咨詢(xún),比如關(guān)于如何辦理信用卡或匯款手續(xù)費(fèi)等,這些問(wèn)題都是真實(shí)用戶(hù)提交到系統(tǒng)中的。我們從實(shí)際用戶(hù)的提問(wèn)日志中,隨機(jī)抽取了10 000個(gè)句子;組成測(cè)試數(shù)據(jù)集。
數(shù)據(jù)集2MSC Data Set,數(shù)據(jù)集中的問(wèn)題是關(guān)于某個(gè)通信公司的產(chǎn)品或業(yè)務(wù)的咨詢(xún),比如關(guān)于手機(jī)歸屬地查詢(xún)或辦理通信套餐業(yè)務(wù)等。我們也從實(shí)際用戶(hù)的提問(wèn)日志中隨機(jī)抽取了10 000個(gè)句子,組成測(cè)試數(shù)據(jù)集。
本文采用精確率、平均排序倒數(shù)(mean reciprocal rank,MRR)以及識(shí)別率這三個(gè)指標(biāo)來(lái)評(píng)價(jià)算法的性能。其中精確率表示系統(tǒng)能夠正確理解的問(wèn)題數(shù)占所有測(cè)試問(wèn)題的數(shù)目的比例,這里的“正確理解”是指在句子的所有分析結(jié)果中,得分排名第一的分析結(jié)果是正確無(wú)歧義的,如式(6)所示。
(6)
其中,T表示測(cè)試語(yǔ)料,t表示測(cè)試語(yǔ)料中的一個(gè)句子,trees(t)表示系統(tǒng)對(duì)句子t的所有解析結(jié)果,按照解析樹(shù)的得分高低進(jìn)行排序,TA(t)表示句子t的正確的解析結(jié)果。
MRR指標(biāo)首先計(jì)算每一個(gè)查詢(xún)的正確理解結(jié)果在所有分析結(jié)果中的位置的倒數(shù),然后對(duì)測(cè)試集中所有查詢(xún)問(wèn)題的這一數(shù)值求平均如式(7)所示。
(7)
其中,T表示整個(gè)測(cè)試集,TA(t)表示句子t的正確的解析結(jié)果,rank(TA(t))用于計(jì)算查詢(xún)問(wèn)題t的正確分析結(jié)果在其所有分析結(jié)果中的排名。其定義如式(8)所示。
(8)
引入如上定義,是因?yàn)楫?dāng)句子t無(wú)法理解或理解結(jié)果中沒(méi)有正確的分析結(jié)果時(shí),rank(TA(t))=0,本文選取一個(gè)較大的數(shù)值(如令∝≈10 000)來(lái)處理這種情況。
識(shí)別率是指所有能夠被系統(tǒng)識(shí)別的句子數(shù)占總測(cè)試問(wèn)句數(shù)的比率,它反映了語(yǔ)義文法對(duì)領(lǐng)域知識(shí)的覆蓋程度,如式(9)所示。
(9)
其中,tree(t)≠?表示句子t的解析結(jié)果不為空。
本文共進(jìn)行了三組實(shí)驗(yàn)來(lái)測(cè)試算法的有效性。第一組實(shí)驗(yàn)測(cè)試了方法在構(gòu)造的數(shù)據(jù)集上的整體測(cè)試性能。表1給出了在BSC數(shù)據(jù)集和MSC數(shù)據(jù)集上的測(cè)試結(jié)果。
表1 BSC數(shù)據(jù)集和MSC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
從表1可以看出,該方法在兩個(gè)領(lǐng)域的測(cè)試集上均取得了較高的準(zhǔn)確率、MRR值及識(shí)別率,其中,與規(guī)模較大的領(lǐng)域(MSC)相比,方法在較小規(guī)模領(lǐng)域(BSC)上取得了相對(duì)較高的性能指標(biāo)。原因是,在應(yīng)用到較小規(guī)模領(lǐng)域時(shí),手工容易總結(jié)出較全面的領(lǐng)域本體及語(yǔ)義文法,所以三項(xiàng)指標(biāo)值均較高;而在應(yīng)用到較大規(guī)模領(lǐng)域中時(shí),語(yǔ)義文法不容易手工總結(jié)全面,這些指標(biāo)相對(duì)要低一些。
第二組實(shí)驗(yàn)對(duì)STM算法中的匹配度計(jì)算模型進(jìn)行了測(cè)試。比較測(cè)試了規(guī)則詞分布密度特征、規(guī)則歷史匹配準(zhǔn)確率特征、匹配詞位數(shù)特征、匹配相關(guān)度、匹配不相關(guān)度對(duì)匹配度計(jì)算模型的影響。表2和表3分別給出了在兩個(gè)數(shù)據(jù)集上測(cè)試包含幾個(gè)特征所對(duì)應(yīng)的系統(tǒng)準(zhǔn)確率和MRR值。其中,Re表示匹配相關(guān)度(relativeness),IrRe表示匹配不相關(guān)度(irrelativeness),W表示規(guī)則詞分布密度權(quán)值系數(shù),M表示匹配詞位數(shù)特征,HPre表示規(guī)則的歷史匹配準(zhǔn)確率特征。由于匹配度計(jì)算只影響系統(tǒng)匹配出的答案次序,對(duì)是否有答案無(wú)影響,即對(duì)識(shí)別率無(wú)影響,故在表2、表3中只列出了對(duì)應(yīng)的準(zhǔn)確率。從表2、表3中可以看出,綜合考慮幾個(gè)特征系數(shù)的匹配度計(jì)算模型取得了較高的準(zhǔn)確率。
表2 多個(gè)特征系數(shù)對(duì)比結(jié)果(BSC數(shù)據(jù)集)
表3 多個(gè)特征系數(shù)對(duì)比結(jié)果(MSC數(shù)據(jù)集)
為了提高問(wèn)答系統(tǒng)的用戶(hù)友好性,通常需要在回答準(zhǔn)確率和系統(tǒng)實(shí)際回答的問(wèn)題占所有問(wèn)題的比例之間找到一個(gè)平衡點(diǎn)。本文對(duì)于一個(gè)問(wèn)題是否給出答案取決于所估計(jì)的置信度大小(在本文,解析樹(shù)的匹配分值即為系統(tǒng)的對(duì)于答案的置信度):對(duì)于設(shè)定的置信度閾值,只有當(dāng)問(wèn)題所生成的解析樹(shù)的最高得分大于設(shè)定閾值時(shí),系統(tǒng)才會(huì)給出答案。反之,若匹配的解析樹(shù)的分值都小于設(shè)定閾值,則系統(tǒng)對(duì)此問(wèn)題不給出答案。一個(gè)合理的置信度閾值將在系統(tǒng)準(zhǔn)確性和所回答問(wèn)題的比例之間取得一個(gè)平衡。對(duì)于較高的閾值,系統(tǒng)將更趨向于保守,只對(duì)較少的問(wèn)題給出答案,但準(zhǔn)確性較高;反之,對(duì)于較低的閾值,系統(tǒng)將更趨向于開(kāi)放,會(huì)回答大部分的問(wèn)題,但準(zhǔn)確性相對(duì)較低。
圖3給出了準(zhǔn)確性與回答問(wèn)題的比例之間的關(guān)系圖。曲線是通過(guò)給系統(tǒng)設(shè)置不同的置信度閾值得到的。從圖中可以看出,隨著閾值的提高,系統(tǒng)選擇回答問(wèn)題的比例降低,系統(tǒng)的準(zhǔn)確率也在提高。當(dāng)回答問(wèn)題比例在40%左右時(shí),系統(tǒng)的準(zhǔn)確率達(dá)到最高(100%)。圖3說(shuō)明,本文給出的匹配度計(jì)算模型對(duì)于評(píng)價(jià)解析樹(shù)與句子的匹配是有效的。
圖3 準(zhǔn)確性與回答問(wèn)題的比例之間的關(guān)系圖
通過(guò)對(duì)測(cè)試語(yǔ)料的統(tǒng)計(jì)分析,表4列出了測(cè)試句子集合的統(tǒng)計(jì)特征數(shù)據(jù)。主要考察了句子的兩個(gè)方面的特征:句子長(zhǎng)度和句子的復(fù)雜程度。其中復(fù)雜程度是對(duì)問(wèn)句所包含的問(wèn)題焦點(diǎn)數(shù)目的度量。若句子只關(guān)心一個(gè)業(yè)務(wù)的某一個(gè)屬性或關(guān)系,即可與本文的問(wèn)題焦點(diǎn)一一對(duì)應(yīng),稱(chēng)之為簡(jiǎn)單問(wèn)句;大于1個(gè)問(wèn)題焦點(diǎn)的稱(chēng)為復(fù)雜問(wèn)句,復(fù)雜問(wèn)句的問(wèn)題焦點(diǎn)通常是本文的問(wèn)題焦點(diǎn)的組合。
從表4對(duì)測(cè)試語(yǔ)料的分析可知,語(yǔ)料中有不少長(zhǎng)句(約占20%),長(zhǎng)句中雖然包含了語(yǔ)義規(guī)則中所要求的詞,但這些詞在長(zhǎng)句中的分布較散,可能已經(jīng)與規(guī)則所要表達(dá)的意思相差甚遠(yuǎn)。通常這一類(lèi)問(wèn)句的規(guī)則詞分布密度較小,在下一步的工作中可考慮設(shè)置分布密度閾值來(lái)避免這一類(lèi)的錯(cuò)誤匹配。
表4 測(cè)試語(yǔ)料統(tǒng)計(jì)分析數(shù)據(jù)
在語(yǔ)料中也有不少?gòu)?fù)雜問(wèn)句(約15%)。用戶(hù)經(jīng)常會(huì)在一個(gè)問(wèn)句中隱含多個(gè)問(wèn)題焦點(diǎn),如問(wèn)句“請(qǐng)問(wèn)彩鈴怎么開(kāi)通以及如何收費(fèi)?。俊逼渲邪藘蓚€(gè)問(wèn)題焦點(diǎn)(彩鈴開(kāi)通方法、彩鈴收費(fèi)方法)。在這種情況下,系統(tǒng)返回其中之一都不合適。這種情況可通過(guò)返回多個(gè)問(wèn)題焦點(diǎn),并將其答案經(jīng)過(guò)重新組合后反饋給用戶(hù)。另外,一個(gè)用戶(hù)連續(xù)的多個(gè)問(wèn)題通常是相關(guān)的,若不考慮這些上下文信息,將導(dǎo)致錯(cuò)誤結(jié)果。如有問(wèn)句(1)“彩鈴是如何開(kāi)通的?”(2)“它怎么收費(fèi)?。俊比魡为?dú)的去理解問(wèn)句(2)是無(wú)意義的,必須聯(lián)系用戶(hù)的前一個(gè)問(wèn)題才能準(zhǔn)確地理解用戶(hù)意圖。目前系統(tǒng)假設(shè)問(wèn)句之間是不相關(guān)的,從而導(dǎo)致部分問(wèn)句理解錯(cuò)誤。分詞模塊也對(duì)系統(tǒng)準(zhǔn)確率產(chǎn)生了一定影響。由于所處理領(lǐng)域的一些概念多為新詞,其組詞模式也多種多樣,如在業(yè)務(wù)“手機(jī)停機(jī)”中,其為一個(gè)復(fù)合短語(yǔ),在分詞時(shí)很難確定是否要將“手機(jī)”與“停機(jī)”分開(kāi)。如在句子“手機(jī)停機(jī)業(yè)務(wù)怎么辦理?”等等,需要將“手機(jī)停機(jī)”作為一個(gè)業(yè)務(wù)名看待,而在句子“我手機(jī)停機(jī)了怎么辦?”則需要將“手機(jī)停機(jī)”分開(kāi)。在文中以idf值作為詞(類(lèi))的權(quán)重因子,而由于文法規(guī)則集合的不完備性,導(dǎo)致基于其計(jì)算出來(lái)的權(quán)重有時(shí)不太準(zhǔn)確,對(duì)于一些語(yǔ)義上比較重要的詞,其權(quán)重因子有時(shí)很小;對(duì)于一些不太重要但只在少數(shù)質(zhì)量較差(即規(guī)則容易引起匹配歧義)的規(guī)則中使用的詞或詞類(lèi),權(quán)重因子反而會(huì)很高。在下一步工作中,可考慮將規(guī)則的匹配準(zhǔn)確率因子加入到詞(類(lèi))權(quán)重計(jì)算中。
短文本理解除了對(duì)問(wèn)答系統(tǒng)的性能至關(guān)重要,在很多應(yīng)用中都有很急迫的需求,比如Web搜索、微博、廣告匹配、智能客服等。針對(duì)短文本具有不符合傳統(tǒng)語(yǔ)法、語(yǔ)境較少、歧義多等特點(diǎn),本文提出的基于領(lǐng)域本體和帶約束語(yǔ)義文法的自然語(yǔ)言理解方法,通過(guò)與語(yǔ)義資源相結(jié)合,可以在詞匯級(jí)、句法級(jí)、語(yǔ)義級(jí)對(duì)文法解析過(guò)程進(jìn)行約束,解決歧義問(wèn)題。實(shí)驗(yàn)結(jié)果表明,這一方法具有較高的準(zhǔn)確率和識(shí)別率。目前系統(tǒng)中的核心語(yǔ)義文法都是由人工構(gòu)造而成,在系統(tǒng)建設(shè)初期,需要投入一定的人力成本,這也是本文下一步要開(kāi)展的工作,即以用戶(hù)歷史問(wèn)題集合為基礎(chǔ),自動(dòng)或半自動(dòng)地構(gòu)造語(yǔ)義文法規(guī)則。
[1]Fernández A M.Closed-domain natural language approaches:methods and applications[M].Editorial de la Universidad de Granada,2014.
[2]Mollá D,Vicedo J L.Question answering in restricted domains:An overview[J].Computational Linguistics,2007,33(1):41-61.
[3]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in neural information processing systems,2013:3111-3119.
[4]Bordes A,Chopra S,Weston J.Question answering with subgraph embeddings[J].arXiv preprint arXiv:1406.3676,2014.
[5]Zhang K,Wu W,Wang F,et al.Learning distributed representations of data in community question answering for question retrieval[C]//Proceedings of the Ninth ACM International Conference on Web Search and Data Mining.ACM,2016:533-542.
[6]中文信息學(xué)會(huì).中文信息處理發(fā)展報(bào)告(2016)[R/OL].http://cips-upload.bj.bcebos.com/cips2016.pdf,2016:83-89.
[7]Choi E,Bahadori M T,Song L,et al.GRAM:Graph-based attention model for healthcare representation learning[J].arXiv preprint arXiv:1611.07012,2016.
[8]Bordes A,Weston J,Usunier N.Open question answering with weakly supervised embedding models[C]//Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer Berlin Heidelberg,2014:165-180.
[9]Ferrone L,Zanzotto F M.Symbolic,distributed and distributional representations for natural language processing in the era of deep learning:a Survey[J].arXiv preprint arXiv:1702.00764,2017.
[10]Palangi H,Deng L,Shen Y,et al.Deep sentence embedding using long short-term memory networks:Analysis and application to information retrieval[J].IEEE/ACM Transactions on Audio,Speech and Language Processing(TASLP),2016,24(4):694-707.
[11]Fernández A M.Closed-domain natural language approaches:methods and applications[M].Editorial de la Universidad de Granada,2014.
[12]Andrenucci A,Sneiders E.Automated question answering:Review of the main approaches[J].ICITA,2005,(1):514-519.
[13]王東升,王石,王衛(wèi)民,等.基于本體和語(yǔ)義文法的上下文相關(guān)問(wèn)答[J].中文信息學(xué)報(bào),2016,30(2):142-152.
[14]陳肇雄.SC文法功能體系[J].計(jì)算機(jī)學(xué)報(bào),1992(11):801-808.
[15]Steedman,Mark.The Syntactic Process[M].The MIT Press,2000.
[16]Liang P,Jordan M I,Klein D.Learning dependency-based compositional semantics[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011:590-599.
[17]Titov I,Klementiev A.A Bayesian model for unsupervised semantic parsing[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011:1445-1455.
[18]Liang P.Learning executable semantic parsers for natural language understanding[J].Commun.ACM,2016,59(9):68-76.
[19]Kate R J,Wong Y W,Mooney R J.Learning to transform natural to formal languages[C]//Proceedings of the National Conference on Artificial Intelligence.Menlo Park,CA; Cambridge,MA; London; AAAI Press; MIT Press; 1999,2005,20(3):1062.
[20]Karlsson F.Constraint grammar as a framework for parsing running text[C]//Proceedings of the 13th conference on Computational Linguistics-Volume 3.Association for Computational Linguistics,1990:168-173.
[21]Bick E,Didriksen T.CG-3—Beyond classical constraint grammar[C]//Proceedings of the 20th Nordic Conference of Computational Linguistics,NODALIDA 2015,May 11-13,2015,Vilnius,Lithuania.Link?ping University Electronic Press,2015(109):31-39.
[22]L Antonsen,S Huhmarniemi,T Trosterud.Constant grammor in dialogue systems[C]//Proceedings of the NODALIDA 2009 workshopConstraint Grammar and robust parsing NEALT Proceedings Series,2009,8:13-21.
[23]Bick E,A constraint grammar based question answering system for portuguese[J].Progress in Artificial intelligence,2003,2902:414-418.
王東升(1982—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、知識(shí)工程、語(yǔ)義網(wǎng)等。E-mail:wds_ict@163.com
王石(1981—),博士,副研究員,主要研究領(lǐng)域?yàn)槲谋咎幚?、?wèn)答系統(tǒng)、知識(shí)工程等。E-mail:wangshi@ict.ac.cn
王衛(wèi)民(1977—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、知識(shí)管理、問(wèn)答系統(tǒng)等。E-mail:wangweimin@google.com