黃華新,洪崢怡
(浙江大學(xué) 邏輯與認(rèn)知研究所, 浙江 杭州 310028)
《自然語言信息處理的邏輯語義學(xué)研究》[1]一書于2018年9月出版,作為國家社會(huì)科學(xué)基金重大項(xiàng)目“自然語言信息處理的邏輯語義學(xué)研究”的部分研究成果,該書對(duì)范疇類型邏輯CTL與組合范疇語法CCG進(jìn)行了系統(tǒng)而深入的研究,并以漢語信息處理為導(dǎo)向,綜合邏輯學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)研究成果,為計(jì)算機(jī)自然語言處理提供了一些新的思路。
自然語言和邏輯有著天然的淵源關(guān)系:一方面,邏輯學(xué)的研究對(duì)象是人類的思維規(guī)律以及推理的有效性,而抽象思維首先也主要是通過自然語言表述出來的;另一方面,人可以習(xí)得語言,并深入探究語句的形式和意義,證明自然語言不是任意的符號(hào)組合,而必須有邏輯作為內(nèi)在理據(jù)與骨架。由此,就誕生了邏輯語義學(xué)這門語言學(xué)和邏輯學(xué)的交叉學(xué)科,它依據(jù)現(xiàn)代邏輯的思想或采用現(xiàn)代邏輯的工具研究自然語言的句法生成和語義組合規(guī)律,揭示和刻畫自然語言生成中的組合特性,并對(duì)自然語言句法-語義的組合生成過程給出形式化的解釋。
自20世紀(jì)70年代以來,數(shù)理邏輯和理論語言學(xué)研究的深入推動(dòng)了邏輯語義學(xué)的迅猛發(fā)展。蒙太格提出“普遍語法”思想,認(rèn)為自然語言和形式語言在本質(zhì)上并無差別,兩者都可以作精確的數(shù)學(xué)描述[2]264,由此創(chuàng)立了著名的蒙太格語法。此后,這一思路的繼承者又提出了廣義量詞理論、話語表現(xiàn)理論、情境語義學(xué)和類型-邏輯語法等一系列理論,構(gòu)成了內(nèi)涵豐富的邏輯語義學(xué)。這些理論嘗試一方面為解釋語言學(xué)問題提供了新思路,另一方面大大推動(dòng)了當(dāng)今邏輯科學(xué)的發(fā)展,隨著計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的發(fā)展,更是引起了自然語言信息處理領(lǐng)域?qū)W者的高度重視。在我國,這也是語言邏輯研究的一個(gè)重要方向,學(xué)者們已對(duì)上述理論作了較為充分的介紹,同時(shí)開始嘗試解決漢語句法和語義中的一些特殊現(xiàn)象,對(duì)漢語信息處理中的疑難問題進(jìn)行理論探索。
鄒崇理等幾位老師潛心學(xué)術(shù),堅(jiān)持?jǐn)?shù)年,完成了《自然語言信息處理的邏輯語義學(xué)研究》一書。該書的作者團(tuán)隊(duì)是國內(nèi)邏輯語義學(xué)研究的主要力量。該書可以視為對(duì)國內(nèi)邏輯語義學(xué)方面成果的一次重要整合和拓展。
該書內(nèi)容分為三編。第一編為總論,介紹了邏輯語義學(xué)的學(xué)科性質(zhì)和研究概況。莫特蓋特曾提出著名的口號(hào)“認(rèn)知=計(jì)算;語法=邏輯;解析=演繹”[3],以此闡釋邏輯語義學(xué)的核心思想。這是因?yàn)樽匀徽Z言和邏輯語言根本的結(jié)構(gòu)機(jī)制都是遞歸生成組合機(jī)制,句子的語義是其各部分語義的函項(xiàng)。當(dāng)然,自然語言的豐富性和復(fù)雜性使它很難完全符合某一原則,很多情況下句法生成和語義組合難以實(shí)現(xiàn)完美的對(duì)應(yīng),句法、語義、語用等多重機(jī)制往往交互作用。也正因?yàn)槿绱耍诮M合性原則的自然語言模型論語義學(xué)更顯示出自己的獨(dú)特的存在價(jià)值,它針對(duì)不能簡單對(duì)應(yīng)的情況進(jìn)行深入的探索和方法的更新,主要給出了兩條解決路徑:一是增加規(guī)則,二是擴(kuò)充詞庫。
第二編介紹了范疇類型邏輯CTL。CTL以蘭貝克演算為基礎(chǔ),主要理論包括非結(jié)合的蘭貝克演算(NL)、結(jié)合的蘭貝克演算(L)、多模態(tài)蘭貝克演算(ML)、對(duì)稱范疇語法等。作者梳理了這一發(fā)展歷程,對(duì)每一種理論給出其公理表述、根岑表述、自然演繹ND表述、樹模式表述4種等價(jià)的表述。接著介紹了蘭貝克演算匹配λ詞項(xiàng)的CTL類型語義學(xué),通過λ演算和蘭貝克演算的匹配實(shí)現(xiàn)了句法和語義的一一對(duì)應(yīng)。最后,作者在賈戈?duì)柕腖LC系統(tǒng)的基礎(chǔ)上進(jìn)行改造,為漢語反身代詞、空代詞等照應(yīng)省略現(xiàn)象構(gòu)造了相應(yīng)的CTL系統(tǒng)。
第三編介紹了組合范疇語法CCG。理論層面,作者回顧了斯蒂德曼的原生態(tài)CCG和鮑德里奇等人的多模態(tài)CCG,揭示了CCG“詞匯主義”“實(shí)用主義”“面向大規(guī)模真實(shí)文本”等特征。應(yīng)用層面則首先討論了漢語中一些特殊句式的處理,包括非連續(xù)結(jié)構(gòu)(話題句、兼語句、連動(dòng)句、復(fù)雜謂語并列結(jié)構(gòu))、特殊句式(把字句、被字句、得字句)、形容詞謂語句、主謂謂語句等。進(jìn)而,在吸收賓州樹庫轉(zhuǎn)換為CCG推演樹已取得的成果的基礎(chǔ)上,重點(diǎn)關(guān)注漢語樹庫的建設(shè),給出了CCGbank轉(zhuǎn)換系統(tǒng)的構(gòu)架與設(shè)計(jì),并最終將基于短語結(jié)構(gòu)語法的賓州漢語樹庫轉(zhuǎn)換為基于組合范疇語法的漢語CCGbank。
全書有著清晰的架構(gòu)和充實(shí)的內(nèi)容,在以下3個(gè)方面體現(xiàn)了鮮明的特色:
1.理論性與應(yīng)用性結(jié)合
在理論梳理方面,該書系統(tǒng)地介紹了范疇類型邏輯和組合范疇語法的基本內(nèi)容。在這一過程中很好地凸顯了不同理論的自身特色。對(duì)于CTL,重視邏輯的系統(tǒng)構(gòu)建和元理論證明;對(duì)于CCG,重視對(duì)各種具體的句法語義現(xiàn)象的解釋。更重要的是系統(tǒng)地比較了兩種理論,并將兩者打通[4]79-80。多模態(tài)CCG的每條規(guī)則都對(duì)應(yīng)于一條范疇類型邏輯的結(jié)構(gòu)公設(shè),這樣便可以使刻畫兼顧貼近自然語言實(shí)際和追求邏輯系統(tǒng)性這兩方面的需求。
在應(yīng)用方面,該研究直接面向自然語言信息處理。研究方法上重視語料庫的建設(shè)、計(jì)算機(jī)程序的解釋和大樣本的數(shù)據(jù)支持。而其最終成果是構(gòu)建漢語分析樹庫,這將有效提高大規(guī)模文本中漢語語句自動(dòng)生成理解的效率和準(zhǔn)確度。
2.對(duì)漢語特殊性的關(guān)注
英漢語言在許多方面存在著較大的差異,誕生于討論英語語言現(xiàn)象的邏輯語義學(xué)理論并不完全適應(yīng)對(duì)漢語的解釋。該書以漢語信息處理為導(dǎo)向,以現(xiàn)代漢語中一些具有典型性的句法-語義現(xiàn)象為研究素材,列舉了大量的漢語例子來進(jìn)行詳細(xì)刻畫。書中尤其針對(duì)漢語照應(yīng)省略問題進(jìn)行了深入細(xì)致的考察。賈戈?duì)栐谄鋵V墩諔?yīng)與類型邏輯語法》[5]中,通過增加豎線算子構(gòu)造了一個(gè)帶受限縮并規(guī)則的蘭貝克演算LLC,用以解決非連續(xù)問題。該書中作者針對(duì)回指照應(yīng)的一些特殊情況,通過對(duì)LLC系統(tǒng)的擴(kuò)張,給出前后搜索的LLC——(Bi)LLC。具體做法是,在賈戈?duì)柕呢Q線算子基礎(chǔ)上,進(jìn)一步定義了區(qū)分方向的向前的豎線算子和向后的豎線算子(解決先行語后置問題),并對(duì)用于處理照應(yīng)關(guān)系的下標(biāo)算子(解決長距離約束、次統(tǒng)領(lǐng)約束、主語傾向性等問題)給出嚴(yán)格的定義,使得下標(biāo)的引入和消去具有邏輯依據(jù)。該系統(tǒng)可以有效解決漢語中空代詞的語義生成,同時(shí)作者也證明了該系統(tǒng)的可靠性和完全性。
3.多學(xué)科交叉融通
該書充分體現(xiàn)了邏輯語義學(xué)多學(xué)科交叉的屬性:研究對(duì)象是自然語言,CCG語料庫的建設(shè)面對(duì)的是大量的真實(shí)語料樣本,其中涉及了大量語言學(xué)關(guān)注的句法和語義現(xiàn)象;研究工具是現(xiàn)代邏輯,對(duì)自然語言采用以函項(xiàng)運(yùn)算為核心的類型論和范疇語法進(jìn)行刻畫,給予模型論上的解釋,進(jìn)而能構(gòu)造一個(gè)邏輯系統(tǒng)并證明其可靠性和完全性;研究的主要目的是服務(wù)于計(jì)算機(jī)科學(xué)的自然語言信息處理,樹庫的建設(shè)實(shí)質(zhì)是將邏輯系統(tǒng)進(jìn)一步轉(zhuǎn)化為算法并進(jìn)行計(jì)算機(jī)編程,最終實(shí)現(xiàn)機(jī)器理解自然語言的效率和準(zhǔn)確度。各個(gè)板塊因其特性在學(xué)科上各有偏重,又在邏輯語義學(xué)的總框架下相互交織。
《自然語言信息處理的邏輯語義學(xué)研究》一書以CTL和CCG這兩個(gè)同源并行的理論串聯(lián)匯總了該團(tuán)隊(duì)近年來的研究成果,其突出價(jià)值體現(xiàn)在以下方面:
在理論方面,邏輯語義學(xué)分支眾多,不同分支之間又存在本質(zhì)上的聯(lián)系,該書對(duì)范疇語法這一重要分支的梳理可謂清晰詳細(xì),使讀者對(duì)此有一個(gè)更完整的認(rèn)識(shí)。邏輯語義學(xué)是自然語言信息處理的基礎(chǔ)性先期工作,自然語言體系的復(fù)雜性遠(yuǎn)遠(yuǎn)超出人們最初的想象,如果沒有邏輯語義學(xué)對(duì)一些特殊語言現(xiàn)象的處理,自然語言處理(如機(jī)器翻譯等)只能是以擴(kuò)充樣本為主的量的提升,而對(duì)于無界依存、回指照應(yīng)、語義歧義等依賴邏輯語義結(jié)構(gòu)的復(fù)雜問題依然束手無策。漢語作為一種“意合性”語言,詞序更為靈活,省略更為常見,上下文依賴性也相對(duì)更強(qiáng)。該書立足于漢語的獨(dú)特性的范疇類型邏輯以及組合范疇語法研究,切實(shí)地通過技術(shù)手段上的創(chuàng)新實(shí)現(xiàn)了對(duì)漢語部分句法語義的解釋,這些思路和成果可以推廣,以充實(shí)邏輯語義學(xué)研究的理論寶庫。
而從應(yīng)用角度來看,把邏輯語義學(xué)對(duì)自然語言,尤其是對(duì)漢語形式化研究的成果應(yīng)用到漢語的信息處理領(lǐng)域,將拓寬我國計(jì)算機(jī)自然語言處理的思路,提高處理的效率。CCG樹庫的建立在提高機(jī)器生成和理解自然語言的效率和準(zhǔn)確度方面具有重要意義,但此前,漢語CCG庫只有微軟和清華合作的成果,該書在這一方向上有較大的突破。
在學(xué)科建設(shè)方面,國內(nèi)邏輯語義學(xué)方向的研究比較邊緣,成果也較零散。該書通過對(duì)范疇語法的兩個(gè)分支的梳理、應(yīng)用與創(chuàng)新,給出了一條相對(duì)清晰的邏輯、語言、計(jì)算的跨學(xué)科交叉研究的路徑,其研究思路、理念和方法對(duì)國內(nèi)語言邏輯以及相關(guān)的跨學(xué)科研究有重要的啟發(fā)價(jià)值和促進(jìn)作用。
當(dāng)然,以邏輯語義學(xué)為工具對(duì)漢語語言現(xiàn)象的研究才剛剛起步,還有巨大的探索空間。尤其CCG面對(duì)的是大規(guī)模的真實(shí)文本,其中涉及的問題更為復(fù)雜。目前,利用CCG對(duì)漢語特殊句式進(jìn)行處理時(shí)實(shí)用色彩過于濃厚,只是針對(duì)不同的句式調(diào)整了特定成分的句法范疇,顯得比較零散,描述的意味多于理論抽象。由此,也讓人進(jìn)一步追問,詞匯的范疇是否能夠窮盡?如果不能,則范疇的賦予會(huì)始終處于不確定的開放狀態(tài);如果能夠窮盡,機(jī)器在選擇時(shí)是否將無差別地搜索出一切可匹配的范疇?另外,通過對(duì)詞條給出不同的范疇得到不同的組合,或者以不同的順序進(jìn)行范疇組合,是否會(huì)使一個(gè)本無歧義的句子生成多種存在差異的語義?類似的問題還有許多,均值得我們下功夫深入探究。
重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué))2019年4期