鄒 崇 理
(1.四川師范大學 邏輯與信息研究所,成都 610066;2.中國社會科學院 哲學所,北京 100732)
組合原則和自然語言虛化成分
鄒 崇 理1,2
(1.四川師范大學 邏輯與信息研究所,成都 610066;2.中國社會科學院 哲學所,北京 100732)
計算機人工智能時代最重要的任務之一是自然語言的信息處理,邏輯語義學則是其基礎理論,而組合原則又是邏輯語義學的基本原則,表現(xiàn)為部分決定整體的函項思想。自然語言的虛化成分是自然語言復合表達式中對整體意義不起作用的那些部分,自然語言違反組合原則的情況表現(xiàn)為句法和語義的不對應,意味著決定整體意義的“部分”這個概念應該受到限制,組合原則的經典表述在自然語言的某些場合受到挑戰(zhàn)。就自然語言的某些語義領域而言,限制性的組合原則概念是關于組合原則具體精準的表述。
邏輯語義學;組合原則;自然語言;虛化成分
邏輯學是人文社會科學和自然科學共同的基礎學科。1974年,聯(lián)合國教科文組織規(guī)定的七大基礎學科依次為數(shù)學、邏輯學、天文學和天體物理學、地球科學和空間科學、物理學、化學、生命科學。由此可見,邏輯學在人類整個知識結構中的基礎地位。20世紀中葉以來,計算機科學技術的迅猛發(fā)展,導致席卷全球的信息革命,而自然語言是信息的重要載體之一,信息革命離不開自然語言的計算機處理。邏輯作為人類知識結構的基礎,同樣在自然語言的信息處理領域內發(fā)揮巨大作用。
自然語言的計算機信息處理過程是:首先,把需要研究的語言學問題用數(shù)學或邏輯的形式嚴密而規(guī)整地表示出來;其次,把這種嚴密而規(guī)整的表述表示成算法,建立各種自然語言處理系統(tǒng);第三,對自然語言處理系統(tǒng)進行評測,不斷改進質量和性能。邏輯語義學關于自然語言的研究主要對第一步驟發(fā)生作用,邏輯語義學是自然語言信息處理的基礎理論學科,前者為后者提供了諸多重要的操作工具和指導思想。
從邏輯語義學角度對自然語言進行形式化研究,組合原則是其重要的方法論,那么怎樣理解組合原則?組合原則是什么?
組合原則是邏輯語義學的基本原則。組合原則直觀表述為:如果表達式E依據某個句法規(guī)則由部分E1和E2所構成,則E的語義M(E)是依據某個語義規(guī)則把E1的語義M(E1)和E2的語義M(E2)合并起來而獲得的。舉例來說,表達式“偉大祖國”的語義是由形容詞“偉大”的語義限制名詞“祖國”的語義而獲得。表達式“戴眼鏡的女孩”的語義是以由定語從句“某某戴眼鏡”的語義和名詞“女孩”的語義合并而成。
嚴格講,組合原則意味:一個復合表達式的語義是由部分的語義貼合這些部分的句法運算的意義所構成的函項。組合原則的數(shù)學定義深刻揭示了這樣的特征[1]526。
令A=〈A,F〉和B=〈B,G〉都是代數(shù),映射h:A→B是同態(tài)的,當且僅當,存在一個映射h′:F→G使得對所有f∈F和所有a1,…,an∈A都有:
h(f(a1,…,an))=h′(f)(h(a1),…,h(an))
在自然語言領域,A是句法代數(shù),B是語義代數(shù),h就是從句法生成到語義組合的意義指派。A是句法表達式的集合,B是語義值的集合,F(xiàn)是句法算子的集合,G是語義算子的集合。f是F中的某個算子,a1,…,an是A中的n個表達式,h′(f)是G中對應f的語義算子,h(a1),…,h(an)是B中對應a1,…,an的n個語義值。復合表達式f(a1,…,an)是f對a1,…,an進行句法生成的結果,其語義h(f(a1,…,an))就是語義算子h′(f)對n個部分語義h(a1),…,h(an)進行運算的結果,是語義算子貼合部分語義進行運算的函項。
例子解讀:令句法代數(shù)A的論域A={張三,李四,散步,學習,張三散步},語義代數(shù)B的論域B={a,b,,{a,b},1,0}。再令f(張三,散步)=張三散步,h(張三)=a,h(散步)={a,b},h′(f)=g。對此進行語義指派得:h(f(張三,散步))=h′(f)(h(張三),h(散步))=g(a,{a,b})=1,當且僅當a∈{a,b}。
可以看出組合原則具有兩個重要特征:(1)復合表達式語義組合“h′(f)(h(a1),…,h(an))”的根源依據是復合表達式的句法生成“f(a1,…,an)”,這就是句法和語義對應的思想;(2)復合表達式的語義不僅依靠其部分的語義“h(a1),…,h(an)”,還取決于合并這些部分的句法生成的意義“h′(f)”。
組合原則是現(xiàn)代邏輯的基石,在構造邏輯系統(tǒng)中起到方法論的作用。組合原則要求邏輯系統(tǒng)中每個句法(語形)形成規(guī)則必須對應一個語義解釋規(guī)則。命題邏輯嚴格遵循了意義的組合原則,令∥ ∥為意義指派函項h,則有:
Syn1.原子公式p1,p2,∈Form;
Syn3.若φ,ψ∈Form,則(φ→ψ)∈Form。
Sem1.‖pi‖ ∈{0,1};
Sem3.‖(φ→ψ)‖=1當且僅當‖φ‖=0或‖ψ‖=1。
句法規(guī)則Syn1對應語義規(guī)則Sem1,Syn2對應Sem2,Syn3對應Sem3。顯然,這里復合表達式的語義依據其部分表達式的語義,復合表達式的所指是部分表達式所指的函項。如‖(φ→ψ)‖=‖→(φ,ψ)‖=h′(→) (‖φ‖,‖ψ‖)=1,當且僅當‖φ‖=0或‖ψ‖=1。
自20世紀70年代初開始,現(xiàn)代邏輯的方法擴展延伸到自然語言的研究領域,形成了以蒙太格語法(Montague Grammar)[2]247-270為首的邏輯語義學群體,組合原則自然也成為邏輯語義學的靈魂。
蒙太格語法是強調組合原則的邏輯語義學理論。在其構造的三個英語部分語句系統(tǒng)那里,句法和語義處處嚴格對應。以PTQ系統(tǒng)為例,17條句法規(guī)則對應17條語義翻譯規(guī)則[2]247-270。每條翻譯規(guī)則體現(xiàn)出:復合表達式的翻譯是其部分表達式翻譯的函項。句子、動詞短語和名詞短語三類合取復合表達式的句法規(guī)則及其翻譯規(guī)則如下:
Syn1.若φ,ψ∈Pt,則F8(φ,ψ)=φandψ∈Pt;
Syn2.若δ,γ∈PIV,F(xiàn)8(δ,γ)=δ andγ∈PIV;
Syn3.若α,β∈PT,F(xiàn)9(α,β)=α or β∈PT。
Tra1.若φ,ψ分別翻譯成φ′,ψ′,則φandψ翻譯成[φ′∧ψ′];
Tra2.若δ,φγ別翻譯成δ′,γ′,則δ and γ翻譯成λx[δ′(x) ∧γ′(x)];
Tra3.若α,β分別翻譯成α′,β′,則α or β翻譯成λP[α′(P)∨β′(P)]。
翻譯起意義指派函項的作用。令T是翻譯函項,拿Tra2.來說,T(δ and γ)=T(and(δ,γ))=h′(and)(T(δ),T(γ))=λx[δ′(x)∧γ′(x)]。復合表達式的翻譯依賴部分表達式的翻譯。
組合原則的作用還體現(xiàn)在更多的領域內。
在計算機科學那里,連接許多通信處理器的大網絡技術發(fā)展很快,人們特別關注超大系統(tǒng)的行為。在有關研究中,組合原則起到很大的作用:牽涉整個系統(tǒng)行為的證明應該是各個處理器的證明的函項。這方面的介紹參見文獻。
組合原則在形式翻譯領域作用更大。為了考察邏輯系統(tǒng)之間的關系,比較表達力的大小以及獲得相對的協(xié)調性,人們往往設立符合組合原則的翻譯程序。最著名的例子是G?del把直覺主義邏輯轉換成模態(tài)邏輯的翻譯。在直覺主義邏輯那里,聯(lián)接詞具有一種構造性解釋,如φ→ψ被解釋成:給定φ的證明,據此構造ψ的證明。令Tr為翻譯函項,翻譯程序定義為:
a.Tr(p) = □p 對原子命題p
b.Tr(φ∨ ψ) = Tr(φ) ∨ Tr(ψ)
c.Tr(φ∧ ψ) = Tr(φ) ∧ Tr(ψ)
d.Tr(φ→ψ) = □p(Tr(φ) →Tr(ψ))
復合表達式的翻譯,依據部分表達式的翻譯來確定。G?del的翻譯是一種組合翻譯,邏輯系統(tǒng)之間大量的組合翻譯可以參見Epstein的著述。
在不同自然語言之間也可以實行組合性的機械翻譯。把一種自然語言翻譯成另一種語言,要求保留源語言的意義,機器翻譯的研究項目“Rosetta”企圖基于翻譯的組合原則來達到這一目標,兩個表達式能夠互譯僅當它們的部分能夠互譯。
組合原則在理論和應用方面盡管有很大的價值和作用,但是也有其局限性。在Pelletier看來,下列句子對組合原則構成挑戰(zhàn):
Every linguist knows two languages.
The philosophers lifted the piano.
第一個句子因為兩個不同的語言學家所熟知的兩種語言是否彼此相同而產生歧義,第二句子不能確定是每個哲學家分別抬這臺鋼琴,還是哲學家們共同抬這臺鋼琴。兩句的歧義既不來源于詞匯,也不是由句法生成所引起。兩句的情況都是:由相同部分的語義和相同的句法運算意義不能唯一確定整體表達式的語義。
組合原則是一個純理論的數(shù)學概念,而具有相當靈活性和復雜性的自然語言中出現(xiàn)不遵循組合原則的例子在所難免。這些例子由自然語言的語用因素、歧義現(xiàn)象和句法語義的不對應所引起。本文所關注的自然語言虛化成分現(xiàn)象,涉及句法和語義的不對應,而并非遵守組合原則。即有的自然語言表達式,其句法構成是f(A,B,C)=ABC。按照組合原則粗略看,其整體語義依賴A的語義、B的語義和C的語義。這里,由于B是虛化成分,其整體語義僅僅依賴A的語義和C的語義。那么,什么是虛化成分?
我們注意到,在自然語言中,有那樣一些語言表達式,在句法上把其左邊具有語義所指的表達式跟其右邊具有語義所指的表達式隔開,而自身在整個表達式的語義解釋中沒有所指物。如漢語的結構助詞,英語不定式中的小品詞to等,我們稱之為虛化成分。簡言之,虛化成分是復合表達式中那些不起語義作用的句法成分。
我們以漢語結構助詞“的”為代表來看學術界對此的處理情況。劉壯虎在《邏輯學增刊》上構造的復合謂詞邏輯系統(tǒng)中,把諸如“大的螞蟻”之類短語的邏輯語義分析看作是“大”對應的謂詞對“螞蟻”對應的謂詞進行復合的結果,結構助詞“的”在這里沒有對應的邏輯詞項。張秋成在專著《類型邏輯語法研究》[3]146中的推演是:
最后結果表明,表達式“美麗的姑娘”的語義表達“美麗(姑娘)”中沒有“的”所對應的語義表達。而王欣在她的博士論文《類型邏輯語法與現(xiàn)代漢語“是”和“的”》中給出的推演為:
她直接指出,在a和b里“中式”和“中式的”的范疇都是n/n,加不加“的”意思都相同[4]157。也就是說,這個“的”對語言分析來說是多余的成分。
通常對漢語的動詞短語表達式“飛快地跑步”是這樣處理的:令“飛快”的邏輯式為α,“跑步”的邏輯式是γ,“飛快地跑步”的邏輯表達就是α(γ)。從語義角度看,這里“地”是沒有所指的。況且,在英語中,“飛快地跑步”對應“run rapidly”,“漂亮的女孩”對應“pretty girl”,英語上述短語的語義只需要兩個成分起作用,這里漢語表達式中的“地”和“的”均可以看作是沒有語義所指的虛化成分。
我們從類型邏輯語法角度審視,首先確立包含下列詞條的詞庫:
飛快?nps)/(nps):α 地?B:?(空邏輯式)跑步?nps:γ
然后可以看到從□飛快地跑步推出nps:α(γ)”的樹模式圖示:
上述刪去虛化成分的推演需要提供新的推演工具。這就是:從A:α,B:?,C:γ推出A:α,C:γ。對此抽象,去掉與范疇配對的λ-項,再把虛化成分B及其左右范疇A和C構成一個所謂“省略槽”的復合范疇[A{B}C],即得:[A{B}C]→(A·C),這就是新的推演工具。三元復合范疇[A{B}C]是刪去虛化成分的起點,據此揭示包含虛化成分的表達式的語義特征,如“迅速地跑步”,“美麗的女孩”和“玩得高興”,其中的“地”、“的”和“得”所屬范疇就是起間隔虛化作用的B。三元復合范疇的語義解釋如下:
v([A{B}C])={x|?yz[Sxyg(B)z&y∈║A║ &z ∈║C║]}
按照上述定義:Sxyg(B)z意味:x是y、g(B)和z毗連的結果,具有語義所指的符號串y和z分別屬于A和C,而g(B)指起虛化作用的符號串,B是A和C之間的虛化范疇(對應的語義所指為空邏輯式)。于是有:
限制0:?B?x[x~g(B)?x∈v(B)]
這里x~g(B)的直觀理解是:x是g(B)(起虛化作用的符號串)。限制0表明起虛化作用的符號串是║B║中的元素。
于是,我們提出基于[A{B}C]的范疇邏輯系統(tǒng)[5]370-381。其公理是:
公理0:A→A
公理1:A·B?B·A
公理2:[A{B}C]→(A·C)
公理3:D·[A{B}C]→[(D ·A){B}C]
公理4:[A{B}C]·D→[(A ·D){B}C]
公理5:D ·[A{B}C]→[A{B}(D·C)]
公理6:[A{B}C]·D→[(A{B}(C·D)]
公理7:[A{B}C]·[D{B}E]→[(A·D){B}(C·E)]
系統(tǒng)的規(guī)則有(Lambek演算的5條推演規(guī)則):
此外,系統(tǒng)還有兩條獨特的推演規(guī)則:
對構成其他復合范疇的算子,傳承Lambek演算L系統(tǒng)的語義解釋如下:
υ(A·B)={x|?y?z[Rxyz &y∈υ(A)&z∈υ(B)]}
υ(C/B)={y|?x?z[Rxyz &z∈υ(B)) ?x∈υ(C)]}
υ(AC)={z|?x?υ[Rxυz &υ∈υ(A))?x∈υ(C)]}
按照慣例給出系統(tǒng)的框架語義,這是一個由三元可及關系R和四元可及關系S組成的混合框架。系統(tǒng)的語義特色在于下述框架限制:
限制0:?B?x[x ~ g(B)? x∈v(B)]
限制1:?xyz[Rxyz?Rxzy]
限制2:?xyzu[Sxyzu?Rxyu]
限制3:?xyzuvw[Rxyz &Szuwv?t[Sxtwv &Rtyu]]
限制4:?xyzuvw[Rxyz &Syuvw?t[Sxtvw &Rtuz]]
限制5:?xyzuvw[Rxyz &Szuvw?t[Sxuvt &Rtyw]]
限制6:?xyzuvw[Rxyz &Syuvw?t[Sxuvt &Rtwz]]
限制7:?xyzuvwst[Rxyz &Syuvw &Szsvt??ab[Sxavb &Raus &Rbwt]]
依據上述提供的框架語義解釋及其限制,可以證明系統(tǒng)的可靠性和完全性??膳卸ㄐ宰C明也可按照慣例給出[5]370-381。
上文已強調,系統(tǒng)的最大特色就是公理2:[A{B}C]→ (A·C)。意味從A:α,B:?,C:γ推出A:α,C:γ。從句法角度看,復合表達式“ABC”的部分表達式是“A”、“B”和“C”。公理2的潛在顯示為:“ABC”即“[A{B}C]”的整體語義就是“A·C”的語義,即“α(γ)”。而這僅僅取決于部分表達式“A”的語義“α”和部分表達式“C”的語義“γ”,復合表達式的語義并非如組合原則所要求的是由所有部分表達式的語義來決定。
在自然語言復合表達式中間的部分表達式是虛化成分的條件下,這時的組合原則就是受限的,其表述就是:復合表達式的語義是由除去作為那個虛化成分的部分的語義以外的其他部分的語義貼合這些部分的句法運算的意義所構成的函項。受限組合原則的定義為:
令A=〈A,F〉是句法代數(shù)和B=〈B,G〉是語義代數(shù),映射h:A→B是同態(tài)的,當且僅當,存在一個映射h′:F→G,存在f∈F并且存在a1,…,an∈A滿足:
h(f(a1,…,ai,…,an))=h′(f)(h(a1),h(ai-1),h(ai+1)…,h(an))(1
其中,h(ai)是作為虛化成分的部分的語義。
例子解讀:動詞短語表達式“飛快地跑步”的句法生成:f(飛快,地,跑步)。令“飛快”的邏輯語義為α,“跑步”的邏輯語義是γ,“飛快地跑步”的邏輯語義就是h(f(飛快,地,跑步))=h′(f)(α,γ)=α(γ)。從語義角度看,這里“地”是沒有邏輯語義的,在復合表達式“飛快地跑步”的整體語義組合中不起作用,是語義虛化的部分表達式。“美麗的姑娘”和“中式的家具”中的結構助詞“的”也都是自然語言中的虛化成分。
由于自然語言的豐富多樣性,句法和語義的對應及意義的組合原則往往表現(xiàn)出異彩紛呈的局面。這給人們留下研究的空間,探討作為數(shù)學概念的組合原則怎樣通過具體生動的自然語言而呈現(xiàn)出多種多樣的表現(xiàn)形式,是邏輯語義學介入自然語言信息處理領域所期待的工作,是邏輯學作為基礎工具學科作用于計算機人工智能科學的價值所在。
[1]Janssen T,Partee.Compositionality[C]// Johan van Benthem et al.(eds.).Handbook of Logic and Language[M].Amsterdam: Elsevier,2011.
[2]Montague R.Formal Philosophy[M].New Haven: Yale University Press,1974.
[3]張秋成.類型邏輯語法研究[M].北京:中國人民大學出版社,2007.
[4]王欣.類型邏輯語法與現(xiàn)代漢語“是”和“的”[M].北京:北京語言大學出版社,2009.
[5]ZOU Chongli et al.The Categorical Logic of Vacuous Components in Natural Language[C]//Van Ditmarsch et al.(eds.).Logic,Rationality,and Interaction,LNAI 6953.Berlin: Springer-Verlag,2011.
[責任編輯:帥 巍]
Principle of Compositionality and Vacuous Components in Natural Language
ZOU Chong-li1,2
(1.Institute of Logic and Information,Sichuan Normal University,Chengdu,Sichuan 610066;2.Institute of Philosophy,Chinese Academy of Social Sciences,Beijing 100732,China)
Principle of compositionality is the most important principle for Logical Semantics,a theoretical foundation of NLP (Natural Language Processing),which is one of the most important tasks in the age of artificial intelligence.Principle of compositionality embodies the idea that the meaning of the whole expression is the function of the meanings of its components.However,as a typical phenomenon of anti-syntax-semantics-correspondence,the vacuous components in complex expressions of natural language make no contribution to the meaning of the whole expression.Therefore,the meanings of its parts should be manipulated under a certain restrictions of principle of compositionality.This paper proposes the restricted principle of compositionality as a more accurate expression of the Principle.
logical semantics;principle of compositionality;natural language;vacuous components
2016-02-26
國家社科基金重大招標項目“自然語言信息處理的邏輯語義學研究”(10&ZD073)。
鄒崇理(1953—),男,四川成都人,四川師范大學特聘教授、邏輯與信息研究所學術委員會主席,中國社會科學院博士生導師,中國邏輯學會會長,主要研究自然語言邏輯。
B815.3;O141
A
1000-5315(2017)01-0005-05