馮志偉 周建
摘? 要:1957年,喬姆斯基《句法結構》出版,這是對結構主義的一系列基本原理提出的挑戰(zhàn),是自然語言形式分析的奠基力作,標志著語言學中的“喬姆斯基革命”的開始。此書著重闡述了形式語言理論和轉換語法。在形式語言理論中,喬姆斯基將語言看成是一個抽象的數(shù)學系統(tǒng)。為了描寫和解釋語言現(xiàn)象,他論證了語法的生成能力,認為應該把語法看成是能生成無限句子的有限規(guī)則系統(tǒng)。在轉換語法中,喬姆斯基認為,轉換語法模型由直接成分層級、轉換層級、語素音位層級三個層級構成。在運用轉換規(guī)則時,具體的操作方式主要有調位、復寫、插入、消去,轉換使語法具有更強的解釋力。
關鍵詞:喬姆斯基;《句法結構》;形式語言理論;轉換語法
如果說,索緒爾語言學說的提出是語言學史上哥白尼式的革命,那么,喬姆斯基(N.Chomsky,1928— )的轉換生成語法的提出,則是語言學史上的又一次劃時代的革命,即“喬姆斯基革命”。
1916年索緒爾《普通語言學教程》的出版,開辟了現(xiàn)代語言學的新紀元,而1957年喬姆斯基《句法結構》的出版(Chomsky,1957),是對結構主義的一系列基本原理提出的挑戰(zhàn),標志著語言學中的“喬姆斯基革命”的開始。這場革命直到今天還沒有完結(馮志偉,1982)。
《句法結構》一書出版已經60年了,這是一本對于現(xiàn)代語言學有重要影響的著作,也是自然語言形式分析的奠基力作,特寫此文以志紀念。
一、喬姆斯基與《句法結構》
1928年12月7日,喬姆斯基出生于美國費城。他的父親威廉· 喬姆斯基(William Chomsky)是一個希伯來語學者,曾寫過《大衛(wèi)·金西的希伯來語法》(Davis Kimhis Hebrew grammar)一文。幼年的喬姆斯基(他的名字叫諾阿姆,即Noam Chomsky)在父親的熏陶下,就愛上了語言研究工作。1947年,他結識了美國描寫語言學“后布龍菲爾德學派”的代表人物、著名語言學家海里斯(Z.Harris,1909—1992)。在研讀了海里斯《結構語言學方法》(Method in Structural Linguistics)之后,他被海里斯那種嚴密的研究方法深深地吸引住,幾乎到了心醉神迷的程度。從此,他立志以語言學作為自己畢生的事業(yè),進入海里斯執(zhí)教的賓夕法尼亞大學,專攻語言學。
喬姆斯基是熟悉希伯來語的,掌握了《結構語言學方法》的基本原理之后,他試圖用海里斯的方法來研究希伯來語,但所獲甚微。于是,他決定把海里斯的方法作適當?shù)恼{整,建立一種形式語言理論,采用遞歸的規(guī)則來描寫句子的形式結構,從而使語法獲得較強的解釋力。
從1947年到1953年,喬姆斯基花了整整六年時間來從事這項研究。其間,1949年在巴爾希列爾(Y.Bar-Hillel,1915—1975)的鼓勵和支持下,提出了一套描寫語言潛在形態(tài)的規(guī)則系統(tǒng)。1951年在賓夕法尼亞大學完成了碩士論文《現(xiàn)代希伯來語語素音位學》。1951年后,他到哈佛大學學術協(xié)會任職,以正式會員的身份從事語言研究工作。1953年,他在《符號邏輯雜志》(Journal of Symbolic Logic)上發(fā)表了《句法分析系統(tǒng)》(System of Syntactic Analysis),此文對美國描寫語言學的方法進行了形式化描述。他感到,在結構主義的框架中研究語言,往往會得出錯誤的結論。
為了完成形式語言理論這一有意義的課題,在海里斯的建議下,喬姆斯基從1953年開始學習哲學、邏輯學和現(xiàn)代數(shù)學。這個時期,他受到了古德斯曼(N.Goodsman)的“構造分析法”的影響,也受到了奎恩(W.V.O.Quine)對邏輯學中的經驗主義批判的影響,他采用的語言研究方法是嚴格的、形式化的。同時,他對美國描寫語言學的方法越來越不滿意,在哈勒(M.Halle)的支持下,喬姆斯基決心同結構主義思想徹底決裂,另起爐灶,走自己的新路。
1954年,喬姆斯基著手撰寫《語言理論的邏輯結構》(The Logical Structure of Linguistic Theory)一書。在這部著作中,他初步勾畫出生成語法的理論觀點和思想方法。1955年,《語言理論的邏輯結構》(Chomsky,1975)書稿完成,喬姆斯基回到賓夕法尼亞大學,并以論文《轉換分析》(Transformational analysis)獲得了博士學位。
1955年秋,喬姆斯基經哈勒和雅可布遜推薦,到麻省理工學院(MIT)電子學研究室做研究工作,并在現(xiàn)代語言學系任教,給研究生講授語言學、邏輯學、語言哲學等課程。麻省理工學院電子學研究室在著名學者魏斯奈爾(Jerome Wiesner)的領導下,為多學科的聯(lián)合研究提供了良好的環(huán)境,這樣,喬姆斯基就可以專心致志地從事自己的研究工作。
這時,喬姆斯基的形式語言理論的思想已基本成熟,他更加清晰地認識到結構主義的方向是完全錯誤的,他開始大膽地向結構主義挑戰(zhàn)。
1956年,在哈勒的建議下,喬姆斯基把自己在麻省理工學院給本科生講課的一些筆記,交給了荷蘭摩頓(Mouton)公司的《語言學叢書》(Janua Linguarum)的編輯舒納費爾德(C.V.Schoonefeld)。舒納費爾德獨具慧眼,答應出版這些筆記。經過一番修改之后,由摩頓公司在1957年以《句法結構》(Syntactic Structures)為題出版。此書的出版,得到了美國陸軍通訊兵團,美國空軍科學研究署、空軍研究部、空軍開發(fā)部和美國海軍研究署的資助,還得到了美國國家科學基金會和伊斯特曼·柯達公司的資助??梢娒绹j懣杖娨约懊绹鴩一饡Υ藭闹匾?。
從此,喬姆斯基的語言學說開始在語言學界傳播開來,并進一步發(fā)展成為眾所周知的轉換生成語法(transformational generative grammar)。2002年,德國德古意特公司(De Gruyter GmbH&Co.KG)出版了《句法結構》的第二版(Chomsky,2002)??梢哉f,《句法結構》是自然語言形式分析的奠基性著作,對于現(xiàn)代語言學的發(fā)展具有重要的意義。
在撰寫《句法結構》前后,喬姆斯基還在1956年至1963年間,發(fā)表了《語言描寫的三個模型》(Chomsky,1956)、《論語法的一些形式特性》(Chomsky,1959)、《上下文無關語法和后進先出存儲器》(Chomsky, 1962)和《語法的形式特性》(Chomsky,1963)等論文。本文也結合這些論文來分析《句法結構》,這樣將有助于我們更加深入地理解《句法結構》的內容。
二、形式語言理論
喬姆斯基在《句法結構》中,以語言學家可以理解的方式介紹了他的形式語言理論(formal language theory)和轉換語法(transformational grammar)。
(一)語法生成的方法
形式語言理論的研究對象,除了自然語言之外,還包括程序語言和其他人造語言。在形式語言理論中,語言(Language)被看成是一個抽象的數(shù)學系統(tǒng),喬姆斯基把它定義為:按一定規(guī)律構成的句子(Sentence)或符號串(String)的有限的或無限的集合,記為L。
每個句子或符號串的長度是有限的,它們由有限數(shù)目的符號相互毗連而構成。構成語言的有限個符號的集合,叫做字母表 (alphabet)或詞匯 (Vocabulary),記為V;不包含任何符號的符號串,叫做空句子(empty Sentence)或空符號串(empty String),記為ε。
如果V是一個字母表,那么,把由V中的符號構成的全部句子(包括空句子ε)的集合,記為V*,而把V中除了ε之外的一切句子的集合,記為V+。例如,如果V={a,b},則
V*={ε,a,b,aa,ab,ba,bb,aaa,…}
V+={a,b,aa,ab,bd,bb,aaa,…}
但是,某語言的字母表V中的符號相互毗連而成的符號串,并不一定都是該語言中的句子。例如,“the boy hit the ball”在英語中是正確的,叫做“成立句子”;而由同樣符號構成的“*the hit the boy hall”在英語中卻是不正確的,叫做“不成立句子”。為了區(qū)別一種語言中的成立句子和不成立句子,就有必要把這種語言刻畫出來,從而說明在這一種語言中,什么樣的句子是成立的,什么樣的句子是不成立的。
喬姆斯基認為,可以采用三種辦法來刻畫語言。
第一種,窮盡枚舉法,即把語言中的全部成立句子窮盡地枚舉出來。
如果語言只包含有限數(shù)目的句子,要窮盡地枚舉是能辦到的;而如果語言中句子數(shù)目是無限的,用簡單枚舉的辦法就行不通。
而且,在很多場合,對于語言中某一個長度有限的句子,還可以采用一定的辦法將其長度加以擴展。例如,對于英語句子
This is the man.(這是那個男人。)
我們可以將其擴展為:
This is the man that married the girl.(這是那個同姑娘結婚的男人。)
還可以進一步擴展為:
This is the man that married the girl that brought some bread.(這是那個和帶來了一些面包的姑娘結婚的男人。)
喬姆斯基認為,可以在句子里加上任意數(shù)目的that-從句,每加一個這樣的從句就構成了一個新的更長的句子,而這些句子都是成立的。究竟能加多少個that-從句,只與講話人的記憶力及耐心有關,而與語言本身的結構無關。從這個意義上說,人們能夠加上無限數(shù)目的that-從句而使句子保持成立。在這樣的情況下,用窮盡枚舉的辦法來刻畫語言顯然是行不通的。
第二種,語法生成法,即制定有限數(shù)目的規(guī)則來生成(generate)語言中無限數(shù)目的句子。
例如,上面三個句子可以這樣統(tǒng)一地加以描述:
設X是一個初始符號,S為句子,R為that-從句,提出重寫規(guī)則:
X→S
S→S︵R
這里,“→”是重寫符號, “︵”是毗連符號,利用這兩條規(guī)則,可以生成數(shù)目無限的帶that-從句的句子。
喬姆斯基把這些數(shù)目有限的刻畫語言的規(guī)則,叫做“語法”(grammar),記為G。語法是有限規(guī)則的集合,這些規(guī)則遞歸地生成潛在的無限的句子,并排除語言中的不成立句子。語法G所刻畫的語言,記為L(G)。需要注意的是,喬姆斯基在這里所說的“語法”,與一般語言學書中所說的“語法”不是一回事,它有著如上所述的特定的含義。
喬姆斯基指出,早在19世紀初,德國杰出的語言學家和人文學者洪堡特(W.V.Humboldt,1767—1835)就觀察到“語言是有限手段的無限運用”。但是,由于當時尚未找到能揭示這種觀點的本質內容的技術工具和方法,洪堡特的論斷還是不成熟的。那么,究竟如何來理解語言是有限手段的無限運用呢?
喬姆斯基認為,“一個人的語言知識是以某種方式體現(xiàn)在人腦這個有限的機體之中的,因此語言知識就是一個由某種規(guī)則和原則構成的有限系統(tǒng)。但是一個會說話的人卻能講出并理解他從未聽到過的句子以及和我們聽到的不十分相似的句子。而且,這種能力是無限的。如果不受時間和注意力的限制,那么由一個人所獲得的知識系統(tǒng)規(guī)定了特定形式、結構和意義的句子的數(shù)目也將是無限的。不難看到這種能力在正常的人類生活中得到自由的運用。我們在日常生活中所使用和理解的句子范圍是極大的,無論就其實際情況而言還是為了理論描寫上的需要,我們完全有理由認為人們使用和理解的句子范圍都是無限的?!保–homsky,1982)
遞歸是體現(xiàn)“有限手段的無限運用”的最好辦法。喬姆斯基提出的“語法”就恰恰采用了遞歸的辦法。
第三種,自動機識別法,即提出一種裝置來檢驗輸入符號串,用這種裝置來識別該符號串是不是語言L中的成立句子。如果是成立句子,這個裝置就接收它;如果是不成立句子,這個裝置就不接收它。喬姆斯基把這樣的裝置叫做“自動機”(automata),它是語言的“識別程序”(recognizer),記為R。
由此可見,刻畫某類語言的有效手段,是語法和“自動機”。語法用于生成此類語言,而“自動機”則用于識別此類語言。
語法和自動機是形式語言理論(formal language theory)的基本內容。如果要想了解喬姆斯基關于語言“生成”的基本概念,必須認真地研究他的形式語言理論中關于語法的論述,否則,我們就很難理解“生成”這一概念的實質。
喬姆斯基從形式上把語法定義為四元組:
G=(VN,VT,S,P)
其中,VN是非終極符號,不能處于生成過程的終點;VT是終極符號,能處于生成過程的終點。
顯然,VN與VT構成了V,VN與VT不相交,沒有公共元素。我們用∪表示集合的并,用∩表示集合的交,則有
顯然,由這個語法生成的語言的符號串,其數(shù)目是無限的。
下面,我們來給語法G所生成的語言L(G)下一個形式化的定義。為此,要引入表示V*上的符號串之間關系的符號及。
先對這兩個符號的含義作一說明。
如果α→β是P的重寫規(guī)則,φ1和φ2是V*上的任意符號串,應用重寫規(guī)則α→β于符號串φ1αφ2,得到符號串φ1βφ2。那么,可寫為φ1αφ2φ1βφ2,讀為:在語法G中,φ1αφ2直接推導出φ1βφ2。就是說,當應用某個單獨的重寫規(guī)則從第一個符號串得到第二個符號串的時候,表示這兩個符號串之間的直接推導關系。
假定α1α2,…,αm是V*上的符號串,并且α1α2,α2α3,…,αm-1αm,那么,這種關系可以寫為α1αm,讀為:在語法G中,α1推導出αm。由此可見,表示α1和αm這兩個符號串之間的推導關系。換句話說,如果應用P中的若干個重寫規(guī)則由α得到β,那么,對于兩個符號串α與β,就有αβ。
這樣,由語法G生成的語言L(G)的形式化定義為:
L(G) = (W︱W在中,并且SW)。
這個定義的含義是:對于一切符號串W的集合,W在中,并且有SW,那么,符號串W的集合就是由語法G生成的語言L(G)。
由此可見,一個符號串處于L(G)中要滿足兩個條件:
條件1:該符號串只包括終極符號;
條件2:該符號串能從初始符號S推導出來。
同一語言可由不同的語法來生成,如果L(G1) =L(G2),則語法G1等價于語法G2。
前面所定義的語法G=(VN,TT,S,P),其重寫規(guī)則為φ→ψ,并且要求φ≠。
(二)語法生成的類型
以上定義的語法,生成能力過于強大。有鑒于此,喬姆斯基給上述語法加上了程度不同的限制,從而得到了生成能力各不相同的幾類語法:
限制1:如果φ→ψ,那么,存在A,φ1,φ2,ω,使得φ=φ1Aφ2,ψ=φ1ωφ2。
限制2:如果φ→ψ,那么,存在A,φ1,φ2,ω,使得φ=φ1Aφ2,ψ=φ1ωφ2,并且A→ω。
限制3:如果φ→ψ,那么,存在A,φ1,φ2,ω,使得φ=φ1Aφ2,ψ=φ1ωφ2,A→ω,并且ω=aQ或ω=a,因而,A→aQ或A→a。
限制1要求語法的重寫規(guī)則全都具有形式φ1Aφ2→φ1ωφ2,這樣的重寫規(guī)則在上下文φ1→φ2中給出A→ω。顯然,在這種情況下,ψ這個符號串的長度(即ψ中的符號數(shù))至少等于或者大于φ這個符號串的長度(即φ中的符號數(shù)),如果用|ψ|和|φ|分別表示符號串ψ和φ的長度,則有|ψ|≥|φ|。由于在重寫規(guī)則φ1Aφ2→φ1ωφ2中,每當A出現(xiàn)于上下文φ1→φ2中的時候,可以用ω來替換A,因此,把加上了限制1的語法叫做上下文有關語法(context-sensitive grammar)或1型語法(type 1 grammar)。
限制2要求語法的重寫規(guī)則全都具有形式A→ω,這時上下文φ1─φ2是空的,在運用重寫規(guī)則時不依賴于單個的非終極符號A所出現(xiàn)的上下文環(huán)境。因此,把加上了限制2的語法叫做上下文無關語法(context-free grammar)或2型語法(type 2 grammar)。
限制3要求語法的重寫規(guī)則全都具有形式A→aQ或A→a,其中,A和Q是非終極符號,a是終極符號。這種語法叫做有限狀態(tài)語法(finite state grammar)或3型語法(type 3 grammar),有時也叫做正則語法(regular grammar)。
沒有上述限制的語法,叫做0型語法(type 0 grammar)。
顯而易見,每一個有限狀態(tài)語法都是上下文無關的;每一個上下文無關語法都是上下文有關的;每一個上下文有關語法都是0型的。喬姆斯基把由0型語法生成的語言叫0型語言(type 0 language),把由上下文有關語法、上下文無關語法和有限狀態(tài)語法生成的語言分別叫做上下文有關語言(context-sensitive language)、上下文無關語言(context-free language)和有限狀態(tài)語言(finite state language),也可以分別叫做1型語言(type 1 language)、2型語言(type 2 language)和3型語言(type 3 language)。
由于從限制1到限制3的限制條件是逐漸增加的,因此,不論對于語法或對于語言來說,都存在著如下的包含關系①:
1.有限狀態(tài)語法
有限狀態(tài)法的重寫規(guī)則為A→aQ或A→a(A→a只不過是A→aQ中,當Q=時的一種特殊情況)。如果把A和Q看成不同的狀態(tài),那么,由重寫規(guī)則可知,當狀態(tài)A轉入狀態(tài)Q時,可生成一個終極符號a。這樣,便可把有限狀態(tài)語法想象為一種生成裝置,這種裝置每次能夠生成一個終極符號,而每一個終極符號都與一個特定的狀態(tài)相聯(lián)系。
我們改用小寫字母q來表示狀態(tài),如果這種生成裝置原先處于狀態(tài)qi,那么,生成一個終極符號后,就轉到狀態(tài)qj;在狀態(tài)qj再生成一個終極符號后,就轉到狀態(tài)qk,如此類推。這種情況可用“狀態(tài)圖”(state diagram)來表示。
如果這種生成裝置原先處于某一狀態(tài)qO,生成一個終極符號a后,轉入狀態(tài)q1,那么,其狀態(tài)圖為圖3所示:
如果這種生成裝置處于狀態(tài)qO,生成終極符號a后轉入狀態(tài)ql,在狀態(tài)q1,或者生成終極符號b后再回到q1,或者生成終極符號c后轉入狀態(tài)q2,在狀態(tài)q2,或者生成終極符號b再回到狀態(tài)q2,或者生成終極符號a后轉入狀態(tài)q3,那么,其狀態(tài)圖為圖6所示:
第四,有限狀態(tài)語法只能說明語言中各個符號的排列順序,而不能說明語言的層次,因此,不能解釋語言中的許多歧義現(xiàn)象(ambiguity)。如“o1d men and women”這個短語有兩個意思:一個意思是“一些年老的男人和一些女人”(男人都是年老的,而女人未必都是年老的),另一個意思是“一些年老的男人和一些年老的女人”(男人和女人都是年老的)。這種現(xiàn)象不能用有限狀態(tài)語法來說明其線性排列順序上有何差異,也不能通過線性排列順序的差異進行解釋。可見,有限狀態(tài)語法對語言現(xiàn)象的解釋力不強。
2.上下文無關語法
為了克服有限狀態(tài)語法的缺陷,喬姆斯基提出了上下文無關語法。
上下文無關語法的重寫規(guī)則形式是A→ω。其中,A是單個的非終極符號,ω是異于ε的符號串,即|A|= 1≤|ω|。應該注意的是,“上下文無關”指的是語法中的重寫規(guī)則形式,而不是指不能利用上下文來限制它所生成的語言。前面提到過的鏡象結構語言的語法,其重寫規(guī)則的左邊都是單個的非終極符號S,右邊都是異于ε 的符號串①,因而它是上下文無關語法。
上下文無關語法的推導過程,是由“推導樹”(derivation tree)來描述的。喬姆斯基又把“推導樹”稱為語法的“C-標志”(C-marker)。“樹”(tree)是圖論中的一個概念。樹由邊(edge)和結(node)組成,它是由邊連接著的結組成的有限集合。如果一個邊由結1指向結2,那么,就可以說邊離開結1而進入結2。如圖14所示:
圖14? 樹由邊和結組成圖
作為圖論的樹必須滿足如下三個條件:第一,樹中要有一個沒有任何邊進入的結,這個結叫做根(root);第二,對于樹中的每一個結,都要有一系列的邊與根連接著;第三,除根以外,樹中的每一個結都只能有一個邊進入它,因此,樹中沒有“圈”(loop)。
如果有一個邊離開給定的結m,而進入結n,那么所有的結n的集合就叫做結m的“直接后裔”(direct descendant)。如果有一系列的結n1,n2,……,nk,使得n1=m,nk=n,并且對于每一個i來說,ni+1是ni的直接后裔,那么結n就叫做結m的“后裔”(descendant)。同時規(guī)定,一個結是它自身的后裔。
對于樹中的每一個結,可以把其直接后裔按順序從左到右排列起來。
設G=(VN,VT,S,P)是上下文無關語法,如果有某個樹滿足如下條件,它就是G的推導樹:
第一,每一個結有一個標號,這個標號是V中的符號;第二,根的標號是S;第三,如果結n至少有一個異于其本身的后裔,并有標號A,那么,A必定是VN中的符號;第四,如果結n1,n2,……,nk是結n的直接后裔,從左到右排列,其標號分別為A1,A2,……,Ak,那么,A→A1A2……AK,必是P中的重寫規(guī)則。
從這個推導樹可以看出,1、3、4、5、7等結都有直接后裔。結1的標號為S,其直接后裔的標號從左算起為a、A和S,因此S→aAS是重寫規(guī)則。結3的標號為A,其直接后裔的標號從左算起為S、b、A,因此A→SbA是重寫規(guī)則。結4和結5的標號為S,它們每一個的直接后裔的標號為a,因此S→a是重寫規(guī)則。結7的標號為A,其直接后裔的標號從左算起為b和a,因此A→ba也是重寫規(guī)則。由此可見,剛才畫出的語法G的推導樹,滿足了推導樹所要求的各個條件。
在任何樹中,總有一些結是沒有后裔的,這樣的結叫做“葉”(leaf)。如果從左到右讀推導樹中各個葉的標號,就可以得到一個終極符號串,這個終極符號串叫做推導樹的“結果”(result)??梢宰C明,如果α是上下文無關語法G=(VN,VT,S,P)的結果,則Sα。例如,在上述推導樹中,各個葉從左到右的編號為2、9、6、10、11和8,它們的標號分別是a、a、b、b、a、a,則推導樹的結果α=aabbaa,因此,Saabbaa。
在實際使用中,常常將推導樹的結及其編號去掉,把推導樹加以簡化。如前面的推導樹可簡化為圖16:
4.0型語法
0型語法的重寫規(guī)則是φ→ψ,除了要求φ≠之外,沒有別的限制。喬姆斯基證明,每一個0型語言都是符號串的遞歸可枚舉集;他還證明,任何一個上下文有關語言同時又是0型語言,而且還存在著不是上下文有關語言的0型語言。因此,上下文有關語言應包含于0型語言之中,它是0型語言的子集合。
但是,由于0型語法的重寫規(guī)則幾乎沒有什么限制,用于描寫自然語言頗為困難,它的生成能力太強,會生成難以數(shù)計的不成立句子。所以,在喬姆斯基的四種類型的語法中最適用于描寫自然語言的還是上下文無關語法。
1985年,美國計算語言學家希布爾(S.Shieber)在《上下文無關性質的反證實例》一文中指出,在瑞士德語中存在著詞序的交叉對應現(xiàn)象,也就是存在著如圖24所示的符號串(Shieber,1985):
盡管自然語言的大部分現(xiàn)象可以使用上下文無關語法來描述,上下文無關語法是生成語法的基礎部分。但是,從總體上看來,自然語言還不能算上下文無關的,自然語言的性質似乎介于上下文無關與上下文有關之間。喬姆斯基在《規(guī)則與表達》中指出(Chomsky,1980/2005),自然語言可能比上下文有關語言還要復雜,它是喬姆斯基層級上最復雜0型語言,這是一種“遞歸可枚舉語言”(recursive numerable language)。
自然語言的這種性質反映了它的“計算復雜性”(computational complexity)。關于自然語言的計算復雜性的討論是語言學理論中一個重要而饒有趣味的問題,我們應當關注這個問題。
喬姆斯基的形式語言理論,對于計算機科學有重大意義。喬姆斯基把他的四種類型的語法分別與圖靈機、線性有界自動機、后進先出自動機及有限自動機等四種類型的自動機聯(lián)系起來,并且證明了語法的生成能力和語言自動機的識別能力的等價性的四個重要結果,即:
第一,若一語言L能為圖靈機識別,那它就能由0型語法生成,反之亦然。
第二,若一語言L能為線性有界自動機識別,那它就能由1型(上下文有關)語法生成,反之亦然。
第三,若一語言L能為后進先出自動機識別,那它就能由2型(上下文無關)語法生成,反之亦然。
第四,若一語言L能為有限自動機識別,那它就能由3型(有限狀態(tài))語法生成,反之亦然。
喬姆斯基的上述結論,提供了關于語言生成過程與語言識別過程的極為精辟的見解,這對計算機的程序語言設計、算法分析、編譯技術、圖像識別、人工智能等,都是很有用處的,因而在計算機界產生了很大的影響。特別是在計算機科學家們發(fā)現(xiàn)算法語言ALGOL60中使用的巴科斯—瑙爾范式(Bacus-Naur normal form),恰好與喬姆斯基的上下文無關語法等價之后,不少學者都投入了上下文無關語法的研究,精益求精,成績斐然。在語言學界,上下文無關語法的研究也引起了不少學者的注意,國外有些機器翻譯研究機構,就是采用上下文無關語法的基本理論,來進行機器翻譯系統(tǒng)設計的。
三、轉換語法
(一)轉換語法的提出
形式語言理論的成就,并沒有使喬姆斯基躊躇滿志。他是一個語言學家,他的學術興趣畢竟還是在自然語言的研究方面,而形式語言理論在自然語言的研究中,并不像在計算機科學的研究中那么奏效。于是,喬姆斯基繼續(xù)探索,試圖找出一種適于描寫自然語言的語言理論來。
喬姆斯基認為,Ⅲ是語言理論的最起碼的要求,而他自己正是采取第Ⅲ種語言理論的。那么,如何進行語法的選擇呢?他提出,選擇最優(yōu)語法的標準有兩條:第一條,語法的簡單性;第二條,語法的解釋力。如果一種語法很簡單,解釋力又很強,那么它就是一種好的語法。
在喬姆斯基的形式語言理論中,語法被理解為語言的生成規(guī)則的集合。如果僅從這一意義上來理解語法,那么這種語法也可以看成是一種狹義的語法。按照語法的簡單性和解釋力來比較喬姆斯基的四種類型語法,可以看出,在描寫自然語言方面,上下文無關語法較為簡單,解釋力也比較強,因而是一種較好的語法。
然而即使是從簡單性和解釋力的標準來衡量上下文無關語法,它仍然存在著美中不足之處。
第一,有些歧義的句子,用上下文無關語法的層次分析方法不能加以辨別和解釋。如“the shooting of the hunters”的層次分析如圖26所示:
然而,如果我們了解到“the shooting of the hunters”是從“they shoot the hunters(他們向獵人開槍)”變換來的,那么就可以肯定,它的意思是“射擊獵人”,而不可能是“獵人射擊”。
又如“Flying planes can be dangerous”這個句子也是有歧義的:一個意思是“開飛機可能是危險的”,一個意思是“飛著的飛機可能是危險的”。但不論是哪一個意思,其層次結構都是一樣的,用上下文無關語法也不能加以解釋。然而,如果了解到它是從“Planes which are flying can be dangerous”變換來的,就可以肯定它的意思是“飛著的飛機可能是危險的”。
層次分析反映的是一個句子的推導樹的結構,它顯示了一個句子的生成過程。因此,層次分析法這一方法,在實質上反映了形式語言理論中“生成”(generation)這一個基本概念,它不過是“生成”這一基本概念在方法上的體現(xiàn)。正如喬姆斯基所指出的,層次分析法無非就是加加標示,用用括弧,把句子切分成前后相續(xù)的成分,并且注明這些成分分別屬于哪個范疇,然后再把這些成分切分成更小的范疇的成分等……這樣可以一直分到最終成分。因此,這樣的分析法,顯示不出對語義解釋極為重要的各種語法關系。
層次分析法的不足之處,說明了不能再繼續(xù)停留在“生成”這一概念上。為了提高語言理論的解釋力,必須從“生成”過渡到“轉換”。
第二,上下文無關語法還不夠簡單。
假使我們用上下文無關語法生成了終極符號串(即句子)。
“The man opened the door.(那人開了那門。)”也可以用“The door was opened by the man.(那門被那人打開了。)”表達同樣的意思。
此外,英語中還有像“The man did not open the door.(那人沒有開那門。)”“Did the man open the door?(那人開了那門嗎?)”“Didnt the man open the door?(那人沒有開那門嗎?)”“The door was not opened by the man.(那門沒被那人打開。)”等等這樣一些句子。
如果采用上下文無關語法來生成這些句子,那么勢必要對每一個句子都建立一套生成規(guī)則。這樣一來,語法就顯得笨重不堪了。實際上這些句子是彼此相關的,如果我們以“The man opened the door.(那人開了那門。)”為核心句,其他句子都可以由這個核心句通過不同的轉換而得到。這樣就有可能把語言理論進一步簡化。
可見,以語言理論的簡單性這一標準來衡量,也有必要從“生成”過渡到“轉換”。
于是,喬姆斯基另辟蹊徑,提出了“轉換語法”(transformational grammar)。這里我們采用“語法”這個術語,是因為“語法”已經不僅僅是指“生成”,而且還有著更為廣泛的含義。
喬姆斯基關于轉換語法的觀點,既受到了法國哲學家笛卡兒(R.Descartes,1596—1650)及17世紀法國波爾·洛瓦雅爾語法學家們的影響,也受到了他的老師海里斯的影響。
法國波爾·洛瓦雅爾教派的語法學家阿爾諾(A.Arnaud)和朗斯諾(C.Lancelot),曾經使用轉換的方法來分析句子(安托尼·阿爾諾, 2011)。例如:
“The invisible God has created the visible world.(無形的上帝創(chuàng)造了有形的世界。)”這個句子,是從“God who is invisible has created the world which is visible.”這個句子推出來的,而后面這個句子又可以從下面的核心句推出來:“God has created the world.(上帝創(chuàng)造了世界。)”“God is invisible.(上帝是無形的。)”“The world is visible.(世界是有形的。)”
喬姆斯基對波爾·洛瓦雅爾語法學家們的工作給以很高的評價。
海里斯早就看出了上下文無關語法的局限性,并提出了轉換的初步概念。他認為,句子從其外部形式來看,是一個復雜的客體,它是由以某種方式結合起來的、一定數(shù)量的所謂“單純形”(simplex)所組成的。這些單純形的句子,叫做“核心句”(kernels)。核心句能用上下文無關語法生成或描寫。但是,復雜的句子則是應用一系列規(guī)則的產物,這一系列的規(guī)則稱為“轉換規(guī)則”(transformational rules)。
例如,“John read the good book which was lent to him by Bill.(約翰讀了比爾借給他的那本好書。)”這個句子,可以有下列核心句:“Bill lent a book to John.(比爾借了一本書給約翰。)”“The book is good.(這本書很好。)”“John read the book.(約翰讀了這本書。)”
運用轉換規(guī)則,便能由這些核心句生成上面的復雜句。
(二)轉換語法的理論
喬姆斯基采用了海里斯的觀點,提出了轉換語法。而且,青出于藍而勝于藍,他走得比海里斯遠得多,他對“轉換”這一概念提出了嚴格的形式化的定義:
四、喬姆斯基的局限
喬姆斯基的上述句法理論,在歐美語言學界引起了很大的震動。以耶魯大學的霍凱特(C.F.Hockett)為代表的“后布龍菲爾德學派”的一些學者,從各個方面來攻擊和非難這套新理論。在論戰(zhàn)中,同時也在用這種理論來研究英語的過程中,發(fā)現(xiàn)它確實還有不少的局限。主要是:
第一,轉換語法把一些句子定為核心句,語言中的其他句子均由核心句轉換而來。但在語言研究中,哪些句子是核心句,哪些句子不是核心句,很難定出一個確切的標準。喬姆斯基把主動句規(guī)定為核心句,但是在英語中,被動句用得相當普遍,許多在漢語中用主動句表達的意思,在英語中卻用被動句表達。那么,為什么不能把被動句看成核心句呢?可見,所謂“核心句”的提法是不科學的,在實踐中也是行不通的。所以,后來喬姆斯基只好取消了核心句的提法,因而也就放棄了強制轉換和隨意轉換的區(qū)別的理論。
第二,不論是形式語言理論還是轉換語法,對于語義都研究得很不夠,它們都不能反映語義之間的搭配關系。例如,根據(jù)形式語言理論,提出一個適當?shù)恼Z法,便可生成“the man saw the ball”這樣的句子,這個句子的各個成分在語義上可以很自然地搭配起來。但是,用同樣的語法,也可生成“*the ball saw the man”,這個句子并不違背上下文無關語法的規(guī)則,可是其中的各個成分在語義上搭配不起來,因為saw這個動詞要求前面的名詞一定是“有生命的”。在上下文無關語法中卻不能反映這種語義上的搭配關系,轉換語法當然也說明不了這種語義上的搭配關系。
上面我們對于喬姆斯基的形式語言理論到轉換語法的發(fā)展歷程做了概括的說明,可以看出,60年前出版的喬姆斯基的《句法結構》一書,是自然語言形式分析的奠基力作,我們應當認真學習和研究本書中提出的理論和方法,以推動我們語言學的現(xiàn)代化進程。
參考文獻:
[1]N.Chomsky.Three models for the description of language[J].The Journal of Symbolic Logic,1956,(3).
[2]N.Chomsky.Syntactic Structures[M].The Hague: Mouton,1957.
[3]N.Chomsky.On certain formal properties of grammars [J].Information and Control,1953,(2).
[4]N. Chomsky.Context-free grammar and pushdown storage, Quart.Prog.Dept.No.65,MIT Res.Lab.Elect,1962.
[5]N. Chomsky.Formal properties of grammars[A].Handbook of Math.Psych[C].NewYork:Wiley,1963.
[6]N. Chomsky.The Logical Structure of Linguistic Theory (LSLT)[M].NewYork:Plenum,1975.
[7]N.Chomsky.Syntactic Structuresc Second Edition[M].Berlin:Walter de Gruyter,2002.
[8]N.Chomsky.Rules and Representations,Manhatton:Columbia University Press,1980/2005.
[9]S.Shieber.Evidence Against the Context-Freeness of Natural Language[J].Linguistic and Philosophy,1985,(8).
[10][美]喬姆斯基.喬姆斯基序[A].趙辛而譯.黑龍江大學外語學刊編輯部編.喬姆斯基語言理論介紹[C].哈爾濱:黑龍江大學,1982.
[11][法]安托尼·阿爾諾,克洛德·朗斯洛.普遍唯理語法[M].張學斌,柳利譯,姚小平校.北京:商務印書館,2011.
[12]馮志偉.形式語言理論[J].計算機科學,1979,(1).
[13]馮志偉.從形式語言理論到生成轉換語法[A].語言研究論叢(第二輯)[C].天津:天津人民出版社,1982.
[14]馮志偉.生成語法的公理化方法[A].哈爾濱生成語法討論會論文集[C].哈爾濱:黑龍江大學,1983.
[15]馮志偉.自然語言的計算復雜性[J].外語教學與研究,2015,(5).