蔡穎瑩
摘要:隨著1957年《句法結(jié)構(gòu)》的出版,語言學(xué)研究進(jìn)入了一個(gè)全新的時(shí)代,即喬姆斯基語言學(xué)革命。而語料庫(kù)語言學(xué)自上世紀(jì)50年代以來受到了質(zhì)疑與挑戰(zhàn)。隨后,由于計(jì)算機(jī)技術(shù)的快速發(fā)展,語料庫(kù)語言學(xué)又逐漸走向復(fù)蘇。本文旨在通過分析生成語法與語料庫(kù)語言學(xué)在研究理念、研究范圍和研究方法等層面的差異,及其存在的局限,闡述二者的對(duì)抗關(guān)系。同時(shí),通過二者在人工智能領(lǐng)域的應(yīng)用,剖析生成語法與語料庫(kù)語言學(xué)的聯(lián)結(jié)關(guān)系,從而挖掘其合作潛力。
關(guān)鍵詞:語料庫(kù)語言學(xué);生成語法;人工智能;對(duì)抗;聯(lián)結(jié)
20世紀(jì)50年代,隨著喬姆斯基理論改變了語言學(xué)研究的實(shí)證方向,語料庫(kù)語言學(xué)作為語言研究方法受到了普遍質(zhì)疑。長(zhǎng)久以來,生成語法和語料庫(kù)語言學(xué)被稱為兩種截然不同、相互對(duì)立的研究范式。生成語法和語料庫(kù)語言學(xué)的發(fā)展也伴隨著雙方的互相批判。本文首先通過分析生成語法和語料庫(kù)語言學(xué)在研究范圍、研究方法和研究思路上的差異,以及各自存在的優(yōu)勢(shì)和不足,闡述二者的對(duì)抗關(guān)系。同時(shí),本文借助生成語法和語料庫(kù)語言學(xué)在人工智能領(lǐng)域,尤其是自然語言處理層面的互補(bǔ),揭示兩者在一定程度上的聯(lián)結(jié)關(guān)系,從而挖掘生成語法和語料庫(kù)語言學(xué)的合作潛力。
一、生成語法與語料庫(kù)語言學(xué)的對(duì)抗
生成語法和語料庫(kù)語言學(xué)在研究范圍、研究方法和研究程序上有較大的差異。
1957年喬姆斯基《句法結(jié)構(gòu)》的出版標(biāo)志著生成語法的誕生。生成語法采用數(shù)學(xué)模擬方式來進(jìn)行語言研究,使用符號(hào)和公式來規(guī)定概念,表達(dá)規(guī)則,以嚴(yán)密的方法把語言機(jī)制形式化,以達(dá)到用有限的公式來生成無限的句子的目的。生成語法認(rèn)為,語言學(xué)的目的就是要形式化地構(gòu)造出語法的公理系統(tǒng),用以精確地描寫人的語言能力(沈家煊,2004)。生成語法的研究范圍限于人的語言知識(shí)或語言能力,而不是語言的運(yùn)用(徐烈炯 1988)。在研究方法上,生成語法主要采用內(nèi)省法,即語言學(xué)家本人作為資料提供人,將自己的語感作為判斷語言現(xiàn)象歧義、正誤、可接受性等的依據(jù)。在研究程序上,生成語法的研究一般包括九個(gè)步驟:定向、選題、發(fā)現(xiàn)、描寫、解釋、推廣、論證、批評(píng)、反應(yīng)(Botha 1981)。
語料庫(kù)語言學(xué)是當(dāng)代語言學(xué)與計(jì)算機(jī)科學(xué)交叉的一門新興學(xué)科。它用計(jì)算機(jī)手段對(duì)巨量的語料庫(kù)進(jìn)行高速檢索、統(tǒng)計(jì)和展示,以揭示真實(shí)語言使用的傾向性規(guī)律及其所傳遞的意義、功能乃至思想意識(shí)(何安平 2012)。Hunston(2002)曾指出,語料庫(kù)語言學(xué)無論對(duì)語言研究還是語言的應(yīng)用研究都具有革命性的作用。語料庫(kù)語言學(xué)研究自然語言的使用,在研究范圍上一般涉及語言定量分析、詞典編纂、自然語言理解等領(lǐng)域。在研究方法上,主要包括兩個(gè)步驟:對(duì)自然語言進(jìn)行加工、標(biāo)注;對(duì)已經(jīng)標(biāo)注好的語料,采用數(shù)理統(tǒng)計(jì)的方法進(jìn)行研究。在研究程序上,語料庫(kù)語言學(xué)內(nèi)部有兩個(gè)不同的取向:“基于語料庫(kù)”和“語料庫(kù)驅(qū)動(dòng)”,兩者在語料庫(kù)的性質(zhì)、語料庫(kù)建設(shè)以及語料庫(kù)分析方面有較大差異。
生成語法和語料庫(kù)語言學(xué)在研究理念上的本質(zhì)差異造成了兩者的對(duì)抗關(guān)系。喬姆斯基強(qiáng)調(diào)區(qū)分語言能力和語言應(yīng)用兩個(gè)概念。他認(rèn)為,語言學(xué)研究的對(duì)象應(yīng)當(dāng)是人腦的語言能力而非語言應(yīng)用。喬姆斯基(1965)指出,“任何自然語料都是偏頗的”,由于自然語料會(huì)受到各種因素的影響,因而以自然語料為研究對(duì)象、對(duì)語言應(yīng)用進(jìn)行分析的語料庫(kù)語言學(xué)無法揭示語言本質(zhì)。然而,Sinclair(1991)認(rèn)為,語料庫(kù)的研究方法“能夠系統(tǒng)地對(duì)大數(shù)量的文本語料進(jìn)行審視,使我們有可能發(fā)現(xiàn)一些以前從未有機(jī)會(huì)發(fā)現(xiàn)的語言事實(shí)?!蓖瑫r(shí),生成語法具有高度的抽象性復(fù)雜性。雖然喬姆斯基一再?gòu)?qiáng)調(diào)短語結(jié)構(gòu)規(guī)則和轉(zhuǎn)換的簡(jiǎn)單化,然而深層結(jié)構(gòu)自身顯得抽象和復(fù)雜。再者,生成語法只能揭示人類語言能力的某些比較狹窄的方面,無法進(jìn)行語言的歷時(shí)研究以及對(duì)創(chuàng)造性語言的研究(如詩(shī)歌)。最后,生成語法的研究語料存在先驗(yàn)論的特性。例如在《句法結(jié)構(gòu)》中,喬姆斯基分析了28個(gè)自造的例句,這樣的語言數(shù)據(jù)脫離了語境,而語境恰恰在判斷句子是否合乎語法或是否可接受上具有重要作用。
二、生成語法與語料庫(kù)語言學(xué)的聯(lián)結(jié):人工智能
(一)人工智能的產(chǎn)生與發(fā)展
對(duì)人工智能(Artificial Intelligence,簡(jiǎn)稱AI)的正式研究發(fā)軔于1956年的達(dá)特茅斯會(huì)議。在此次會(huì)議上,約翰·麥卡錫首次提出了“人工智能”這一概念。也是在這次會(huì)議上,模擬人的啟發(fā)式搜索問題解決的計(jì)算機(jī)程序“邏輯理論家”證明了《數(shù)學(xué)原理》中的38條邏輯推理。這一事件被認(rèn)為機(jī)器執(zhí)行認(rèn)知任務(wù)的第一個(gè)實(shí)例,因而1956年也被稱為“AI誕生年”。
20世紀(jì)60年代,人工智能的研究活動(dòng)越來越受到重視,研究者對(duì)求解、博弈、機(jī)器視覺、自然語言理解等領(lǐng)域進(jìn)行了深入研究,人工智能進(jìn)入高速發(fā)展時(shí)期。從20世紀(jì)80年代開始,經(jīng)過六十余年的發(fā)展,原先作為計(jì)算機(jī)科學(xué)領(lǐng)域分支的人工智能已成為跨領(lǐng)域的交叉學(xué)科,甚至成為人類科技?xì)v史發(fā)展上的本質(zhì)奇點(diǎn)。
(二)生成語法與語料庫(kù)語言學(xué)的聯(lián)結(jié)
人工智能的核心在于“智能”和“自動(dòng)化”,一般根據(jù)“智能”和“自動(dòng)化”程度將人工智能的發(fā)展分為三個(gè)階段即:機(jī)器學(xué)習(xí)、機(jī)器智能、機(jī)器意識(shí)。實(shí)現(xiàn)“智能”和“自動(dòng)化”的關(guān)鍵技術(shù)主要包括自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)、自動(dòng)推理(Automated Reasoning)、機(jī)器學(xué)習(xí)(Machine Learning)等。其中,NLP涉及對(duì)語言的處理能力,是人工智能的高級(jí)表現(xiàn)形式。NLP的實(shí)現(xiàn)離不開語言學(xué),尤其是生成語法與語料庫(kù)語言學(xué)。
1.生成語法在AI領(lǐng)域的應(yīng)用
在1956年達(dá)特茅斯會(huì)議召開的同時(shí),喬姆斯基也在同年提出了生成語法,后發(fā)表在1957年出版的《句法結(jié)構(gòu)》中。生成語法的要領(lǐng)是:某一語言的全部合乎語法的句子是從一組抽象的符號(hào)通過一套規(guī)則的操作而生成出來的。當(dāng)今大多數(shù)用計(jì)算機(jī)來模擬人類認(rèn)知過程的系統(tǒng)都是基于這種“符號(hào)操作”模式,整個(gè)人腦被視為一部按程序操作符號(hào)的巨型計(jì)算機(jī)。可見,人工智能在發(fā)展初期就吸收了生成語法的觀點(diǎn)。同時(shí),傳統(tǒng)NLP涉及一個(gè)重要的步驟,即句法分析。生成語法在這一層面發(fā)揮著無可替代的作用。對(duì)于如:“今天晚上去吃火鍋吧,不,去吃燒烤吧?!边@樣的句子,機(jī)器本身無法意識(shí)到句子中自我糾正這一環(huán)節(jié)。那么,利用句法樹便可以對(duì)句子成分之間的結(jié)構(gòu)進(jìn)行簡(jiǎn)化,幫助機(jī)器在識(shí)別和理解句子的過程中,對(duì)說話人的真正意圖進(jìn)行識(shí)別。
2.語料庫(kù)語言學(xué)在AI領(lǐng)域的應(yīng)用
NLP實(shí)現(xiàn)的前提是對(duì)機(jī)器的大量訓(xùn)練。通過對(duì)自然語言進(jìn)行詞語解析、信息抽取、時(shí)間因果、情緒判斷等技術(shù)處理,最終達(dá)到讓計(jì)算機(jī)“懂得”人類語言認(rèn)知。在NLP的底層數(shù)據(jù)層,語料庫(kù)功不可沒。例如,作為NLP基本步驟之一的分詞就需要語料庫(kù)技術(shù)的支持:
a.她憑她的才能得到了這份工作。
b.她這樣的人才能夠留下來,是我們的幸運(yùn)。
在上述兩個(gè)句子中,a句中的“才能”明顯是一個(gè)詞,而b句中的“人才”和“能夠”卻應(yīng)該分開。在訓(xùn)練分詞模型的過程中,針對(duì)固定詞表進(jìn)行“一刀切”顯然不可取。這時(shí)就需要大量的語料輸入幫助模型達(dá)到更好的準(zhǔn)確率。與之類似,現(xiàn)行的聊天機(jī)器人、機(jī)器翻譯等基于NLP開發(fā)的人工智能,在建設(shè)初期都離不開語料庫(kù)作為語義識(shí)別的基礎(chǔ)。
總而言之,生成語法和語料庫(kù)語言學(xué)在人工智能的發(fā)展過程中均發(fā)揮著重要作用。一方面,基于語料庫(kù)訓(xùn)練的機(jī)器,學(xué)到的是大概率下最可能的說法,因而生成的語言常常令人感到乏善可陳,丟失了人類語言的創(chuàng)造性。另一方面,純粹依靠生成語法的人工智能,雖然能生成無限多的句子,卻無法保證句子的正確性。由此可見,生成語法和語料庫(kù)在人工智能領(lǐng)域,尤其是NLP技術(shù)層面,存在互補(bǔ)的作用。
三、結(jié)論
本文通過分析生成語法和語料庫(kù)語言學(xué)在研究范圍、研究方法和研究思路上的差異,解釋了生成語法和語料庫(kù)語言學(xué)的對(duì)抗關(guān)系。同時(shí),本文以生成語法和語料庫(kù)語言學(xué)在人工智能領(lǐng)域,尤其是自然語言處理層面的互補(bǔ)關(guān)系,厘清了兩者的聯(lián)結(jié)關(guān)系。因而,生成語法和語料庫(kù)語言學(xué)并非傳統(tǒng)觀點(diǎn)中單純對(duì)立關(guān)系,而是既對(duì)立又統(tǒng)一的復(fù)雜關(guān)系,共同寓于語言學(xué)研究中。
事實(shí)上,許多語料庫(kù)語言學(xué)家積極投入語言理論的研究,而許多生成語法學(xué)家也十分關(guān)注作為理論研究基礎(chǔ)的數(shù)據(jù)。而其在人工智能領(lǐng)域的聯(lián)結(jié)或?qū)㈩A(yù)示著生成語法和語料庫(kù)語言學(xué)將在更多領(lǐng)域碰撞出意想不到的火花。
參考文獻(xiàn):
[1]Botha,R.The Conduct of Linguistic Inquiry[M].The Hague:Mouton,1981.
[2]Chomsky,N.Aspect of the Theory of Syntax[M].Massachusetts:The MIT Press,1965.
[3]Hunston,S.Corpora in Applied Linguistics[M].Cambridge:Cambridge University Press,2002.
[4]Sinclair,J.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.
[5]何安平.語料庫(kù)語言學(xué)[J].中國(guó)外語,2012(5):19.
[6]沈家煊.人工智能中的“聯(lián)結(jié)主義”和語法理論[J].外國(guó)語,2004(3):2-9.
[7]王琦.語料庫(kù)語言學(xué)的發(fā)展及其與生成語法的關(guān)系[J].西北師大學(xué)報(bào)(社會(huì)科學(xué)版),2007(6):110-114.
[8]徐烈炯.生成語法理論[M].上海:上海外語教育出版社,1988.
[9]徐愚.機(jī)器與語言——對(duì)人工智能語義問題的探尋[D].北京:中共中央黨校,2016.