浙江大學(xué)_肖忠華
肖忠華語料庫語言學(xué)答客問
浙江大學(xué)_肖忠華
編者按
《語料庫語言學(xué)》創(chuàng)刊號有幸登載了桂詩春先生的個人學(xué)術(shù)訪談。桂先生定稿時自擬題名《語料庫語言學(xué)答客問》,本刊欣然從之。本期所刊肖忠華教授訪談,仍沿用《語料庫語言學(xué)答客問》,并綴以受訪者姓名,以示區(qū)分。據(jù)此,期刊數(shù)據(jù)庫收錄,讀者文獻查詢時,可免于混淆。
肖忠華教授(1966-2016)是國際知名的語料庫研究學(xué)者,是華人語言學(xué)研究學(xué)者的杰出代表。他師從英國蘭卡斯特大學(xué)Tony McEnery教授,2002年獲得語料庫語言學(xué)博士學(xué)位。他的研究領(lǐng)域涉及基于語料庫的英漢對比與翻譯研究、漢語研究、英語研究、時體理論、語言教育及二語習(xí)得等。肖教授著述量多質(zhì)優(yōu),尤其在基于語料庫的英漢對比與翻譯研究以及漢語研究方面的成果突出。很多論著為相關(guān)領(lǐng)域必讀必引之作。2016年1月2日,肖教授不幸因病去逝。
肖教授生前于病榻之上完成我刊書面訪談,深談國內(nèi)外語料庫研究進展和個人學(xué)術(shù)歷程,我刊同仁由衷感佩。謹(jǐn)以此文紀(jì)念并深切緬懷肖忠華教授。
我最初接觸“語料庫”的概念,是在20世紀(jì)80年代中期讀大學(xué)本科的時候。我對英語語法比較感興趣,所以喜歡研究夸克等人編寫的《當(dāng)代英語語法》和《英語語法大全》,發(fā)現(xiàn)這些原版著作對英語語法的描述及其例句和張道真《實用英語語法》等當(dāng)時國內(nèi)流行的英語語法之間一個很大的差別就在于,夸克語法更接近真實的語言。當(dāng)時,我并不知道語料庫這個名稱,只是了解到夸克語法是以夸克等人建立的“英語用法調(diào)查”(Survey of English Usage,SEU)數(shù)據(jù)庫中所收集的英國人實際使用英語的素材為基礎(chǔ)的。
真正開始接觸“語料庫語言學(xué)”這個術(shù)語,是在1999年聯(lián)系到英國攻讀博士學(xué)位的時候。由于一直對英語語法感興趣,就聯(lián)系了當(dāng)時在蘭卡斯特大學(xué)任教的夸克語法作者之一的Geoffrey Leech教授。由于Leech當(dāng)時已從講座教授退休改為研究教授,不再接收新的博士生,所以他把我推薦給了Tony McEnery教授(當(dāng)時其職稱為Reader in Multilingual Corpus Linguistics)。這是我第一次聽說“語料庫語言學(xué)”這個名稱,了解到語料庫語言學(xué)是用計算機來分析人們實際使用的真實語言,不僅采用傳統(tǒng)語言學(xué)中的定性分析方法,而且采用數(shù)理統(tǒng)計方法對語言的使用作定量分析。由于我本科和研究生讀的都是英語和語言學(xué)專業(yè),對語言學(xué)和數(shù)理統(tǒng)計相結(jié)合的研究感到十分新奇,而且我對計算機一直很感興趣,所以就同意從英語語法轉(zhuǎn)為語料庫語言學(xué)方向。當(dāng)時,上海教育出版社剛引進出版了《牛津應(yīng)用語言學(xué)叢書》一套28冊,其中包括John Sinclair的《語料庫、索引與搭配》(Corpus, Concordance, Collocation),這是我讀到的第一本專門研究語料庫語言學(xué)的著作。
當(dāng)我在2000年初到英國蘭卡斯特大學(xué)開始博士研究時,我對語料庫語言學(xué)的了解差不多是零起點,第一年只好開始惡補語料庫語言學(xué)、統(tǒng)計學(xué)、計算機編程三大塊的知識。當(dāng)時,該領(lǐng)域除了McEnery & Wilson(1996,2001)的《語料庫語言學(xué)》等少數(shù)專著外,大多數(shù)語料庫研究基本都是以論文集的形式出版的,這是因為20世紀(jì)八九十年代還很少有期刊接受和發(fā)表語料庫方面的論文。當(dāng)時,采用語料庫的研究方法尚未像十多年后的今天那樣普遍為人們接受而顯得理所當(dāng)然,還可以聽到各種反對聲音(如Widdowson 2000;Newmeyer 2003)。積極倡導(dǎo)語料庫語言學(xué)的學(xué)者(如Sinclair和Leech)對語料庫的建庫原則和分析方法存在意見分歧。
雖然多語種語料庫已于20世紀(jì)90年代中后期開始得到了發(fā)展(如英語-挪威語平行語料庫),但在新世紀(jì)初,當(dāng)人們提到語料庫語言學(xué)時,基本上是指英語語料庫語言學(xué),這是因為在統(tǒng)一碼(Unicode)應(yīng)用于文字編碼之前,安裝與統(tǒng)一碼兼容的Windows 2000之前操作系統(tǒng)的計算機只能處理ASCII編碼的語言,除非支持特定的字符集。當(dāng)時國際上應(yīng)用最廣泛的語料庫是英國國家語料庫(BNC)和由ICAME發(fā)行的包括Brown、LOB、Frown、FLOB在內(nèi)的語料庫光盤。語料庫檢索與分析軟件包括基于DOS的Longman Mini Concordancer與WordSmith 3.0版。由于當(dāng)時語料庫分析工具相當(dāng)簡陋,所以學(xué)習(xí)語料庫語言學(xué)基本上都需要學(xué)習(xí)編程才能滿足自己的研究需要。我最初學(xué)的編程語言是Perl(當(dāng)時還沒有現(xiàn)在很流行的編程語言Python和R),該語言的正則表達式功能強大,而且非常適合語料庫建庫和分析。隨著學(xué)界對語料庫語言學(xué)興趣的升溫,蘭卡斯特大學(xué)發(fā)起了每兩年舉辦一次的“國際語料庫語言學(xué)大會”,第一屆于2001年召開,即CL2001,到2015年已是第八屆了。
在國內(nèi),雖然上海交通大學(xué)楊惠中教授的團隊于20世紀(jì)80年代早期就已開始研制科技英語語料庫(JDEST),隨后石油大學(xué)廣州分院的祝啟波也建了石油英語語料庫(GPEC),但即使是在語言學(xué)界,了解語料庫語言學(xué)的人也非常少。記得當(dāng)時國內(nèi)有人問我在英國讀什么專業(yè),我說是Corpus Linguistics,人家還以為跟尸體有關(guān)而感到很惡心。值得一提的是,臺灣“中研院”黃居仁、陳克健團隊于20世紀(jì)90年代中期就成功研制了第一個帶詞性標(biāo)注的現(xiàn)代漢語平衡語料庫,并在網(wǎng)上對公眾開放。
語料庫語言學(xué)借助自然科學(xué)的實證研究方法,利用計算機軟件對大規(guī)模真實語言數(shù)據(jù)進行分析,不僅包括傳統(tǒng)的定性分析,而且還采用數(shù)理統(tǒng)計方法對語言進行定量分析。需要特別指出的是,語料庫語言學(xué)不像轉(zhuǎn)換生成語法等傳統(tǒng)語言研究那么依賴于研究者的語言直覺,而是主要依靠真實語料的實證數(shù)據(jù),但同時又不排斥語言直覺,兩者有機結(jié)合。
語言學(xué)研究中常用的數(shù)據(jù)來源有兩類,即真實語料和研究者的語言直覺。語言分析當(dāng)然離不開語言直覺。例如,語言直覺可用來造句(不管是正確還是錯誤的例句)用于語言分析,也可用來判斷某一表達方式是否可接受或合乎語法。研究者在需要時可立即利用直覺通過內(nèi)省來編造更純的例句,這是因為語言直覺隨手可得,而且編造的例句不像人們在真實語境中使用語言那樣受語言外部因素干擾。從某種意義上甚至可以說,語言直覺在語言學(xué)研究中是必不可缺的,因為對語言現(xiàn)象的分類通常涉及基于直覺的判斷,而這種分類在構(gòu)建語言理論時不可避免。然而,正如Seuren(1998:260-262)所述,語言直覺必須謹(jǐn)慎使用。
首先,語言直覺可能會受到個人的地域方言或社會方言影響(Krishnamurthy 2000a:172)。結(jié)果就是,一句話對某個人來說不合語法或不可接受,而對另一個人來說卻完全正確。因此,我們常可發(fā)現(xiàn)在語言學(xué)文獻中,對某些例句的可接受性爭論不休。其次,研究者編造例句來支持或駁斥某一論點時,同時在有意識地監(jiān)控自己的語言產(chǎn)出。因此,即使其語言直覺是正確的,編造出來的例句也不能代表典型用法。第三,基于語言直覺通過內(nèi)省得到的語言數(shù)據(jù)脫離語境,因為它存在于內(nèi)省者頭腦中而非真實語境中,而要判斷一句話是否合乎語法或可以接受,語境至關(guān)重要。有了合適的語境,即使是脫離語境時顯得不合語法或不可接受的語句也有可能會變得合乎語法或可以接受,而人們的想象力十分豐富,即使是最不可思議的話語,也可以想象出可能的語境(Krishnamurthy 2000b:32-33)。第四,基于語言直覺的研究結(jié)果很難驗證,因為研究者是在頭腦中通過內(nèi)省來造句,無法直接觀察。第五,過分依賴直覺會使研究者對語言使用的現(xiàn)實視而不見(Meyer & Nelson 2006)。例如,由于罕用詞或不常見的用法具有心理上的突顯性(Sinclair 1997:33;Krishnamurthy 2000a:170-171),人們更傾向于注意到不常見的語言現(xiàn)象而又對普通現(xiàn)象熟視無睹。最后,在語言學(xué)的某些研究領(lǐng)域中(如語言變異研究、歷時語言學(xué)、語言習(xí)得等等),研究者無法可靠地使用個人的語言直覺,而必須依賴于語料庫數(shù)據(jù)(Meyer 2002;Léon 2005:36)。
通過內(nèi)省得到的語言數(shù)據(jù)基于研究者個人的語言直覺,而語料庫數(shù)據(jù)則截然不同,它匯集了許多語言使用者的語言直覺。語料庫中的書面語或口語語料樣本源自于真實語境中使用的自然語言。由于人們在真實語境中使用語言也是基于自己的語言直覺,可以說語料庫也是基于語言直覺的,但它比內(nèi)省式的語言數(shù)據(jù)更加自然,因為它是用于實際的交際目的而不像后者那樣是編造出來用于語言分析的。與研究者個人通過內(nèi)省得到的語言數(shù)據(jù)相比,語料庫數(shù)據(jù)一般能反映出更多語言使用者的語言直覺。語料庫方法還能很容易地提供語言現(xiàn)象的頻數(shù),而這很難利用語言直覺可靠地預(yù)測(McEnery & Wilson 2001:15)。正因為如此,語料庫能使研究者克服自身語言直覺中的偏頗,并使之能夠辨別哪些是具有統(tǒng)計意義的典型語言現(xiàn)象,哪些是隨機現(xiàn)象??傊?,語料庫不僅能提供業(yè)已驗證的、帶有語境的定量數(shù)據(jù),而且有助于識別語言直覺無法覺察的用法差異(Francis, Hunston& Manning 1996;Kennedy 1998:272)。此外,語料庫方法還在過去30年間拓展或突出了語言學(xué)中一些無法只通過語言直覺來研究的新領(lǐng)域(如語體變異研究)。
語料庫研究的這些特點使之有別于傳統(tǒng)的語言研究,并更能取得可靠的研究結(jié)果。正如Leech早在20世紀(jì)90年代初指出的那樣,“50年代的語料庫語言學(xué)家拒絕語言直覺,而60年代的普通語言學(xué)家拒絕語料庫數(shù)據(jù)。兩者均未獲取近年來許多成功的語料庫分析所涉及的數(shù)據(jù)覆蓋面和所取得的精辟見解”(Leech 1991:14)。正因為具備這些優(yōu)勢,語料庫方法不僅成為語言學(xué)領(lǐng)域的標(biāo)準(zhǔn)研究工具,而且已開始逐漸成為基于文本的人文社科領(lǐng)域中重要的研究工具1。
我最初的語言學(xué)研究興趣是英語語法和語義學(xué)。正式接觸語料庫并系統(tǒng)研究語料庫語言學(xué),是2000年初到蘭卡斯特大學(xué)攻讀博士學(xué)位才開始的,在此之前對語料庫研究知之甚少。因此可以說,在語料庫研究方面對我影響最大的是以Leech和McEnery為代表的蘭卡斯特語料庫語言學(xué)傳統(tǒng)。
一般認(rèn)為,在語料庫語言學(xué)內(nèi)部有兩個不同的取向,即“基于語料庫”和“語料庫驅(qū)動”,或稱“語料庫作為方法”和“語料庫作為理論”(McEnery &Hardie 2012),分別以Leech為首的蘭卡斯特團隊和以Sinclair為首的伯明翰團隊為代表。兩者在語料庫的性質(zhì)(即語料庫語言學(xué)是方法還是理論、對待語言直覺和語料庫前理論的態(tài)度)、語料庫建庫(如語料庫的平衡性與代表性、語料采用全文還是抽樣、語料庫標(biāo)注)、語料庫分析(如基于語料庫或語料庫驅(qū)動、推斷統(tǒng)計在語料分析中的作用)等方面都存在意見分歧(McEnery, Xiao & Tono 2006;McEnery & Hardie 2012)。當(dāng)然,兩大派別之間的對立存在著人為夸大的因素(Xiao 2009a:993)。再者,隨著時間的推移,繼承Sinclair和Leech語料庫研究傳統(tǒng)的兩派語料庫語言學(xué)家之間目前已有較大程度的融合,雙方取長補短。
除了蘭卡斯特傳統(tǒng),Biber(1988)的多維度分析法對我的語料庫研究也有較大的影響。多維度分析法最初用于分析英語口語和書面語之間的語體差異,但在過去近30年中發(fā)展迅速并得到了廣泛運用。我在這方面的研究主要集中在3個方面,即世界英語、科技論文摘要、翻譯共性(Xiao & McEnery 2005;Xiao 2009b;Cao & Xiao 2013;Hu, Xiao & Hardie forthcoming)。
目前布朗語料庫被公認(rèn)為第一個電子英語語料庫,Quirk等人在倫敦大學(xué)學(xué)院于1959年開始建立的“英語用法調(diào)查”也被稱為現(xiàn)代語料庫語言學(xué)研究的鼻祖2。然而,由于漢語具有漢字眾多的特點,盡管當(dāng)時還沒有語料庫這個名稱,但漢語研究早就具有采用真實語料來確定常用字詞的傳統(tǒng)。例如,我國第一個現(xiàn)代意義上的漢語字頻統(tǒng)計,即黎錦熙的《國語基本語詞的統(tǒng)計研究》,早在1922年就已發(fā)表。教育家陳鶴琴及九名弟子花了3年時間收集并分析了6類“語體文”語料共計形符554,498字,類符4,261字,并對頻數(shù)為5,000、3,000、2,000和1,000以上的頻段進行統(tǒng)計,發(fā)現(xiàn)這些頻段的字?jǐn)?shù)分別為10、19、38和100以上,其結(jié)果于1922年發(fā)表在《新教育》第5卷第5期,其修訂本由商務(wù)印書館于1928年重新出版為《語體文應(yīng)用字匯》。黎錦熙和陳鶴琴的漢語字頻研究無疑為我國基于語料庫的詞匯研究開了先河。
隨著語料庫語言學(xué)在英美等國逐漸興起,以及計算機中文信息處理技術(shù)的改善,語料庫研究也從20世紀(jì)80年代開始在我國得以開展,并在過去近20年中得到了迅猛的發(fā)展。我國的語料庫研究主要集中在以下3個方面:漢語語料庫與中文信息處理、學(xué)習(xí)者語料庫與漢語中介語語料庫、漢英雙語平行語料庫。第一類漢語語料庫大多是由計算機專業(yè)研究者所建的專門用途語料庫,缺乏平衡性,主要服務(wù)于中文信息處理而非語言學(xué)研究。第二類語言教學(xué)用語料庫研究主要由高校外語教師和對外漢語教師承擔(dān),其中學(xué)習(xí)者語料庫主要是專業(yè)和非專業(yè)英語學(xué)習(xí)者語料庫,收集的語料大多為歷年英語等級考試材料,而漢語中介語語料庫主要包括日、韓、泰國等亞洲國家在華留學(xué)生的作文和口語材料。第三類雙語平行語料庫建設(shè)主要與過去10年左右我國開展語料庫翻譯學(xué)研究密切相關(guān)。
語料庫語言學(xué)在中國的迅速發(fā)展,主要得益于政府與學(xué)術(shù)機構(gòu)的大力支持以及高校等學(xué)術(shù)組織對語料庫研究方法的推廣普及。例如,近10年來,由國家社科基金資助,包括重大課題在內(nèi)的批準(zhǔn)項目每年都有差不多20個,出版社與語言學(xué)專業(yè)期刊也越來越愿意發(fā)表語料庫研究成果。近年來國內(nèi)許多高校都為語言學(xué)專業(yè)研究生開設(shè)了語料庫語言學(xué)課程,北京外國語大學(xué)中國外語教育研究中心和上海交通大學(xué)也為高校教師和研究生等開設(shè)了多期語料庫語言學(xué)研修班。另外值得一提的是,由中外學(xué)者的民間力量自發(fā)組織開發(fā)并維護的www.corpus4u.org網(wǎng)站,自建站10年來為語料庫研究在我國的推廣和發(fā)展起到了十分重要的作用。
雖然我國的語料庫研究在新世紀(jì)得到了長足的發(fā)展,但目前還存在不少問題。
首先是學(xué)科之間溝通合作不足。語料庫語言學(xué)涉及語言學(xué)、計算機、數(shù)理統(tǒng)計等多個學(xué)科的專業(yè)知識,學(xué)科之間的合作不僅能拓寬研究思路、提高研究質(zhì)量,而且對當(dāng)今大數(shù)據(jù)時代的研究來說發(fā)揮著越來越重要的作用。而在我國,研究語料庫的兩個研究群體,即研究漢語語料庫和中文信息處理的計算機領(lǐng)域和主要研究外語語料庫的外語教學(xué)與研究領(lǐng)域(包括涉及漢語的語言對比與翻譯研究),由于其研究目標(biāo)不同,兩者之間很少有相互的研究合作。在2011年5月由香港教育學(xué)院主辦的“漢語語料庫及語料庫語言學(xué)”圓桌會議上,國內(nèi)的與會者大多是中文信息處理和漢語研究方面的專家。當(dāng)我提到“中國語料庫語言學(xué)研究會”,幾乎沒有人知道或承認(rèn)這個語料庫協(xié)會,說這是外語教師的一個組織吧。其實,研究語料庫的語言學(xué)家與計算機專家之間的合作對雙方都有利。一方面,語言學(xué)家的參與能使語料庫更具有代表性,而另一方面,計算機專家的投入能使語料處理效率更高、語料加工也更具深度。在這方面,蘭卡斯特大學(xué)的UCREL和CASS語料庫研究中心的工作開展得卓有成效。UCREL研究中心的研究人員包括語言學(xué)系和計算機系對語料庫研究感興趣的老師,雙方相互合作取長補短,承擔(dān)了包括英國國家語料庫(BNC)在內(nèi)的不少大型研究項目。由“英國經(jīng)濟社會研究理事會”(ESRC)投資430萬英鎊成立的CASS語料庫研究中心更是以語料庫為共同研究平臺,聚集了語言學(xué)、計算機、心理學(xué)、醫(yī)學(xué)、歷史學(xué)、社會學(xué)、政治和財經(jīng)等眾多學(xué)科的專家,從多學(xué)科角度對各種社會問題進行研究。這種學(xué)科之間的緊密合作值得我國語料庫研究者借鑒。
其次,重復(fù)投資、資源利用率不高。雖然國內(nèi)每年都有許多語料庫建設(shè)項目得到國家或省部級的資助,但建成的語料庫大多僅供內(nèi)部使用,有些項目建而不研,有的建成后束之高閣。其結(jié)果是語料庫資源利用率不高,從而引起重復(fù)投資和浪費。當(dāng)然,有些語料庫是由于包括大量全文引起版權(quán)問題而使得對外開放資源受到限制,但此類版權(quán)問題從項目一開始,進行語料庫設(shè)計時即應(yīng)加以考慮。其實,只要語料庫設(shè)計合理,并與版權(quán)方充分溝通,這些問題是可以解決的。例如,美國的語言數(shù)據(jù)協(xié)會(LDC)、歐洲語言資源協(xié)會(ELRA)和牛津文本檔案庫(OTA)都發(fā)布了大量的語料庫資源,其版權(quán)問題都得到了妥善解決。要提高語料庫資源的共享度,我建議有關(guān)部門出臺規(guī)定,凡是得到國家和省部級資助的縱向課題產(chǎn)生的語料庫都必須在結(jié)題后一定時間內(nèi)(如6個月的保護期后,以便項目組享有數(shù)據(jù)的優(yōu)先使用權(quán))將資源向公眾開放。英國研究理事會的數(shù)據(jù)政策規(guī)定,所有資助項目產(chǎn)生的數(shù)據(jù)資源必須在項目結(jié)束后公開3。我國可以借鑒這一做法。
再次,從國內(nèi)出版和發(fā)表的研究成果來看,絕大多數(shù)語料庫質(zhì)量不高,語料分析也缺乏深度和系統(tǒng)性;發(fā)表的論文翻譯引介國外研究的多,而實證研究少。語料庫研究質(zhì)量不高與我國語言學(xué)界流行的“一窩蜂上”這一通病有關(guān)。從最初的轉(zhuǎn)換生成語法到系統(tǒng)功能語言學(xué),再到現(xiàn)在的語料庫語言學(xué),都存在這個問題。從www.corpus4u.org網(wǎng)站上的提問和討論來看,國內(nèi)有不少早期職業(yè)研究者,對語料庫一知半解,甚至缺乏最基本的語料庫知識和分析技能,都在用語料庫方法作研究寫論文。其實,語料庫只是研究方法的一種,而且這種方法不是萬能的。有些研究問題用其他方法來研究效率更高。只有弄清楚語料庫能用來做什么,不能做什么,如何針對特定的研究問題建立或選擇合適的語料庫,使用什么工具,以及特定軟件的哪些功能,采用哪些統(tǒng)計分析手段,如何將語料庫證據(jù)和包括語言直覺和其他學(xué)科知識在內(nèi)的資源結(jié)合起來,才能夠產(chǎn)出高質(zhì)量的語料庫研究。
最后,我國的語料庫研究基本上都在國內(nèi)的中文期刊上發(fā)表,而很少有論文發(fā)表在高檔次的國際期刊上,缺少與國際學(xué)術(shù)界的互動與交流,以至于國際學(xué)術(shù)界對中國的語料庫研究知之甚少。其實,我國的語料庫研究在某些方面(如漢語語料庫的加工,涉及漢語的雙語平行語料庫研究)還是處于國際領(lǐng)先地位的4。各高校和科研單位應(yīng)改革并完善業(yè)績評定與獎勵機制,鼓勵作者走出去在國際上出版和發(fā)表自己的研究成果,讓世界聽到來自中國的聲音,了解我國的研究現(xiàn)狀。近年來,我國的學(xué)者在這方面已開始取得一些進展(如Tsou & Kwong 2015;Xiao & Hu 2015;Xiao & Wei 2014;Zou, Hoey & Smith 2015;Hu & Kim forthcoming)。
從上述對我國語料庫研究現(xiàn)狀的討論可以看出,今后的發(fā)展應(yīng)該考慮以下幾個方面。首先是要加強學(xué)科間的研究合作,發(fā)展跨學(xué)科研究。這種合作有利于語料庫研究的深入開展,同時也是基于大數(shù)據(jù)的研究所必需的。第二,加強縱向項目數(shù)據(jù)管理,實現(xiàn)數(shù)據(jù)共享。一個好的語料庫通常是可反復(fù)利用的資源,而且可以滿足多種研究目的,但創(chuàng)建一個好的語料庫常常既費時又耗資。根據(jù)不同的研究目的實現(xiàn)數(shù)據(jù)無償或有償共享,有利于節(jié)省研究時間和資金的投入。第三,加強研究梯隊建設(shè),提高研究質(zhì)量。老一代成熟的研究人員要發(fā)揮傳幫帶的作用,有計劃地培養(yǎng)早期職業(yè)研究人才,避免一窩蜂上的局面,建立語料庫研究梯隊,形成我國語料庫研究的后勁以利于長期發(fā)展。最后,我國的語料庫研究要立足國內(nèi),并走向世界。中文是世界上使用人數(shù)最多的語言,用中文發(fā)表研究成果本來無可厚非,但英語作為國際通用的科技和出版語言有利于世界各地的學(xué)者進行交流。實際上,有許多非英語國家的作者都是直接用英語發(fā)表論文的。我們應(yīng)鼓勵作者把國內(nèi)包括語料庫研究在內(nèi)的頂級科研成果發(fā)表在高檔次的國際期刊上;同時把國內(nèi)發(fā)表的優(yōu)秀論文全文譯介到國際上以便交流。在譯介我國優(yōu)秀論文方面,中國知網(wǎng)已成立國際出版中心(http://tp.cnki.net),旨在通過組織高水平的編輯和翻譯人員,精選優(yōu)秀學(xué)術(shù)期刊中的論文進行漢譯英翻譯并在線同步出版,以全面提高國際同行對我國社科領(lǐng)域最新研究成果的了解和認(rèn)同,進一步提升中國優(yōu)秀學(xué)術(shù)成果的海外影響力。
我國語料庫研究在國際上的自我定位,應(yīng)該遵循“揚我所長、以研促用”的原則。前者是要充分利用自身的優(yōu)勢,后者是要提高研究的實用價值。具體地說,首先是研究我們的母語漢語。到目前為止,基于語料庫的漢語研究基本上以現(xiàn)代漢語書面語為主。今后的研究可以更加注重以下幾個方面。一是在平衡語料庫的基礎(chǔ)上更系統(tǒng)地研究現(xiàn)代漢語口語,并對口筆語語體進行比較。二是研究過去20年來隨互聯(lián)網(wǎng)與通訊技術(shù)發(fā)展而新出現(xiàn)的語體(如社交媒體)。這些新語體具有自身的語言特點,但現(xiàn)有的漢語平衡語料庫基本上都沒有包含在內(nèi)。三是研制包含漢語發(fā)展各主要階段的歷時語料庫。漢字是世界上最古老的文字之一,創(chuàng)建能反映漢語發(fā)展史的歷時平衡語料庫,不僅對我國古籍研究大有裨益,而且也能為自古以來中外語言接觸和文化交流的研究提供研究素材和實證依據(jù)。四是創(chuàng)建漢語方言語料庫。我國具有豐富的語言資源,各地方言多達230多種,對語言接觸和語言類型學(xué)研究具有十分重要的意義;而對于那些瀕危方言,建立語料庫則更能起到保護和保存作用。五是開發(fā)新的適合漢語并針對漢語特點的語料分析方法和工具。
其次是研制包括可比語料庫和平行語料庫在內(nèi)的多語種語料庫,開展中外語言對比與翻譯研究。涉及像英語、漢語這樣大跨度語言之間的語言對比和翻譯(包括口譯)研究對于語言學(xué)理論具有重要意義,而針對主要外語語種和非通用語種的此類研究對外語教學(xué)具有指導(dǎo)意義。
第三,開發(fā)教學(xué)用語料庫資源,開展基于語料庫的二語習(xí)得研究。教學(xué)用語料庫是指我國各類學(xué)生學(xué)習(xí)外語的學(xué)習(xí)者語料庫和外國人學(xué)習(xí)漢語的漢語中介語語料庫。學(xué)習(xí)者語料庫是語料庫語言學(xué)中一個比較成熟的研究領(lǐng)域。我國在過去10年中已建成不少此類語料庫,但還存在一些問題。比如,現(xiàn)有學(xué)習(xí)者英語語料庫包含的基本上都是各類英語等級考試材料,而現(xiàn)有漢語中介語語料庫基本上都只包括韓國、日本、泰國等亞洲國家留學(xué)生的語料。目前教學(xué)用語料庫研究存在的另一個問題是建而不研。語料庫建完了項目也就算結(jié)束了,而沒有對語料進行深入系統(tǒng)的分析,將研究成果用來指導(dǎo)、促進實際的教學(xué)工作。教學(xué)用語料庫研究今后在語料平衡性(包括語料類型和來源等)和研用結(jié)合方面尚有待改進。
第四,開展基于多語種平行語料庫和可比語料庫研究,開發(fā)機助翻譯、翻譯記憶庫、多語種術(shù)語庫等應(yīng)用產(chǎn)品,并提高機器翻譯和自動文摘等應(yīng)用系統(tǒng)的可靠性和有效性。
最后是利用語料庫技術(shù),針對網(wǎng)絡(luò)詐騙欺凌等社會問題,開展司法語言學(xué)研究。網(wǎng)絡(luò)欺凌在臉書(Facebook)和推特(Twitter)等國外社交網(wǎng)站屢見不鮮,國內(nèi)的網(wǎng)絡(luò)詐騙也同樣層出不窮、防不勝防。開展此類研究對于防范這類社會問題具有十分重要的社會意義。
總之,“揚我所長”主要是指這前兩類研究,而“以研促用”主要指后三類研究。
貢獻可能談不上,不過在過去10多年中,自我感覺還是在基于語料庫的語言研究方面腳踏實地、認(rèn)認(rèn)真真地做了一些令自己滿意的研究。
喜 娘 新娘踏進門呀,養(yǎng)子中狀元;新娘過門墊呀,姑爺做府又做縣,姑爺走在前呀,起厝又買田……一拜天地,二拜高堂,夫妻對拜,送入洞房…….
我的主要研究領(lǐng)域是語言對比與翻譯研究,特別是語料庫翻譯學(xué)和基于語料庫的英漢對比研究(如Xiao 2010a)。我出版了國際上第一本基于語料庫的英漢對比研究專著(Xiao & McEnery 2010)。我于2006年在Applied Linguistics上發(fā)表的論文(Xiao & McEnery 2006)從語言對比角度探討了英漢語中的搭配和語義韻,也具有較大的影響。由本人發(fā)起兩年一屆的“基于語料庫的語言對比與翻譯(UCCTS)”國際研討會頗受歡迎,到2014年為止已在中國、英國和比利時成功舉辦4屆。在語料庫翻譯學(xué)方面,我近年來的研究從英漢翻譯和翻譯體漢語的視角重新審視了以往主要局限于英語及其相近語言的翻譯共性假設(shè),對英漢翻譯中翻譯體漢語的系統(tǒng)研究(Xiao 2010b, 2011, 2015;Xiao & Dai 2014;Xiao & Hu 2015;戴光榮、肖忠華 2011;肖忠華、戴光榮 2010;肖忠華 2012)對于描寫翻譯學(xué)和翻譯共性研究具有至關(guān)重要的意義。
我的另一個重要研究領(lǐng)域是漢語語料庫語言學(xué)。我于2004年出版的Aspect in Mandarin Chinese(Xiao & McEnery 2004)是世界上第一本在真實語料基礎(chǔ)上系統(tǒng)闡述漢語時體系統(tǒng)的專著,其學(xué)術(shù)價值得到了眾多書評的認(rèn)可。我在過去10多年來所建的一系列漢語語料庫和平行語料庫基本上全部向?qū)W術(shù)界免費公開(如LCMC、ZCTC、UCLA2、Babel)5,在國際上廣為應(yīng)用。
在語料庫分析方法創(chuàng)新方面,我提出的多維分析框架對Biber(1988)的模型進行了擴展,在原有語法分析的基礎(chǔ)上增加了語義分析和類聯(lián)接分析,并將多維分析模型首次應(yīng)用于世界英語比較和科技論文摘要的對比分析(Xiao 2009b;Cao & Xiao 2013),最新的研究又將多維分析引入了翻譯共性研究領(lǐng)域(Hu,Xiao & Hardie forthcoming)。
在語料庫語言學(xué)教學(xué)方面,由本人主筆合著的Corpus-based Language Studies(McEnery, Xiao & Tono 2006)是目前最流行的語料庫語言學(xué)教材,被美國教育部指定為應(yīng)用語言學(xué)必讀參考書,并為世界各地70多個研究生課程和本科生課程所采用。我還參與了慕課課程Corpus Linguistics: Method, Analysis, Interpretation的教學(xué),主講多語種語料庫及其應(yīng)用,該課程由蘭卡斯特大學(xué)和Futurelearn推出6,前兩期學(xué)員人數(shù)已超過6,000人。過去10年左右我投入較多時間和精力參與建設(shè)和管理的www.corpus4u.org網(wǎng)站產(chǎn)生了較大的影響,為語料庫研究在我國的推廣普及發(fā)揮了重要作用。
最后,通過學(xué)術(shù)兼職為國際語料庫研究領(lǐng)域服務(wù)。本人多年來兼任International Journal of Corpus Linguistics、Corpora、Chinese Language and Discourse、Languages in Contrast等8種學(xué)術(shù)期刊的編委和近30家期刊和出版社的審稿人,以及英國社會經(jīng)濟研究理事會(ESRC)、英國藝術(shù)與人文研究理事會(AHRC)、美國國家科學(xué)基金會(NSF)、加拿大社會科學(xué)與人文研究理事會(SSHRC)、葡萄牙科學(xué)技術(shù)基金會(FCT)、中國香港研究資助局(RGC)等多個國家和地區(qū)研究基金的項目評審專家。此類學(xué)術(shù)兼職不僅使自己清楚地了解國際語料庫研究的前沿動態(tài),而且能提高國際學(xué)術(shù)界發(fā)表論文的質(zhì)量。
語料庫是語言研究中一種十分有用的工具和資源。雖然我們在前文已討論過使用語料庫方法的種種優(yōu)勢,但跟所有工具一樣,語料庫不是萬能的。首先,一個語料庫不可能包括一種語言的所有語句,抽樣就不可避免,因而語料庫涉及代表性的問題。目前還沒有可靠的科學(xué)手段來保證語料庫的代表性。用Leech(1991:27)的話來說,語料庫的代表性仍然是一種“信仰行為”。換言之,當(dāng)一個語料庫的規(guī)模和覆蓋面達到一定程度時,人們對其代表性的信心就會增加。其次,需要用更復(fù)雜、更嚴(yán)格的統(tǒng)計方法來分析語料庫數(shù)據(jù)。在語料庫研究中,定量分析與定性分析同等重要。目前語料庫研究中許多常用統(tǒng)計方法假設(shè)數(shù)據(jù)呈正態(tài)分布,而在語言運用中正態(tài)分布并不普遍。因此,我支持Gries(2006)所提出的“更嚴(yán)格的語料庫語言學(xué)”這一觀點。第三,語料庫不能提供反面證據(jù)。一個語料庫不管多么大、多么平衡,除非它代表高度專門化的語言,都不可能窮盡一種語言中的所有語句,因為語言本身就是無窮盡的。因此,語料庫不能告訴我們語言中哪些現(xiàn)象可能,哪些不可能。比如,如果你沒有在語料庫中找到某個結(jié)構(gòu),也不能說該結(jié)構(gòu)在語言中不存在7;同樣,也不能說在語料庫中能找到的結(jié)構(gòu)就一定合乎語法或可以接受,因為語料庫數(shù)據(jù)屬于語言使用數(shù)據(jù)(performance data)而有可能包含語誤。最后,雖然語料庫方法可以幫助我們觀察到一些非常有趣的語言現(xiàn)象,卻無法解釋觀察結(jié)果,而必須依賴于包括語言直覺在內(nèi)的其他方法和資源來提供解釋(Xiao 2009a)。盡管語料庫方法存在這些問題,但由于其具備顯而易見的優(yōu)勢,仍然越來越被語言研究者接受。其實,不同的工具具有不同的用途,關(guān)鍵是選對工具。比如,望遠鏡和顯微鏡都是十分有用的工具,我們不能指責(zé)顯微鏡無法用來觀察遠處的東西,而望遠鏡無法用來觀察細微的東西。同樣,我們不能指望用語料庫來研究它不擅長回答的研究問題,那些問題仍然需要用其他方法來研究(Hunston 2002)。因此,取得語料庫研究成功的第一步,就是要根據(jù)語料庫研究方法的特點,確定哪些研究問題可以用語料庫來研究而哪些不能,并且學(xué)會如何將語料庫方法和其他研究方法有機結(jié)合起來,融會貫通,充分利用各種資源,使語料庫研究既具描述性,又具解釋性。
由于語料庫僅僅提供一種研究方法和資源,從事語料庫研究時必須確定自己的研究主體。語料庫方法可用來研究語言學(xué)和基于文本的人文社科領(lǐng)域中一系列的問題(McEnery, Xiao & Tono 2006;McEnery & Hardie 2012)。因此,針對特定的研究目的和研究問題創(chuàng)建或選用合適的語料庫非常重要。
就語料庫分析而言,基本的統(tǒng)計知識和量化分析技術(shù)十分重要,因為語料庫研究中定量分析和定性分析同等重要,而要使量化分析具有一定的深度,就不能僅僅局限于比較頻數(shù)和百分比等描寫統(tǒng)計方法,而應(yīng)該采用更復(fù)雜、更嚴(yán)格的推斷統(tǒng)計方法,甚至是各種多變量分析方法。
熟練運用語料檢索和量化分析工具在語料庫研究中也很重要。要做到熟練,就必須勤學(xué)多練。現(xiàn)有的語料庫分析工具(如AntConc、WordSmith、CQPweb等)功能都很強大,大多數(shù)語料庫研究者已不再需要學(xué)習(xí)計算機編程。當(dāng)然,如果你學(xué)習(xí)一門腳本語言(如Perl、Python),那就不僅會大大提高建庫或語料分析的效率,而且還能進行一些常規(guī)軟件無法進行的分析。當(dāng)然,編程的學(xué)習(xí)曲線很陡峭,需要花一定的時間,但一旦學(xué)會,就會終身受益。
鑒于語料庫語言學(xué)的研究本體是人們在真實語境中實際使用的語言8,從事語料庫研究就首先要求研究者對語言使用具有敏感性。這種敏感性基于語言直覺,是通過長期使用語言和擴大知識面而積累起來的。因此,語料庫研究的初學(xué)者應(yīng)該避免急功近利、一蹴即就的心態(tài),腳踏實地把基本功打扎實,以便獲得語料庫研究必備的學(xué)科素質(zhì)。
注釋
1. 參見蘭卡斯特大學(xué)CASS語料庫研究中心(http://cass.lancs.ac.uk)近年來在這方面取得的重大成就。
2. “英語用法調(diào)查”以卡片形式收集了1955-1985年30年間的語料,其口語部分后來轉(zhuǎn)化為電子化的“倫敦-倫德語料庫”(London-Lund Corpus)。
3. 參見英國研究理事會的數(shù)據(jù)政策(http://www.rcuk.ac.uk/research/datapolicy/)。
4. 例如,由上海交通大學(xué)出版社出版,王克非和胡開寶主編的《語料庫翻譯學(xué)文庫》是目前世界上第一個、也是唯一一個語料庫翻譯學(xué)叢書系列,現(xiàn)已出版5本高質(zhì)量的專著(胡開寶2011、王克非2012、肖忠華2012、戴光榮2013、黃立波2014)。
5. 漢語語料庫研究可見http://www.fass.lancs.ac.uk/projects/corpus/Chinese。
6. 語料庫語言學(xué)MOOC見http://www.futurelearn.com/courses/corpus-linguistics。
7. 雖然語料庫不能提供反面證據(jù),但正如Stefanowitsch(2006)所述,完全有可能通過分析語料庫來區(qū)分“顯著缺失”和“偶然缺失”的語言現(xiàn)象。
8. “文本”在這里是廣義的文本,包括口語和多媒體語料。
Biber, D. 1988. Variation across Speech and Writing [M]. Cambridge: CUP.
Cao, Y. & R. Xiao. 2013. A multidimensional contrastive study of English abstracts by native and nonnative writers [J]. Corpora 8(2): 209-234.
Francis, G., S. Hunston & E. Manning. 1996. Collins COBUILD Grammar Patterns 1: Verbs [M].London: HarperCollins.
Gries, S. 2006. Some proposals towards more rigorous corpus linguistics [J]. Zeitschrift für Anglistik und Amerikanistik 54(2): 191-202.
Hu, K. & K. Kim (eds.). Forthcoming. Corpus-based Translation and Interpreting Studies in the Chinese Context [C]. Basingstoke: Palgrave Macmillan.
Hu, X., R. Xiao & A. Hardie. Forthcoming. How do English translations differ from nontranslated English writings? A multi-feature statistical model for linguistic variation analysis[J]. Corpus Linguistics and Linguistic Theory.
本試驗莖葉處理除草劑施藥時間是紫花苜蓿刈割后20 d左右,所得出的安全性結(jié)論也是刈割后莖葉處理的結(jié)果。紫花苜蓿還有一種苗后莖葉處理就是種子播種出苗后,這2種模式下的紫花苜蓿敏感度差異很大,至于播種出苗后的紫花苜蓿藥劑安全性如何,有待于進一步研究。
Hunston, S. 2002. Corpora in Applied Linguistics [M]. Cambridge: CUP.
Kennedy, G. 1998. An Introduction to Corpus Linguistics [M]. London: Longman.
Krishnamurthy, R. 2000a. Size matters: Creating dictionaries from the world’s largest corpus [A].In Proceedings of KOTESOL 2000 – Casting the Net: Diversity in Language Learning [C].Taegu, South Korea. 169-180.
Krishnamurthy, R. 2000b. Collocation: From silly ass to lexical sets [A]. In C. Heffer, H.Sauntson & G. Fox (eds.). Words in Context: A Tribute to John Sinclair on His Retirement [C].Birmingham: University of Birmingham. 31-47.
Léon, J. 2005. Claimed and unclaimed sources of corpus linguistics [J]. Henry Sweet Society Bulletin 44: 36-50.
Leech, G. 1991. The state of the art in corpus linguistics [A]. In K. Aijmer & B. Altenberg (eds.).English Corpus Linguistics [C]. London: Longman. 8-29.
McEnery, T. & A. Wilson. 1996. Corpus Linguistics [M]. Edinburgh: Edinburgh University Press.
McEnery, T. & A. Wilson. 2001. Corpus Linguistics (2nd Edition) [M]. Edinburgh: Edinburgh University Press.
McEnery, T., R. Xiao & Y. Tono. 2006. Corpus-based Language Studies: An Advanced ResourceBook [M]. London: Routledge.
McEnery, T. & A. Hardie. 2012. Corpus Linguistics: Method, Theory, Practice [M]. Cambridge:CUP.
Meyer, C. 2002. English Corpus Linguistics: An Introduction [M]. Cambridge: CUP.
Meyer, C. & G. Nelson. 2006. Data collection [A]. In B. Aarts & A. McMahon (eds.). The Handbook of English Linguistics [C]. Oxford: Blackwell. 93-113.
Newmeyer, F. 2003. Grammar is grammar and usage is usage [J]. Language 79(4): 682-707.
Seuren, P. 1998. Western Linguistics: A Historical Introduction [M]. Oxford: Blackwell.
Sinclair, J. 1997. Corpus evidence in language description [A]. In A. Wichmann, S. Fligelstone,T. McEnery & G. Knowles (eds.). Teaching and Language Corpora [C]. London: Longman.27-39.
Sinclair, J. 1999. Corpus, Concordance, Collocation [M]. 上海:上海外語教育出版社。
Stefanowitsch, A. 2006. Negative evidence and the raw frequency fallacy [J]. Corpus Linguistics and Linguistic Theory 2(1): 61-77.
Tsou, B. & O. Kwong (eds.). 2015. Linguistic Corpus and Corpus Linguistics in the Chinese Context [C]. Hong Kong: The Chinese University Press.
Widdowson, H. 2000. The limitations of linguistics applied [J]. Applied Linguistics 21(1): 3-25.
Xiao, R. 2009a. Theory-driven corpus research [A]. In A. Lüdeling & M. Kyto (eds.). Corpus Linguistics: An International Handbook (Volume 2) [C]. Berlin: Mouton de Gruyter. 987-1007.
Xiao, R. 2009b. Multidimensional analysis and the study of world Englishes [J]. World Englishes 28(4): 421-450.
Xiao, R. (ed.). 2010a. Using Corpora in Contrastive and Translation Studies [C]. Newcastle:Cambridge Scholars Publishing.
Xiao, R. 2010b. How different is translated Chinese from native Chinese? [J]. International Journal of Corpus Linguistics 15(1): 5-35.
Xiao, R. 2011. Word clusters and reformulation markers in Chinese and English: Implications for translation universal hypotheses [J]. Languages in Contrast 11(2): 145-171.
Xiao, R. 2015. Source language interference in English-to-Chinese translation [A]. In J. Romero-Trillo (ed.). Yearbook of Corpus Linguistics and Pragmatics [C]. Berlin: Springer. 139-162.
Xiao, R. & G. Dai. 2014. Lexical and grammatical properties of translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective [J]. Corpus Linguistics and Linguistics Theory 10(1): 11-55.
Xiao, R. & T. McEnery. 2004. Aspect in Mandarin Chinese: A Corpus-based Study [M].Amsterdam: John Benjamins.
Xiao, R. & T. McEnery. 2005. Two approaches to genre analysis: Three genres in modern American English [J]. Journal of English Linguistics 33(1): 62-82.
Xiao, R. & T. McEnery. 2006. Collocation, semantic prosody and near synonymy: A crosslinguistic perspective [J]. Applied Linguistics 27(1): 103-129.
Xiao, R. & T. McEnery. 2010. Corpus-based Contrastive Studies of English and Chinese [M].London: Routledge.
Xiao, R. & N. Wei (eds.). 2014. Translation and Contrastive Linguistic Studies at the Interface of English and Chinese (Special Issue of Corpus Linguistics and Linguistic Theory Volume 10 Issue 1) [C]. Berlin: De Gruyter.
Xiao, R. & X. Hu. 2015. Corpus-based Studies of Translational Chinese in English-Chinese Translation [M]. Berlin: Springer.
Zou, B., M. Hoey & S. Smith (eds.). 2015. Corpus Linguistics in Chinese Contexts [C].Basingstoke: Palgrave Macmillan.
戴光榮,2013,《譯文源語透過效應(yīng)研究》[M]。上海:上海交通大學(xué)出版社。
戴光榮、肖忠華,2011,譯文中“源語透過效應(yīng)”研究:基于語料庫的英譯漢被動句研究[J],《翻譯季刊》(4):85-108。
胡開寶,2011,《語料庫翻譯學(xué)概論》[M]。上海:上海交通大學(xué)出版社。
黃立波,2014,《基于語料庫的翻譯文體研究》[M]。上海:上海交通大學(xué)出版社。
王克非,2012,《語料庫翻譯學(xué)探索》[M]。上海:上海交通大學(xué)出版社。
肖忠華,2012,《英漢翻譯中的漢語譯文語料庫研究》[M]。上海:上海交通大學(xué)出版社。
肖忠華、戴光榮,2010,尋求“第三語碼”——基于漢語譯文語料庫的翻譯共性研究[J],《外語教學(xué)與研究》(1):53-61。