楊雨欣(電子科技大學(xué)外國語學(xué)院,四川成都 610000)
大規(guī)模的英語語料庫建設(shè)起源于上世紀60年代,1959年,Quirk 等人開始建立的“英語用法調(diào)查”(Survey of English Usage),其建設(shè)收集了大量風格題材各異的英語口語及書面語語料,被稱為現(xiàn)代語料庫語言學(xué)研究的鼻祖。1961年,世界上公認的第一個電子英語語料庫布朗語料庫(Brown Corpus)問世。發(fā)展到今天,英語語料庫的規(guī)模仍是其他語種語料庫所不及,到后來網(wǎng)絡(luò)語料庫(Web as Corpus)技術(shù)的普及使得語料庫的規(guī)模更是以幾何倍數(shù)增長,億詞級語料庫已屢見不鮮。
相比西方國家,國內(nèi)的語料庫語言學(xué)雖開始相對較晚,但國內(nèi)語言學(xué)界研究語料庫者已不再少數(shù),對相關(guān)理論及技術(shù)的掌握也不落后于西方國家,從萌芽到現(xiàn)在的蓬勃發(fā)展僅30多年。
1982年,上海交通大學(xué)的黃人杰、楊惠中主持編制的科技英語語料庫JDEST(Jiao Tong University Corpus for EST),共計100 萬詞,由2000 篇(每篇至少5 百字)科技英文文本組成;1987年,中國石油大學(xué)建成的廣州石油英語語料庫GPEC(Guangzhou Petroleum English Corpus),約41 萬詞,由石油專業(yè)英語英語文本組成;1999年,廣東外語外貿(mào)大學(xué)桂詩春教授和上海交通大學(xué)楊惠中教授主持建設(shè)的中國英語學(xué)習者語料庫CLEC(Chinese Learner English Corpus),庫容為100 萬詞,語料來源于全國專業(yè)英語、大學(xué)英語以及中學(xué)英語學(xué)習者的書面語資料;而后國內(nèi)相繼成功建成的語料庫源源不斷,為國內(nèi)語料庫的發(fā)展及語言學(xué)研究,外語教育等都做出了自己的杰出的貢獻。有代表性的還包括國家語委現(xiàn)代漢語語料庫,香港科技大學(xué)學(xué)習者語料庫(HKUST Learner Corpus),南京大學(xué)建立的中國英語學(xué)習者口語語料庫(SECCL),北外建立的平行語料庫,漢英平行語料庫(PCCE)等等。
得益于政府與學(xué)術(shù)機構(gòu)對語料庫語言學(xué)的支持,語料庫的建設(shè)和更新速度迅猛,除去由國家社科資金資助的項目,還有來自各大高校、機構(gòu)及學(xué)者所自建的語料庫,其庫容各異,但類型基于功能可基本分為通用語料庫、專用語料庫、平行語料庫、可比語料庫、學(xué)習者語料庫(段海鵬,2011)。
我國的語料庫研究主要集中在以下3 個方面:漢語語料庫與中文信息處理、學(xué)習者語料庫與漢語中介語語料庫、漢英雙語平行語料庫(肖忠華,2015)。
第一類中的漢語語料庫建設(shè)遵循“揚我所長”原則,充分利用自身優(yōu)勢,不僅能給國內(nèi)漢語研究者提供語言數(shù)據(jù),還能促進漢語在國際上的交流。例如北京大學(xué)中國語言學(xué)研究中心CCL 語料庫,建設(shè)有現(xiàn)代漢語語料庫及古代漢語語料庫,漢語總字符數(shù)783,463,175,其中現(xiàn)代漢語語料庫總字符數(shù)為581,794,456,為漢語研究和教學(xué)提供了大規(guī)模語料庫及方便快速的在線檢索。
第二類包含上面已經(jīng)提到的學(xué)習者語料庫,由于國內(nèi)重視英語語言的教育,學(xué)習者語料庫主要來源于英語學(xué)習者語料,有英語專業(yè)和非英語專業(yè)的,也有不同初高中及大學(xué)階段的,且多源自歷年英語考試材料。目前國內(nèi)所公認的三大學(xué)習者語料庫為由桂詩春、楊惠中所編著的中國學(xué)習者英語語料庫(CLEC)、由文秋芳、王立非、梁茂成編著的中國學(xué)生口筆語語料庫(SWECCL-Spoken and Writing English Corpus of Chinese Learners)和由楊惠中、衛(wèi)乃興編著的中國學(xué)習者英語口語語料庫(COLSEC-College Learners’Spoken English Corpus)。而漢語中介語語料庫是指漢語為中介語的留學(xué)生作文和口語材料語料庫,且這些留學(xué)生多來自亞洲及非洲國家。
第三類漢英雙語平行語料庫旨在推進漢語與英語之間的對比及翻譯研究。漢語和英語是兩門跨度較大的語言,兩門語言的對比、及翻譯研究不僅僅是語言學(xué)術(shù)研究的需要,更是我國英語教育事業(yè),與英語相關(guān)的教育產(chǎn)業(yè),如教育機構(gòu),網(wǎng)絡(luò)英語學(xué)習軟件、詞典及應(yīng)用的需要。
盡管我國的語料庫建設(shè)得到了迅速的發(fā)展,其存在的問題也不容小覷。
首先,學(xué)科間溝通合作還不足(肖忠華,2015)。語料庫的語料要發(fā)展全面,需來自各大學(xué)科的語料數(shù)據(jù)支持,且其建設(shè)更涉及語言學(xué)、計算機科學(xué)、概率統(tǒng)計學(xué)等多個學(xué)科,這便需要各學(xué)科專業(yè)人才都能有致力于語料庫研究建設(shè)的目標,充分交流,相互合作學(xué)習,成立龐大的專業(yè)語料庫建設(shè)隊伍。因此當下國內(nèi)要達到這樣的目標,還需要一個較長的建設(shè)周期。讓語言學(xué)家去選擇更有代表性的語料,讓計算機專家去開發(fā)更先進的語料加工、處理軟件,雙方相互學(xué)習取長補短,才能共同建設(shè)出更大更好的語料庫。國外蘭卡斯特大學(xué)的UCREL 和CASS 語料庫研究中心就是這一方面的成功典例。
其次,國內(nèi)語料庫建設(shè)不夠有序不足(肖忠華,2015)。國內(nèi)的語料庫建設(shè)基本來源于高校,只有部分建設(shè)項目能得到國家或其他公司機構(gòu)的資助。較大型的語料庫屈指可數(shù),如北京大學(xué)中國語言研究中心CCL 語料庫,北京語言大學(xué)BCC 語料庫,以及北京外國語大學(xué)的BFSU CQPweb 等,除此外還有不少語料庫是根據(jù)各高校的專業(yè)特色及需求建立起來的,其庫容不算太大,但也不算太小,大部分屬于自建自用,缺乏共享性,且其中絕大數(shù)多建而不研,大大的降低了語料庫的使用率,嚴重增加了建設(shè)成本,其中,重復(fù)性建設(shè)更是不計其數(shù)。
最后,不得不提到的還有國內(nèi)語料庫建設(shè)的一些技術(shù)性問題,尤其是自動標注問題和雙語語料庫中的對齊問題,計算機技術(shù)在這方面責無旁貸。由于詞性標注是大規(guī)模語料庫自動分析的重要基礎(chǔ),也是句法剖析和語義標注的前提,同時還與短語提取有著不可分割的關(guān)系(梁茂成,2015),如何提高詞性自動標注的準確率依舊是學(xué)術(shù)界關(guān)注的重要問題。以及盡管在雙語語料庫中已經(jīng)研發(fā)出一些自動對齊工具,其自動對齊的效果仍有很大的改進空間。
首先,繼續(xù)多方位的全面的研究我們的母語——漢語。漢語是我們自身的優(yōu)勢,研究漢語也是我們的使命所在。今后對漢語語料庫的建設(shè)研究可能有以下幾個方向:
1)建立漢語口語語料庫,對比口筆語間區(qū)別。許多語言學(xué)家普遍接受口語要比書面語更能揭示語言的本質(zhì)(楊江,2008),自國內(nèi)語料庫開始建設(shè)以來,口語語料庫便受到了廣泛的關(guān)注,即使其語料采集及語音轉(zhuǎn)寫技術(shù)要比普通的書面語麻煩的多。國內(nèi)目前單獨的漢語口語語料庫還寥寥無幾,基本都是研究英語學(xué)習者的口語語料庫,如中國學(xué)生口筆語語料庫(SWECCL),以及中國學(xué)習者英語口語語料庫(COLSEC)等。
2)建立少數(shù)民族語料庫。由于不少少數(shù)民族居住地的遷移,少數(shù)民族漢化、城鎮(zhèn)化影響等等,少數(shù)民族語言面臨著消失殆盡的問題,建立少數(shù)民族語料庫起到了保護和保存少數(shù)民族文化的作用。
3)建立現(xiàn)代網(wǎng)絡(luò)用語語料庫。伴隨著手機,電腦的更新?lián)Q代,WIFI、4G 像空氣一樣滲透進人們的生活,隨之而來的是強烈的網(wǎng)絡(luò)文化打破以往人們生活的方式、觀念,各種網(wǎng)絡(luò)新詞、熱詞以迅雷不及掩耳之勢隨時散布在各大新聞網(wǎng)站,隨之進入到人們交流的各大場合,這些新、快的語料可能是以往所建立的語料庫里沒有的,但又是當下最受廣大民眾歡迎的,建立現(xiàn)代網(wǎng)絡(luò)用語語料庫分析其特點,可以幫助了解人們的喜好,有助于開發(fā)迎合用戶的應(yīng)用。
其次,建設(shè)專門用途英語(ESP—English for Specific Purposes)語料庫(張濟華,2009)。通過采集專門領(lǐng)域的英文文獻,建立某個特定領(lǐng)域或?qū)W科的ESP 語料庫,檢索能獲取各專業(yè)詞匯,從其詞頻高低判斷并制定各專業(yè)英語大綱詞匯表,從而為不同專業(yè)英語詞匯的教學(xué)提供重要依據(jù)。建設(shè)學(xué)術(shù)英語語料庫有助于學(xué)術(shù)英語語言的研究,也為各高校學(xué)生、學(xué)者提供多樣化的教學(xué)和自學(xué)資源。例如,在建的由中國外語教育研究中心語料庫語言學(xué)團隊主持創(chuàng)建的DEAP 學(xué)術(shù)英語語料庫項目(Database of English for Academic Purposes),截止到目前已建成的臨床醫(yī)學(xué)字庫MedAca共計500 萬詞次,“臨床醫(yī)學(xué)”下的18 個包括兒科學(xué)、婦產(chǎn)科學(xué)、急診科學(xué)等在內(nèi)的18 個二級學(xué)科,且其建成對醫(yī)學(xué)英語詞典的編纂以及醫(yī)學(xué)學(xué)術(shù)論文的寫作有極大的幫助。
最后,繼續(xù)建設(shè)平行語料庫和可比語料庫在內(nèi)的多語種語料庫,促進中外語言對比和翻譯研究(何常麗,2008)。平行語料庫和可比語料庫的本質(zhì)區(qū)別在于前者有翻譯關(guān)系,且文本需要對齊(梁茂成 & 許家金,2012)。漢語本身與西方各大語系差距較大,對比研究像漢語和英語這樣的大跨度語言對語言學(xué)理論具有重要意義。誠然,語料庫的手段無疑為翻譯研究及對比語言開辟了廣袤的新天地,近年來,相關(guān)學(xué)術(shù)研討會相繼召開,很大程度的推動了這個研究領(lǐng)域的發(fā)展,例如,“基于語料庫的語言對比與翻譯研究”學(xué)術(shù)研討會(UCCTS—Using Corpora in Contrastive and Translation Studies),每兩年一屆,是目前語料庫翻譯研究專業(yè)化程度最高的國際學(xué)術(shù)研討會,某種程度上代表了這個領(lǐng)域的最新發(fā)展(趙秋榮,肖忠華,2015)。同時,在開展語言翻譯和對比研究時,借助其研究成果能極大的幫助提高現(xiàn)代的機器翻譯可靠性和有效性。
國內(nèi)的語料庫語言學(xué)研究發(fā)展勢頭迅猛,借助語料庫來進行科學(xué)的大規(guī)模的真實語言數(shù)據(jù)分析,有助于取得更可靠的研究成果。弄清楚語料庫可以做什么,根據(jù)研究者自身需求建立合適的語料庫,采用科學(xué)的統(tǒng)計分析手段,才能緊跟大數(shù)據(jù)時代步伐。相比較國外語料庫的建設(shè),國內(nèi)語料庫的建設(shè)和發(fā)展依舊還有很長的路要走,積極改進技術(shù)性問題,尤其在預(yù)料的加工及分析方面,提高自動詞性標注的準確率,研發(fā)更好的對齊工具。認清國內(nèi)語料庫的發(fā)展現(xiàn)狀,加強學(xué)科間的合作交流,取長補短,朝著更好的發(fā)展發(fā)向邁進。