石志亮
摘要:文章回顧了語(yǔ)料庫(kù)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的由來(lái),分析了語(yǔ)料庫(kù)的應(yīng)用與研究現(xiàn)狀,肯定了語(yǔ)料庫(kù)語(yǔ)言學(xué)在語(yǔ)言描述、語(yǔ)言理論發(fā)展和語(yǔ)言學(xué)研究方法等方面的貢獻(xiàn)。特別就語(yǔ)料庫(kù)語(yǔ)言學(xué)研究在語(yǔ)料庫(kù)標(biāo)注技術(shù)、研究層次、與其它學(xué)科的交叉研究和語(yǔ)料庫(kù)建庫(kù)等方面出現(xiàn)了平臺(tái)期這一現(xiàn)狀做了闡述。
關(guān)鍵詞:語(yǔ)料庫(kù);語(yǔ)料庫(kù)語(yǔ)言學(xué);研究現(xiàn)狀;理論發(fā)展
中圖分類(lèi)號(hào):H0 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-1580(2017)01-0098-03
一、語(yǔ)料庫(kù)語(yǔ)言學(xué)的由來(lái)
不同的語(yǔ)言研究專(zhuān)家對(duì)語(yǔ)料庫(kù)的定義不盡相同。Atkins和Clear(1992)認(rèn)為“語(yǔ)料庫(kù)是按照明確的設(shè)計(jì)標(biāo)準(zhǔn),為某一具體目的而建立的大型語(yǔ)言文本庫(kù)”。John
Sinclair(1996)認(rèn)為:“語(yǔ)料庫(kù)就是根據(jù)明確的語(yǔ)言標(biāo)準(zhǔn)選擇和排序的語(yǔ)言的匯集,以作為語(yǔ)言的樣本。”A.Renouf認(rèn)為“語(yǔ)料庫(kù)是由大量收集的書(shū)面語(yǔ)或口語(yǔ)構(gòu)成并由計(jì)算機(jī)存儲(chǔ)和處理用于語(yǔ)言學(xué)研究的文本庫(kù)”。Tony
McEnery(2006)認(rèn)為:以機(jī)器可讀的形式儲(chǔ)存的,帶有各種語(yǔ)言信息標(biāo)注的書(shū)面或口頭的樣本文本集合。
不論如何定義,有幾個(gè)關(guān)鍵點(diǎn)是一致的,就是語(yǔ)料庫(kù)必須是語(yǔ)言的電子文本集合、必須按照一定的標(biāo)準(zhǔn)采集、采集后的文本最好經(jīng)過(guò)加工(比如,標(biāo)注、賦碼)、文本的量應(yīng)該達(dá)到一定的規(guī)模、能夠被計(jì)算機(jī)處理等。語(yǔ)料庫(kù)研究就是:研究者借助于各種計(jì)算機(jī)分析工具,以大量精心采集到的真實(shí)文本為研究素材,以經(jīng)驗(yàn)主義為哲學(xué)基礎(chǔ),進(jìn)行相關(guān)的語(yǔ)言現(xiàn)象觀察、語(yǔ)言理論驗(yàn)證以及其它的實(shí)證性研究。
近些年,人們?cè)谡Z(yǔ)料庫(kù)的建設(shè)和開(kāi)發(fā)過(guò)程中,在觀察和經(jīng)驗(yàn)的基礎(chǔ)上逐漸創(chuàng)造了一些新方法,提出了一些新規(guī)則,并且對(duì)這些方法和規(guī)則在理論上進(jìn)行了一些探索和總結(jié),逐漸形成了“語(yǔ)料庫(kù)語(yǔ)言學(xué)”。因此,語(yǔ)料庫(kù)語(yǔ)言學(xué)是一門(mén)基于大量真實(shí)的語(yǔ)言數(shù)據(jù),以經(jīng)驗(yàn)主義為哲學(xué)基礎(chǔ),以獨(dú)到的理論體系結(jié)合計(jì)算機(jī)科學(xué)來(lái)研究語(yǔ)言的一門(mén)邊緣學(xué)科。
二、語(yǔ)料庫(kù)語(yǔ)言學(xué)的應(yīng)用
(一)在語(yǔ)言教學(xué)方面
語(yǔ)料庫(kù)語(yǔ)言學(xué)的重要應(yīng)用領(lǐng)域之一就是語(yǔ)言教學(xué),可以利用檢索工具對(duì)語(yǔ)料庫(kù)進(jìn)行詞頻、詞塊、句型、語(yǔ)態(tài)、搭配等的觀察和統(tǒng)計(jì),進(jìn)行數(shù)據(jù)驅(qū)動(dòng)式的學(xué)習(xí)。詞頻統(tǒng)計(jì)也能讓我們準(zhǔn)確確定高頻詞,檢索出的詞塊、句型、語(yǔ)態(tài)、搭配等的情況,有助于教師更合理高效地開(kāi)展詞匯、語(yǔ)法、閱讀、翻譯等各種語(yǔ)言教學(xué)活動(dòng);學(xué)生們通過(guò)觀察和實(shí)踐,既能掌握詞語(yǔ)的用法,也能了解語(yǔ)言變化的規(guī)律。這些檢索結(jié)果(特別是詞頻統(tǒng)計(jì)的結(jié)果)也可以應(yīng)用于語(yǔ)言教材的編寫(xiě)、教學(xué)大綱的設(shè)計(jì),甚至詞典的編撰等。
(二)在應(yīng)用語(yǔ)言學(xué)方面
利用相關(guān)的計(jì)算機(jī)軟件結(jié)合語(yǔ)料庫(kù)可以進(jìn)行詞匯、句法、語(yǔ)義、口語(yǔ)、語(yǔ)言變異、二語(yǔ)習(xí)得、機(jī)器翻譯、語(yǔ)用、話語(yǔ)分析等研究。此外,還可以利用語(yǔ)料庫(kù)技術(shù)進(jìn)行語(yǔ)音識(shí)別和語(yǔ)音合成等。
利用語(yǔ)料庫(kù)進(jìn)行詞匯研究,主要包括詞頻、詞塊、詞語(yǔ)搭配、類(lèi)連接、語(yǔ)義韻、新詞語(yǔ)的提取以及詞典編纂等。結(jié)合語(yǔ)料庫(kù)進(jìn)行句法研究,主要是進(jìn)行語(yǔ)法的定量分析和句型的頻率統(tǒng)計(jì)。結(jié)合語(yǔ)料庫(kù)進(jìn)行語(yǔ)義研究,可以為詞項(xiàng)賦義提供客觀的標(biāo)準(zhǔn),有助于建立語(yǔ)義模糊范疇的梯度概念。語(yǔ)料庫(kù)與口語(yǔ)這方面的研究主要是建立口語(yǔ)詞語(yǔ)提取的模型,目前集中在韻律層面的研究。語(yǔ)料庫(kù)與語(yǔ)言變異的研究,是通過(guò)對(duì)比不同時(shí)期、不同地域、不同民族、不同性別的口語(yǔ)語(yǔ)料庫(kù)來(lái)推斷語(yǔ)言的變異和變化,從而進(jìn)行語(yǔ)域變體、地域變體以及語(yǔ)言變化的研究。語(yǔ)料庫(kù)與二語(yǔ)習(xí)得研究,主要是通過(guò)觀察語(yǔ)料庫(kù)中語(yǔ)言現(xiàn)象的分布和頻率以及學(xué)習(xí)者語(yǔ)言應(yīng)用和使用的失誤,研究語(yǔ)言形式在語(yǔ)境中的意義和用法。語(yǔ)料庫(kù)與機(jī)器翻譯,利用過(guò)去已經(jīng)翻譯過(guò)的語(yǔ)料,采用模擬的方法來(lái)翻譯句子。此外,利用語(yǔ)料庫(kù)還可以進(jìn)行語(yǔ)音識(shí)別和語(yǔ)音合成等研究。
(三)在社會(huì)語(yǔ)言學(xué)、文學(xué)、翻譯學(xué)等方面
依據(jù)大規(guī)模真實(shí)語(yǔ)料庫(kù)進(jìn)行社會(huì)語(yǔ)言學(xué)現(xiàn)象、語(yǔ)言變異等調(diào)查,可以得出更加真實(shí)客觀的數(shù)據(jù)和結(jié)論;通過(guò)建設(shè)文學(xué)作品或文學(xué)評(píng)論語(yǔ)料庫(kù),對(duì)其進(jìn)行標(biāo)注和檢索,分別對(duì)其中的人物形象、意象、情節(jié)、主題、母題、作品風(fēng)格等進(jìn)行研究,可以為觀點(diǎn)提供更為客觀的數(shù)據(jù)支撐,開(kāi)拓文學(xué)研究和語(yǔ)料庫(kù)相結(jié)合的新型研究模式;在翻譯學(xué)方面,利用建成的雙語(yǔ)平行語(yǔ)料庫(kù),可以為翻譯研究與實(shí)踐提供實(shí)證材料,也能極大提高翻譯的效率和準(zhǔn)確性。
(四)在語(yǔ)言定量分析方面
利用大規(guī)模的真實(shí)語(yǔ)料,設(shè)計(jì)出要進(jìn)行定量分析的知識(shí)點(diǎn)和所使用的各類(lèi)題型,可以提高定量分析結(jié)果的信度和效度。
除以上幾方面,語(yǔ)料庫(kù)還可用于語(yǔ)法、多語(yǔ)言跨文化研究、法律(軍事)語(yǔ)言學(xué)、文體學(xué)、意識(shí)形態(tài)和文化、作者的立場(chǎng)研究,甚至認(rèn)知語(yǔ)言學(xué)研究等等。它所帶給我們的也絕不只是一種研究方法的革命,隨著語(yǔ)料庫(kù)技術(shù)的迅速發(fā)展其應(yīng)用范圍也必將更為廣泛。
三、語(yǔ)料庫(kù)語(yǔ)言學(xué)的貢獻(xiàn)
(一)對(duì)語(yǔ)言描述的貢獻(xiàn)
語(yǔ)料庫(kù)語(yǔ)言學(xué)這門(mén)交叉學(xué)科是在20世紀(jì)80年代前后隨著B(niǎo)rown和Lob兩大語(yǔ)料庫(kù)的建立才逐步形成的。語(yǔ)料庫(kù)最早和最普遍的應(yīng)用就是其在語(yǔ)言描述方面,比如上文提到的語(yǔ)料庫(kù)在語(yǔ)言教學(xué)、詞典編撰、應(yīng)用語(yǔ)言學(xué)、社會(huì)語(yǔ)言學(xué)、文學(xué)、翻譯學(xué)、定量分析等等方面的運(yùn)用,主要是語(yǔ)言描述層面。
以往進(jìn)行的一些研究,比如對(duì)現(xiàn)代英語(yǔ)特征的分析:詞匯的使用頻率、語(yǔ)用特征及其在某段時(shí)間內(nèi)的變化,男女使用某些詞匯的多寡、偏好,口語(yǔ)與書(shū)面語(yǔ)的異同,不同地區(qū)使用英語(yǔ)情況的比較(特別是學(xué)習(xí)者與本族語(yǔ)者語(yǔ)言之間的差異),某些詞匯空缺的成因,兒童詞匯及句式習(xí)得的過(guò)程,甚至考察某些種族使用語(yǔ)法轉(zhuǎn)換背后的動(dòng)機(jī)等都是進(jìn)行語(yǔ)言描述的具體研究事例。
可以說(shuō)語(yǔ)料庫(kù)語(yǔ)言學(xué)通過(guò)對(duì)大量客觀詳實(shí)的語(yǔ)言數(shù)據(jù)進(jìn)行系統(tǒng)分析為語(yǔ)言研究提供了全新的思路和方法,人們可以憑借語(yǔ)料庫(kù)提供的語(yǔ)言證據(jù)來(lái)進(jìn)行語(yǔ)言學(xué)研究。
(二)對(duì)語(yǔ)言理論發(fā)展的貢獻(xiàn)
Sinclair認(rèn)為只有用巨量的語(yǔ)料來(lái)驅(qū)動(dòng)的研究才能揭示那些單憑語(yǔ)言直覺(jué)無(wú)法預(yù)測(cè)的語(yǔ)言現(xiàn)象和發(fā)現(xiàn)新的語(yǔ)言使用規(guī)律,更新現(xiàn)有的理論乃至構(gòu)建新的語(yǔ)言理論模式。Leech也認(rèn)為語(yǔ)料庫(kù)語(yǔ)言學(xué)絕不是僅僅收集和描述語(yǔ)料,它包括三個(gè)層次:語(yǔ)言收集、語(yǔ)言描述和理論構(gòu)建。Halliday提出建立一套完善的口語(yǔ)語(yǔ)料轉(zhuǎn)寫(xiě)系統(tǒng)以便更好地解決傳統(tǒng)語(yǔ)言理論將詞匯和語(yǔ)法分離的問(wèn)題,因?yàn)榭谡Z(yǔ)語(yǔ)料是任何語(yǔ)言的原型語(yǔ)義單位始發(fā)和延伸的基礎(chǔ),這些語(yǔ)義單位已經(jīng)高度語(yǔ)法化且靈活多變,所以加強(qiáng)大型口語(yǔ)語(yǔ)料庫(kù)的研究能夠帶動(dòng)語(yǔ)法研究的發(fā)展。
(三)對(duì)語(yǔ)言學(xué)研究方法的貢獻(xiàn)
語(yǔ)料庫(kù)語(yǔ)言學(xué)深受西方語(yǔ)言哲學(xué)中經(jīng)驗(yàn)論的影響,經(jīng)驗(yàn)論認(rèn)為感性經(jīng)驗(yàn)是知識(shí)的唯一源泉,主張一切知識(shí)都通過(guò)經(jīng)驗(yàn)而獲得。西方語(yǔ)言學(xué)界的經(jīng)驗(yàn)論注重語(yǔ)言事實(shí),強(qiáng)調(diào)直觀的感性,也就是要對(duì)真實(shí)的語(yǔ)言材料進(jìn)行采集、描述和實(shí)證研究,借助于真實(shí)語(yǔ)料是語(yǔ)料庫(kù)語(yǔ)言學(xué)開(kāi)展研究的基礎(chǔ)。
語(yǔ)料庫(kù)的各種處理工具,如語(yǔ)料轉(zhuǎn)寫(xiě)、文本整理、詞性附碼、句法標(biāo)注、檢索和統(tǒng)計(jì)等,這些計(jì)算機(jī)程序的出現(xiàn)使得語(yǔ)料庫(kù)語(yǔ)言學(xué)定性與定量相結(jié)合的方法成為可能。利用語(yǔ)料庫(kù)工具的標(biāo)注手段和檢索功能,研究者可以很容易地檢索出某些語(yǔ)言現(xiàn)象,內(nèi)省出一些語(yǔ)言規(guī)律,并進(jìn)而對(duì)以往的理論假設(shè)進(jìn)行驗(yàn)證,大大提高了證偽能力。
四、語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的平臺(tái)期
(一)語(yǔ)料庫(kù)標(biāo)注技術(shù)發(fā)展緩慢
語(yǔ)料語(yǔ)言學(xué)從上世紀(jì)60年代開(kāi)始發(fā)展,起初人們只用語(yǔ)料庫(kù)進(jìn)行一些簡(jiǎn)單的分析,如詞頻統(tǒng)計(jì)等,后來(lái)又增加了詞的語(yǔ)法屬性的標(biāo)注,即詞性標(biāo)注。但時(shí)至今日,語(yǔ)料標(biāo)注沒(méi)有實(shí)質(zhì)性突破,實(shí)際有使用價(jià)值的標(biāo)注還只能是詞性標(biāo)注。目前語(yǔ)料庫(kù)已經(jīng)發(fā)展到了基于瀏覽器檢索的第四代,在標(biāo)注和檢索能力等方面也增強(qiáng)不少,但其基本功能仍與第三代相似。除詞性標(biāo)注外,對(duì)語(yǔ)料庫(kù)其它層次的標(biāo)注,如,語(yǔ)音、句法、語(yǔ)義、語(yǔ)用和多模態(tài)語(yǔ)料庫(kù)等的標(biāo)注仍不成熟,因而要想利用語(yǔ)料庫(kù)中的熟語(yǔ)料進(jìn)行更深層次的研究就會(huì)遇到難以克服的障礙。
(二)語(yǔ)料庫(kù)研究層次單一
語(yǔ)料庫(kù)標(biāo)注層次發(fā)展的緩慢制約著語(yǔ)料庫(kù)研究方法的進(jìn)一步發(fā)展。語(yǔ)言研究者利用語(yǔ)料庫(kù)進(jìn)行研究的目的就是為了更深入地挖掘語(yǔ)言的結(jié)構(gòu)與演化規(guī)律,而語(yǔ)料庫(kù)中語(yǔ)音、句法、語(yǔ)義和語(yǔ)用等層次標(biāo)注的不成熟、不完善,就會(huì)使得相關(guān)研究停滯不前。目前絕大多數(shù)的語(yǔ)料庫(kù)研究主要停留在詞匯、句法層次,對(duì)語(yǔ)義等方面的研究尚不夠深入。
(三)與其它學(xué)科的交叉研究尚不成規(guī)模
結(jié)合語(yǔ)料庫(kù)進(jìn)行社會(huì)語(yǔ)言學(xué)、文學(xué)和翻譯學(xué)等方面的研究數(shù)量少、規(guī)模小、影響力也較弱。這可能與各個(gè)學(xué)科屬性的表現(xiàn)形式不同有關(guān),比如,文學(xué)更注重語(yǔ)言的內(nèi)容,而語(yǔ)料庫(kù)語(yǔ)言學(xué)多側(cè)重語(yǔ)言的形式,用語(yǔ)料庫(kù)研究文學(xué)就會(huì)有一定的難度。
(四)語(yǔ)料庫(kù)建庫(kù)方面的問(wèn)題
語(yǔ)料庫(kù)的標(biāo)注和賦碼系統(tǒng)缺乏統(tǒng)一性,沒(méi)有統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),適用性較差。語(yǔ)料庫(kù)工具軟件(賦碼工具、標(biāo)注工具、文本分析工具等)開(kāi)發(fā)滯后與語(yǔ)料庫(kù)的迅猛發(fā)展不相協(xié)調(diào)??诠P語(yǔ)語(yǔ)料庫(kù)發(fā)展不均衡,書(shū)面語(yǔ)語(yǔ)料庫(kù)和口語(yǔ)語(yǔ)料庫(kù)發(fā)展不均衡,相對(duì)于豐富的書(shū)面語(yǔ)語(yǔ)料庫(kù),口語(yǔ)語(yǔ)料庫(kù)的發(fā)展落后很多。大多數(shù)的語(yǔ)料庫(kù)資源難以共享,重復(fù)建設(shè)造成了各種資源的巨大浪費(fèi)。
(五)對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)理論的期待
語(yǔ)料庫(kù)研究以量化描述見(jiàn)長(zhǎng),但若僅僅滿(mǎn)足于量化和描述,就只能成為其它學(xué)科研究的輔助工具,很難有長(zhǎng)遠(yuǎn)的發(fā)展,也不能形成一門(mén)獨(dú)立的學(xué)科。另外,雖然不少人主張語(yǔ)料庫(kù)研究應(yīng)結(jié)合現(xiàn)有的語(yǔ)言學(xué)理論來(lái)闡釋量化數(shù)據(jù),但結(jié)合語(yǔ)料庫(kù)數(shù)據(jù)和現(xiàn)有語(yǔ)言學(xué)理論的成功案例也不多見(jiàn)。
目前,比較遺憾的仍然是語(yǔ)料庫(kù)語(yǔ)言學(xué)研究主要還是應(yīng)用性研究,尚未形成成熟的理論和理論體系,語(yǔ)料庫(kù)對(duì)語(yǔ)言學(xué)理論幾乎沒(méi)有實(shí)質(zhì)性的貢獻(xiàn),語(yǔ)料庫(kù)語(yǔ)言學(xué)理論很值得期待。
五、結(jié)束語(yǔ)
經(jīng)過(guò)幾十年的發(fā)展,語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究豐滿(mǎn)了許多,在相關(guān)領(lǐng)域也已取得了廣泛的應(yīng)用,對(duì)語(yǔ)言的描述和對(duì)語(yǔ)言理論的發(fā)展也有了很大的貢獻(xiàn)。但我們也應(yīng)該看到,語(yǔ)料庫(kù)語(yǔ)言學(xué)研究也出現(xiàn)了一個(gè)平臺(tái)期,在語(yǔ)料標(biāo)注、研究層面、交叉研究、語(yǔ)料庫(kù)資源共享等方面逐漸顯露了一些不足,更為關(guān)鍵的是語(yǔ)料庫(kù)語(yǔ)言學(xué)要有自己的理論建樹(shù),人們對(duì)此也充滿(mǎn)了期待。
[責(zé)任編輯:韓璐]