□李 娟
語料庫驅(qū)動的對外漢語教學(xué)及應(yīng)用研究
□李娟
語料庫驅(qū)動學(xué)習(xí)模式是近年來新興的一種語言學(xué)習(xí)模式。但包含豐富數(shù)據(jù)卻沒有進(jìn)行標(biāo)注和分類的語料庫對學(xué)習(xí)者的幫助是有限的。目前有一些經(jīng)過標(biāo)注及處理的基于語料庫的應(yīng)用平臺及學(xué)習(xí)系統(tǒng),對教師及學(xué)習(xí)者進(jìn)行語言研究與學(xué)習(xí)有很大幫助。例如:與十四億字的LDC Chinese Gigaword語料庫結(jié)合的“中文詞匯特性速描系統(tǒng)”,漢語中介語語料庫及多媒體語料庫。因此,建設(shè)并開發(fā)基于語料庫的、簡單易用并具有針對性的面向漢語教學(xué)與學(xué)習(xí)的教學(xué)資源平臺及應(yīng)用系統(tǒng)是十分必要的。
對外漢語教學(xué)語料庫語料庫驅(qū)動
語料庫是以計(jì)算機(jī)為載體,以真實(shí)出現(xiàn)過的語言材料為基礎(chǔ)資源,經(jīng)過加工(分析和處理)而成的資源庫。語料庫中的語言材料的運(yùn)用近似于運(yùn)用語言本身,具有代表性和真實(shí)性。將語料庫引入二語教學(xué)與學(xué)習(xí)中,為二語教學(xué)及學(xué)習(xí)提供了新的可能。
語料庫驅(qū)動的學(xué)習(xí)模式是近年來新興的一種語言學(xué)習(xí)模式,自20世紀(jì)90年代初Tim Johns提出基于語料庫數(shù)據(jù)的外語學(xué)習(xí)方法——數(shù)據(jù)驅(qū)動學(xué)習(xí)模式(Data-Driven Learning,簡稱DDL)以來,語料庫就與語言教學(xué)有了千絲萬縷的聯(lián)系。這種語言教學(xué)方法引導(dǎo)學(xué)生自己用索引軟件去查詢語料庫中的語料,這些語料均來自本族語者口語或書面語,通過查詢語言使用中的真實(shí)語料,而不是課本中教材編寫者設(shè)計(jì)出的例子,學(xué)習(xí)者可以更真實(shí)地體會到目的語在實(shí)際運(yùn)用時的用法。同時,數(shù)據(jù)驅(qū)動學(xué)習(xí)是一種發(fā)現(xiàn)式、探索式學(xué)習(xí)模式,它以大量真實(shí)的語料庫數(shù)據(jù)為基礎(chǔ),要求語言學(xué)習(xí)者帶著問題,運(yùn)用檢索軟件,在對大量真實(shí)語料觀察和分析的基礎(chǔ)上,由學(xué)生從真實(shí)的語言使用實(shí)例中發(fā)現(xiàn)自己在語言學(xué)習(xí)中所遇到的問題,最終解決問題。
由語料庫驅(qū)動的外語在線自主學(xué)習(xí)模式在外語教學(xué)領(lǐng)域已經(jīng)取得了良好的效果。該模式通過詞匯或語法結(jié)構(gòu)、語料庫和語料庫索引工具提供的語境共現(xiàn)、語料庫的文本展現(xiàn)(部分有音頻或同時有音、視頻)、網(wǎng)絡(luò)互動的有機(jī)結(jié)合為外語學(xué)習(xí)者提供自下而上的語言學(xué)習(xí)環(huán)境,從而促進(jìn)學(xué)習(xí)者對外語的自主和互動學(xué)習(xí)。(梁紅梅,2005)
近年來,出現(xiàn)了語料庫的“教學(xué)加工(Pedagogic Processing of Corpora,PPC)”這一新理念。它是一個將大型語料庫的語料、頻數(shù)結(jié)果乃至語料庫技術(shù)轉(zhuǎn)化為實(shí)現(xiàn)語言教學(xué)目標(biāo)的資源以及教學(xué)手段的加工過程(何安平,2008),該理念主張建設(shè)教學(xué)型語料庫,以將語料庫中的語料、語言調(diào)查結(jié)果乃至檢索技術(shù)轉(zhuǎn)化為日常語言教學(xué)的資源和教學(xué)手段。
如今,大數(shù)據(jù)時代給我們帶來了海量信息,信息量巨大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)中往往隱含著人們意想不到的發(fā)現(xiàn)。在大數(shù)據(jù)時代,建立適合學(xué)習(xí)者的多樣化的語料庫,并將其和網(wǎng)絡(luò)互動技術(shù)的應(yīng)用相結(jié)合,能改變目前單純依靠教材進(jìn)行語言教學(xué)的被動局面,可以解決語言學(xué)習(xí)材料的真實(shí)性和多元化問題,適應(yīng)立體化、網(wǎng)絡(luò)化、個性化語言教學(xué)和學(xué)習(xí)的實(shí)際需求,使對外漢語教學(xué)朝著個性化、不受時間和地點(diǎn)限制、主動式的學(xué)習(xí)方向發(fā)展。如何利用語料庫驅(qū)動模式促進(jìn)對外漢語教學(xué)的發(fā)展,把這種先進(jìn)且功能強(qiáng)大的工具有效地運(yùn)用到對外漢語教學(xué)中,是我們需要繼續(xù)思考的問題。
隨著信息處理技術(shù)的不斷發(fā)展,面向不同目的和用途的不同類型的語料庫應(yīng)運(yùn)而生,它們在語言學(xué)各個層面的理論和應(yīng)用研究、詞典研究及教材編撰等方面發(fā)揮著越來越重要的作用。將語料庫語言學(xué)的研究成果與技術(shù)手段應(yīng)用于語言教學(xué)是現(xiàn)今語言研究中一個令人矚目的新領(lǐng)域。目前建成的有影響力的語料庫有:北京大學(xué)CCL語料庫、國家語委現(xiàn)代漢語語料庫、北京語言大學(xué)BCC語料庫、HSK動態(tài)作文語料庫、國家語言資源監(jiān)測與研究平面媒體語言中心DCC動態(tài)流通語料庫等。但受建庫目的和最終用戶類型等因素的影響,大部分已建成的語料庫也常常只是小群體的語料庫研究者從事語言研究的工具,目前只有少部分語料庫直接應(yīng)用于語言教學(xué)。
這些語料庫包含豐富的數(shù)據(jù),但沒有進(jìn)行細(xì)顆粒標(biāo)注和分類的語料庫對學(xué)習(xí)者的幫助是有限的。如在對外漢語教學(xué)中,學(xué)習(xí)者對“或者/還是”這對詞往往分辨不清楚,而語料庫中有大量的真實(shí)語料,我們可否利用語料庫讓學(xué)生在語料中總結(jié)出它們的用法呢?通過檢索,在“北大CCL語料庫”中,“還是”共有134133條結(jié)果,“或者”共有68486條結(jié)果;在“北語BCC現(xiàn)代漢語語料庫”中,“還是”共270255條結(jié)果,“或者”共72288條結(jié)果;在“語料庫在線”中,共查詢到2229條符合“或者”要求的例句,5720條符合“還是”要求的例句。盡管有如此多的例句,但仍不能說它們窮盡了“或者/還是”這對詞的所有用法。由于對這些例句沒有分類標(biāo)注,如果要總結(jié)出它們的用法,還需要人工進(jìn)行標(biāo)注,工程量巨大。所以,大型通用的語料庫并不能直接用于語言教學(xué),必須進(jìn)行一些處理,或基于語料庫開發(fā)出簡單、實(shí)用、具用戶友好性的應(yīng)用系統(tǒng)或?qū)W習(xí)平臺。
傳統(tǒng)的精讀教學(xué)始終難以擺脫“以教師為中心”的教學(xué)理念的束縛,學(xué)生長期處于被動接受的位置,導(dǎo)致其學(xué)習(xí)積極性不高,發(fā)現(xiàn)、探索、歸納和創(chuàng)新的能力也無法得到培養(yǎng)。研究發(fā)現(xiàn),學(xué)習(xí)者注意并處理足量真實(shí)語例的時候,更有可能取得良好的語言學(xué)習(xí)效果。因此,在針對自主學(xué)習(xí)、真實(shí)語言輸入、自我探索和發(fā)現(xiàn)的語料庫驅(qū)動的學(xué)習(xí)模式引導(dǎo)下,學(xué)習(xí)者可以更有效地獲取語言知識。雖然語料庫驅(qū)動模式對對外漢語教學(xué)有多方面的幫助,但目前我國能夠直接用于對外漢語教學(xué)、可以共享的高質(zhì)量語料庫少之又少,大型通用的語料庫內(nèi)容通常不能與對外漢語教學(xué)直接接軌,為了更好地將語料庫運(yùn)用于對外漢語教學(xué)中,服務(wù)于對外漢語教學(xué)的語料庫及應(yīng)用平臺亟待開發(fā)。
(一)應(yīng)用系統(tǒng)開發(fā)
在語言教學(xué)中,詞匯教學(xué)是教學(xué)中的重點(diǎn),詞語搭配是詞匯教學(xué)的重中之重。同時,在語料庫語言學(xué)中,從20世紀(jì)60年代Sinclair團(tuán)隊(duì)的OSTI Report,到COBUILD英語詞典,再到Pattern Grammar和短語學(xué)的興起,“詞語搭配”始終是語料庫語言學(xué)關(guān)注的焦點(diǎn),是研究詞匯意義最重要的方法之一。
目前,基于語料庫的詞語搭配研究應(yīng)用系統(tǒng)開發(fā)得比較成功,臺灣中央研究院的“中文詞匯特性速描系統(tǒng)”有很大的借鑒意義。中文詞匯特性速描系統(tǒng)除了提供一般的關(guān)鍵詞及語境查詢外,還提供了詞匯特性速描(word sketches)、語法關(guān)系以及同近義詞分析等自動產(chǎn)生的語法知識。中文詞匯特性速描系統(tǒng)與十四億字的LDC Chinese Gigaword語料庫結(jié)合后,提供了絕大部分中文詞匯實(shí)際使用的規(guī)則性描述,可應(yīng)用于詞典編纂、華語教學(xué)、語言學(xué)研究與自然語言處理。
中文詞匯特性速描系統(tǒng)的開發(fā)至少在以下方面取得了突破:1.搭配的辨識和自動發(fā)現(xiàn)。只要在系統(tǒng)中輸入如“方便/便利”這樣的詞對,素描系統(tǒng)就會呈現(xiàn)經(jīng)常和“方便/便利”搭配的詞語,如交通、生活、條件等。2.搭配研究成果的可視化表達(dá)。用表格方式分兩列呈現(xiàn)不同詞語的不同搭配,還設(shè)-21、-14、-7、0、7、14、21七個數(shù)字,顯示不同詞語的搭配距離。中文詞匯特性速描系統(tǒng)將詞語搭配自動化、可視化、形式化,可以直觀呈現(xiàn)詞語之間的差異,為對外漢語教學(xué)中的難點(diǎn)之一——詞匯辨析,提供了清晰、直觀的參考,同時也可以為老師及學(xué)生提供便捷的查詢渠道。如圖1、圖2、圖3所示。
圖2:“方便”的搭配示例
圖3:“便利”的搭配示例
(二)漢語中介語語料庫的應(yīng)用
中介語語料庫對于語言研究及語言教學(xué)都具有重大意義。在語言教學(xué)中,中介語語料庫可以為教師提供真實(shí)的中介語語料,根據(jù)這些語料可以對漢語中介語語料庫中的漢字偏誤、詞語運(yùn)用偏誤進(jìn)行處理,對癥下藥,更有針對性地解決學(xué)習(xí)者的問題。同時,語料庫也可間接用于對外漢語教學(xué):如外向型學(xué)習(xí)詞典的編纂研究、漢語教材的開發(fā)和語言水平測試與檢測等,使對外漢語教學(xué)更有針對性。
北京語言大學(xué)HSK動態(tài)作文語料庫、中山大學(xué)漢字偏誤連續(xù)性中介語語料庫、臺灣師范大學(xué)漢語學(xué)習(xí)者漢字偏誤數(shù)據(jù)資料庫、暨南大學(xué)華文學(xué)院中介語語料庫,是目前公開且有代表性的幾個中介語語料庫。
北京語言大學(xué)HSK動態(tài)作文語料庫從1992~2005年的2萬多份留學(xué)生作文試卷中選取了11569篇,約400萬字的語料。中山大學(xué)中介語語料庫收錄了2003年以來留學(xué)生的字句練習(xí)和作文等資料,總共200多萬字。臺灣師范大學(xué)漢字偏誤庫的語料來自臺灣師范大學(xué)國語中心(MTC)、臺灣大學(xué)國際華語研習(xí)所(ICLP)、臺灣大學(xué)文學(xué)院語言中心中文組(CLD),收錄了德語、法語、英語等15種母語背景學(xué)生的漢字偏誤,分初、中、高三級,共計(jì)2536個偏誤漢字。暨南大學(xué)華文學(xué)院中介語語料庫收錄了外國留學(xué)生、海外函授生、來華受訓(xùn)的海外華文教師平時的作文、日記、考試作文,語料約340萬字。
中介語語料庫的建設(shè)是對外漢語教學(xué)研究的重要內(nèi)容。留學(xué)生的各種語言錯誤,尤其是偏誤信息,可以為研究者提供可靠的統(tǒng)計(jì)數(shù)據(jù),可用于留學(xué)生漢語習(xí)得分析、語言教學(xué)研究。如近年來詞匯教學(xué)中的易混淆詞研究,必須依賴于中介語語料庫的偏誤數(shù)據(jù),了解學(xué)生究竟容易混淆哪些詞,易混點(diǎn)在哪里,而不是想當(dāng)然地按照中國人學(xué)漢語的模式來判定學(xué)習(xí)者的混淆點(diǎn)。
(三)多媒體語料庫的應(yīng)用
21世紀(jì)不僅是信息時代、大數(shù)據(jù)時代,也是多媒體時代。多媒體不僅以文字為載體,還綜合了聲音、圖像、視頻等記錄方式,多媒體的語言記錄打開了語言教學(xué)的另一扇窗戶——用于語言教學(xué)的多媒體語料庫,語言教學(xué)也已進(jìn)入了“多媒體”時代。
“多媒體語料庫”這一提法由來已久,但目前學(xué)界對其還沒有形成一個統(tǒng)一的定義,國內(nèi)外系統(tǒng)論述多媒體語料庫的文獻(xiàn)尚不多見。多媒體語料庫作為一種輔助性工具應(yīng)用于語言教學(xué),是一個新興的研究領(lǐng)域。梁紅梅等學(xué)者認(rèn)為,“把語料庫索引與文本、音頻、視頻有機(jī)地結(jié)合起來,建立多功能的多媒體語料庫更能滿足我國大學(xué)英語學(xué)習(xí)者的實(shí)際需求”。多媒體語料庫將多媒體技術(shù)與語料庫模式結(jié)合起來,在教學(xué)中取長補(bǔ)短,相得益彰。白皞《多媒體語料庫應(yīng)用于視聽說教學(xué)的學(xué)習(xí)風(fēng)格差異研究》證明了:將多媒體語料庫應(yīng)用于視聽說課堂能有效提高學(xué)生聽力、口語能力。
學(xué)習(xí)者利用多媒體語料庫輔助學(xué)習(xí)時,不僅能學(xué)習(xí)到語言知識,還能聽到或者看到與索引分析相關(guān)聯(lián)的音視頻資料,以更直觀的形式體驗(yàn)語言使用的真實(shí)場景和文化背景。語料庫與多媒體技術(shù)的結(jié)合,能給數(shù)據(jù)驅(qū)動學(xué)習(xí)帶來新的生機(jī)。但是目前,國內(nèi)的研究大都是基于純文本語料庫進(jìn)行索引分析來輔助二語教學(xué),語料庫和多媒體教學(xué)手段在理念上和應(yīng)用中的結(jié)合都較為簡單,其在二語教學(xué)中的優(yōu)勢也未能得到充分的體現(xiàn)。
運(yùn)用多媒體語料庫進(jìn)行對外漢語教學(xué),除了學(xué)習(xí)者的提問、歸納、總結(jié)及分析語料的主觀能力外,教學(xué)的效果關(guān)鍵取決于語料及索引工具的選取。因此,多媒體語料庫驅(qū)動學(xué)習(xí)模式的核心就在于多媒體語料庫的建設(shè)和在其基礎(chǔ)上的學(xué)習(xí)平臺的開發(fā)。
從20世紀(jì)末的數(shù)據(jù)驅(qū)動式語言學(xué)習(xí)(DDL)到本世紀(jì)初的語料庫教學(xué)加工理念(PPC),語料庫的發(fā)展體現(xiàn)了語料庫語言學(xué)與二語教學(xué)交叉領(lǐng)域的拓展與更新。以語料庫為驅(qū)動的方法在語言教學(xué)領(lǐng)域己經(jīng)取得了一定的成效。但是,有研究表明,以語料庫為驅(qū)動的學(xué)習(xí)材料只有在它適合學(xué)生的學(xué)習(xí)水平以及經(jīng)驗(yàn)的時候才會產(chǎn)生效果。所以,包含豐富數(shù)據(jù)但沒有進(jìn)行標(biāo)注和分類的語料庫對學(xué)習(xí)者的幫助是有限的。因此,建設(shè)基于語料庫的、簡單易用的并且具有針對性的面向漢語學(xué)習(xí)的教學(xué)資源平臺是十分必要的。具體而言,一、建設(shè)專門的教學(xué)語料庫,利用語料庫進(jìn)行語言教學(xué)、教師教育和語言教學(xué)資源庫建設(shè);二、建設(shè)標(biāo)注科學(xué),數(shù)據(jù)統(tǒng)計(jì)完備、平衡的中介語語料庫;三、繼續(xù)開發(fā)包含綜合型教學(xué)資源的多媒體語料庫,建立在線網(wǎng)絡(luò)學(xué)習(xí)平臺,重視媒體語料的分類存儲等。
(本文承國家語委“十二五”科研規(guī)劃項(xiàng)目“語言資源建設(shè)規(guī)劃研究”[項(xiàng)目編號:YB125-124]資助。)
[1]白皞.多媒體語料庫應(yīng)用于視聽說教學(xué)的學(xué)習(xí)風(fēng)格差異研究[D].新鄉(xiāng):河南師范大學(xué)碩士學(xué)位論文,2012.
[2]洪嘉馡,黃居仁,許銘維.以中文十億詞語料庫為基礎(chǔ)之兩岸詞匯對比研究[J].中文計(jì)算語言學(xué)期刊(臺灣),2013,(2).
[3]洪嘉馡,柯淑津,黃居仁等.詞義預(yù)測研究:以語料庫驅(qū)動的研究方法[A].中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C].2009.
[4]何安平.語料庫的“教學(xué)加工”發(fā)展綜述[J].中國外語,2010,(4):47-52.
[5]何安平.語料庫如何走進(jìn)課堂教學(xué)——原則和方法探究[J].中國外語教育,2008,(4).
[6]焦彬凱.基于多媒體語料庫的數(shù)據(jù)驅(qū)動學(xué)習(xí)模式研究[J].中國電化教育,2010,(4):71-74.
[7]李文中.語料庫、學(xué)習(xí)者語料庫與外語教學(xué)[J].外語界,1999,(1):51-55.
[8]李文中.平臺化語料庫開發(fā)環(huán)境[A].第十二屆中國當(dāng)代語言學(xué)研討會論文集[C].武漢,2008.
[9]梁紅梅,尹曉霞,李宇莊等.語料庫驅(qū)動下的外語在線自主學(xué)習(xí)模式[J].外語電化教學(xué),2005,(6):29-32.
[10]梁紅梅,何安平.語料庫的“教學(xué)加工”與教材編寫[J].當(dāng)代外語研究,2012,(10):35-39.
[11]吳進(jìn)善.基于多媒體語料庫的數(shù)據(jù)驅(qū)動學(xué)習(xí)模式研究[J].當(dāng)代外語研究,2010,(6):44-47.
[12]莊智象,黃衛(wèi),王樂.我國多媒體外語教學(xué)的現(xiàn)狀與展望[J].外語電化教學(xué),2007,(1):20-27.
(李娟北京師范大學(xué)中文信息處理研究所100875)