張 惠
(武漢軟件工程職業(yè)學(xué)院,湖北 武漢 430205)
寫作是職場(chǎng)中的重要工作,書信、通知、電子郵件等應(yīng)用文是現(xiàn)代職場(chǎng)中常見的書面溝通形式。一方面,作為重要的語言輸出能力,英語應(yīng)用文寫作能力是高職生在校期間重點(diǎn)培養(yǎng)的諸項(xiàng)能力之一;另一方面,受漢語環(huán)境的影響,中國學(xué)生的整體英語寫作情況并不樂觀,就高職生群體來講,其英語水平相較偏低,他們寫出的英語應(yīng)用文質(zhì)量總體堪憂,引人思索解決之道。
語料庫語言學(xué)為高職英語應(yīng)用文寫作教學(xué)提供了一種思路。在某種意義上,語料庫語言學(xué)是一種研究方法,此方法借助計(jì)算機(jī)來實(shí)現(xiàn)。它以大量精心采集而來的真實(shí)文本為研究素材,主要通過概率統(tǒng)計(jì)的方法得出結(jié)論,其本質(zhì)是實(shí)證性的。外語學(xué)習(xí)者語料庫根據(jù)Granger所指,是“根據(jù)明確的設(shè)計(jì)標(biāo)準(zhǔn),為了某種二語習(xí)得或外語教學(xué)的目的,以電子形式收集的真實(shí)二語或外語文本數(shù)據(jù)庫”,它為重建學(xué)習(xí)者的輸出提供大量可靠的數(shù)據(jù),使實(shí)證分析了解學(xué)習(xí)者語言的運(yùn)用成為可能,可使英語教學(xué)的針對(duì)性和實(shí)效性更強(qiáng),為語言習(xí)得研究和外語教學(xué)研究提供巨大的潛力。
為了給高職生英語應(yīng)用文寫作習(xí)得研究和相關(guān)教學(xué)研究提供真實(shí)可靠的數(shù)據(jù),建設(shè)這類學(xué)習(xí)者語料庫是有必要的。根據(jù)筆者所了解的信息,目前中國大陸影響較大的英語學(xué)習(xí)者書面語語料庫有桂詩春、楊慧中主持建設(shè)的《中國學(xué)習(xí)者英語語料庫(CLEC)》和南京大學(xué)建設(shè)的《中國學(xué)生英語口筆語語料庫(SWECCL)》,前者的語料采自高中到大學(xué)各年級(jí)各專業(yè)的試卷作文和自由作文,后者的書面語語料采集高校英語專業(yè)1-4年級(jí)的課堂限時(shí)和課外非限時(shí)作文,兩者的語料文體主要為議論文、記敘文和說明文。另外,知名學(xué)者許家金團(tuán)隊(duì)創(chuàng)建于2015年的《中國學(xué)生萬篇英語作文語料庫(V1.1)(TECCL)》中的作文涵蓋大學(xué)、中學(xué)、小學(xué)三個(gè)學(xué)段,其中以大學(xué)為最多,但主要也是本科類院校的語料樣本,語料文體同樣主要是議論文、記敘文和說明文。因此,還沒有針對(duì)中國高職生群體,且語料為英語應(yīng)用文文體的中國英語學(xué)習(xí)者語料庫可以獲取。鑒于此,筆者及其團(tuán)隊(duì)設(shè)計(jì)和建設(shè)了一個(gè)高職生英語應(yīng)用文寫作語料庫,英文名全稱為Vocational College Students'Practical English Writings Corpus,縮寫為 VCSPEWC。
基于本研究中的語料庫開發(fā)目的是針對(duì)高職生的英語應(yīng)用文寫作教學(xué)與研究,學(xué)習(xí)者集中為高職一年級(jí)非英語專業(yè)學(xué)生,所以語料主要采集他們所寫的不同主題的應(yīng)用文,有詢問信、通知、求職信、邀請(qǐng)信和電子郵件,并分別命名為 pw1、pw2、pw3、pw4 和 pw5。為了避免抄襲,采取課堂指定題目并限時(shí)25分鐘寫作的形式進(jìn)行采集,允許學(xué)生使用紙質(zhì)詞典,不能使用智能手機(jī)。因?yàn)榭陀^條件的限制,該語料庫在規(guī)模上設(shè)計(jì)得比較小,約15000詞,作文數(shù)量共計(jì)不少于200篇。表1為該語料庫的語料分布情況:
表1 VCSPEWC的語料分布
VCSPEWC語料樣本來源于學(xué)習(xí)者的手寫文字,需要筆者及其團(tuán)隊(duì)收集紙質(zhì)作文后,分工進(jìn)行人工輸入,在輸入前,團(tuán)隊(duì)進(jìn)行了輸入工作培訓(xùn),統(tǒng)一了輸入標(biāo)準(zhǔn),輸入后由專人進(jìn)行了校對(duì)。語料處理程序借鑒了CLEC語料庫的樣本處理程序,但略有不同。具體如下:
a.選好樣本:首先將作文題目印制成試卷形式,然后,將不同的寫作任務(wù)指定給專人在一定的時(shí)間周期內(nèi)組織學(xué)生完成,最后將學(xué)生完成的試卷在指定的時(shí)間上交給總負(fù)責(zé)人對(duì)其進(jìn)行分類、編號(hào)和復(fù)印存檔。
b.輸入樣本。
c.校對(duì)。
d.確定失誤類型和標(biāo)注碼。
e.根據(jù)失誤分類表對(duì)言語失誤和格式失誤進(jìn)行標(biāo)注。
f.指定專人對(duì)標(biāo)注進(jìn)行核查。
g.選定語料庫處理工具。
h.利用工具對(duì)言語失誤進(jìn)行統(tǒng)計(jì)分析。
對(duì)VCSPEWC中的語料進(jìn)行失誤標(biāo)注是建設(shè)該語料庫的初衷,也是其主要特點(diǎn)。在參考了CLEC語料庫的言語失誤分類方法后,筆者及其團(tuán)隊(duì)將VCSPEWC中的語料失誤分為兩大類:言語失誤和格式失誤。
對(duì)于言語失誤,直接借用CLEC語料庫的失誤分類體系,采取兩級(jí)分類:第一級(jí)包括11類(詞形、動(dòng)詞短語、名詞短語、代詞、形容詞短語、副詞、介詞短語、連詞、詞匯、搭配、句法),第二級(jí)為第一級(jí)11類的細(xì)分,細(xì)分后同一大類下的小類用阿拉伯?dāng)?shù)字標(biāo)識(shí)以示不同。如[fm]為詞形類失誤,細(xì)分后,[fm1]表示拼寫失誤,包括字母拼寫錯(cuò)誤、學(xué)生自造詞錯(cuò)誤、縮寫錯(cuò)誤、省略符號(hào)使用錯(cuò)誤;[fm2]表示構(gòu)詞失誤,包括詞語派生的錯(cuò)誤、屈折變化的錯(cuò)誤、復(fù)合詞錯(cuò)誤、名詞復(fù)數(shù)變化錯(cuò)誤、動(dòng)詞不規(guī)則變化錯(cuò)誤、第三人稱謂語動(dòng)詞單數(shù)形式錯(cuò)誤、音節(jié)劃分錯(cuò)誤、斷字錯(cuò)誤、字的分解和融合錯(cuò)誤;[fm3]表示字母大小寫失誤。CLEC語料庫中言語失誤分類表的確定辦法是對(duì)常見的失誤從細(xì),對(duì)少見的失誤從粗,共有61個(gè)失誤碼。
對(duì)于格式失誤,由于CLEC語料庫沒有此類失誤標(biāo)注,因此筆者及其團(tuán)隊(duì)為了保持VCSPEWC語料庫整套失誤標(biāo)注體系的完整和統(tǒng)一性,依據(jù)兩級(jí)分類標(biāo)準(zhǔn),在研究討論的基礎(chǔ)上,編制了格式失誤分類表,格式失誤這一類的賦碼確定為[ft],細(xì)分為8個(gè)小類,依次用阿拉伯?dāng)?shù)字1-8標(biāo)識(shí),即[ft1]-[ft8]。
因此,VCSPEWC語料庫的整套失誤分類確定為12大類69小類,表2列出其中的“格式”類失誤表。
表2 VCSPEWC“格式”類失誤表
語料庫建好后,需要相應(yīng)的處理工具才能發(fā)揮作用。語料庫語言學(xué)從20世紀(jì)60年代至今的迅速發(fā)展,在很大程度上得益于計(jì)算機(jī)技術(shù)的進(jìn)步和支持。在語料庫語言學(xué)的發(fā)展中,很多工具和軟件的開發(fā)起著至關(guān)重要的作用。WordSmith是當(dāng)今語料庫語言學(xué)中公認(rèn)的權(quán)威工具之一。它由英國利物浦大學(xué)開發(fā),牛津大學(xué)出版社出版。然而盡管它功能強(qiáng)大,但它是一種商業(yè)軟件,而且在某種程度上代價(jià)高昂。日本學(xué)者Laurence Anthony開發(fā)了一款免費(fèi)的檢索軟件AntConc,其界面和操作簡(jiǎn)單方便。它的版本不斷更新,基本上實(shí)現(xiàn)了WordSmith的所有功能,用戶可以在http://www.laurenceanthony.net/software下載后直接使用。它包含了許多工具,包括索引(Concordance)、索引定位(Concordance Plot)、文件查看(File View)、詞叢(Clusters)、N元模式(部分詞叢)(N-Grams(part of Clusters))、搭配(Collocates)、單詞列表(WordList)和關(guān)鍵字列表(KeywordList),可以滿足本研究的需求。本研究使用的是目前最新的AntConc3.5.7版本。
為了了解高職生英語應(yīng)用文中的失誤情況,本研究通過前文介紹的AntConc軟件的“索引”工具進(jìn)行了統(tǒng)計(jì),具體步驟如下:
a.雙擊運(yùn)行AntConc3.5.7,選擇界面上的“索引(Concordance)”工具;
b.依次選擇“文件(File)”菜單、“打開文件(Open File(s))”選項(xiàng),打開VCSPEWC語料庫的txt文件;
c.在界面上的搜索框內(nèi)輸入失誤碼(如“fm1”);其他選項(xiàng)選擇默認(rèn)設(shè)置;
d.點(diǎn)擊“開始(Start)”按鈕,軟件開始自動(dòng)檢索并在主窗口內(nèi)顯示失誤碼所對(duì)應(yīng)的檢索行;
e.失誤碼對(duì)應(yīng)的檢索行全部顯示完畢后,主窗口上端會(huì)顯示一個(gè)總的頻數(shù)(Concordance Hits),見圖 1。
通過檢索,得出高職生英語應(yīng)用文寫作中出現(xiàn)的12大類69小類失誤的頻數(shù),通過比較這些數(shù)據(jù),發(fā)現(xiàn)頻數(shù)最高的前十位失誤類別由高到低依次是:fm3字母大小寫錯(cuò)誤、fm1拼寫錯(cuò)誤、fm2構(gòu)詞錯(cuò)誤、sn9標(biāo)點(diǎn)符號(hào)錯(cuò)誤/標(biāo)點(diǎn)法錯(cuò)誤、wd3選詞不對(duì)(詞性正確,但不應(yīng)選擇用該詞)、sn8句子的語法結(jié)構(gòu)錯(cuò)誤、ft4日期錯(cuò)誤(形式錯(cuò)誤、缺失、位置錯(cuò)誤)、np6名詞“數(shù)”的錯(cuò)誤、ft7落款錯(cuò)誤、wd5單詞的冗余,具體頻數(shù)可見表3。對(duì)它們做進(jìn)一步歸類分析發(fā)現(xiàn),高職學(xué)生在詞形、詞語使用、句子結(jié)構(gòu)和應(yīng)用文格式這四個(gè)方面的問題最為突出,而其中的詞形和應(yīng)用文格式是基本的英語語言學(xué)習(xí)內(nèi)容,也是比較容易掌握的,但失誤比例卻依然很高,說明高職英語應(yīng)用文寫作教學(xué)仍然要重基礎(chǔ)。高職學(xué)生擅長(zhǎng)圖式思維和實(shí)例思維,將學(xué)生自己的作文實(shí)例放到他們面前,使他們對(duì)失誤的印象更深,降低今后再次犯錯(cuò)的可能性。
表3 VCSPEWC失誤頻數(shù)前十位列表
提高高職英語應(yīng)用文寫作的教學(xué)質(zhì)量,首先必須了解教學(xué)對(duì)象,了解高職生在語言使用中的各種言語失誤,并且找出產(chǎn)生這些言語失誤的原因,以便改進(jìn)教學(xué),幫助學(xué)生掌握規(guī)范的、地道的英語。筆者及其團(tuán)隊(duì)設(shè)計(jì)建設(shè)了《高職生英語應(yīng)用文寫作語料庫(VCSPEWC)》,對(duì)語料進(jìn)行了失誤標(biāo)注,為研究高職生學(xué)習(xí)英語的中間語提供了科學(xué)的依據(jù)。另外,利用先進(jìn)的檢索軟件對(duì)語料庫進(jìn)行檢索,初步掌握了高職生在英語應(yīng)用寫作方面發(fā)生失誤的情況,如學(xué)生英語應(yīng)用文寫作中出現(xiàn)的12大類69小類失誤頻數(shù),高頻失誤類型是哪些,針對(duì)這類型失誤應(yīng)設(shè)置怎樣的教學(xué)重點(diǎn)等,對(duì)高職英語應(yīng)用文寫作教學(xué)是一大支撐。