劉英蘋(大連民族學(xué)院 外國(guó)語(yǔ)言文化學(xué)院,遼寧 大連 116600)
基礎(chǔ)英語(yǔ)語(yǔ)料庫(kù)中的詞匯篇際詞匯重復(fù)率
劉英蘋
(大連民族學(xué)院 外國(guó)語(yǔ)言文化學(xué)院,遼寧 大連 116600)
文章以基礎(chǔ)英語(yǔ)教材語(yǔ)料庫(kù)為基礎(chǔ),在大量的統(tǒng)計(jì)計(jì)算和程序運(yùn)行的支持下,著重研究了英語(yǔ)專業(yè)基礎(chǔ)英語(yǔ)語(yǔ)料庫(kù)中的篇際詞匯重復(fù)率及其分布的特點(diǎn),并分析了其對(duì)基礎(chǔ)英語(yǔ)詞匯教學(xué)及學(xué)習(xí)的影響。
語(yǔ)篇詞匯量輸入;篇際詞匯重復(fù)率;基礎(chǔ)英語(yǔ)語(yǔ)料庫(kù)
詞匯是語(yǔ)言交際的基礎(chǔ),是語(yǔ)言習(xí)得的根本所在。研究表明,在英語(yǔ)學(xué)習(xí)過(guò)程中,學(xué)習(xí)者所遇到的困難有很大程度上是跟詞匯相關(guān)的,正如Nation (1990)指出的那樣,“語(yǔ)言學(xué)習(xí)者感到,學(xué)習(xí)者接受和使用語(yǔ)言的困難源自于他們的詞匯量不夠”。然而,Nation和Waring (1997) 的研究卻表明,2000-3000個(gè)詞匯就足夠讓外語(yǔ)學(xué)習(xí)者說(shuō)和寫了。那么就我國(guó)的大學(xué)英語(yǔ)教學(xué)大綱而言,當(dāng)學(xué)生完成了300個(gè)小時(shí)的英語(yǔ)學(xué)習(xí)后,他們的詞匯量應(yīng)該從高中時(shí)期的2000個(gè)增長(zhǎng)到4200個(gè),而英語(yǔ)專業(yè)的學(xué)生應(yīng)該達(dá)到10000-20000個(gè)。
近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)于詞匯輸入頻率和詞匯習(xí)得的關(guān)系作出了一系列的研究。心理語(yǔ)言學(xué)家就詞匯輸入頻率在詞匯習(xí)得中的作用的研究表明,學(xué)習(xí)者習(xí)得語(yǔ)言的先后順序取決于該語(yǔ)言成分在輸入中出現(xiàn)的頻率高低(Waner-Gough & Hatch 1975:302), 語(yǔ)言知識(shí)只有被學(xué)習(xí)者消化吸收才能進(jìn)入大腦長(zhǎng)期記憶,才能起到催化語(yǔ)言語(yǔ)言習(xí)得的作用,而能被吸收的語(yǔ)言知識(shí)在語(yǔ)言輸入中必須有足夠的復(fù)現(xiàn)率和突顯性 (Delosh & McDaniel 1996: 1140; Van Pattern 1996:54)。研究者同時(shí)指出,詞頻是一種暫時(shí)的,也是一種動(dòng)態(tài)的狀態(tài),一個(gè)低頻詞經(jīng)過(guò)適當(dāng)?shù)闹貜?fù)也會(huì)產(chǎn)生高頻詞的效應(yīng)。因此,重復(fù)對(duì)促進(jìn)低頻詞向高頻詞的過(guò)渡作用很大。
篇際詞匯重復(fù)率指同一詞匯在不同篇章里重復(fù)率。它是影響英語(yǔ)詞匯習(xí)得的一個(gè)重要因素,它直接影響到詞匯及其語(yǔ)法、句法、語(yǔ)義、語(yǔ)法的習(xí)得程度。適當(dāng)?shù)钠H詞匯重復(fù)率可以促進(jìn)詞匯習(xí)得,而與此同時(shí),如果詞匯的篇際重復(fù)率不能達(dá)到一定數(shù)量,它就將成為詞匯習(xí)得過(guò)程中的一大障礙。因此,保證篇際復(fù)率就成為英語(yǔ)學(xué)習(xí)者和教學(xué)者在詞匯習(xí)得和教學(xué)中必須重視而又往往忽視的重要一個(gè)因素。經(jīng)實(shí)驗(yàn)研究表明,文章中只出現(xiàn)一次的詞被學(xué)習(xí)者記住的概率低于0.15(Herman et al 1987;Kachroo 1962; Saragi et al. 1978)。據(jù)此,Rott(1999:592)認(rèn)為,一個(gè)單詞在文章重出現(xiàn)6次就足以被學(xué)習(xí)者記住,而Nation (1990)提出,要想長(zhǎng)期記憶一個(gè)單詞,同一個(gè)單詞需要在不同的篇章內(nèi)重復(fù)5-15次。
詞匯輸入頻率即重復(fù)率的重要性也引起了國(guó)內(nèi)研究者的注意,關(guān)于篇際詞匯重復(fù)率的研究也給詞匯習(xí)得和教學(xué)帶來(lái)了新的思路和方法。然而,如何在教材編寫重科學(xué)體現(xiàn)詞匯的重復(fù)率,至今尚未得到有效的解決。究其原因,主要是以往的研究大都是定性研究,缺乏數(shù)據(jù)的支持,因而沒(méi)有起到太大的現(xiàn)實(shí)意義。本研究采用定量和定性相結(jié)合的方式,采用計(jì)量語(yǔ)言學(xué)的方法,以大量的語(yǔ)料為依據(jù)來(lái)對(duì)基礎(chǔ)英語(yǔ)語(yǔ)料庫(kù)中的詞匯輸入頻率進(jìn)行研究。
(一)研究問(wèn)題
文章以上海外語(yǔ)教育出版社出版的英語(yǔ)專業(yè)基礎(chǔ)英語(yǔ)教材《綜合英語(yǔ)》一冊(cè)到四冊(cè)為基礎(chǔ)形成的基礎(chǔ)英語(yǔ)教材語(yǔ)料庫(kù)(JYJCC)為研究對(duì)象,以計(jì)算機(jī)輔助的語(yǔ)料自動(dòng)分析和數(shù)理統(tǒng)計(jì)為主要手段,得出以下結(jié)論:(1)語(yǔ)料庫(kù)中重復(fù)一次的詞匯 (Hapax legomena)即篇際詞匯重復(fù)率為零的單詞的分布特征。(2)篇際詞匯重復(fù)率為5-15次的單詞的分布特征。(3)語(yǔ)料庫(kù)重任意兩篇語(yǔ)篇的詞匯重復(fù)率。(4)多次重復(fù)詞匯的統(tǒng)計(jì)和構(gòu)成分析。
(二)研究手段
文章研究所基于的語(yǔ)料全部取自第一手英文資料,一律保持原文的風(fēng)貌。內(nèi)容廣泛,涉及戰(zhàn)爭(zhēng)與和平科技與倫理、競(jìng)爭(zhēng)與合作、人類與自然、愛(ài)情與友誼等課題,總單詞量為126 817。JYJCC的內(nèi)容量較大,超過(guò)了10萬(wàn)字,因此具有總體的統(tǒng)計(jì)特征。JYJCC 是以四冊(cè)《綜合英語(yǔ)》教材為內(nèi)容,語(yǔ)篇長(zhǎng)度大約在450-2000字之間。我們將語(yǔ)料庫(kù)根據(jù)字?jǐn)?shù)分成四個(gè)子語(yǔ)料庫(kù):
表1.MEEC 數(shù)據(jù)
(一)基礎(chǔ)英語(yǔ)語(yǔ)篇詞匯量分布
表2. MEEC詞匯數(shù)據(jù)
圖1 為MEEC4個(gè)子語(yǔ)料庫(kù)的詞匯量分布直方圖。我們可以看出,曲線大體上成正態(tài)分布。由于每個(gè)子語(yǔ)料庫(kù)的抽樣數(shù)量足夠大,而且詞匯量為正態(tài)分布曲線,因此下面的公式可用來(lái)推斷基礎(chǔ)英語(yǔ)語(yǔ)篇詞匯量95%的可能范圍:
P = M ± t0.025*S
在本公式中,P為語(yǔ)篇詞匯量,M為平均值,t0.025是常量,為1.96,而S指標(biāo)準(zhǔn)差。
這樣可以得知,長(zhǎng)度在 400-2000單詞之間任意一基礎(chǔ)英語(yǔ)語(yǔ)篇詞匯量 95%的區(qū)間估計(jì)為:MEEC1:276.92±39.453×1.96=199-354 。 MEEC2:334.44±40.393×1.96=255-414 。 MEEC3:463.69±49.023×1.96=395-560 。 MEEC4:461.25±48.928×1.96=365-559
(二)基礎(chǔ)英語(yǔ) Hapax 的分布
每個(gè)子語(yǔ)料庫(kù)中都有很大一部分單詞只出現(xiàn)一次,沒(méi)有在任何另外一個(gè)語(yǔ)篇里出現(xiàn),也就是說(shuō)他們的篇際詞匯重復(fù)率是零。我們叫這些單詞為 Hapax (篇際詞匯重復(fù)率為零的詞)。根據(jù)對(duì)各個(gè)子語(yǔ)料庫(kù)中 Hapax分布的規(guī)律研究不難發(fā)現(xiàn)當(dāng)累積token 數(shù)增加時(shí),Hapax 所占的比例逐漸減少,但仍然占很大的一個(gè)比率。當(dāng)累積token數(shù)為20000時(shí),1-4子語(yǔ)料庫(kù)中的Hapax的比率分別為總詞匯量的42.17%,40.25%,41.63%和41.19%。當(dāng)累積token數(shù)為50000時(shí),Hapax的比率分別為總詞匯量的41.58%,8.83%,42.40% 和39.22%;當(dāng)累積token數(shù)為60,000時(shí),1-4子語(yǔ)料庫(kù)中的Hapax的比率分別為總詞匯量的41.18%,38.18%,41.77%,和 39.43%; 而當(dāng)累積token數(shù)為75,000時(shí),這個(gè)比率分別是40.67%, 37.78%,41.92%
和39.14%。
表3 .Hapax 在各個(gè)子語(yǔ)料庫(kù)中的整體分布
(三)任意兩篇語(yǔ)篇的詞匯重復(fù)率
在每個(gè)子語(yǔ)料庫(kù)中,我們隨機(jī)抽取 n/2(n=每子語(yǔ)料庫(kù)中的樣本數(shù))對(duì)樣本進(jìn)行詞匯比較,每個(gè)樣本只被抽取一次,比較的結(jié)果如表4:
表4. 各個(gè)子語(yǔ)料庫(kù)中任意兩篇樣本的詞匯重復(fù)
從上表可以看出,各個(gè)子語(yǔ)料庫(kù)中的詞匯重復(fù)中數(shù)分別為: 65.59,92.31,124.80,156.99。最小重復(fù)數(shù)分別為: 325,357和104;而最大重復(fù)數(shù)為103145226及250。在上面我們提到過(guò)每個(gè)子語(yǔ)料庫(kù)的詞匯量中數(shù)分別:276.92,334.44,463.69和547.25 (見(jiàn)表2)在這些數(shù)據(jù)的基礎(chǔ)上,我們就可以運(yùn)用下面的公式得到每個(gè)子語(yǔ)料庫(kù)中任意抽取的兩篇語(yǔ)篇樣本的詞匯重復(fù)率。
MR: 詞匯重復(fù)率。MVR: 詞匯重復(fù)中數(shù)。MVS: 詞匯量中數(shù)
各子語(yǔ)料庫(kù)的詞匯重復(fù)率:MEEC1: 65.59/276.92=0.23686。MEEC2:92.31/334.44=0.27601。MEEC3:124.80/ 463.69=0.26914。MEEC4:156.99/547.25=0.28687
再次利用SPSS軟件,我們發(fā)現(xiàn)四個(gè)子語(yǔ)料庫(kù)的重復(fù)率直方圖都接近正態(tài)分布,這樣,再次利用公式1, 我們就有95%的把握相信,在四個(gè)子語(yǔ)料庫(kù)中任意抽取的兩篇基礎(chǔ)英語(yǔ)語(yǔ)篇重復(fù)的詞匯數(shù)量分別為:MEEC1: 69.59±15.882×1.96=28-156。MEEC2: 92.31±17.183×1.96=58-125。MEEC3 : 124.80±28.776×1.96=68-181。MEEC4: 156.99±29.459×1.96=99-214。
從以上數(shù)據(jù)可以看出,在基礎(chǔ)英語(yǔ)語(yǔ)料庫(kù)中,任意抽取的長(zhǎng)度為500字左右的兩篇樣本,它們的詞匯重復(fù)大約在28-156字左右;而長(zhǎng)度為1000字左右的兩篇?jiǎng)t大約有58-125個(gè)詞匯的重復(fù);長(zhǎng)度為1500字左右的兩篇樣本,它們的詞匯重復(fù)大約在68-181字左右;長(zhǎng)度在2000字左右的兩篇樣本大約有99-214個(gè)字的重復(fù)。
由上可知,一個(gè)單詞只有在不同的篇章內(nèi)重復(fù)5-15次或者更多次才能被語(yǔ)言習(xí)得者長(zhǎng)期記憶。那么,在基礎(chǔ)英語(yǔ)教材中,這些重復(fù)率在5-15次及15次以上的詞匯的構(gòu)成又是如何呢?拿語(yǔ)料庫(kù)2為例,我們發(fā)現(xiàn)一些高頻詞如:the, a, of, this 等的詞匯重復(fù)率極高,基本在每篇文檔中都有重復(fù)。如a 它在子語(yǔ)料庫(kù)2中的重復(fù)率高達(dá)385次。另外,阿拉伯?dāng)?shù)字,人名和地名的重復(fù)率也都很高,如子語(yǔ)料庫(kù)2中數(shù)字1有1次的重復(fù)率。相反,和醫(yī)學(xué)、哲學(xué)、生化等有關(guān)的詞匯有著相對(duì)較低的重復(fù)率。如在子語(yǔ)料庫(kù)1中,如 perpendicular, pew, rajah, riposte 等詞分別只有1次到2次的重復(fù)率。而在子語(yǔ)料庫(kù)2中,如cylinder, deck, deviation, dock, scraper等詞也只重復(fù)了1-3次。
基于以上對(duì)基礎(chǔ)英語(yǔ)詞匯量分布和篇際詞匯重復(fù)率的分析不難看出,英語(yǔ)專業(yè)基礎(chǔ)英語(yǔ)學(xué)習(xí)階段的學(xué)習(xí)者詞匯缺乏的主要原因之一是由于單詞篇際詞匯重復(fù)率過(guò)低。研究中我們發(fā)現(xiàn),各個(gè)語(yǔ)料庫(kù)中只出現(xiàn)一次的單詞在累積詞匯中占有很大比例。具有5-15次篇際重復(fù)的詞匯則占累積詞匯的很小一部分。任意兩個(gè)長(zhǎng)度相同的語(yǔ)篇的詞匯重復(fù)率很小。這一結(jié)果對(duì)于詞匯教學(xué)和專業(yè)英語(yǔ)教材編寫具有重要的啟示作用。
在自然語(yǔ)篇中,高比例的零重復(fù)詞匯為使教材編寫難度增加。如果一本教材一冊(cè)有10000個(gè)單詞,總詞匯量大約為4800個(gè),但是這些詞匯有一半的篇際詞匯重復(fù)為零,而詞匯習(xí)得所需滿足的重復(fù)5-15次的以上的篇際重復(fù)次數(shù)中,如果選擇10為習(xí)得一個(gè)單詞所需的篇際重復(fù)次數(shù),那么在這本教材中只有約276的詞匯能達(dá)到10 或10次以上的篇際重復(fù)率。據(jù)統(tǒng)計(jì)結(jié)果,當(dāng)累積篇際單詞數(shù)達(dá)到300000也就是說(shuō)30篇1000單詞的課文才有大約2000詞匯達(dá)到10次和10次以上的篇際重復(fù)。一般的基礎(chǔ)英語(yǔ)教學(xué)根本達(dá)不到這樣的單詞輸入量。因此,只靠基礎(chǔ)英語(yǔ)課教學(xué)來(lái)滿足詞匯重復(fù)率是不現(xiàn)實(shí)的。這有待專業(yè)英語(yǔ)教師和研究者共同努力。
除了教材的改良,教師的教學(xué)方法也對(duì)提高詞匯的篇際重復(fù)率有著很大的影響,對(duì)于低頻詞的反復(fù)訓(xùn)練以達(dá)到提高篇際詞匯重復(fù)率是英語(yǔ)專業(yè)教師的主要任務(wù)之一。
H313
A
1673-2219(2011)07-0158-04
2011-01-29
大連民族學(xué)院青年科研基金“基礎(chǔ)英語(yǔ)教材語(yǔ)料庫(kù)中的篇際詞匯重復(fù)率研究”項(xiàng)目的階段性成果(項(xiàng)目編號(hào)2009A404)。
劉英蘋(1981-),女,吉林通化人,大連民族學(xué)院外語(yǔ)學(xué)院講師,碩士,研究方向?yàn)檎Z(yǔ)料庫(kù)語(yǔ)言學(xué)與翻譯。
[1]Delosh E & A Mc Daniel . The role of order information in free recall: Application to the word-frequency effect [J].Journal of Experimental Psychology,1996,(22).
[2]Kachroo, J.N. Report on an Investigation in to the Teaching of Vocabulary in the First Year of English Bulletin of the Central Institute of English.[M].Oxford:Oxford University Press,1962.
[3]Nagy, W. E., Herman, P. A., & Anderson, R. C. Learning word meanings form context during normal reading[J]. American Educational Research Journal,1987,(24).
[4]Nation. P.Teaching and learning vocabulary[M].New York: Newbury house,1990.
[5]Nation, P. & Waring, R. Vocabulary size, text coverage and word lists. In N.Schmitt & M. McCarthy (Eds.), Vocabulary:description, acquisition, and pedagogy[M].Cambridge. UK: Cambridge University Press,1997.
[6]Rott, S. The effect of exposure frequency on intermediate language learners’incidental vocabulary acquisition through reading.[J].SSLA 1999,(1).
[7]Van Patten B. Input Processing and Grammar Instruction [M].New York: Ablex,1996.
[8]黃仁杰.新編科技英語(yǔ)分級(jí)詞匯[Z].上海交通大學(xué)出版社,1987.
[9]周世界.語(yǔ)言統(tǒng)計(jì)學(xué)[M].大連海事大學(xué)出版社,2004.
(責(zé)任編校:周欣)