摘 要:學(xué)術(shù)詞表開發(fā)是學(xué)術(shù)漢語研究的重要課題。該研究基于1450篇學(xué)術(shù)期刊論文構(gòu)建了漢語學(xué)術(shù)語料庫(kù),借鑒英語學(xué)術(shù)詞表AWL和AVL的創(chuàng)建方法,開發(fā)了一個(gè)包含1368個(gè)詞型的通用漢語學(xué)術(shù)詞表,并對(duì)該詞表的有效性進(jìn)行了檢驗(yàn)。檢驗(yàn)結(jié)果表明:通用漢語學(xué)術(shù)詞表覆蓋了漢語學(xué)術(shù)語料庫(kù)25.88%的文本,覆蓋水平較高;詞表在BCC和LCMC語料庫(kù)的學(xué)術(shù)、科技子庫(kù)的覆蓋率分別為18.85%和23.86%,在文學(xué)庫(kù)和微博庫(kù)的覆蓋率低于3%,這一差異表明詞表中的學(xué)術(shù)詞匯具有一定代表性;詞表對(duì)漢語學(xué)術(shù)語料庫(kù)各子庫(kù)的覆蓋率均超過17%,能較好地服務(wù)于不同學(xué)科領(lǐng)域的學(xué)術(shù)漢語教學(xué)和學(xué)習(xí)。詞表展示了漢語學(xué)術(shù)詞匯學(xué)習(xí)目標(biāo),為學(xué)術(shù)詞匯教學(xué)、學(xué)習(xí)以及專門用途漢語教材編寫提供了參考。
關(guān)鍵詞:詞表;學(xué)術(shù)詞匯;語料庫(kù);學(xué)術(shù)漢語
中圖分類號(hào):N04;TP391" 文獻(xiàn)標(biāo)識(shí)碼:A" DOI:10.12339/j.issn.1673-8578.2024.03.010
Developing and Validating a Chinese Academic Vocabulary List (CAVL): A Corpus-Driven Approach//GAO Song,QIAN Long,DING Qian
Abstract: The development of Chinese academic vocabulary lists is a significant topic in the study of Academic Chinese. This research constructed a Chinese academic corpus (CAC) based on 1,450 academic journal articles. Drawing from the methodologies employed in the creation of the Academic Word List (AWL) and the Academic Vocabulary List (AVL) in English, we developed CAVL with 1,368 word-types. An assessment of CAVL’s efficacy indicated that it covered 25.88% of the CAC, demonstrating a high level of coverage. The list accounted for 18.85% and 23.86% of academic and technological sub-corpora in the BCC and LCMC respectively. However, its coverage in literature and microblog sub-corpora was less than 3%, and this difference suggests that the academic vocabulary in the lexicon is sornewhat representative. CAVL covers more than 17% of all sub-corpora in CAC, showcasing a balanced representation across various academic disciplines, hence can serve as a valuable resource for Academic Chinese teaching and learning in different fields. CAVL delineates the learning objectives for Chinese academic vocabulary and offers a reference point for vocabulary instruction, learning, and the development of Chinese textbooks for specific purposes.
Keywords: vocabulary list; Chinese academic vocabulary; Corpus; Chinese for academic purpose
收稿日期:2023-10-18" 修回日期:2024-04-28
基金項(xiàng)目:2020年教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“基于語料庫(kù)的現(xiàn)代漢語書面語歷時(shí)演變計(jì)量研究”(20YJC740010);2023年北京語言大學(xué)研究生創(chuàng)新基金(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金)項(xiàng)目“基于依存樹庫(kù)的英美漢語學(xué)習(xí)者二語書面語發(fā)展特征計(jì)量研究”(23YCX162);2022年教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目“大學(xué)英語智慧教學(xué)實(shí)踐互動(dòng)平臺(tái)建設(shè)”(220600273075052)
0 引言
通用學(xué)術(shù)詞表是對(duì)具有學(xué)術(shù)目的學(xué)習(xí)者的一般通用詞表的擴(kuò)展,是值得學(xué)習(xí)者和二語教師廣泛關(guān)注的詞匯列表[1]。學(xué)術(shù)詞表在為語言課程設(shè)定詞匯目標(biāo)、指導(dǎo)學(xué)習(xí)者進(jìn)行獨(dú)立學(xué)習(xí)、為教材編寫者提供信息和開展學(xué)習(xí)活動(dòng)等方面發(fā)揮著關(guān)鍵作用[2]。通過強(qiáng)調(diào)在各類學(xué)術(shù)文本中經(jīng)常出現(xiàn)的詞匯,詞表向?qū)W習(xí)者直接展示了學(xué)習(xí)目標(biāo),幫助學(xué)習(xí)者了解哪些詞是最有用、應(yīng)該最先學(xué)習(xí)的,可以提高學(xué)術(shù)詞匯的學(xué)習(xí)效率。毫無疑問,學(xué)術(shù)詞表能極大地滿足學(xué)術(shù)詞匯教學(xué)和學(xué)習(xí)的需要。
目前,英語學(xué)術(shù)詞表研究已有相當(dāng)豐富的成果[3-4]。最具代表性和影響力的英語學(xué)術(shù)詞表,一個(gè)是Coxhead于2000年開發(fā)的學(xué)術(shù)單詞表(Academic Word List,簡(jiǎn)稱AWL)[2],另一個(gè)是Gardner、Davies于2014年創(chuàng)建的學(xué)術(shù)詞匯表(Academic Vocabulary List,簡(jiǎn)稱AVL)[5]。后來,借鑒AWL和AVL的編制方法,學(xué)者們又陸續(xù)開發(fā)了各學(xué)科的英語學(xué)術(shù)詞表,如化學(xué)英語學(xué)術(shù)詞表、環(huán)境科學(xué)英語學(xué)術(shù)詞表、航海英語學(xué)術(shù)詞表、醫(yī)學(xué)英語詞匯表等[6-8]。
通用漢語學(xué)術(shù)詞表的開發(fā)還處于起步階段,相關(guān)研究成果較少?,F(xiàn)已開發(fā)的某些專業(yè)學(xué)術(shù)詞表,如漢語語言學(xué)學(xué)術(shù)詞表[9]、經(jīng)貿(mào)類本科專業(yè)學(xué)術(shù)漢語詞表[10]、醫(yī)學(xué)漢語學(xué)術(shù)詞表[11]等,均是非通用學(xué)術(shù)詞表。通用漢語學(xué)術(shù)詞表是對(duì)具有學(xué)術(shù)目的漢語學(xué)習(xí)者的一般通用漢語詞表的擴(kuò)展。朱明玉2020年開發(fā)了通用漢語學(xué)術(shù)詞表,然而該詞表在選詞時(shí),僅使用了頻率和范圍標(biāo)準(zhǔn),并未考慮到詞匯的專業(yè)性和均勻分布等問題,一定程度上影響了詞表在各學(xué)科領(lǐng)域應(yīng)用的廣泛性和有效性[12]??偟膩砜?,漢語學(xué)術(shù)詞表的研究還十分薄弱。如果說積累學(xué)術(shù)詞匯是攻讀學(xué)位的學(xué)習(xí)者面臨的一個(gè)主要挑戰(zhàn)[13],那么缺少通用漢語學(xué)術(shù)詞表將不利于學(xué)術(shù)詞匯的教學(xué),也不利于專門用途漢語教材的編寫,在一定程度上會(huì)影響到學(xué)生的學(xué)術(shù)學(xué)習(xí)和訓(xùn)練。
鑒于此,本文基于自建的漢語學(xué)術(shù)論文語料庫(kù),采用AWL和AVL的開發(fā)方法,嘗試創(chuàng)建通用漢語學(xué)術(shù)詞表,挖掘通用于各學(xué)科領(lǐng)域的核心學(xué)術(shù)詞匯,考察詞表對(duì)不同學(xué)科、不同類型文本的覆蓋情況,并對(duì)詞表有效性進(jìn)行系統(tǒng)檢驗(yàn),以此來推動(dòng)漢語學(xué)術(shù)詞匯的研究,滿足學(xué)術(shù)詞匯教學(xué)和學(xué)習(xí)的需要。
1 專門用途漢語學(xué)術(shù)詞匯
專門用途漢語(Chinese for specific purposes,簡(jiǎn)稱CSP)是漢語作為第二語言教學(xué)體系的重要分支,指用于某種專業(yè)領(lǐng)域、特定范圍和固定場(chǎng)合的漢語[14-15]。它是相對(duì)日常生活和工作中普遍使用的通用漢語(Chinese for general purposes,簡(jiǎn)稱CGP)而言的。隨著來華留學(xué)的學(xué)歷生人數(shù)增長(zhǎng),通用漢語教學(xué)已不能滿足學(xué)歷生的現(xiàn)實(shí)學(xué)習(xí)需求[16]。學(xué)生進(jìn)入專業(yè)學(xué)習(xí)后,沒有專業(yè)詞匯、專業(yè)語篇結(jié)構(gòu)和句法表達(dá)的儲(chǔ)備,聽課、讀文獻(xiàn)和寫論文會(huì)遇到較大困難。開展深入的專門用途漢語研究,加強(qiáng)對(duì)學(xué)歷生學(xué)術(shù)漢語能力的培養(yǎng),幫助學(xué)生適應(yīng)專業(yè)學(xué)習(xí),是極為必要的。
“學(xué)術(shù)漢語”是專門用途漢語的一個(gè)重要組成部分,學(xué)術(shù)漢語教學(xué)目標(biāo)是訓(xùn)練學(xué)生運(yùn)用漢語從事專業(yè)學(xué)習(xí)和學(xué)術(shù)活動(dòng)[17]。學(xué)術(shù)漢語表達(dá)規(guī)范、結(jié)構(gòu)嚴(yán)謹(jǐn)、專業(yè)性強(qiáng),很少使用口語化的詞匯和表達(dá)方式[18]。對(duì)學(xué)生來說,掌握學(xué)術(shù)漢語確實(shí)難度較大。張秀菊等指出,留學(xué)生進(jìn)入專業(yè)學(xué)習(xí)時(shí),聽不懂課的現(xiàn)象很普遍[19]。李海燕等發(fā)現(xiàn),本科留學(xué)生不會(huì)使用論文寫作常用的學(xué)術(shù)詞匯,論文中口語化問題嚴(yán)重[20]。這就要求教師在課堂教學(xué)中對(duì)詞匯和語法進(jìn)行有針對(duì)性的教學(xué)。但是,目前缺乏專門用途漢語詞匯教學(xué),學(xué)生大多是自學(xué)專業(yè)詞匯[21]。有學(xué)生明確提出需要盡快學(xué)習(xí)和專業(yè)相關(guān)的詞匯和話題[22],以此來解決在理解和輸出過程中存在的語言問題。
Nation認(rèn)為,詞匯可以分為高頻詞匯、學(xué)術(shù)詞匯和專業(yè)詞匯[1]。學(xué)術(shù)詞匯介于高頻詞匯和專業(yè)詞匯之間,是在眾多學(xué)科的學(xué)術(shù)文本中高頻出現(xiàn)且比其在非學(xué)術(shù)文本中更高頻出現(xiàn)、分布廣泛且均勻的詞匯[23]。學(xué)術(shù)詞匯學(xué)習(xí)成功與否直接影響到學(xué)習(xí)者的閱讀能力和學(xué)術(shù)成就[24]。可以說,學(xué)術(shù)詞匯是語言教學(xué)和學(xué)習(xí)的關(guān)鍵。掌握一定的學(xué)術(shù)詞匯,學(xué)生能提高聽課效果,能更好地理解學(xué)術(shù)文獻(xiàn),更好地進(jìn)行學(xué)術(shù)論文寫作。由于學(xué)術(shù)詞匯的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)低于高頻詞匯,學(xué)生對(duì)學(xué)術(shù)詞匯的熟悉程度也低,學(xué)術(shù)詞匯是學(xué)生學(xué)習(xí)的難點(diǎn)[25]。鑒于此,學(xué)者們致力于創(chuàng)建學(xué)術(shù)詞表,對(duì)學(xué)術(shù)詞匯進(jìn)行具體教學(xué),服務(wù)于學(xué)術(shù)詞匯的教學(xué)和學(xué)習(xí)[26]。
2 建立漢語學(xué)術(shù)論文語料庫(kù)
學(xué)術(shù)詞表要借助學(xué)術(shù)文本的語料庫(kù)來創(chuàng)建,語料庫(kù)可以反映出詞表中詞語的頻數(shù)和覆蓋情況[27]。因此,我們采用語料庫(kù)驅(qū)動(dòng)的研究方法[28],通過自建漢語學(xué)術(shù)語料庫(kù)(Chinese Academic Corpus,簡(jiǎn)稱CAC)來開發(fā)通用漢語學(xué)術(shù)詞表(Chinese Academic Vocabulary List,簡(jiǎn)稱CAVL)。
所創(chuàng)建的語料庫(kù)納入了2019年1月至2020年12月中國(guó)知網(wǎng)(CNKI)的1450篇期刊論文,包含3 533 018個(gè)詞例,56 517個(gè)詞型。為確保語料庫(kù)設(shè)計(jì)良好,我們兼顧語料的代表性和典型性,按照通用性、描述性、實(shí)用性和抽樣性等原則來選取語料[29]。學(xué)術(shù)期刊來自中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)、中文社會(huì)科學(xué)引文索引(CSSCI)、《中文核心期刊要目總覽》(北大核心)中收錄的自然科學(xué)、哲學(xué)與人文社會(huì)科學(xué)領(lǐng)域的期刊。期刊從中國(guó)知網(wǎng)資源庫(kù)中隨機(jī)選擇,領(lǐng)域覆蓋中國(guó)知網(wǎng)文獻(xiàn)分類目錄里的各個(gè)學(xué)科。選取的期刊論文既有研究型文章又有綜述文章,各領(lǐng)域選取的論文數(shù)量大致相同。
根據(jù)中國(guó)知網(wǎng)的文獻(xiàn)學(xué)科分類,即基礎(chǔ)科學(xué)、工程科技Ⅰ、工程科技Ⅱ、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、哲學(xué)與人文科學(xué)、社會(huì)科學(xué)Ⅰ、社會(huì)科學(xué)Ⅱ、信息科技、經(jīng)濟(jì)與管理科學(xué),將語料庫(kù)劃分為10個(gè)子語料庫(kù)。每個(gè)子語料庫(kù)中的PDF格式論文經(jīng)過分層抽樣和系統(tǒng)抽樣方式入庫(kù),確保論文來自不同的期刊和刊期。然后,用Java編程語言和Eclipse編輯器編寫腳本,通過外部工具包PDF box以及文字庫(kù)Font box將所有PDF格式的論文轉(zhuǎn)化為TXT格式。每篇論文都刪除了圖表、注釋、腳注和尾注、參考文獻(xiàn)和附錄等,只保留中文摘要和正文。由于論文的篇幅長(zhǎng)短不同,為滿足樣本選取規(guī)模的一致性,我們從每篇選定的論文中隨機(jī)選取了長(zhǎng)度約4000字的文本。取樣后,采用中國(guó)傳媒大學(xué)國(guó)家語言資源監(jiān)測(cè)與研究有聲媒體中心的在線分詞標(biāo)注系統(tǒng)(CUCBst)進(jìn)行文本自動(dòng)分詞?;谝陨显瓌t和方法,我們構(gòu)建了涉及廣泛專業(yè)領(lǐng)域的漢語學(xué)術(shù)語料庫(kù),建設(shè)的具體流程,如圖1所示。
3 編制通用漢語學(xué)術(shù)詞表
語料庫(kù)語言學(xué)中,常見的詞頻統(tǒng)計(jì)單位包括詞型(word type)、詞元(lemma)和詞族(word family)[30]。AWL用詞族作為詞頻統(tǒng)計(jì)單位;而AVL采用詞元作為詞頻統(tǒng)計(jì)單位。漢語屬于漢藏語系語言,沒有豐富的屈折變化和派生形式,不適合以詞族和詞元為詞頻統(tǒng)計(jì)單位,因此我們將詞型作為詞表詞頻的統(tǒng)計(jì)單位。
編制學(xué)術(shù)詞表時(shí),確定選詞標(biāo)準(zhǔn)是關(guān)鍵。學(xué)術(shù)詞匯必須用系統(tǒng)、嚴(yán)格的選詞標(biāo)準(zhǔn)來識(shí)別[8]。我們綜合考慮了AWL和AVL提取學(xué)術(shù)詞匯的方法,同時(shí)結(jié)合了漢語實(shí)際,考慮了以下5個(gè)方面來提取學(xué)術(shù)詞匯。
(1)高頻性
選詞時(shí),詞頻是一個(gè)非常重要的指標(biāo)。詞的出現(xiàn)頻率越高,說明詞越常用,在詞表中的位置越靠前[30]。開發(fā)詞表時(shí),通常要根據(jù)齊普夫定律(Zipf’s Law)確定合適的詞頻來選詞。Coxhead規(guī)定選入AWL的詞匯在語料庫(kù)中的出現(xiàn)頻次要高于100[2]。我們?cè)陬l次為50~100范圍內(nèi)多次試驗(yàn)調(diào)整頻次的設(shè)定,以便找到詞表選詞的最佳值。當(dāng)最低頻次設(shè)定為60時(shí),10.13%的詞型覆蓋了90.47%的詞例,此時(shí)詞對(duì)語料庫(kù)的覆蓋率較為理想,詞語的抽取效果最好。最低詞頻設(shè)定為100時(shí),會(huì)排除很多有用也很常用的學(xué)術(shù)詞匯,如“客體”(詞頻:87)、“剖析”(詞頻:86)等;最低詞頻設(shè)定為50時(shí)會(huì)收錄太多詞,會(huì)擴(kuò)增詞表的規(guī)模,從而增加學(xué)生的學(xué)習(xí)負(fù)擔(dān)。因此,設(shè)定詞在語料庫(kù)中的出現(xiàn)頻次高于60,才可以選入通用漢語學(xué)術(shù)詞表中。
(2)專業(yè)性
為突出學(xué)術(shù)詞表的專業(yè)性,Coxhead規(guī)定收錄AWL的詞不能是通用英語詞表(General Service List,簡(jiǎn)稱GSL)中的詞[2]。Gardner和Davies使用了頻率比標(biāo)準(zhǔn),規(guī)定選入AVL的詞在美國(guó)當(dāng)代英語語料庫(kù)(Corpus of Contemporary American English,簡(jiǎn)稱COCA)學(xué)術(shù)文本庫(kù)中出現(xiàn)的頻率是其在COCA非學(xué)術(shù)文本庫(kù)中出現(xiàn)頻率的1.5倍,以此來確保收錄詞匯是學(xué)術(shù)詞匯[5]。
AWL為保證專業(yè)性而排除了高頻詞,該做法受到了學(xué)者們的質(zhì)疑。因?yàn)楦哳l詞和學(xué)術(shù)詞匯之間并沒有明晰的界限,高頻詞可能是學(xué)術(shù)詞匯,學(xué)術(shù)詞匯也可能是高頻詞,開發(fā)學(xué)術(shù)詞表時(shí)沒有必要排除高頻詞[3]。而AVL不采用高頻性選詞標(biāo)準(zhǔn),采用頻率比標(biāo)準(zhǔn)又使AVL收錄過多的低頻詞[8]。對(duì)于那些與高頻詞表重復(fù)的詞,頻率比設(shè)為1.5過低,不利于突出學(xué)術(shù)詞匯的專業(yè)性。因此,我們結(jié)合AWL和AVL專業(yè)性選詞標(biāo)準(zhǔn),對(duì)其做出了一些調(diào)整。
我們首先將北京語言大學(xué)BCC現(xiàn)代漢語語料庫(kù)中科技文獻(xiàn)庫(kù)以外的其他子語料庫(kù)作為非學(xué)術(shù)語料庫(kù)。BCC語料庫(kù)中的科技文獻(xiàn)同樣來自國(guó)內(nèi)的學(xué)術(shù)期刊,可以將其視為BCC語料庫(kù)的學(xué)術(shù)子語料庫(kù)。然后,計(jì)算入選漢語學(xué)術(shù)詞表的詞在漢語學(xué)術(shù)語料庫(kù)中的出現(xiàn)頻率與其在BCC非學(xué)術(shù)語料庫(kù)中出現(xiàn)頻率的比值。同時(shí),將頻率比設(shè)定在1.2到2的范圍內(nèi)進(jìn)行試驗(yàn)。試驗(yàn)發(fā)現(xiàn),如果頻率比設(shè)定為1.2,詞表會(huì)收錄過多通用高頻詞,如“少”(頻率比:1.22)、“時(shí)間”(頻率比:1.39)等;如果頻率比設(shè)定為2,詞表就排除了一些核心學(xué)術(shù)詞匯,如“清晰”(頻率比:1.78)、“顯示”(頻率比:1.66)。當(dāng)頻率比設(shè)為1.5時(shí),選詞效果最理想。同時(shí),為了突出選取學(xué)術(shù)詞匯的專業(yè)性,把中國(guó)政府獎(jiǎng)學(xué)金本科來華留學(xué)生預(yù)科教育結(jié)業(yè)考試《基礎(chǔ)漢語常用詞匯表》作為通用詞表來輔助參考。結(jié)合頻率比設(shè)定為1.5到3之間的試驗(yàn)結(jié)果,最終規(guī)定,通用漢語學(xué)術(shù)詞表中的詞如果出現(xiàn)在預(yù)科《基礎(chǔ)漢語常用詞匯表》中,且頻率比達(dá)到2才能入選;如果沒有出現(xiàn)在預(yù)科《基礎(chǔ)漢語常用詞匯表》中,頻率比達(dá)到1.5才能入選。
(3)廣泛分布性
依靠詞頻作為選詞標(biāo)準(zhǔn),在小范圍內(nèi)統(tǒng)計(jì)詞語,一般來說頻次是可靠的。但是在大范圍內(nèi)統(tǒng)計(jì)詞語,頻次的片面性就顯露出來了。由于統(tǒng)計(jì)方法和抽樣方面的原因,會(huì)造成統(tǒng)計(jì)結(jié)果的嚴(yán)重偏差。為解決這個(gè)問題,詞匯統(tǒng)計(jì)學(xué)家指出除詞頻外還要考慮詞的分布,計(jì)算詞的分布率[31]。因此,廣泛分布性也是一個(gè)重要的選詞標(biāo)準(zhǔn)。
收錄到AWL的詞,必須在語料庫(kù)的人文、商業(yè)、法律、科學(xué)4個(gè)學(xué)科和28個(gè)子學(xué)科領(lǐng)域的15個(gè)或更多領(lǐng)域中至少出現(xiàn)10次[2]。選入AVL的詞在語料庫(kù)的9個(gè)學(xué)科中至少出現(xiàn)在其中7個(gè)學(xué)科中,且每個(gè)學(xué)科中出現(xiàn)的頻次至少達(dá)到期望頻次的20% [5]。綜合AWL和AVL制定的廣泛分布標(biāo)準(zhǔn),我們規(guī)定入選漢語學(xué)術(shù)詞表的詞在漢語學(xué)術(shù)語料庫(kù)10個(gè)子語料庫(kù)中至少出現(xiàn)在其中7個(gè)子語料庫(kù)中,且在每個(gè)子語料庫(kù)中的出現(xiàn)頻次至少達(dá)到期望頻次的20%。
(4)均勻分布性
收錄詞表的詞除了考慮廣泛分布性,還要考慮在語料庫(kù)中是否均勻地分布。AVL的設(shè)計(jì)是將Julliand’s D值[32]作為均勻分布的計(jì)算指標(biāo),規(guī)定選入AVL的詞其D值要大于或等于0.8[5]。由于Julliand’s D值被認(rèn)為是計(jì)算均勻分布最可靠的指標(biāo)[8],因此我們也采用Julliand’s D值來計(jì)算詞在語料庫(kù)中的均勻分布值。構(gòu)建詞表時(shí),D值設(shè)定沒有統(tǒng)一的標(biāo)準(zhǔn),所以我們將D值設(shè)定在0.3到0.9區(qū)間來進(jìn)行試驗(yàn)。試驗(yàn)發(fā)現(xiàn),如果D值設(shè)定太高(D值:0.9),“協(xié)同”“特征”等常用的學(xué)術(shù)詞匯就會(huì)被排除;如果D值設(shè)定太低(D值:0.3),詞表的均勻分布性就無法保證。D值設(shè)定為0.6,選詞的效果最為理想。根據(jù)試驗(yàn)結(jié)果,我們規(guī)定漢語學(xué)術(shù)詞表中入選詞的Julliand’s D值要大于或等于0.6,以此保證收錄詞在漢語學(xué)術(shù)語料庫(kù)的10個(gè)子語料庫(kù)中均勻分布。
(5)學(xué)科指數(shù)
AVL還將學(xué)科指數(shù)作為詞表的一個(gè)選詞標(biāo)準(zhǔn)。考慮學(xué)科指數(shù),主要是為了排除只在特定學(xué)科出現(xiàn)的詞,確保詞表中的詞匯不是僅僅在某個(gè)學(xué)科領(lǐng)域中高頻使用。AVL規(guī)定,收錄詞在9個(gè)學(xué)科里的任何一個(gè)學(xué)科中出現(xiàn)的頻次不能超過期望頻次(每百萬詞)的3倍。如果超過3倍,這個(gè)詞就要被排除在學(xué)術(shù)詞匯之外。這些詞雖然本質(zhì)上是具有學(xué)術(shù)性的,但是對(duì)于一個(gè)核心學(xué)術(shù)詞表來說,似乎太具體了,需要通過學(xué)科指數(shù)這一選詞標(biāo)準(zhǔn)將其排除[5]。因此,我們參考AVL選詞時(shí)采用的學(xué)科指數(shù)標(biāo)準(zhǔn),經(jīng)過多次試驗(yàn)設(shè)定學(xué)科指數(shù)值。在分別試驗(yàn)了2.5、3、3.5、4等數(shù)值后,發(fā)現(xiàn)學(xué)科指數(shù)值為3時(shí)選詞效果最好。因此,我們規(guī)定詞表的入選詞,在漢語學(xué)術(shù)語料庫(kù)任何一個(gè)子語料庫(kù)中的出現(xiàn)頻次不能超過其在該子語料庫(kù)期望頻次的3倍或以上。
詞表的選詞工作是在Excel環(huán)境下進(jìn)行的。根據(jù)選詞標(biāo)準(zhǔn)提取學(xué)術(shù)詞匯的樣例,見表1。
收錄詞必須同時(shí)滿足以上5條選詞標(biāo)準(zhǔn),確保收錄詞是高頻使用、專業(yè)性突出、廣泛分布、均勻分布,且不是僅在某個(gè)學(xué)科領(lǐng)域高頻出現(xiàn)的詞?;诖耍覀兲崛〕鲆粋€(gè)符合上述選詞標(biāo)準(zhǔn)的詞表,包含1483個(gè)詞型。經(jīng)過人工校對(duì),刪除了由分詞軟件造成切分錯(cuò)誤的語素和非固定短語,如“形”“述”“一個(gè)”“也就是說”等,最終創(chuàng)建了一個(gè)包含1368個(gè)詞型的通用漢語學(xué)術(shù)詞表。詞表按詞在漢語學(xué)術(shù)語料庫(kù)中的詞頻高低橫向排序,詞頻最高的“研究”排第一位,詞頻排第二位的是“進(jìn)行”,以此類推。表2顯示了詞表中詞頻由高到低的前30個(gè)詞(完整詞表見《中國(guó)科技術(shù)語》官網(wǎng),可掃描下面二維碼瀏覽)。
4 結(jié)果與討論
為了檢驗(yàn)通用漢語學(xué)術(shù)詞表的有效性,我們計(jì)算了詞表對(duì)漢語學(xué)術(shù)語料庫(kù)CAC的覆蓋率。同時(shí),以北京語言大學(xué)BCC現(xiàn)代漢語語料庫(kù)和蘭卡斯特LCMC現(xiàn)代漢語語料庫(kù)為例,考察了詞表對(duì)現(xiàn)代漢語語料庫(kù)各領(lǐng)域文本的覆蓋情況。通用漢語學(xué)術(shù)詞表中各學(xué)術(shù)詞匯對(duì)CAC漢語學(xué)術(shù)語料庫(kù)、BCC語料庫(kù)和LCMC語料庫(kù)的覆蓋率,見表3。
由表3可見,通用漢語學(xué)術(shù)詞表對(duì)CAC漢語學(xué)術(shù)語料庫(kù)的覆蓋率達(dá)到25.88%。而AWL的570個(gè)詞族對(duì)學(xué)術(shù)英語語料庫(kù)的覆蓋率約為10%;AVL的3015個(gè)詞元對(duì)COCA語料庫(kù)學(xué)術(shù)文本庫(kù)的覆蓋率約為14%。與AWL和AVL相比,我們創(chuàng)建的通用漢語學(xué)術(shù)詞表對(duì)學(xué)術(shù)語料庫(kù)的覆蓋情況更為理想。詞表對(duì)BCC和LCMC學(xué)術(shù)、科技子語料庫(kù)的覆蓋率均超過了18%,顯示詞表的覆蓋性較好。通用漢語學(xué)術(shù)詞表對(duì)CAC漢語學(xué)術(shù)語料庫(kù)和對(duì)BCC學(xué)術(shù)子語料庫(kù)的覆蓋率相差約7%。原因可能在于CAC和BCC學(xué)術(shù)子語料庫(kù)采用了不同的分詞系統(tǒng),通用漢語學(xué)術(shù)詞表中的一些詞在BCC語料庫(kù)中并未處理成詞,因此,其對(duì)BCC語料庫(kù)的覆蓋率均顯示為0。所以,通用漢語學(xué)術(shù)詞表對(duì)BCC學(xué)術(shù)子語料庫(kù)的覆蓋率略低。通用漢語學(xué)術(shù)詞表對(duì)BCC學(xué)術(shù)子語料庫(kù)和LCMC學(xué)術(shù)子語料庫(kù)的覆蓋率都高于其他子語料庫(kù)。詞表對(duì)BCC學(xué)術(shù)子語料庫(kù)的覆蓋率為18.85%,是BCC新聞子語料庫(kù)覆蓋率的1.86倍,是文學(xué)子語料庫(kù)覆蓋率的6.81倍,是微博子語料庫(kù)覆蓋率的6.55倍;詞表對(duì)LCMC學(xué)術(shù)子語料庫(kù)的覆蓋率為23.86%,是LCMC新聞子語料庫(kù)覆蓋率的2.38倍,是文學(xué)子語料庫(kù)覆蓋率的8.71倍。詞表有較好的代表性。詞表對(duì)BCC新聞子語料庫(kù)和LCMC新聞子語料庫(kù)的覆蓋率均超過了10%,原因可能在于學(xué)術(shù)詞匯通常是書面語詞匯,而新聞大多也是書面語,所以學(xué)術(shù)詞表對(duì)新聞子語料庫(kù)的覆蓋率偏高。
通用漢語學(xué)術(shù)詞表對(duì)CAC漢語學(xué)術(shù)語料庫(kù)每個(gè)子語料庫(kù)的覆蓋率,見表4。
從表4來看,通用漢語學(xué)術(shù)詞表對(duì)CAC漢語學(xué)術(shù)語料庫(kù)每個(gè)子語料庫(kù)的覆蓋率均超過17%;詞表對(duì)經(jīng)濟(jì)與管理科學(xué)、信息科技、工程科技Ⅱ三個(gè)子語料庫(kù)的覆蓋率均超過30%??梢哉f,詞表達(dá)到了相對(duì)較高的總體覆蓋水平。雖然我們采用了均勻分布的選詞標(biāo)準(zhǔn),但詞表對(duì)各子語料庫(kù)仍未達(dá)到均衡覆蓋。詞表對(duì)經(jīng)濟(jì)與管理科學(xué)庫(kù)的覆蓋率最高,為31.97%;詞表對(duì)哲學(xué)與人文社科庫(kù)的覆蓋率最低,為17.46%。詞表對(duì)這兩個(gè)子語料庫(kù)的覆蓋率相差近15%。這一現(xiàn)象在AVL中同樣存在,AVL對(duì)經(jīng)濟(jì)學(xué)文本的覆蓋率幾乎是其對(duì)文學(xué)名著文本覆蓋率的兩倍[26]。這表明,不同的學(xué)科在詞匯使用上具有顯著差異[33]。
雖然各學(xué)科學(xué)術(shù)漢語詞匯存在一定的差異,但詞表反映出來對(duì)各學(xué)科子語料庫(kù)的覆蓋情況較為理想,基本可以滿足各學(xué)科學(xué)術(shù)漢語教學(xué)和學(xué)習(xí)的需要??梢詫⒃~表看作是核心學(xué)術(shù)詞匯表。核心學(xué)術(shù)詞匯在各學(xué)科學(xué)術(shù)文獻(xiàn)中經(jīng)常出現(xiàn),使用頻率高,可以作為教學(xué)和學(xué)習(xí)的重點(diǎn)。漢語教師可以依據(jù)詞表進(jìn)行相應(yīng)的學(xué)術(shù)漢語課程設(shè)計(jì),讓學(xué)生掌握核心學(xué)術(shù)詞匯,幫助學(xué)生更好地理解學(xué)術(shù)文獻(xiàn)和撰寫學(xué)術(shù)論文。同時(shí),詞表也可為開發(fā)專門用途的漢語教材提供一定參考。此外,我們也應(yīng)看到該詞表并未涵蓋所有的漢語學(xué)術(shù)詞匯。該詞表是有效性較好的通用漢語學(xué)術(shù)詞表,其規(guī)模不大,可以在一定程度上減輕學(xué)習(xí)者的學(xué)習(xí)負(fù)擔(dān)。
此外,考慮到開發(fā)通用漢語學(xué)術(shù)詞表主要為了銜接來華留學(xué)生的預(yù)科教育和本科教育這兩個(gè)階段[10],我們統(tǒng)計(jì)了預(yù)科《基礎(chǔ)漢語常用詞匯表》對(duì)幾個(gè)現(xiàn)代漢語學(xué)術(shù)語料庫(kù)的覆蓋率。又對(duì)創(chuàng)建的通用漢語學(xué)術(shù)詞表和預(yù)科《基礎(chǔ)漢語常用詞匯表》進(jìn)行了詞表合并,計(jì)算出合并后詞表對(duì)現(xiàn)代漢語學(xué)術(shù)語料庫(kù)的覆蓋率。統(tǒng)計(jì)結(jié)果見表5。
從表5中我們看到,預(yù)科《基礎(chǔ)漢語常用詞表》對(duì)CAC語料庫(kù)的覆蓋率為65.11%,合并通用漢語學(xué)術(shù)詞表后對(duì)CAC語料庫(kù)的覆蓋率為75.07%,覆蓋率提高了近10%。兩個(gè)詞表合并后,對(duì)BCC科技子語料庫(kù)和LCMC學(xué)術(shù)子語料庫(kù)的覆蓋率也都有所提高。其中,對(duì)LCMC學(xué)術(shù)子語料庫(kù)的覆蓋率高達(dá)77.24%。數(shù)據(jù)表明,通用漢語學(xué)術(shù)詞表是對(duì)預(yù)科《基礎(chǔ)漢語常用詞匯表》的有效補(bǔ)充。學(xué)習(xí)者掌握了這兩個(gè)詞表中的詞匯,也就掌握了學(xué)術(shù)文本中的大部分詞匯。由此,學(xué)生能更好地理解專業(yè)課,更利于閱讀學(xué)術(shù)文獻(xiàn),進(jìn)而更好地完成學(xué)術(shù)論文寫作。
5 結(jié)語
學(xué)術(shù)詞表開發(fā)是學(xué)術(shù)漢語研究中的重要課題。漢語學(xué)術(shù)詞表的創(chuàng)建和研究是一項(xiàng)重要的工作,也是充滿挑戰(zhàn)的。本文通過自建漢語學(xué)術(shù)語料庫(kù),借鑒英語學(xué)術(shù)詞表AWL和AVL的創(chuàng)建方法,嘗試開發(fā)了一個(gè)包含1368個(gè)詞型的通用漢語學(xué)術(shù)詞表。經(jīng)過效度檢驗(yàn),通用漢語學(xué)術(shù)詞表在BCC和LCMC語料庫(kù)學(xué)術(shù)、科技子庫(kù)中的覆蓋率分別為18.85%和23.86%,而在文學(xué)庫(kù)和微博庫(kù)中的覆蓋率低于3%,表明其有別于通用詞表或其他領(lǐng)域詞表,詞表有一定的學(xué)術(shù)代表性。通用漢語學(xué)術(shù)詞表對(duì)各學(xué)科文本的覆蓋率均超過17%,能夠較好地服務(wù)不同專業(yè)領(lǐng)域的學(xué)術(shù)漢語教學(xué)和學(xué)習(xí)。詞表的規(guī)模不大,可以將其視為核心學(xué)術(shù)詞匯表。當(dāng)然,通用漢語學(xué)術(shù)詞表在其他語料庫(kù)中的覆蓋情況和其有效性,還可進(jìn)一步接受檢驗(yàn)。
基于通用漢語學(xué)術(shù)詞表開發(fā)過程中受到的啟發(fā),本文提出有待進(jìn)一步研究的問題:一是需要開發(fā)不同學(xué)科領(lǐng)域的漢語學(xué)術(shù)詞表。不同學(xué)科的詞匯非常廣泛,沒有一個(gè)詞表能充分滿足所有學(xué)生的需求??紤]到各學(xué)科在學(xué)術(shù)詞匯使用上具有明顯差異,我們有必要開發(fā)針對(duì)不同學(xué)科的漢語學(xué)術(shù)詞表,如農(nóng)學(xué)漢語學(xué)術(shù)詞表、化工漢語學(xué)術(shù)詞表等。二是擴(kuò)大自建漢語學(xué)術(shù)語料庫(kù)的規(guī)模,補(bǔ)充專門用途漢語教材的語料。因?yàn)榻邮軐W(xué)歷教育的留學(xué)生除了閱讀期刊學(xué)術(shù)論文、撰寫學(xué)位論文,還要學(xué)習(xí)一些專門用途漢語教材。將這些教材語料補(bǔ)充上,能最大限度地保證漢語學(xué)術(shù)詞表收錄的詞就是他們?cè)趯W(xué)習(xí)和研究中遇到的詞。我們?cè)?jīng)考慮不自建漢語學(xué)術(shù)語料庫(kù),而直接在已有現(xiàn)代漢語語料庫(kù)的學(xué)術(shù)子庫(kù)中提取漢語學(xué)術(shù)詞匯。但是現(xiàn)有的現(xiàn)代漢語語料庫(kù)未提供各子語料庫(kù)的詳細(xì)樣本信息和相關(guān)數(shù)據(jù),也就無法進(jìn)行詞的廣泛分布、均勻分布和學(xué)科指數(shù)等指標(biāo)計(jì)算。下一步的研究如果還是通過自建語料庫(kù)的方式來構(gòu)建詞表,有必要加大語料庫(kù)的規(guī)模。三是要對(duì)通用漢語學(xué)術(shù)詞表中的學(xué)術(shù)詞匯進(jìn)行分級(jí)。由于本科生和研究生使用的學(xué)術(shù)詞匯存在顯著差異,不同年級(jí)的本科生之間也存在顯著差異,因此,需要對(duì)通用漢語學(xué)術(shù)詞表中的學(xué)術(shù)詞匯進(jìn)行分級(jí),區(qū)分出適用于不同學(xué)習(xí)階段的學(xué)術(shù)詞匯,最大化地滿足學(xué)術(shù)漢語的教學(xué)和學(xué)習(xí)需要。
參考文獻(xiàn)
[1] NATION P.Learning Vocabulary in Another Language[M].Cambridge:Cambridge University Press, 2001:18-20.
[2] COXHEAD A. A new academic word list[J]. TESOL Quarterly,2000,34(2):213-238.
[3] 劉迪麟,雷蕾. 學(xué)術(shù)詞表研究綜述[J].外語教學(xué), 2020(2):34-37.
[4] 劉宇紅,殷銘. 語言學(xué)語域的學(xué)術(shù)詞匯表與術(shù)語詞匯表[J].中國(guó)科技術(shù)語, 2022,24(2):47-54.
[5] GARDNER D, DAVIES M. A new academic vocabulary list[J]. Applied Linguistics, 2014, 35(3):305-327.
[6] VALIPOURI L,NASSAJI H. A corpus-based study of academic vocabulary in chemistry research articles[J]. Journal of English for Academic Purposes,2013,12(4):248-263.
[7] LIU J, HAN L. A corpus-based environmental academic word list building and its validity test[J]. English for Specific Purposes,2015, 39:1-11.
[8] LEI L, LIU D. A new medical academic word list: A corpus-based study with enhanced methodology[J]. Journal of English for Academic Purposes,2016, 22:42-53.
[9] 薛蕾. 基于漢語語言學(xué)論文語料庫(kù)的學(xué)術(shù)漢語詞匯析取及特征研究[D].昆明:云南師范大學(xué), 2017.
[10] 王笑然,王佶旻. 經(jīng)貿(mào)類本科專業(yè)學(xué)術(shù)漢語詞表研究[J].語言教學(xué)與研究,2022,(4):9-19.
[11] 錢隆,袁亮杰,王治敏.學(xué)科融合視域下醫(yī)學(xué)漢語學(xué)術(shù)詞表的構(gòu)建[J].云南師范大學(xué)學(xué)報(bào)(對(duì)外漢語教學(xué)與研究版),2023,21(3):31-40.
[12] 朱明玉. 通用學(xué)術(shù)漢語詞表研究[D].昆明:云南大學(xué),2020.
[13] EVANS S,GREEN C. Why EAP is necessary: A survey of Hong Kong tertiary students[J]. Journal of English for Academic Purposes,2007,6(1):3-17.
[14] 李泉. 論專門用途漢語教學(xué)[J].語言文字應(yīng)用, 2011(3):110-117.
[15] 張黎. 專門用途漢語教學(xué)[M].北京:北京語言大學(xué)出版社,2016:1-10.
[16] 單韻鳴. 專門用途漢語教材的編寫問題:以《科技漢語閱讀教程》系列教材為例[J].暨南大學(xué)華文學(xué)院學(xué)報(bào),2008(2):31-37.
[17] 高增霞,劉福英. 論學(xué)術(shù)漢語在對(duì)外漢語教學(xué)中的重要性[J].云南師范大學(xué)學(xué)報(bào)(對(duì)外漢語教學(xué)與研究版),2016(2):44-51.
[18] 王佶旻. 來華留學(xué)預(yù)科教育的漢語能力標(biāo)準(zhǔn)[J].語言教學(xué)與研究,2021(2):26-34.
[19] 張秀菊,羅煜寧,GAZI T E.提升來華留學(xué)研究生培養(yǎng)質(zhì)量的針對(duì)性措施研究:以河海大學(xué)為例[J].外國(guó)留學(xué)生工作研究,2020(2):24-28.
[20] 李海燕,張文賢,辛平.本科留學(xué)生學(xué)術(shù)漢語寫作課需求調(diào)查與課程建設(shè):以北京大學(xué)本科留學(xué)生學(xué)術(shù)漢語寫作通選課為例[J].國(guó)際漢語教育(中英文),2020(1):51-60.
[21] 肖珊,廖雅璐,徐成慧.“一帶一路”背景下高校留學(xué)生專門用途漢語能力需求分析模型及發(fā)展探討[J].語言產(chǎn)業(yè)研究,2021(3):198-206.
[22] 魯洲. 來華留學(xué)生專業(yè)學(xué)習(xí)的現(xiàn)狀與問題[J].外國(guó)留學(xué)生工作研究,2014(3):54-59.
[23] 張博. 學(xué)術(shù)漢語詞匯的主要特點(diǎn)及教學(xué)策略[J].世界漢語教學(xué),2022(4):517-530.
[24] NAGY W, TOWNSEND D. Words as Tools: Learning Academic Vocabulary as Language Acquisition[J]. Reading Research Quarterly,2012, 47(1):91-108.
[25] COWAN J R. Lexical and syntactic research for the design of EFL reading materials[J]. TESOL Quarterly,1974, 8(4):389-399.
[26] DURRANT P. To what extent is the Academic Vocabulary List relevant to university student writing?[J]. English for Specific Purposes,2016(43):1-13.
[27] 桂詩(shī)春. 多視角下的英語詞匯教學(xué)[M].上海:上海外語教育出版社, 2013:165-166.
[28] 衛(wèi)乃興. 語料庫(kù)語言學(xué)的方法論及相關(guān)理念[J].外語研究,2009(5):36-42.
[29] 郭曙綸. 漢語語料庫(kù)應(yīng)用教程[M].上海:上海交通大學(xué)出版社, 2013:9-11.
[30] 崔維霞,王均松. 基于語料庫(kù)的詞表創(chuàng)建原則及方法研究[J].中國(guó)科技術(shù)語,2013,15(2):15-19.
[31] 尹斌庸,方世增. 詞頻統(tǒng)計(jì)的新概念和新方法[J].語言文字應(yīng)用,1994(2):69-75.
[32] JULLIAND A, CHANG-RODRIGUEZ E. Frequency Dictionary of Spanish Words[M]. The Hague: Mouton,1964: LXVII-LXIX.
[33] DURRANT P. Discipline and level specificity in university students’ written vocabulary[J]. Applied Linguistics,2014,35(3):328-356.
作者簡(jiǎn)介:高松(1982—),女,博士,大連外國(guó)語大學(xué)漢學(xué)院副教授,碩士生導(dǎo)師。研究方向?yàn)橛?jì)算語言學(xué)、對(duì)外漢語教學(xué)。主持國(guó)家社科基金、教育部人文社科基金項(xiàng)目等5項(xiàng)。出版學(xué)術(shù)專著1部,發(fā)表論文20余篇,獲得省級(jí)獎(jiǎng)項(xiàng)3項(xiàng)。通信方式:gaos_0808@163.com。
錢?。?996—),男,北京語言大學(xué)國(guó)際中文教育研究院在讀博士研究生。研究方向?yàn)檎Z料庫(kù)語言學(xué)、國(guó)際中文教育。通信方式:qianlong_blcu@163.com。
丁芊(1997—),女,安徽信息工程學(xué)院通識(shí)教育與外國(guó)語學(xué)院助教。研究方向?yàn)樵捳Z分析、功能語言學(xué)。通信方式:dingqian0801@163.com。