摘要:隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,語(yǔ)料庫(kù)語(yǔ)言學(xué)成為新的研究領(lǐng)域。本文從語(yǔ)域語(yǔ)言的研究入手,以體育語(yǔ)域?yàn)槔兄企w育語(yǔ)域語(yǔ)料庫(kù),利用語(yǔ)料庫(kù)進(jìn)行定性和定量的分析,通過(guò)詞匯統(tǒng)計(jì)和詞頻分級(jí),探討體育語(yǔ)言的特點(diǎn),并提取專用詞匯,制成詞表,以此為基礎(chǔ)進(jìn)行更深層次的研究。而研究的成果則可以應(yīng)用于語(yǔ)言教學(xué)、詞典編撰等領(lǐng)域,也為機(jī)器翻譯提供了一定的參考。
關(guān)鍵詞:語(yǔ)料庫(kù)語(yǔ)言學(xué) 語(yǔ)域研究 應(yīng)用
語(yǔ)料庫(kù)(corpus或corpora,corpuses(復(fù)))是指按照一定的語(yǔ)言學(xué)原則,運(yùn)用隨機(jī)抽樣的方法,收集自然出現(xiàn)的連續(xù)語(yǔ)言運(yùn)用文本或話語(yǔ)片段而建成的具有一定容量的大型電子文本庫(kù)。語(yǔ)料庫(kù)語(yǔ)言學(xué)就是在文本語(yǔ)料的基礎(chǔ)上進(jìn)行語(yǔ)言研究的一門(mén)學(xué)科。語(yǔ)料庫(kù)是作為信息載體的大量語(yǔ)言資料的集合。以語(yǔ)料庫(kù)為手段研究語(yǔ)言的主要目的是描寫(xiě)和解釋語(yǔ)言中的詞匯和句法的各種問(wèn)題,以及處理自然語(yǔ)言的各種課題。語(yǔ)言研究者可以根據(jù)研究課題的要求,使用“標(biāo)注”手段(即給語(yǔ)料的詞匯和其它形式加上識(shí)別和分類(lèi)標(biāo)記)和檢索工具,分析語(yǔ)料庫(kù)中的語(yǔ)料,對(duì)語(yǔ)言現(xiàn)象進(jìn)行定量和定性的分析。
一、語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的現(xiàn)狀
語(yǔ)料庫(kù)方法應(yīng)用于特殊用途英語(yǔ)的研究在國(guó)外已具規(guī)模。英國(guó)學(xué)者運(yùn)用以語(yǔ)料庫(kù)和計(jì)算機(jī)技術(shù)為基礎(chǔ)的多維度分析法(multi-dimensional analysis)調(diào)查了生物學(xué)論文與歷史學(xué)論文兩種特殊用途英語(yǔ)的語(yǔ)言特征。(B1bin,Conrad,Reppen,《語(yǔ)料庫(kù)語(yǔ)言學(xué)》(Corpus Linguisttcs),2000目前已建成了幾個(gè)較大的語(yǔ)料庫(kù),如SEU語(yǔ)料庫(kù)、布朗語(yǔ)料庫(kù)、LOB語(yǔ)料庫(kù)等。其中LOB語(yǔ)料庫(kù)不僅進(jìn)行了詞性的標(biāo)注,而且進(jìn)行了句法標(biāo)注。在國(guó)內(nèi),利用語(yǔ)料庫(kù)研究漢語(yǔ)也得到了一批學(xué)者的支持。從20世紀(jì)70年代末開(kāi)始,我國(guó)陸續(xù)建成了一批大規(guī)模的用于漢語(yǔ)計(jì)量分析研究的語(yǔ)料庫(kù),如北京語(yǔ)言文化大學(xué)建立的漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)、臺(tái)灣中央研究院平衡語(yǔ)料庫(kù)、國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)等。20世紀(jì)90年代以來(lái)語(yǔ)料庫(kù)語(yǔ)言學(xué)快速發(fā)展。大規(guī)模語(yǔ)料庫(kù)的建成和對(duì)語(yǔ)料庫(kù)的深加工都反映了這種研究方法的廣泛運(yùn)用,將語(yǔ)料庫(kù)廣泛應(yīng)用于與語(yǔ)言相關(guān)的各個(gè)領(lǐng)域逐漸成了現(xiàn)在研究的趨勢(shì)。
二、語(yǔ)言的分層性及語(yǔ)域性研究
李葆嘉先生(2003)將人的語(yǔ)言分為三個(gè)層面:思維方式差異的語(yǔ)層性、應(yīng)用領(lǐng)域差異的語(yǔ)域性和文本范式差異的語(yǔ)體性。他指出:“盡管言語(yǔ)思維成為現(xiàn)代人的本質(zhì),但是精神世界中仍然積淀著早期意識(shí)方式的孑遺,言語(yǔ)行為中也同樣包含著相應(yīng)表達(dá)方式的層壘。人類(lèi)思維交際符號(hào)演變的連續(xù)統(tǒng)積淀在現(xiàn)時(shí)言語(yǔ)中并進(jìn)一步典型化,由此形成言語(yǔ)的層壘包容性或分層性,即語(yǔ)言內(nèi)部存在確實(shí)有別但相互滲透的不同層級(jí)。”他將人類(lèi)語(yǔ)言分為六個(gè)語(yǔ)層,由高到低分別為:思辨性語(yǔ)層、藝術(shù)性語(yǔ)層、行業(yè)性語(yǔ)層、日常性語(yǔ)層、含混性語(yǔ)層、體態(tài)性語(yǔ)層,并分析了各個(gè)語(yǔ)層的作品形態(tài)、主要特征和思維傾向。這是從橫向思維方式上的分層級(jí),他繼而認(rèn)為,言語(yǔ)系統(tǒng)還存在縱向應(yīng)用功能的分領(lǐng)域。這里所說(shuō)的“語(yǔ)域”是專指社會(huì)不同應(yīng)用領(lǐng)域所造成的“社會(huì)方言”,即植根于社會(huì)分工的不同專門(mén)領(lǐng)域的言語(yǔ)表現(xiàn)。這一語(yǔ)域并非社會(huì)語(yǔ)言學(xué)意義上的社會(huì)方言。(李葆嘉,2003)因此依據(jù)社會(huì)分工的不同,可以劃分出一系列的語(yǔ)域。如日常性語(yǔ)層可以劃分為家庭交流語(yǔ)域和社會(huì)交往語(yǔ)域。而行業(yè)性語(yǔ)層則可以劃分為“經(jīng)濟(jì)語(yǔ)域(生產(chǎn)性、流通性、服務(wù)性和管理性)、公務(wù)語(yǔ)域(政務(wù)性、政論性)、法律語(yǔ)域、傳媒語(yǔ)域(新聞傳媒、出版?zhèn)髅?、影視傳?、教育語(yǔ)域、競(jìng)技語(yǔ)域等”。在語(yǔ)域的基礎(chǔ)上,他又進(jìn)一步提出“語(yǔ)體”的概念。這里所說(shuō)的“語(yǔ)體”“不是通常的泛指性語(yǔ)體或言語(yǔ)的功能變體,而是限定在某一語(yǔ)域基礎(chǔ)上所形成的專門(mén)性用語(yǔ)、慣用表達(dá)式和篇章規(guī)范性的文本范式總和,接近于通常所說(shuō)文體”。簡(jiǎn)單地講,“語(yǔ)體就是在某一語(yǔ)域基礎(chǔ)上形成的文本范式,其顯著特征就是固定體裁”。如體育語(yǔ)域的體育規(guī)則、法律語(yǔ)域的法律文書(shū)、經(jīng)濟(jì)語(yǔ)域的商務(wù)文書(shū)等都屬于語(yǔ)體的范疇。基于語(yǔ)層性、語(yǔ)域性和語(yǔ)體性的三級(jí)劃分,李葆嘉先生進(jìn)一步提出了分領(lǐng)域言語(yǔ)研究的具體步驟,提出了建立各個(gè)特定語(yǔ)域語(yǔ)料庫(kù)的構(gòu)想,并制定了比較詳細(xì)的技術(shù)路線。
比如搜集以體育、商務(wù)、法律等為主題的涵蓋社會(huì)各個(gè)方面的真實(shí)語(yǔ)料制成語(yǔ)料庫(kù),并在此基礎(chǔ)上進(jìn)行一定的語(yǔ)言研究,如詞性的標(biāo)注、詞匯的提取和搭配,專用詞表的建立,詞匯的語(yǔ)義分類(lèi)及義征分析等,這些研究成果可以廣泛應(yīng)用于語(yǔ)言教學(xué)、詞典編撰等領(lǐng)域,也為機(jī)器翻譯提供了一定的參考。下面就以體育語(yǔ)域?yàn)槔谶\(yùn)用語(yǔ)料庫(kù)語(yǔ)言學(xué)基礎(chǔ)上進(jìn)行體育賽事語(yǔ)言的研究。
三、體育語(yǔ)域語(yǔ)料庫(kù)的研制
所謂“語(yǔ)域”,這里“專指社會(huì)不同應(yīng)用領(lǐng)域所造成的‘社會(huì)方言’,即植根于社會(huì)分工的不同專門(mén)領(lǐng)域的言語(yǔ)表現(xiàn)”。(李葆嘉,2003)應(yīng)用于體育領(lǐng)域的言語(yǔ)即“體育語(yǔ)域”,“體育語(yǔ)言”包含于“體育語(yǔ)域”,體育賽事語(yǔ)域是體育語(yǔ)域中的重要部分。本文所指的體育語(yǔ)域的研究包括體育賽事活動(dòng)各個(gè)方面的研究,既包括了體育賽事(競(jìng)技)項(xiàng)目,體育競(jìng)賽規(guī)則中使用的語(yǔ)言,又包括了有關(guān)體育賽事活動(dòng)的信息傳播和和對(duì)體育活動(dòng)進(jìn)行評(píng)價(jià)的語(yǔ)言。體育語(yǔ)域語(yǔ)料庫(kù)涵蓋了體育賽事活動(dòng)各個(gè)方面的語(yǔ)料的搜集、統(tǒng)計(jì)和處理。
體育語(yǔ)域語(yǔ)料庫(kù)的研制,首先要確定語(yǔ)料庫(kù)的建設(shè)目標(biāo)、標(biāo)本的分布原則和采樣的途徑。這是語(yǔ)料庫(kù)建設(shè)的準(zhǔn)備階段,在這一階段中,我們需要對(duì)體育語(yǔ)域語(yǔ)料庫(kù)的建設(shè)目標(biāo)和體育賽事活動(dòng)的基本環(huán)節(jié)有一個(gè)清楚的認(rèn)識(shí),在此基礎(chǔ)上確立語(yǔ)料庫(kù)的體例、規(guī)模及語(yǔ)料采集原則。此次建立的體育競(jìng)技語(yǔ)域語(yǔ)料庫(kù)分為兩大部分,共80A萬(wàn)字。分類(lèi)的主要依據(jù)是語(yǔ)料所產(chǎn)生的體育賽事活動(dòng)的不同環(huán)節(jié)。第一部分“競(jìng)技賽事”和“競(jìng)賽規(guī)則”,“競(jìng)技賽事”語(yǔ)料主要產(chǎn)生于體育競(jìng)技的各個(gè)項(xiàng)目的定義和分類(lèi),“競(jìng)賽規(guī)則”包括在各個(gè)體育競(jìng)技項(xiàng)目中所產(chǎn)生的競(jìng)賽規(guī)則和裁判法。這兩個(gè)部分都屬于“體育賽事”;第二部分“賽事傳播”,主要產(chǎn)生于新聞媒體對(duì)體育賽事活動(dòng)和體育信息的報(bào)道評(píng)論,其中包括少量的解說(shuō),即直播評(píng)論。
在語(yǔ)料搜集完成后,對(duì)于所涉及的文本進(jìn)行編目,并設(shè)計(jì)分詞和詞性標(biāo)注程序進(jìn)行機(jī)器自動(dòng)分詞和詞性標(biāo)注,再進(jìn)行人工校對(duì),形成附碼語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的建設(shè)歷時(shí)一年。最終建成的體育語(yǔ)域語(yǔ)料庫(kù)包含文件814個(gè),規(guī)模為80.4萬(wàn)字
四、體育語(yǔ)域詞匯的統(tǒng)計(jì)和分析
體育語(yǔ)域語(yǔ)料庫(kù)的分詞校對(duì)工作完成之后,要使用詞頻統(tǒng)計(jì)軟件對(duì)其進(jìn)行詞頻統(tǒng)計(jì)。由于體育語(yǔ)域語(yǔ)料庫(kù)涉及體育語(yǔ)域的各個(gè)方面,不同的領(lǐng)域使用的詞匯有一定的特殊性,因此,將語(yǔ)料分為兩大部分,即體育賽事和賽事傳播,分別進(jìn)行統(tǒng)計(jì)和研究。
1 體育語(yǔ)域詞匯的統(tǒng)計(jì)
體育語(yǔ)域語(yǔ)料庫(kù)規(guī)模為80.4萬(wàn)字。其中體育賽事運(yùn)動(dòng)部分初次統(tǒng)計(jì),包含不同詞語(yǔ)16204條,總詞次283522;賽事傳播部分初次統(tǒng)計(jì),包含不同詞語(yǔ)21239條,總詞次245088。經(jīng)過(guò)整理和校改之后,體育賽事部分剩余11883條詞語(yǔ),共計(jì)頻次222674條。
2 體育語(yǔ)域中體育賽事的語(yǔ)言特點(diǎn)及專用詞匯的提取
要在體育語(yǔ)域語(yǔ)料庫(kù)中研究賽事語(yǔ)言的特點(diǎn),單憑對(duì)統(tǒng)計(jì)詞表的研究是遠(yuǎn)遠(yuǎn)不夠的,孤立地看待一個(gè)專業(yè)的語(yǔ)料庫(kù),并不能發(fā)現(xiàn)它的特點(diǎn),因此,將其與一個(gè)通用語(yǔ)料庫(kù)統(tǒng)計(jì)出來(lái)的詞匯進(jìn)行比較是必要的。這里我們只選取體育賽事詞表的前200詞與通用詞表《現(xiàn)代漢語(yǔ)頻率詞典·表二(2)頻率最高的前8000個(gè)詞詞表》(以下簡(jiǎn)稱《表二》)的前200個(gè)詞進(jìn)行比較。之所以選擇這個(gè)詞表,是因?yàn)槠浣y(tǒng)計(jì)的語(yǔ)料具有通用語(yǔ)料庫(kù)的特點(diǎn),體現(xiàn)一般交際語(yǔ)言的詞匯情況,符合比較的要求。
通過(guò)比較結(jié)果顯示,共有詞為一些語(yǔ)法功能詞(助詞、介引詞、限制詞等)。除此之外,表示動(dòng)作的詞最多。共有詞匯中有8個(gè)詞是體育賽事200詞的前10位,可見(jiàn)體育賽事部分的最高頻詞語(yǔ)多為日常用語(yǔ)中的常用詞,而并不具有明顯的體育競(jìng)技特色,與日常語(yǔ)域有著一定的共同性。但是我們也必須看到,共同詞只占總詞數(shù)的32%,比例相對(duì)較小,體育賽事詞匯大部分的詞是有別于日常語(yǔ)域的。賽事200詞中有136個(gè)是現(xiàn)漢200詞所沒(méi)有的,占到總數(shù)的68%,這說(shuō)明體育賽事和日常語(yǔ)域有一定的差異性。
以上比較的規(guī)模雖然不大,但已經(jīng)充分顯示出兩表在詞匯上存在較大的差別,體育賽事部分的語(yǔ)料中含有大量的體育競(jìng)技專用詞匯,造成這種差別的原因是它們所屬的語(yǔ)域不同。體育賽事200詞屬于體育賽事語(yǔ)域,因此詞匯必然體現(xiàn)體育賽事的競(jìng)技特點(diǎn)。而《表二》統(tǒng)計(jì)的語(yǔ)料屬于交際語(yǔ)域,語(yǔ)料涉及報(bào)刊政論文章及專著、科普書(shū)刊、劇本和日常用語(yǔ)、各類(lèi)體裁的文學(xué)作品等四類(lèi)。它們比較結(jié)果的不同,恰好證明了語(yǔ)域不同所帶來(lái)的詞匯的差異,以及各自表現(xiàn)出的不同特點(diǎn),反映出語(yǔ)域的獨(dú)特模式和規(guī)則。
五、體育賽事詞匯的其他研究
在前200詞比較的基礎(chǔ)上,我們提取了體育賽事的專用詞匯。下面我們可以運(yùn)用同樣的方法,擴(kuò)大研究的范圍,將所有體育賽事語(yǔ)料中的體育賽事專用詞匯提取出來(lái),制成詞表。提取出來(lái)的詞表將為體育教學(xué)、體育語(yǔ)言詞典編撰和體育語(yǔ)言學(xué)的建立提供參考。
同時(shí),我們還可以對(duì)體育賽事專用詞匯進(jìn)行語(yǔ)義分類(lèi)和義征分析。比如從體育賽事專用詞匯的語(yǔ)義出發(fā),我們可以將其分類(lèi),如組織、場(chǎng)地、項(xiàng)目等。每個(gè)大類(lèi)下面,根據(jù)不同的意義,又分成了不同的小類(lèi)。比如體育賽事的組織,下面又可以分為不同的義類(lèi)。在語(yǔ)料庫(kù)的基礎(chǔ)上,我們可以繼續(xù)探究體育語(yǔ)域的語(yǔ)義網(wǎng)絡(luò)的關(guān)系。
這種研究的方法還可以推廣到其他的特定語(yǔ)域中。隨著研究的深入,可以發(fā)現(xiàn)詞匯間隱藏的語(yǔ)義聯(lián)系,從而有利于建構(gòu)不同的語(yǔ)義場(chǎng)體系,探尋一個(gè)完整的語(yǔ)義系統(tǒng)。
參考文獻(xiàn):
[1]Biber等.CorpusLinguistics[M].外語(yǔ)教學(xué)與研究出版社.劍橋大學(xué)出版社,2000.
[2]北京語(yǔ)言學(xué)院語(yǔ)言教學(xué)研究所.現(xiàn)代漢語(yǔ)頻率詞典[M].北京語(yǔ)言學(xué)院出版社,1986.
[3]陳安槐等.體育大辭典[M].上海辭書(shū)出版社,2000.
[4]段慧明等.大規(guī)模漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)的制作與使用[J].語(yǔ)言文字應(yīng)用,2002,(2).
[5]董振東,董強(qiáng).面向信息處理的詞匯語(yǔ)義研究中的若干問(wèn)題[J].語(yǔ)言文字應(yīng)用,2001,(3).
[6]黃昌寧,李涓子.語(yǔ)料庫(kù)語(yǔ)言學(xué)[M].商務(wù)印書(shū)館,2002.
[7]李葆嘉.論言語(yǔ)的語(yǔ)層性、語(yǔ)域性和語(yǔ)體性[J].語(yǔ)文研究,2003,(1).
[8]衛(wèi)乃興等.語(yǔ)料庫(kù)應(yīng)用研究[M].上海外語(yǔ)教育出版社.2005.