格桑多吉 扎西加
(西藏大學(xué)藏文信息技術(shù)研究中心 西藏拉薩 850000)
藏語(yǔ)言的定性分析與定量研究
格桑多吉 扎西加
(西藏大學(xué)藏文信息技術(shù)研究中心 西藏拉薩 850000)
隨著信息技術(shù)和計(jì)量方法的迅速發(fā)展,社會(huì)科學(xué)研究領(lǐng)域定量研究和定性分析方法得到迅速推廣,獲得了公認(rèn)的學(xué)術(shù)地位,“拿數(shù)據(jù)說話”已成為學(xué)術(shù)界的主流方法。尤其在語(yǔ)言研究領(lǐng)域計(jì)量研究法的運(yùn)用是現(xiàn)代詞匯研究的一個(gè)趨勢(shì)。文章采用定量研究和定性分析的方法,對(duì)藏語(yǔ)基礎(chǔ)詞匯的總詞量、文本數(shù)、詞種數(shù)、詞頻、詞性、頻次、詞長(zhǎng)等方面進(jìn)行研究,觀察藏語(yǔ)基礎(chǔ)詞匯的同時(shí),為藏語(yǔ)語(yǔ)言習(xí)得及教材編寫提供了依據(jù),也為字詞教學(xué)制定量化的教學(xué)目標(biāo)提供了較為科學(xué)的思路。同時(shí),這種計(jì)量方法的引入有助于開拓新的研究領(lǐng)域,有助于重新審視、考察、印證現(xiàn)有的詞匯理論和觀點(diǎn)。也就是說通過定量解決“有多少”的藏語(yǔ)基礎(chǔ)詞匯的數(shù)量問題,通過定性解決“是什么詞匯”、“有沒有這種詞匯”的性質(zhì)問題。
藏語(yǔ)教學(xué);藏語(yǔ)基礎(chǔ)詞匯;藏語(yǔ)語(yǔ)料;定量方法;定性方法
我國(guó)學(xué)者多年前就開始重視語(yǔ)言學(xué)的計(jì)量研究。著名教育學(xué)家陳鶴琴編寫的《語(yǔ)體文應(yīng)用字匯》于1925年完成,1928年由商務(wù)印書館出版,應(yīng)該算是第一部權(quán)威的漢字計(jì)量研究成果。馮志偉先生曾估測(cè)漢字熵值,并提出術(shù)語(yǔ)形成經(jīng)濟(jì)率和生詞增幅遞減率,同時(shí)和劉海濤一起提出了概率配價(jià)模型;周有光先生提出了漢字效用遞減率,并利用漢語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)來計(jì)算依存距離;范鳳祥分析了英語(yǔ)文本隨機(jī)詞匯的覆蓋率等,他們都使用計(jì)量的方法,來探索語(yǔ)言的某些數(shù)學(xué)特性。這些研究都是對(duì)于語(yǔ)言本身內(nèi)在規(guī)律的探討。什么是語(yǔ)言“定量研究”?因研究側(cè)重不同出現(xiàn)了多個(gè)定義,如蘇新春認(rèn)為:“計(jì)量研究,又叫定量研究,通過對(duì)語(yǔ)料進(jìn)行數(shù)的反映,以達(dá)到認(rèn)識(shí)語(yǔ)言規(guī)律和特點(diǎn)的目的?!盵1]趙家祥等認(rèn)為:“在科學(xué)研究中,對(duì)事物進(jìn)行數(shù)量分析,稱作定量研究?!盵2]唐鈺明則認(rèn)為:“所謂定量方法,就是將處于隨機(jī)狀態(tài)的某種語(yǔ)言現(xiàn)象給予一定的數(shù)量統(tǒng)計(jì),然后通過頻率、頻度、頻度鏈等量化形式來揭示這類隨機(jī)現(xiàn)象背后所隱藏的規(guī)律性?!盵3]
詞匯作為句子最基本的構(gòu)成單位在語(yǔ)言應(yīng)用中有著舉足輕重的作用,詞匯、句子、文章之間是點(diǎn)、線、面的關(guān)系,如果沒有詞匯也就談不上用句子和文章來傳遞信息、表達(dá)情感和溝通交流,因此,“語(yǔ)言說到底是由詞語(yǔ)組合而成的,語(yǔ)音是詞語(yǔ)的具體讀音的綜合,語(yǔ)法是詞語(yǔ)的具體的用法的概括,離開了詞語(yǔ)也就沒有語(yǔ)言而言”[4]。任何語(yǔ)言學(xué)習(xí)都不可能拋開詞匯的學(xué)習(xí),在藏語(yǔ)中詞匯同樣是最基本的表意單位?!罢Z(yǔ)言是語(yǔ)法化的詞匯,而不是詞匯化的語(yǔ)法,教師與學(xué)生應(yīng)以詞匯作為教學(xué)中心構(gòu)建語(yǔ)言知識(shí)體系。基于同樣的語(yǔ)言建構(gòu)機(jī)制,我們?cè)谀刚Z(yǔ)基礎(chǔ)教學(xué)中,也應(yīng)重視詞匯的重要意義”[5],藏區(qū)中小學(xué)的母語(yǔ)教學(xué)是一個(gè)以藏語(yǔ)文為基礎(chǔ),融合了其他各種資源的綜合性體系,將字詞作為基礎(chǔ)教學(xué)內(nèi)容的主導(dǎo)思想始終貫穿其中。因此,通過對(duì)學(xué)生所掌握藏語(yǔ)詞匯量進(jìn)行統(tǒng)計(jì)的方式來考察其實(shí)際語(yǔ)言能力是很有必要的。
在語(yǔ)言教學(xué)中,“詞語(yǔ)教學(xué)貫穿于中小學(xué)語(yǔ)文教學(xué)階段的全過程,從概念的理解、語(yǔ)句的表達(dá)和段意的概括,到文章內(nèi)容的歸納,以及中心思想的領(lǐng)會(huì),都離不開詞語(yǔ)這個(gè)要素。”[6]在以母語(yǔ)為主導(dǎo)語(yǔ)言的義務(wù)教育階段,詞匯教學(xué)不僅要貫穿始終,而且是重中之重。按照藏語(yǔ)文學(xué)習(xí)的傳統(tǒng)習(xí)慣,詞匯的識(shí)記誦讀作為一項(xiàng)基本功自古以來就備受重視,這是后續(xù)進(jìn)行篇章閱讀理解以及撰文寫作的前提和基礎(chǔ)。因此,詞匯教學(xué)是藏語(yǔ)教學(xué)中極為重要的組成部分,對(duì)于義務(wù)教育階段的學(xué)生而言更是如此。而詞匯教學(xué)中的層級(jí)問題即“什么階段應(yīng)該教什么詞匯,什么階段需要教多少詞匯”,對(duì)于詞匯教學(xué)的科學(xué)發(fā)展以及構(gòu)建實(shí)用性強(qiáng)、識(shí)記率高的學(xué)生詞匯平臺(tái)有著非同尋常的理論指導(dǎo)意義。
語(yǔ)言學(xué)應(yīng)當(dāng)屬于實(shí)驗(yàn)科學(xué),計(jì)量研究是語(yǔ)言研究中的一種重要手段,是通過對(duì)語(yǔ)言的結(jié)構(gòu)、分布、使用等要素進(jìn)行數(shù)量分析來揭示語(yǔ)言的狀態(tài)、性質(zhì)與特點(diǎn)的一種方法。它在實(shí)踐上具有鮮明的可操作性和直觀性,以及實(shí)驗(yàn)過程的記錄性,與語(yǔ)言性質(zhì)上的通用性與生僻性、普遍性與具體性等密切地相呼應(yīng)。因此,計(jì)量方法的運(yùn)用也就愈來愈受到學(xué)界的重視和普遍使用。本文依據(jù)藏語(yǔ)詞匯學(xué)、計(jì)量語(yǔ)言學(xué)和對(duì)比語(yǔ)言學(xué)的相關(guān)理論,建立語(yǔ)文教材語(yǔ)料庫(kù),對(duì)教材詞匯進(jìn)行了全面的計(jì)量研究。由于《藏語(yǔ)文》數(shù)據(jù)庫(kù)內(nèi)容豐富,計(jì)量研究以專題的形式進(jìn)行。進(jìn)行專題研究時(shí),對(duì)該專題范圍內(nèi)的語(yǔ)料要做到準(zhǔn)確、封閉與窮盡。準(zhǔn)確是指必須真實(shí)地反映《藏語(yǔ)文》的本來語(yǔ)言面貌,不能有訛誤?!胺忾]是將專題研究做到純化,不將無關(guān)的問題摻雜其中。窮盡是保證語(yǔ)料不出現(xiàn)缺損、遺漏,使計(jì)量研究反映出來的頻率、比例等數(shù)據(jù)真實(shí)可靠”[7]。根據(jù)研究?jī)?nèi)容的情況,本文確定的工作方案具體見藏文詞匯計(jì)量分析的基本流程圖(圖1)。
圖1 藏文詞匯計(jì)量分析的基本流程
語(yǔ)料庫(kù)包括了小學(xué)《藏語(yǔ)文》教材12本,語(yǔ)料規(guī)模為76680萬(wàn)詞次構(gòu)成,其中參與計(jì)量研究的課文數(shù)共為230篇。
課文體裁在一定程度上反映了整套教材的語(yǔ)言風(fēng)格和面貌,體現(xiàn)了教材編寫者的教育理念。各類體裁的分布及用詞情況,可以反映出教材各體裁的詞量分布情況。本調(diào)查將藏語(yǔ)文教材的文章體裁分為記敘文、說明文、議論文、散文、詩(shī)歌、小說、童話、戲劇、格言、諺語(yǔ)、謎語(yǔ)、寫作、辭藻8類,分布如圖2所示。
圖2顯示:說明文篇數(shù)最多,為54篇,占文章總數(shù)的23.5%;小說、兒歌、辭藻的篇數(shù)最少,各為1篇,占文章總數(shù)的0.4%。按文章體裁分類的課文數(shù)排序?yàn)椋赫f明文>敘事文>故事>散文>教誨>格言>語(yǔ)法>寫作>謎語(yǔ)>民歌>成語(yǔ)>小說等。從各冊(cè)文章體裁分布表來看,各冊(cè)文章體裁的分布較為分散,體現(xiàn)了分散教學(xué)的理念。各冊(cè)均以說明文為主,小說和議論文各只出現(xiàn)了1篇,說明文主要分布在第5冊(cè)-10冊(cè),詩(shī)歌和散文在各冊(cè)分布較為均勻。另外,隨著冊(cè)號(hào)的增加,課文數(shù)量整體呈現(xiàn)下降趨勢(shì)。
圖2 文本分布圖
語(yǔ)料的計(jì)量分析是定量研究中非常重要的一環(huán),但這只是它的外部表現(xiàn),不能以為語(yǔ)料庫(kù)量的統(tǒng)計(jì)就完成了所有的研究工作。語(yǔ)料的計(jì)量工作并不意味著自動(dòng)獲得研究意義和顯示內(nèi)在的價(jià)值,它只是理論研究的一種手段。定量研究中的語(yǔ)料選取、語(yǔ)料標(biāo)注、量化分析,每一個(gè)環(huán)節(jié)都只有依靠理論的指導(dǎo),才會(huì)使定量數(shù)據(jù)獲得生命力。
(一)詞類分布
對(duì)從語(yǔ)料庫(kù)中提取出來的詞語(yǔ)及詞頻,應(yīng)該如何處理才更為合理,更能真實(shí)地反映詞語(yǔ)的存在狀況,這也是研究者特別注意的地方。反映詞語(yǔ)通用度的最直觀的方法就是看它在調(diào)查對(duì)象語(yǔ)料中出現(xiàn)的次數(shù),通常稱之為“詞次”。這確實(shí)是反映詞語(yǔ)使用程度的一個(gè)重要標(biāo)志。但如果調(diào)查對(duì)象數(shù)量龐大,類型眾多,且性質(zhì)相差較大時(shí),這時(shí)考慮到詞語(yǔ)是出現(xiàn)于局部還是整體,也就成為一個(gè)重要的參考依據(jù)。把“詞次”的因素加上“分布”的因素,也就成為正確反映該詞分布情況的“通用度”了。
根據(jù)藏語(yǔ)自動(dòng)詞性標(biāo)注的實(shí)際需要,依照“功能分類”思想,擬提出信息處理用藏語(yǔ)的分類方案,并擬定了相應(yīng)的標(biāo)記符號(hào):一般名詞(n)、動(dòng)名詞(nv)、及物動(dòng)詞(vi)、不及物動(dòng)詞(vt)、判斷動(dòng)詞(vp)、助動(dòng)詞(ux)、形容詞(a)、副詞(d)、否定副詞(df)、數(shù)詞(m)、量詞(q)、目的助詞(um)、時(shí)態(tài)助詞(us)、原因助詞(uy)、語(yǔ)氣助詞(yy)、祈愿助詞(uq)、終結(jié)助詞(uz)、狀態(tài)詞(z)、擬聲詞(e)、嘆詞(o)、成語(yǔ)(x)、格助詞(p)、連詞(c)等共15類[8],在此基礎(chǔ)上,對(duì)詞類分布進(jìn)行了統(tǒng)計(jì)。(見表1)
表1 藏語(yǔ)詞語(yǔ)分類及出現(xiàn)頻次
圖3 詞類分布圖
表1顯示:名詞數(shù)最多,出現(xiàn)9767次,占總詞類的45.8%,數(shù)量最少的是目的助詞,為43次,占總詞類的0.1%。按詞類的出現(xiàn)次數(shù)的高低可以排序?yàn)椋好~>動(dòng)詞>形容詞>連詞>格助詞等,具體數(shù)據(jù)如圖3所示。
(二)高頻詞分布
根據(jù)語(yǔ)料庫(kù)語(yǔ)言學(xué)的理論和研究方法對(duì)語(yǔ)言的各個(gè)考查項(xiàng)進(jìn)行了抽取、統(tǒng)計(jì)和分析。比如:對(duì)總詞量、文本數(shù)、詞種數(shù)、詞頻、詞性、頻次、詞長(zhǎng)等分布特征方面全面、細(xì)致地計(jì)量分析,得出教材語(yǔ)料庫(kù)的詞匯信息表(見表2)。表2數(shù)據(jù)表明,10個(gè)高頻詞中9個(gè)是虛詞,因此,藏語(yǔ)字詞教學(xué)量化中虛詞的研究和描述極為重要,具體詳細(xì)數(shù)據(jù)如表2所示。
通過以上數(shù)據(jù)范例,我們對(duì)小學(xué)藏語(yǔ)文教材有了一個(gè)全面而深入的了解,量化研究了教材的各個(gè)方面,獲得了大量的數(shù)據(jù)。從語(yǔ)料顯示小學(xué)全部課本的詞種數(shù)為9373詞,76680萬(wàn)詞次,其中低頻率詞占總詞匯的87.23%,單音節(jié)和雙音節(jié)占87.5%,三音節(jié)和成語(yǔ)、習(xí)語(yǔ)等占22.5%。這些數(shù)據(jù)為之后藏語(yǔ)詞匯研究及藏語(yǔ)文教材的編寫提供理論依據(jù),另一方面也為字詞教學(xué)制定量化的教學(xué)目標(biāo)提供較為科學(xué)的思路。
在中小學(xué)漢語(yǔ)文教學(xué)中,詞匯統(tǒng)計(jì)及分級(jí)工作已比較成熟,要求九年義務(wù)教育階段的中小學(xué)生“至6年級(jí)應(yīng)累計(jì)認(rèn)識(shí)常用漢字3000個(gè),其中2500個(gè)左右會(huì)寫,至9年級(jí)累計(jì)認(rèn)識(shí)常用漢字3500個(gè),其中3000個(gè)左右會(huì)寫”。[9]作為基礎(chǔ)教育階段母語(yǔ)教學(xué)的主要載體,小學(xué)藏語(yǔ)文教材摘錄了大量體現(xiàn)藏民族悠久的歷史和民族傳統(tǒng)文化的文章,詞匯是教材的重要組成部分,但是藏語(yǔ)教學(xué)研究中缺乏常用詞和教材詞匯的計(jì)量分析,使得藏語(yǔ)文教材欠缺較為科學(xué)的組織方法。本文的研究不僅對(duì)中小學(xué)教材的編寫提供了科學(xué)的參照依據(jù),同時(shí)為藏語(yǔ)自然語(yǔ)言處理的研究奠定了一定的基礎(chǔ)。
表2 高頻詞分布
與此同時(shí),我們也認(rèn)識(shí)到藏語(yǔ)母語(yǔ)學(xué)習(xí)是一個(gè)將習(xí)得與學(xué)得有機(jī)結(jié)合的過程,而中小學(xué)生對(duì)書面語(yǔ)系統(tǒng)地掌握主要靠學(xué)得而非習(xí)得。在學(xué)得的過程中,藏語(yǔ)文課本成為了最主要的信息載體,課本中的字、詞、句又形成了一個(gè)相對(duì)獨(dú)立的知識(shí)體系,是中小學(xué)生詞匯學(xué)習(xí)的主要對(duì)象,無論是數(shù)量、類別還是難易程度,對(duì)詞匯層級(jí)工作而言都具有一定的代表性。因此,以中小學(xué)藏語(yǔ)文課本為基礎(chǔ)建立語(yǔ)料庫(kù)的工作蘊(yùn)含著極大的研究?jī)r(jià)值,一直以來都備受關(guān)注。
綜上所述,本文既對(duì)藏語(yǔ)詞匯本身進(jìn)行了研究,如藏語(yǔ)詞匯的平均長(zhǎng)度、基本詞匯的數(shù)量及其覆蓋率等,又從教學(xué)的角度出發(fā),統(tǒng)計(jì)了通用課本詞匯的頻率、頻次和分布度等數(shù)據(jù),并由此大致推測(cè)出我國(guó)藏區(qū)具備小學(xué)文化水平的學(xué)生對(duì)藏語(yǔ)文詞匯的掌握情況。上述數(shù)據(jù)和結(jié)論為評(píng)價(jià)和修訂現(xiàn)行通用教材提供了客觀依據(jù),若能將語(yǔ)料庫(kù)統(tǒng)計(jì)方法應(yīng)用于今后的教材編寫中,教材質(zhì)量必將得到質(zhì)的飛躍,我國(guó)藏區(qū)中小學(xué)藏語(yǔ)文教學(xué)水平和質(zhì)量也將隨之大幅提升。
[1]蘇新春.詞匯計(jì)量及實(shí)現(xiàn)[M].北京:商務(wù)印書館,2010:7.
[2]趙家祥,聶錦芳,張立波.馬克思主義哲學(xué)教程[M].北京:北京大學(xué)出版社,2011:159.
[3]唐鈺明.定量方法與古文字資料的詞匯語(yǔ)法研究[J].海南師范學(xué)院學(xué)報(bào),1991(4).
[4]胡明揚(yáng).對(duì)外漢語(yǔ)教學(xué)中詞匯教學(xué)的若干問題[J].語(yǔ)言文字應(yīng)用,1997,21(1):12-17.
[5][9]陸清.試論中小學(xué)語(yǔ)文課本詞匯計(jì)量研究[J].語(yǔ)文學(xué)刊,2004,45(6):23-25.
[6]袁冉.對(duì)外漢語(yǔ)教材與漢語(yǔ)母語(yǔ)語(yǔ)文教材詞匯層級(jí)性對(duì)比研究[D].廈門:廈門大學(xué),2008:2.
[7]蘇新春.關(guān)于《現(xiàn)代漢語(yǔ)詞典》詞匯計(jì)量研究的思考[J].世界漢語(yǔ)教學(xué),2001,58(4):39-47.
[8]扎西加,索南尖措.基于藏語(yǔ)信息處理的詞類體系研究[J].西藏大學(xué)學(xué)報(bào),2008,23(1):36-41.
The Qualitative Analysis and Quantitative Study of Tibetan Language
Gyesang Dorji Tashi Gyal
(Tibetan Information Technology Research Center,Tibet University Lhasa,Tibet 850000)
Along with the rapid development of information technology and metering methods,the method of qualitative analysis and quantitative study has been wildly promoted in the field of social science study.“Speaking with the data”is now becoming a new mainstream in the academic world.Particularly,it has become a new trend to apply the metering study method in the field of modern language study.This article employed the method of quantitative study and qualitative analysis to study the basic Tibetan words in following aspects:the total number of words,the number of texts,the number of word types,word frequencies,word types,and word length of the basic Tibetan words and so on.By observing the basic language units of Tibetan,the article built a foundation for compiling and producing Tibetan language study materials and curriculums,and it also provided scientific thoughts for formulating a quantification teaching objectives in the language teaching system.Meanwhile,applying this type of metering methods would definitely expand the on-going researches into new fields,and also would contribute to review,observe and testify the current word theories again from a very fresh angel.In another words,It means that we could use the quantitative analysis to solve the question of“how many basic words are there in Tibetan language?”and use the qualitative study to solve the question of“what type of word is it?”and“Is there this type of the word?”.
Tibetan teaching;Tibetan basic vocabulary,Tibetan corpus;quantitative method;qualitative method
10.16249/j.cnki.1005-5738.2015.01.018
H214
A
:1005-5738(2015)01-131-05
[責(zé)任編輯:周曉艷]
2014-10-14
2011年度國(guó)家自然科學(xué)基金項(xiàng)目“基于群體智能涌現(xiàn)的藏文網(wǎng)絡(luò)輿情分析及突發(fā)事件預(yù)警機(jī)制研究”(項(xiàng)目號(hào):61165013),2011年度國(guó)家自然科學(xué)基金項(xiàng)目“藏語(yǔ)依存樹庫(kù)的構(gòu)建”(項(xiàng)目號(hào):61163043),2012年度國(guó)家自然科學(xué)基金項(xiàng)目“基于Ontology的藏文語(yǔ)料庫(kù)檢索關(guān)鍵技術(shù)研究”(項(xiàng)目號(hào):61262053)階段性成果。
格桑多吉,男,藏族,西藏亞東人,西藏大學(xué)藏文信息技術(shù)研究中心副教授,主要研究方向?yàn)椴匚男畔⑻幚怼?/p>
西藏大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2015年1期