宋婧婧
(廈門理工學院外語系,福建廈門361024)
近30年來基于漢語語料庫的詞匯研究日趨增多,但仍有可拓展之處:其一是漢語學界在將語料庫、詞匯與語體進行比較研究方面存在不足,而英語界這一研究卻已成趨勢;其二是對語體間的差異性、比較性研究不足,構成語體的變量較多,找到具有可比性的語料不易。此外基于漢語口語語料庫的詞匯研究相對較少。
國外相關研究中,Ure[1]、Poulisse 和 Bongaert[2]等的研究表明,書面語篇與口語語篇在詞匯變化性與詞匯密度上存在較大的差異。此外,Biber[3]、胡顯耀[4]、桂詩春[5]也曾利用更多因子來進行語體研究。籍此建立語體區(qū)分指標,在封閉領域的不同語料中通過計量手段探討指標與語體的關系,是一種較新的嘗試。
本研究選取有聲媒體電視訪談節(jié)目、平面媒體語料作為比照對象,并輔之以新聞播報語料作為參照系,其原因在于:(1)電視訪談節(jié)目代表著傳媒語場中最為口語化的一極;(2)平面媒體中的報紙為傳媒語料中書面語一極,尤其是以嚴謹正式著稱的《人民日報》語料;(3)參照系為新聞播報語料,其與訪談節(jié)目同樣以聲音為傳播媒介,但播報前的文字準備又賦予其嚴謹、正式的特征,正式程度甚至高于一般的書面表達,同時新聞聯(lián)播沒有交互性。此外,從產(chǎn)生途徑看,平面媒體作為有聲媒體的報道“母體”,是原型語用體式,這種關系使本研究更具有比照意義。
本研究選取了電視訪談節(jié)目語料(《魯豫有約》、《實話實說》、《7日7頻道》以及《面對面》四個欄目的轉(zhuǎn)寫語料)、平面媒體語料(選自《人民日報》等報紙)、新聞播報語料(選自中央電視臺《新聞聯(lián)播》節(jié)目)。三類語料均為200萬字左右,總量約為615萬字,平面媒體語料已是熟語料,電視訪談與新聞播報語料均經(jīng)過機器分詞。其中電視訪談語料來自于“國家語言資源監(jiān)測與研究中心有聲媒體語言分中心”。《人民日報》語料來自人民日報標注語料庫。
圖1 語料庫形式圖
人工干預重點排除機器分詞與詞性標注錯誤,主要具有但不限于如下四類:(1)音頻轉(zhuǎn)寫文本產(chǎn)生的錯誤(如錯別字);(2)語素組合多樣性引發(fā)的機器分詞錯誤;(3)自動分詞未識別專名(人名為主);(4)不合本語料處理的規(guī)則:如“愿不愿意”的原形應是“愿意不愿意”,處理方法為在“愿”后補上語素“意”,計為“愿意”一詞。人工干預可能無法排除所有的錯誤,但細微的差異不影響總體統(tǒng)計結果。
語料分析工具為access數(shù)據(jù)庫軟件,在其查詢功能無法完成的復雜計算時,以ultra edit的正則表達式作為補充。除去標點后的語料庫形式如圖1所示。
本研究指標的擬定綜合了詞匯學、語體學以及語料庫語言學的研究成果,以及我們的先期研究。有些指標主要立足于英語或翻譯語料,未必適用于漢語原創(chuàng)語料;有些指標之間具有重復性,有些被證明與語體無顯著聯(lián)系,因此最終設計基本特征指標2個,語體區(qū)分指標5個,包括:
1.基本特征指標:即總詞量(形符)與詞種(類符),這是定量分析的基礎。
2.語體區(qū)分指標:此類指標與語體之間具有可能聯(lián)系。一般而言,口語使用詞匯通俗、非正式、隨意、變化少,書面語詞匯使用典雅、正式、嚴謹、豐富(由于語義精確)。合偶雙音詞覆蓋率指標為研究中的新嘗試,如表1所示:
表1 語體區(qū)分指標對應的語體特征表
經(jīng)統(tǒng)計各類語料的總詞量均在110-130萬之間,而詞種(即語料中出現(xiàn)的不同詞語)則差異較大,尤其是電視訪談與平面媒體的詞種相差將近一倍。由表2可見,語料的類符數(shù)為平面媒體>新聞播報>電視訪談,而形符數(shù)則是電視訪談>平面媒體>新聞播報。類符數(shù)量并不隨著形符增加而增加,兩者并不呈現(xiàn)正相關關系。
表2 三類語料的基本指標分析表
1.詞語變化性(type/token ration)
詞匯變化性(TTR)指語料的類符形符比,其公式為:
詞匯變化性(TTR)=類符(type)/形符(token ratio)×100%
在形符容量相當?shù)那闆r下,使用越多的類符說明用詞豐富度越高。但由于形符數(shù)總是隨著語料總量的增加而擴大,而任何語言的詞種數(shù)量卻有限,語料達到一定容量時,類符的增長將逐漸減緩。由此STTR即標準TTR應運而生,它被用來先統(tǒng)計每千個詞語的TTR再計算均值。此外,一些語言(如英語)具有屈折形式,如 talk,talks,talked,talking實為同一詞位talk,還應進行削尾處理。但本研究所用語料中外語詞數(shù)量極少,且多為縮略語(如PVC,SARS等),無須做此處理。經(jīng)統(tǒng)計,語料TTR與STTR結果如表3所示:
表3 詞匯變化性表
表3中TTR與STTR的趨勢完全一致,均為平面媒體最高、電視訪談最低,新聞播報與平面媒體語料相當接近。換言之,偏口語的語料詞語的重現(xiàn)率較高,用詞豐富度較低,而偏書面語的語料則相反,新聞播報介于兩者之間??傮w看來,詞匯變化性提示了用詞的豐富度,可作為區(qū)分口語與書面語料的指標之一。
2.詞匯密度(lexical density)
詞匯密度指語篇中詞項與篇章單詞總數(shù)的比值。具體公式如下:
詞匯密度=詞項/篇章單詞總數(shù)×100%
詞項指實詞項,詞匯密度體現(xiàn)出篇章傳遞信息量的大小。Poulisse和Bongaert認為實義詞比虛詞傳遞的信息要多,因此篇章中的實詞越多,詞匯密度越大,傳遞的信息也越多。
對漢語實詞項認定的焦點在于副詞、代詞與語匯成分。王力[6]認為,“詞可分為兩大類:凡本身能表示一種概念者,叫做實詞;凡本身不能表示一種概念,但為語言結構的工具者,叫做虛詞?!睆恼Z法功能上看,實詞大多可單獨成句,可擔任主語、賓語或謂語,而虛詞則不然。故而我們將副詞列為虛詞,代詞和語匯列為實詞項統(tǒng)計。最終實詞包括名詞、動詞、形容詞、數(shù)量詞、區(qū)別詞、代詞以及語匯成分。各類語料中的詞匯密度如表4所示:
表4 詞匯密度表
詞匯密度結果顯示,在語料等量的情況下新聞播報傳輸?shù)男畔⑷萘孔畲?,平面媒體次之,電視訪談最少。本研究的結果顯示:(1)口語語料(電視訪談節(jié)目)的詞匯密度小于書面語料(平面媒體),這與Ure等人的研究結果基本相符。(2)新聞播報語料的詞匯密度之高說明了口語傳播渠道與口語體不能完全對等,真正的口語體還與準備性、交際場合的正式程度、交際目的有較大聯(lián)系。
胡顯耀[7]統(tǒng)計的漢語翻譯語料詞匯密度一般在50%-70%之間,低于本研究統(tǒng)計的結果。這可能與兩個原因有關:(1)傳媒語言講究簡明扼要,力求在限定的時間與空間(版面)中提供盡可能多的信息,可能使其具有相對較高的詞匯密度。(2)胡顯耀未將代詞歸入實詞,對漢語實詞判定標準的差異也在一定程度上影響了詞匯密度的高低。
3.合偶雙音詞
音節(jié)分析是一種具有漢語特色的指標,類似于英語中的詞長,卻又不完全等同,因為雙音化是漢語詞匯發(fā)展的結果,音節(jié)發(fā)展又與語體的豐富存在著錯綜復雜的關系。如馮勝利[8]將合偶雙音詞看作現(xiàn)代漢語書面語的衍生物。合偶雙音詞即一般強制地與另一個雙音詞配對的雙音詞,例如“承認”可搭配雙音詞為“承認錯誤”,卻不能與單音詞“錯”搭配為“承認錯”,根據(jù)其建立的440個合偶雙音詞表可進行語篇正式度的分析。我們設計的合偶雙音詞覆蓋率公式如下:
合偶雙音詞覆蓋率=合偶雙音詞總頻次/形符總數(shù)×100%
各類語料的統(tǒng)計結果具有較為顯著的差異。如表5所示,平面媒體的合偶雙音詞數(shù)量最多,約為電視訪談語料的2倍,而新聞播報與之較為接近,可見合偶雙音詞是現(xiàn)代漢語書面語的特征之一,體現(xiàn)了語料的正式程度。
表5 合偶雙音詞覆蓋率表
4.高頻詞與低頻詞覆蓋率
各語料庫的前10位高頻詞重復率高,且均為書口通用語詞,如“的”、“了”、“是”、“一”4個單音詞在各類語料中均為高頻詞。我們把覆蓋率公式設計為:高頻詞覆蓋率=Sum每個高頻詞頻次/形符總數(shù)×100%??傮w而言,高頻詞覆蓋率越高說明語料更通俗易懂,而覆蓋率低則可能相反,這一指標揭示了語料的通俗度。其中電視訪談語料該值最高,10個高頻詞在語料中就有20%以上的覆蓋率。
低頻詞指的是在語料中僅出現(xiàn)一次的詞語,一次性詞的增加將促進類符的增加,并最終提升語料的復雜度,即理解語篇需要更多詞匯量。其覆蓋率計算公式為:Sum每個高頻詞頻次/形符總數(shù)×100%。如表6所示,該指標同樣為平面媒體最高,電視訪談語料最低。
表6 高低頻詞覆蓋率表
5.綜述
五類指標的排序如圖2所示,除指標4高頻詞覆蓋率之外,其余指標(1.詞匯變化性;2.詞匯密度;3.合偶雙音詞覆蓋率;5.低頻詞覆蓋率)均與書面語化程度正相關,與口語化程度負相關,均為平面媒體或新聞播報語料最高,電視訪談類語料最低。此外,除了詞匯密度外,1、3、5指標均為平面媒體值最高,新聞播報次之,且兩者的數(shù)值均較為接近,可見在同一語域中,書面語比口語具有較強的豐富度、正式度與復雜性。此外,新聞播報語料傳遞了更大的信息容量,因此詞匯密度略高于平面媒體語料。
圖2 語體指標綜合排序圖
通過對語體相關指標進行定量研究,我們可以減少研究者的感性偏誤,利用特征的疊加效應獲得由定量到定性的結論。主要結論可概括如下:
1.語體區(qū)分不僅可依據(jù)傳統(tǒng)的主觀語感,也反映在客觀的定量統(tǒng)計上:詞匯變化性、詞匯密度、合偶雙音詞與低頻詞覆蓋率均與語篇的書面語程度呈正相關關系,而高頻詞覆蓋率則反之,可考慮將此類指標看作語體區(qū)分的部分特征。
2.所選語料同屬傳媒語場,使之具有可比性,但又因語旨、語式的差異存在著顯著差異:總體而言,偏書面語的平面媒體比偏口語的電視訪談體現(xiàn)了更為顯著的豐富度、信息量、正式度與復雜度,而電視訪談則更具通俗性。
3.作為參考的新聞播報語料雖為口頭傳播,卻在各項指標上體現(xiàn)了與平面媒體類似的特征,這與其準備程度高、場合正式以及缺乏交互性等原因息息相關,符合我們的預設。這一結果也證實了書面語與口語的區(qū)分不應單純依賴于傳播媒介,而是與準備性、交際場合、交互性等具有較強的聯(lián)系。
4.需要進一步關注具有漢語特色的指標。如音節(jié)在英語相關研究中主要體現(xiàn)為詞長,然而,在漢語語料中這一指標更具價值。音節(jié)發(fā)展與語體的豐富存在著錯綜復雜的關系,例如本研究中合偶雙音詞的使用比例就提示了語料的正式度,與語料書面語程度關系密切。
本研究還有可拓展之處,如:第一,可進一步增加指標,例如詞類中的嘆詞、語氣詞、話語標記與語體具有一定聯(lián)系;第二,可借助統(tǒng)計學方法,利用SPSS因子分析判斷指標與語體的相關性。總體而言,計量統(tǒng)計、多維度的語體分析方法應當更多地運用到研究中,結合語料中反復出現(xiàn)的現(xiàn)象來確定特征,并將特征與某一語體進行相關分析,以達到客觀描述語言現(xiàn)象的目的。
[1]Ure,J.Lexical density and register differentiation[A].Applications of linguistics:Selected papers of the second international congress of applied linguistics[C].Cambridge:CUP,1971.
[2]Poulisse N,Bongaert T.First language use in second language production[J].Applied Linguistics,1994,(15).
[3]Biber D.Variation across speech and writing[M].Cambridge:CUP,1988.
[4][7]胡顯耀.基于語料庫的漢語翻譯語體特征多維分析[J].外語教學與研究,2010,(6).
[5]桂詩春.基于語料庫的英語語言學語體分析[M].北京:外語教學與研究出版社,2009.
[6]王力.王力文集(卷1)[M].濟南:山東教育出版社,1984.
[8]馮勝利.漢語書面語初編[M].北京:北京語言大學出版社,2006.