王虹
(中國刑警學(xué)院 遼寧 沈陽 110035)
利用繁體字特征進行兩岸三地地域性言語識別的研究
王虹
(中國刑警學(xué)院 遼寧 沈陽 110035)
為解決國保、偵查等部門常遇到的用繁體字形成的案件言語材料的地域性歸屬問題,我們收集了兩岸三地近30萬個繁體字,并進行逐一比對,編制完成《兩岸三地繁體字異同查詢手冊》,從使用范圍、字形標(biāo)準(zhǔn)、字形差異、字形編碼和字符集等方面探討了兩岸三地繁體字的差異。
地域性言語識別 兩岸三地 繁體字特征
目前,隨著兩岸三地交流的日益增多,國保、刑偵等部門經(jīng)常會遇到一些使用繁體字形成的案件言語材料,準(zhǔn)確判斷這些案件材料的撰稿人是來自大陸還是港臺地區(qū),對于縮小案件偵查范圍、指明偵查方向有著重要的現(xiàn)實意義。
在此類案件的地域性言語識別中,可用的特征包括方言語音、方言詞匯、方言語法等方言特征,地域性文字特征,地域性言語內(nèi)容特征等。本文主要探討地域性文字特征中的繁體字特征,著眼于大陸、臺灣、香港兩岸三地所用的繁體字的不同。
繁體字,指未經(jīng)系統(tǒng)性簡化的漢字,大陸地區(qū)推行中文簡化后,將傳統(tǒng)文字稱為繁體字,簡化后的字稱為簡化字。
1.1 大陸繁體字的使用范圍
繁體字在大陸地區(qū)以民間使用居多。2001年開始實施的《中華人民共和國國家通用語言文字法》明確規(guī)定國家推行規(guī)范漢字,表明當(dāng)前推行的規(guī)范漢字為簡化字和傳承字,同時也明確了可以保留或使用繁體字的范圍:“(一)文物古跡;(二)姓氏中的異體字;(三)書法、篆刻等藝術(shù)作品;(四)題詞和招牌的手書字;(五)出版、教學(xué)、研究中需要使用的;(六)經(jīng)國務(wù)院有關(guān)部門批準(zhǔn)的特殊情況?!痹谄渌闆r下,繁體字被視為不規(guī)范、不可使用的漢字。
目前,在大陸地區(qū)還有一種現(xiàn)象,即在網(wǎng)絡(luò)聊天、論壇等平臺上使用繁體字。繁體字是構(gòu)成網(wǎng)絡(luò)上火星文的重要組成部分,多與一些符號、數(shù)字等共用。
1.2 港臺繁體字使用情況
出于歷史的和政治的原因,繁體字是臺灣、香港地區(qū)的官方文字,民間也一直使用繁體字。
在案件地域性言語識別中,根據(jù)繁體字使用范圍的不同,我們可以判斷,在大陸規(guī)定允許使用繁體字的范圍外使用繁體字形成的言語材料,多數(shù)情況下,其言語人應(yīng)為港臺地區(qū)的人。
2.1 兩岸三地繁體字字形標(biāo)準(zhǔn)
兩岸三地繁體字的字形不完全一致,主要是由于其采用的字形標(biāo)準(zhǔn)各不相同。
大陸地區(qū)繁體字以《簡化字總表》和《新華字典》(繁體字版)上的繁體字為字形標(biāo)準(zhǔn)。
臺灣地區(qū)繁體字字形標(biāo)準(zhǔn)為《常用國字標(biāo)準(zhǔn)字體表》、《次常用國字標(biāo)準(zhǔn)字體表》和《罕用字體表》。
香港地區(qū)繁體字字形標(biāo)準(zhǔn)為《常用字字形表》、《香港增補字符集》。
2.2 兩岸三地繁體字的字形差別
為方便檢索和使用,我們編制了有簡化字對照的《兩岸三地繁體字異同查詢手冊》。
2.2.1 大陸與港臺繁體字字形的差別
大陸繁體字與港臺繁體字是有一些差別的,部份字形有類似簡體字的整理,使其繁體字與港臺的繁體字有些差異,沒有那么符合字源。如:大陸用的“沖、呂、貓、厠 、麼、鷄 ”等字,港臺則用“ 沖 、呂 、貓 、廁 、麼 、雞 ”。
2.2.2 臺灣與香港繁體字字形的差別
臺灣與港澳繁體字的差異整體來說并不算多,像“攜”等字,都是一致的。但也有些字的分別則較明顯,如:臺灣用字“ 線 、 囪 、臥 、兌 、戶 、著、衛(wèi) 、溼 、 裡 、麵 、冗”等字,香港則用“ 綫、囪、臥、兌、戶、著、衛(wèi) 、濕 、裏 、 麫 、麫 ”等字。
在案件地域性言語識別中,我們可以通過簡體字索引找到每一個繁體字在大陸、港澳臺地區(qū)的不同字形,并利用繁體字字形特征來分析言語人的地域?qū)傩?。我們編制的《查詢手冊》查詢簡單,攜帶方便,可以供一線公安技術(shù)人員隨時使用。
隨著電腦和打印輸出設(shè)備的普及,我們遇到的大量的使用繁體字形成的案件言語材料都是使用繁體字打印輸出的紙質(zhì)文件、存儲在電腦上文本文件,或通過網(wǎng)絡(luò)傳播的文本文件。這就要求我們對繁字體的字形編碼、輸入法、字符集等有一定的了解,并探討它對案件言語識別的實用意義。
3.1 大陸地區(qū)繁體字字形編碼、字符集
3.1.1 大陸地區(qū)繁體字字形編碼
關(guān)于繁體字的電腦輸入,大陸地區(qū)在1993年提出的GBK編碼和后續(xù)2000年、2005年提出的GB 18030編碼中,實現(xiàn)了簡體字形和繁體字形的共存,占據(jù)不同的編碼位置。近年來,則普遍使用Unicode跨語言編碼集,在同屏下可以顯示任何語言的內(nèi)容。
3.1.2 大陸地區(qū)繁體字常見字符集
大陸地區(qū)常用字符集有GBK字符集、GB18030字符集、Unicode字符集。
GBK字符集又稱大字符集,宋體、隸書、黑體、幼圓、華文中宋、華文細(xì)黑、華文楷體、標(biāo)楷體、Arial Unicode MS等字體支持顯示這個字符集。
GB18030字符集,宋體-18030、方正楷體、宋體、香港華康標(biāo)準(zhǔn)宋體、華康香港標(biāo)準(zhǔn)楷體、CERG Chinese Font、韓國New Gulim等字體支持這個字符集的顯示。
Unicode字符集是全球可以共享的編碼字符集,涵蓋了世界上主要語文的字符。宋體、細(xì)明體能顯示全部Ext-B漢字。至今尚無單獨一款字體能夠顯示全部70195個漢字。
3.2 臺灣地區(qū)繁體字字形編碼、字符集
3.2.1 臺灣地區(qū)繁體字的字形編碼
臺灣地區(qū)是使用繁體字的地區(qū)中最早發(fā)展中文電腦的,自1980年以來通常使用Big5中文編碼。臺灣地區(qū)經(jīng)濟部標(biāo)準(zhǔn)檢驗局公布的一套名為“中文標(biāo)準(zhǔn)交換碼”CNS 11643的官方編碼,普遍用于臺灣地區(qū)的戶政、役政信息系統(tǒng)中,而臺灣大學(xué)圖書館亦使用CCCII編碼。
3.2.2 臺灣地區(qū)繁體字常見字符集
臺灣地區(qū)主要使用Big5字符集,華文中宋、華文細(xì)黑、隸書、幼圓、華文仿宋、華文宋體、華文楷體等支持這個字符集的顯示。
3.3 香港地區(qū)繁體字字形編碼、字符集
3.3.1 香港地區(qū)繁體字字形編碼
香港的繁體字編碼使用Unicode的UTF-8編碼,同時因港澳地區(qū)本身存在的一些口語詞,其政府也用UTF-8發(fā)行香港增補字符集,包括一些粵方言、特殊地名等,如“乜、啲 、嚟 、邨 ”。
3.3.2 香港地區(qū)繁體字常用字符集
港澳地區(qū)采用GCCSG字符集(《政府通用字庫》),和HKSCS字符集(《香港增補 字符集》)。標(biāo)準(zhǔn)宋體、香港政府細(xì)明體、標(biāo)準(zhǔn)楷體、標(biāo)準(zhǔn)黑體、微軟細(xì)明體、華通細(xì)明體等支持這些字符集的顯示。
不同的字形編碼,以及相應(yīng)的不同字符集、字體,導(dǎo)致在不同的電腦中能夠輸入和顯示的字符是不同的。如果超出了輸入法所支持的字符集,就不能錄入計算機。如果沒有相應(yīng)字體的支持,則顯示為黑框、方框或空白。如果操作系統(tǒng)或應(yīng)用軟件不支持該字符集,則顯示為問號(一個或兩個)。在網(wǎng)頁上亦存在同樣的情況。在案件地域性言語識別中,我們要充分注意這些特點,并運用其確定言語人的地域?qū)傩浴?/p>
繁體字特征是區(qū)分言語人是大陸人,還是港臺地區(qū)人的一個重要特征,我們針對繁體字的使用范圍、字形標(biāo)準(zhǔn)、具體字形差異、電腦中的字形編碼和字符集等方面進行了探討;并對進30萬個兩岸四地繁體字進行了逐個比對,編制了《兩岸三地繁體字異同查詢手冊》,希望能夠為國保、偵查等部門解決其遇到的相關(guān)問題提供一定的技術(shù)支持。
1.常用國字標(biāo)準(zhǔn)字體表[EB/OL].http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E5% 9C%8B%E5%AD%97%E6%A8%99%E6%BA%96%E5% AD%97%E9%AB%94%E8%A1%A8,2012-5-18
2.常用字字形表[EB/OL].http://zh.wikipedia.org/wiki/%E5%B8%B8%E7%94%A8%E5%AD%97%E5% AD%97%E5%BD%A2%E8%A1%A8,2012-3-7
注:本文系文件檢驗鑒定公安部重點實驗室自主創(chuàng)新項目。