黃瓊霖
摘 要:在對古籍的電子化過程中,在與使用漢字的國家和地區(qū)的交流過程中,繁簡字轉(zhuǎn)換問題不僅是體現(xiàn)在個人知識領(lǐng)域方面,更是體現(xiàn)在計算機信息文本所必須面對的問題。盡管目前已經(jīng)產(chǎn)生了很多繁簡轉(zhuǎn)換的電子工具和軟件系統(tǒng),但繁簡轉(zhuǎn)換的錯誤率依舊很高。
關(guān)鍵詞:繁體字;簡體字;計算機;轉(zhuǎn)換
從20世紀(jì)80年代開始,關(guān)于簡化漢字的爭論就一直沒有停止過。近20多年來,在進一步改革開放的新形勢下,爭論依舊十分激烈。繁簡漢字文本的轉(zhuǎn)換問題在使用漢語漢字的社會中是一個不能回避的、亟須解決的問題。
漢字的簡體和繁體兩種體式將(會比較)長期存在。因而簡繁轉(zhuǎn)換和繁簡裝換就需要經(jīng)常進行。轉(zhuǎn)換包括手寫轉(zhuǎn)換和機器轉(zhuǎn)換。多少年來,漢字主要靠手寫,但隨著信息時代的到來,漢字手寫的使用范圍將逐漸縮小。用鍵盤輸入漢字將會是今后書寫的主要形式,那么漢字繁簡的轉(zhuǎn)換過程也將會在計算機中得到實現(xiàn)。目前,輸入法中簡繁體字的快速切換功能、微軟的Word2003中中文繁簡轉(zhuǎn)換功能、網(wǎng)絡(luò)上“在線漢字簡體繁體轉(zhuǎn)換”等,都企圖能夠較為簡單快速地實現(xiàn)漢字繁簡的轉(zhuǎn)換。
一、繁簡字轉(zhuǎn)換存在的問題
實踐證明,假如直接采用搜狗拼音輸入法的簡繁體字快速切換,同樣,當(dāng)一片準(zhǔn)確無誤的簡體字,一經(jīng)電腦程序轉(zhuǎn)化為繁體字的時候,就會發(fā)現(xiàn)出現(xiàn)大量錯別字。以Word2003中文繁簡轉(zhuǎn)換功能為例,“米糰”(錯)成了“米團”,“詩云”(錯)成了“詩雲(yún)”……假若采用“在線漢字簡體繁體轉(zhuǎn)換”,出現(xiàn)的錯誤則更加明顯。“升斗”成了“升鬥”,“幾案”成了“幾案”……舉一個小例子,一篇大約500字的簡體字文章,用電腦程序?qū)⑵滢D(zhuǎn)化為一篇繁體字文章,僅需0.1秒的時間,但是,要對轉(zhuǎn)換后的繁體字文章進行校正,卻可能需要1個小時的時間。由此而知,繁簡字在計算機中的轉(zhuǎn)換問題仍然需要極大的關(guān)注。
繁簡字轉(zhuǎn)換問題困難的產(chǎn)生主要是因為簡化字與繁體字并不都是一個與一個的整齊對應(yīng),有些簡化字與繁體字之間存在著復(fù)雜的對應(yīng)關(guān)系。正如董琨先生說過:“有的人不明白有的字繁簡轉(zhuǎn)化并非單一對應(yīng)關(guān)系,于是隨意代替?!笔聦嵏嬖V我們,一簡對多繁在轉(zhuǎn)換問題中所產(chǎn)生的問題最為嚴(yán)重。這種簡化字在轉(zhuǎn)換為繁體字的時候要進行選擇區(qū)分,從而確定轉(zhuǎn)換為哪個繁體字。
除了一簡對多繁現(xiàn)象之外,在一簡對一繁的簡化字中,可以分成兩類,一類是專用簡化字,一類是借用簡化字。專用簡化字指的是“新造簡化字型”,是為了簡化漢字,而選取百姓的手頭字,或者是特意造出來的字。如果離開了相對應(yīng)的繁體字,該簡化字也就失去了意義。例如“愛”是“愛”的專用簡化字,只作為“愛”的代表符號。離開了“愛”字,“愛”就失去了存在的意義。這類簡化字與它相對應(yīng)的繁體字音義相同,不同的只是形體的簡化,筆畫的多寡。而另一類借用簡化字指的是在漢字簡化之前已經(jīng)存在的字,在漢字簡化的過程中被借用來作為簡化字。
在繁簡字的轉(zhuǎn)換過程中,一簡對多繁現(xiàn)象和一簡對一繁中的借用簡化字比較容易出現(xiàn)問題。
二、繁簡字轉(zhuǎn)換問題的解決
當(dāng)我們通過鍵盤將漢字輸入計算機的時候,絕大多數(shù)都是采用輸入法,運用比較廣泛的類別是五筆輸入法和拼音輸入法。其中大多輸入法都提供了簡繁體字的快速切換功能。如何在使用的過程中既快速又準(zhǔn)確地輸入繁體字呢?
當(dāng)我們將一篇簡體字文章采用Word2003中文繁簡轉(zhuǎn)換功能,或者網(wǎng)上“在線漢字簡體繁體轉(zhuǎn)換”,如何才能得到高精準(zhǔn)的轉(zhuǎn)換結(jié)果呢?
固定算法決定了程序的編制,而程序的編制則決定了電腦運作。要實現(xiàn)繁簡字之間準(zhǔn)確無誤的轉(zhuǎn)換就只能從計算機的根源出發(fā),尋找解決方法。為進一步提高漢字輸入速度,我們經(jīng)常采用詞匯輸入的途徑,也就是直接輸入詞的代碼。
那么,這就需要后臺詞庫,詞庫是輸入法的靈魂,轉(zhuǎn)化問題的出現(xiàn)恰好說明了繁簡對應(yīng)詞庫中存在較多的繁體字登陸錯誤。假若我們將計算機繁體字的詞庫進行修正,使之大容量化,廣泛收錄正確的繁體字體的常用詞匯、短語、地名、人名等,那么,就可能會提高繁體字輸入的準(zhǔn)確率。以搜狗拼音輸入法為例,當(dāng)輸入“xiàbǎi”的時候,屏幕上呈現(xiàn)的字體是錯誤的“下擺”。但假若通過擴大詞庫,“下襬”被收錄在內(nèi)的話,錯誤的轉(zhuǎn)換問題相信會得到解決,屏幕上呈現(xiàn)的是正確字體“下襬”。