周聰聰 于冬偉
在河北大學,一間300平方米的工作室內,多名專家學者以及學生,正在參與進行一項規(guī)模浩大的漢字整理與考釋工作一一中華字庫工程。這是一項國家重大文化建設工程,河北大學獨立承擔著明清圖書用字的整理與考釋工作。
什么是中華字庫?我們已有《漢語大字典》《中華字?!愤@些大部頭的字書,為什么還要對中華文字進行全面的搜集整理?
近日,記者走進河北大學中華字庫工程工作室,試圖揭開中華字庫工程的神秘面紗,同時也走近這群人,聽他們講如何讓一個個沉寂在古舊書籍上的漢字,在數(shù)字媒體中找到新的安身之所,擁有新的“身份”信息。
幫生僻字尋找“身份”信息
“這兩個字念什么?你知道嗎?”4月9日,窗外細雨蒙蒙,在河北大學中華字庫工程工作室,負責人楊寶忠寫下的兩個字令記者一頭霧水。
只見紙上的這兩個字,左邊都有一個“鼠”字,不過“鼠”字右邊還各有一個“占”字和“靈”字,寫作“鼠占”“鼠靈”。
第一個字,雖在《康熙字典》《漢語大字典》《中華字?!愤@樣的大型字書中有收錄,但被作為雙音節(jié)詞用字處理,至于讀音,書中卻未給出。第二個字大型字書都沒有收錄。
與這些令普通人直皺眉頭,甚至大型字書中都未給出答案或沒有收錄的疑難字打交道,對它們追根溯源,辨析淵源流變,是河北大學文學院漢語言文字學教授楊寶忠多年來的主要工作。
人們的印象中,漢語言文字學這門學科,可能更多的是在“故紙堆”中埋頭考究。而現(xiàn)在,楊寶忠正帶領30多位老師和學生,參與一項解決中國目前在信息化、數(shù)字化中所碰到的瓶頸問題的重大工程。
走進工作室,只見大家伏案于一排排電腦桌前,全神貫注地盯著屏幕,電腦屏幕上是電子掃描版的豎排文字古文獻,不少還紙張斑駁,字跡模糊。工作室忙碌而安靜,只聽見計算機的嗡嗡聲。
“擬認同字、康熙部首、康熙附形部首等屬性,以及讀音、釋義、字際關系等,這些都是一個字的‘身份信息,我們的工作就是為這些從明清圖書上找出來的生僻字填寫一張完整的‘身份證。”工作室成員、河北大學文學院徐世權博士,一邊向記者展示中華字庫工作平臺界面,一邊向記者解釋他們的主要工作內容。
“我國現(xiàn)有的計算機字符集僅有7萬多個,已無法滿足時代需求。因此,國家啟動了中華字庫工程,將利用先進的信息技術手段,收集和匯總歷代文獻資源中出現(xiàn)過的漢字和少數(shù)民族文字,辨析源流衍變,確定每個字形的歷史地位,建立漢字及少數(shù)民族文字的編碼和主要字體字符庫,”中華字庫工程第15包項目管理辦公室主任楊清臣介紹。
中華字庫工程于2011年啟動,完成之后的中華字庫預計可編碼字符數(shù)在50萬左右。工程共有28個工作包,河北大學以獨立承擔的方式,獲得第15包明清圖書用字搜集與整理之三·文字整理與考釋的分包任務,對約100萬字形(楷體漢字)的疑難字進行辨識、整理和考釋。
而他們考釋的生僻字“身份信息”,最終將被收進“中華字庫”,然后提交給國際標準化組織,在電腦區(qū)位中給每個字編碼,廠商再據(jù)此做出宋體、黑體、隸書等字體,最終進入計算機。
“我們每天的工作就是研究生僻字。很多人并不覺得生僻字對我們的現(xiàn)實生活有何影響,但有的人就因為生僻字,連一張信息準確的身份證都無法得到?!痹谛刑瓶h獨羊崗鄉(xiāng)某村進行的一次實地考察,令楊清臣深有感觸。
該村的歷史可以追溯到南宋時期,距今已有近千年歷史。但苦于計算機打不出這個村名,當?shù)卮迕竦牡谝淮矸葑C上的村名信息只能靠手工填寫,而現(xiàn)在使用的第二代身份證,只能用“差取”二字來代表。
最難的是疑難字考釋
從某種意義上說,在信息化、數(shù)字化時代大潮之下,不論是常用字還是生僻字,只有被納入字庫當中,才算找到了“家”。
在中華字庫工程的計算機操作平臺上,每個從上一環(huán)節(jié)遞交過來的文字,都設有一個專屬的號碼,就像一個人的身份證號。工作室成員要做的,就是把這些漢字有名有姓地帶回“家”,以便它們能信息完整地“居住”在字庫這個虛構的網(wǎng)格式大廈里。
然而,這條尋“家”之路并不容易。
按照工作窒的流程安排,一審主要是碩、博研究生對填寫的內容進行互審,二審則是由教師對一審內容進行檢查,二審解決不了的問題,則要進一步提交給楊寶忠、梁春勝二人“坐鎮(zhèn)”的三級審核。
一般沖破重重關卡來到楊寶忠和梁春勝面前的,都是幾輪考釋仍啃不下來的硬骨頭一一疑難字。
楊寶忠解釋,疑難字是個相對概念,指一般人不認識或認錯的字,在普通人看來,它們的結構都復雜得令人咂舌。在大型字書里,有些字音義不全,標為“音未詳”“義未詳”或“音義未詳”。有些字雖然音義俱全,很可能也存在注音、釋義、字際關系整理等諸多錯誤。
因此,疑難字的考釋,是中華字庫工程最難也最見功底的領域。
當初,清代李元所著《蠕范》中出現(xiàn)的“鼠占”“鼠靈”二字的考釋,曾令楊寶忠頗費周折。
“鼠占、鼠靈,怎么念?什么意思?”憑借多年疑難字考釋的經(jīng)驗,利用自己總結的疑難字考釋方法和自己發(fā)現(xiàn)的近代漢字“異體部件替換”規(guī)律,楊寶忠聯(lián)想到“鼠占”“鼠靈”很有可能就是“鳥鼠同穴”中的鼠名“鼠突”字。
循著這個思路,楊寶忠多方求證,最終弄清了“鼠占”“鼠靈”二字的來歷。
“在歷代傳抄轉錄過程中,很容易出現(xiàn)各種書寫錯誤,這就需要我們根據(jù)漢字書寫習慣和變異規(guī)律,結合上下文意思,順藤摸瓜,追根溯源,考釋出一個字的準確讀音和含義。”楊寶忠解釋,“鼠占”“鼠靈”二字就是在傳抄過程中,一錯再錯錯出來的。
《山海經(jīng)>郭璞注:“鼠名日鼠突。鼠突如人家鼠而短尾……”一誤作“鼠名日鼠戾。鼠戾如人家鼠而短尾……”(中華書局影印本《太平御覽》),再誤作“鼠名日鼠占。鼠戾如人家鼠而短尾……”(文淵閣、文津閣本《太平御覽》),三誤作“鼠名鼠占鼠靈”(《禹貢合注》),四又誤改作“鼠占鼠靈”,此《蠕范》“鼠占鼠靈”所由生。
“《字匯補》以下大型字書收錄‘鼠占‘鼠靈二字,既不能與‘鼠突字加以溝通,又皆處理為雙音節(jié)用字,均欠妥當。”楊寶忠最后得出結論。
考釋,不僅要搞清楚一個字的音義,還意味著要抽絲剝繭,通過一個字形考釋出一系列的疑難字,并建立字際關系。
正是通過這一系列的研究,楊寶忠最終構建了一個以“鼠突”為中心的矩形聯(lián)系圖,古籍中出現(xiàn)的“鼠戾”“鼠占”“鼠靈”“鼠靈”“鼠錄”“鼠炎”“鼠空”“鼠炎”“鼠犬”“鼠吾”“鼠奚”“突鳥”等都是“鼠突”變來的。
從1990年至今,楊寶忠一直從事大型字書的疑難字考釋,近30年里,他考釋的疑難字將近4000字。
近30個年頭,不到4000字,兩個數(shù)字對比,文字考釋的個中艱辛不言自明。
考驗學識和學養(yǎng)的積累
河北大學中華字庫工程工作室以玻璃為隔斷,辟出一間小型閱覽室,占據(jù)工作室三分之一的空間。別看面積不大,卻滿滿當當碼放了整整13排、100多個大書架。
文津閣本《四庫全書》《續(xù)修四庫全書》《百部叢書集成》《域外漢籍珍本文庫》《高麗大藏經(jīng)》……在這里,幾乎能查閱到項目研發(fā)所需要的各種古籍。
作為補充,閱覽室一旁的電腦上,還裝有一個文獻檢索包,收錄著書架上沒有的電子書,足有10多T。
這些都是為方便大家考釋文字時查閱古籍準備的。
每天從早上8時到晚上10時教學樓關門,除上課外,工作室的成員幾乎全都泡在這里,即使節(jié)假日和周末,也基本是這樣,可謂名副其實的埋首“故紙堆”。
這樣的工作節(jié)奏,很容易讓人聯(lián)想到“枯燥”這個詞。
“表面看,我們一直是在做重復性工作,但實際上每天都是新的?!睂Υ耍瑮钋宄紖s自得其樂。
作為工作平臺中的二級審核老師,楊清臣所謂的樂趣和成就感就在于,能在很多習焉不察的一審結果中尋獲到“漏網(wǎng)之魚”。
有一次,一級審核提交上來一個“氵艾”字。對這個字,一級審核并未發(fā)覺有何問題,而是根據(jù)正常流程,對其各項屬性進行了標注,但楊清臣看到這個字卻頗為眼生。
這個字出現(xiàn)在明嘉靖刻本《皇明疏議輯略>卷三十一《處置夷情疏》一文中:“又有一路從草坡出氵艾州,一路從 氵僚澤壩出灌縣,一路從清溪口出崇慶?!?/p>
“氵艾州?從來沒有聽說過還有這個地方啊!”經(jīng)過一番仔細查閱,最終,楊清臣的懷疑在文淵閣四庫本《忠肅集》中得到了印證,“氵艾”應為“汶”。另外,“氵僚”即“僚”之加旁俗字。
“類似這樣的錯誤,很多都是習焉不察的,在這種地方能產生懷疑的,就是高手。”徐世權說。而能像導師楊寶忠一樣,由“鼠占”“鼠靈”找到一個系列的字形,構成矩形系聯(lián),形成宏觀觀察,則令徐世權神往,“這就是我們搞語言文字學追求的最高境界?!?/p>
在長期疑難字考釋實踐中,楊寶忠在前人“形音義三者互相求”的考字方法基礎上,提出“形用義音序五者互相求”“五者之中,形最重要”的考釋方法,使疑難字考釋成為有規(guī)律可循、有方法指導的科學。
從一堆“故紙”中理出頭緒、解決問題,考驗的是能力。能從中有所懷疑,更考驗學識和學養(yǎng)的積累。
觸發(fā)懷疑的機關,要建立在大量閱讀基礎之上形成的“語感”。
1982年,楊寶忠本科畢業(yè)留校后,宿舍和中文系資料室在一層樓,楊寶忠曾以一天一本古書的速度,在六年多的時間里差不多讀完了資料室所藏的先秦兩漢古書。
在近30年的大型字書疑難字考釋中,楊寶忠把《漢語大字典》(八卷本)第一版通讀三遍,《漢語大字典》(九卷本)第二版通讀一遍,《中華字?!吠ㄗx四遍,而且是將兩本大型字書一個字一個字對照著讀。
苦行僧式的閱讀經(jīng)歷,使楊寶忠儼然一本“活字典”,很多字的源流衍變信口拈來,如數(shù)家珍。
相比老一輩主要靠翻閱紙本古書,楊清臣和徐世權以及他們的學生們更多地是利用電子文獻,有了更便捷的閱讀手段。
雖然由于字庫不全,目前的古籍信息搜索還有頗多不便,但工作室還是通過購買和自主研發(fā)兩種渠道,建立了專門的古籍信息數(shù)據(jù)庫,借助搜索技術,輸入相關搜索內容,幾秒內便能把相關文獻搜索完畢。
不過,不論哪種模式,都需要堅持。
雖然楊寶忠平時不茍言笑,要求非常嚴格,但打心眼兒里,他對這些青年學者們嚴謹踏實的學術態(tài)度深感欣慰。在他辦公室一旁的角落里,放著幾副羽毛球拍和乒乓球拍,對于學習,楊寶忠從不多言,反而總是趕著大家多運動。
“搞學術在外人看來很辛苦,但做出來特別有成就感。就像在海邊撿貝殼,在那么多好認的字里找著一個難認的,就像撿著一個特別漂亮的貝殼?!闭f著,本略顯拘謹?shù)臈钋宄寂e起雙臂,嘴角揚笑,“那種如獲至寶的心情,就想手舞足蹈地跳起來!”