陳正正
(河南大學 黃河文明與可持續(xù)發(fā)展研究中心,河南 開封 475000)
“字料庫”概念是由李國英、周曉文最先在《字料庫建設的必要性與可行性》一文中提出并明確定義的。該文是一篇對字料庫建設與研究具有先導性意義的文章,豎起了字料庫建設與研究的第一面大旗。這個概念提出的背景是21世紀漢語的信息化已經做得比較充分,而漢字的信息化還需要急迫發(fā)展。相比起已經趨于成熟的漢語語料庫和漢語語料庫語言學,利用計算機技術來整理和研究漢字的工作整體來說仍然比較薄弱,與當下漢字整理、考釋、研究等工作的要求仍有相當?shù)木嚯x。而阻礙漢字數(shù)字化以及古籍整理現(xiàn)代化的根本原因除了漢字自身的復雜性因素外,還包括受計算機編碼體系以及計算機語料庫處理字形方式的限制。(1)周曉文:《關于社會用字調查的研究》,《中國文字研究》(第十四輯),大象出版社,2011年版,第168頁。所以我們要建設保持文字原形、統(tǒng)一整理的漢字平臺字料庫,來解決這一問題。
柳建鈺的《字書字料庫的理論、實踐與應用》是第一部探索漢字字料庫理論的專著,該書首次對字料庫的理論進行了系統(tǒng)思考,對字書字料庫的實踐經驗作了初步總結,并展示了字料庫應用的現(xiàn)狀與前景,是對字料庫理論和應用十多年的發(fā)展進行了一次全面總結,從理論建構、實體建設、本體應用三個方面推進與發(fā)展了字料庫研究的相關內容。
作者在著作中貫徹了字料庫研究的一些理念,并取得了重要成果。在理論上,該書論證了漢字字料庫作為漢字學與計算機信息科學交叉融合后的嶄新事物,其利用數(shù)據(jù)庫類聚材料并加以系統(tǒng)整理的思路和方法可以為后人借鑒;在實踐上,作者設計了操作界面簡單直觀、學術性強、系統(tǒng)功能高度集成的字料庫實體,并且收錄了60余本字書,加工完成的數(shù)據(jù)達200多萬條,這些具有客觀性、真實性、規(guī)?;?、多功能、高度結構化的字書漢字數(shù)據(jù)信息,為學術界進一步整理相關材料做好了基礎性、奠基性的工作;在應用上,作者利用字料庫展開了疑難字考辨、字書漢字層積流變調查、通用規(guī)范漢字構形屬性調查等工作,利用大數(shù)據(jù)和云平臺進行漢字學研究,體現(xiàn)了科研生態(tài)的創(chuàng)新變化。這足以證明:字料庫的研究與設計能夠為漢字研究提供新思路與新方法,為當前的漢字整理研究提供大量真實可靠的資料,字料庫是漢字學研究值得信賴的一種全新工具。
針對語言文字信息化的時代任務,我們需要建設相關的字料庫、語料庫與概念庫。李國英指出:“信息化時代是以字處理的數(shù)字化為前提,漢語信息的處理依賴于漢字的數(shù)字化。沒有漢字的數(shù)字化就沒有漢語的信息化,漢字及其衍生物的數(shù)字化是一切漢語信息數(shù)字化的基礎?!?2)李國英:《漢字整理工作的現(xiàn)狀與發(fā)展趨勢》,北京師范大學“全國漢語言文字學高級研討班”2010年發(fā)言?;诖耍顕?、周曉文提出了“字料庫”的理論概念,認為必須建立統(tǒng)一的漢字整理平臺和保持文字原形——字料庫(3)李國英、周曉文:《漢字整理工作的現(xiàn)狀與任務》,云南師范大學學報(哲學社會科學版),2008年第3期,第12頁。。而“字料庫的核心工作是在確定漢字基本單位的定義的基礎上,解決字單位的認同、別異問題,聚合同一漢字的不同變異形式,離析同一形體的不同漢字,以字為基本單位,建立個體字符屬性備注完備、整體序化編排的漢字庫藏?!?4)李國英:《字書字料庫的理論、實踐與應用·序》,中華書局,2021年版,第2頁。
面對這樣一個新生事物,如何在理論上準確界定相關概念,并且?guī)椭蒲泄ぷ髡吲靼鬃至蠋炀烤故鞘裁?,了解字料庫的建構及其價值,以及在漢字學等學科體系中處于什么位置,是字料庫研究首先需要解決的問題。
在理論篇中,作者分別定義了字料、字料庫、字書、字書字料庫等相關概念,他認為字書字料庫是指:“專門收集和加工歷代字書中的真實漢字字料,是在大規(guī)模歷代字書文本基礎上生成的真實的漢字刻寫形態(tài)的有序集合,是利用計算機對字書漢字形體進行各種分類、統(tǒng)計、檢索、綜合和比較等研究的基礎,它能為漢字學及其他相關學科研究提供高度結構化的字書數(shù)據(jù)信息。字書字料庫中的字料以傳世文獻中的字書為主要文本載體,以出土文獻中的字書為輔助載體?!?5)柳建鈺著:《字書字料庫的理論、實踐與應用》,中華書局,2021年版,第46頁。這段話闡明了“字書字料庫”的幾個核心特點:第一,要對前代字書進行計算機數(shù)據(jù)庫加工,實現(xiàn)研究平臺從紙本向數(shù)字化數(shù)據(jù)庫的過渡,要建設功能強大且方便實用的研究平臺;第二,要提供“結構化”的字書信息,這就要對字書的內在體例做深入挖掘,有針對性利用字書的信息,將紛繁復雜的材料從無序轉變?yōu)橛行?;第三,在材料上要類聚真實、海量的字書信息,在類聚中發(fā)現(xiàn)問題,借助類聚來研究問題。作者的如上定義不僅在理論上使字書字料庫有了一個相對清晰的界定,更突顯了一種新穎獨特的研究思路和方法。以往的研究,基本借助的是個人研究經驗的總結,重視經驗式的推論,而現(xiàn)在的研究應該依靠類聚海量的數(shù)字化材料,將智能OCR、智能古籍標點交給計算機處理,讓學者有更多的時間來進行專業(yè)的研究和理論思考,這種研究方式無疑將會成為新時期一種全新的占主流地位的模式。
作者理性劃分了字料庫漢字學的四大部分:處于核心圈的是“字料庫驅動”的漢字學研究,處于核心圈之外的是“基于字料庫”的漢字學研究,第三圈是應用字料庫漢字學研究,最外層是字料庫在其他學科領域中的應用研究。這種分層非常清晰,前兩者是理論研究,后兩者是應用研究。在理論研究部分,“字料庫驅動”的漢字學研究依托的是“生字料庫”,研究方法是自下而上的歸納法,完全由字料數(shù)據(jù)直接到達理論層面。這一類的研究,針對的是嶄新的材料,對部分生字料進行觀察、類聚、描寫和統(tǒng)計分析,得出部分結論,或者證實假設,或者修正已有結論;“基于字料庫”的漢字學研究依托的是“熟字料庫”,采用自上而下的演繹法。先有理論,然后用字料數(shù)據(jù)去驗證它。除此之外,作者還介紹了“字料庫漢字學”采用的定性與定量相結合、共時與歷時相結合、實證與內省相結合、學科知識綜合交叉等諸多方法,這些都是建立字料庫漢字學體系完整理論架構的重要成果,可以幫助我們超越以往單個、具體的研究所得出的微觀結論,得到一批有統(tǒng)計數(shù)據(jù)基礎的、更符合語言文字事實的,也相對全面、深入且科學的結論。
我們可以清晰地看到:研究手段的變化帶來了新的研究模式,在大規(guī)模資料匯聚和便捷查詢工具的支持之下,學者可以得到海量原始資料查詢結果。面對海量的資料,依靠傳統(tǒng)的閱讀無法駕馭,必然會提出新的研究問題,或者發(fā)現(xiàn)原有研究問題存在爭議之處。這一新工具的出現(xiàn),不僅能夠推動傳統(tǒng)語言文字學重新審視其研究方法,也會發(fā)展出新的研究視角和研究領域。
正如作者所言:“字料庫這種跨學科的實踐研究,是對科學漢字學理論體系的豐富和發(fā)展,能夠有效指導當前及未來的漢字整理研究實踐工作,并且蘊含了一種全新的、科學程度更高的漢字整理研究方法和思路?!?6)柳建鈺著:《字書字料庫的理論、實踐與應用》,中華書局,2021年版,第64頁。整體來看,作者的理論總結基本是從漢字整理研究和字料庫建設實踐過程中得來的,既總結了歷代及當前漢字整理研究的相關經驗,也充分借鑒語料庫理論及語料庫語言學發(fā)展的寶貴經驗,其理論思考是清晰的,理論概念是準確的,為漢字研究提供了新的思路與方法。
在字書字料庫建設之前,雖然已經出現(xiàn)了一些字料庫及“類字料庫”的單機或網(wǎng)站系統(tǒng),但還沒有一個功能完整、能公開使用并被學界廣泛認可的字料庫系統(tǒng)。作者提出:“漢字學界迫切需要一種全新的工具,為字書漢字整理與漢字學研究搭建一個具有科學性、綜合性的數(shù)字化平臺,提供具有代表性、大規(guī)模、高度結構化的字書漢字字料,方便學者突破個人認知范圍和資料獲取能力的最大限度,將海量字料信息所蘊涵的顯性和隱性漢字學信息按照研究需要抽取出來,從而提高研究結論的創(chuàng)新性、科學性和可靠性?!?7)柳建鈺著:《字書字料庫的理論、實踐與應用》,中華書局,2021年版,第48頁。
在設計上,作者一方面吸納了現(xiàn)有相關字料庫與“類字料庫”的研究成果,吸收了前人的字形搜集與歸類信息;同時盡最大努力借助借助現(xiàn)代化科技手段來設計研發(fā)字料庫?!皾h字的數(shù)字化包含漢字形體數(shù)字化和漢字知識數(shù)字化。漢字形體數(shù)字化指漢字字形的存儲編碼、輸出編碼、輸入編碼等;漢字知識數(shù)字化指漢字形、音、義以及漢字字形之間關系等知識的數(shù)字化?!?8)周曉文、李國英等:《BNUZLK字料庫系統(tǒng)的建構與應用》,《民俗典籍文字研究》(第十三輯),2014年第1期。作者注重字書字料屬性庫的建設,將字料庫中字料標注分為基本屬性信息標注(基礎)、漢字構形信息標注(核心)、漢字字際關系信息標注(重點)三大部分。這樣就可以讓原先冰冷的語言文字事實轉化為方便使用語言文字知識。不僅完成了漢字形體的數(shù)字化,也實現(xiàn)了漢字知識的數(shù)字化。
在操作上,作者尤其重視“字際關系”的屬性標注?,F(xiàn)代語言學強調關系論,認為具體的語言文字都在關系之中存在。趙誠說:“現(xiàn)代語言學在思維形式上也有一個非常明顯的特征,即認為任何事物的價值不僅存在于事物本身,還存在于事物與事物之間的關系之中。就語言現(xiàn)象而言,任何一個字、詞、句所具有的或表現(xiàn)出來的價值,不僅存在于該字詞句本身,還存在于和其他的字詞句所形成的關系之中。有時候,某些價值在關系中就存在,離開了那種關系就因之而減弱甚至消失。所以,在這種思維形式的支配下,產生了另一種研究方法,即不僅研究某一語言現(xiàn)象本身,還研究某一語言現(xiàn)象與其他有關的語言現(xiàn)象之間的關系?!?9)趙誠:《傳統(tǒng)語文學向現(xiàn)代語言學的發(fā)展(一)——兼論黃侃的學術貢獻》,《古漢語研究》,1998年第2期。章黃以來的語言文字研究特征之一,就是在關系中把握語言文字特點,“方法上以關系論為主導,歸納了漢字的屬性關系、表達關系和演變關系。”(10)李運富:《章太炎黃侃先生的文字學研究》,《古漢語研究》,2004年第2期。以前的研究,很少將字際關系作為獨有的理論范疇,也很少將字際關系作為一個獨立的重要研究對象。作者將字際關系設定為異體關系、同源關系、同形關系、分化關系、本借關系、繁簡關系、正訛關系等七大類型,不僅在類型上全面照顧了字際關系的主體內容,而且對字際關系的標注做出了可操作性的定義,還結合現(xiàn)階段已有的研究成果進行了部分字際關系的標注。這樣經過標注的相關文字材料,能夠作為一個基礎漢字資源庫,為語言文字考釋、古籍整理以及相關研究服務。
作者設計字書字料庫以及標注相關屬性的過程,實則是對字書原始材料重新加工整理與科學研究的過程。以往的研究既沒有匯集過如此大量的字書,也很少在明確的理論指導下,為如此海量的字書做過專業(yè)的屬性標注。對大量字書文本進行處理之后,我們完全可以從字書體例挖掘的數(shù)據(jù)結構出發(fā),展開基于大量真實文本進行對比研究,在提取字頭的基礎上,勾勒出古代字書收字累增和變異的整個發(fā)展歷程,探索漢字的形、音、義、用的歷史變化。
從理論上來講,字書字料庫可以把所有的字書漢字材料類聚在一起,進行相關的語言文字屬性標注,其他相關研究都可以以字料庫為基礎展開,這樣做,起碼從材料的容量和窮盡性上,較以往的個案式、做卡片的研究手段更具優(yōu)勢。
整體來看,通過設計字書字料庫,作者為我們建構了一個重要的語言文字研究平臺。字料庫建設不僅是語言文字信息化的基礎性工作,也是信息時代語言文字學本體研究及數(shù)字漢字學奠基性的基礎工作。字書字料庫在標注原則上是明確的,在功能上是清晰的,設計的相關界面簡潔大方,非常便于操作,完全可以成為漢字學研究和知識普及的一個重要參考工具。
字料庫給漢字學研究帶來的是一種前所未見的科研生態(tài)創(chuàng)新。李國英說:“互聯(lián)網(wǎng)、大數(shù)據(jù)、云概念、智能化等技術的參與促使科研手段發(fā)生了重大變化,同時也正在改變包括語言文字研究在內的科研生態(tài)?!?11)李國英:《字書字料庫的理論、實踐與應用·序》,中華書局,2021年版,第1頁。原先的材料考據(jù)的過程,多是通過個別語言文字知識,來達到釋讀未知的語言文字信息的過程;而有了建構好的字料庫,我們就可以實現(xiàn)“材料積累—準確考釋—材料積累”可持續(xù)正向循環(huán)。研究平臺也從紙本轉移到數(shù)據(jù)庫,研究者可以利用前人的考釋成果與相關研究結論,實現(xiàn)海量數(shù)據(jù)的快速提?。灰部梢詫⒆约旱目紦?jù)成果的核心結論填充到字料庫中,進一步完善與豐富字料庫內容。這有利于形成科研工作與字料庫建設的互動,將考據(jù)成果用于新一輪的研究工作之中,最大可能避免自己考據(jù)的隨意性,實現(xiàn)計算機工具和人智力勞動緊密結合。
比如,有些字的考據(jù)可能存在多種結論,那么哪種可能性更為確鑿?這需要更加豐富的數(shù)據(jù)信息與更完整的證據(jù)鏈條作支撐。比如“”字,張涌泉認定為“”訛俗字。作者利用字料庫字形“甬”字結構的相關變體,找到了中介字形“”,并且借此與“角”進行了字形俗訛脈絡的溝通,進一步證實了“”為“通”的俗寫字形,從而否定了“”為“”訛俗字的說法。這樣的考據(jù)擁有了更多的證據(jù)(比如《篆隸萬象名義》的直接證據(jù),再如形體演變可以參考“悀”“”之間形體平行的例證),考據(jù)結果更加具有說服力。
除了具體的字詞考辨,作者還利用字書字料庫的字書漢字層積流變狀況進行調查研究。字書層積流變是一個學術界基本的共識,大家都清晰地知道,后代的字書是在前代字書基礎上增加、修改與刪定得來的,但是對于具體的實際情況,我們的認識還模糊不清,有待進一步的考察與研究。作者通過詳細的數(shù)據(jù)對比,得出了幾點結論:第一,從東漢到明代以前,字書收字數(shù)量基本保持上升趨勢,至金代《改并篇?!愤_到最高峰;第二,有明一代,收字數(shù)量呈起伏不定狀態(tài),整體來看則呈現(xiàn)下降趨勢;第三,從清代到現(xiàn)代,收字數(shù)量又重新開始保持上升趨勢,而且上升幅度較大。這樣的結論,避免了傳統(tǒng)研究中簡單地認為字書收字一直在不斷增加的模糊認識。這些研究都說明,在大數(shù)據(jù)理念指導下,基于字料庫的漢字學研究將具有不可替代的價值。
《通用規(guī)范漢字表》是現(xiàn)階段最新的漢字規(guī)范標準,是新中國成立以來漢字規(guī)范的總結、繼承和提升,也是信息化時代漢字規(guī)范的新起點和新發(fā)展。作者利用字書字料庫,對通用規(guī)范漢字的構形屬性進行系統(tǒng)的調查研究。得出如下基本結論:《通用規(guī)范漢字表》8105字在構形方面具有嚴密的系統(tǒng)性,構件組合時以層次結構為最主要的模式,構件組合層級數(shù)以2層居多。所拆分出的直接構件共16073個,去重后共1926個,基礎構件共552個;去重后的直接構件中示音構件數(shù)量最多,其次是記號構件。表義構件不僅參構次數(shù)多,而且可歸納性和系統(tǒng)性很強;義音合成是現(xiàn)代漢字最主要的構形模式;記號字半記號字大量出現(xiàn),與表意字、形聲字形成了三分現(xiàn)代漢字天下的局面;左右結構和上下結構是現(xiàn)代漢字最重要的兩種結體方式。這些成果有助于我們準確認識通用規(guī)范漢字的基本構形屬性,為《通用規(guī)范漢字表》的學習研究和貫徹落實提供了寶貴的第一手資料。
通過以上分析我們可以看到,字料庫的使用已經推動了語言文字科研生態(tài)的重要變化:用數(shù)據(jù)庫類聚的視角觀察、描寫、比較和考據(jù)材料。正如作者所言:“字料庫是一種嶄新的漢字學研究工作,它能為漢字學研究提供客觀、豐富、高效的第一手數(shù)據(jù)。”(14)柳建鈺著:《字書字料庫的理論、實踐與應用》,中華書局,2021年版,第295頁。字料庫帶來了可重復、可驗證的科學方法,避免了漢字學研究過程中猜測性成分,為解決多種爭論提供了更加可靠的思路。
以上三個方面是作者的主要貢獻。當然,《字書字料庫的理論、實踐與應用》一書還有進一步完善的空間。
書中有些表述還值得商榷,比如把字形類化列入字形分化的范疇,并且包括涉上字類化(默認)、涉下字類化。(15)柳建鈺著:《字書字料庫的理論、實踐與應用》,中華書局,2021年版,第219頁。但是涉上下字在學理上更多屬于“同化”,與分化字的產生動因并不相同。(16)孫建偉:《從聚合與組合視角看漢字的“類化”與“同化”現(xiàn)象》,《內蒙古社會科學(漢文版)》,2016年第1期。另外,引用的前人某些說法還需要討論與斟酌。如通假字部分引用王海根《古代漢語通假字大字典》,認定“新”為“興”之通假,并引證清代《鄭清之傳》為例證(17)柳建鈺著:《字書字料庫的理論、實踐與應用》,中華書局,2021年版,第271頁。。但近代沒有古之用例很多談不上什么通假,中古以后的很多材料,字與字之間讀音意義很接近,文字使用混用非常普遍。若均認定為通假,就有點泛濫。通假字的限定范圍內容限定在上古更為合適。
字料庫本體建設也還有很多工作可以進一步展開。比如,就收錄字料的廣度來說,應該進一步擴大字料的搜集范圍,把佛經敦煌寫卷、碑刻文獻、契約文書等近代漢字原始字形搜羅進去,這樣有利于凸顯字書收字與文獻真實用例的差異,并找到兩者之間的結合點。因為字書收字畢竟打上了編纂者個人的理念,與真實的文字使用情況未必契合。溝通語篇文字與字書文字,收錄文字真實的較早的文獻用例,這樣可以激活使用狀態(tài)下的文字,為漢字斷代尤其是常用漢字斷代提供一個相對可靠的參考樣本。在字書輾轉傳抄過程中產生了大量疑難字,這些疑難字只有字書的注音與訓釋,如果能找到其文獻真實用例,無疑將對這些疑難字的考辨提供重要佐證材料。
整體來看,柳建鈺《字書字料庫的理論、實踐與應用》就字料庫及字書字料庫相關問題做出了探索性的嘗試。他至少充分證明了以下兩點:一方面,作為嶄新的研究工具和研究方法,字料庫能夠孵化新思維,探索新方法,大大提升學者們研究和處理漢字材料效率和準確度;另一方面,字料庫創(chuàng)造了人文研究的全新環(huán)境,研究平臺實現(xiàn)了從紙本文獻到分門別類的數(shù)字文獻的轉變,在推動全漢字整理研究工作走上信息化大道的過程中,字書字料庫發(fā)揮了無可替代的作用?!蹲謺至蠋斓睦碚?、實踐與應用》一書在字料庫研究的理論建構與實踐應用方面做出了很大努力,闡釋了字料庫作為一種新的漢字學研究手段的創(chuàng)新性,驗證了字料庫作為一個獨立漢字學研究平臺的可行性。字料庫不僅可以為漢字研究搭建長期發(fā)展的科研平臺;也可以作為語言文字的推廣普及平臺,它不僅可以勝任語言文字學相關本體的研究任務,其應用價值還能延伸到文獻學、歷史學、辭書學等研究領域。我們認為,字書字料庫的研究模式和研究思路符合當前學科研究交叉化、大數(shù)據(jù)化的發(fā)展大趨勢,《字書字料庫的理論、實踐與應用》一書所展示出的理論和方法,值得漢字學及其他相關學科借鑒與參考。