霍寧宇 殷冬 曹陽
摘要:作為信息化技術(shù)與傳統(tǒng)學(xué)科的結(jié)合點(diǎn),運(yùn)用新技術(shù)對傳統(tǒng)學(xué)科材料進(jìn)行處理和分析已成為一種趨勢。本文從字形、字音、字義等方面對《說文》部首及相關(guān)材料進(jìn)行梳理,以Microsoft Access 2010 為系統(tǒng)運(yùn)行平臺試制數(shù)據(jù)庫,采用關(guān)系型數(shù)據(jù)庫模式,并簡要論述了數(shù)據(jù)庫技術(shù)在傳統(tǒng)學(xué)科研究的價值與意義。
關(guān)鍵詞:《說文》;部首;數(shù)據(jù)庫
隨著數(shù)據(jù)化的進(jìn)一步發(fā)展,傳統(tǒng)學(xué)科與信息技術(shù)的結(jié)合已經(jīng)成為必然的趨勢?!墩f文》作為傳統(tǒng)文字學(xué)的重要典籍之一,如何對其進(jìn)行數(shù)據(jù)化是一項(xiàng)很有意義的研究,但在已有的一些查詢網(wǎng)站和相關(guān)數(shù)據(jù)庫仍存在一定的不足。本文通過對《說文》部首及相關(guān)數(shù)據(jù)的處理并對數(shù)據(jù)庫的建構(gòu)進(jìn)行嘗試,希望能夠?qū)ο嚓P(guān)研究提供幫助。
1《說文》部首數(shù)據(jù)庫的建構(gòu)意義
數(shù)據(jù)庫是按照一定結(jié)構(gòu)組織,可以長期存儲在計(jì)算機(jī)內(nèi)的、具有某些內(nèi)在含義的、在邏輯上保持一致的、可共享的大量數(shù)據(jù)集合。數(shù)據(jù)庫技術(shù)是目前使用計(jì)算機(jī)進(jìn)行數(shù)據(jù)處理的主要方式,在以大批量數(shù)據(jù)的存儲、組織和使用為基本特征的領(lǐng)域里,數(shù)據(jù)庫有著廣泛的應(yīng)用。
對《說文》部首進(jìn)行數(shù)據(jù)庫化,其必要性主要體現(xiàn)在以下幾個方面:
1.1 部首全面梳理的需要
無論是《說文》中部與部、部與字的關(guān)系還是具體到字中形音義之間的關(guān)系,都不是單純的平面化單線性的材料堆疊,而是具有內(nèi)在邏輯的多層次關(guān)系。因此,在對《說文》進(jìn)行的研究中,限于原有的材料處理方式,無法便捷高效的將其中關(guān)系直觀展現(xiàn)出來,需要借助計(jì)算機(jī)數(shù)據(jù)庫技術(shù)的介入,才能對對象材料進(jìn)行立體化的處理并以二維表格的形式展示出來。
1.2 部首對比分析的需要
《說文》首創(chuàng)“部首”這一概念,其后的歷代字書在編纂中大多仿說文這一體例編排,但會根據(jù)文字形體的不同加以增刪改變,由此可以一窺漢字部首在不同時期的演變規(guī)律,這要求對不同時期不同字書的部首進(jìn)行對比分析的能力。
1.3 便利教學(xué)與研究的需要
在條件允許的情況下引入數(shù)據(jù)庫技術(shù),對文獻(xiàn)材料的處理(如語料的分類等)既可以提高效率,避免不必要的資源浪費(fèi),也符合當(dāng)下文獻(xiàn)數(shù)據(jù)化的發(fā)展趨勢,在傳統(tǒng)學(xué)科研究方式的革新方向提供探索的經(jīng)驗(yàn)。
2《說文》部首數(shù)據(jù)庫的設(shè)計(jì)
《說文》部首數(shù)據(jù)庫的構(gòu)架,首先需要選定依據(jù)的文獻(xiàn)版本以及實(shí)現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)。為了保證盡量高的質(zhì)量,在文獻(xiàn)版本的選擇上,《說文》采用大徐本(中華書局1963),并參考了臧克和、王平、劉志基開發(fā)的“《說文解字》全文檢索系統(tǒng)”(南方日報(bào)出版社2004);在補(bǔ)充數(shù)據(jù)的選擇上,字形部分選擇了由陳彭年等校定的《大廣益會玉篇》(中華書局1987);字音部分反切以大徐本為主,現(xiàn)代漢語注音則參考王彤偉《說文解字五百四十部疏講》(巴蜀書社2012);字義部分仍以《說文》大徐本為主,參考徐鍇《說文解字系傳》(中華書局1987);在數(shù)據(jù)庫管理系統(tǒng)的選擇上,采用目前占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫。
按照關(guān)系型數(shù)據(jù)庫的設(shè)計(jì)理念及建模方式,《說文》部首數(shù)據(jù)庫的構(gòu)建分成以下幾個部分:
2.1 概念結(jié)構(gòu)設(shè)計(jì)
概念結(jié)構(gòu)設(shè)計(jì),指的是使用實(shí)體關(guān)系圖(ER圖)對《說文》部首的組織結(jié)構(gòu)進(jìn)行概念結(jié)構(gòu)分析,辨明其中的實(shí)體、屬性與聯(lián)系,從而構(gòu)建出《說文》部首的概念結(jié)構(gòu)模型,完成從現(xiàn)實(shí)世界到信息世界的第一層抽象。
分析《說文》部首,首先要了解把握《說文》整體的組織結(jié)構(gòu)。《說文》的內(nèi)部組織結(jié)構(gòu)從實(shí)質(zhì)上來說是一種層級結(jié)構(gòu):全書分若干卷,每卷分若干部,每部分若干字,每字分若干形。在這一結(jié)構(gòu)下,說解、注音等內(nèi)容依層歸附,形成整體。
《說文》部首結(jié)構(gòu)主要體現(xiàn)在部、字與形三者之間。且部首是部的代表,也是部中具體的一個字,可以將部與字歸并為“部首”一層,也即把《說文》部首的內(nèi)在結(jié)構(gòu)劃分為“部首”與“字形”兩級。在此基礎(chǔ)上抽象其概念并結(jié)合補(bǔ)充材料,用ER圖表現(xiàn)如下:
《說文》部首各實(shí)體及其屬性說明如下:
《說文》部首“部首”實(shí)體,有10個屬性:“部序”是“部”層面的數(shù)字序號,“部目”是各部首的名稱,“字序”是“字”層面的數(shù)字序號,“字目”是充當(dāng)部首的具體字頭,“原文”是《說文》對字頭的說解,“徐鉉”是徐鉉對字頭的解釋,“徐鍇”是徐鍇對字頭的解釋,“今讀”是對字頭的現(xiàn)代漢語注音,“唐韻”是徐鉉所加的《唐韻》反切,“玉篇”是確認(rèn)該部首在《玉篇》中是否仍為部首。
《說文》部首“字形”實(shí)體,有4個屬性:“形序”是“字形”的數(shù)字序號,“形目”是與字頭對應(yīng)的各類字形,“形類”是《說文》及補(bǔ)充材料中對字形的歸類,“說解”是《說文》及其他材料中對字形的說明。
《說文》部首數(shù)據(jù)庫的所收材料除了來自《說文》本身的材料以外補(bǔ)充的內(nèi)容,在數(shù)據(jù)分析中作為“部首”以及“字形”的屬性表現(xiàn)(如今讀,楷字等)。
2.2 邏輯結(jié)構(gòu)設(shè)計(jì)
邏輯結(jié)構(gòu)設(shè)計(jì)是依據(jù)關(guān)系數(shù)據(jù)理論的轉(zhuǎn)換規(guī)則,將《說文》部首ER圖中的實(shí)體、屬性以及實(shí)體之間的聯(lián)系轉(zhuǎn)換為相關(guān)的關(guān)系模式,從而構(gòu)建出其中的邏輯結(jié)構(gòu)模型,完成從信息世界到數(shù)據(jù)世界的二級抽象。
《說文》部首ER圖中包括“部首”和“字形”2個實(shí)體,相應(yīng)可以轉(zhuǎn)化為2組關(guān)系,其中實(shí)體的屬性表現(xiàn)為關(guān)系的屬性;各實(shí)體之間都是1:n聯(lián)系,通過將實(shí)體1端(即“部首”)的主鍵納入實(shí)體n端(即“字形”)中作為外鍵,從而建立起關(guān)系之間的聯(lián)系。通過轉(zhuǎn)換,《說文》部首的邏輯關(guān)系表示如下(加下劃線的屬性為主鍵):
部首(部序、部目、字序、字目、原文、徐鉉、徐鍇、今讀、唐韻、玉篇)
字形(形序、形目、形類、說解、部序)
2.3 規(guī)范化分析
規(guī)范化分析,是根據(jù)關(guān)系規(guī)范化理論,對《說文》部首邏輯結(jié)構(gòu)中的關(guān)系模式進(jìn)行分析,確定各關(guān)系模式中屬性之間的函數(shù)依賴關(guān)系和達(dá)到的范式等級,從而檢測系統(tǒng)設(shè)計(jì)的優(yōu)劣程度。
運(yùn)用規(guī)范化理論,可以看出,在《說文》部首的各個關(guān)系模式中,主鍵都是本模式的唯一決定因素,所以這2個關(guān)系模式都屬于BC范式,在函數(shù)依賴的范疇內(nèi),規(guī)范化程度已經(jīng)達(dá)到了最高。
2.4 表結(jié)構(gòu)創(chuàng)建
表結(jié)構(gòu)的創(chuàng)建即是根據(jù)關(guān)系數(shù)據(jù)庫管理系統(tǒng)的要求,將《說文》部首邏輯結(jié)構(gòu)中的關(guān)系模式轉(zhuǎn)換為相應(yīng)的數(shù)據(jù)表形式,并對數(shù)據(jù)表中的屬性名稱、數(shù)據(jù)類型、長度大小、取值范圍等問題做出規(guī)定與說明,以建立存儲數(shù)據(jù)的基表結(jié)構(gòu),也是對整個設(shè)計(jì)流程的全面總結(jié)和最終表示。
綜前所述,建立《說文》部首的表結(jié)構(gòu)如表1、表2、表3:
以上為《說文》部首數(shù)據(jù)庫的表結(jié)構(gòu)設(shè)計(jì)。
需要作出說明的是,對于表1的部首表,因?yàn)樵诓牧系倪x取中每個部首所對應(yīng)的讀音與釋義是可以區(qū)分且沒有重復(fù)數(shù)據(jù)的,在實(shí)際的建構(gòu)中與設(shè)計(jì)完全符合;但表2的字形表由于本身類別歸屬的復(fù)雜性(《說文》本身的分類與補(bǔ)充材料合計(jì)12種),以及同一類別的數(shù)據(jù)較多的重復(fù)(古文有三種重復(fù),或體有兩種,籀文有兩種等),且不同類別的字體間有不同的對應(yīng)關(guān)系(相當(dāng)?shù)墓盼摹⒆?、籀文都有對?yīng)的楷字形態(tài)),如果統(tǒng)合表現(xiàn)在一個表中,不可避免會造成數(shù)據(jù)冗余。因此需要對每種字形建立數(shù)據(jù)表,其具體的結(jié)構(gòu)如表3。
至此,基于關(guān)系數(shù)據(jù)庫理論的“《說文》部首數(shù)據(jù)庫”設(shè)計(jì)完成。
3《說文》部首數(shù)據(jù)庫的效用
根據(jù)上述設(shè)計(jì)方案,現(xiàn)已完成對《說文》部首及其相關(guān)材料數(shù)據(jù)的錄入和校對工作。該數(shù)據(jù)庫的具體效用可以從以下兩個方面進(jìn)行說明:
3.1 對《說文》部首及相關(guān)材料進(jìn)行系統(tǒng)整理
通過《說文》部首數(shù)據(jù)庫能夠?qū)崿F(xiàn)對《說文》部首小篆、諸重文以及對應(yīng)楷字的形體,讀若讀如到《唐韻》反切、現(xiàn)代漢語注音的字音,以及徐鉉、徐鍇的說解字義等內(nèi)容嚴(yán)格意義的數(shù)據(jù)梳理和查詢設(shè)計(jì),在此基礎(chǔ)上能夠形成詳細(xì)到各字頭各項(xiàng)信息的數(shù)據(jù)報(bào)表,這些都是傳統(tǒng)的訓(xùn)詁疏證式的分析方法不能比擬的。
3.2 對相關(guān)研究提供便捷準(zhǔn)確的數(shù)據(jù)支持
《說文》部首數(shù)據(jù)庫最主要的作用還是對數(shù)據(jù)進(jìn)行梳理,為研究提供便利。相較于原來的材料分析方法,《說文》部首數(shù)據(jù)庫能將所有的數(shù)據(jù)從具體需求的角度提供,在數(shù)據(jù)范圍能夠包含的情況下減少大量的重復(fù)勞動,且依靠計(jì)算機(jī)的處理能力,也可以盡量的避免失誤的出現(xiàn)。
在傳統(tǒng)語言文字研究中引入數(shù)據(jù)庫技術(shù),不僅能在文獻(xiàn)語料的統(tǒng)計(jì)處理上更為方便準(zhǔn)確,而且還能通過建模設(shè)計(jì)過程與量化分析方式,充分展現(xiàn)出研究對象內(nèi)在的本質(zhì)特征和外在的表現(xiàn)特點(diǎn),真正實(shí)現(xiàn)了研究手段的科學(xué)化和表達(dá)形式的精確化。
參考文獻(xiàn):
[1]許慎.說文解字[M].北京:中華書局,1963.
[2]顧野王.大廣益會玉篇[M].北京:中華書局,1987.
[3]臧克和,王平,劉志基.《說文解字》全文檢索[M].廣州:南方日報(bào)出版社,2004.
[4]劉志嫵,張煥君,馬秀麗.基于VB和SQL的數(shù)據(jù)庫編程技術(shù)[M].北京:清華大學(xué)出版社,2008.
[5]宋繼華,王寧.基于超文本環(huán)境的《說文解字》知識庫的建立[J].語言文字應(yīng)用,1999(3):90-96.
[6]李恩江.說文部首的成因及構(gòu)成[J].鄭州大學(xué)學(xué)報(bào),2002(5):20-24.
[7]宋繼華,李桂芳.數(shù)字化《說文解字》教學(xué)系統(tǒng)的設(shè)計(jì)[J].現(xiàn)代教育技術(shù),2007(3):25-31.
[8]王晴.說文解字五百四十部研究[D].江西師范大學(xué),碩士,2007.
[9]胡佳佳.《說文》內(nèi)在系統(tǒng)的數(shù)字化模型研究[D].北京師范大學(xué),博士,2010.