文 / 孫尊章 徐凌
《論語》中古注疏語料庫的建設(shè)
文 / 孫尊章 徐凌
古代漢語語料庫的研究,還有很大的發(fā)展空間。專題小型語料庫的建設(shè),能夠?yàn)檠芯繋順O大的便利。建設(shè)思路可包括:對(duì)電子文本進(jìn)行校對(duì);將語料進(jìn)行分離,剝離不需要的語料,將需要的語料進(jìn)行分類;對(duì)語料進(jìn)行加工,包括分詞和詞性標(biāo)注。
論語;中古;注疏;語料庫
隨著計(jì)算機(jī)的普及和信息技術(shù)的發(fā)展,科研工作中越來越多地使用到了語料庫,這為我們的研究帶來了極大的便利。語言的研究應(yīng)基于語言事實(shí)來展開。因此,它需要占有盡可能詳盡的語料。傳統(tǒng)的語言學(xué)研究,靠人工來收集、分析語料,耗時(shí)太大,枯燥且易出現(xiàn)錯(cuò)誤。漢語史研究中語料庫的使用,能夠使我們的研究建立在堅(jiān)實(shí)的語料基礎(chǔ)上,使我們的研究更有說服力。
但相對(duì)于現(xiàn)代漢語和外語而言,古代漢語語料庫的建設(shè)還處于較弱的位置。我們?cè)趶氖隆墩撟C》中古注疏研究時(shí),建設(shè)了一個(gè)《論語》中古注疏的小型語料庫,主要包括《論語》正文、何晏注及皇侃義疏。現(xiàn)將建設(shè)思路略作解析,以就正于方家。
首先,選用已有的電子版本進(jìn)行校對(duì)。已有的電子版本大多較粗糙,不僅有大量的錯(cuò)別字,甚至存在大段缺失的情況。因此,我們先使用善本對(duì)它們進(jìn)行了校對(duì)。
我們選取的底本是中華書局1998年出版的四部要籍注疏叢刊《論語》。此本選用的是清同治十二年粵東書局據(jù)《知不足齋叢書》本刻《古經(jīng)解匯函本》。
參考的校本有以下兩種:
其一,《儒藏》精華編104冊(cè)經(jīng)部四書類《論語義疏》。此本原為1923年日本大阪懷德堂的排印本,由武內(nèi)義雄據(jù)日本國內(nèi)多種古抄本合校而成,其特點(diǎn)是保持了抄本皇侃《義疏》的體式,而不像根本遜志刻本那樣將皇侃《義疏》的體式完全比照中國習(xí)見的注疏體式作過改動(dòng)。
其二,《儒藏》精華編281冊(cè)出土文獻(xiàn)類《唐寫本論語集解》。20世紀(jì)初以來,敦煌及吐魯番等地出土了唐人寫何晏《集解》單行本60多件,同時(shí)還有白文《論語》、《論語鄭氏注》和《論語皇侃義疏講經(jīng)提綱》。此本既以《集解》寫本為底本和校本對(duì)校,并以白文《論語》、《論語鄭氏注》及有關(guān)刊本為參校本,并參考《論語皇侃義疏講經(jīng)提綱》進(jìn)行整理與研究,也有一定的參考價(jià)值。
在語料整理過程中,我們還參考了清吳騫撰《皇氏論語義疏參訂十卷附錄一卷》,《續(xù)修四庫全書》第153冊(cè),經(jīng)部·四書類等。
我們?cè)趯⑽谋具M(jìn)行了多次校對(duì)之后,得到了一個(gè)錯(cuò)誤盡可能少的《論語》中古注疏語料。在這個(gè)基礎(chǔ)上,將語料進(jìn)行分離。把語料中的四種類型分別用不同的顏色標(biāo)上。黑色,包括注疏用語、注中全部引用《論語》原文的話、疏中全部引用《論語》原文或何注的話。這部分是不列入研究范圍的、需要?jiǎng)冸x的語料;橙色,屬于《論語》正文;紅色,屬于何晏注;藍(lán)色,屬于皇侃疏;再利用POI技術(shù)對(duì)文檔進(jìn)行分享操作。POI技術(shù)中的HWPF介面的主要功能是讀寫Word,完成提取Word正文文本、批注、Word總頁數(shù)、總頁數(shù)等一系列操作,功能強(qiáng)大且易用。借助它,我們可以方便地將正文、何注和皇疏分別分離到三個(gè)word文檔中。同時(shí)去除文檔中的標(biāo)點(diǎn),得到了純凈的文本。方法如下:
POI下載解壓后,首先將POI中操縱Word有關(guān)的包導(dǎo)入項(xiàng)目中,然后創(chuàng)建一Java類,在類中導(dǎo)入java.io包中的File、FileInputStream類,poi包中的Now、HWPFDocument、CharacterRun和Range等類。
我們分別將三個(gè)文檔,用“MyTxtSegTag分詞和詞性標(biāo)注工具”進(jìn)行初步的分詞及詞性標(biāo)注。不過,這個(gè)軟件對(duì)繁體字無法識(shí)別,必須先將語料轉(zhuǎn)化為簡化字之后再操作。另外,這個(gè)軟件對(duì)古代漢語語料的分詞和詞性標(biāo)注錯(cuò)誤較多。用它操作完畢后,還必須進(jìn)行詳細(xì)的人工校對(duì)。
完成分詞和詞性標(biāo)注后,我們將得到的內(nèi)容,轉(zhuǎn)入excel表格中,何晏注和皇侃疏各建立一個(gè)excel表格。每一個(gè)詞及其詞性標(biāo)注內(nèi)容,都占用一個(gè)單元格,每一行只存放一個(gè)詞。
在何晏注和皇侃疏這兩個(gè)excel工作薄中,分別建立以下工作表:
(1)原文:這是直接從word中轉(zhuǎn)換到excel表格中的內(nèi)容。
(2)排序后:這個(gè)表里面的數(shù)據(jù),是將所有數(shù)據(jù)按音序排列后的內(nèi)容。
(3)去除重復(fù)后:將排序后的數(shù)據(jù),通過excel表格“篩選”中的“高級(jí)篩選”功能,勾選“選擇不重復(fù)的記錄”,并設(shè)置“將篩選結(jié)果復(fù)制到其它位置”,在“復(fù)制到”里面選擇B1單元格。由此去除重復(fù)的記錄,即詞形和詞性都完全相同的記錄,只保留一個(gè)。
(4)按音節(jié)排序:將去除重復(fù)記錄后的數(shù)據(jù),再一次按音節(jié)排序。
(5)去除被釋詞:在前面的詞性標(biāo)注中,已經(jīng)將所有被釋詞等不需要列入統(tǒng)計(jì)的語料,用“bj”進(jìn)行了標(biāo)注。在此表中,刪除所有帶有“bj”字段的單元格。它的方法有許多,下面提供兩種辦法。其一,點(diǎn)擊“編輯”菜單,選擇“查找”功能,在“查找內(nèi)容”框中輸入“bj”,并點(diǎn)擊“查找全部”,再在查找結(jié)果框中全選,然后在工作表上點(diǎn)右鍵,選擇“刪除”,在彈出的對(duì)話框中選擇刪除“整行”。其二,點(diǎn)擊“編輯”菜單,選擇“替換”功能,在“查找內(nèi)容”框中輸入“*bj”,“替換為”框中不輸入任何數(shù)據(jù),并點(diǎn)擊“全部替換”。這樣,所有帶被釋詞的單元格,都變成了空白單元格。之后,我們?cè)賹⑺锌瞻讍卧駝h除。它的方法是:選定需要去除空白單元格的列,再點(diǎn)擊“編輯”菜單,選擇“定位”功能,在“選擇”下面的內(nèi)容中,選擇“空值”,(如圖)然后右鍵點(diǎn)擊工作表,在彈出的菜單中選擇“刪除”,并選擇“下方單元格上移”。
說明:“*bj”,表示帶有字符“bj”的單元格的所有內(nèi)容。
(6)單音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導(dǎo)入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,2,1)”,填充至Cn單元格。
說明:“=LEN(A1)”的目標(biāo)是,在B1單元格中返回A1單元格的字符數(shù)。
“=MID(A1,2,1)”的目標(biāo)是,在C1單元格中返回A1單元格中的第2個(gè)字符的內(nèi)容。
若B1單元格顯示的是3,表明A1單元格的字符數(shù)是3個(gè),那么A1單元格里面的詞肯定是單音詞。若B1單元格顯示的是4,表明A1單元格的字符數(shù)是4個(gè),那么A1單元格里面的詞有可能是單音詞,也有可能是復(fù)音詞。因?yàn)樵跇?biāo)注詞性時(shí),有些詞的詞性是用兩個(gè)字母來標(biāo)注的,如助動(dòng)詞,用的是vu,再如人名,用的是nh。這就需要第二步的判斷。
若C1單元格顯示的是“/”,表明A1單元格的第二個(gè)字符不是漢字,而是漢字和詞性標(biāo)注之間的符號(hào)“/”,那么A1單元格里面的詞肯定是單音詞。若C1單元格顯示的不是“/”而是漢字,則表明A1單元格的第二個(gè)字符是漢字,說明A1單元格里的詞是復(fù)音詞。
以上數(shù)據(jù)得出后,再進(jìn)行“排序”中的“自定義排序”操作,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列C”,“第三關(guān)鍵字”為“列A”,都使用“升序”排列。這樣,所有B列為3的,或B列為4同時(shí)C列為“/”的數(shù)據(jù),都排在了前面。這些全部是單音詞。保留這些數(shù)據(jù),刪除其它,就得到了單音詞表。
(7)雙音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導(dǎo)入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。得出數(shù)據(jù)后,再按前面的辦法,繼續(xù)進(jìn)行“排序”中的“自定義排序”操作。所有B列為4同時(shí)C列為漢字而非“/”的數(shù)據(jù),或B列為5同時(shí)C列為“/”的數(shù)據(jù),都排在了前面。這些全部是雙音詞。保留這些數(shù)據(jù),刪除其它,就得到了雙音詞表。
(8)三音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導(dǎo)入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。
得出數(shù)據(jù)后,再按前面的辦法,繼續(xù)進(jìn)行“排序”中的“自定義排序”操作,內(nèi)容同上。所有B列為5同時(shí)C列為漢字而非“/”的數(shù)據(jù),或B列為6同時(shí)C列為“/”的數(shù)據(jù),都排在了前面。這些全部是三音詞。保留這些數(shù)據(jù),刪除其它,就得到了雙音詞表。
(9)四音及以上詞:除了剛才所列的“單音詞”、“雙音詞”及“三音詞”三類之外的所有其它“去除被釋詞”工作表中的數(shù)據(jù),都?xì)w入此表。于是,我們得到了“四音及以上詞”的數(shù)據(jù)。
(1 0)單音詞詞類統(tǒng)計(jì):將“單音詞”工作表中的數(shù)據(jù)導(dǎo)入此表。再在B1單元格里輸入“=MID(A1,3,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。
(1 1)雙音詞詞類統(tǒng)計(jì):將“雙音詞”工作表中的數(shù)據(jù)導(dǎo)入此表。再在B 1單元格里輸入“=MID(A1,4,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。
(12)雙音詞結(jié)構(gòu)分析統(tǒng)計(jì):將“雙音詞”工作表中的數(shù)據(jù)導(dǎo)入此表。按照對(duì)雙音詞結(jié)構(gòu)判斷的標(biāo)準(zhǔn),對(duì)除專有名詞在外的所有雙音詞進(jìn)行結(jié)構(gòu)分析。之后再將它們排序,分析統(tǒng)計(jì)雙音詞的結(jié)構(gòu)。
(13)詞語使用頻率統(tǒng)計(jì):將“原文”工作表中的數(shù)據(jù)導(dǎo)入此表。先去除被釋詞(方法同上),再在B1單元格里輸入“=COUNTIF(A:A,A1)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。
通過以上步驟,建立起《論語》中古注疏語料庫后,我們可以更好地統(tǒng)計(jì)分析《論語》中古注疏語言的情況,提高語言研究質(zhì)量。在詞匯研究中,這可以快捷地統(tǒng)計(jì)詞匯的使用頻率、單音詞和復(fù)音詞的基本信息,以及詞語搭配的規(guī)律。在語法研究中有了這個(gè)語料庫作為堅(jiān)實(shí)的基礎(chǔ),可以高效地統(tǒng)計(jì)雙音詞的結(jié)構(gòu),對(duì)《論語》中古注疏語料的詞類進(jìn)行窮盡性研究。
[1]四部要籍注疏叢刊本.論語[M].北京:中華書局,1998.
[2]北京大學(xué)《儒藏》編纂中心.論語義疏[M].北京:北京大學(xué)出版社,2007.
[3]北京大學(xué)《儒藏》編纂中心.唐寫本論語集解[M].北京:北京大學(xué)出版社,2007.
[4](梁)皇侃.論語義疏[M].北京:中華書局,2013.
[5](清)吳騫.皇氏論語義疏參訂十卷附録一卷[M],上海:上海古籍出版社,1996.
[6]黃青云,裴冬菊.POI在Word文檔不同顏色文本分離中的應(yīng)用研究[J].南昌工程學(xué)院學(xué)報(bào),2014(3).
江西省高校人文社科項(xiàng)目“《論語》漢魏六朝注疏詞匯研究”(項(xiàng)目編號(hào):YY1524)、國家社科基金重大項(xiàng)目“漢語詞匯通史”(項(xiàng)目編號(hào):14ZDB093)、江西省社會(huì)科學(xué)規(guī)劃項(xiàng)目“六朝至宋《論語》四種注疏詞匯比較研究”(項(xiàng)目編號(hào):17YY07)的階段性成果。
(責(zé)任編輯:虞志堅(jiān))
孫尊章(1979-),男,廣東梅州人,博士,江西農(nóng)業(yè)大學(xué)人文與公共管理學(xué)院教師,研究方向:漢語史。
徐凌(1977-),女,河南鹿邑人,四川大學(xué)文學(xué)與新聞學(xué)院博士研究生,江西農(nóng)業(yè)大學(xué)人文與公共管理學(xué)院教師,研究方向:漢語史。
G256;H13
A
1005-9652(2017)05-0174-03