亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        《論語》中古注疏語料庫的建設(shè)

        2017-01-28 21:40:42孫尊章徐凌
        山西檔案 2017年5期
        關(guān)鍵詞:單音詞雙音詞注疏

        文 / 孫尊章 徐凌

        《論語》中古注疏語料庫的建設(shè)

        文 / 孫尊章 徐凌

        古代漢語語料庫的研究,還有很大的發(fā)展空間。專題小型語料庫的建設(shè),能夠?yàn)檠芯繋順O大的便利。建設(shè)思路可包括:對(duì)電子文本進(jìn)行校對(duì);將語料進(jìn)行分離,剝離不需要的語料,將需要的語料進(jìn)行分類;對(duì)語料進(jìn)行加工,包括分詞和詞性標(biāo)注。

        論語;中古;注疏;語料庫

        隨著計(jì)算機(jī)的普及和信息技術(shù)的發(fā)展,科研工作中越來越多地使用到了語料庫,這為我們的研究帶來了極大的便利。語言的研究應(yīng)基于語言事實(shí)來展開。因此,它需要占有盡可能詳盡的語料。傳統(tǒng)的語言學(xué)研究,靠人工來收集、分析語料,耗時(shí)太大,枯燥且易出現(xiàn)錯(cuò)誤。漢語史研究中語料庫的使用,能夠使我們的研究建立在堅(jiān)實(shí)的語料基礎(chǔ)上,使我們的研究更有說服力。

        但相對(duì)于現(xiàn)代漢語和外語而言,古代漢語語料庫的建設(shè)還處于較弱的位置。我們?cè)趶氖隆墩撟C》中古注疏研究時(shí),建設(shè)了一個(gè)《論語》中古注疏的小型語料庫,主要包括《論語》正文、何晏注及皇侃義疏。現(xiàn)將建設(shè)思路略作解析,以就正于方家。

        一、電子文本的校對(duì)

        首先,選用已有的電子版本進(jìn)行校對(duì)。已有的電子版本大多較粗糙,不僅有大量的錯(cuò)別字,甚至存在大段缺失的情況。因此,我們先使用善本對(duì)它們進(jìn)行了校對(duì)。

        我們選取的底本是中華書局1998年出版的四部要籍注疏叢刊《論語》。此本選用的是清同治十二年粵東書局據(jù)《知不足齋叢書》本刻《古經(jīng)解匯函本》。

        參考的校本有以下兩種:

        其一,《儒藏》精華編104冊(cè)經(jīng)部四書類《論語義疏》。此本原為1923年日本大阪懷德堂的排印本,由武內(nèi)義雄據(jù)日本國內(nèi)多種古抄本合校而成,其特點(diǎn)是保持了抄本皇侃《義疏》的體式,而不像根本遜志刻本那樣將皇侃《義疏》的體式完全比照中國習(xí)見的注疏體式作過改動(dòng)。

        其二,《儒藏》精華編281冊(cè)出土文獻(xiàn)類《唐寫本論語集解》。20世紀(jì)初以來,敦煌及吐魯番等地出土了唐人寫何晏《集解》單行本60多件,同時(shí)還有白文《論語》、《論語鄭氏注》和《論語皇侃義疏講經(jīng)提綱》。此本既以《集解》寫本為底本和校本對(duì)校,并以白文《論語》、《論語鄭氏注》及有關(guān)刊本為參校本,并參考《論語皇侃義疏講經(jīng)提綱》進(jìn)行整理與研究,也有一定的參考價(jià)值。

        在語料整理過程中,我們還參考了清吳騫撰《皇氏論語義疏參訂十卷附錄一卷》,《續(xù)修四庫全書》第153冊(cè),經(jīng)部·四書類等。

        二、語料的分離

        我們?cè)趯⑽谋具M(jìn)行了多次校對(duì)之后,得到了一個(gè)錯(cuò)誤盡可能少的《論語》中古注疏語料。在這個(gè)基礎(chǔ)上,將語料進(jìn)行分離。把語料中的四種類型分別用不同的顏色標(biāo)上。黑色,包括注疏用語、注中全部引用《論語》原文的話、疏中全部引用《論語》原文或何注的話。這部分是不列入研究范圍的、需要?jiǎng)冸x的語料;橙色,屬于《論語》正文;紅色,屬于何晏注;藍(lán)色,屬于皇侃疏;再利用POI技術(shù)對(duì)文檔進(jìn)行分享操作。POI技術(shù)中的HWPF介面的主要功能是讀寫Word,完成提取Word正文文本、批注、Word總頁數(shù)、總頁數(shù)等一系列操作,功能強(qiáng)大且易用。借助它,我們可以方便地將正文、何注和皇疏分別分離到三個(gè)word文檔中。同時(shí)去除文檔中的標(biāo)點(diǎn),得到了純凈的文本。方法如下:

        POI下載解壓后,首先將POI中操縱Word有關(guān)的包導(dǎo)入項(xiàng)目中,然后創(chuàng)建一Java類,在類中導(dǎo)入java.io包中的File、FileInputStream類,poi包中的Now、HWPFDocument、CharacterRun和Range等類。

        三、分詞和詞性標(biāo)注

        我們分別將三個(gè)文檔,用“MyTxtSegTag分詞和詞性標(biāo)注工具”進(jìn)行初步的分詞及詞性標(biāo)注。不過,這個(gè)軟件對(duì)繁體字無法識(shí)別,必須先將語料轉(zhuǎn)化為簡化字之后再操作。另外,這個(gè)軟件對(duì)古代漢語語料的分詞和詞性標(biāo)注錯(cuò)誤較多。用它操作完畢后,還必須進(jìn)行詳細(xì)的人工校對(duì)。

        完成分詞和詞性標(biāo)注后,我們將得到的內(nèi)容,轉(zhuǎn)入excel表格中,何晏注和皇侃疏各建立一個(gè)excel表格。每一個(gè)詞及其詞性標(biāo)注內(nèi)容,都占用一個(gè)單元格,每一行只存放一個(gè)詞。

        在何晏注和皇侃疏這兩個(gè)excel工作薄中,分別建立以下工作表:

        (1)原文:這是直接從word中轉(zhuǎn)換到excel表格中的內(nèi)容。

        (2)排序后:這個(gè)表里面的數(shù)據(jù),是將所有數(shù)據(jù)按音序排列后的內(nèi)容。

        (3)去除重復(fù)后:將排序后的數(shù)據(jù),通過excel表格“篩選”中的“高級(jí)篩選”功能,勾選“選擇不重復(fù)的記錄”,并設(shè)置“將篩選結(jié)果復(fù)制到其它位置”,在“復(fù)制到”里面選擇B1單元格。由此去除重復(fù)的記錄,即詞形和詞性都完全相同的記錄,只保留一個(gè)。

        (4)按音節(jié)排序:將去除重復(fù)記錄后的數(shù)據(jù),再一次按音節(jié)排序。

        (5)去除被釋詞:在前面的詞性標(biāo)注中,已經(jīng)將所有被釋詞等不需要列入統(tǒng)計(jì)的語料,用“bj”進(jìn)行了標(biāo)注。在此表中,刪除所有帶有“bj”字段的單元格。它的方法有許多,下面提供兩種辦法。其一,點(diǎn)擊“編輯”菜單,選擇“查找”功能,在“查找內(nèi)容”框中輸入“bj”,并點(diǎn)擊“查找全部”,再在查找結(jié)果框中全選,然后在工作表上點(diǎn)右鍵,選擇“刪除”,在彈出的對(duì)話框中選擇刪除“整行”。其二,點(diǎn)擊“編輯”菜單,選擇“替換”功能,在“查找內(nèi)容”框中輸入“*bj”,“替換為”框中不輸入任何數(shù)據(jù),并點(diǎn)擊“全部替換”。這樣,所有帶被釋詞的單元格,都變成了空白單元格。之后,我們?cè)賹⑺锌瞻讍卧駝h除。它的方法是:選定需要去除空白單元格的列,再點(diǎn)擊“編輯”菜單,選擇“定位”功能,在“選擇”下面的內(nèi)容中,選擇“空值”,(如圖)然后右鍵點(diǎn)擊工作表,在彈出的菜單中選擇“刪除”,并選擇“下方單元格上移”。

        說明:“*bj”,表示帶有字符“bj”的單元格的所有內(nèi)容。

        (6)單音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導(dǎo)入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,2,1)”,填充至Cn單元格。

        說明:“=LEN(A1)”的目標(biāo)是,在B1單元格中返回A1單元格的字符數(shù)。

        “=MID(A1,2,1)”的目標(biāo)是,在C1單元格中返回A1單元格中的第2個(gè)字符的內(nèi)容。

        若B1單元格顯示的是3,表明A1單元格的字符數(shù)是3個(gè),那么A1單元格里面的詞肯定是單音詞。若B1單元格顯示的是4,表明A1單元格的字符數(shù)是4個(gè),那么A1單元格里面的詞有可能是單音詞,也有可能是復(fù)音詞。因?yàn)樵跇?biāo)注詞性時(shí),有些詞的詞性是用兩個(gè)字母來標(biāo)注的,如助動(dòng)詞,用的是vu,再如人名,用的是nh。這就需要第二步的判斷。

        若C1單元格顯示的是“/”,表明A1單元格的第二個(gè)字符不是漢字,而是漢字和詞性標(biāo)注之間的符號(hào)“/”,那么A1單元格里面的詞肯定是單音詞。若C1單元格顯示的不是“/”而是漢字,則表明A1單元格的第二個(gè)字符是漢字,說明A1單元格里的詞是復(fù)音詞。

        以上數(shù)據(jù)得出后,再進(jìn)行“排序”中的“自定義排序”操作,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列C”,“第三關(guān)鍵字”為“列A”,都使用“升序”排列。這樣,所有B列為3的,或B列為4同時(shí)C列為“/”的數(shù)據(jù),都排在了前面。這些全部是單音詞。保留這些數(shù)據(jù),刪除其它,就得到了單音詞表。

        (7)雙音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導(dǎo)入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。得出數(shù)據(jù)后,再按前面的辦法,繼續(xù)進(jìn)行“排序”中的“自定義排序”操作。所有B列為4同時(shí)C列為漢字而非“/”的數(shù)據(jù),或B列為5同時(shí)C列為“/”的數(shù)據(jù),都排在了前面。這些全部是雙音詞。保留這些數(shù)據(jù),刪除其它,就得到了雙音詞表。

        (8)三音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導(dǎo)入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。

        得出數(shù)據(jù)后,再按前面的辦法,繼續(xù)進(jìn)行“排序”中的“自定義排序”操作,內(nèi)容同上。所有B列為5同時(shí)C列為漢字而非“/”的數(shù)據(jù),或B列為6同時(shí)C列為“/”的數(shù)據(jù),都排在了前面。這些全部是三音詞。保留這些數(shù)據(jù),刪除其它,就得到了雙音詞表。

        (9)四音及以上詞:除了剛才所列的“單音詞”、“雙音詞”及“三音詞”三類之外的所有其它“去除被釋詞”工作表中的數(shù)據(jù),都?xì)w入此表。于是,我們得到了“四音及以上詞”的數(shù)據(jù)。

        (1 0)單音詞詞類統(tǒng)計(jì):將“單音詞”工作表中的數(shù)據(jù)導(dǎo)入此表。再在B1單元格里輸入“=MID(A1,3,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。

        (1 1)雙音詞詞類統(tǒng)計(jì):將“雙音詞”工作表中的數(shù)據(jù)導(dǎo)入此表。再在B 1單元格里輸入“=MID(A1,4,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。

        (12)雙音詞結(jié)構(gòu)分析統(tǒng)計(jì):將“雙音詞”工作表中的數(shù)據(jù)導(dǎo)入此表。按照對(duì)雙音詞結(jié)構(gòu)判斷的標(biāo)準(zhǔn),對(duì)除專有名詞在外的所有雙音詞進(jìn)行結(jié)構(gòu)分析。之后再將它們排序,分析統(tǒng)計(jì)雙音詞的結(jié)構(gòu)。

        (13)詞語使用頻率統(tǒng)計(jì):將“原文”工作表中的數(shù)據(jù)導(dǎo)入此表。先去除被釋詞(方法同上),再在B1單元格里輸入“=COUNTIF(A:A,A1)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。

        通過以上步驟,建立起《論語》中古注疏語料庫后,我們可以更好地統(tǒng)計(jì)分析《論語》中古注疏語言的情況,提高語言研究質(zhì)量。在詞匯研究中,這可以快捷地統(tǒng)計(jì)詞匯的使用頻率、單音詞和復(fù)音詞的基本信息,以及詞語搭配的規(guī)律。在語法研究中有了這個(gè)語料庫作為堅(jiān)實(shí)的基礎(chǔ),可以高效地統(tǒng)計(jì)雙音詞的結(jié)構(gòu),對(duì)《論語》中古注疏語料的詞類進(jìn)行窮盡性研究。

        [1]四部要籍注疏叢刊本.論語[M].北京:中華書局,1998.

        [2]北京大學(xué)《儒藏》編纂中心.論語義疏[M].北京:北京大學(xué)出版社,2007.

        [3]北京大學(xué)《儒藏》編纂中心.唐寫本論語集解[M].北京:北京大學(xué)出版社,2007.

        [4](梁)皇侃.論語義疏[M].北京:中華書局,2013.

        [5](清)吳騫.皇氏論語義疏參訂十卷附録一卷[M],上海:上海古籍出版社,1996.

        [6]黃青云,裴冬菊.POI在Word文檔不同顏色文本分離中的應(yīng)用研究[J].南昌工程學(xué)院學(xué)報(bào),2014(3).

        江西省高校人文社科項(xiàng)目“《論語》漢魏六朝注疏詞匯研究”(項(xiàng)目編號(hào):YY1524)、國家社科基金重大項(xiàng)目“漢語詞匯通史”(項(xiàng)目編號(hào):14ZDB093)、江西省社會(huì)科學(xué)規(guī)劃項(xiàng)目“六朝至宋《論語》四種注疏詞匯比較研究”(項(xiàng)目編號(hào):17YY07)的階段性成果。

        (責(zé)任編輯:虞志堅(jiān))

        孫尊章(1979-),男,廣東梅州人,博士,江西農(nóng)業(yè)大學(xué)人文與公共管理學(xué)院教師,研究方向:漢語史。

        徐凌(1977-),女,河南鹿邑人,四川大學(xué)文學(xué)與新聞學(xué)院博士研究生,江西農(nóng)業(yè)大學(xué)人文與公共管理學(xué)院教師,研究方向:漢語史。

        G256;H13

        A

        1005-9652(2017)05-0174-03

        猜你喜歡
        單音詞雙音詞注疏
        來源復(fù)雜的“復(fù)雜”
        辭書研究(2025年1期)2025-01-26 00:00:00
        《爾雅注疏》點(diǎn)校零識(shí)
        天一閣文叢(2018年0期)2018-11-29 07:48:28
        清代浦鏜《周易注疏正字》“盧本”發(fā)覆
        天一閣文叢(2018年0期)2018-11-29 07:48:24
        論漢語國際教育中單音詞的教學(xué)
        關(guān)于漢語雙音詞的偏旁類化
        源自《莊子》的雙音詞的形成方式與詞義演變例釋
        漢語同素逆序構(gòu)詞現(xiàn)象分析
        《論語》注疏之西方傳承:從理雅各到森舸斕
        《孟子》中單音反義形容詞的語義場分類研究
        “相親”成詞及詞義演變考
        最好看的亚洲中文字幕| 欧美丰满熟妇bbbbbb百度| 国产在线观看黄| 视频一区二区三区中文字幕狠狠 | 精品人妻系列无码人妻免费视频 | 人人妻人人澡av天堂香蕉| 亚洲欧美久久婷婷爱综合一区天堂| 国产网友自拍视频在线观看| 久久女人精品天堂av影院麻| 曰韩无码无遮挡a级毛片| 日产国产精品亚洲系列| 亚洲视频高清| 成人一区二区三区蜜桃| 在线免费看91免费版.| 蜜臀亚洲av无码精品国产午夜.| 品色永久免费| 久久精品成人免费观看97| 中文字幕日韩一区二区不卡| 美女人妻中出日本人妻| 精品偷拍被偷拍在线观看| 精品国精品无码自拍自在线| 欧美日本国产亚洲网站免费一区二区| 羞涩色进入亚洲一区二区av | 亚洲精品中文有码字幕| 精华国产一区二区三区| 久久亚洲日韩精品一区二区三区| 欧洲人妻丰满av无码久久不卡| 久久老子午夜精品无码| 成a人片亚洲日本久久| 久久久国产精品无码免费专区| 国产精品毛片完整版视频| 在线播放国产女同闺蜜| 99久久免费中文字幕精品| 国产av一级片在线观看| 亚洲av成人精品日韩在线播放| 天码av无码一区二区三区四区| 日韩午夜在线视频观看| 日产一区日产2区日产| 高清精品一区二区三区| 国产裸体歌舞一区二区| 亚洲av偷拍一区二区三区|