深加工中古漢語語料庫建設(shè)的若干問題＊

2014-03-04 14:37:24化振紅

西南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版) 2014年3期

化振紅

（南京師范大學(xué) 文學(xué)院，江蘇南京 210093）

近20年來，中文古籍語料庫為包括漢語史在內(nèi)的諸多學(xué)術(shù)領(lǐng)域提供了極大便利，由此激發(fā)了學(xué)術(shù)界對(duì)古代漢語語料庫建設(shè)問題的濃厚興趣，到目前為止，投入使用的或正在建設(shè)的中文古籍語料庫已達(dá)數(shù)十種之多；從技術(shù)層面看，早期的語料庫比較簡單，主要是將紙質(zhì)文獻(xiàn)輸入計(jì)算機(jī)，利用較簡單的檢索軟件進(jìn)行文本搜讀，為研究者提供字、詞、句方面的例證及其具體語境，習(xí)慣上稱之為平面型語料庫。隨著超文本技術(shù)的發(fā)展，又出現(xiàn)了一些XML文檔數(shù)據(jù)庫，實(shí)現(xiàn)了傳統(tǒng)語言學(xué)工具書的多層級(jí)組合檢索。但是，現(xiàn)有數(shù)據(jù)庫的缺陷也顯而易見：基本上只能用來閱讀或搜尋文本，很少添加詞性、義項(xiàng)、語法地位等比較復(fù)雜的語言學(xué)信息。為了滿足實(shí)際研究的需要，國內(nèi)逐步開始建設(shè)深加工的古代漢語語料庫。在這樣的學(xué)術(shù)背景下，我們以國家社科基金重大項(xiàng)目“深加工中古漢語語料庫建設(shè)研究”為依托，展開了中古漢語語料庫的研制工作。建設(shè)過程中，發(fā)現(xiàn)了許多值得思考的問題。本文擬就其中的語料選取、詞語切分及分詞規(guī)范等問題，進(jìn)行一些討論。

一、語料的選擇

無論是不作標(biāo)注的生語料庫，還是添加各種標(biāo)注的熟語料庫，語料的選擇都是影響語料庫質(zhì)量的重要因素。概而言之，語料的選擇實(shí)際上包含了兩方面的考量：選取怎樣的語料、怎樣選取語料。前者指的是選擇語料時(shí)所依據(jù)的基本原則，后者偏重于選取語料的具體操作過程。關(guān)于語料選擇的一般性原則，國內(nèi)外學(xué)者已經(jīng)進(jìn)行了較為深入的研究，取得了不少共識(shí)。結(jié)合這些共識(shí)，在全面考慮中古漢語及中古典籍具體情況的基礎(chǔ)上，我們確定了選取語料的四條原則，進(jìn)而確定了進(jìn)入語料庫的中古文獻(xiàn)。

第一，語料樣本的代表性。

首先，所選語料能夠反映漢語史特定階段的基本特點(diǎn)，對(duì)中古漢語語料庫而言，所選語料必須既能從整體上反映中古漢語的真實(shí)面貌，又能展示中古漢語局部的各種較突出的特點(diǎn)。眾所周知，中古漢語包括口語和書面語兩個(gè)系統(tǒng)，各階段的口語是通過書面語體現(xiàn)出來的。漢語史的研究對(duì)象實(shí)際上是包含著不同數(shù)量口語成分的書面語。口語化程度較低的文獻(xiàn)以史書為代表，語言風(fēng)格較典雅規(guī)范，夾雜了少量的口語用法；口語化程度較高的文獻(xiàn)主要是部分漢譯佛典、筆記小說、尺牘作品、俗文學(xué)作品、醫(yī)農(nóng)雜著等。不同題材、不同體裁的文獻(xiàn)又有各自的語言特色，詞匯方面尤為突出。語料庫中的文獻(xiàn)必須充分展現(xiàn)所有類型文獻(xiàn)的詞匯、語法特征。換句話說，對(duì)語料庫中全部或部分語料進(jìn)行研究之后，其分析結(jié)果可以概括為中古漢語整體或某一指定部分的語言特點(diǎn)。

其次，所選語料在漢語史領(lǐng)域受到普遍關(guān)注，同時(shí)對(duì)中國古代社會(huì)具有重要影響。中古漢語語料庫的目標(biāo)用戶是從事漢語史研究的學(xué)者群，主要用于中古漢語詞匯史、語法史研究，也可用作上古漢語、近代漢語研究的輔助性工具。因此，語料的選取雖然無法囊括所有的中古語料，卻必須覆蓋中古階段各種類型的語料，以滿足漢語史領(lǐng)域內(nèi)不同層次、不同旨趣研究者的實(shí)際需要；從更廣闊的角度看，中古漢語語料庫作為人文社會(huì)科學(xué)領(lǐng)域國家級(jí)重大課題之一，未來的使用者不能僅局限于漢語史領(lǐng)域，還需要為中古時(shí)期史學(xué)、考古學(xué)、思想史、科技史、文化史等相關(guān)學(xué)術(shù)領(lǐng)域提供值得信賴的原始材料。為了實(shí)現(xiàn)這一目標(biāo)，所選語料必須是受到各個(gè)領(lǐng)域高度重視、應(yīng)用極為廣泛的文獻(xiàn)?；谏鲜稣J(rèn)識(shí)，中古漢語語料庫以官修正史作為最重要的語料類型；同時(shí)遴選了一定數(shù)量的漢譯佛經(jīng)文獻(xiàn)，代表口語化程度較高的中古作品；以部分筆記小說、雜帖作品、南北朝詩歌代表中古俗文學(xué)作品；以《齊民要術(shù)》、《肘后備急方》等代表各種專門文獻(xiàn)。這就基本覆蓋了中古階段最具代表性的文獻(xiàn)類型。

第二，文本類型的平衡性。

一個(gè)語料庫是否具有較高的學(xué)術(shù)價(jià)值，關(guān)鍵在于其中的語料能夠在多大程度上與當(dāng)時(shí)的現(xiàn)實(shí)語言相吻合，既能宏觀反映最重要的語言規(guī)律，又能微觀展示盡可能多的語言事實(shí)。漢語史上的語言現(xiàn)象、語言事實(shí)主要是通過歷代文獻(xiàn)體現(xiàn)出來的。選用多少語料樣本才能充分反映各方面的語言特點(diǎn)，目前還沒有公認(rèn)的標(biāo)準(zhǔn)。因此，只能根據(jù)對(duì)中古漢語的總體認(rèn)識(shí)、以往的建庫經(jīng)驗(yàn)進(jìn)行主觀判斷，大致確定各種類型文獻(xiàn)的比例，盡量保持不同類型文本之間的平衡性。中古漢語的基本特點(diǎn)是，大多數(shù)文獻(xiàn)以文言為主體，摻雜著或多或少的口語成分；部分文獻(xiàn)顯示了古白話的興起，包含著大量的口語用法；純粹口語化的文獻(xiàn)在中古階段雖然逐漸增多，其絕對(duì)數(shù)量卻難以同文言作品并駕齊驅(qū)；出土文獻(xiàn)和傳世文獻(xiàn)的語言存在較大差異。與這些特點(diǎn)相對(duì)應(yīng)，中古漢語語料庫中的文獻(xiàn)，最重要的類型是代表文言系統(tǒng)的正史作品，入庫文獻(xiàn)7種，總字?jǐn)?shù)約350萬；第二是包含較多口語成分的子部作品，如漢譯佛經(jīng)、中土佛道作品、筆記小說、詩歌等，入庫文獻(xiàn)近30種，總計(jì)約300萬字；第三是強(qiáng)調(diào)實(shí)用、口語性較突出的醫(yī)農(nóng)雜著等，入庫文獻(xiàn)3種，約30萬字；最后是具有一定口語性、語言風(fēng)格與傳世文獻(xiàn)存在較大差異的出土文獻(xiàn)，主要包括敦煌吐魯番文獻(xiàn)、魏晉至隋唐的碑刻文獻(xiàn)等，約80萬字。從入庫文獻(xiàn)的字?jǐn)?shù)統(tǒng)計(jì)看，上述四類文獻(xiàn)在入庫文獻(xiàn)中所占比例大致為46%、40%、4%、10%。

第三，語料之間的關(guān)聯(lián)性與區(qū)別度。

任何大型語料庫都不可能囊括所有文獻(xiàn)，如鄭家恒所說：“不管語料庫規(guī)模多大，建立時(shí)經(jīng)過多么仔細(xì)的設(shè)計(jì)，都不可能覆蓋語言的所有現(xiàn)象和模式，也不可能準(zhǔn)確地按比例表示這些現(xiàn)象。”［1］因此，語料庫規(guī)模的擴(kuò)大固然很有意義，卻不是最重要的。更為關(guān)鍵的是語料是否具有代表性，就文獻(xiàn)樣本的選取而言，主要體現(xiàn)在兩個(gè)方面：

首先，同類文獻(xiàn)保持一定的關(guān)聯(lián)度，有利于提供足夠的語言研究信息。語言研究不光需要說明語言中存在著什么樣的語言事實(shí)，還常常需要掌握這些事實(shí)的出現(xiàn)概率。頻率統(tǒng)計(jì)目前已經(jīng)成為中古詞匯、語法研究不可或缺的手段，數(shù)據(jù)統(tǒng)計(jì)、定量分析的物質(zhì)基礎(chǔ)就是各種類型的數(shù)據(jù)庫。因此，中古漢語語料庫不僅應(yīng)該覆蓋中古絕大多數(shù)詞匯、語法現(xiàn)象，而且每種特定語言現(xiàn)象在語料庫中的頻率也應(yīng)達(dá)到一定數(shù)量，才能為各種角度的定量分析提供堅(jiān)實(shí)的文獻(xiàn)基礎(chǔ)。根據(jù)這樣的現(xiàn)實(shí)需求，中古漢語語料庫中，篇幅較大的語料至少需要選取兩種以上的同類文獻(xiàn)，如官修正史、漢譯佛經(jīng)中的律藏作品等；篇幅較小的語料則需要較多的同類文獻(xiàn)，同時(shí)應(yīng)盡量避免那些題材過于冷僻、中古階段難以找到同類文獻(xiàn)的語料。較典型者如中古階段的醫(yī)農(nóng)雜籍，往往只有一兩種題材相同的作品。如果出現(xiàn)這種情況，則需要在相近時(shí)代的文獻(xiàn)中遴選同類性質(zhì)的作品。以唐人韓鄂《四時(shí)纂要》為例，據(jù)繆啟愉考證，成書約在唐末五代初［2］，這在漢語史上已屬于近代漢語早期，超出了中古漢語的范疇，但存世的中古農(nóng)書只有賈思勰《齊民要術(shù)》，為了保持入庫語料的平衡性，只有考慮將《四時(shí)纂要》增補(bǔ)入庫。

其次，不同文獻(xiàn)保持一定的區(qū)別度，以保證對(duì)語言事實(shí)足夠高的覆蓋率。中古漢語語料庫如同其他語料庫一樣，需要為中古漢語研究提供豐富的中古漢語詞匯、語法樣本，雖然難以覆蓋中古漢語詞匯、語法的所有模式，也無法按照準(zhǔn)確比例表示中古漢語各種詞匯、語法現(xiàn)象，但為了盡量接近這樣的目標(biāo)，其中的文本必須包含中古漢語研究所需的各種類型語料，不能讓任何一種文本占據(jù)絕對(duì)優(yōu)勢(shì)地位。從語料庫建設(shè)的操作層面看，無論人工操作或機(jī)器操作，增加同類性質(zhì)的文獻(xiàn)較容易擴(kuò)大語料庫規(guī)模；相反，語料庫中文獻(xiàn)的區(qū)別度越大，操作過程越復(fù)雜，難度就會(huì)隨之增加。但對(duì)一個(gè)深加工的語料庫而言，顯然不能過分看重語料庫的規(guī)模。為了貫徹這一原則，中古漢語語料庫以傳世文獻(xiàn)中的正史作品、佛經(jīng)作品為主體，也選取了一定數(shù)量的筆記小說、文學(xué)作品，兼顧了醫(yī)書、農(nóng)書等專門性較為突出的文獻(xiàn)；從語體角度看，比較典雅的文言作品占了相當(dāng)大比例，也包含較口語化的白話作品，還吸收了整體語言風(fēng)格與傳世文獻(xiàn)存在較大差異、能夠體現(xiàn)不同類型文獻(xiàn)之間區(qū)別度的敦煌吐魯番出土文獻(xiàn)等作品。

第四，入庫文獻(xiàn)的特色性。

如前所述，國內(nèi)已經(jīng)研制了多種古代文獻(xiàn)語料庫，部分語料庫使用得相當(dāng)普遍，如四庫全書電子版、國學(xué)寶典、二十五史全文檢索系統(tǒng)、大正藏全文檢索系統(tǒng)、漢籍檢索、中國基本古籍庫、龍語瀚堂典籍?dāng)?shù)據(jù)庫等。由于研究旨趣、使用對(duì)象不同，各語料庫在選取入庫文獻(xiàn)時(shí)均體現(xiàn)出了各自的特色，如：國學(xué)寶典的文獻(xiàn)較駁雜，以古代語料為主，兼收部分現(xiàn)代語料；大正藏檢索系統(tǒng)、二十五史檢索系統(tǒng)分別以佛教典籍、官修正史為主體；漢籍檢索系統(tǒng)收錄了先秦至民國的經(jīng)史子集文獻(xiàn)；中國基本古籍庫收錄了民國以前的歷代名著及各學(xué)科基本文獻(xiàn)；龍語瀚堂系統(tǒng)收入了部分出土文獻(xiàn)。這些語料庫中的文獻(xiàn)既有大量重疊，也都有一些罕見于其他語料庫的特色文獻(xiàn)。得益于此，古代典籍的電子化程度越來越高，為包括漢語史在內(nèi)的眾多學(xué)術(shù)領(lǐng)域提供了極大便利。到目前為止的古代文獻(xiàn)語料庫，基本上以傳世文獻(xiàn)為主，其中絕大多數(shù)為刻本文獻(xiàn)。為了更全面地反映中古漢語的實(shí)際面貌，中古漢語語料庫除了傳世文獻(xiàn)外，增加了部分出土文獻(xiàn)，主要是吐魯番出土文書、漢魏六朝至隋唐的碑刻文獻(xiàn)，還收錄了以六朝雜帖作品為主的未見于其他語料庫的部分抄本文獻(xiàn)，這兩部分文獻(xiàn)共80多萬字，對(duì)于中古漢語研究來說，數(shù)量已相當(dāng)可觀。這部分文獻(xiàn)由于未經(jīng)整理，以往很少有人涉足，語料價(jià)值基本上沒有得到利用。中古漢語語料庫的收錄、整理，可望在很大程度上改變這一被動(dòng)局面。

基于上述原則，本課題組分批次確定了下列入庫文獻(xiàn)：（1）官修正史：《后漢書》、《三國志》、《魏書》、《南齊書》、《北齊書》、《梁書》、《陳書》；（2）漢譯佛經(jīng)：《中本起經(jīng)》、《雜譬喻經(jīng)》、《撰集百緣經(jīng)》、《生經(jīng)》、《賢愚經(jīng)》、《雜寶藏經(jīng)》、《十誦律》；（3）中土佛道作品：《高僧傳》、《洛陽伽藍(lán)記》、《經(jīng)律異相》、《法顯傳》、《觀世音應(yīng)驗(yàn)記三種》、《太平經(jīng)》、《神仙傳》；（4）筆記雜著：《論衡》、《列子》、《西京雜記》、《抱樸子內(nèi)篇》、《世說新語》、《顏氏家訓(xùn)》、《水經(jīng)注》、《幽明錄》、《冥祥記》、《殷蕓小說》、《拾遺記》；（5）詩歌雜帖：魏晉南北朝詩歌、魏晉南北朝雜帖；（6）醫(yī)農(nóng)典籍：《齊民要術(shù)》、《四時(shí)纂要》、《肘后備急方》；（7）出土文獻(xiàn)：部分敦煌吐魯番文獻(xiàn)、漢魏至隋唐碑刻文獻(xiàn)。除上述語料外，還有部分文獻(xiàn)處于遴選階段，會(huì)分批次增補(bǔ)進(jìn)去。中古漢語語料庫最終的原始語料共約1 000萬字，語料庫總庫容預(yù)計(jì)將達(dá)1 600萬字。

二、詞的切分及分詞規(guī)范

對(duì)于標(biāo)注詞性、詞義、語法地位等多種語言研究信息的熟語料庫來說，詞的切分是所有標(biāo)注工作的前提。所謂“詞的切分”，是指按照特定的規(guī)范，對(duì)漢語中連續(xù)的字串進(jìn)行切分并重新組合成詞串的過程［3］，這是中文信息處理中特有的基礎(chǔ)性課題。英語文本中，詞（word）與詞（word）之間存在“空格”這樣的自然分界符，詞的辨識(shí)基本上不存在什么障礙；漢語文本則以漢字為書寫單位，一個(gè)接一個(gè)地按句連寫，詞與詞之間沒有形式上的界限標(biāo)記，難以簡單而準(zhǔn)確地辨識(shí)；就其本身而言，漢語的詞缺乏形態(tài)變化，不具備純客觀的切分條件。因此，任何一個(gè)標(biāo)注型漢語語料庫，都無法回避“詞的切分”這一關(guān)鍵問題。

相對(duì)于古代漢語來說，現(xiàn)代漢語的情況較為簡單。切分詞的時(shí)候，往往可以借助比較一致的語感做出判斷；基于現(xiàn)代漢語的各種語法規(guī)則也相對(duì)明晰。因此，現(xiàn)有的各種現(xiàn)代漢語語料庫，通常采用基于詞典的機(jī)械分詞方法：依靠語感及各種現(xiàn)代漢語詞典，事先編制一個(gè)詞表，貯存在電腦系統(tǒng)中，處理入庫文本時(shí)，根據(jù)這一詞表進(jìn)行比對(duì)及判斷［4］，雖然還存在著詞表中未登錄詞的識(shí)別、歧義詞語的判定等問題，但總體而言，電腦系統(tǒng)自動(dòng)切分之后，通過人工干預(yù)進(jìn)行校正，足以得到普遍認(rèn)可的結(jié)果。詞表制作的理論基礎(chǔ)是1990年頒布的國家標(biāo)準(zhǔn)《信息處理用現(xiàn)代漢語分詞規(guī)范》（GB／T13715－92），部分學(xué)者根據(jù)語料庫的操作實(shí)踐對(duì)這一標(biāo)準(zhǔn)進(jìn)行了更為細(xì)致的解釋、說明①俞士汶等以《北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范》為題，全文發(fā)表了《人民日?qǐng)?bào)》語料庫的加工規(guī)范《現(xiàn)代漢語語料庫加工規(guī)范——詞語切分與詞性標(biāo)注》，該規(guī)范1999年3月制訂、2001年7月修訂，詳參《中文信息學(xué)報(bào)》2002年第5期、第6期。后來又發(fā)表了2003版《北大語料庫加工規(guī)范：切分·詞性標(biāo)注·注音》，進(jìn)行了較大的修訂，大幅度擴(kuò)充了標(biāo)記集，詞性標(biāo)記總數(shù)由40個(gè)左右增加到105個(gè)左右，為現(xiàn)代漢語語料庫的精細(xì)化打下了堅(jiān)實(shí)基礎(chǔ)。?？傮w上看，現(xiàn)代漢語語料庫的加工已經(jīng)有了一整套科學(xué)性、通用性較高的分詞規(guī)范。源于現(xiàn)代漢語語料庫的這套分詞規(guī)范，也為古代漢語語料庫提供了不少值得借鑒的經(jīng)驗(yàn)。

古代漢語與現(xiàn)代漢語又有著顯著差別，在古代漢語語料庫建設(shè)過程中，詞的切分不可能照搬現(xiàn)代漢語的做法。古代漢語中，對(duì)詞的切分及標(biāo)注存在較大影響的詞的特點(diǎn)，體現(xiàn)在兩個(gè)方面：

第一，詞類劃分尚未形成統(tǒng)一的認(rèn)識(shí)。國內(nèi)比較通行的語法體系中，詞類數(shù)量有種種不同說法?！稌簲M漢語語法教學(xué)系統(tǒng)》將漢語的詞劃分為11類：名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、嘆詞。大學(xué)語法教科書一般分為12～14類，黃伯榮、廖序東分為14類，胡裕樹分為13類。部分語法著作劃分得更細(xì)，如朱德熙分17類，郭銳分19類。古代漢語詞類相對(duì)少一些，《馬氏文通》分9類，之后各種語法體系通常增加1到2類，如殷國光分11類。針對(duì)古代漢語的具體情況，往往還會(huì)在較復(fù)雜的詞類下面細(xì)分若干小類，如郭錫良把代詞分成了人稱代詞、指示代詞、疑問代詞、無定代詞4個(gè)小類，副詞分為程度副詞、范圍副詞等6個(gè)小類。此外，古代漢語中還包含較普遍的兼類、活用現(xiàn)象，同樣是一個(gè)相當(dāng)棘手的問題。

第二，詞和詞組缺乏客觀性的判斷標(biāo)準(zhǔn)。這一問題從20世紀(jì)50年代起開始困擾漢語詞匯研究，至今未得到圓滿解決。陸志韋《北京話單音詞詞匯》序言較早提出這個(gè)問題，引發(fā)了學(xué)術(shù)界的熱烈討論，王力、呂叔湘、林漢達(dá)、孫常敘先后提出了一些區(qū)分詞和詞組的具體方法。80年代以后，這方面研究更加深入。劉叔新提出“準(zhǔn)詞”概念以指稱那些處于從自由詞組向詞過渡的中間狀態(tài)的語言單位。也有不少學(xué)者討論古代漢語中詞和詞組的界限，張永言提出以詞的分離性為主要標(biāo)準(zhǔn)、以結(jié)構(gòu)的整體性為補(bǔ)充標(biāo)準(zhǔn)、以意義的整體性為輔助標(biāo)準(zhǔn)；殷國光提出“過渡詞”之說②關(guān)于古代漢語詞和詞組的界限的上述討論，分別見于：張永言．詞匯學(xué)簡論［M］．武漢：華中工學(xué)院出版社，1982：33；殷國光．呂氏春秋詞類研究［M］．北京：華夏出版社，1997：7。殷先生把“過渡詞”的主要特征歸納為形式上很不穩(wěn)定。具體表現(xiàn)為：使用頻率較低，構(gòu)成成分以單用為主，兩個(gè)成分的位置可以顛倒，還可以代換、擴(kuò)展。，與劉叔新的“準(zhǔn)詞”可謂殊途同歸。這些研究對(duì)中古漢語語料庫中詞的切分具有重要的參考價(jià)值。

簡而言之，學(xué)者們對(duì)辨別詞和詞組的方法達(dá)成了幾點(diǎn)共識(shí)：（1）擴(kuò)展法：能插入其他成分進(jìn)行擴(kuò)展的是詞組，反之，是復(fù)合詞；（2）詞組的意義能夠通過字面綜合出來，復(fù)合詞的意義則不能通過構(gòu)成成分的簡單相加而得出；（3）詞組的構(gòu)成成分能夠顛倒次序，復(fù)合詞則不能；（4）詞組的內(nèi)部結(jié)構(gòu)比較松散，復(fù)合詞的內(nèi)部結(jié)構(gòu)比較緊密；（5）組成成分里有粘著語素的，一般是復(fù)合詞。成分都是自由語素的，結(jié)合其他條件來辨別是詞組還是復(fù)合詞。這些方法基本上可以解決現(xiàn)代漢語中詞和詞組的界限問題。用于中古漢語，仍然存在一些問題，主要原因在于中古階段相當(dāng)多的詞語經(jīng)歷了從自由詞組到詞的凝固過程，中間確實(shí)存在亦此亦彼的“準(zhǔn)詞”狀態(tài)。對(duì)于每一個(gè)具體的詞，這個(gè)漸進(jìn)的過程何時(shí)完成，雖然有時(shí)可以借助工具書，并綜合其特定時(shí)期的出現(xiàn)頻率以及上下文語境做出初步判定，但在更多情況下，這種判定仍然存在很大的難度。

這些懸而未決的問題對(duì)于漢語詞匯研究是至關(guān)重要的，但短時(shí)間內(nèi)又不能得到徹底解決。中古漢語語料庫主要是為學(xué)界提供一個(gè)中古漢語詞匯、語法的語料平臺(tái)，其中的大多數(shù)詞語，學(xué)術(shù)界并沒有太大爭(zhēng)議；本課題組無意也不可能對(duì)詞類劃分、詞的切分等問題得出終極性結(jié)論；組內(nèi)成員從較優(yōu)秀的碩士生到博士生再到專業(yè)教師，學(xué)術(shù)修養(yǎng)存在一定差異。因此，必須建立一套符合語言學(xué)基本要求的、便于組內(nèi)成員具體操作的規(guī)則，前者保證語料庫具有較高的學(xué)術(shù)價(jià)值，后者則使整個(gè)課題能夠順利地進(jìn)行下去。經(jīng)過長時(shí)間反復(fù)討論，課題組內(nèi)部大致形成了下列共識(shí)：

第一，詞類劃分采用漢語史學(xué)者普遍認(rèn)可的、比較容易操作的標(biāo)準(zhǔn)，共分13類。與之相對(duì)應(yīng)，建立一套面向中古漢語語料庫的、規(guī)范的詞類標(biāo)記集，以減少數(shù)據(jù)轉(zhuǎn)換的麻煩，所劃分的詞類及其標(biāo)注符號(hào)為：名詞（n）、動(dòng)詞（v）、形容詞（a）、數(shù)詞（m）、量詞（q）、代詞（r）、副詞（d）、介詞（p）、連詞（c）、助詞（u）、語氣詞（y）、嘆詞（e）、擬聲詞（o）。需要說明的是，這套詞類劃分及其標(biāo)記集，主要是為了解決中古漢語語料庫數(shù)據(jù)交換過程中詞類標(biāo)記的統(tǒng)一問題而建立起來的，并不能看作中古漢語詞類的規(guī)范，也不妨礙對(duì)古代漢語詞類的深入研究。此外，隨著中古漢語語料庫建設(shè)的發(fā)展，將來必然會(huì)對(duì)現(xiàn)有的詞類進(jìn)行更為細(xì)致的劃分，因此，這個(gè)詞類劃分及標(biāo)記集，應(yīng)該具有一定的可擴(kuò)展性。我們的思路是，借鑒現(xiàn)代漢語語料庫的做法，對(duì)部分較為復(fù)雜的詞類預(yù)設(shè)出若干小類及相應(yīng)的標(biāo)記符號(hào)：名詞之下，預(yù)設(shè)了專有名詞（np）、普通名詞（ng）、時(shí)間名詞（nt）、處所名詞（ns）、方位名詞（nl）；動(dòng)詞之下，預(yù)設(shè)了助動(dòng)詞（vu）、趨向動(dòng)詞（vd）、系動(dòng)詞（vl）、不及物動(dòng)詞（vi）、及物動(dòng)詞（vt）；形容詞之下，預(yù)設(shè)了性質(zhì)形容詞（aq）、狀態(tài)形容詞（as）；數(shù)詞之下，預(yù)設(shè)了基數(shù)詞（mc）、序數(shù)詞（mo）、助數(shù)詞（mu）；量詞之下，預(yù)設(shè)了名量詞（qn）、動(dòng)量詞（qv）、時(shí)量詞（qt）；代詞之下，預(yù)設(shè)了人稱代詞（rh）、指示代詞（rd）、疑問代詞（rw）；助詞之下，預(yù)設(shè)了結(jié)構(gòu)助詞（us）、動(dòng)態(tài)助詞（ua）、語氣助詞（um）①標(biāo)記符號(hào)借鑒了國家語委發(fā)布的“信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范”中的部分規(guī)定，同時(shí)結(jié)合中古漢語詞匯研究的實(shí)際情況，作出了局部的調(diào)整。如，專有名詞之下不設(shè)立團(tuán)體機(jī)構(gòu)名，形容詞之下不設(shè)非謂形容詞、唯謂形容詞，數(shù)詞之下不設(shè)數(shù)量數(shù)詞，基數(shù)詞之下不設(shè)系數(shù)詞、位數(shù)詞，等等。參見：國家語委語言文字應(yīng)用研究所計(jì)算語言學(xué)研究室．信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范［J］．語言文字應(yīng)用，2001（3）；靳光瑾，郭曙綸，等．語料庫加工中的規(guī)范問題［J］．語言文字應(yīng)用，2003（4）。。這一處理方式，基本上解決了中古時(shí)期的個(gè)體詞語在現(xiàn)階段語料庫中的詞性問題，也為將來的細(xì)化分類及研究留下了足夠空間。目前，為了使中古漢語語料庫建設(shè)能夠順利進(jìn)行，在實(shí)際操作過程中，除了用來滿足特定知識(shí)檢索的需要而設(shè)立的專有名詞外，各個(gè)詞類之下原則上不再劃分次類。這樣的詞類劃分體系，是根據(jù)中古漢語語料庫建設(shè)的具體情況，對(duì)黃伯榮、廖序東《現(xiàn)代漢語》的詞類劃分、中古漢語詞類的固有特點(diǎn)進(jìn)行折中的結(jié)果，雖然帶有一定的雜糅色彩，卻在很大程度上提高了語料庫建設(shè)的可操作性。對(duì)于中古漢語中較為常見的兼類、活用現(xiàn)象，遵循“依句辨品”的原則：根據(jù)詞語在句子中的語法功能確認(rèn)其詞性②一些古代漢語語料庫曾經(jīng)在部分詞類下邊增加了若干功能標(biāo)記：將名詞活用為動(dòng)詞、形容詞活用為動(dòng)詞、數(shù)詞活用為動(dòng)詞等分別標(biāo)記為動(dòng)名詞、動(dòng)形詞、動(dòng)數(shù)詞。對(duì)于完全采用人工標(biāo)注的語料庫來說，這種做法是基本可行的。對(duì)于大規(guī)模地利用系統(tǒng)軟件進(jìn)行標(biāo)注的中古漢語語料庫則是很難實(shí)現(xiàn)的；同時(shí)，這種處理方式增加了一些新的語法術(shù)語，帶來了更多的概念界定問題。因此，整體上并不是一種理想的做法。；典故詞、成語等不予切分，同樣按照在句子中的語法功能標(biāo)注其詞性。

第二，以分詞單位作為中古漢語語料庫的基本單位。分詞單位包括中古漢語階段全部的詞和少量使用頻率及凝固程度較高的詞組。這個(gè)概念借鑒了現(xiàn)代漢語語料庫的做法，主要是為了避免陷入詞和詞組的爭(zhēng)議。因?yàn)樵趯?shí)際操作過程中，界定分詞單位通常比界定詞或詞組更容易把握；也有利于解決本身相當(dāng)棘手、詞匯語法研究較少關(guān)注的專有名詞、專名詞組、成語、習(xí)語等問題，同時(shí)便于系統(tǒng)軟件對(duì)規(guī)則的理解和應(yīng)用。

第三，分詞單位的成員主體是詞。關(guān)于詞的切分，按照下列步驟依次展開：（1）分離出《漢語大詞典》包含中古用例的所有詞條及其義項(xiàng)，初步建立一個(gè)中古漢語詞語義項(xiàng)數(shù)據(jù)庫。（2）分離出蔡鏡浩《魏晉南北朝詞語例釋》、方一新《東漢魏晉南北朝史書詞語箋釋》、王云路、方一新《中古漢語語詞例釋》、董志翹、蔡鏡浩《中古虛詞語法例釋》、丁福保《佛學(xué)大辭典》、李維琦《佛經(jīng)詞語匯釋》中收錄的詞語及其義項(xiàng)。由于我們的義項(xiàng)庫屬于動(dòng)態(tài)數(shù)據(jù)庫，下一階段還將陸續(xù)分離出江藍(lán)生《魏晉南北朝小說詞語匯釋》、王云路《六朝詩歌語詞研究》、張永言《世說新語辭典》、江藍(lán)生、曹廣順《唐五代語言詞典》、李維琦《佛經(jīng)釋詞》及《佛經(jīng)續(xù)釋詞》等斷代研究或?qū)ｎ}研究成果中的詞語及其義項(xiàng)，并密切關(guān)注《中國語文》、《語言研究》、《古漢語研究》等專業(yè)期刊，及時(shí)梳理中古詞語研究的最新成果。剔除上述成果中與《漢語大詞典》詞語、義項(xiàng)數(shù)據(jù)庫重合的條目，其余條目分別補(bǔ)入數(shù)據(jù)庫，從而建立起中古語料庫專用的中古詞語義項(xiàng)數(shù)據(jù)庫。需要說明的是，在建立專用義項(xiàng)庫的過程中，在詞條的立目、義項(xiàng)的分合、釋義的表述等方面，必然遇到大量的《漢語大詞典》與其他工具書、學(xué)術(shù)論著不盡一致的情況，處理這些問題的基本原則是：以《漢語大詞典》為主要標(biāo)準(zhǔn)，其他工具書、論著的成果則主要用來彌補(bǔ)《漢語大詞典》的某些不足，如增補(bǔ)《漢語大詞典》失收詞條、糾正比較明顯的釋義錯(cuò)誤等。當(dāng)《漢語大詞典》與其他工具書義項(xiàng)分合不一、釋義差異較大的時(shí)候，同樣強(qiáng)調(diào)以《漢語大詞典》的義項(xiàng)設(shè)立、釋義表達(dá)為主要標(biāo)準(zhǔn)，盡量避免過多地陷入具體問題的爭(zhēng)議之中。（3）確定分詞單位時(shí)，堅(jiān)持適當(dāng)從嚴(yán)的原則。具體切分時(shí)，每一個(gè)切分出來的詞語均需與中古漢語詞語義項(xiàng)數(shù)據(jù)庫中的詞條進(jìn)行比對(duì)，以確認(rèn)是否成詞。凡義項(xiàng)庫中未登錄的詞語，尤其是數(shù)量眾多的同義復(fù)詞、專業(yè)性較強(qiáng)的行業(yè)術(shù)語、代表地名或人名的專有名詞，經(jīng)組內(nèi)專家與理論組（本項(xiàng)目的子課題組之一）集中討論，共同認(rèn)定其性質(zhì)。排除了誤切的條目之后，將確認(rèn)無誤的條目補(bǔ)充到義項(xiàng)庫中，同時(shí)以備注形式逐一添加統(tǒng)一標(biāo)識(shí)。為將來建立未登錄詞數(shù)據(jù)庫積累原始數(shù)據(jù)。同時(shí)強(qiáng)調(diào)不能因?yàn)橹泄旁~語義項(xiàng)數(shù)據(jù)庫收錄了某個(gè)詞，就把文本中同一形體的語言單位機(jī)械地認(rèn)定為分詞單位。

第四，為了盡可能地保持一致的切分標(biāo)準(zhǔn)，制定了若干比較具體的分詞規(guī)則：（1）除專名詞語、外來詞語外，由四個(gè)以上音節(jié)構(gòu)成的詞組，一律不作為分詞單位，必須予以切分；四音節(jié)的語言單位，如果結(jié)合較緊密、使用頻率較高或者存在增義、轉(zhuǎn)義現(xiàn)象，一律視為分詞單位不再切分，理論上視為分詞單位中的詞組。（2）來自異族語言的音譯外來詞，不予切分。（3）“阿、第、有”后加單音節(jié)名詞構(gòu)成的詞或詞組，不予切分；“頭、子、然、復(fù)、如、爾”前加單音節(jié)名詞、動(dòng)詞、形容詞、連詞、副詞構(gòu)成的詞或詞組，不予切分。（4）普通名詞：結(jié)合緊密，分開后如果違背原有組合意義的名詞性詞組，一律視為分詞單位，不予切分。一年的十二個(gè)月份，一律作為分詞單位，不予切分。民族名、國名、地名中的“族、人、國、郡、州、縣、邑、城、里、江、河、山”等，單獨(dú)劃分。只有兩個(gè)字的民族名、國名、地名，一律不予切分，如：《世說新語·言語》“昔武王伐紂，遷頑民于洛邑”中的“洛邑”指洛陽城，視為一個(gè)分詞單位，不予切分；《洛陽伽藍(lán)記·凝玄寺》“洛陽城東北有上商里，殷之頑民所居處也”中的“洛陽城”切分為“洛陽”、“城”兩個(gè)分詞單位。帝王年號(hào)與后邊的附加成分，一律予以切分，如：《高僧傳·神異上·竺佛圖澄傳》“以晉懷帝永嘉四年來適洛陽，志弘大法”中的“永嘉四年”切分為“永嘉”、“四年”兩個(gè)分詞單位；與此類似的“永嘉末”、“永嘉中”、“永嘉之初”等，同樣應(yīng)予切分。（5）專有名詞，以《世說新語》的語料為例：人名、表字、封號(hào)、謚號(hào)、職官名，均作為分詞單位，不予切分；與姓氏連用時(shí)，也看作一個(gè)整體，不予切分。如，李膺、李元禮（李膺，字元禮），王安豐（王戎，封為安豐侯），晉文王（司馬昭，死后謚文），裴令公（裴楷，曾任中書令），陳太丘（東漢陳寔，曾任太丘長），祖光祿（祖納，時(shí)任光祿大夫），桓常侍（桓彝，官至散騎常侍），王丞相（王導(dǎo)，曾任丞相）；尊號(hào)也不予切分，如，郗公（郗鑒，曾任司空、太尉等職）；含有地名的封號(hào)、職官名，其中的地名應(yīng)予切分，如，扶風(fēng)王（扶風(fēng)，郡名），荊州刺史（荊州，州名）。（6）動(dòng)詞：動(dòng)詞前的否定副詞，一律予以切分。動(dòng)詞與趨向動(dòng)詞結(jié)合的詞組，一律予以切分。動(dòng)賓結(jié)構(gòu)、動(dòng)補(bǔ)結(jié)構(gòu)的詞或詞組，中間如果可以插入其他成分，應(yīng)予切分?？煞癫迦?，原則上根據(jù)中古文獻(xiàn)中有無實(shí)際用例進(jìn)行判斷。如：《高僧傳·譯經(jīng)上·攝摩騰傳》“既而游方弘化，遍歷諸國”中的“游方”，《漢語大詞典》雖然已經(jīng)單獨(dú)立目，但中古文獻(xiàn)的很多用例中尚未完全凝固，中間可以插入其他成分，基本意思保持不變?！额伿霞矣?xùn)·兄弟》：“方其幼也，父母左提右挈，前襟后裾，食則同案，衣則傳服，學(xué)則連業(yè)，游則共方，雖有悖亂之人，不能不相愛也。”根據(jù)《顏氏家訓(xùn)》的用例，原則上將南北朝文獻(xiàn)中的“游方”視為應(yīng)予切分的詞組。單音節(jié)動(dòng)詞后加“為、作、成、得、至”等成分的動(dòng)補(bǔ)結(jié)構(gòu)，使用頻率、凝固程度較高的，可以作為一個(gè)分詞單位，不予切分；反之，則予以切分。（7）形容詞：兩個(gè)單音節(jié)形容詞并列且改變?cè)~性的，一律不予切分。（8）數(shù)詞：數(shù)詞和量詞一律切分；數(shù)位詞一律不予切分。

以上條款是在中古漢語語料庫建設(shè)過程中處理部分語言現(xiàn)象時(shí)的一些具體思路。我們的目標(biāo)是根據(jù)一個(gè)能夠?yàn)槎鄶?shù)學(xué)者接受的語法體系，制定出若干便于操作的切詞規(guī)則，最終形成一個(gè)比較通用、實(shí)用的、覆蓋中古絕大部分語言現(xiàn)象的、較為科學(xué)的分詞規(guī)范。由于古代漢語和現(xiàn)代漢語、語言理論與語言事實(shí)、語法的理論研究與實(shí)踐應(yīng)用、語言事實(shí)的人腦分析與電腦軟件分析之間的巨大差異，中古漢語分詞規(guī)范的建立，必然是一個(gè)相當(dāng)復(fù)雜、需要不斷探索的過程。目前的這些規(guī)則，僅僅是一個(gè)粗線條的框架，其中還包含著一些不盡合理的地方，但它們對(duì)于中古漢語語料庫的建設(shè)卻具有比較重要的意義。因?yàn)橹泄艥h語語料庫建設(shè)過程中，對(duì)語料的加工處理，通常包含著兩個(gè)環(huán)節(jié)：一是人工作業(yè)環(huán)節(jié)，由組內(nèi)成員對(duì)中古語料進(jìn)行切分、標(biāo)注等工作，積累經(jīng)驗(yàn)，逐漸形成一些切詞、標(biāo)注的操作規(guī)范；二是程序作業(yè)環(huán)節(jié)，根據(jù)人工作業(yè)的經(jīng)驗(yàn)，開發(fā)出相應(yīng)的電腦軟件，實(shí)現(xiàn)由電腦軟件取代人工作業(yè)，并使用抽樣分析的方法隨時(shí)進(jìn)行人工干預(yù)，發(fā)現(xiàn)并校正程序作業(yè)中的各種問題。尤其是在電腦程序處理這個(gè)環(huán)節(jié)，制定一套便于操作的分詞及標(biāo)注規(guī)范顯得更為重要。

目前的分詞規(guī)范中一個(gè)較大的問題是：如何判斷詞或詞組的使用頻率、凝固程度的高或低？有沒有可能為使用頻率、凝固程度提供一個(gè)最理想的數(shù)值？從理論上說，這樣的數(shù)值是不存在的。因?yàn)橹泄艥h語語料庫選取的文獻(xiàn)不過是現(xiàn)存中古文獻(xiàn)的一部分，現(xiàn)存中古文獻(xiàn)又只是中古文獻(xiàn)的一小部分；中古漢語階段，不少詞或詞組的使用頻率本來就比較低，文獻(xiàn)數(shù)量的不足進(jìn)一步加大了凝固程度的判斷難度；同時(shí)，還存在著文獻(xiàn)真?zhèn)?、字詞舛誤、異文辨正、語感不足、人機(jī)對(duì)話的技術(shù)障礙等一系列難題。但是，隨著時(shí)間的推移、學(xué)術(shù)的進(jìn)步，可以利用的中古文獻(xiàn)會(huì)越來越多，辨別文獻(xiàn)真?zhèn)巍⒆衷~舛誤的證據(jù)越來越充足，對(duì)中古漢語的語感越來越接近中古漢語的實(shí)際，因此，為中古漢語語料庫建立一個(gè)較科學(xué)的分詞規(guī)范、動(dòng)態(tài)性的分詞詞表，是完全有可能的。一旦建立起了這樣的分詞規(guī)范、分詞詞表，中古漢語語料庫的容量將迅速擴(kuò)大，中古詞匯、語法諸領(lǐng)域的基礎(chǔ)數(shù)據(jù)也將海量增加。

［1］鄭家恒．智能信息處理——漢語語料庫加工技術(shù)及應(yīng)用［M］．北京：科學(xué)出版社，2010：8．

［2］繆啟愉．四時(shí)纂要校釋［M］．北京：農(nóng)業(yè)出版社，1981：2．

［3］郭曙綸．漢語語料庫的建設(shè)及應(yīng)用［M］．上海：上海外語教育出版社，2011：8．

［4］黃昌寧、趙海．中文分詞十年回顧［J］．中文信息學(xué)報(bào)，2007（3）：8－19．

西南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2014年3期

西南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)的其它文章: 我國小學(xué)數(shù)學(xué)新教材編寫特色探析
——以西師版為例; “分割”與“統(tǒng)籌”
——城鄉(xiāng)義務(wù)教育失衡的制度與政策根源及其重構(gòu); 內(nèi)部控制自我評(píng)價(jià)報(bào)告披露對(duì)大股東占用上市公司資金的影響
——基于2008～2011年制造業(yè)國有控股上市公司的實(shí)證研究; 社會(huì)風(fēng)險(xiǎn)對(duì)我國禽肉類產(chǎn)品消費(fèi)影響的實(shí)證研究
——以2013年H7N9風(fēng)險(xiǎn)對(duì)水禽產(chǎn)業(yè)消費(fèi)的影響為例; 中國自然法基準(zhǔn)下的“現(xiàn)代目的價(jià)值等級(jí)體系”
——用符號(hào)學(xué)重釋《老子》第38章; 基于心理素質(zhì)培養(yǎng)的大學(xué)生心理健康教育課程體系建構(gòu)＊

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深加工中古漢語語料庫建設(shè)的若干問題＊

一、語料的選擇

二、詞的切分及分詞規(guī)范

一、語料的選擇

二、詞的切分及分詞規(guī)范