圖書館古籍?dāng)?shù)字資料庫建設(shè)與質(zhì)量評價(jià)新論——以資料庫建設(shè)與語文詞典編纂的結(jié)合為例

2011-03-19 05:27:15王麗英王東海

圖書館理論與實(shí)踐 2011年2期

●王麗英，王東海

（魯東大學(xué) a.圖書館；b.文學(xué)院，山東煙臺(tái) 264000）

數(shù)字資源庫建設(shè)是圖書館工作的核心之一，而承載中國文化與文明的古籍資料的數(shù)字化建設(shè)與智能化使用又是工作重心。古籍?dāng)?shù)字資料庫建設(shè)既可減少古籍整理、保護(hù)、使用方面的財(cái)力、人力、物力成本，又可為用戶提供更方便、智能的檢索和輸出功能，提高了效率，更好地體現(xiàn)出圖書資源服務(wù)社會(huì)的功能。

我們認(rèn)為，古籍資料庫資源的建設(shè)必須緊跟用戶的需求，在充分開展用戶需求分析后，再有的放矢地建設(shè)，這樣才能提高古籍資料庫的針對性和應(yīng)用價(jià)值。隨著計(jì)算機(jī)技術(shù)及古籍整理工作的發(fā)展，古籍?dāng)?shù)字資料庫建設(shè)的目標(biāo)和原則都發(fā)生了很大變化，要滿足不斷發(fā)展變化的使用需要，就要進(jìn)行改革與創(chuàng)新；另外，當(dāng)前古籍資料庫的重復(fù)建設(shè)情況比較嚴(yán)重，互相抄襲拷貝文本數(shù)據(jù)的情況大有泛濫之勢，在這方面需要建立明確的評價(jià)鑒定標(biāo)準(zhǔn)，以防止這種低水平的重復(fù)建設(shè)。我們擬從數(shù)字資料庫輔助工具的特性出發(fā)，以語文詞典的編纂對古籍資料庫的需求為解剖對象，探討當(dāng)前圖書館古籍?dāng)?shù)字資料庫建設(shè)和質(zhì)量評價(jià)的八個(gè)要求。

1 服務(wù)于詞典編纂的古籍?dāng)?shù)字資料庫定位

歷史語文詞典的編纂需要什么樣的語料庫？

首先要區(qū)別開第一代語料庫和第二代語料庫。第一代語料庫主要是生語料庫，即將紙制印刷文本電子化，提供各種全文搜索功能。第二代語料庫是利用計(jì)算機(jī)給生語料自動(dòng)加上分詞、詞性、語義特征、句法、語篇、語用等屬性標(biāo)記（目前做得最成熟的是詞性標(biāo)注），基于這些語言學(xué)標(biāo)記，可進(jìn)行各種數(shù)理統(tǒng)計(jì)、形式分析。例如自動(dòng)統(tǒng)計(jì)文本字頻、詞頻，對詞語搭配進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)，自動(dòng)提取文本常用句樹（句型形式樹）、句型（常用搭配角度）、句模（句義角度）、句類（語用角度）等。當(dāng)前流行的古籍?dāng)?shù)字資料庫屬于第一代語料庫。

詞典編纂是一項(xiàng)實(shí)用性很強(qiáng)的工作。當(dāng)代詞典由于所編纂的內(nèi)容都是活生生的使用態(tài)的語言，所以對語言事實(shí)和規(guī)律的描寫要求細(xì)致全面，因此有各種語言屬性標(biāo)記賦碼的第二代語料庫就是首選。而歷史性語文詞典的編纂核心是詞義的引申變化，對語料庫的要求有所不同。

第一，目前在古籍語料庫計(jì)算機(jī)技術(shù)方面，除了少數(shù)古文今譯方面的應(yīng)用需要建立古今漢語對齊平衡語料庫（即文言文本和白話翻譯的對齊）外，其余資料庫的開發(fā)重心都集中在古籍資料文本化、版面還原、文本版面與原籍版面的對應(yīng)保真、檢索關(guān)鍵詞異體字關(guān)聯(lián)、大型數(shù)據(jù)庫索引與檢索技術(shù)五大方面，并沒有向二代語料庫過渡。這一思路是對的。對于中文信息處理技術(shù)來講，古籍歷史文本歷時(shí)跨度大，綿延幾千年，難以用一套定型的分詞和詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行統(tǒng)一標(biāo)注，所以進(jìn)行賦碼的難度較高，可操作性較弱。

第二，歷史語文詞典的編纂中，詞義和詞用信息的厘定和釋義主要依靠詞典編纂者的主觀經(jīng)驗(yàn)，即使在語料庫大行其道的今天，人們也不能否定主觀經(jīng)驗(yàn)在詞典編纂中不可替代的作用。歷史詞典的編纂要求主觀推斷和客觀驗(yàn)證緊密結(jié)合，“語料庫至上論”在歷史性語文詞典編纂中是行不通的。

第三，歷史詞典編纂要?dú)w納詞義的引申變化，最關(guān)心的是詞用語境的時(shí)間性屬性，而這一屬性是靠資料文本中的書證進(jìn)行標(biāo)記的，編纂者對于文本分詞、詞性標(biāo)注等賦碼沒有太多要求。

第四，即使有人做過古籍文本的賦碼工作，也只適合個(gè)別詞的個(gè)案分析，不適用于大范圍的詞典編纂工作，因?yàn)殡S著語料庫文本賦碼的增多，有時(shí)不但不會(huì)引導(dǎo)形成正確的結(jié)論，反而會(huì)形成很多不必要的干擾信息，而且還影響到檢索效率以及檢索結(jié)果呈現(xiàn)的簡明性。

結(jié)合以上四點(diǎn)意見，作為第一代語料庫的古籍資料庫基本能滿足歷史詞典編纂需要，目前無必要也無可能將歷史語文詞典的編纂所依據(jù)的古籍資料庫提升到二代語料庫水平，但這并不意味著現(xiàn)在的古籍資料庫就能很好滿足歷史語文詞典編纂的需要。

國內(nèi)歷史性語文詞典編纂中使用比較多的是四大綜合性數(shù)字資料庫——“四庫全書”“四部叢刊”“國學(xué)寶典”“中國基本古籍庫”。一些新的文本化數(shù)據(jù)庫工程還在不斷開發(fā)過程中，舊有的數(shù)據(jù)庫工程也在不斷完善與擴(kuò)容。這些數(shù)據(jù)庫工程在為文史哲的研究和應(yīng)用方面提供了重要的材料支撐，根本性地改變，甚至顛覆了傳統(tǒng)史料學(xué)的存在形態(tài)及使用機(jī)制。不過也存在不少問題，如重復(fù)性建設(shè)、互相抄襲數(shù)據(jù)等，但這并不是最大的不足。

數(shù)字資料庫最大的價(jià)值體現(xiàn)在兩方面：一是內(nèi)容，二是服務(wù)，以上這些資料庫的建立定位并不是為語文詞典編纂服務(wù)，而是以服務(wù)于知識主題檢索為主，所以大都追求擴(kuò)大收錄文獻(xiàn)的篇目數(shù)量和文字字?jǐn)?shù)，而在內(nèi)容的平衡性和服務(wù)的多樣化方面做得還有所欠缺，特別是用戶需求分析不夠，缺少明顯的針對性，同質(zhì)化現(xiàn)象嚴(yán)重，這些才是最大的問題。

古籍資料庫的建設(shè)工程浩大，僅為詞典編纂這一單一用戶服務(wù)的思路是不切實(shí)際的，但將資料庫的建設(shè)與詞典編纂需求緊密結(jié)合，適當(dāng)增加功能，在技術(shù)上是完全可行的。

2 內(nèi)容平衡性分析

數(shù)字資料庫建設(shè)在資料收錄方面追求“人無我有，人有我優(yōu)，人優(yōu)我特”的目標(biāo)，這是無可厚非的。但對于詞典編纂來講，必須優(yōu)先考慮語料庫內(nèi)容的平衡性。庫內(nèi)文本沒有平衡性就沒有代表性，歷史語文詞典的編纂要基于平衡性的資料庫，其釋義才能準(zhǔn)確客觀，符合歷史語言事實(shí)和語言規(guī)律的原貌，否則就會(huì)犯以偏概全的錯(cuò)誤。具體的建設(shè)原則和要求如下：

（1）語篇內(nèi)容要盡量保持主題類別的平衡（語域平衡）。語文詞典的編纂對義項(xiàng)的語域使用情況比較關(guān)注，例如“保辜”一詞是法律術(shù)語，如果法律語域的語篇數(shù)量不足，則其釋義難免偏頗，因此，建立一個(gè)庫中語篇的主題分類知識本體（Ontology）至關(guān)重要。建庫者從主題分類樹上即可觀察：哪些分支的語篇量不足，哪些葉子節(jié)點(diǎn)出現(xiàn)空位等，然后進(jìn)行適當(dāng)?shù)难a(bǔ)充。

當(dāng)前的古籍分類主要依據(jù)的是“經(jīng)史子集”四部法，例如“四庫全書”電子版。從保真性、還原性的原則看，這一分類是必須的。但這一傳承自古代的分類體系顆粒度比較大，相對粗疏。例如，在“四庫全書”電子版中，很多“四部”總目下只有一二個(gè)分類層次，而更多語篇的主題內(nèi)容則沒有做類別標(biāo)記，這直接導(dǎo)致定向檢索范圍過大，檢索結(jié)果過多，冗余數(shù)據(jù)影響詞典編纂的效率；另外，分類標(biāo)準(zhǔn)混雜，集部下層分類分為“楚辭”類和“別集類”，而二者的下位，一個(gè)是直接列專書，一個(gè)是按照時(shí)代標(biāo)準(zhǔn)再次分類，不同的分類標(biāo)準(zhǔn)存在于一個(gè)分類體系中，這不利于觀察平衡性。

可以適當(dāng)借鑒現(xiàn)代圖書館分類索引使用的敘詞表、主題詞表的分類模式來建構(gòu)古籍分類體系，但由于古今差別，具體內(nèi)容不能照搬，如果能夠建立一個(gè)古籍主題詞知識本體，各類文獻(xiàn)都可以根據(jù)這一分類體系進(jìn)行比附，形成語篇分類樹，即可評價(jià)各語篇所占比重，較易實(shí)現(xiàn)語篇內(nèi)容的基本平衡。

（2）成書年代屬性要盡量保持平衡。歷史語文詞典編纂的一項(xiàng)基礎(chǔ)工作是根據(jù)提取書證的源語篇的年代屬性來確立義項(xiàng)的排列順序，因此資料庫中語篇的成書年代屬性是最為關(guān)鍵的影響因子；另外，歷史語文詞典一般需要列出首出書證，這也需要對語篇的年代屬性進(jìn)行準(zhǔn)確認(rèn)定。缺少一個(gè)時(shí)代的資料，義項(xiàng)的引申義列中可能就會(huì)出現(xiàn)缺環(huán)，同時(shí)也無法保證例證的首見性，所以，標(biāo)注語篇的年代屬性對于古籍資料庫建設(shè)尤為重要。要根據(jù)年代屬性進(jìn)行語篇類聚，衡量哪些年代的古籍資料會(huì)有所缺欠，然后積極開展搜集、文本化等工作，對其進(jìn)行完善。

古籍資料庫年代屬性的確定不同于現(xiàn)代語篇，這要求做好兩方面工作：

第一，在浩瀚的古籍資料中，古籍的偽造、損毀、亡佚等現(xiàn)象都會(huì)直接影響到成書年代的確定，所以文獻(xiàn)資料索引入庫前，一定要仔細(xì)鑒偽。可結(jié)合已有《四庫總目提要》、各種藏書索引等資料對成書年代進(jìn)行考證，做到資料庫中的每一古籍語篇的成書年代都有確考，還要將時(shí)代屬性落實(shí)到具體朝代年號上，并換算成具體的公元紀(jì)年。

第二，對古籍的內(nèi)容文本的時(shí)代屬性進(jìn)行鑒別。這主要是針對一些類書、政書、資料長編等輯佚類古籍，其中輯錄的文本本身就是泛時(shí)性的，并非都是一個(gè)時(shí)代，如果根據(jù)類書的成書年代來判斷文本或書證的年代，只能是貽笑大方。另外，還要關(guān)注訓(xùn)釋類文本的時(shí)代屬性鑒別。原文和注釋的作者并非同一時(shí)代的人，所以成文年代不同，但在語篇中，它們卻是共現(xiàn)的，提取書證時(shí)極易出錯(cuò)。很多已有資料庫已經(jīng)關(guān)注到訓(xùn)釋類語篇的特點(diǎn)，將原文和注文用大小字或單雙行排版的方式進(jìn)行區(qū)分并分別檢索，如果能進(jìn)一步標(biāo)記原文與一度訓(xùn)釋、再度訓(xùn)釋材料的時(shí)代屬性，效果更好。如果無法對語篇內(nèi)泛時(shí)文本進(jìn)行全面的時(shí)間屬性標(biāo)注，一定要對這種類型的古籍語篇設(shè)置提醒標(biāo)記，以防止國學(xué)基礎(chǔ)薄弱者將文本年代屬性與成書年代相等同，從而誤用語料導(dǎo)致詞典內(nèi)容錯(cuò)誤。

做好這兩方面工作，還有助于完善資料庫檢索功能。根據(jù)年代屬性測查是每個(gè)歷史性語文詞典編纂者使用最多的基礎(chǔ)檢索，但現(xiàn)在的資料庫大多沒有提供這一功能。

（3）語篇典型性要盡量保持平衡。當(dāng)前已有的資料庫大多崇尚收錄經(jīng)典文獻(xiàn)，甚至追求經(jīng)典版本，有的資料庫將所有能夠找到的版本都進(jìn)行錄入，因而產(chǎn)生資料同質(zhì)化、相似性過高的問題，這將古籍資料庫的建設(shè)囿于文獻(xiàn)學(xué)研究的范圍。

詞典編纂對資料庫的要求是詞義的使用語境要有豐富的類型，詞匯語用特征要有多樣性，經(jīng)典文獻(xiàn)并不都能全面準(zhǔn)確地反映當(dāng)時(shí)的主流語言現(xiàn)象，一些非經(jīng)典文獻(xiàn)可能對當(dāng)時(shí)的語言事實(shí)和重要規(guī)律反映得更加明顯。因此詞典編纂要求的資料必須是全面的，要將經(jīng)典文獻(xiàn)與非經(jīng)典文獻(xiàn)、主流文獻(xiàn)與非主流文獻(xiàn)的收錄按照一定的比例初步平衡起來。

可以根據(jù)文獻(xiàn)的影響面、流通度、知曉度、重要性等因素建立一個(gè)評價(jià)標(biāo)注體系，最好等級化和參數(shù)化，這樣可以允許用戶根據(jù)語篇重要性的閾值設(shè)置檢索參數(shù)，進(jìn)行對比檢索，以保證被釋詞的義域的廣度、釋義的豐度以及例證的代表性。

（4）語體色彩要盡量保持平衡。很多資料庫排斥古白話作品，認(rèn)為其不登大雅之堂，這種做法是不可取的。

歷史語文詞典側(cè)重描寫歷史詞匯歷時(shí)發(fā)展演變或歷史上某一時(shí)期的詞匯情況，觀察和描寫的范圍應(yīng)該包括所有的詞匯，文言詞（雅言）、口語詞、方言詞、語法功能詞等類型都應(yīng)按照一定的收詞標(biāo)準(zhǔn)進(jìn)行適當(dāng)收錄，這是詞典收詞平衡性的體現(xiàn)，這就要求使用這些詞的古籍文本不能在資料庫中失衡。如果只收錄經(jīng)典文言作品，由于其以模仿上古語體風(fēng)格為榮（如唐朝的古文運(yùn)動(dòng)文風(fēng)、乾嘉學(xué)派文風(fēng)、清朝桐城派文風(fēng)莫不如此），文言詞居多，與當(dāng)時(shí)的共時(shí)語言現(xiàn)象疏離，如果僅依靠文言語體風(fēng)格的文本，歷史詞典就無法準(zhǔn)確、客觀地反映出詞義的全面發(fā)展?fàn)顩r。

（5）難易度要盡量保持平衡。詞匯學(xué)中測量現(xiàn)代語篇傳播度和難易度的常用方法是詞匯密度法。語篇的詞匯密度是通過一個(gè)語篇或語句中實(shí)詞數(shù)量占整個(gè)語篇或語句總單詞數(shù)的百分比來表示，［1］如果比值高，說明其所含信息豐富，如果比值低，則信息量較低。一般信息密度高的文本較難解，而信息密度低的較易懂?，F(xiàn)代文本中，科技語篇的詞匯密度是最高的，而日常交際口語語篇的詞匯密度則最低。

仿照這種方法，也可對資料庫語篇的難易度進(jìn)行測查并標(biāo)記。由于古代漢語中很多字、詞有同形同體的特點(diǎn)，所以可用每個(gè)古代語篇所用的生僻字字?jǐn)?shù)除以全文總字?jǐn)?shù)的比值來標(biāo)記語篇的難易度。如果僻字占比大，文字密度就高，文章難解度就高，使用面就比較窄；而生僻字占比少，文字密度小，則較易解讀，流通面也就相對廣泛。

詞典編纂需要的資料庫要求難易度平衡，也就是文字密度屬性平衡，這可以輔助考察詞典被釋詞在平易性文獻(xiàn)、中等難度文獻(xiàn)、高難度文獻(xiàn)的分布度，提供更多的詞匯信息。例如一個(gè)詞在難度高的文獻(xiàn)中分布度過高，說明這個(gè)詞的文雅度比較高，一般可以設(shè)為雅詞；而一個(gè)詞在平易性文獻(xiàn)中分布度高，說明此詞可能更為通用，有可能是當(dāng)時(shí)的基本詞匯中的一員。

這項(xiàng)工作可利用計(jì)算機(jī)自動(dòng)完成，在索引每個(gè)語篇入庫時(shí)，系統(tǒng)可自動(dòng)提取字表，并提供字種與字頻、總字種數(shù)與總字?jǐn)?shù)等方面的信息，最后計(jì)算出每個(gè)語篇的文字密度。所有的語篇進(jìn)行文字密度標(biāo)注后，還可以衡量古籍資料庫整體內(nèi)容難易度，成為評估資料庫的一個(gè)重要的參數(shù)。

3 服務(wù)性分析

資料庫的服務(wù)不是指產(chǎn)品的售前或售后服務(wù)，而是功能服務(wù)。詞典編纂需要古籍資料庫能提供多樣化的定向檢索服務(wù)。大一統(tǒng)的檢索模式只能造成檢索結(jié)果的混亂蕪雜，給人工排檢、聚類帶來麻煩。當(dāng)前資料庫大多將古籍以文本數(shù)據(jù)存儲(chǔ)，輔以主流的關(guān)鍵詞檢索，有些提供表達(dá)式檢索功能，但這些檢索服務(wù)同質(zhì)化現(xiàn)象比較嚴(yán)重，也沒有關(guān)照到應(yīng)用的個(gè)性需求，還需要做好定向檢索技術(shù)的開發(fā)。定向檢索技術(shù)可分為主動(dòng)型檢索和自動(dòng)型檢索兩種。

在檢索方面要注意三方面的開發(fā)原則和要求。

3.1 滿足主動(dòng)性檢索服務(wù)需求與立體語篇特征標(biāo)注法

主動(dòng)型檢索由用戶主導(dǎo)，按自己感興趣的關(guān)鍵詞檢索。這種檢索也是一種主動(dòng)創(chuàng)造。因?yàn)闄z索結(jié)果不是預(yù)期的，當(dāng)出現(xiàn)大量檢索結(jié)果超出自己的預(yù)期，就將產(chǎn)生“發(fā)現(xiàn)”的喜悅。在詞典編纂中，這些檢索結(jié)果將極大地超出其原有經(jīng)驗(yàn)，大量的語言事實(shí)不斷豐富完善詞典編纂者的經(jīng)驗(yàn)，同時(shí)也使詞典的釋義信息不斷豐化。

基本的主動(dòng)定向檢索服務(wù)就是關(guān)鍵詞檢索，這是資料庫提供的基本功能。有些數(shù)據(jù)庫，提供了一些可選擇的定向檢索服務(wù)，如允許用戶在指定作者、指定著作、指定分類中進(jìn)行定向檢索，這是非常符合用戶需要的，能使檢索的指向更集中，檢索結(jié)果更具針對性，但能提供的定向條件太少了，這也成了當(dāng)前資料庫的最大應(yīng)用“短板”。

衡量一個(gè)資料庫檢索服務(wù)的水平，很重要的標(biāo)準(zhǔn)是其定向檢索條件的多樣性，這需要建立語篇屬性的多維度、多角度、多特征的立體標(biāo)記法。

多維度主要指的是用戶維度。要建立多用戶觀念，分清文獻(xiàn)研究用戶、古代文學(xué)研究用戶、古代史研究用戶、漢語史研究用戶、文字學(xué)研究用戶、歷史性詞典編纂用戶等，這樣可以保證一庫多用，在增強(qiáng)資料庫用戶群的適用面的同時(shí)，又不影響其服務(wù)的針對性。維度在檢索時(shí)可由用戶自主選擇，而各維度中和用戶無關(guān)的角度和屬性標(biāo)記則忽略不計(jì)，這樣可以實(shí)現(xiàn)檢索的精確化。

每個(gè)用戶還可根據(jù)需要，設(shè)定語篇標(biāo)注角度和具體的語篇屬性特征群，如語篇載體角度，要建好語篇名、內(nèi)容的主題分類、文體類型、版本、總字?jǐn)?shù)、字種數(shù)、難易度與文字密度、語體風(fēng)格屬性、文獻(xiàn)典型性等特征群；時(shí)間角度要建好成書年代、朝代及年號、公元紀(jì)年、文本內(nèi)容年代屬性等特征群；作者角度要建好作者名、作者時(shí)代、性別、籍貫等特征群……這些屬性特征要以關(guān)鍵詞的形式確定，最后形成關(guān)鍵詞表。有了詞表，就能初步體現(xiàn)主動(dòng)型檢索的定制性和多樣性的特點(diǎn)。例如根據(jù)基于內(nèi)容主題分類標(biāo)記就可以類聚同語域文獻(xiàn)，如選擇“立法文獻(xiàn)”，則《法經(jīng)》《唐律疏議》《宋刑統(tǒng)》《通制條格》《大明律》《大清律例》等材料就會(huì)自動(dòng)類聚成一個(gè)小型立法法律資料庫；選擇“司法文獻(xiàn)”，則《龍筋鳳髓判》《棠陰比事》《折獄龜鑒》等材料就會(huì)自動(dòng)類聚成一個(gè)古代司法資料庫，為歷史語文詞典中的法律百科詞的編纂提供了幫助。

有了語篇屬性的立體標(biāo)記群，還可進(jìn)行跨類系聯(lián)檢索。例如查找“凌遲”一詞時(shí)，除了在前面所說的法律文獻(xiàn)子庫中進(jìn)行查詢，也可自動(dòng)跨庫系聯(lián)二十四史中的“刑法志”、類書《文苑英華》中的判詞等材料進(jìn)行擴(kuò)展測查，提供這些法律詞語在司法語境中的使用情況。目前，“北大法寶”［2］最新的技術(shù)就是開發(fā)了法規(guī)條文和相關(guān)案例、裁判文書、法學(xué)文獻(xiàn)等信息之間的關(guān)聯(lián)功能，不僅能直接查找到目標(biāo)關(guān)鍵詞，還可鏈接與此相關(guān)的其他法律、法規(guī)、司法解釋、案例、裁判文書、法律釋義、實(shí)務(wù)指南和法學(xué)論文，能快速、全面、準(zhǔn)確地提供使用者所需要的相關(guān)法律知識。但在古籍?dāng)?shù)字資料庫中，這種自動(dòng)的跨類檢索還沒有做過探索和嘗試。

另外，有了多維度的特征標(biāo)注集，還可以實(shí)現(xiàn)自由的組合檢索，不同的組合檢索將產(chǎn)生不同的檢索結(jié)果，從而以材料的獨(dú)特發(fā)現(xiàn)保證詞典內(nèi)容的新穎性，這樣編纂出來的詞典與同類詞典相比創(chuàng)新性更為突出，更具競爭優(yōu)勢。

3.2 滿足自動(dòng)型檢索需求與語義聯(lián)想

主動(dòng)檢索是檢索的主要方式，但畢竟是有目的的檢索，需要用戶有充足的預(yù)備知識，而且有既定思路。這一思路有時(shí)會(huì)因檢索者知識儲(chǔ)備的不足或盲區(qū)，遺漏一些重要的語言事實(shí)和語言現(xiàn)象，自動(dòng)型檢索可很好地彌補(bǔ)這一缺陷。

詞語在一種語言中都是處于一個(gè)復(fù)雜的語義網(wǎng)絡(luò)中，詞和詞之間通過類義、同義、反義等最多達(dá)幾十種語義關(guān)系進(jìn)行復(fù)雜的線性和非線性聯(lián)系。近些年已經(jīng)建立了很多大型的“語義網(wǎng)”知識庫，如詞網(wǎng)、知網(wǎng)等。基于語義網(wǎng)的檢索在詞典編纂中尤其重要。

詞典編纂是一個(gè)系統(tǒng)工程，詞條的釋義并非是個(gè)體獨(dú)立的，詞和詞義都處于一個(gè)復(fù)雜的網(wǎng)絡(luò)中，任何一個(gè)人都不可能憑個(gè)人力量掌握所有的已有詞匯信息。而有了語義網(wǎng)，就可以對海量文本數(shù)據(jù)進(jìn)行自動(dòng)的知識挖掘和數(shù)據(jù)挖掘，將與搜索關(guān)鍵詞有語義關(guān)系的其他詞的用例全部類聚出來，從而使檢索擁有了“語義聯(lián)想”的功能。這一自動(dòng)型聯(lián)想機(jī)制所形成的擴(kuò)展檢索不是由用戶控制的，而是由計(jì)算機(jī)自動(dòng)提供的，既可為用戶提供重要的二次檢索的線索，也可為用戶提供大量知識儲(chǔ)備以外的檢索線索，從而彌補(bǔ)用戶知識面的不足。如果與主動(dòng)檢索的方式相結(jié)合，效果更好。

對于古籍資料庫，建立這樣的語義網(wǎng)絡(luò)是有基礎(chǔ)的，因?yàn)楝F(xiàn)在已經(jīng)有大量的紙媒知識庫，如人名詞典、地名詞典、職官名詞典、文化詞典以及雅書等類型資料匯編和辭書，如果能用現(xiàn)代知識本體理念整合這些已有的歷史語言知識工程，建立一個(gè)全面的、層次清晰的古代詞匯語義網(wǎng)是可能實(shí)現(xiàn)的。誰先擁有這樣一個(gè)知識工程，誰將領(lǐng)導(dǎo)下一代古籍?dāng)?shù)字資料庫的發(fā)展方向，同時(shí)對詞典編纂者的吸引力也就最大。

目前，李鐸在這方面做了一些研究，［3］如在《資治通鑒》中，結(jié)合擴(kuò)充的正史、墓志、地方志、家譜、年譜、筆記等文獻(xiàn)，可以要求計(jì)算機(jī)自動(dòng)報(bào)告唐代皇族世系關(guān)系，生成一個(gè)以李淵為根的一個(gè)大型樹狀結(jié)構(gòu)，不僅如此，再由母系“戚”的關(guān)系聯(lián)絡(luò)到李氏以外的人物，一個(gè)唐代社會(huì)結(jié)構(gòu)圖也會(huì)由此而產(chǎn)生。這一研究為服務(wù)于詞典編纂的古籍?dāng)?shù)字資料庫的建設(shè)提供了借鑒的樣板。

3.3 滿足全面的輔助檢索需求——以生僻詞和常用詞的檢索為例

主動(dòng)型和自動(dòng)型檢索可以稱為用戶的主檢索行為，要提高一個(gè)古籍語料庫對詞典編纂的服務(wù)水平，還要設(shè)計(jì)全面的輔助檢索功能。例如，歷史語文詞典收詞包括常用詞和偏僻詞，這兩種詞的處理對資料庫的檢索功能的要求是不同的。

在資料庫中檢索生僻詞時(shí)，結(jié)果不會(huì)太多，處理起來較容易。但要保證兩方面目標(biāo)的實(shí)現(xiàn)：

第一，查全率。即資料要全，詞典所收錄的生僻詞盡量都能在資料庫中檢索到用例。

第二，查準(zhǔn)率。古漢語字、詞多同形，生僻詞在文字層面很多時(shí)候指的是生僻字，生僻字的最大特點(diǎn)是異體字多，與其他字之間的“通”“同”等字際關(guān)系比較復(fù)雜，所以常出現(xiàn)查錯(cuò)現(xiàn)象。為此，我們曾經(jīng)做過專門的研究。［4］很多資料庫在檢索時(shí)都建好了字際關(guān)系整理表，查找一個(gè)關(guān)鍵字時(shí)，其異體關(guān)系也都在檢索范圍之內(nèi)，這是一個(gè)很好的解決思路。

但字際關(guān)系是很復(fù)雜的，現(xiàn)在的系聯(lián)工作還不夠全面和細(xì)致。其中有一點(diǎn)至關(guān)重要，那就是一個(gè)字往往是多音、多義、多用字，而字際關(guān)系往往發(fā)生在某一個(gè)具體的義項(xiàng)上，所以系聯(lián)時(shí)不能簡單化地以詞位來對應(yīng)，而應(yīng)該落實(shí)到詞項(xiàng)，即以音帶義，以義定用，嚴(yán)格按照這一原則建立一個(gè)字際關(guān)系網(wǎng)絡(luò)，對于提高古籍檢索的查準(zhǔn)率和查全率都有裨益。為實(shí)現(xiàn)這一目標(biāo)，我們正在研制基于Unicode大字符集的“字網(wǎng)”。

古漢語常用詞的數(shù)目大體是固定的，幾千年來基本詞匯因其穩(wěn)定性特點(diǎn)，詞種變化不是太大。在一個(gè)巨型資料庫中檢索常用詞，常會(huì)出現(xiàn)幾萬甚至幾十萬條的數(shù)據(jù)，而一般人手工處理檢索結(jié)果的數(shù)目最高閾值在2000條左右，這使常用詞語例的利用反而更困難。這種不足主要是由兩種原因造成：

第一，重復(fù)用例。例如后世古籍經(jīng)常會(huì)引用前世古籍，就會(huì)產(chǎn)生大量重復(fù)的例句，即使不是原句的重復(fù)，固定搭配字串的重復(fù)率也非常高，所以檢索結(jié)果重復(fù)率的控制以及重復(fù)檢索結(jié)果的有效過濾一直是資料庫所要面對的重要問題。

第二，呈現(xiàn)方式。當(dāng)前資料庫檢索結(jié)果的呈現(xiàn)方式一般是采用篇目呈現(xiàn)，而不是例句。使用檢索結(jié)果時(shí)需要逐一打開才能看到例句及其上下文，這種呈現(xiàn)方式當(dāng)然也就無法應(yīng)用“關(guān)鍵詞居中”技術(shù)。另外，這種顯示方式整體性差，無法對檢索結(jié)果產(chǎn)生直觀的印象，而詞典編纂有時(shí)特別倚重語感，語感往往就是由這些直觀印象觸發(fā)的。

可有針對性地采用以下措施對檢索結(jié)果進(jìn)行限制：

第一，過濾重復(fù)結(jié)果。如果古籍文獻(xiàn)有句讀，可以順利地過濾掉完全重復(fù)的例句，如果沒有句讀，根據(jù)古文獻(xiàn)短句多的特點(diǎn)，將檢索跨距設(shè)置為5—8個(gè)字符（5字串以下詞匯單位所占比例較大），然后類聚相同的詞匯串，最后過濾重復(fù)的詞匯串用例。

第二，抽樣提取。如果檢索結(jié)果數(shù)量過大，用戶可設(shè)定例句提取的間隔行，如每n行提取一條例句，這樣雖可能有遺漏，但便于詞典編纂者總體了解一個(gè)常用詞的大體使用情況，根據(jù)一些抽樣出來的線索，再進(jìn)行二次定向檢索。

第三，二次檢索?？筛鶕?jù)語篇屬性的立體特征群對海量檢索結(jié)果進(jìn)行二次檢索。二次檢索常用到組合檢索方式。詞典編纂者大多是文科出身，所以最好將多特征組合檢索所要用的表達(dá)式直觀化，設(shè)置好窗口界面的編程控件，讓用戶通過簡單的點(diǎn)擊操作就可完成合取、析取、排除檢索、跨距等方面的設(shè)置。

第四，檢索結(jié)果以例句的形式顯示。例句及其前后語境是詞典編纂的第一關(guān)注點(diǎn)，一屏顯示多個(gè)例句并減少操作步驟，這本身也是約束常用詞過多檢索結(jié)果的便捷處理方式。

綜上所述，我們提出了圖書館古籍?dāng)?shù)字資料庫服務(wù)于語文詞典編纂的建設(shè)方向，即內(nèi)容方面要滿足五個(gè)方面的平衡性要求，服務(wù)方面要滿足主動(dòng)檢索、自動(dòng)檢索、輔助檢索的功能需要。圍繞這一建設(shè)方向進(jìn)行圖書館古籍?dāng)?shù)字資料庫的開發(fā)和應(yīng)用，才能形成開發(fā)者和用戶多贏的局面。同時(shí)這八方面的要求也會(huì)成為評價(jià)圖書館古籍?dāng)?shù)字資料庫質(zhì)量的重要參數(shù)或參考標(biāo)準(zhǔn)。

［1］ Eggins Suzanne.An Introduction to Systemic Functional Linguistics［M］.London：Pinter，1994：61.

［2］“北大法寶——中國法律檢索系統(tǒng)”能幫我們做什么［EB/OL］.［2010－11－23］.http://www.chinalaw info.com/bdfb/Lib_02.asp.

［3］李鐸.從檢索到分析——計(jì)算機(jī)知識服務(wù)的時(shí)代［J］.文學(xué)遺產(chǎn)，2009（1）：135－137.

［4］王東海.古文獻(xiàn)數(shù)字語料庫的異形字處理［J］.語言文字應(yīng)用，2005（4）：116－120.