●郭偉玲,戴艷清(武漢大學(xué) 信息管理學(xué)院,武漢 430072)
進入21世紀以來,我國古籍?dāng)?shù)字資源的建設(shè)呈現(xiàn)出一種新的氣象,古籍?dāng)?shù)字化工作中的基礎(chǔ)工作建設(shè)也得到了空前的重視。從宏觀層面建立具有中國文化特色的文獻資料類型(如古籍、拓片、輿圖等)的元數(shù)據(jù)格式及其擴展和互操作規(guī)則;古籍?dāng)?shù)字化的理論表述逐步成型,古籍?dāng)?shù)字化的學(xué)科體系初步完善;在數(shù)據(jù)庫建設(shè)方面成績亦是斐然。盡管中國古籍?dāng)?shù)字化建設(shè)斬獲頗豐,但目前中國古籍?dāng)?shù)字化資源的使用狀況堪憂,一方面原因在于文史工作者對于古籍?dāng)?shù)字資源的態(tài)度亟待轉(zhuǎn)換,另外一個方面則是因為目前古籍?dāng)?shù)字化的利用過程中出現(xiàn)了一些障礙,主要表現(xiàn)在最基礎(chǔ)的檢索問題上,這些困難導(dǎo)致目前古籍?dāng)?shù)字資源的使用情況不容樂觀。
一般來說,古籍?dāng)?shù)字化處理中的字體問題包含兩個方面:一是字體的個數(shù),尤其值得指出的是古籍中包含了形態(tài)各異的避諱字、異型字、通假字等非常規(guī)用字,導(dǎo)致了古籍內(nèi)所包含的字數(shù)異常龐大。目前在古籍文獻數(shù)字化處理的過程中,通用于業(yè)界的Unicode字符集具有近7萬字的容量,但以《中華字海》為例,收錄有85568個漢字,遠遠超過了字符集所涵蓋的最大限量,也不能滿足古籍龐大的字數(shù)要求。二是字形問題。漢字的形態(tài)從甲骨文的形式創(chuàng)造伊始,經(jīng)歷了數(shù)千年的形態(tài)的變化,包含了各種字體形態(tài),對于當(dāng)前基于標(biāo)準字體處理產(chǎn)生的計算機文字處理技術(shù)提出了更高的挑戰(zhàn)。目前業(yè)界在處理多種字體的問題上,涉及到了資源處理方式的選擇,如果采用文獻研究人員比較看好的掃描方式,各種不同的字體就會形成不同的圖形格式,那么數(shù)據(jù)庫的檢索就會在圖形檢索方面提出更高的要求。而現(xiàn)實狀況是,目前的圖形檢索技術(shù)并不發(fā)達,在這樣的技術(shù)背景下,字形顯然是古籍?dāng)?shù)字化建設(shè)中不能規(guī)避的難題。這兩個方面的因素成為當(dāng)前古籍?dāng)?shù)字化工程中突出的障礙。
目前古籍的加工技術(shù)分為鍵盤錄入、OCR識別錄入和掃描3種,這3種方法各有利弊。人工錄入可以更好地發(fā)展古籍?dāng)?shù)字化產(chǎn)品的拓展功能,但是錯誤率比較高,費工費時,且容易受到字符集的限制;OCR識別錄入可以加快速度,提高工作效率,但是對于古籍中的復(fù)雜字體和字符的識別率不能使人滿意,尤其是對于一些受到污損的古籍頁面處理差強人意;圖像掃描可以解決文字問題,對于掃描文獻的要求較高,對于要數(shù)字化的文獻,需要提前進行修補和完善處理。從普及度來講,目前多數(shù)機構(gòu)和公司采用OCR識別錄入方法。從學(xué)術(shù)研究者利用的角度來看,學(xué)者們更容易接受掃描方法錄入,其原因在于:“合乎學(xué)術(shù)用途,適合學(xué)界需要”。[1]掃描圖書不僅數(shù)字化了文獻的文字內(nèi)容,還利用圖像保留了文獻的形式內(nèi)容,滿足了文獻研究者的專業(yè)需要。
數(shù)字化的存儲技術(shù)主要集中在存儲介質(zhì)和存儲格式的選擇。目前古籍?dāng)?shù)字化產(chǎn)品的存儲格式主要有文本文件格式、數(shù)據(jù)庫格式、電子書格式、超文本格式、圖片格式、多媒體格式,數(shù)字化古籍格式之繁多可見一斑。[2]同時各個古籍?dāng)?shù)字化產(chǎn)品由于競爭和知識產(chǎn)權(quán)等原因,采用不同的閱讀器,并且各自不兼容,導(dǎo)致用戶利用的人為障礙。不僅如此,由于許多電子圖書采用了圖片格式,也給用戶提取資料帶來了許多困難。
現(xiàn)今古籍?dāng)?shù)字化基本是獨立開展的,不管是從選題、投資、建設(shè)、運作等各個方面,古籍?dāng)?shù)字化都處于一種各自為政的局面。從技術(shù)上講,古籍?dāng)?shù)字化的一些技術(shù)問題尚未標(biāo)準和規(guī)范化,總體缺乏協(xié)調(diào),這一問題得不到有效解決,將制約古籍?dāng)?shù)字化的進一步發(fā)展。
21世紀以來,古籍?dāng)?shù)字化發(fā)展迅猛,構(gòu)成了一個龐大精深的中華文化立體知識體系。在此基礎(chǔ)上建設(shè)的數(shù)據(jù)庫,不僅可以實現(xiàn)海量信息查詢、字詞頻分析、用字量統(tǒng)計等古人難以實現(xiàn)的功能,在檢索技術(shù)上的進步也非常顯著。眾多古籍?dāng)?shù)據(jù)庫不僅僅具有普通數(shù)據(jù)庫常見的檢索功能,如全文檢索、關(guān)鍵詞檢索、布爾邏輯檢索、截詞檢索等,個別數(shù)據(jù)庫還開發(fā)出了古籍領(lǐng)域所要求的特色檢索功能和特定的輔助用法,這些特殊的檢索方式使得數(shù)據(jù)庫的利用價值有了較大提高。
① 朝代檢索。目前國內(nèi)的中國基本古籍庫和《國學(xué)寶典》的檢索程序提供朝代檢索,中國基本古籍庫最近的全功能試用版加入了按年代檢索的功能。② 四部檢索。如《國學(xué)寶典》按范圍檢索分為經(jīng)、史、子、集、其他5個部分,而中國基本古籍庫則是以四部的二級類目為參考類目。③ 古籍源檢索。中國社科院的《全唐詩》數(shù)據(jù)庫檢索系統(tǒng),不僅可供快速查檢《全唐詩》中任何作品的字、句、標(biāo)題、注解,還可以查找該作品在《全唐詩》中的冊、頁、行數(shù);而中國基本古籍庫則提供版本檢索內(nèi)容,可以按照文獻學(xué)界的普遍說法,輸入宋刻本、明刻本等條目進行檢索。④ 書法檢索。按照文字的字形和書法家進行檢索。目前提供書法檢索的數(shù)據(jù)庫主要是CADAL中的古籍?dāng)?shù)據(jù)庫,其處理方法為:先根據(jù)特征從大量數(shù)據(jù)量中抽取可能相似的少量書法字,而后把用戶提交的樣本字與這些少量書法字進行不精確匹配,提高了檢索速度和檢準率。⑤ 內(nèi)容擴展檢索。此類系統(tǒng)在檢索性能上有了很大改進,檢索的范圍不再局限于書目和文本,而是對古籍的標(biāo)題、詞句、注解等實際內(nèi)容進行全面檢索。
雖然古籍?dāng)?shù)據(jù)庫在檢索技術(shù)方面取得了巨大進步,但是較學(xué)者對數(shù)據(jù)庫的期望還存在很大的差距,主要表現(xiàn)在以下方面:
(1)已有的檢索技術(shù)功能單一。目前已經(jīng)問世的大型數(shù)字化古籍,基本上都有全文檢索功能,但全文檢索的功能相對單一,還不能滿足專業(yè)研究者的多元需求。這些數(shù)據(jù)庫中所提供的全文檢索,只能是關(guān)鍵詞的檢索,不論是單詞檢索還是組合檢索,檢索一次,都只能檢索到與輸入的詞語嚴格匹配的資料,而不能檢索到不含輸入的詞匯而實際相關(guān)的資料。從檢索技術(shù)上來講,基于關(guān)鍵字的文本處理方法,主要依據(jù)的是詞頻信息,兩個文本的相似度取決于它們擁有的共同詞匯的數(shù)量,因而無法分辨自然語言的語義模糊性。[3]也就是說,與當(dāng)代資源數(shù)據(jù)庫相比較,數(shù)字化古籍目前只能固定檢索海量數(shù)據(jù),而不能智能化地檢索和生成新的數(shù)據(jù)。因此,在數(shù)字化古籍檢索中,我們無法采用詞語相近性與相關(guān)性的特點進行智能擴展檢索,在普通數(shù)據(jù)庫中出現(xiàn)的標(biāo)簽云等提示性的擴展檢索,由于古籍文獻的特殊化,并不能實現(xiàn)檢索詞的智能限定和擴展,進一步提高檢全率。
在古籍檢索的案例中,采用常規(guī)的檢索方法,比如用關(guān)鍵詞檢索人物資料,通過組合檢索或多次檢索的方式還能比較全面地查到所需資料的話,那么,查找相關(guān)主題的資料,就比較困難了。比如說,想查《四庫全書》中有關(guān)文學(xué)傳播的資料,但是古人并不常用“傳播”這個概念,如果用“傳播”作為關(guān)鍵詞,就無法查到《四庫全書》中蘊藏的大量的傳播資料。這種情況的出現(xiàn),其原因在于古籍文獻中的行文方式、句詞的涵義與現(xiàn)代漢語存在許多根本的差別,其語意可以根據(jù)上下文甚至語境產(chǎn)生截然不同的設(shè)定和匹配,這就導(dǎo)致了在古籍?dāng)?shù)字檢索中存在獨有的語義聯(lián)系問題。針對古籍的自身特點,我們需要著重加強對漢字間關(guān)聯(lián)的查找。古人在寫文章時是不使用標(biāo)點符號的,因此古人在讀書時要自己斷句,只有理解了詞與詞之間的聯(lián)系,才能真正理解古文的意思。在古文中有時一個字代表一個詞,而詞的一個特點就是每個詞都具有一定的含義,對某個詞的詞義判斷錯誤,往往會導(dǎo)致標(biāo)點失誤,從而無法通古意。這是在古籍?dāng)?shù)字化中需要特別注意的。[4]雖然部分古籍?dāng)?shù)字產(chǎn)品推出詞典功能,但并不能滿足文獻研究者需求。
(2)古文獻的檢準率不盡如人意。檢索的準確性也是衡量檢索程序的一個重要標(biāo)準,但大多數(shù)的檢索程序的準確性難以令人滿意。在檢索式中,一個詞語的權(quán)重不僅僅取決于文本中出現(xiàn)的詞頻,還會受到其在文中出現(xiàn)的位置的影響。古典文獻著述類型多樣,頁面版式復(fù)雜,同一頁面會出現(xiàn)不同顏色、字形、大小的字體,不同的文獻性質(zhì),如正文、注、疏、解等各種字體字形,使得目前古籍檢索中檢索詞權(quán)重計算混亂,在非正文中出現(xiàn)的關(guān)鍵詞在檢索計算中容易被忽略,直接導(dǎo)致了檢準率的下降。同時還需要注意的是檢索詞的本身。古籍中字的通假、異型、繁簡等情況的出現(xiàn),給古籍?dāng)?shù)字檢索也帶來了很大的困難。比如在《四庫全書》中檢索含有“籑”字的資料時,大量含有“撰”“饌”“纂”的資料也一并檢索出來,而且這些無關(guān)的條目還無法排除。[5]另一方面,一些應(yīng)該同時檢出的異體字,程序卻視為不同的字而不能檢出。有些關(guān)鍵詞明明在所收文獻中存在,通過數(shù)據(jù)庫所提供的瀏覽功能也可以看到,可是通過檢索程序進行搜索就是檢不出來。
(3)檢索結(jié)果的處理存在缺陷。古籍?dāng)?shù)據(jù)庫的檢索結(jié)果與常用字處理軟件的兼容性不盡如人意。檢索出來的資料人們一般是要復(fù)制到Word等字處理軟件中使用的,然而有些數(shù)據(jù)庫的資料復(fù)制粘貼后會發(fā)生錯誤,尤其是掃描錄入的圖像格式。古籍文獻版式復(fù)雜,不少古籍帶有注文,注文一般是隨文用小字表示,甚至有疏有注有引,各個字體字形不一,在對檢索結(jié)果進行文字處理時,正文與注疏相混。如何精準地識別檢索結(jié)果,也是目前數(shù)據(jù)庫檢索所面對的難題之一。
基于上節(jié)內(nèi)容介紹,我國的古籍?dāng)?shù)字化在檢索方面的技術(shù)處理同用戶的使用需求之間仍然存在很大距離,古籍?dāng)?shù)字化產(chǎn)品的檢索技術(shù)存在種種瓶頸,其原因有以下幾點:
(1)古籍?dāng)?shù)字化未能解決古籍檢索中的關(guān)鍵問題。當(dāng)前數(shù)字化古籍檢索的核心技術(shù)仍然是傳統(tǒng)的全文檢索方法。全文數(shù)據(jù)庫檢索系統(tǒng)主要是采用逐字標(biāo)引形式,基于讀者輸入的檢索字或詞,在數(shù)據(jù)庫中查找完全匹配的結(jié)果以返回給用戶。[3]這種檢索模型首先假定一個關(guān)鍵詞唯一地代表一個概念或語義單元,然而古籍文獻的實際的情況是:一詞多義和多詞同義現(xiàn)象在文本里是非常普遍,而解決一詞多義和多詞一義問題是所有古籍全文檢索必須面對的兩個主要任務(wù)。古籍文本中出現(xiàn)的詞往往存在一定的相關(guān)性,古籍中個別字詞語義的準確表達不僅取決于詞匯本身,也取決于上下文對詞義的界定,如果忽視古籍文本上下文語境的限制,僅以孤立的關(guān)鍵字來檢索文本的內(nèi)容,勢必影響信息檢索結(jié)果的查準率與查全率。古籍的文字經(jīng)歷了朝代變遷歷史更替,其意義多發(fā)生了巨大變化,何況還有古籍中多種古漢語的特殊用法,依托于當(dāng)代漢語語義形成的檢索技術(shù)對于古籍中的字義檢索力不從心。這種狀況出現(xiàn)的根本原因是未解決古籍檢索技術(shù)中的關(guān)鍵性技術(shù)——古漢語詞典切分技術(shù),它掩蓋了概念主題和詞匯間的關(guān)系,檢索時容易出現(xiàn)誤檢和漏檢;其次,由于單漢字索引系統(tǒng)不能指定不同詞間的相互參照關(guān)系,很難實現(xiàn)檢索結(jié)果的擴檢和縮檢;再次,單漢字索引為原文中每個漢字建立倒排文件索引,需要耗費大量的存儲空間,并且對于每個檢索提問需要多次交運算,耗時較多,檢索效率低,影響了古籍自動標(biāo)引、名稱主題檢索及專有名詞檢索等的實現(xiàn)。[6]
(2)對古籍的數(shù)字化處理不盡完善。從文獻的內(nèi)容處理來講,當(dāng)今古籍?dāng)?shù)字產(chǎn)品未充分考慮古籍?dāng)?shù)字化領(lǐng)域的特點,尤其是古籍字形和字義的特點。在文字的形態(tài)方面,古籍文獻中異體、避諱、通假、俗字等情況多有出現(xiàn),而且還有在流傳過程出現(xiàn)的訛誤,造成很多非標(biāo)準字體;[7]在字形方面,各個朝代的圖書刊刻對字體有不同的偏好,各個字體之間又有些許的差別,在進行數(shù)字化處理以后,尤其是采用掃描處理方式,數(shù)據(jù)庫中的圖像不能直接被檢索,導(dǎo)致檢索結(jié)果不符合用戶初衷。從文獻的形式處理來說,目前古籍?dāng)?shù)字化的工作仍局限將古典文獻掃描形成電子出版物,并非建立在正確理解原文基礎(chǔ)上的文字轉(zhuǎn)化,這樣的數(shù)字化方式只適用于保存,既不利于學(xué)者檢索,也不利于傳統(tǒng)文化的傳播。
(3)古籍?dāng)?shù)字化標(biāo)準不一。雖然我國具有數(shù)字圖書館標(biāo)準規(guī)范中專門規(guī)范古籍著錄的規(guī)則——《我國數(shù)字圖書館標(biāo)準與規(guī)范建設(shè)》,但是由于數(shù)字化的主體、性質(zhì)、目的不同,在進行數(shù)字化的過程中,制作時使用不同的格式和分辨率等,獲得的古籍?dāng)?shù)字化文件格式多樣,閱讀器不同且不兼容,造成多數(shù)據(jù)來源下數(shù)字化古籍信息集成、數(shù)據(jù)交換困難,使得檢索技術(shù)功能不能完美體現(xiàn)。
對于古籍?dāng)?shù)字化產(chǎn)品,文獻學(xué)者有著自己的檢索要求,從大體上來講,由單一檢索變?yōu)槎嘣獧z索、由定向檢索變?yōu)殛P(guān)聯(lián)檢索、由靜態(tài)檢索變?yōu)閯討B(tài)檢索,簡單地說,就是實現(xiàn)檢索的智能化。[8]
(1)從古籍文獻整理方面規(guī)范古籍來源。從古籍檢索的本質(zhì)來說,技術(shù)只是形式,內(nèi)容才是核心,因此,“只有熟悉對象(古籍) 內(nèi)涵的主體,即內(nèi)容專家,才有能力決定實現(xiàn)古籍?dāng)?shù)字化的基本路向和基本框架,技術(shù)專家的作用就是在既定的框架內(nèi)如何最便捷、最優(yōu)化地實現(xiàn)目標(biāo)?!盵9]在數(shù)字化進行之前,保證技術(shù)專家和文獻專家的合作,利用雙方的專業(yè)知識推進古籍?dāng)?shù)字化檢索技能的提高。
(2)從古籍?dāng)?shù)字化建設(shè)角度來提升檢索能力。從宏觀角度來看,古籍?dāng)?shù)字化是一項龐大的文化建設(shè)工程,需要相應(yīng)的基礎(chǔ)理論的支持。比如,從信息管理、計算機、哲學(xué)、通信技術(shù)、文化、歷史等方面進行多方位的深入的研究;在書目庫、版本庫、全文庫、知識庫的整合和銜接上進行整體、統(tǒng)一、有序的設(shè)計和開發(fā),為古籍資源的開放利用找到一條行之有效的道路。[10]在此基礎(chǔ)上,進一步研究如何利用現(xiàn)代計算機技術(shù),從可視化檢索、語義檢索、語義網(wǎng)發(fā)布等方面開展突破。
從具體行動上來講,要從古籍?dāng)?shù)字化建設(shè)階段的工作入手,規(guī)范古籍加工整理的電子數(shù)據(jù)格式及瀏覽手段。要保證古籍檢索的性能,追本溯源應(yīng)著重研究古籍資料的全息無損清晰掃描,實現(xiàn)零邊距掃描,力圖表現(xiàn)古籍的完善面貌。之后,還需進行掃描成果去噪,因為掃描的圖片歪斜、不清晰以及污點、折痕、噪點等,對以后文字和圖像的影響都會很大。所以在掃描識別后要使用專業(yè)的圖象處理軟件對圖片進行糾偏和清晰度調(diào)整,以確保較高的識別率。
(3)從組織管理角度考慮數(shù)據(jù)庫檢索。當(dāng)下古籍?dāng)?shù)字化建設(shè)中會有很多問題和沖突,國家站在宏觀的高度應(yīng)該有一個整體控制,使基礎(chǔ)性和支持性的研發(fā)和具體的古籍善本數(shù)字化開發(fā)互相促進,使古籍?dāng)?shù)字化要分階段、有步驟地逐步實現(xiàn)高效快速的發(fā)展。單從技術(shù)層面上來講,開發(fā)古籍資源數(shù)字化要依托于一系列開放、兼容、通用的計算機處理軟件,因為這樣將會大大加快古籍資源數(shù)字化的進程,形成統(tǒng)一的數(shù)據(jù)庫框架和技術(shù)協(xié)議,從宏觀角度推進解決古籍?dāng)?shù)字化產(chǎn)品的檢索問題。
(4)從檢索技術(shù)層次來考慮數(shù)據(jù)庫檢索。隨著當(dāng)前古籍?dāng)?shù)字化建設(shè)和基礎(chǔ)研究的逐步深入,一些基于知識發(fā)現(xiàn)的技術(shù)應(yīng)用到古籍全文庫構(gòu)建之中,利用本體論的思想來建構(gòu)知識庫、進行語義識別和檢索成為當(dāng)前古籍?dāng)?shù)字化研究熱點。許多研究者在嘗試分析某一專題古籍文獻的基礎(chǔ)上,系統(tǒng)地解析該領(lǐng)域中古籍文獻資源的組織方法、體系以及標(biāo)示方法,結(jié)合主題詞、分類法的相關(guān)系統(tǒng)知識,移植計算機信息科學(xué)中“知識元”的概念,借鑒本體論的思想,采用自上而下的方法嘗試編制某一領(lǐng)域的適合知識庫建設(shè)的古籍分類表和古籍概念關(guān)系體系,作為分類主題一體化古籍?dāng)⒃~表的基礎(chǔ),以更好地推進數(shù)字化古籍資源的標(biāo)引和檢索。這種在以某個專題為研究突破口的理論嘗試,以本體的建設(shè)為機制來探索語義檢索,對于尋找新的技術(shù)手段實現(xiàn)古籍的知識發(fā)掘,具有很強開啟思維的作用,值得相關(guān)學(xué)者作進一步深入研究。
[1] 薛天緯.數(shù)字化古籍由錄入改掃描勢在必行[EB/OL].[2010互12互25].http://www.guoxue.com/wk/00 0646.htm.
[2] 陳陽.中文古籍?dāng)?shù)字化的成果與存在問題[J].出版科學(xué),2003(4):46互48.
[3] 劉海峰,等.基于潛在語義空間的文本檢索問題研究 [J].情報科學(xué),2007(5):748互753.
[4] 林欽.Unicode在中文古籍?dāng)?shù)字化中的應(yīng)用[J].福建圖書館理論與實踐,2010(3):61互62.
[5] 楊琳.大陸古籍?dāng)?shù)字化的現(xiàn)狀及存在的問題[EB/OL].[2009互12互25].http://www.guoxue.com/gjszh/yjwz_011.htm.
[6] Xia-FenZhang,etal.Hierarchicalap proximate matching for retrieval of Chinese historical calligraphy character[J].Journals of Computer Science&Technology,2007,122(4):633互640.
[7] 丁侃.古籍?dāng)?shù)字化的保真問題[J].中醫(yī)文獻雜志,2009(2):31互33.
[8] 常娥.古籍智能處理技術(shù)研究[D].南京:南京農(nóng)業(yè)大學(xué),2007.
[9] 付艷.基于內(nèi)容的古籍檢索技術(shù)研究[EB/OL].
[2010互12互25].http://www.guoxue.com/wk/000655.htm.
[10] 周迪,宋登漢.中文古籍?dāng)?shù)字化開發(fā)研究綜述[J].圖書情報知識,2010(6):40互49.