亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文古籍?dāng)?shù)字化的開發(fā)層次和發(fā)展趨勢?

2014-12-25 02:15:38馬創(chuàng)新曲維光陳小荷

圖書館 2014年2期

馬創(chuàng)新曲維光陳小荷

(1．南京師范大學(xué)文學(xué)院江蘇南京 210097;2．南京師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院江蘇南京 210097)

1 中文古籍?dāng)?shù)字化的開發(fā)層次

中文古籍?dāng)?shù)字化是指利用現(xiàn)代信息技術(shù)對中文古籍進(jìn)行加工處理，使其轉(zhuǎn)化為電子數(shù)據(jù)形式保存和傳播，它是中文古籍再生性保護(hù)的重要手段，是古籍整理工作的一部分。古籍?dāng)?shù)字化的研究和開發(fā)層次涉及傳統(tǒng)古籍的加工處理深度，毛建軍認(rèn)為古籍?dāng)?shù)字化開發(fā)分為五個(gè)層次:編制古籍電子索引、建立古籍書目數(shù)據(jù)庫、古籍原文圖像復(fù)制、匯編古籍電子叢書、古籍標(biāo)點(diǎn)今譯與普及等?！?〕王立清認(rèn)為，按照古籍?dāng)?shù)字化處理深度的不同，其開發(fā)層次可以包括古籍書目的數(shù)字化、古籍載體的數(shù)字化、古籍圖文的數(shù)字化、古籍知識(shí)及關(guān)聯(lián)的數(shù)字化?！?〕徐清等人認(rèn)為古籍?dāng)?shù)字資源的深度開發(fā)至少包括三個(gè)方面內(nèi)容:提供基于超文本的立體閱讀環(huán)境、建立強(qiáng)大的智能化檢索系統(tǒng)、提供科學(xué)、準(zhǔn)確的統(tǒng)計(jì)數(shù)據(jù)和信息分析?！?〕

表1 中文古籍?dāng)?shù)字化的開發(fā)層次及其主要內(nèi)容

我們根據(jù)數(shù)字化加工的深度對古籍?dāng)?shù)字化進(jìn)行層次劃分，在表1中列出了古籍?dāng)?shù)字化的層次及其主要內(nèi)容，其中第一層解決了古籍的錄入和數(shù)字化存儲(chǔ)問題;第二層基本上解決了古籍的網(wǎng)絡(luò)傳播和信息檢索問題;第三層是古籍書目基本信息的標(biāo)注問題、古籍內(nèi)容的淺層標(biāo)注與系聯(lián)問題;第四層是古籍內(nèi)容的深層語義標(biāo)注和知識(shí)檢索方法。第一、二層的內(nèi)容屬于“表層數(shù)字化”，第三、四層的內(nèi)容屬于“深層數(shù)字化”。當(dāng)然這種層次劃分是相對的，實(shí)際上并沒有區(qū)分層次深淺的絕對標(biāo)準(zhǔn)。

1．1 表層數(shù)字化

在古籍?dāng)?shù)字化的初期，主要任務(wù)是解決如何把幾千年來一直保存在竹簡、木牘、紙張等實(shí)物介質(zhì)上的古籍內(nèi)容以數(shù)字形式存入計(jì)算機(jī)中的問題。古籍善本的圖像掃描錄入是對存儲(chǔ)在實(shí)物介質(zhì)上的古籍分頁做光學(xué)掃描，每頁內(nèi)容作為一個(gè)圖片存儲(chǔ)，該方法能在短時(shí)間內(nèi)將大量古籍轉(zhuǎn)儲(chǔ)在計(jì)算機(jī)中，但是以圖片形式存儲(chǔ)不便于古籍內(nèi)容的檢索。OCR識(shí)別通過對圖片進(jìn)行分割、對圖像輪廓進(jìn)行識(shí)別匹配，能夠辨析出圖像中的文字，把圖片中的古籍內(nèi)容轉(zhuǎn)化成字符序列。經(jīng)過OCR識(shí)別并且按字符建立索引之后，對古籍內(nèi)容的檢索將會(huì)變得高效便捷，但是當(dāng)今的OCR識(shí)別技術(shù)還有待提高，各種OCR識(shí)別技術(shù)的準(zhǔn)確率和召回率都無法達(dá)到百分之百，需要在機(jī)器識(shí)別之后再做人工校對。

漢字從產(chǎn)生到今天已經(jīng)有幾千年，在這漫長的歷史時(shí)期中，產(chǎn)生了大量漢字字形，《康熙大字典》收錄的漢字就有47035個(gè)，實(shí)際使用的漢字還要更多一些。然而，當(dāng)前計(jì)算機(jī)中常用的字符集如GB2312、Big5、GBK等都沒有收錄這么多漢字。并且由于使用漢字記錄的古籍文獻(xiàn)浩如煙海，在這些文獻(xiàn)中存著大量停用字和異體字，有些漢字字形使用的頻率極低，所以這個(gè)問題不能僅靠擴(kuò)大字符集的規(guī)模來解決，必須研究字符集之外文字的存儲(chǔ)方法。

在研究古籍文獻(xiàn)錄入與存儲(chǔ)方法的同時(shí)，還要研究如何便捷地閱讀和檢索文獻(xiàn)內(nèi)容，在當(dāng)今互聯(lián)網(wǎng)時(shí)代，古籍文獻(xiàn)閱讀檢索的單機(jī)版形式顯然無法滿足研究者的需要，必須要實(shí)現(xiàn)古籍全文的互聯(lián)網(wǎng)發(fā)布和基于網(wǎng)絡(luò)的全文檢索。

1．2 深層數(shù)字化

古籍的表層數(shù)字化主要解決古籍的數(shù)字化存儲(chǔ)、網(wǎng)絡(luò)傳播和全文檢索的問題，而深層數(shù)字化深入到“內(nèi)容和意義”層面研究古籍文獻(xiàn)，包括研究古籍著錄和描述的元數(shù)據(jù)標(biāo)準(zhǔn)、古籍內(nèi)部知識(shí)元的標(biāo)注問題、知識(shí)元之間的聯(lián)系方法、以及古籍之間的聯(lián)系方法。

元語言，“就是描述語言的語言，它通過定義一套描述文檔結(jié)構(gòu)與含義的語法標(biāo)記，使人或計(jì)算機(jī)能夠利用這些標(biāo)記快速準(zhǔn)確地找到并理解文檔中包含的特定語義信息”〔4〕。通過制定通用的古籍著錄和描述的元數(shù)據(jù)標(biāo)準(zhǔn)，并且使用該標(biāo)準(zhǔn)對古籍進(jìn)行描述，能夠使計(jì)算機(jī)快速準(zhǔn)確地找到目標(biāo)古籍。由于元數(shù)據(jù)標(biāo)準(zhǔn)(如DC元數(shù)據(jù)、MARC元數(shù)據(jù)等)能夠?qū)偶幕緝?nèi)容特征做具體的描述，所以描述古籍基本內(nèi)容特征的“元數(shù)據(jù)信息庫”要比單純的“書目索引庫”應(yīng)用價(jià)值大得多。表層數(shù)字化研究中的全文檢索僅能夠通過簡單的字符串匹配技術(shù)查找到指定的字符或者字符串，無法滿足研究者多層面的檢索需求，通過制訂系統(tǒng)的元數(shù)據(jù)標(biāo)記，對古籍內(nèi)容進(jìn)行標(biāo)注，如標(biāo)注出古籍中的命名實(shí)體或者某類特定信息，能夠滿足研究者較高層次的檢索需求。經(jīng)過元數(shù)據(jù)標(biāo)注后，接下來可以繼續(xù)研究如何在古籍之間、章節(jié)之間、內(nèi)部知識(shí)元之間自動(dòng)地設(shè)置錨點(diǎn)和鏈接，構(gòu)造超文本的立體閱讀環(huán)境。

“本體是關(guān)于領(lǐng)域知識(shí)的概念化、形式化的明確規(guī)范?！薄?〕本體通過概念描述揭示領(lǐng)域知識(shí)，古籍領(lǐng)域本體能夠展示古籍中豐富的語義關(guān)系，并且可以保證語義的一致性。各個(gè)學(xué)科領(lǐng)域的專家能夠構(gòu)建適用于特定領(lǐng)域的規(guī)模較小的本體，如:古籍著錄與描述本體、訓(xùn)詁學(xué)本體、音韻學(xué)本體、文字學(xué)本體等等。古籍?dāng)?shù)字化研究專家能夠使用本體集成技術(shù)將所需要的多個(gè)領(lǐng)域本體集成在一起，構(gòu)成一個(gè)規(guī)模較大的應(yīng)用于古籍?dāng)?shù)字化領(lǐng)域的專業(yè)本體。

古籍知識(shí)網(wǎng)絡(luò)建設(shè)就是利用計(jì)算機(jī)技術(shù)、信息技術(shù)等新興技術(shù)手段，對蘊(yùn)含在古籍中的知識(shí)進(jìn)行多元的組合，在多部古籍的內(nèi)部知識(shí)元之間建立起聯(lián)系，把多個(gè)一維的線性序列轉(zhuǎn)化為一個(gè)多維的知識(shí)網(wǎng)絡(luò)，使多部古籍成為一個(gè)結(jié)構(gòu)化的知識(shí)集合。在古籍領(lǐng)域本體和知識(shí)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)的檢索系統(tǒng)能夠?qū)崿F(xiàn)智能的知識(shí)檢索。

1．3 表層數(shù)字化與深層數(shù)字化之間的主要區(qū)別

中文古籍的表層數(shù)字化與深層數(shù)字化之間有以下區(qū)別:①古籍的表層數(shù)字化研究起步較早，至今已取得豐碩成果，一些疑難問題基本上得到解決，古籍的深層數(shù)字化研究起步較晚，也取得了一定的成果，很多問題現(xiàn)在正處于攻堅(jiān)階段。②古籍?dāng)?shù)字化是一項(xiàng)多學(xué)科交叉的研究課題，主要牽涉到文獻(xiàn)學(xué)和計(jì)算機(jī)科學(xué)。古籍的表層數(shù)字化更多的依賴計(jì)算機(jī)技術(shù)，像OCR識(shí)別、大字符集的研制等都是通過技術(shù)創(chuàng)新來推動(dòng)古籍?dāng)?shù)字化的發(fā)展。而古籍的深層數(shù)字化則是建立在對古籍內(nèi)容本身有著較為深入理解的基礎(chǔ)之上，對于研究者在文獻(xiàn)學(xué)、語言學(xué)、版本學(xué)等方面的知識(shí)素養(yǎng)有更高的要求，“應(yīng)該有樸學(xué)的根底、科學(xué)的精神、數(shù)字化的研究手段?！薄?〕③在古籍?dāng)?shù)字化的主要研究內(nèi)容中，有些內(nèi)容是與現(xiàn)代中文信息處理所共有的，有些內(nèi)容是古籍信息處理時(shí)所特有的。古籍表層數(shù)字化研究中的大部分內(nèi)容是與現(xiàn)代中文信息處理所共有的，而深層數(shù)字化研究中的大部分內(nèi)容是利用計(jì)算機(jī)處理古籍文獻(xiàn)時(shí)所特有的。

2 中文古籍?dāng)?shù)字化的發(fā)展趨勢

古籍?dāng)?shù)字化研究在我國已有三十多年的歷史，發(fā)展到今天，產(chǎn)生了大量成果，并且表現(xiàn)出由表層數(shù)字化向深層數(shù)字化發(fā)展的趨勢，〔7〕具體表現(xiàn)在:

2．1 統(tǒng)一標(biāo)準(zhǔn)

為了減少重復(fù)開發(fā)、實(shí)現(xiàn)資源共享，一些資源豐富的研究單位制訂了古籍文獻(xiàn)存儲(chǔ)、標(biāo)識(shí)和傳輸?shù)慕y(tǒng)一標(biāo)準(zhǔn)，并且逐漸得到認(rèn)可和推廣。例如:北京大學(xué)古籍?dāng)?shù)字圖書館制訂了古籍元數(shù)據(jù)著錄規(guī)范和標(biāo)準(zhǔn)框架，針對在我國廣泛應(yīng)用的數(shù)字對象分別建立了相應(yīng)的數(shù)字規(guī)范，編制了各個(gè)專門元數(shù)據(jù)的應(yīng)用指南、元數(shù)據(jù)定義信息、應(yīng)用協(xié)議和轉(zhuǎn)換工具的等級(jí)機(jī)制，目的就是要解決對物理實(shí)體古籍和數(shù)字化古籍的著錄和描述問題?！?〕

2．2 重視網(wǎng)絡(luò)技術(shù)的研究與應(yīng)用

為了使古籍文獻(xiàn)的檢索和傳輸更加方便快捷，古籍?dāng)?shù)字化研究者重視當(dāng)代網(wǎng)絡(luò)技術(shù)的研究與應(yīng)用。例如:萬維網(wǎng)聯(lián)盟定義的可擴(kuò)展標(biāo)記語言近年來被廣泛應(yīng)用于古籍?dāng)?shù)字化工作中。山川等人應(yīng)用XML和XML Schema語言來描述古籍元數(shù)據(jù)，利用XML提出了一套完整的著錄古籍元數(shù)據(jù)的方案?！?〕吳琴霞等人采用XML+XML Schema對甲骨文語料庫進(jìn)行結(jié)構(gòu)化標(biāo)注，使不同類型的數(shù)據(jù)表示成統(tǒng)一的格式，方便了數(shù)據(jù)的交換和共享。他們在甲骨文領(lǐng)域?qū)＜业膸椭聦σ延械募坠俏恼Z料庫進(jìn)行標(biāo)注，標(biāo)注時(shí)抽取出對甲骨文考釋有幫助的信息，把這些信息作為XML文檔的詞匯集，詞匯之間的關(guān)系通過建立XML Schema來確定，然后根據(jù)定義好的 XML Schema使用 XML對甲骨文語料庫進(jìn)行標(biāo)注。〔10〕

2．3 引入統(tǒng)計(jì)模型和計(jì)算機(jī)語言學(xué)方法

古籍?dāng)?shù)字化研究中引入了統(tǒng)計(jì)模型和計(jì)算語言學(xué)方法，對古籍內(nèi)容進(jìn)行深入分析，研究古籍文獻(xiàn)的自動(dòng)分詞、自動(dòng)斷句和版本?？钡确椒ā＠?石民等人研究使用CRF模型對《左傳》進(jìn)行自動(dòng)分詞、詞性標(biāo)注、分詞及標(biāo)注一體化的方法?！?1〕于麗麗等人使用CRF模型，利用復(fù)合特征模板和增加語言學(xué)特征的模板，在古漢語語料上進(jìn)行詞義消歧實(shí)驗(yàn)。〔12〕段磊等人以《史記》全文語料為例，分別應(yīng)用基于頻率、互信息、假設(shè)檢驗(yàn)的統(tǒng)計(jì)方法獲取古漢語雙字詞，并結(jié)合人工標(biāo)注結(jié)果進(jìn)行評(píng)測，為古漢語雙字詞自動(dòng)獲取提供了相應(yīng)的解決方案?！?3〕

2．4 重視相關(guān)古籍之間的關(guān)系

研究者重視相關(guān)古籍之間的關(guān)聯(lián)，在研究某一古籍時(shí)，同時(shí)分析多部相關(guān)文獻(xiàn)，通過相互佐證，得到驗(yàn)證某一觀點(diǎn)的豐富材料。例如:在古代有很多對經(jīng)典古籍做注解的注疏文獻(xiàn)，這些注疏文獻(xiàn)中蘊(yùn)含著古代的語言、文化和歷史等方面的豐富知識(shí)。在研究某一經(jīng)典古籍時(shí)，通過分析它的注疏文獻(xiàn)可以得到大量有用信息。馬創(chuàng)新等人把《論語》的注疏文獻(xiàn)中蘊(yùn)含的信息作為研究《論語》原典的依據(jù)和資源，研究了構(gòu)建《論語》與其注疏文獻(xiàn)對齊語料庫的基本方法?！?4〕

2．5 探索基于本體語義的建庫方案

(5)研究者開始探索基于本體語義的古籍知識(shí)庫建設(shè)方案。例如:羅晨光等人在古籍描述元數(shù)據(jù)著錄規(guī)則的基礎(chǔ)上，結(jié)合本體理論，將古籍元數(shù)據(jù)映射為一個(gè)基于本體的知識(shí)庫，并且使用OWL語言實(shí)現(xiàn)了這個(gè)知識(shí)庫的結(jié)構(gòu)框架?！?5〕谷建軍分析了適合中醫(yī)古籍?dāng)?shù)據(jù)庫的本體表示語言和編輯工具，建立了一個(gè)以“病癥”概念為核心的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體模型。〔16〕

1．毛建軍．古籍?dāng)?shù)字化理論與實(shí)踐．北京:航空工業(yè)出版社，2009:8

2．王立清．中文古籍?dāng)?shù)字化研究．北京:國家圖書館出版社，2011:25

3．徐清，石向?qū)崳跷ǎ偶當(dāng)?shù)字化資源的深度開發(fā)．圖書情報(bào)工作，2007(3):95 －97，79

4．胡佳佳．《說文解字》語料庫的XML標(biāo)注設(shè)計(jì)．社會(huì)科學(xué)論壇，2011(7):214－223

5．戴維民．語義網(wǎng)信息組織技術(shù)與方法．上海:學(xué)林出版社，2008:13

6．尉遲治平．漢語信息處理和計(jì)算機(jī)輔助漢語史研究．語言研究，2004(3):7－10

7．馬創(chuàng)新，陳小荷．基于XML的《論語》與其注疏文獻(xiàn)對齊語料庫的知識(shí)表示．圖書情報(bào)知識(shí)，2013(1):107－113

8．姚伯岳等．古籍元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)及其系統(tǒng)實(shí)現(xiàn)．大學(xué)圖書館學(xué)報(bào)，2003(1):17－21

9．山川，羅晨光．XML著錄古籍元數(shù)據(jù)初探．圖書館工作與研究，2007(6):53－56

10．吳琴霞，劉永革．基于XML/Schema甲骨文語料庫語料標(biāo)注的研究．科學(xué)技術(shù)與工程，2009(17):5185－5188

11．石民，李斌，陳小荷．基于CRF的先秦漢語分詞標(biāo)注一體化研究．中文信息學(xué)報(bào)，2010(2):39－45

12．于麗麗等．基于條件隨機(jī)場的古漢語詞義消歧研究．微電子學(xué)與計(jì)算機(jī)，2009(10):45－48

13．段磊，韓芳，宋繼華．古漢語雙字詞自動(dòng)獲取方法的比較與分析．中文信息學(xué)報(bào)，2012(4):34－42

14．馬創(chuàng)新等．《論語》與其注疏文獻(xiàn)對齊語料庫的構(gòu)建．現(xiàn)代教育技術(shù)，2012(7):109－113

15．羅晨光，山川，王珊．基于本體的古籍知識(shí)庫建設(shè)初探．現(xiàn)代圖書情報(bào)技術(shù)，2007(4):8－11

16．谷建軍．基于敘詞表的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體建模方法研究．中國中醫(yī)科學(xué)院博士論文，2006