亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文古籍?dāng)?shù)字化的開發(fā)層次和發(fā)展趨勢?

        2014-12-25 02:15:38馬創(chuàng)新曲維光陳小荷
        圖書館 2014年2期
        關(guān)鍵詞:內(nèi)容研究

        馬創(chuàng)新 曲維光 陳小荷

        (1.南京師范大學(xué)文學(xué)院 江蘇南京 210097;2.南京師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇南京 210097)

        1 中文古籍?dāng)?shù)字化的開發(fā)層次

        中文古籍?dāng)?shù)字化是指利用現(xiàn)代信息技術(shù)對中文古籍進(jìn)行加工處理,使其轉(zhuǎn)化為電子數(shù)據(jù)形式保存和傳播,它是中文古籍再生性保護(hù)的重要手段,是古籍整理工作的一部分。古籍?dāng)?shù)字化的研究和開發(fā)層次涉及傳統(tǒng)古籍的加工處理深度,毛建軍認(rèn)為古籍?dāng)?shù)字化開發(fā)分為五個(gè)層次:編制古籍電子索引、建立古籍書目數(shù)據(jù)庫、古籍原文圖像復(fù)制、匯編古籍電子叢書、古籍標(biāo)點(diǎn)今譯與普及等?!?〕王立清認(rèn)為,按照古籍?dāng)?shù)字化處理深度的不同,其開發(fā)層次可以包括古籍書目的數(shù)字化、古籍載體的數(shù)字化、古籍圖文的數(shù)字化、古籍知識(shí)及關(guān)聯(lián)的數(shù)字化?!?〕徐清等人認(rèn)為古籍?dāng)?shù)字資源的深度開發(fā)至少包括三個(gè)方面內(nèi)容:提供基于超文本的立體閱讀環(huán)境、建立強(qiáng)大的智能化檢索系統(tǒng)、提供科學(xué)、準(zhǔn)確的統(tǒng)計(jì)數(shù)據(jù)和信息分析?!?〕

        表1 中文古籍?dāng)?shù)字化的開發(fā)層次及其主要內(nèi)容

        我們根據(jù)數(shù)字化加工的深度對古籍?dāng)?shù)字化進(jìn)行層次劃分,在表1中列出了古籍?dāng)?shù)字化的層次及其主要內(nèi)容,其中第一層解決了古籍的錄入和數(shù)字化存儲(chǔ)問題;第二層基本上解決了古籍的網(wǎng)絡(luò)傳播和信息檢索問題;第三層是古籍書目基本信息的標(biāo)注問題、古籍內(nèi)容的淺層標(biāo)注與系聯(lián)問題;第四層是古籍內(nèi)容的深層語義標(biāo)注和知識(shí)檢索方法。第一、二層的內(nèi)容屬于“表層數(shù)字化”,第三、四層的內(nèi)容屬于“深層數(shù)字化”。當(dāng)然這種層次劃分是相對的,實(shí)際上并沒有區(qū)分層次深淺的絕對標(biāo)準(zhǔn)。

        1.1 表層數(shù)字化

        在古籍?dāng)?shù)字化的初期,主要任務(wù)是解決如何把幾千年來一直保存在竹簡、木牘、紙張等實(shí)物介質(zhì)上的古籍內(nèi)容以數(shù)字形式存入計(jì)算機(jī)中的問題。古籍善本的圖像掃描錄入是對存儲(chǔ)在實(shí)物介質(zhì)上的古籍分頁做光學(xué)掃描,每頁內(nèi)容作為一個(gè)圖片存儲(chǔ),該方法能在短時(shí)間內(nèi)將大量古籍轉(zhuǎn)儲(chǔ)在計(jì)算機(jī)中,但是以圖片形式存儲(chǔ)不便于古籍內(nèi)容的檢索。OCR識(shí)別通過對圖片進(jìn)行分割、對圖像輪廓進(jìn)行識(shí)別匹配,能夠辨析出圖像中的文字,把圖片中的古籍內(nèi)容轉(zhuǎn)化成字符序列。經(jīng)過OCR識(shí)別并且按字符建立索引之后,對古籍內(nèi)容的檢索將會(huì)變得高效便捷,但是當(dāng)今的OCR識(shí)別技術(shù)還有待提高,各種OCR識(shí)別技術(shù)的準(zhǔn)確率和召回率都無法達(dá)到百分之百,需要在機(jī)器識(shí)別之后再做人工校對。

        漢字從產(chǎn)生到今天已經(jīng)有幾千年,在這漫長的歷史時(shí)期中,產(chǎn)生了大量漢字字形,《康熙大字典》收錄的漢字就有47035個(gè),實(shí)際使用的漢字還要更多一些。然而,當(dāng)前計(jì)算機(jī)中常用的字符集如GB2312、Big5、GBK等都沒有收錄這么多漢字。并且由于使用漢字記錄的古籍文獻(xiàn)浩如煙海,在這些文獻(xiàn)中存著大量停用字和異體字,有些漢字字形使用的頻率極低,所以這個(gè)問題不能僅靠擴(kuò)大字符集的規(guī)模來解決,必須研究字符集之外文字的存儲(chǔ)方法。

        在研究古籍文獻(xiàn)錄入與存儲(chǔ)方法的同時(shí),還要研究如何便捷地閱讀和檢索文獻(xiàn)內(nèi)容,在當(dāng)今互聯(lián)網(wǎng)時(shí)代,古籍文獻(xiàn)閱讀檢索的單機(jī)版形式顯然無法滿足研究者的需要,必須要實(shí)現(xiàn)古籍全文的互聯(lián)網(wǎng)發(fā)布和基于網(wǎng)絡(luò)的全文檢索。

        1.2 深層數(shù)字化

        古籍的表層數(shù)字化主要解決古籍的數(shù)字化存儲(chǔ)、網(wǎng)絡(luò)傳播和全文檢索的問題,而深層數(shù)字化深入到“內(nèi)容和意義”層面研究古籍文獻(xiàn),包括研究古籍著錄和描述的元數(shù)據(jù)標(biāo)準(zhǔn)、古籍內(nèi)部知識(shí)元的標(biāo)注問題、知識(shí)元之間的聯(lián)系方法、以及古籍之間的聯(lián)系方法。

        元語言,“就是描述語言的語言,它通過定義一套描述文檔結(jié)構(gòu)與含義的語法標(biāo)記,使人或計(jì)算機(jī)能夠利用這些標(biāo)記快速準(zhǔn)確地找到并理解文檔中包含的特定語義信息”〔4〕。通過制定通用的古籍著錄和描述的元數(shù)據(jù)標(biāo)準(zhǔn),并且使用該標(biāo)準(zhǔn)對古籍進(jìn)行描述,能夠使計(jì)算機(jī)快速準(zhǔn)確地找到目標(biāo)古籍。由于元數(shù)據(jù)標(biāo)準(zhǔn)(如DC元數(shù)據(jù)、MARC元數(shù)據(jù)等)能夠?qū)偶幕緝?nèi)容特征做具體的描述,所以描述古籍基本內(nèi)容特征的“元數(shù)據(jù)信息庫”要比單純的“書目索引庫”應(yīng)用價(jià)值大得多。表層數(shù)字化研究中的全文檢索僅能夠通過簡單的字符串匹配技術(shù)查找到指定的字符或者字符串,無法滿足研究者多層面的檢索需求,通過制訂系統(tǒng)的元數(shù)據(jù)標(biāo)記,對古籍內(nèi)容進(jìn)行標(biāo)注,如標(biāo)注出古籍中的命名實(shí)體或者某類特定信息,能夠滿足研究者較高層次的檢索需求。經(jīng)過元數(shù)據(jù)標(biāo)注后,接下來可以繼續(xù)研究如何在古籍之間、章節(jié)之間、內(nèi)部知識(shí)元之間自動(dòng)地設(shè)置錨點(diǎn)和鏈接,構(gòu)造超文本的立體閱讀環(huán)境。

        “本體是關(guān)于領(lǐng)域知識(shí)的概念化、形式化的明確規(guī)范?!薄?〕本體通過概念描述揭示領(lǐng)域知識(shí),古籍領(lǐng)域本體能夠展示古籍中豐富的語義關(guān)系,并且可以保證語義的一致性。各個(gè)學(xué)科領(lǐng)域的專家能夠構(gòu)建適用于特定領(lǐng)域的規(guī)模較小的本體,如:古籍著錄與描述本體、訓(xùn)詁學(xué)本體、音韻學(xué)本體、文字學(xué)本體等等。古籍?dāng)?shù)字化研究專家能夠使用本體集成技術(shù)將所需要的多個(gè)領(lǐng)域本體集成在一起,構(gòu)成一個(gè)規(guī)模較大的應(yīng)用于古籍?dāng)?shù)字化領(lǐng)域的專業(yè)本體。

        古籍知識(shí)網(wǎng)絡(luò)建設(shè)就是利用計(jì)算機(jī)技術(shù)、信息技術(shù)等新興技術(shù)手段,對蘊(yùn)含在古籍中的知識(shí)進(jìn)行多元的組合,在多部古籍的內(nèi)部知識(shí)元之間建立起聯(lián)系,把多個(gè)一維的線性序列轉(zhuǎn)化為一個(gè)多維的知識(shí)網(wǎng)絡(luò),使多部古籍成為一個(gè)結(jié)構(gòu)化的知識(shí)集合。在古籍領(lǐng)域本體和知識(shí)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)的檢索系統(tǒng)能夠?qū)崿F(xiàn)智能的知識(shí)檢索。

        1.3 表層數(shù)字化與深層數(shù)字化之間的主要區(qū)別

        中文古籍的表層數(shù)字化與深層數(shù)字化之間有以下區(qū)別:①古籍的表層數(shù)字化研究起步較早,至今已取得豐碩成果,一些疑難問題基本上得到解決,古籍的深層數(shù)字化研究起步較晚,也取得了一定的成果,很多問題現(xiàn)在正處于攻堅(jiān)階段。②古籍?dāng)?shù)字化是一項(xiàng)多學(xué)科交叉的研究課題,主要牽涉到文獻(xiàn)學(xué)和計(jì)算機(jī)科學(xué)。古籍的表層數(shù)字化更多的依賴計(jì)算機(jī)技術(shù),像OCR識(shí)別、大字符集的研制等都是通過技術(shù)創(chuàng)新來推動(dòng)古籍?dāng)?shù)字化的發(fā)展。而古籍的深層數(shù)字化則是建立在對古籍內(nèi)容本身有著較為深入理解的基礎(chǔ)之上,對于研究者在文獻(xiàn)學(xué)、語言學(xué)、版本學(xué)等方面的知識(shí)素養(yǎng)有更高的要求,“應(yīng)該有樸學(xué)的根底、科學(xué)的精神、數(shù)字化的研究手段?!薄?〕③在古籍?dāng)?shù)字化的主要研究內(nèi)容中,有些內(nèi)容是與現(xiàn)代中文信息處理所共有的,有些內(nèi)容是古籍信息處理時(shí)所特有的。古籍表層數(shù)字化研究中的大部分內(nèi)容是與現(xiàn)代中文信息處理所共有的,而深層數(shù)字化研究中的大部分內(nèi)容是利用計(jì)算機(jī)處理古籍文獻(xiàn)時(shí)所特有的。

        2 中文古籍?dāng)?shù)字化的發(fā)展趨勢

        古籍?dāng)?shù)字化研究在我國已有三十多年的歷史,發(fā)展到今天,產(chǎn)生了大量成果,并且表現(xiàn)出由表層數(shù)字化向深層數(shù)字化發(fā)展的趨勢,〔7〕具體表現(xiàn)在:

        2.1 統(tǒng)一標(biāo)準(zhǔn)

        為了減少重復(fù)開發(fā)、實(shí)現(xiàn)資源共享,一些資源豐富的研究單位制訂了古籍文獻(xiàn)存儲(chǔ)、標(biāo)識(shí)和傳輸?shù)慕y(tǒng)一標(biāo)準(zhǔn),并且逐漸得到認(rèn)可和推廣。例如:北京大學(xué)古籍?dāng)?shù)字圖書館制訂了古籍元數(shù)據(jù)著錄規(guī)范和標(biāo)準(zhǔn)框架,針對在我國廣泛應(yīng)用的數(shù)字對象分別建立了相應(yīng)的數(shù)字規(guī)范,編制了各個(gè)專門元數(shù)據(jù)的應(yīng)用指南、元數(shù)據(jù)定義信息、應(yīng)用協(xié)議和轉(zhuǎn)換工具的等級(jí)機(jī)制,目的就是要解決對物理實(shí)體古籍和數(shù)字化古籍的著錄和描述問題?!?〕

        2.2 重視網(wǎng)絡(luò)技術(shù)的研究與應(yīng)用

        為了使古籍文獻(xiàn)的檢索和傳輸更加方便快捷,古籍?dāng)?shù)字化研究者重視當(dāng)代網(wǎng)絡(luò)技術(shù)的研究與應(yīng)用。例如:萬維網(wǎng)聯(lián)盟定義的可擴(kuò)展標(biāo)記語言近年來被廣泛應(yīng)用于古籍?dāng)?shù)字化工作中。山川等人應(yīng)用XML和XML Schema語言來描述古籍元數(shù)據(jù),利用XML提出了一套完整的著錄古籍元數(shù)據(jù)的方案?!?〕吳琴霞等人采用XML+XML Schema對甲骨文語料庫進(jìn)行結(jié)構(gòu)化標(biāo)注,使不同類型的數(shù)據(jù)表示成統(tǒng)一的格式,方便了數(shù)據(jù)的交換和共享。他們在甲骨文領(lǐng)域?qū)<业膸椭聦σ延械募坠俏恼Z料庫進(jìn)行標(biāo)注,標(biāo)注時(shí)抽取出對甲骨文考釋有幫助的信息,把這些信息作為XML文檔的詞匯集,詞匯之間的關(guān)系通過建立XML Schema來確定,然后根據(jù)定義好的 XML Schema使用 XML對甲骨文語料庫進(jìn)行標(biāo)注。〔10〕

        2.3 引入統(tǒng)計(jì)模型和計(jì)算機(jī)語言學(xué)方法

        古籍?dāng)?shù)字化研究中引入了統(tǒng)計(jì)模型和計(jì)算語言學(xué)方法,對古籍內(nèi)容進(jìn)行深入分析,研究古籍文獻(xiàn)的自動(dòng)分詞、自動(dòng)斷句和版本??钡确椒ā@?石民等人研究使用CRF模型對《左傳》進(jìn)行自動(dòng)分詞、詞性標(biāo)注、分詞及標(biāo)注一體化的方法?!?1〕于麗麗等人使用CRF模型,利用復(fù)合特征模板和增加語言學(xué)特征的模板,在古漢語語料上進(jìn)行詞義消歧實(shí)驗(yàn)。〔12〕段磊等人以《史記》全文語料為例,分別應(yīng)用基于頻率、互信息、假設(shè)檢驗(yàn)的統(tǒng)計(jì)方法獲取古漢語雙字詞,并結(jié)合人工標(biāo)注結(jié)果進(jìn)行評(píng)測,為古漢語雙字詞自動(dòng)獲取提供了相應(yīng)的解決方案?!?3〕

        2.4 重視相關(guān)古籍之間的關(guān)系

        研究者重視相關(guān)古籍之間的關(guān)聯(lián),在研究某一古籍時(shí),同時(shí)分析多部相關(guān)文獻(xiàn),通過相互佐證,得到驗(yàn)證某一觀點(diǎn)的豐富材料。例如:在古代有很多對經(jīng)典古籍做注解的注疏文獻(xiàn),這些注疏文獻(xiàn)中蘊(yùn)含著古代的語言、文化和歷史等方面的豐富知識(shí)。在研究某一經(jīng)典古籍時(shí),通過分析它的注疏文獻(xiàn)可以得到大量有用信息。馬創(chuàng)新等人把《論語》的注疏文獻(xiàn)中蘊(yùn)含的信息作為研究《論語》原典的依據(jù)和資源,研究了構(gòu)建《論語》與其注疏文獻(xiàn)對齊語料庫的基本方法?!?4〕

        2.5 探索基于本體語義的建庫方案

        (5)研究者開始探索基于本體語義的古籍知識(shí)庫建設(shè)方案。例如:羅晨光等人在古籍描述元數(shù)據(jù)著錄規(guī)則的基礎(chǔ)上,結(jié)合本體理論,將古籍元數(shù)據(jù)映射為一個(gè)基于本體的知識(shí)庫,并且使用OWL語言實(shí)現(xiàn)了這個(gè)知識(shí)庫的結(jié)構(gòu)框架?!?5〕谷建軍分析了適合中醫(yī)古籍?dāng)?shù)據(jù)庫的本體表示語言和編輯工具,建立了一個(gè)以“病癥”概念為核心的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體模型。〔16〕

        1.毛建軍.古籍?dāng)?shù)字化理論與實(shí)踐.北京:航空工業(yè)出版社,2009:8

        2.王立清.中文古籍?dāng)?shù)字化研究.北京:國家圖書館出版社,2011:25

        3.徐清,石向?qū)崳跷ǎ偶當(dāng)?shù)字化資源的深度開發(fā).圖書情報(bào)工作,2007(3):95 -97,79

        4.胡佳佳.《說文解字》語料庫的XML標(biāo)注設(shè)計(jì).社會(huì)科學(xué)論壇,2011(7):214-223

        5.戴維民.語義網(wǎng)信息組織技術(shù)與方法.上海:學(xué)林出版社,2008:13

        6.尉遲治平.漢語信息處理和計(jì)算機(jī)輔助漢語史研究.語言研究,2004(3):7-10

        7.馬創(chuàng)新,陳小荷.基于XML的《論語》與其注疏文獻(xiàn)對齊語料庫的知識(shí)表示.圖書情報(bào)知識(shí),2013(1):107-113

        8.姚伯岳等.古籍元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)及其系統(tǒng)實(shí)現(xiàn).大學(xué)圖書館學(xué)報(bào),2003(1):17-21

        9.山川,羅晨光.XML著錄古籍元數(shù)據(jù)初探.圖書館工作與研究,2007(6):53-56

        10.吳琴霞,劉永革.基于XML/Schema甲骨文語料庫語料標(biāo)注的研究.科學(xué)技術(shù)與工程,2009(17):5185-5188

        11.石民,李斌,陳小荷.基于CRF的先秦漢語分詞標(biāo)注一體化研究.中文信息學(xué)報(bào),2010(2):39-45

        12.于麗麗等.基于條件隨機(jī)場的古漢語詞義消歧研究.微電子學(xué)與計(jì)算機(jī),2009(10):45-48

        13.段磊,韓芳,宋繼華.古漢語雙字詞自動(dòng)獲取方法的比較與分析.中文信息學(xué)報(bào),2012(4):34-42

        14.馬創(chuàng)新等.《論語》與其注疏文獻(xiàn)對齊語料庫的構(gòu)建.現(xiàn)代教育技術(shù),2012(7):109-113

        15.羅晨光,山川,王珊.基于本體的古籍知識(shí)庫建設(shè)初探.現(xiàn)代圖書情報(bào)技術(shù),2007(4):8-11

        16.谷建軍.基于敘詞表的中醫(yī)古籍文獻(xiàn)領(lǐng)域本體建模方法研究.中國中醫(yī)科學(xué)院博士論文,2006

        猜你喜歡
        內(nèi)容研究
        內(nèi)容回顧溫故知新
        FMS與YBT相關(guān)性的實(shí)證研究
        內(nèi)容回顧 溫故知新
        內(nèi)容回顧溫故知新
        2020年國內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        天码人妻一区二区三区| 精品日韩在线观看视频| 久久国产av在线观看| 国产精品不卡在线视频| 最新中文字幕亚洲一区| 亚洲桃色视频在线观看一区| 久久aaaa片一区二区| 中文字幕日韩三级片| 无码任你躁久久久久久久| 日日噜噜噜夜夜爽爽狠狠| 国产人妻黑人一区二区三区| 国品精品一区二区在线观看| 婷婷一区二区三区在线| 精品日本韩国一区二区三区| 日本一区二区三区激视频| 久久久中文字幕日韩精品| 久久人人爽av亚洲精品| 亚洲国产精品va在线看黑人| 国产AV边打电话边出轨| 99riav精品国产| 国产精品黄色在线观看| 国产日产桃色精品久久久| 久久亚洲精品国产亚洲老地址| 国产精品自在线拍国产| 亚洲日韩乱码中文无码蜜桃臀 | 日韩精品成人无码专区免费| 男女裸交无遮挡啪啪激情试看| 中日韩欧美在线观看| 性无码国产一区在线观看| 人妻av中文字幕精品久久| 友田真希中文字幕亚洲| 搡老熟女中国老太| 亚洲精品中文字幕观看| 久久综合五月天啪网亚洲精品| 亚洲一区二区三区影院| 国产真实强被迫伦姧女在线观看 | 亚洲日本精品国产一区二区三区| 天堂中文а√在线| 中文字幕人妻偷伦在线视频| 日本一区二区三本视频在线观看 | 久久国产精品一区二区|