亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        古籍?dāng)?shù)據(jù)庫(kù)化工作淺談

        2012-04-18 02:11:54孫顯斌
        圖書(shū)館理論與實(shí)踐 2012年8期
        關(guān)鍵詞:書(shū)目著錄古籍

        ●孫顯斌,李 偉

        (1.中國(guó)科學(xué)院 自然科學(xué)史研究所圖書(shū)館,北京 100190;2.國(guó)家圖書(shū)館 外文采編部,北京 100081)

        古籍?dāng)?shù)字化是近年來(lái)的學(xué)術(shù)熱點(diǎn)之一,同時(shí)它逐漸發(fā)展成為古典研究的重要新方法之一。近代學(xué)者陳寅恪、傅斯年等早已指出學(xué)術(shù)研究的創(chuàng)新和進(jìn)步不外乎新材料、新問(wèn)題和新方法三個(gè)方面,因此古籍?dāng)?shù)字化作為新方法將為古典研究的發(fā)展開(kāi)辟?gòu)V闊的空間。

        1 古籍?dāng)?shù)字化的層次及“本體化”的必要性

        古籍?dāng)?shù)字化可分為三個(gè)層次,即古籍圖像化、古籍全文化和古籍?dāng)?shù)據(jù)庫(kù)化。古籍圖像化是比較簡(jiǎn)單的數(shù)字化手段,它的優(yōu)缺點(diǎn)都很明顯,優(yōu)點(diǎn)是使古籍材料能夠更方便的共享,并且在共享中能夠最大程度的保持文獻(xiàn)的原貌及非文字符號(hào)信息,但缺點(diǎn)是它和傳統(tǒng)紙質(zhì)文獻(xiàn)相比,在研究手段上并沒(méi)有任何新意。古籍全文化則將研究手段向前推進(jìn)了一步,它的優(yōu)越之處在于可以進(jìn)行全文檢索,這極大地方便了古典研究者。可以想象在龐大的古籍全文庫(kù)中進(jìn)行檢索,得到的結(jié)果是多么令人興奮:在沒(méi)有全文數(shù)據(jù)庫(kù)的情況下,這些工作往往需要成年累月的不斷查找、記錄和整理,費(fèi)時(shí)費(fèi)力,且還可能遺漏。絕大多數(shù)研究者對(duì)此已經(jīng)心滿(mǎn)意足了,或者認(rèn)為到此為止電腦已經(jīng)完成了它的任務(wù),所以大家的目標(biāo)全都鎖定在得到新的古籍文本這種“新材料”上面?,F(xiàn)階段隨著漢字識(shí)別和縱向校對(duì)技術(shù)的成熟,[1]全文化的電子古籍已經(jīng)可以像流水線一樣的生產(chǎn)了,差別只是數(shù)量、速度和質(zhì)量的區(qū)別而已。全文化的古籍與圖像化的古籍相比也有它的缺點(diǎn),就是不能保證古籍文本的絕對(duì)準(zhǔn)確,但是其質(zhì)量可以在使用中不斷的提高并趨于完善。

        全文檢索雖然有其優(yōu)勢(shì),但缺點(diǎn)也很明顯,即檢索失誤是不可避免的,這是因?yàn)樵斐蓹z索失誤的原因是多方面的,其中文本質(zhì)量只是一部份原因,還存在漢字的別體、語(yǔ)義的切分及別稱(chēng)等問(wèn)題,這些都會(huì)導(dǎo)致漏檢或多檢。[2]所謂的全文檢索,實(shí)際上只是在全文中對(duì)于某些目標(biāo)文本進(jìn)行檢索,檢索結(jié)果中的文本是否都指向同一個(gè)語(yǔ)義,亦或指向同一語(yǔ)義的文本是否都包含在檢索結(jié)果中,這兩個(gè)方面都得不到保證。舉一例,比如我們想從文本中檢索“李白”這個(gè)人物,古人一般稱(chēng)他為“李太白”“太白”“青蓮居士”“詩(shī)仙”等等,我們當(dāng)然不能保證僅用一個(gè)目標(biāo)文本如“太白”進(jìn)行檢索,其結(jié)果可以完全囊括文本中出現(xiàn)“李白”這個(gè)人物的地方。這其中一個(gè)重要的原因就是同語(yǔ)義的別稱(chēng)問(wèn)題,實(shí)際上我們也很難枚舉出可能表示人物“李白”的所有目標(biāo)文本。另一方面,還有不同語(yǔ)義的同稱(chēng)問(wèn)題,比如“太白”,不只可以表示人物“李白”,常用的語(yǔ)義就還有太白金星和太白山。另外,還會(huì)有其他同名的人物,比如《資治通鑒》第一百零五卷就記載南北朝時(shí)期一個(gè)將軍名為“李白”。再者,古書(shū)上常有“桃紅李白”之語(yǔ),這里“李白”是一個(gè)主謂短語(yǔ),表示“李樹(shù)花白”的語(yǔ)義,以上這些情況都會(huì)對(duì)人物“李白”的檢索造成干擾。還有語(yǔ)義切分的問(wèn)題,比如杜甫字“子美”,但在“此天子美諸侯之辭”的句子里,“子美”并不是一個(gè)詞。除此之外,導(dǎo)致多檢和漏檢的重要原因是漢字的別體,也就是古今字、通假字、異體字以及新舊字形等問(wèn)題,這里只說(shuō)一下并沒(méi)有引起足夠重視的新舊字形問(wèn)題,比如“戶(hù)”在電腦中就有三個(gè)字形“戶(hù)戸戶(hù)”,電腦把它們當(dāng)作三個(gè)不同的字,所以說(shuō)全文檢索漏檢和多檢在所難免。

        要解決以上問(wèn)題最重要的方法是實(shí)現(xiàn)文本語(yǔ)義的“本體化”,通俗的說(shuō),“本體”就是一個(gè)語(yǔ)義所指,[3]在上面的例子中,詩(shī)人“李白”就是一個(gè)人物本體,“李太白”“青蓮居士”等等都是“李白”這個(gè)人物本體的別稱(chēng)而已。中華書(shū)局有一套分史的《二十四史人名索引》,它把二十四史中出現(xiàn)人物的地方都做了標(biāo)引,在常用名后面還附注了別名、字、號(hào)、謚號(hào)等,使所有人物出現(xiàn)的文本位置都列在該人物主條目下,這實(shí)際上就是簡(jiǎn)單的人物“本體化”,對(duì)于查找某個(gè)人物在二十四史里的相關(guān)記載,其索引結(jié)果詳盡實(shí)用。而“本體化”要求我們推進(jìn)古籍?dāng)?shù)據(jù)庫(kù)化。近年來(lái)古籍?dāng)?shù)字化的實(shí)踐主要集中在前兩個(gè)層次內(nèi),這實(shí)際上只是方便古籍材料的獲得和檢索而已,并沒(méi)有在古典研究的方法上有所突破。我們認(rèn)為要加強(qiáng)古典研究,就必須將古籍?dāng)?shù)字化向古籍?dāng)?shù)據(jù)庫(kù)化的層次推進(jìn)。

        2 古籍?dāng)?shù)據(jù)庫(kù)化是實(shí)現(xiàn)“本體化”的現(xiàn)實(shí)技術(shù)方式

        筆者有幸參加了北京大學(xué)數(shù)據(jù)分析研究中心的兩個(gè)古籍?dāng)?shù)據(jù)庫(kù)化的項(xiàng)目,分別是與國(guó)家圖書(shū)館合作的“中國(guó)歷代典籍總目系統(tǒng)”以及同中華書(shū)局合作的“《資治通鑒》分析系統(tǒng)”,在具體的工程實(shí)踐中積聚了一點(diǎn)粗淺的想法,在這里簡(jiǎn)單的談一下,還請(qǐng)各界專(zhuān)家不吝賜教。上面提到的兩個(gè)系統(tǒng)正好分別代表了古籍?dāng)?shù)據(jù)庫(kù)化的兩大類(lèi)型,其中“《資治通鑒》分析系統(tǒng)”屬于古籍文本型數(shù)據(jù)庫(kù),它的基本數(shù)據(jù)為古籍文本內(nèi)容,而“歷代典籍總目系統(tǒng)”則是古籍信息型數(shù)據(jù)庫(kù),它的基本數(shù)據(jù)為描述古籍的信息。

        首先繼續(xù)上面的話(huà)題具體談一下什么是“本體”,上文已經(jīng)指出其實(shí)“本體”就是同一語(yǔ)義所指,實(shí)際上它是一種關(guān)系結(jié)構(gòu),在工程實(shí)踐中可以用數(shù)據(jù)庫(kù)的記錄結(jié)構(gòu)來(lái)表示。為了說(shuō)明方便,我們以《資治通鑒》為例,在對(duì)這一典籍的分析中,專(zhuān)名術(shù)語(yǔ)是我們關(guān)注的重點(diǎn),因?yàn)樗鼈儤?gòu)成了《資治通鑒》知識(shí)系統(tǒng)的主干。這些專(zhuān)名術(shù)語(yǔ)其實(shí)就是各種類(lèi)型的本體,如人物、地理、時(shí)間、機(jī)構(gòu)、民族、職官、名物等等,我們之所以這么劃分,是因?yàn)橥活?lèi)型本體的屬性和關(guān)系結(jié)構(gòu)是基本相同的。拿人物本體來(lái)說(shuō),它包括人名(姓名以及字號(hào)等別名)、籍貫、生卒年、職官履歷、社會(huì)關(guān)系等信息,這些都是一個(gè)人物本體的屬性,并且通過(guò)這些屬性它又同地理本體、時(shí)間本體、職官本體以及其他人物本體建立起關(guān)系,這就是我們所說(shuō)的“本體”的屬性和關(guān)系結(jié)構(gòu)。當(dāng)然普通詞語(yǔ)也是一種詞語(yǔ)本體。

        在數(shù)據(jù)庫(kù)系統(tǒng)中,本體可以用記錄表示,記錄與文本的不同在于它是一條結(jié)構(gòu)化的數(shù)據(jù),這一結(jié)構(gòu)由若干屬性構(gòu)成,并共同組成記錄的內(nèi)容。比如對(duì)于古籍書(shū)目數(shù)據(jù)來(lái)說(shuō),它就可以有以下這樣一個(gè)記錄結(jié)構(gòu):

        書(shū)名 規(guī)范名稱(chēng) 版本類(lèi)型 古籍分類(lèi) 責(zé)任行為1 責(zé)任行為2 ……

        為了說(shuō)明問(wèn)題,這里只是簡(jiǎn)單列舉了部份屬性,可以看出這樣的結(jié)構(gòu)是按照書(shū)目數(shù)據(jù)的特點(diǎn)制定的,這些屬性共同描述一條書(shū)目信息。但實(shí)際上這種記錄結(jié)構(gòu)可能更復(fù)雜,比如這里的版本類(lèi)型就還包括很多屬性,如版本時(shí)代、寫(xiě)印類(lèi)型、裝幀形式、行款等等,關(guān)于書(shū)目的責(zé)任行為也同樣復(fù)雜,包括責(zé)任者、責(zé)任行為,責(zé)任時(shí)間,責(zé)任地點(diǎn)等等,這里的責(zé)任行為可以是編撰、校注、刊印、題跋等等。

        古籍?dāng)?shù)據(jù)庫(kù)化的前提是古籍文本化,在此基礎(chǔ)上才能建立起古籍?dāng)?shù)據(jù)庫(kù)。實(shí)際上,古籍?dāng)?shù)據(jù)庫(kù)化的過(guò)程就是將古籍文本信息語(yǔ)義結(jié)構(gòu)化的過(guò)程,即古籍文本信息的“本體化”過(guò)程,這是古籍?dāng)?shù)據(jù)庫(kù)化的本質(zhì)特征。從工程上講,古籍?dāng)?shù)據(jù)庫(kù)化的工作流程大致可分為三個(gè)階段,即文本的語(yǔ)義切分、文本的結(jié)構(gòu)化以及文本的本體化。首先,我們要根據(jù)文本的特征通過(guò)具體的算法初步完成文本的語(yǔ)義切分,提取結(jié)構(gòu)化的信息記錄,第二步通過(guò)縱向校對(duì)技術(shù)校正這些記錄,第三步完成具有相同語(yǔ)義的信息記錄及其屬性的認(rèn)同,同時(shí)建立起它們的相互關(guān)系,也就完成了本體系統(tǒng),最后還需要為各種本體編制知識(shí)辭典。

        我們拿書(shū)目系統(tǒng)做例子,第一步就是將文本格式了的書(shū)目數(shù)據(jù)用電腦自動(dòng)完成書(shū)目信息的語(yǔ)義切分,也就是把書(shū)目信息自動(dòng)填到類(lèi)似上文舉例的書(shū)目記錄的表格中,初步形成一條條結(jié)構(gòu)化的書(shū)目記錄。接下來(lái),通過(guò)縱向校對(duì)技術(shù)校正先前初步結(jié)構(gòu)化的書(shū)目記錄。如何縱向校對(duì),簡(jiǎn)單的說(shuō)就是將相同的屬性進(jìn)行排列、規(guī)范,自然就可以發(fā)現(xiàn)其中的不規(guī)范和錯(cuò)誤,適時(shí)的校正。比如把版本類(lèi)型的數(shù)據(jù)提取出來(lái)排列,就會(huì)發(fā)現(xiàn)有“鉛印本”或“鉛字本”的著錄,如果我們確定用“鉛印本”為規(guī)范,并將其類(lèi)型置于“印本”的類(lèi)型下面,那么“鉛字本”可以統(tǒng)一規(guī)范為“鉛印本”。最后,還要將表示相同語(yǔ)義的書(shū)目記錄和屬性進(jìn)行認(rèn)同,比如人物認(rèn)同,將“陶淵明”“陶潛”和“五柳居士”等都合并為同一個(gè)人物本體“陶淵明”,這樣我們進(jìn)行檢索和分析涉及“陶淵明”時(shí)就可以得到全面的結(jié)果。書(shū)目記錄的認(rèn)同也一樣,如劉熙《釋名》又稱(chēng)《逸雅》,這樣就需要將實(shí)際上著錄同一種書(shū)的書(shū)目記錄關(guān)聯(lián)在一起,形成一個(gè)古籍品種本體,同樣古籍的版本、印次、復(fù)本都需要類(lèi)似的認(rèn)同合并,最終達(dá)到本體化的目標(biāo)。

        3 “本體化”古籍?dāng)?shù)據(jù)庫(kù)的優(yōu)勢(shì)

        一個(gè)完成“本體化”的古籍?dāng)?shù)據(jù)庫(kù),我們就可以利用它進(jìn)行準(zhǔn)確的檢索和統(tǒng)計(jì),并且還可以在此基礎(chǔ)上分析和揭示其內(nèi)含的學(xué)術(shù)意義。對(duì)于一個(gè)書(shū)目系統(tǒng)來(lái)說(shuō),它可以為學(xué)者提供時(shí)空背景下的著作、出版情況,提供一種典籍的流傳線索等等。當(dāng)然,對(duì)數(shù)據(jù)庫(kù)化的古籍如何進(jìn)行深層次的分析和揭示還屬于理論上需要加強(qiáng)的領(lǐng)域。數(shù)據(jù)庫(kù)化的古籍除了檢索和統(tǒng)計(jì)準(zhǔn)確方便以外,其自身結(jié)構(gòu)方面也具有優(yōu)勢(shì),因?yàn)檫@時(shí)古籍不再只是一個(gè)平面的文本,而是一個(gè)立體的語(yǔ)義網(wǎng)絡(luò),它把文本數(shù)據(jù)通過(guò)語(yǔ)義聯(lián)系組合成縱橫交錯(cuò)的多維結(jié)構(gòu),我們可以從任何一個(gè)維度去觀察瀏覽。比如我們把《資治通鑒》數(shù)據(jù)庫(kù)化以后,我們不僅可以從時(shí)間的維度去看這段歷史,還可以從人物、地理、職官等維度去看這段歷史。對(duì)于書(shū)目系統(tǒng)來(lái)說(shuō),可以從書(shū)目、時(shí)間、地理、人物、版本類(lèi)型、責(zé)任行為等多維度瀏覽,數(shù)據(jù)庫(kù)化的古籍就像一個(gè)萬(wàn)花筒,為我們提供變換的角度和視野。實(shí)際上,每一種瀏覽維度都相當(dāng)于紙質(zhì)文獻(xiàn)的一種索引。另外,從古籍?dāng)?shù)據(jù)庫(kù)化的工程經(jīng)驗(yàn)上來(lái)看,通過(guò)電腦,我們可以達(dá)到人力無(wú)法企及的效率,這正是由于在工程中充分發(fā)揮了電腦的優(yōu)勢(shì)。

        古籍?dāng)?shù)據(jù)庫(kù)化是一項(xiàng)復(fù)雜的學(xué)術(shù)工作,需要人腦去參與,比如在語(yǔ)義切分階段,有些工作并不像看起來(lái)那么容易,例如《販書(shū)偶記》集部楚辭類(lèi)有這樣一個(gè)條目“《屈子貫》五卷,嘉定張?jiān)娮軜I(yè)楊夢(mèng)熊、男吉同編,嘉慶戊午疁城萬(wàn)春堂重刊?!边@里的“男張吉同編”就有很多歧義,既可能是張?jiān)娭澳小保部赡苁菞顗?mèng)熊之“男”;名字既可能是“吉同”,又可能是男吉與楊夢(mèng)熊“同”編,而《中國(guó)古籍善本書(shū)目》此書(shū)沒(méi)有著錄編者,查對(duì)原書(shū)確認(rèn)是張?jiān)娭訌埣c楊夢(mèng)熊同編。另外,在古籍本體化的過(guò)程中,由于類(lèi)似數(shù)據(jù)聚集在一起,就會(huì)比較容易發(fā)現(xiàn)各種著錄的不一致和錯(cuò)誤。例如《叢書(shū)綜錄》中有兩部叢書(shū)都包含了《平安館藏器目》《靈鶼閣叢書(shū)》,著錄為“葉志詵”撰,而《叢書(shū)集成初編》則著錄為“葉志銑”撰?!吨袊?guó)古籍善本書(shū)目》著錄有“葉志詵”編《平安館金石文字》,并有大量典籍著錄“葉志詵”題跋,通過(guò)查詢(xún)其他資料可以確定“銑”是“詵”的形近誤字,但是《中國(guó)古籍善本書(shū)目》本身也有著錄不一致的地方,史部金石類(lèi)(14655)《積古齊鐘鼎彝器款識(shí)十卷》著錄有“葉志銑”校,集部曲類(lèi)(22304)《小忽雷傳奇二卷》也著錄有“葉志銑”跋,這兩處著錄就都應(yīng)該是“葉志詵”。再如在對(duì)剛出版的《中國(guó)古籍總目·叢書(shū)部》進(jìn)行數(shù)據(jù)庫(kù)化的過(guò)程中,我們發(fā)現(xiàn)有些叢書(shū)下面的藏地單位與書(shū)后所附《藏地單位簡(jiǎn)稱(chēng)表》不一致,如“叢10100217欽定古香齋袖珍”下列有藏地“甘大”,可以推知應(yīng)為“甘肅大學(xué)圖書(shū)館”的簡(jiǎn)稱(chēng),但查簡(jiǎn)稱(chēng)表應(yīng)簡(jiǎn)稱(chēng)為“甘肅大學(xué)”。又“叢20300857翠微山房叢書(shū)”下列有藏地“金華”,查簡(jiǎn)稱(chēng)表只有“金華市太平天國(guó)侍王府紀(jì)念館”,其簡(jiǎn)稱(chēng)應(yīng)為“金華侍王府”。又“叢10100176枕中秘”下列有藏地“白求恩醫(yī)大”,查簡(jiǎn)稱(chēng)表沒(méi)有,由于原白求恩醫(yī)科大學(xué)已經(jīng)并入吉林大學(xué),所以此處應(yīng)為“吉林大學(xué)醫(yī)學(xué)部圖書(shū)館”,簡(jiǎn)稱(chēng)“吉大醫(yī)學(xué)部”。又“叢20100617古今說(shuō)部叢書(shū)”下列有藏地“香港新亞”,簡(jiǎn)稱(chēng)表沒(méi)有,這里應(yīng)該是“香港中文大學(xué)新亞書(shū)院錢(qián)穆圖書(shū)館”,簡(jiǎn)稱(chēng)表中有“香港中文大學(xué)圖書(shū)館”簡(jiǎn)稱(chēng)“香港中大”。這里舉例只想說(shuō)明古籍?dāng)?shù)據(jù)庫(kù)化工作是有學(xué)術(shù)含量的,古籍?dāng)?shù)據(jù)庫(kù)在古籍文本信息的基礎(chǔ)上提供了更準(zhǔn)確優(yōu)質(zhì)的數(shù)據(jù)信息。

        當(dāng)然,古籍?dāng)?shù)據(jù)庫(kù)化絕非完美,也難稱(chēng)完善,何況其理論和實(shí)踐還都剛剛起步,需要探究的問(wèn)題很多。從長(zhǎng)遠(yuǎn)來(lái)看,信息技術(shù)領(lǐng)域提出的語(yǔ)義網(wǎng)(Semantic Web)應(yīng)該是古籍?dāng)?shù)字化的愿景,但要最終實(shí)現(xiàn)語(yǔ)義網(wǎng)的設(shè)想,還有很長(zhǎng)的路要走。

        [1]李云城,等.基于OCR的縱向文字校對(duì)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2006(4):234-236.

        [2]李鐸.從檢索到分析[J].文學(xué)遺產(chǎn),2009(1):135-137.

        [3]仲茜,等.語(yǔ)義Web中的本體建立技術(shù)[N].計(jì)算機(jī)世界,2007-11-26(B10).

        猜你喜歡
        書(shū)目著錄古籍
        常用參考文獻(xiàn)著錄要求
        常用參考文獻(xiàn)著錄要求
        推薦書(shū)目《初春之城》
        都市人(2022年3期)2022-04-27 00:44:57
        常用參考文獻(xiàn)著錄要求
        中醫(yī)古籍“疒”部俗字考辨舉隅
        關(guān)于版本學(xué)的問(wèn)答——《古籍善本》修訂重版說(shuō)明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        我是古籍修復(fù)師
        金橋(2017年5期)2017-07-05 08:14:41
        本刊參考文獻(xiàn)著錄要求
        本刊郵購(gòu)書(shū)目
        亚洲国产av午夜福利精品一区| 欧美性大战久久久久久久| 国产精品不卡无毒在线观看| 日韩人妻无码一区二区三区久久99| 加勒比无码专区中文字幕| 精品女同一区二区三区免费播放| 久久久免费看少妇高潮| 护士人妻hd中文字幕| 精品国产亚洲一区二区在线3d| 国产一区二区三区日韩精品| 草逼短视频免费看m3u8| 无码国模国产在线观看| 熟妇无码AV| 69搡老女人老妇女老熟妇| 国产精品人成在线观看不卡| 亚洲精品国产精品乱码在线观看| 三级特黄60分钟在线观看| 国产无码十八禁| 国产精品亚洲二区在线| 一区二区三区美女免费视频 | 曰本女人与公拘交酡免费视频 | 精品人妻一区二区蜜臀av| 日韩中文字幕在线观看一区| 久久亚洲私人国产精品va| 开心婷婷五月激情综合社区| 久久99久久99精品免视看国产成人| 人妻露脸国语对白字幕| 免费av网站大全亚洲一区| 99国产精品无码| 国产无码十八禁| 久久精品国产亚洲av久五月天| 不卡一卡二卡三乱码免费网站| 国产黄色片在线观看| 西西少妇一区二区三区精品| 国产在线视频一区二区天美蜜桃| 大陆极品少妇内射aaaaa| 久久久亚洲精品午夜福利| 一区二区日本免费观看| 波多野结衣不打码视频| 亚洲av乱码中文一区二区三区| 久国产精品久久精品国产四虎|