趙嘉朱(中國(guó)社會(huì)科學(xué)院圖書(shū)館,北京 100732)
方志資源知識(shí)組織方法研究
趙嘉朱
(中國(guó)社會(huì)科學(xué)院圖書(shū)館,北京 100732)
多年來(lái),我國(guó)方志數(shù)字化工作取得長(zhǎng)足的進(jìn)展。本文對(duì)傳統(tǒng)方志數(shù)字化現(xiàn)狀進(jìn)行梳理和分析,并結(jié)合大數(shù)據(jù)時(shí)代和社會(huì)需求,提出方志文獻(xiàn)庫(kù)和專(zhuān)題庫(kù)建設(shè)具體建議,最后基于本體知識(shí)組織理論,探討方志專(zhuān)題庫(kù)的知識(shí)組織方式,以提高我國(guó)方志資源的組織、管理和應(yīng)用水平。
本體論;知識(shí)組織;方志;數(shù)字化
方志是富有特色的重要知識(shí)資源。漢唐以來(lái),志書(shū)編修代代相因,從未斷絕。據(jù)不完全統(tǒng)計(jì),目前尚存于世的歷代志書(shū)超過(guò)8 200種,約占現(xiàn)存中華古籍總量的1/12。一般說(shuō),這些志書(shū)被學(xué)界統(tǒng)稱(chēng)為舊方志或舊志,以與中華人民共國(guó)成立后編纂的方志相區(qū)別。后者一般稱(chēng)為新方志,或新志。隨著改革開(kāi)放步伐的加快,我國(guó)科學(xué)文化事業(yè)蓬勃發(fā)展。新方志編纂的擴(kuò)展也出現(xiàn)了不斷加速的趨勢(shì)。迄今,新志總數(shù)已超過(guò)7萬(wàn)種,遠(yuǎn)超歷代舊志總和。新方志品種齊全,數(shù)量眾多,系統(tǒng)完備,方志文獻(xiàn)的“功用”已經(jīng)不再僅僅局限于“資治”“教化”和“存史”三個(gè)方面,而是成了中國(guó)政治經(jīng)濟(jì)發(fā)展必不可少的國(guó)情和地情資源寶庫(kù),能夠促進(jìn)歷史學(xué)、社會(huì)學(xué)、法學(xué)、地理學(xué)、生物學(xué)等學(xué)科的發(fā)展,具有非常重要的意義[1]。
基于本體論的知識(shí)組織理論近年來(lái)影響力不斷擴(kuò)大,為方志資源的知識(shí)組織提供了新方法。隨著信息技術(shù)和網(wǎng)絡(luò)的發(fā)展,社會(huì)知識(shí)總量以指數(shù)速度不斷膨脹。知識(shí)在促進(jìn)社會(huì)全方位發(fā)展的同時(shí),本身也需要進(jìn)行有序化揭示和服務(wù)。以本體論為代表的知識(shí)組織的研究和應(yīng)用,取得了多方面的豐碩成果。因此,以本體論為指導(dǎo)進(jìn)行知識(shí)組織,有助于推動(dòng)方志數(shù)字化建設(shè)向縱深發(fā)展。
方志數(shù)字化工作于20世紀(jì)90年代末加速開(kāi)展。目前,不僅北京、上海、廣州等大城市取得了顯著成績(jī),而且很多中小城市的成果也很突出。同時(shí),不僅東部和南部經(jīng)濟(jì)發(fā)達(dá)地區(qū)方志數(shù)字化日益擴(kuò)展,而且西北、西南等經(jīng)濟(jì)相對(duì)落后地區(qū)方志數(shù)字化的整體面貌也日新月異。全國(guó)各地推動(dòng)方志數(shù)字化的主要建設(shè)力量,大體可以分為以下幾類(lèi)。
1.1 公共圖書(shū)館
其包括國(guó)家級(jí)和省市縣三級(jí)圖書(shū)館。公共圖書(shū)館擁有的地方志資源十分豐富。如國(guó)家圖書(shū)館以及北京、上海、天津、陜西、湖北、浙江、安徽、四川等省級(jí)圖書(shū)館,由于其歷史悠久,資金比較充足,因而方志數(shù)字化進(jìn)展較快。此外,一些地區(qū)級(jí)圖書(shū)館和市縣級(jí)圖書(shū)館也在積極推進(jìn)方志數(shù)字化。江蘇省成績(jī)較為突出,省內(nèi)昆山圖書(shū)館、蘇州圖書(shū)館、常熟圖書(shū)館、吳江圖書(shū)館等地方圖書(shū)館都對(duì)館藏地方志的紙質(zhì)資源進(jìn)行了數(shù)字化處理,并以全文影像提供網(wǎng)絡(luò)共享服務(wù),方便讀者瀏覽或下載。
1.2 大學(xué)和科研機(jī)構(gòu)圖書(shū)館
這是方志數(shù)字化的重要組成部分,包括北京大學(xué)、北京師范大學(xué)、復(fù)旦大學(xué)、武漢大學(xué)、中山大學(xué)、中國(guó)科學(xué)技術(shù)信息研究所、中國(guó)社會(huì)科學(xué)院、中國(guó)科學(xué)院等各類(lèi)大學(xué)和科研機(jī)構(gòu)的眾多圖書(shū)館。這些大學(xué)和科研機(jī)構(gòu)不僅歷史悠久,資源豐富,而且人力財(cái)力較為雄厚,方志數(shù)字化進(jìn)展迅速,成績(jī)突出。
1.3 電子信息資源開(kāi)發(fā)公司
如萬(wàn)方、超星、同方等公司技術(shù)先進(jìn),背后有充足的資金支持,積極和各類(lèi)方志收藏機(jī)構(gòu)建立固定的多方面合作關(guān)系,能夠迅速地完成大型電子信息項(xiàng)目開(kāi)發(fā),因而也成為方志數(shù)字化近年發(fā)展的重要推動(dòng)力量。
1.4 省市方志機(jī)構(gòu)
近十余年,一些省市的方志機(jī)構(gòu)在當(dāng)?shù)卣姆e極支持下,不斷努力推進(jìn)省(市)情信息網(wǎng)建設(shè)。目前,已有20多個(gè)省、市、自治區(qū)正在開(kāi)展?。ㄊ校┣閿?shù)據(jù)庫(kù)和網(wǎng)絡(luò)建設(shè)。其中不少省、自治區(qū)或直轄市已經(jīng)建成并且開(kāi)放了網(wǎng)絡(luò)數(shù)據(jù)庫(kù),如廣東、山東、黑龍江、吉林、福建、安徽、浙江、內(nèi)蒙古、四川等。省(市)情信息網(wǎng)是一種新的方志資源數(shù)字化形式,其網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)的建立和維護(hù),一般由當(dāng)?shù)胤街緳C(jī)構(gòu)主持。?。ㄊ校┣樾畔⒕W(wǎng)的內(nèi)容一般包括歷史、文化、政治、經(jīng)濟(jì)、軍事、科技、社會(huì)生活等方面,信息規(guī)模一般以?xún)|字計(jì)算。
方志數(shù)字化資源建設(shè),可以付諸應(yīng)用的產(chǎn)品涉及諸多方面,目前主要集中在三大類(lèi),即全文影像庫(kù)、全文文本庫(kù)和書(shū)目庫(kù)。
2.1 全文影像庫(kù)
全文影像庫(kù)是數(shù)字方志的基礎(chǔ)庫(kù)。它采用彩色數(shù)字掃描技術(shù)對(duì)方志進(jìn)行處理,能夠以圖像方式再現(xiàn)方志原貌。全文影像庫(kù)能夠忠實(shí)地長(zhǎng)期保存原始檔案,同時(shí)能夠快速傳播,便于使用。
2.2 全文文本庫(kù)
其形成可以采取兩種方法:一是直接將方志紙質(zhì)資源通過(guò)人工錄入形成可以編輯的數(shù)字文件;二是對(duì)方志全文影像文件進(jìn)行機(jī)器識(shí)別從而形成可以編輯的數(shù)字文件。全文文本庫(kù)的優(yōu)點(diǎn)包括三個(gè)方面:①實(shí)現(xiàn)對(duì)方志內(nèi)容的全文檢索。檢索,即尋找可用的內(nèi)容,是方志數(shù)字化應(yīng)用的重要組成部分,在目前的技術(shù)條件下,只有文本庫(kù)才可以應(yīng)用各種數(shù)字手段進(jìn)行快速查找,如按字或詞實(shí)現(xiàn)快速查詢(xún)。②支持內(nèi)容標(biāo)引。只有可以編輯的文本才可以進(jìn)行標(biāo)引,從而實(shí)現(xiàn)與其他數(shù)字產(chǎn)品的關(guān)聯(lián)查詢(xún)。③方便版本???。只有經(jīng)過(guò)識(shí)別的文本,才可以采用相關(guān)技術(shù)對(duì)不同版本方志進(jìn)行??薄?/p>
2.3 書(shū)目庫(kù)
它是將方志資源目錄使用多種方法單獨(dú)提出,獨(dú)立建庫(kù)。數(shù)字文件目錄與紙質(zhì)文件目錄具有同等效用,而前者在使用、傳播等方面都較后者具有明顯優(yōu)勢(shì)。
國(guó)內(nèi)方志數(shù)字資源的建設(shè)已經(jīng)取得相當(dāng)大的成績(jī),但仍存在一些值得思考的問(wèn)題。除了相關(guān)各界經(jīng)常提到的地區(qū)分布不平衡外,主要表現(xiàn)在方志產(chǎn)品種類(lèi)開(kāi)發(fā)不平衡。一些重要的產(chǎn)品基本處于未開(kāi)發(fā)狀態(tài)。無(wú)論從理論或構(gòu)建公共文化服務(wù)體系的實(shí)際需要看,還有另外兩大類(lèi)應(yīng)當(dāng)受到關(guān)注。
3.1 相關(guān)文獻(xiàn)庫(kù)
該庫(kù)主要收入各類(lèi)方志的相關(guān)評(píng)論,如人物研究、名勝古跡考證、事件述評(píng)等。它是加深方志信息理解的重要源泉。作為數(shù)字方志的一個(gè)關(guān)聯(lián)庫(kù),它可以起到擴(kuò)大視野、拓展知識(shí)的作用。迄今為止,相關(guān)文獻(xiàn)庫(kù)的開(kāi)發(fā)基本處于空白狀態(tài)。
3.2 專(zhuān)題庫(kù)
它是指經(jīng)過(guò)整理合并將方志資源中某一類(lèi)內(nèi)容綜合成一個(gè)獨(dú)立的專(zhuān)門(mén)庫(kù),以滿(mǎn)足特定對(duì)象對(duì)特定內(nèi)容的需求。專(zhuān)題庫(kù)可以極大地提高檢索率,縮短有用資料的查詢(xún)時(shí)間。然而,專(zhuān)題庫(kù)的構(gòu)建以及檢索都需要多向交叉的網(wǎng)絡(luò)技術(shù)支持,而傳統(tǒng)的信息組織方式不能滿(mǎn)足這方面的要求。由于這一原因,專(zhuān)題庫(kù)的建設(shè)長(zhǎng)期處于停滯狀態(tài),很多方面尚屬空白。而完整的專(zhuān)題庫(kù)體系則至少應(yīng)涵蓋以下幾個(gè)方面。
(1)地名庫(kù)。該庫(kù)內(nèi)容包括舊地名、新地名、新舊地名沿革、與其他相關(guān)地名的關(guān)系以及相互的影響和變化情況等。
(2)人物庫(kù)。該庫(kù)應(yīng)收錄方志中人物、選舉、職官等類(lèi)目中含有傳記資料的人物。人物庫(kù)的主要內(nèi)容包括人物的本名、室名別號(hào)、更名、性別、生卒年、主要活動(dòng)時(shí)代、民族、籍貫以及主要成就、貢獻(xiàn)等。
(3)藝文庫(kù)。該庫(kù)收錄藝術(shù)、文化方面的實(shí)物、作品、器物等。
(4)遺跡庫(kù)。該庫(kù)主要記載一個(gè)地區(qū)的名勝古跡,是方志的重要內(nèi)容之一。而這些名勝古跡的廢置、變化,也從一個(gè)側(cè)面反映出當(dāng)?shù)厝宋牡陌l(fā)展軌跡。遺跡庫(kù)應(yīng)包括方志中“八景”“十景”等所有歷史文化內(nèi)容。
(5)圖集庫(kù)。圖,是方志重要組成部分。很多情況下,用文字難以說(shuō)清楚的問(wèn)題,圖則可以口誦其詞、目明其像。缺乏圖像載體,描繪一個(gè)地區(qū)自然與社會(huì)歷史全貌,難以十全十美。圖庫(kù)建設(shè),勢(shì)在必行。其內(nèi)容應(yīng)包括疆域、分野、山川、江河、湖泊、城池、公署、坊都、學(xué)宮等各個(gè)方面。
(6)自然災(zāi)害庫(kù)。它包括方志中涉及的如地震、洪災(zāi)、旱災(zāi)、蟲(chóng)災(zāi)、雪災(zāi)、風(fēng)災(zāi)等所有各類(lèi)災(zāi)害的發(fā)生、發(fā)展以及應(yīng)對(duì)措施等各方面的信息,對(duì)于今天的防災(zāi)救災(zāi)具有特殊重要的意義。
綜上,加強(qiáng)專(zhuān)題庫(kù)建設(shè),勢(shì)在必行。方志數(shù)字化欲求進(jìn)一步發(fā)展,必須在構(gòu)建分門(mén)別類(lèi)的綜合性專(zhuān)題數(shù)據(jù)庫(kù)方面有所突破,而不能再局限于或滿(mǎn)足于單種方志的數(shù)字化。方志的最大優(yōu)勢(shì)在于以地區(qū)為中心匯集資料系統(tǒng)。同一地區(qū)不同時(shí)期的同類(lèi)資料,集合起來(lái),就實(shí)現(xiàn)了內(nèi)容體系的比較,便于相關(guān)類(lèi)別的研究。
方志數(shù)字化領(lǐng)域日益認(rèn)識(shí)到當(dāng)前流行的以主題標(biāo)引和分類(lèi)標(biāo)引為基礎(chǔ)的信息組織深度的不足,無(wú)法滿(mǎn)足專(zhuān)題庫(kù)對(duì)內(nèi)容標(biāo)引的建設(shè)需要。基于本體論的知識(shí)組織為破解相關(guān)文獻(xiàn)庫(kù)和專(zhuān)題庫(kù)技術(shù)難題指明了方向[2]。相關(guān)文獻(xiàn)庫(kù)和專(zhuān)題庫(kù),特別是后者,是方志資源中某類(lèi)知識(shí)的集合。它可以實(shí)現(xiàn)知識(shí)的有效獲取,直接滿(mǎn)足用戶(hù)的知識(shí)需求。
4.1 本體原型
本體論原是一個(gè)哲學(xué)概念,指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說(shuō),后來(lái)被數(shù)字技術(shù)學(xué)界借用。本體論強(qiáng)調(diào)特定領(lǐng)域中的本質(zhì)概念,也強(qiáng)調(diào)這些本質(zhì)概念之間的關(guān)聯(lián)。當(dāng)前學(xué)界一般認(rèn)為,本體論是對(duì)概念化的精確描述,本體論的最終目標(biāo)是精確地表示那些隱含的信息,使它們可被軟件系統(tǒng)使用和共享。
本體是一個(gè)關(guān)于某些主題的、層次清晰的規(guī)范說(shuō)明,它是一個(gè)已經(jīng)得到公認(rèn)的形式化的知識(shí)表示體系。作為一種有效表示概念層次結(jié)構(gòu)和語(yǔ)義的理論和方法,本體目前已經(jīng)被廣泛應(yīng)用于計(jì)算機(jī)科學(xué)和信息管理領(lǐng)域,并且被成功應(yīng)用于構(gòu)建新的智能組織和檢索系統(tǒng)。由于本體具有良好的概念層次和對(duì)邏輯推理的支持,基于本體的知識(shí)組織和檢索是基于知識(shí)的、語(yǔ)義的匹配,在查全率和查準(zhǔn)率方面能夠獲得較好的結(jié)果[3]。近年來(lái),本體理論的發(fā)展和逐步成熟為基于復(fù)雜檢索技術(shù)的方志數(shù)字化的進(jìn)一步發(fā)展帶來(lái)了新的活力。
4.2 本體論知識(shí)組織的實(shí)現(xiàn)
成型的本體論組織是一個(gè)動(dòng)態(tài)系統(tǒng),其概念、關(guān)系和軟件均可根據(jù)發(fā)展的需要而不斷更新。其建立過(guò)程大體如下。
本體語(yǔ)義關(guān)系包括同義關(guān)系、反義關(guān)系、屬中關(guān)系、交叉關(guān)系、全異關(guān)系等。這與分類(lèi)法和主題表有一定類(lèi)似,但遠(yuǎn)為簡(jiǎn)潔和靈活,可以根據(jù)需要增減。具體步驟如下:
(1)確立目標(biāo),劃定范圍。這是建立本體系統(tǒng)的第一步。一般說(shuō),領(lǐng)域越大,應(yīng)用越廣,所建系統(tǒng)就越龐大、越復(fù)雜,難度也就越高。
(2)本體分析。即定義本體所有術(shù)語(yǔ)的意義及其之間的關(guān)系,該步驟需要有關(guān)領(lǐng)域的各方面專(zhuān)家參與,探討越深入,所建本體就有可能越完善。
(3)本體表示。一般用語(yǔ)義模型表示本體。
(4)本體系統(tǒng)檢驗(yàn)。一個(gè)好的本體系統(tǒng)應(yīng)當(dāng)在清晰、一致、完整、可擴(kuò)展性等方面均能符合要求。清晰性指本體中的術(shù)語(yǔ)無(wú)歧義的定義;一致性指術(shù)語(yǔ)之間關(guān)系邏輯上應(yīng)一致;完整性指本體中的概念及其關(guān)系應(yīng)是完整的,應(yīng)盡量包含該領(lǐng)域內(nèi)所有概念;可擴(kuò)展性則指本體應(yīng)該能夠隨著該領(lǐng)域的發(fā)展而不斷加入新的概念。
4.3 基于本體論的知識(shí)檢索與應(yīng)用
基于本體的知識(shí)組織在構(gòu)建和檢索方面的優(yōu)勢(shì),使其能夠滿(mǎn)足以方志專(zhuān)題庫(kù)建設(shè)為主要標(biāo)志的方志數(shù)字化的進(jìn)一步發(fā)展的多方面復(fù)雜要求,從而趨向于成為在當(dāng)前技術(shù)環(huán)境下方志數(shù)字化發(fā)展的近期方向。
中國(guó)的方志文化源遠(yuǎn)流長(zhǎng),光輝燦爛,是世界文化的一部分。進(jìn)入21世紀(jì)后,方志文化再創(chuàng)輝煌,它將肩負(fù)著“修志問(wèn)道,以啟未來(lái)”的偉大使命,為實(shí)現(xiàn)中華民族偉大復(fù)興提供資政輔治之參考,為后世留下堪存堪鑒之記述。通過(guò)本體理論,可以進(jìn)一步完善方志數(shù)字化資源的建設(shè)、組織與服務(wù)方式,推動(dòng)我國(guó)方志資源建設(shè)的發(fā)展。
[1] 倉(cāng)修良.方志學(xué)通論(增訂本)[M].上海:華東師范大學(xué)出版社,2014:339-385.
[2] 何蕓, 黃立新. 基于本體的大學(xué)圖書(shū)館地方特色資源庫(kù)建設(shè)——以天津近代商業(yè)文化文獻(xiàn)資源庫(kù)為例[J]. 圖書(shū)館工作與研究,2013(9):39-41.
[3] 宋博.論本體論在智能信息檢索中的作用[J].山東圖書(shū)館學(xué)刊,2013(3):78-80,93.
Study on the Method of Local Resources of Knowledge Organization
ZHAO JiaZhu
(Library of the Chinese Academy of Social Sciences, Beijing 100732, China)
Over the years, our country has made great progress in China's digital local chronicles work.With the era of big data and the social demand, this paper investigates and analyzes the present situation of traditional local chronicles digitization and puts forward some specific proposals to the local literature database and thematic database construction.Finally, based on the theory of ontology knowledge organization, explores the knowledge organization method of local special library to improve our level of local chronicles resources organization, management and application.
Ontology; Knowledge Organization; Local Chronicles; Digitization
G250
10.3772/j.issn.1673-2286.2016.4.009
趙嘉朱,女,研究館員,研究方向:方志資源建設(shè),E-mail:zhaojz@cass.org.cn。
2016-02-29)