徐晨飛倪 媛錢智勇
(1.南通大學管理學院 ,江蘇 南通226019;2.東南大學-莫納什蘇州聯(lián)合研究生院 ,江蘇 蘇州215123;2.南通大學圖書館,江蘇 南通226019)
基于本體的“江海文化”文獻知識組織體系構(gòu)建研究
徐晨飛1倪 媛2錢智勇3
(1.南通大學管理學院 ,江蘇 南通226019;2.東南大學-莫納什蘇州聯(lián)合研究生院 ,江蘇 蘇州215123;2.南通大學圖書館,江蘇 南通226019)
〔摘 要〕運用本體工程思想 ,以收集到的各種類型 “江海文化”研究文獻為參考依據(jù) ,對研究文獻的主要元素如作者、文獻名、機構(gòu)、年代等以及文獻內(nèi)容中的知識元如人物、地點、事件、建筑、方言、風俗、非物質(zhì)文化遺產(chǎn)等進行提取與挖掘 ,構(gòu)建 “江海文化”文獻知識組織體系 ,以期推動 “江海文化”的深化研究以及南通文化的傳承與發(fā)展。
〔關(guān)鍵詞〕江海文化 ;知識組織體系;本體構(gòu)建 ;知識推理
南通東臨黃海,南瀕長江,地處江海交匯之處,是長江文化和海洋文化的交集點;南北文化在這里相互匯通 ,江淮文化和吳越文化兩大區(qū)域文化的在這里碰撞融合,加上南通固有的本土文化 ,形成了一種獨特的 “江海文化”。它是所處地域的物質(zhì)運動、人物活動、意識形態(tài)等多方面在千百年的歷史長河中積淀與總結(jié)而來,具有獨特的文化特征、豐富的歷史內(nèi)涵和深邃的人文精神?!敖N幕钡膬?nèi)容和形態(tài)亦不是一成不變,隨著時間的推移,其文化組成因素及組合方式也在不斷深化和發(fā)展。自21世紀初以來 ,多位研究學者對 “江海文化”的內(nèi)涵、特點、形態(tài)、題材、產(chǎn)業(yè)發(fā)展等諸多方面展開了探討與研究,這些研究也賦予了 “江海文化”更多更新的文化內(nèi)涵。這些載體形式各異的研究文獻數(shù)量眾多 ,文獻與內(nèi)容之間缺乏有效的知識關(guān)聯(lián)。鑒于此 ,本文提出構(gòu)建 “江海文化”文獻知識組織體系的設想 ,為學者的科研工作以及普通大眾的知識普及提供有效支持。
現(xiàn)代知識組織的方法隨著信息技術(shù)的發(fā)展不斷改進 ,傳統(tǒng)的語義分類法、主題詞法、語義元數(shù)據(jù)等知識組織方
1.1知識組織
知識組織是指對事物的本質(zhì)及事物間的關(guān)系進行揭示的有序結(jié)構(gòu) ,即知識的序化[1]。知識組織體系是知識組織的基礎,其本質(zhì)是以知識組織方法為指導,通過一定的技術(shù)手段,將無序的數(shù)據(jù)或信息有序化,組織形成一個能有效獲取知識的網(wǎng)絡。在當今的網(wǎng)絡信息環(huán)境下,知識組織體系被賦予了新的內(nèi)涵和更高的要求:對概念需要進一步細化,構(gòu)成的概念體系應該還包含支持對概念的屬性、關(guān)系等多種性質(zhì)的組織和描述,還應能滿足可視化表示、知識推理和語義檢索等功能需求[2]。傳統(tǒng)的詞匯表類和分類聚類體系等知識組織方法,僅僅提供了同類或同一主題詞匯的列表,強調(diào)的是概念集的創(chuàng)建和歸類,而缺乏對概念及其關(guān)系的多方面描述,對組織的知識不能進行網(wǎng)絡化和形象化的展示,也難以支持語義推理和知識檢索功能。因此,這些方法難以滿足現(xiàn)代化知識組織體系的需求。
1.2本 體
本體是一種新型的知識組織體系 ,不僅能準確規(guī)范地描述相關(guān)概念及其之間的關(guān)系,構(gòu)造豐富的語義關(guān)系網(wǎng)絡 ,而且還具有知識推理功能,可以深度挖掘概念之間隱含的知識關(guān)系[3]。本體將傳統(tǒng)的樹形的知識組織體系結(jié)構(gòu)轉(zhuǎn)化為網(wǎng)狀的知識結(jié)構(gòu),加強了不同類之間的關(guān)聯(lián),促進了知識的集中、共享與利用。本體一般由類 (概念)、關(guān)系、約束、公理和實例五大部分組成[4]?!邦?(概念)”是對客觀事物的抽象和規(guī)范化定義,是具有共同屬性的事物的集合。“關(guān)系”是概念之間的相互聯(lián)系,形式上是n維笛卡爾積(R1×R2…Rn)的子集,其包括定義域和值域兩部分,概念之間的關(guān)系是語義推理的基礎。其中 “屬性”是一種特殊的 “關(guān)系” (值域為數(shù)值或字符串時),它是對類及其內(nèi)部實例本質(zhì)和特征的描述?!凹s束”是關(guān)于概念的屬性或關(guān)系的一種規(guī)則?!肮怼笔且环N約束條件 ,其值始終為真?!皩嵗笔穷愔行杼砑拥膶嶓w。圖1展示了本體的結(jié)構(gòu)并列舉一個關(guān)于江海文化知識本體的具體示例 :“人物”和 “事件”是將江海文化文獻知識中的兩個頂層概念,根據(jù)實際需求,頂層概念可被劃分成不同詳盡程度的子概念,例如“史海先賢”是對人物基于年代的一個初步劃分,基于不同的人物性質(zhì)可以更進一步劃分為 “藝苑大師”和 “江海英烈”等子概念 ;其中 “白毓昆”是 “江海英烈”中的一個實例 ,“白雅雨”是其固有的屬性 ,同時也具有參與過 “辛亥革命”的性質(zhì)。
圖1 本體的組成和一個示例
采用本體構(gòu)建的方法 ,對 “江海文化”文獻進行知識組織是一項復雜的系統(tǒng)工程 ,需要正確的構(gòu)建指導方法、步驟和合適的開發(fā)工具輔助。目前,由于本體的應用領(lǐng)域眾多 ,不同學科或領(lǐng)域的知識又存在著結(jié)構(gòu)和內(nèi)容的差異 ,國內(nèi)研究學界對新型知識組織體系構(gòu)建的流程還沒有形成統(tǒng)一的認識和標準。本節(jié)結(jié)合歷史文化領(lǐng)域本體構(gòu)建的特點與方法,制定了 “江海文化”文獻知識本體構(gòu)建的思路(主要包括構(gòu)建方法、構(gòu)建工具和本體描述語言的選擇),并在此基礎上闡述 “江海文化”文獻知識本體構(gòu)建的設計過程。
2.1本體構(gòu)建方法
本體的構(gòu)建方法是本體構(gòu)建的靈魂,也是目前本體構(gòu)建與應用研究的重點。然而本體的構(gòu)建還沒有成熟的理論指導 ,在具體項目的需求條件下 ,不同領(lǐng)域的構(gòu)建者采用的本體構(gòu)建過程和方法也各不相同 ,因此目前還沒有標準統(tǒng)一的本體構(gòu)建方法。國外已有一些較為先進的本體的人工構(gòu)建方法,如七步法、METHONTOLOGY法、IDEF5法、TOVE法和骨架法但其使用的領(lǐng)域不同[5]。通過對上述幾種流行的構(gòu)建方法的特點和適用范圍的比較發(fā)現(xiàn) ,由斯坦福大學創(chuàng)建的七步法[6]適用于領(lǐng)域本體的構(gòu)建 ,且較為成熟。因此本文將主要借鑒七步法來實現(xiàn) “江海文化”文獻知識組織體系的構(gòu)建 ,同時加以修改與補充,最終確定 “江海文化”文獻知識本體構(gòu)建的具體步驟,其流程如圖2所示。
(1)明確領(lǐng)域本體構(gòu)建的知識范疇。包含通過需求分析,明確本體構(gòu)建的知識范疇和目標用戶;對領(lǐng)域知識特點分析,明確本體構(gòu)建的意義。
(2)信息搜集與知識分析。明確本體構(gòu)建的主要知識來源和文本參考依據(jù),并對搜集到的知識進行整理和分析。
(3)類及其層次等級結(jié)構(gòu)的劃分。具體包括:基于前人研究內(nèi)容和劃分方法,確定江海文化文獻知識本體的核心類;按自頂向下的原則對進行進一步細分,建立層次等級關(guān)系。
(4)“江海文化”文獻知識本體的構(gòu)建。借助本體構(gòu)建工具構(gòu)建類;定義本體的屬性 (包括對象屬性和數(shù)值屬性,定義域與值域等);添加實例;完善類與實例間的關(guān)系。
(5)基于本體的知識檢索及其可視化。基于構(gòu)建好的江海文化知識本體實現(xiàn)檢索查詢并可視化展示。
(6)建立本體函數(shù)集和公理集。主要工作為 “江海文化”知識本體建立函數(shù)集和推理規(guī)則等,利用本體推理工具實現(xiàn)江海文化文獻的知識推理,挖掘其中的隱含知識。
圖2 “江海文化”文獻知識本體構(gòu)建流程圖
2.2本體構(gòu)建工具與描述語言的選擇
本體開發(fā)是一項浩大的知識工程,確定了 “江海文化”文獻本體的構(gòu)建方法,我們需要選擇合適的本體開發(fā)工具來幫助完成本體開發(fā)工作。目前,在國外已經(jīng)出現(xiàn)了眾多的本體構(gòu)建工具,典型的包括OntoEdit、WebOnto、KAON和Protégé等[7]。通過對這幾種本體開發(fā)工具進行比較與試用 ,發(fā)現(xiàn)Protégé[8]可免費獲取 ,且使用簡便 ,同時它支持數(shù)據(jù)存儲、一致性檢測和語法檢測、支持插件擴展 (如可視化組件、推理引擎等)等功能 ,因此 ,最終確定采用Protégé作為江海文化文獻知識本體的開發(fā)工具。
對常用的幾種本體描述語言進行比較后,最終采用OWL本體描述語言對 “江海文化”文獻知識本體進行編碼。OWL描述語言提供了大量用于描述屬性和類的詞匯,具有更豐富的語義表達能力和推理能力[9],其可對所建立的概念層次體系和屬性進行形式化表示,便于機器的讀取和理解。
本節(jié)首先對 “江海文化”領(lǐng)域本體構(gòu)建需求進行分析 ,明確領(lǐng)域知識范疇;對搜集到的文獻知識加以解剖和分析;抽取 “江海文化”文獻中的核心知識概念并確定每個概念的邊界,再由前人研究內(nèi)容以及目標用戶需求設定本體的概念層次等級結(jié)構(gòu)。最后,在上述工作的基礎之上,定義類的屬性及其約束 ,添加實例 ,進一步完善 “江海文化”文獻知識本體的內(nèi)容。
3.1確定本體構(gòu)建領(lǐng)域知識范疇
“江海文化”兼容了齊魯、荊楚、吳越三大古文化意蘊,包孕華夏大地南、北兩個文化大系的色彩,有里下河文化、胡逗洲文化、沙地文化三大文化圈共存共榮的生態(tài)環(huán)境[10],可以說,其具有豐富的歷史內(nèi)涵和深邃的人文精神。近十幾年以來 ,已有多位學者對 “江海文化”的內(nèi)涵、形態(tài)、特征、載體、題材、產(chǎn)業(yè)發(fā)展等諸多方面展開了研究,且已形成錯綜復雜的知識網(wǎng)。本體構(gòu)建領(lǐng)域知識范疇即為前人對 “江海文化”研究的各類文獻知識綜合。
3.2“江海文化”知識搜集與知識分析
本課題相關(guān)資源搜集來源主要有4個方面:第一,各類印刷出版物。如南通地方史志、年報匯報資料、江海文化系列叢書、南通人物專著、南通文化年鑒、中國大百科全書、南通方言詞典以及相關(guān)報紙雜志等;第二,網(wǎng)絡信息資源。利用百度、谷歌等搜索引擎、維基百科、南通政府門戶網(wǎng)站、南通檔案局、濠濱論壇、江海論壇、南通網(wǎng)等站點進行信息檢索;第三,電子文獻數(shù)據(jù)庫資源。如期刊論文數(shù)據(jù)庫、會議數(shù)據(jù)庫、優(yōu)秀博、碩士論文數(shù)據(jù)庫等;第四 ,相關(guān)領(lǐng)域?qū)<业牟稍L與談話。
筆者通過以上信息源搜集到大量類型各異的 “江海文化”研究文獻。包括圖書47本,地方史志25本,工具書5本,來源于門戶網(wǎng)站和論壇的資源394條,在電子文獻數(shù)據(jù)庫中主題搜索得到的相關(guān)數(shù)目整理如表1所示:
表1 電子文獻數(shù)據(jù)庫中的文獻數(shù)量分布
從研究文獻的主題詞分布的角度來看,不同作者描寫的側(cè)重點各有所不同。由南通市江海文化研究會編撰的兩輯 《江海文化叢書》,將江海文化的精華分門別類 ,每本書都詳細闡述了一個主題 ,它較為系統(tǒng)地反映了南通不同歷史時期、獨具地方特質(zhì)的重要遺跡、重大事件、重要人物等;南通市藝術(shù)研究所曹琳先生于2002年發(fā)表的 《江海文化論綱》中首次對 “江海文化”的內(nèi)涵與題材進行了界定與闡述;南通職業(yè)大學的豐坤武教授以系列論文以及學術(shù)專著的形式對南通江海文化進行了橫向解剖和特色探索;黃振平、闞耀平、單澄、栗永芹、駱高遠等作者對江海文化的產(chǎn)業(yè)開發(fā)與發(fā)展進行了研究,此外還有大量學者對“江海文化”中提及的代表性人物、南通方言、建筑文化、民俗文化、音樂藝術(shù)、非物質(zhì)文化遺產(chǎn)等展開了深入細致的研究。
對搜集到的 “江海文化”研究文獻進行分析,其知識來源應包含兩部分:其一為 “江海文化”各類文獻自身內(nèi)容中蘊含的知識。南通經(jīng)歷了漫長的成陸過程,在不同階段人們出于不同的原因移民至此,其直接導致文化來源的多樣性及相互交融的復雜性。在一定空間范圍內(nèi),組成“江海文化”的文化 “基因”將保持其特性長期共存 ,但同時隨著時間的流逝,組成江海文化的各種文化 “基因”的融合形式不斷發(fā)展 ,因此 ,“江海文化”是 “變”與 “不變”的結(jié)合體[11]。我們從歷史發(fā)展即時間角度和地理演變即空間角度對 “江海文化”研究文獻知識進行梳理,可把握 “江海文化”的發(fā)展脈絡,并挖掘其不同階段的人文歷史內(nèi)涵。其二為與 “江海文化”研究文獻相關(guān)聯(lián)的人、物 ,或機構(gòu)及其他內(nèi)容。“江海文化”依存于獨特的地理、自然環(huán)境,而且隨著時間的流逝不斷發(fā)展著其歷史文化內(nèi)涵 ,這些文化特征和人文內(nèi)涵需要借助一定的載體表現(xiàn)出來?!敖N幕蔽墨I中有大量的歷史文化人物、事件、地點、建筑及歷史文化藝術(shù)等,不同時間階段和不同類型的歷史文化是認識南通和 “江海文化”的切入點,對這些知識進行有效的組織和梳理,便于我們深入理解 “江海文化”內(nèi)涵,探討 “江海文化”的特征以及傳承其優(yōu)秀傳統(tǒng)和人文精神。
3.3創(chuàng)建核心概念集及其層次等級結(jié)構(gòu)
3.3.1確定核心概念集
從 “江海文化”文獻內(nèi)容角度分析,“江海文化”是南通的歷史積淀,不僅包含其依存的自然環(huán)境和地理位置 ,還包含其特有的人文歷史內(nèi)涵。其中先民文化和戍邊文化給我們留下許多文化存遺和邊防要址;移民文化體現(xiàn)了人物和語言的交融;士大夫文化養(yǎng)育出一批批名人賢才;“搶灘”文化和市井民俗張揚著南通人的文化性格;戲劇文化將南通曲藝推向了國際平臺,此外還有廟會文化、建筑、服飾和飲食文化等等 ,無不體現(xiàn)出 “江海文化”的內(nèi)涵。按照目前相關(guān)政府部門、研究學者及普通大眾對 “江海文化”知識的需求 ,對 “江海文化”內(nèi)容知識進行提取與整理 ,最終確定將 “人物”、“地點”、“建筑” “時間”、“事件”、“風俗”、“方言”、“非物質(zhì)文化遺產(chǎn)”作為 “江海文化”文獻知識的核心子類。
從 “江海文化”研究文獻角度分析,“江海文化”研究文獻的知識內(nèi)容主要包含文獻的基本信息 (如文獻題名、主題、發(fā)表機構(gòu)、館藏機構(gòu)、發(fā)表時間、出版時間、引用時間、引用頻次等)和作者的相關(guān)信息 (姓名、貫籍、職稱、機構(gòu)、研究方向等)。根據(jù)構(gòu)建 “江海文化”文獻知識本體的實際需要 ,將上述信息可以主要劃分為 “文獻”、“作者”、“機構(gòu)”以及 “時間”4個核心大類。其中 ,該部分的 “時間”和 “江海文化內(nèi)容知識”中的 “時間”指的是同一概念 ,無須重復構(gòu)建;同時 “作者”屬于 “人物”類型的一種 ,可以歸于同一核心概念集。因此,只需再添加 “文獻”和 “機構(gòu)”兩個核心子類 ,即最終確定的核心概念為 :“人物”、“地點”、“建筑”、“時間”、“事件”、“風俗”、 “方言”、 “非物質(zhì)文化遺產(chǎn)”、 “文獻”和 “機構(gòu)”。(如圖3所示)
圖3 “江海文化”文獻核心概念集
3.3.2層次結(jié)構(gòu)劃分
(1)“人物”類的劃分
南通被譽為 “中國近代第一城”,歷史上這里人文薈萃 ,名賢輩出 ,如范仲淹、文天祥、鄭板橋等在這里留下了不朽篇章和逸聞趣事;東吳名將呂岱、北宋大儒胡瑗、明代名醫(yī)陳實功、明末清初的文學大家冒襄、清代揚州八怪之一李方膺、清末狀元張謇,辛亥革命先烈白雅雨等歷代名人給南通歷史文化增添色彩;而近現(xiàn)代的這里人杰地靈、星光閃耀 ,神奇蛇醫(yī)季德勝、電影表演藝術(shù)家趙丹、國畫大師王個簃、刺繡藝術(shù)大師沈壽在南通發(fā)展史上刻下了光輝的篇章;進入新世紀,亦涌現(xiàn)了以國家國務院副總理劉延東、國際級運動健將仲滿、國家一級演員郁鈞劍等為代表的一大批江海優(yōu)秀兒女為南通增光添彩 ,賦予其新的文化內(nèi)涵。但 “人物”類在本文中不僅僅指那些 “江海文化”內(nèi)容中的杰出文化人物,還包含研究 “江海文化”文獻作者。因此 ,“人物”類首先可劃分為 “文獻作者”和“文化名人”兩個核心大類,之后再根據(jù)不同的性質(zhì)或從不同角度對核心子類進行細分。按時間角度進行劃分,可以把 “文化名人”進而劃分為2個子類 :“史海先賢”和 “時代精杰”?!笆泛O荣t”按人物性質(zhì)還可以進一步劃分為“藝苑大師”、“中醫(yī)藥家”、“江海英烈”和 “實業(yè)愛國者”4個子類。為了盡量保持劃分的子類目的均衡,我們將“藝苑大師”再進一步細分為 “繪畫”、“戲劇”、“電影”、“文學”、“技藝”5個子類?!皶r代精杰”按人物性質(zhì)可細分為 “政界名人”、“軍隊干部”、“文體明星”和 “科技精英”4個子類,其中 “政界名人”和 “軍隊干部”都可以細分為 “地方”和 “中央”2個子類 ;“文體明星”細分為“文娛明星”和 “體育健將”兩部分 ;“科技精英”細分為“中科院院士”、“工科院院士”和 “其他科技人物”?!叭宋铩鳖惛拍顚哟误w系具體如圖4所示。
(2)“地點”類的劃分
本文的 “地點”概念不同于通用本體中的同名概念 ,指的是 “江海文化”文獻中的 “自然風貌”和 “行政區(qū)域”。因此 ,首先將概念劃分成上述兩個子集再在此基礎上進行細分?!白匀伙L貌”包含南通的文化遺址或名勝 ,如狼山、劍山、濠河等 ,將其可以細分為 “山川”和 “河流”;“行政區(qū)域”根據(jù)地域的級別可以劃分為 “省”、“市”、“縣及以下”3個子類,主要用來組織不同概念集可能關(guān)聯(lián)到的地域名稱 (如圖5所示)。
圖4 “人物”層次結(jié)構(gòu)圖
圖5 “地點”層次結(jié)構(gòu)圖
(3)“建筑”類的劃分
南通是有名的建筑之鄉(xiāng) ,舊時的南通建筑是以衙署為中心并圍以城墻的傳統(tǒng)建筑風格 ,從近代開始南通深受上海近現(xiàn)代建筑文化的影響 ,發(fā)生了城市空間結(jié)構(gòu)的重大轉(zhuǎn)型。參考豐武坤教授在南通文化特色研究課題中對近代建筑的劃分方式,可以把 “建筑”類最終劃分以下幾類:“工業(yè)建筑”、“文化教育建筑”、“公共建筑”和 “居住建筑”[12]。其中本文中的 “工業(yè)建筑”主要指的是企業(yè)廠房 ;“文化教育建筑”主要包括 “博物館”、“校舍”、“寺廟”、“書局/書館”和“影劇院”5個部分 ;“公共建筑”主要包括 “園林廣場”、“金融商貿(mào)”和 “賓館飯店”3個部分;“居住建筑”主要包括 “住宅”和 “街道里巷”2個部分。(如圖6所示)
圖6 “建筑”層次結(jié)構(gòu)圖
(4)“風俗”類的劃分
南通在唐朝是流放之地,因其獨特的地理環(huán)境,也曾成為避難逃生之地。隨著后來各地的移民遷定于此,各地的風俗文化在此相互融合,形成了獨具特色的南通風俗文化。傳統(tǒng)風俗習慣涉及社會生活的方方面面 ,在經(jīng)濟生產(chǎn)、貿(mào)易往來、衣食住行、婚嫁喪娶等方面,都有各自的風俗習慣 ,具體來說 ,主要可從 “經(jīng)濟風俗”、“日常生活風俗”、“禮儀風俗”3個方面進行研究[13]。此外 ,“經(jīng)濟風俗”可繼續(xù)細分為 “農(nóng)業(yè)生產(chǎn)”、“漁業(yè)生產(chǎn)”、“手工業(yè)生產(chǎn)”、“商業(yè)活動”和 “民間信貸”5個子類 ,“日常生活風俗”包含 “飲食”、“服飾”和 “出行”3個子類的內(nèi)容 ;“禮儀風俗”可從 “生育”、“婚姻”、“壽誕”、“喪葬”4個子類加以歸納。(如圖7所示)
圖7 “風俗”層次結(jié)構(gòu)圖
(5)“方言”類的劃分
“江海文化”是一種地域性文化 ,具有過渡地帶文化的顯著特征 ,這種特征可以直接體現(xiàn)在區(qū)域方言上。根據(jù)方言狀況實際調(diào)查研究的結(jié)果 ,可將南通 “方言”劃分為“如海話”、“南通話”、“通東話”和 “海啟話”4個部分[14]。4個方言小片相互影響而相互差異 ,我們可以從“詞匯”、“俗語”、“諺語”、“歇后語”4個角度加以歸納整理,從而分別對上述4種方言進行分析。(如圖8所示)
圖8 “方言”層次結(jié)構(gòu)圖
(6)“非物質(zhì)文化遺產(chǎn)”類的劃分
“江海文化”的地域特征不僅體現(xiàn)在物質(zhì)文化遺產(chǎn)上 ,同樣也體現(xiàn)在非物質(zhì)文化遺產(chǎn)上。根據(jù) 《世界遺產(chǎn)公約》第一條規(guī)定,物質(zhì)文化遺產(chǎn)包括歷史文物,歷史文化建筑和歷史文化遺址 ,這3類在上文中基本都已涉及并加以整理歸類。對非物質(zhì)文化遺產(chǎn)的分類和研究,主要參照黃振平主編的 《江海記憶——南通市第一批非物質(zhì)文化遺產(chǎn)概覽》[15],將南通首批39個市級保護名錄劃分為 “傳統(tǒng)醫(yī)藥”、“傳統(tǒng)戲劇”、“傳統(tǒng)技藝”、“傳統(tǒng)美術(shù)”、“傳統(tǒng)舞蹈”、“傳統(tǒng)音樂”、“曲藝”、“民間文學”和 “其他類”9個子類。(如圖9所示)
圖9 “非物質(zhì)文化遺產(chǎn)”層次結(jié)構(gòu)圖
(7)“事件”類的劃分
“江海文化”文獻中記載的大多是軍事和經(jīng)濟事件和文化時間,通常從歷史發(fā)展的階段加以描述,其中穿插著一些人物、地點等相關(guān)信息。從時間角度對 “事件”進行劃分,以轉(zhuǎn)折性事件為劃分界限,可以劃分為 “南北朝以前事件”、“隋唐五代時期事件”、“宋元時期事件”、“明清時期事件”和 “近代時期事件”5個子類。但是這樣會導致“近代時期事件”的實例過多 ,各子類目的實例數(shù)目不均。因此 ,我們該部分不做細分 ,可以通過與 “時間”直接關(guān)聯(lián),使時間作為另一種導航方式進行直接檢索。
(8)“時間”類的劃分
這里的 “時間”概念與通用本體中的概念相同,因此可以直接添加實例,無須做進一步劃分。
(9)“機構(gòu)”類的劃分
從 “江海文化”相關(guān)研究文獻角度出發(fā),我們主要研究的是作者、機構(gòu)、文獻以及時間之間的關(guān)系,按照本體構(gòu)建需求主要劃分為 “作者機構(gòu)”和 “文獻機構(gòu)”,“文獻機構(gòu)”按屬性可進一步劃分為 “出版機構(gòu)”、“發(fā)表機構(gòu)”和 “館藏機構(gòu)”。(如圖10所示)
圖10 “機構(gòu)名”層次結(jié)構(gòu)圖
(10)“文獻”類的劃分
按照文獻研究的目的,從文獻的類型對搜集到的 “江海文化”相關(guān)的研究文獻進行細分,主要可以將 “文獻名”劃分為 “圖書專著”、“地方史志”、“期刊論文”、“學位論文”、“會議論文”、“報刊雜志”、“工具書”和 “網(wǎng)絡資源”8個子類。(如圖11所示)
圖11 “文獻”層次結(jié)構(gòu)圖
3.4“江海文化”本體構(gòu)建
3.4.1構(gòu)建類及其層次體系結(jié)構(gòu)
選擇Protégé本體構(gòu)建工具,遵循自頂向下的本體構(gòu)建原則構(gòu)建 “江海文化”知識本體,并利用OWL語言本體描述語言對 “江海文化”文獻知識本體進行編碼,轉(zhuǎn)為計算機可識別的語言并對本體加以存儲。最終在Protégé界面中可以查看到如圖12所示的整體層次體系圖。
圖12 “江海文化”文獻本體層次結(jié)構(gòu)
3.4.2定義屬性及其分面
屬性及其約束與限制確定取決于每個概念自身的特性以及與其他概念集之間的關(guān)系。本體的屬性分為數(shù)據(jù)屬性和對象屬性兩種類型。數(shù)據(jù)屬性又稱為概念的內(nèi)在屬性 ,描述的是概念自身特性,其值域只能是某一數(shù)據(jù)類型,如string、float、int、any等。對象屬性亦稱為概念的外在屬性,描述概念之間的相互聯(lián)系,可以將不同的類,類與實例相關(guān)聯(lián) ,是本體推理的重要語義基礎。如 “人物”的對象屬性 “血緣關(guān)系”描述了兩個人名類實例之間的父子、兄弟、祖孫等關(guān)系 ,“參與事件”將 “人物”類和 “事件”類相關(guān)聯(lián) ,“出生地點”將 “人物”類與 “地名”類相關(guān)聯(lián) ,“出生/去世/任職時間”將 “人物”類和 “時間”類相關(guān)聯(lián)等等 ,通過創(chuàng)建這些對象屬性可以使相同的或不同的概念聯(lián)系到一起 ,概念集以及其相互之間的關(guān)系共同搭建起本體的知識網(wǎng)絡。表2列舉了 “江海文化”文獻本體中主要屬性和關(guān)聯(lián)。
3.4.3添加實例
通過對所搜集到的 “江海文化”文獻知識的整理研究 ,采用人工評估取舍的方法,最終錄入了共880個實例,其中人物類實例220個,事件類40個,地點類23個,建筑類116個,時間類69個 ,方言類53個,非物質(zhì)文化遺產(chǎn)39個,風俗類110個,文獻類143個,機構(gòu)類67個。表3列舉了 “江海文化”文獻知識本體中的部分實例。
表2 屬性關(guān)聯(lián)結(jié)構(gòu)表
表3 “江海文化”文獻知識本體中實例舉例
確定了類的屬性及其值域與定義域等約束,則在實例編輯界面可直接添加每個實例的屬性關(guān)系,具體如圖13所示,通過設置這些關(guān)系為后續(xù)的知識推理做好鋪墊。此外 ,還可在編輯界面中對所添加的實例做附加說明 ,使本體庫的知識內(nèi)容更加豐富與完整。
圖13 Protégé中的實例編輯界面
3.5知識檢索和可視化展現(xiàn)
在Protégé中打開SPARQL查詢面板,通過輸入相關(guān)查詢語言即可查詢 “江海文化”知識本體中的語義關(guān)系。例如查詢通過屬性 “創(chuàng)作了”關(guān)聯(lián)起來的文獻及文獻作者,其結(jié)果顯示圖部分如圖14所示:
圖14 文獻創(chuàng)作關(guān)聯(lián)查詢結(jié)果
同時利用Protégé中的Ontograf插件可以網(wǎng)狀結(jié)構(gòu)圖的形式形象化展現(xiàn)父類與子類間的關(guān)系以及實例之間的關(guān)聯(lián)。例圖15中可以鮮明地看到 “江海文化”知識本體中 “人物”類與其子類之間的從屬關(guān)系 ,“文獻作者”的所有實例以及不同類之間的相互關(guān)聯(lián)。
基于本體的 “江海文化”知識組織體系構(gòu)建工作基本完成后,我們可以利用建好的本體庫進行知識推理挖掘。本體中通過不同的屬性建立了多種多樣的聯(lián)系,有些關(guān)系可通過可視化關(guān)系圖清楚地展現(xiàn)出來,而有些關(guān)系卻隱藏其中 ,需要利用一定的推理思維。例如 “江海文化”文獻知識中的建筑的同區(qū)域關(guān)系 ,“水繪園”和 “定慧禪寺”歸屬于不同的子類的實例 ,但都有坐落于 “如皋市”的屬性 ,及兩建筑歸屬于同一地理區(qū)域。通過設置推理規(guī)則,可以將這種關(guān)系直接體現(xiàn)出來。具體的方法即在Protégé中附加Jess推理引擎,通過構(gòu)建SWRL推理規(guī)則,實現(xiàn) “江海文化”文獻知識推理。本實例中,判定兩建筑歸屬于同一地理區(qū)域的SWRL規(guī)則代碼如下:
將上述SWRL規(guī)則與本體庫實例通過SwrlJessTab轉(zhuǎn)換
為Jess規(guī)則和實例后,調(diào)用Jess推理機進行推理,再將推理后的實例與關(guān)系轉(zhuǎn)換為OWL語言添加到本體庫中。具體處理過程如圖16所示。
圖15 可視化關(guān)系例圖
圖16 SWRLJessTab編輯處理界面
打開SPARQL查詢面板輸入以下查詢語言,即能推導出所有隱含的同區(qū)域建筑。
SELECT?建筑?同區(qū)域建筑 ?坐落地點
WHERE{
?建筑:同地理區(qū)域 ?同區(qū)域建筑 .
?建筑:坐落于 ?坐落地點 .
}
部分查詢結(jié)果如圖17所示。
可見,不同的建筑和通過同一地理位置相互關(guān)聯(lián),通過知識組織和推理有助于發(fā)現(xiàn)同一空間區(qū)域的建筑分布 ,對同地域的建筑進行關(guān)聯(lián)分析進而有利于對該地域的建筑特點及建筑歷史的研究。
再比如,通過構(gòu)建相應的推理規(guī)則可以整理出那些同年出版或發(fā)表的文獻,圖18是利用SPARQL查詢出的同年出版的文獻結(jié)果。
從時間角度對研究文獻進行梳理 ,有助于發(fā)現(xiàn)同一時間域內(nèi)大多研究者對 “江海文化”這一領(lǐng)域的研究重點;同時通過對研究文獻相關(guān)知識的推理,還可直接歸納出同研究主題的作者、同一作者在不同時間內(nèi)對 “江海文化”的主要研究范圍以及作者歸屬同機構(gòu)等更多隱含的關(guān)系。通過將這些隱性知識顯性化 ,不僅可以豐富 “江海文化”知識本體的內(nèi)容 ,同時也有助于拓展研究者的研究視角和思路,深化其主題研究。
本文基于本體工程的相關(guān)理論和方法對 “江海文化”這一獨具特色的地域性文化進行研究 ,在參考前人的研究內(nèi)容以及本體構(gòu)建需求基礎上 ,以 “江海文化”研究文獻知識為素材 ,抽取主要概念并對概念的層次結(jié)構(gòu)進行劃分 ,創(chuàng)建不同概念的屬性、關(guān)系及實例 ,最終完成了基于本體的 “江海文化”文獻知識組織體系構(gòu)建工作,在此基礎上實現(xiàn)了 “江海文化”文獻實例知識的關(guān)聯(lián)分析與推理查詢。本研究將有益于推動知識組織方法在地方文化領(lǐng)域的數(shù)字化研究 ,推動地域傳統(tǒng)文化的傳承與發(fā)展。
此外,本體構(gòu)建研究在國內(nèi)尚未形成統(tǒng)一的認識和構(gòu)建標準,其相關(guān)概念、屬性以及關(guān)聯(lián)規(guī)則仍需各領(lǐng)域?qū)<覅⑴c協(xié)商與界定。本文的局限之處在于,雖參考了大量文獻資源但構(gòu)建過程中仍難免無法精確把握所有的概念分類和屬性界定標準。筆者認為,知識組織體系構(gòu)建是一項需多方智慧合力參與的工作,本文亦是拋磚引玉 ,希望 “江海文化”研究領(lǐng)域的專家學者能加強交流、協(xié)作,共同完善本課題研究成果。
圖17 同地理區(qū)域建筑的查詢結(jié)果
圖18 同年出版的文獻查詢結(jié)果
參考文獻
[1]蔣永福 ,付小紅 .知識組織論 :圖書情報學的理論基礎[J].圖書館建設 ,2000,(4):14-17.
[2]李寧 ,宋文 .對于知識組織體系概念以及構(gòu)建模式的一些思考[J].圖書情報工作 ,2005,49(10):37.
[3]馬文峰 ,杜小勇 .關(guān)于知識組織體系的若干理論問題 [J].中國圖書館學報 ,2007,(2):13-17.
[4]T.R.Gruber.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,(5):199-220.
[5]廖作芳.《三國志》歷史領(lǐng)域本體的構(gòu)建與推理研究 [D].武漢 :華中師范大學 ,2011:18.
[6]Noy N F,McGuinness D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford:Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.
[7]劉宇松 .本體構(gòu)建方法和開發(fā)工具研究[J].現(xiàn)代情報 , 2009,29(9):17-24.
[8]Ian Horroeks.OWL:A Description Logic Based Ontology Language. In:Logic programming.Springer Berlin:Heidelberg,2005:1-4.
[9]OWL Web Ontology Language Guide[EB/OL].http:∥www.w3. org/TR/2004/REC-owl-guide-20040210/,2004-02-10.
[10]曹琳 .江海文化論綱 [J].藝術(shù)百家 ,2002,(1):125-127.
[11]陳金淵 ,陳炅(校補).南通成陸[M].蘇州 :蘇州大學出版社 ,2010:江海文化總序2-3.
[12]豐武坤 .南通文化研究 [M].南京 :南京大學出版社 ,2010:214-218.
[13]冒健 .南通文化選講[M].南京 :南京師范大學出版社 ,2011:151-171.
[14]陳昌海 ,閆曼,余建華.南通方言分區(qū)研究 [J].廣播電視大學學報 :哲學社會科學版 ,2010,(3):101-105.
[15]黃振平 .江海記憶——南通市第一批非物質(zhì)文化遺產(chǎn)概覽[M].西安 :陜西人民出版社 ,2009.
(本文責任編輯:孫國雷)
?信息資源開發(fā)與利用?
Knowledge Organization System Construction of“the River-and-Sea Culture”Documents Based on Ontology
Xu Chenfei1Ni Yuan2Qiang Zhiyong3
(1.School of Management,Nantong University,Nantong 226019,China;2.Southeast University-Monash University Joint Graduate School,Suzhou 215123,China;3.Library,Nantong University,Nantong 226019,China)
〔Abstract〕This paper applied the method of ontology engineering to the organization of“the River-and-Sea culture”documents knowledge.To develop the knowledge organization system,the paper extracted the major elements of research literature such as author,document name,agency,year as well as the knowledge element in the content of the document like people,places,events,architecture,dialects,customs and non-material cultural heritage,based on various types of“the River-and -Sea culture”research documents the paper have collected.The paper respected that it will promote the study of“the Riverand-Sea culture”and accelerated the heritage and development of the culture of Nantong.
〔Key words〕the River-and-Sea Culture;knowledge organization system;ontology construction;knowledge reasoning
作者簡介:徐晨飛 (1981-),男 ,講師 ,研究方向:數(shù)據(jù)挖掘 ,數(shù)字人文。book=63,ebook=65法不足以完全滿足數(shù)字知識組織的需求。本體是對領(lǐng)域知識的抽象和規(guī)范描述,可以準確描述概念的含義并構(gòu)建豐富的知識關(guān)聯(lián),具有較高的邏輯推理能力,有利于挖掘概念間的隱含關(guān)系。本課題將本體構(gòu)建作為文獻知識組織的技術(shù)和方法 ,不但可對 “江海文化”的空間構(gòu)成與歷史演進進行梳理 ,還可推動 “江海文化”研究的深化與文獻資源組織方式的創(chuàng)新。
基金項目:南通市哲學社會科學研究資助基金項目“基于本體的 ‘江海文化’文獻知識組織體系構(gòu)建研究”(項目編號 :2015CNT027)研究成果之一。
收稿日期:2015-08-29
〔中圖分類號〕G253
〔文獻標識碼〕A
〔文章編號〕1008-0821(2015)10-0062-10
DOI:10.3969/j.issn.1008-0821.2015.10.012