陳威宇,姜 贏,羅盛亨,黃嘉文,吳昊馳
(北京師范大學珠海分校 管理學院,珠海 519087)
基于知識圖譜的香山文化信息組織與檢索系統(tǒng)①
陳威宇,姜 贏,羅盛亨,黃嘉文,吳昊馳
(北京師范大學珠海分校 管理學院,珠海 519087)
香山文化的內(nèi)涵包含多種元素,內(nèi)容極其豐富,但是相關(guān)研究孤立分散主要原因在于缺乏系統(tǒng)性的信息組織.在概述知識圖譜信息組織應用基礎之上,提出基于知識圖譜的香山文化信息組織思路.利用骨架法構(gòu)建了基于本體的香山文化知識圖譜,建立了香山文化分散研究要點之間的關(guān)聯(lián).基于知識圖譜的香山文化檢索系統(tǒng)通過可視化方式展現(xiàn)香山文化中復雜的知識點和知識關(guān)系,勾勒出香山文化總體輪廓.基于知識圖譜的信息組織在處理領(lǐng)域復雜關(guān)系的分析與挖掘上有一定優(yōu)勢,知識圖譜檢索系統(tǒng)可視化模式豐富多彩、特色鮮明.
香山文化;知識圖譜;信息組織;檢索系統(tǒng)
香山文化在地緣上是指包括今天的中山、珠海、澳門在內(nèi)的地域文化.它在本質(zhì)上集中體現(xiàn)了嶺南文化中粵、閩、客三大民系的文化特征,是中原文化、土著文化、西洋文化、南洋文化相互碰撞和不斷融合的產(chǎn)物,是相對嶺南文化而言的子文化,是嶺南文化的重要組成部分[1].2006年首發(fā)的《香山文化——歷史投影與現(xiàn)實鏡像》一書,率先提出了香山文化這一概念[2],社會各界尤其是學術(shù)界、新聞界對此給予廣泛關(guān)注.同年由廣東省社會科學界聯(lián)合會主辦“香山文化學術(shù)研討會”[3],86篇會議論文涉及香山文化的基本概念、本質(zhì)特征、演變軌跡、歷史名人、香山文化的傳承與創(chuàng)新、香山文化研究的理論與方法等方面.
2006年香山文化概念提出半年即“躥紅”,但隨后迅速降溫,近幾年相關(guān)研究越來越少,猶如曇花一現(xiàn).可見,香山文化“立得住”是做到了,但“推得開”有一定困難,更是沒有達到“影響大”的層次.究其原因,主要在于香山文化研究內(nèi)容分散,缺乏系統(tǒng)性.香山文化的內(nèi)涵包含多種元素,內(nèi)容極其豐富,大多數(shù)學者從各自研究領(lǐng)域出發(fā),針對香山文化的某一個方面進行研究[4](例如:香山民俗、香山方言、香山買辦、香山華僑、香山商業(yè)、香山文化),研究內(nèi)容較為分散,難以反映香山文化全貌.因此,需要通過系統(tǒng)性的研究,利用信息組織技術(shù)建立分散研究要點之間的關(guān)聯(lián),勾勒香山文化總體輪廓,歸納總結(jié)香山文化更加全面而宏觀的文化精神.
另外,研究香山文化的學者大多數(shù)是歷史、社會等人文學科領(lǐng)域的專家和教授,研究方法僅限于傳統(tǒng)文獻調(diào)查、實地調(diào)研,案例實證分析等等[5,6].本文提出發(fā)揮交叉學科的優(yōu)勢,利用數(shù)學、信息科學成熟的技術(shù)(例如:數(shù)據(jù)挖掘、信息組織、知識組織、知識推理等)對香山文化進行更為量化的分析和研究,揭示香山文化現(xiàn)象與文化本質(zhì)之間的更深層次的因果邏輯,為當今大香山經(jīng)濟圈的文化發(fā)展提供借鑒.
2010年初,以Google公司為代表的研究機構(gòu)提出知識圖譜(Knowledge Graph)的概念與實現(xiàn)框架[7].知識圖譜以本體(Ontology)技術(shù)為核心[8],通過將應用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論與方法結(jié)合,并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達到多學科融合后的的現(xiàn)代理論.知識譜圖特別適合于解決內(nèi)容關(guān)系復雜領(lǐng)域的知識管理問題,在國內(nèi)外醫(yī)療衛(wèi)生、電子商務、生物化學、國防軍事、人文歷史等各個領(lǐng)域?qū)⒂袕V泛的應用.其中,知識圖譜在國內(nèi)外歷史文化遺產(chǎn)保護的典型應用案例較多.例如,CultureSampo[9](芬蘭歷史知識圖譜)是芬蘭政府2010年建設的文化公共發(fā)布門戶網(wǎng)站,它利用本體映射技術(shù)和本體推理技術(shù),將來自芬蘭20個博物館、圖書館、檔案館中的素材整合,建立成芬蘭歷史知識圖譜.后前總共容納了 128,714 件芬蘭文化遺產(chǎn)物件,包括博物館藏品、歷史照片、地圖、油畫、詩歌、古籍、民歌等,還包括276,681個歷史事件、人物、地點、時間等抽象文化概念知識.它提供基于知識圖譜的查詢服務:在文化遺產(chǎn)物件及抽象文化概念知識之間推薦和跳轉(zhuǎn),查詢歷史人物之間的知識關(guān)聯(lián),查詢用戶地理位置周邊的文化遺產(chǎn)物件,以時間軸為線索瀏覽芬蘭重要歷史時間及相關(guān)文化遺產(chǎn)物件.2012年武漢大學信息資源研究中心與中華書局合作項后“中華史籍分析系統(tǒng)”[10],對二十四史中的人物、時間、地點實體進行了全面標注.該系統(tǒng)自建知識圖譜記錄總共268491條.知識庫構(gòu)建知識類122個、對象屬性32個、數(shù)據(jù)屬性28個,推理屬性15個和實例179503個,時空分析人物308個,地圖地點標注12736個.Google、Facebook等國外知名互聯(lián)網(wǎng)公司是知識圖譜的倡導者.Google公司已建立了5億個對象,35億個事實和關(guān)系,足以證明知識圖譜技術(shù)的可行性.隨后,國內(nèi)百度、搜狗以及復旦大學GDM實驗室相繼推出了其中文知識圖譜,可見知識圖譜在中文領(lǐng)域應用的可行性[11].
在此背景下,本文提出以挖掘、研究、弘揚香山文化為主旨,利用現(xiàn)代信息組織技術(shù)手段構(gòu)建香山文化知識圖譜及檢索系統(tǒng),不僅僅是對歷史進行系統(tǒng)全面的梳理和對歷史文化遺產(chǎn)保護,更重要的是力求通過弘揚和傳承,對大香山經(jīng)濟圈的經(jīng)濟和社會發(fā)展起到促進作用.
知識圖譜的理論模型主要包含知識分類、知識點,知識屬性、知識屬性值、知識點之間關(guān)聯(lián).領(lǐng)域中經(jīng)常出現(xiàn)的詞匯,這些詞匯就是知識點.由于知識點很多,需要分門別類組織一下,知識分類可以有多層,最終形成一個樹形結(jié)構(gòu).知識點表達具體個體的概念;知識分類表達抽象分類的概念.為了更深入細致的描述知識點,可以為知識點添加知識屬性.知識屬性是描述知識點的某個方面.什么樣的知識點具有什么樣的知識屬性,是根據(jù)知識點所歸屬的知識分類來確定的.可以用知識屬性來描述某個知識點,并將某個知識屬性值賦予這個知識屬性,形成一個完整的對知識點的描述.知識屬性和知識屬性值都是用來描述知識點:知識屬性與某個知識分類關(guān)聯(lián),可以被歸屬于該知識分類的知識點所共享重用;知識屬性值與某個知識點關(guān)聯(lián),只能和某個知識屬性一起組合起來描述一個知識點.知識屬性和知識屬性值是對知識點的內(nèi)部特征的描述,而知識關(guān)系也是用來描述知識點的,只不過它所描述的是知識點對外關(guān)系/關(guān)聯(lián)(與誰關(guān)聯(lián)以及如何關(guān)聯(lián)).知識屬性和知識關(guān)系有類似的特征:什么樣的知識點之間具有什么樣的知識關(guān)系,是根據(jù)知識點所歸屬的知識分類來確定的.知識關(guān)系所關(guān)聯(lián)的對象就是知識點.所以知識關(guān)系值,也就是“賓語”(Object)本身就是知識點.即知識關(guān)系關(guān)聯(lián)了知識點與知識點.而知識屬性可以理解為知識點,與字符串、數(shù)值等之間的關(guān)聯(lián).
將所收集的香山文化知識點進行分類,得到14個知識分類:歷史事件、地點(行政區(qū)域)、學校、文化遺存、香山人物、組織機構(gòu)、文學、藝術(shù)、時間、稱號、職務、飲食文化、香山方言、香山民俗.經(jīng)過這樣的劃分,知識圖譜的架構(gòu)體系以及脈絡十分清晰,從多維度出發(fā),而且分類細膩,基本涵蓋了香山文化的所有內(nèi)容.這有助于我們能更清晰地研究香山文化.具體來說,山文化知識圖譜的框架設計包括以下知識分類:
歷史事件:軍事事件、政治事件、教育事件、文化事件、社會事件、科技事件、經(jīng)濟事件、自然事件.
組織機構(gòu):軍事組織、國際組織、工商機構(gòu)、政府機構(gòu)、文化教育機構(gòu)(這個又可分為宗教組織和教育單位)、社會組織、社會群體、經(jīng)濟組織(個體商店和公司企業(yè)).
香山人物:世紀偉人、鄉(xiāng)賢俊彥、買辦家族(唐、徐、莫、鄭四大家族)、從商人士、軍政要人、華僑華人、思想先驅(qū)、文化名家、留學人士、航空翹楚、英烈志士、香山居民.
時間按照具體的時間點和時間段添加子類,以具體的年份作為知識點.地點以行政區(qū)域進行子類劃分.藝術(shù)、文學以作品類型添加子類.學校以在讀和畢業(yè)分開.香山方言以語系的不同進行劃分.香山民俗按照習慣活動、禮節(jié)、節(jié)日以及藝術(shù)進行子類劃分.飲食文化以烹飪方式、飲食方式以及具體的美食相關(guān)進行子類劃分.
如圖1所示,香山文化的買辦文化板塊中,近代中國著名的買辦、實業(yè)家徐氏家族在中國早期工業(yè)化的過程中起到的積極作用:1872年李鴻章委派唐廷樞為總辦,徐潤、盛宣懷為會辦,改組輪船招商總局,徐潤統(tǒng)管財務賬后、人事大權(quán);1877年招商總局吞并了當時輪船運輸業(yè)的老大——美國旗昌輪船,增加了碼頭和船只,擴大了經(jīng)營,成為能與太古輪船公司抗衡的唯一對手,后來還不斷投資大型企業(yè),包括投資張之洞在漢陽創(chuàng)辦的湖北鐵廠等企業(yè).
圖1 香山文化知識圖譜信息組織示例圖
首先對香山文化資料收集與梳理:香山文化文獻資料特別是晚清到民國間香山文獻數(shù)量之宏大,內(nèi)容之豐富,在廣東省名列前茅,這是大香山經(jīng)濟圈最大的文化資源,是香山文化的根基,也是了解和詮釋香山文化的重要依據(jù),只有摸清楚了香山文獻的家底,對其有了更深入更真切的了解,才能夠?qū)ο闵轿幕暮N有更準確、清晰的把握和界定,為香山文化知識圖譜的構(gòu)建與挖掘打下基礎.作為原始文獻資料收集的補充,利用田野考古的形式,深入基層、深入民間調(diào)研,包括中山、珠海諸多村莊,深入澳門、東莞、順德、江門等地,尋訪名人故居、名人墳墓,訪問知情人士,記錄口述史料和真情實感,收集大量第一手資料.
接下來,從收集到的香山文化資料挖掘出香山文化知識分類、知識點、知識屬性和知識屬性值,最終建立香山文化知識圖譜.香山文化的常見的詞匯需要按照這種知識模型組織起來,建立起香山文化知識圖譜.
最后,本項后香山文化知識圖譜服務平臺采取MVC模式構(gòu)建了B/S應用系統(tǒng).具體來說,后臺使用Jena TDB數(shù)據(jù)庫作為知識圖譜持久化的工具,利用Jena的RDF API對知識圖譜進行讀寫操作.筆者研發(fā)的中間件嵌入到Struts框架作為業(yè)務邏輯層,提供知識圖譜索、檢索、提取和推理等核心功能API.特別在檢索部分還使用Lucene對知識分類、知識點、知識屬性、知識屬性值和知識關(guān)系的LocalName進行索,能夠?qū)崿F(xiàn)模糊檢索.系統(tǒng)前臺使用D3.js工具將三元組轉(zhuǎn)換成結(jié)點和邊,最終使用Javascript構(gòu)建出知識圖譜檢索結(jié)果的Graph圖.
香山文化知識圖譜的構(gòu)建,是知識圖譜構(gòu)建人員和文化領(lǐng)域?qū)<夜餐Φ某晒?筆者邀請了中山大學的一位歷史系教授以及北京師范大學珠海分校的一位研究歷史文化的教師參與我們的香山文化知識圖譜構(gòu)建.他們對整合好的香山文化知識圖譜原始資料庫進行人工篩選和補充,最終建立知識圖譜中所有知識點.在這個過程中,他們細致而專業(yè)的歷史文化理論知識使我們能夠順利地完成知識圖譜本體庫的構(gòu)建.
Protégé[12]軟件是斯坦福大學基于Java語言開發(fā)的本體編輯和知識獲取軟件,或者說是本體開發(fā)工具,也是基于知識的編輯器,屬于開放源代碼軟件[13].它提供了大量的知識模型與動作,可以創(chuàng)建并操作各種表現(xiàn)形式的本體.Protégé已成為后前使用最廣泛的本體論編輯器之一,是一套用于對本體知識進行描述、表達和推理的軟件.它擁有一個靈活的架構(gòu),支持插件開發(fā),并且提供了一套 Java API供編程人員使用[14].筆者可以利用這個開源軟件,實現(xiàn)香山文化知識圖譜的構(gòu)建.基于protégé的香山文化本體庫的構(gòu)建實現(xiàn)如圖2所示.最終,香山文化知識圖譜構(gòu)建有110個知識分類(class),其中包括4個父類(superclass)和106個子類(subclass),以及2482個知識點(individual)和67條關(guān)系屬性(property),經(jīng)過統(tǒng)計香山文化本體已經(jīng)包含了3740條本體數(shù)據(jù)記錄.
圖2 基于 Protégé的香山文化知識圖譜構(gòu)建
在設計并構(gòu)建好香山文化知識圖譜之后,筆者研發(fā)了基于知識圖譜的香山文化檢索系統(tǒng),并使用了D3.js工具來實現(xiàn)知識圖譜的可視化效果.在研發(fā)過程中,筆者利用具名圖對香山文化知識圖譜中由RDF三元組描述的資源進行四元組拓展,為它們加入時間維度描述,即變成“
例如,通過在圖譜中檢索“馬應彪”,會出現(xiàn)與馬應彪相關(guān)的知識點、知識屬性和知識關(guān)系,如圖3所示.
圖3 基于知識圖譜的香山文化檢索系統(tǒng)
如圖4所示,以“馬應彪于1900年創(chuàng)辦了先施公司”、“馬景華在2014年經(jīng)營先施公司”、“馬景煊就任現(xiàn)任先施公司董事長”、“馬景煊與馬景華是堂兄弟關(guān)系”這四個為例,來展示知識圖譜的古今演化效果.
圖4 香山文化知識圖譜時空演化“今”效果圖
本文提出利用信息組織的成熟技術(shù)對香山文化進行定性和定量相結(jié)合的分析和研究,構(gòu)建了一個涵蓋香山文化各個方面內(nèi)容的香山文化知識圖譜,力求解決香山文化相關(guān)的歷史人物、歷史事件、文化遺產(chǎn)等復雜關(guān)系的描述、組織、檢索和等知識管理技術(shù)問題,豐富了文化遺產(chǎn)保護與開發(fā)的技術(shù)手段.
1 胡波.香山文化的現(xiàn)代詮釋.學術(shù)研究,2006,(6):115–121.
2 趙立彬.文化自覺:從文化學視角看香山文化研究的意義——兼評《香山文化——歷史投影與現(xiàn)實鏡像》.廣東社會科學,2007,(2):122–128.
3 王杰,胡波.香山文化顯芳華——香山文化學術(shù)研討會綜述.學術(shù)研究,2007,(10):151–155.[doi:10.3969/j.issn.1000-7326.2007.10.026]
4 張文平.淺析香山的商業(yè)文化與買辦文化.文史博覽(理論),2011,(7):25–26.
5 尹緒忠.論香山文化對近代中國政治發(fā)展的啟蒙作用.學術(shù)研究,2007,(5):144–149.
6 李芳清.香山文化:中國近代文化的奠基石.廣東社會科學,2007,(6):124–129.
7 Singhal A.Introducing the knowledge graph:Things,not strings.https://mondaybynoon.com/introducing-theknowledge-graph-things-not-strings/.[2016-03-20].
8 Grau B,Horrocks I,Motik B,et al.OWL 2:The next step for OWL.Web Semantics:Science,Services and Agents on the World Wide Web,2008,6(4):309–322.[doi:10.1016/j.websem.2008.05.001]
9 M?kel? E,Hyv?nen E,Ruotsalo T.How to deal with massively heterogeneous cultural heritage data:Lessons learned in CultureSampo.Semantic Web,2012,3(1):85–109.
10 董慧,徐雷,王菲,等.基于語義系統(tǒng)的中華史籍分析研究.圖書館理論與實踐,2015,(4):1–5,46.
11 百度下一代搜索擎雛形曝光 應用知識圖譜技術(shù).電腦編程技巧與維護,2013,(19):4.
12 Stanford University School of Medicine.What is protégé.http://protege.stanford.edu/overview.[2012-12-01].
13 鄧仲華,黃鑫,陸穎雋,等.論中文古籍版本本體庫的構(gòu)建.圖書情報知識,2014,(4):80–87,93.
14 何來坤,繆健美,劉禮芳,等.基于 Ontology 與 Jena 的研究綜述.杭州師范大學學報(自然科學版),2013,12(5):467–473.
Xiangshan Culture Information Organization and Retrieval System Based on Knowledge Graph
CHEN Wei-Yu,JIANG Ying,LUO Sheng-Heng,HUANG Jia-Wen,WU Hao-Chi
(School of Management,Beijing Normal University,Zhuhai 519087,China)
Xiangshan Culture has multiple elements and rich contents,but the isolation and the scattering of each research is due to the lack of systematic information organization.After summarizing the applications of knowledge graph information organization,this paper provides a method of Xiangshan Culture information organization based on knowledge graph.By using the Bone-method,the knowledge graph of Xiangshan Culture has been built based on ontology,with the connections among the scattered research topics of Xiangshan Culture.The knowledge graph-based Xiangshan Culture retrieval system visualizes complex knowledge instances and knowledge relations,in order to sketch the overall contours of Xiangshan Culture.The information organization based on knowledge graph has the advantage of analyzing and digging complex domain relations,while the knowledge graph retrieval system has vivid visualization models and distinctive features.
Xiangshan Culture;knowledge graph;information organization;retrieval system
陳威宇,姜贏,羅盛亨,黃嘉文,吳昊馳.基于知識圖譜的香山文化信息組織與檢索系統(tǒng).計算機系統(tǒng)應用,2017,26(9):82–86.http://www.cs-a.org.cn/1003-3254/5924.html
①基金項后:文化部科技創(chuàng)新項后(201505);廣東省自然科學基金(2016A030313386);廣東大學生科技創(chuàng)新培育專項資金(pdjh2017a0898)
2016-12-19;采用時間:2017-01-09