亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜的香山文化信息組織與檢索系統(tǒng)①

        2017-09-15 07:19:05陳威宇羅盛亨黃嘉文吳昊馳
        計算機系統(tǒng)應用 2017年9期
        關(guān)鍵詞:香山圖譜知識點

        陳威宇,姜 贏,羅盛亨,黃嘉文,吳昊馳

        (北京師范大學珠海分校 管理學院,珠海 519087)

        基于知識圖譜的香山文化信息組織與檢索系統(tǒng)①

        陳威宇,姜 贏,羅盛亨,黃嘉文,吳昊馳

        (北京師范大學珠海分校 管理學院,珠海 519087)

        香山文化的內(nèi)涵包含多種元素,內(nèi)容極其豐富,但是相關(guān)研究孤立分散主要原因在于缺乏系統(tǒng)性的信息組織.在概述知識圖譜信息組織應用基礎之上,提出基于知識圖譜的香山文化信息組織思路.利用骨架法構(gòu)建了基于本體的香山文化知識圖譜,建立了香山文化分散研究要點之間的關(guān)聯(lián).基于知識圖譜的香山文化檢索系統(tǒng)通過可視化方式展現(xiàn)香山文化中復雜的知識點和知識關(guān)系,勾勒出香山文化總體輪廓.基于知識圖譜的信息組織在處理領(lǐng)域復雜關(guān)系的分析與挖掘上有一定優(yōu)勢,知識圖譜檢索系統(tǒng)可視化模式豐富多彩、特色鮮明.

        香山文化;知識圖譜;信息組織;檢索系統(tǒng)

        香山文化在地緣上是指包括今天的中山、珠海、澳門在內(nèi)的地域文化.它在本質(zhì)上集中體現(xiàn)了嶺南文化中粵、閩、客三大民系的文化特征,是中原文化、土著文化、西洋文化、南洋文化相互碰撞和不斷融合的產(chǎn)物,是相對嶺南文化而言的子文化,是嶺南文化的重要組成部分[1].2006年首發(fā)的《香山文化——歷史投影與現(xiàn)實鏡像》一書,率先提出了香山文化這一概念[2],社會各界尤其是學術(shù)界、新聞界對此給予廣泛關(guān)注.同年由廣東省社會科學界聯(lián)合會主辦“香山文化學術(shù)研討會”[3],86篇會議論文涉及香山文化的基本概念、本質(zhì)特征、演變軌跡、歷史名人、香山文化的傳承與創(chuàng)新、香山文化研究的理論與方法等方面.

        2006年香山文化概念提出半年即“躥紅”,但隨后迅速降溫,近幾年相關(guān)研究越來越少,猶如曇花一現(xiàn).可見,香山文化“立得住”是做到了,但“推得開”有一定困難,更是沒有達到“影響大”的層次.究其原因,主要在于香山文化研究內(nèi)容分散,缺乏系統(tǒng)性.香山文化的內(nèi)涵包含多種元素,內(nèi)容極其豐富,大多數(shù)學者從各自研究領(lǐng)域出發(fā),針對香山文化的某一個方面進行研究[4](例如:香山民俗、香山方言、香山買辦、香山華僑、香山商業(yè)、香山文化),研究內(nèi)容較為分散,難以反映香山文化全貌.因此,需要通過系統(tǒng)性的研究,利用信息組織技術(shù)建立分散研究要點之間的關(guān)聯(lián),勾勒香山文化總體輪廓,歸納總結(jié)香山文化更加全面而宏觀的文化精神.

        另外,研究香山文化的學者大多數(shù)是歷史、社會等人文學科領(lǐng)域的專家和教授,研究方法僅限于傳統(tǒng)文獻調(diào)查、實地調(diào)研,案例實證分析等等[5,6].本文提出發(fā)揮交叉學科的優(yōu)勢,利用數(shù)學、信息科學成熟的技術(shù)(例如:數(shù)據(jù)挖掘、信息組織、知識組織、知識推理等)對香山文化進行更為量化的分析和研究,揭示香山文化現(xiàn)象與文化本質(zhì)之間的更深層次的因果邏輯,為當今大香山經(jīng)濟圈的文化發(fā)展提供借鑒.

        1 國內(nèi)外研究現(xiàn)狀

        2010年初,以Google公司為代表的研究機構(gòu)提出知識圖譜(Knowledge Graph)的概念與實現(xiàn)框架[7].知識圖譜以本體(Ontology)技術(shù)為核心[8],通過將應用數(shù)學、圖形學、信息可視化技術(shù)、信息科學等學科的理論與方法結(jié)合,并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達到多學科融合后的的現(xiàn)代理論.知識譜圖特別適合于解決內(nèi)容關(guān)系復雜領(lǐng)域的知識管理問題,在國內(nèi)外醫(yī)療衛(wèi)生、電子商務、生物化學、國防軍事、人文歷史等各個領(lǐng)域?qū)⒂袕V泛的應用.其中,知識圖譜在國內(nèi)外歷史文化遺產(chǎn)保護的典型應用案例較多.例如,CultureSampo[9](芬蘭歷史知識圖譜)是芬蘭政府2010年建設的文化公共發(fā)布門戶網(wǎng)站,它利用本體映射技術(shù)和本體推理技術(shù),將來自芬蘭20個博物館、圖書館、檔案館中的素材整合,建立成芬蘭歷史知識圖譜.后前總共容納了 128,714 件芬蘭文化遺產(chǎn)物件,包括博物館藏品、歷史照片、地圖、油畫、詩歌、古籍、民歌等,還包括276,681個歷史事件、人物、地點、時間等抽象文化概念知識.它提供基于知識圖譜的查詢服務:在文化遺產(chǎn)物件及抽象文化概念知識之間推薦和跳轉(zhuǎn),查詢歷史人物之間的知識關(guān)聯(lián),查詢用戶地理位置周邊的文化遺產(chǎn)物件,以時間軸為線索瀏覽芬蘭重要歷史時間及相關(guān)文化遺產(chǎn)物件.2012年武漢大學信息資源研究中心與中華書局合作項后“中華史籍分析系統(tǒng)”[10],對二十四史中的人物、時間、地點實體進行了全面標注.該系統(tǒng)自建知識圖譜記錄總共268491條.知識庫構(gòu)建知識類122個、對象屬性32個、數(shù)據(jù)屬性28個,推理屬性15個和實例179503個,時空分析人物308個,地圖地點標注12736個.Google、Facebook等國外知名互聯(lián)網(wǎng)公司是知識圖譜的倡導者.Google公司已建立了5億個對象,35億個事實和關(guān)系,足以證明知識圖譜技術(shù)的可行性.隨后,國內(nèi)百度、搜狗以及復旦大學GDM實驗室相繼推出了其中文知識圖譜,可見知識圖譜在中文領(lǐng)域應用的可行性[11].

        在此背景下,本文提出以挖掘、研究、弘揚香山文化為主旨,利用現(xiàn)代信息組織技術(shù)手段構(gòu)建香山文化知識圖譜及檢索系統(tǒng),不僅僅是對歷史進行系統(tǒng)全面的梳理和對歷史文化遺產(chǎn)保護,更重要的是力求通過弘揚和傳承,對大香山經(jīng)濟圈的經(jīng)濟和社會發(fā)展起到促進作用.

        2 基于知識圖譜的香山文化信息組織

        2.1 香山文化知識圖譜的主要內(nèi)容

        知識圖譜的理論模型主要包含知識分類、知識點,知識屬性、知識屬性值、知識點之間關(guān)聯(lián).領(lǐng)域中經(jīng)常出現(xiàn)的詞匯,這些詞匯就是知識點.由于知識點很多,需要分門別類組織一下,知識分類可以有多層,最終形成一個樹形結(jié)構(gòu).知識點表達具體個體的概念;知識分類表達抽象分類的概念.為了更深入細致的描述知識點,可以為知識點添加知識屬性.知識屬性是描述知識點的某個方面.什么樣的知識點具有什么樣的知識屬性,是根據(jù)知識點所歸屬的知識分類來確定的.可以用知識屬性來描述某個知識點,并將某個知識屬性值賦予這個知識屬性,形成一個完整的對知識點的描述.知識屬性和知識屬性值都是用來描述知識點:知識屬性與某個知識分類關(guān)聯(lián),可以被歸屬于該知識分類的知識點所共享重用;知識屬性值與某個知識點關(guān)聯(lián),只能和某個知識屬性一起組合起來描述一個知識點.知識屬性和知識屬性值是對知識點的內(nèi)部特征的描述,而知識關(guān)系也是用來描述知識點的,只不過它所描述的是知識點對外關(guān)系/關(guān)聯(lián)(與誰關(guān)聯(lián)以及如何關(guān)聯(lián)).知識屬性和知識關(guān)系有類似的特征:什么樣的知識點之間具有什么樣的知識關(guān)系,是根據(jù)知識點所歸屬的知識分類來確定的.知識關(guān)系所關(guān)聯(lián)的對象就是知識點.所以知識關(guān)系值,也就是“賓語”(Object)本身就是知識點.即知識關(guān)系關(guān)聯(lián)了知識點與知識點.而知識屬性可以理解為知識點,與字符串、數(shù)值等之間的關(guān)聯(lián).

        將所收集的香山文化知識點進行分類,得到14個知識分類:歷史事件、地點(行政區(qū)域)、學校、文化遺存、香山人物、組織機構(gòu)、文學、藝術(shù)、時間、稱號、職務、飲食文化、香山方言、香山民俗.經(jīng)過這樣的劃分,知識圖譜的架構(gòu)體系以及脈絡十分清晰,從多維度出發(fā),而且分類細膩,基本涵蓋了香山文化的所有內(nèi)容.這有助于我們能更清晰地研究香山文化.具體來說,山文化知識圖譜的框架設計包括以下知識分類:

        歷史事件:軍事事件、政治事件、教育事件、文化事件、社會事件、科技事件、經(jīng)濟事件、自然事件.

        組織機構(gòu):軍事組織、國際組織、工商機構(gòu)、政府機構(gòu)、文化教育機構(gòu)(這個又可分為宗教組織和教育單位)、社會組織、社會群體、經(jīng)濟組織(個體商店和公司企業(yè)).

        香山人物:世紀偉人、鄉(xiāng)賢俊彥、買辦家族(唐、徐、莫、鄭四大家族)、從商人士、軍政要人、華僑華人、思想先驅(qū)、文化名家、留學人士、航空翹楚、英烈志士、香山居民.

        時間按照具體的時間點和時間段添加子類,以具體的年份作為知識點.地點以行政區(qū)域進行子類劃分.藝術(shù)、文學以作品類型添加子類.學校以在讀和畢業(yè)分開.香山方言以語系的不同進行劃分.香山民俗按照習慣活動、禮節(jié)、節(jié)日以及藝術(shù)進行子類劃分.飲食文化以烹飪方式、飲食方式以及具體的美食相關(guān)進行子類劃分.

        如圖1所示,香山文化的買辦文化板塊中,近代中國著名的買辦、實業(yè)家徐氏家族在中國早期工業(yè)化的過程中起到的積極作用:1872年李鴻章委派唐廷樞為總辦,徐潤、盛宣懷為會辦,改組輪船招商總局,徐潤統(tǒng)管財務賬后、人事大權(quán);1877年招商總局吞并了當時輪船運輸業(yè)的老大——美國旗昌輪船,增加了碼頭和船只,擴大了經(jīng)營,成為能與太古輪船公司抗衡的唯一對手,后來還不斷投資大型企業(yè),包括投資張之洞在漢陽創(chuàng)辦的湖北鐵廠等企業(yè).

        圖1 香山文化知識圖譜信息組織示例圖

        2.2 香山文化知識圖譜構(gòu)建的基本思路

        首先對香山文化資料收集與梳理:香山文化文獻資料特別是晚清到民國間香山文獻數(shù)量之宏大,內(nèi)容之豐富,在廣東省名列前茅,這是大香山經(jīng)濟圈最大的文化資源,是香山文化的根基,也是了解和詮釋香山文化的重要依據(jù),只有摸清楚了香山文獻的家底,對其有了更深入更真切的了解,才能夠?qū)ο闵轿幕暮N有更準確、清晰的把握和界定,為香山文化知識圖譜的構(gòu)建與挖掘打下基礎.作為原始文獻資料收集的補充,利用田野考古的形式,深入基層、深入民間調(diào)研,包括中山、珠海諸多村莊,深入澳門、東莞、順德、江門等地,尋訪名人故居、名人墳墓,訪問知情人士,記錄口述史料和真情實感,收集大量第一手資料.

        接下來,從收集到的香山文化資料挖掘出香山文化知識分類、知識點、知識屬性和知識屬性值,最終建立香山文化知識圖譜.香山文化的常見的詞匯需要按照這種知識模型組織起來,建立起香山文化知識圖譜.

        最后,本項后香山文化知識圖譜服務平臺采取MVC模式構(gòu)建了B/S應用系統(tǒng).具體來說,后臺使用Jena TDB數(shù)據(jù)庫作為知識圖譜持久化的工具,利用Jena的RDF API對知識圖譜進行讀寫操作.筆者研發(fā)的中間件嵌入到Struts框架作為業(yè)務邏輯層,提供知識圖譜索、檢索、提取和推理等核心功能API.特別在檢索部分還使用Lucene對知識分類、知識點、知識屬性、知識屬性值和知識關(guān)系的LocalName進行索,能夠?qū)崿F(xiàn)模糊檢索.系統(tǒng)前臺使用D3.js工具將三元組轉(zhuǎn)換成結(jié)點和邊,最終使用Javascript構(gòu)建出知識圖譜檢索結(jié)果的Graph圖.

        香山文化知識圖譜的構(gòu)建,是知識圖譜構(gòu)建人員和文化領(lǐng)域?qū)<夜餐Φ某晒?筆者邀請了中山大學的一位歷史系教授以及北京師范大學珠海分校的一位研究歷史文化的教師參與我們的香山文化知識圖譜構(gòu)建.他們對整合好的香山文化知識圖譜原始資料庫進行人工篩選和補充,最終建立知識圖譜中所有知識點.在這個過程中,他們細致而專業(yè)的歷史文化理論知識使我們能夠順利地完成知識圖譜本體庫的構(gòu)建.

        3 香山文化知識圖譜應用系統(tǒng)

        3.1 香山文化知識圖譜構(gòu)建系統(tǒng)(后臺系統(tǒng))

        Protégé[12]軟件是斯坦福大學基于Java語言開發(fā)的本體編輯和知識獲取軟件,或者說是本體開發(fā)工具,也是基于知識的編輯器,屬于開放源代碼軟件[13].它提供了大量的知識模型與動作,可以創(chuàng)建并操作各種表現(xiàn)形式的本體.Protégé已成為后前使用最廣泛的本體論編輯器之一,是一套用于對本體知識進行描述、表達和推理的軟件.它擁有一個靈活的架構(gòu),支持插件開發(fā),并且提供了一套 Java API供編程人員使用[14].筆者可以利用這個開源軟件,實現(xiàn)香山文化知識圖譜的構(gòu)建.基于protégé的香山文化本體庫的構(gòu)建實現(xiàn)如圖2所示.最終,香山文化知識圖譜構(gòu)建有110個知識分類(class),其中包括4個父類(superclass)和106個子類(subclass),以及2482個知識點(individual)和67條關(guān)系屬性(property),經(jīng)過統(tǒng)計香山文化本體已經(jīng)包含了3740條本體數(shù)據(jù)記錄.

        圖2 基于 Protégé的香山文化知識圖譜構(gòu)建

        3.2 基于知識圖譜的香山文化檢索系統(tǒng)(前臺系統(tǒng))

        在設計并構(gòu)建好香山文化知識圖譜之后,筆者研發(fā)了基于知識圖譜的香山文化檢索系統(tǒng),并使用了D3.js工具來實現(xiàn)知識圖譜的可視化效果.在研發(fā)過程中,筆者利用具名圖對香山文化知識圖譜中由RDF三元組描述的資源進行四元組拓展,為它們加入時間維度描述,即變成“---