摘要隨著網(wǎng)絡(luò)化、數(shù)字化的發(fā)展,博物館在知識分享以及知識傳播方面的貢獻越發(fā)突出。文物知識圖譜就是為了適應(yīng)這種新的網(wǎng)絡(luò)環(huán)境而產(chǎn)生的一種語義知識組織和服務(wù)的方法。文章試圖回歸知識圖譜構(gòu)建的本質(zhì),通過介紹目前知識圖譜構(gòu)建領(lǐng)域的一些新思路與新形式,結(jié)合文物數(shù)據(jù)庫的特點,對博物館如何利用知識圖譜構(gòu)建文物藏品知識庫進行深入思考,以期挖掘文物知識圖譜更大利用價值。
關(guān)鍵詞智慧博物館知識圖譜數(shù)據(jù)挖掘
0 引言
隨著博物館信息化、智慧化的不斷提高,博物館在知識領(lǐng)域發(fā)揮的作用正在不斷深化,尤其在知識分享以及知識傳播方面的貢獻正變得日益重要,廣大觀眾及用戶對于全球性知識獲取的需求也在不斷增長。但由于博物館本身是一個發(fā)展歷史較長的實體保存單位,對于知識和信息的獲取和利用方式還未能完全滿足數(shù)字化網(wǎng)絡(luò)化時代的發(fā)展,許多歷史知識與文物信息也都未能得到很好的挖掘。因此,就需要進行文物知識圖譜的構(gòu)建,以高效準確、簡明易懂的方式和實現(xiàn)技術(shù)將博物館內(nèi)的眾多文物歷史知識進行整合和梳理,找出內(nèi)在邏輯,從而滿足日益增長的廣大觀眾與用戶的需求,講好文物背后的故事,更好地完成博物館在文化歷史宣傳方面的積極作用。
1 知識圖譜的概念及相關(guān)研究
作為一種智能高效的知識組織方式,自2012年 Google 公司提出“知識圖譜(Knowledge Graph)”至今,知識圖譜技術(shù)得到了飛速發(fā)展,但實際上目前業(yè)界并沒有一個公認的定義。
維基百科上知識圖譜的詞條實際上是對 Google 公司搜索引擎使用的知識庫功能的描述,即知識圖譜是Google 公司使用的一個知識庫及服務(wù),它利用從多種來源收集到的信息提升搜索引擎返回的結(jié)果的質(zhì)量[1]。
在《知識圖譜:方法、實踐與應(yīng)用》中,將知識圖譜表述為“是一種用圖模型來描述知識和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法?!敝R圖譜由節(jié)點和邊組成,節(jié)點可以是實體,也可以是抽象的概念;邊可以是實體的屬性,或者是實體之間的關(guān)系。知識圖譜的早期理念來自 Semantic Web(語義網(wǎng))[2],其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實體鏈接的語義網(wǎng)。
國內(nèi)外圍繞知識圖譜也進行了大量研究,比如 I. Rafols 等人提出“知識圖譜是科學(xué)領(lǐng)域或科學(xué)團體的符號表征,圖中的元素與研究主題對應(yīng)。而元素按照相似性進行布局,相關(guān)元素距離較近,不相關(guān)元素距離較遠(圖1,2)。圖譜上的元素可以是作者、出版物、研究機構(gòu)、科學(xué)主題或儀器工具等,其目的在于使用戶能夠分析元素之間的關(guān)系。大部分知識圖譜使用的是文獻數(shù)據(jù)庫中的數(shù)據(jù),不過也有使用其他數(shù)據(jù)源的。”[3]近年來我國一些學(xué)者也對知識圖譜的概念做出了比較完整和全面的定義。比如肖仰華等將知識圖譜概念分為狹義和廣義。其中狹義的知識圖譜特指一類知識表示,本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)。而廣義的知識圖譜是大數(shù)據(jù)時代知識工程一系列技術(shù)的總稱,在一定程度上指代大數(shù)據(jù)知識工程這一新興學(xué)科[4]。而劉則淵等人則將知識圖譜定義為“顯示科學(xué)知識的發(fā)展進程與結(jié)構(gòu)關(guān)系的一種圖形,可視化地描述人類隨時間擁有的知識資源及其載體,繪制、挖掘、分析和顯示科學(xué)技術(shù)知識以及它們之間的相互聯(lián)系,在組織內(nèi)創(chuàng)造知識共享的環(huán)境以促進科學(xué)技術(shù)研究的合作和深入??茖W(xué)知識圖譜具有‘圖’和‘譜’的雙重性質(zhì)與特征:既是可視化的知識圖形,又是序列化的知識譜系,顯示了知識元或知識群之間網(wǎng)絡(luò)、結(jié)構(gòu)、互動、交叉、演化或衍生等諸多復(fù)雜的關(guān)系?!盵4]
可以看出,知識圖譜匯集了眾多學(xué)科的理論和框架,本質(zhì)上是一種語義網(wǎng)絡(luò),通過定量與定性相結(jié)合的研究方法,動態(tài)性地呈現(xiàn)科學(xué)知識的基本情況,同時揭示其背后隱含的規(guī)律、關(guān)系和趨勢,從而產(chǎn)生新的知識。
近年來,隨著互聯(lián)網(wǎng)的日益普及,越來越多的知識圖譜應(yīng)運而生。根據(jù) LOD(Linked Open Data 開放互聯(lián)數(shù)據(jù)聯(lián)盟)公布的數(shù)據(jù),截至2019年3月,已有1239個開放互聯(lián)的知識圖譜加入,供全球用戶使用[5]。表1為一些常見的知識圖譜及其特點和規(guī)模。
其中,Cyc 是持續(xù)時間最久、影響范圍最廣、爭議也較多的知識庫項目。Cyc 最初的目標是要建立人類最大的常識知識庫。它的主要特點是基于形式化的知識表示方式刻畫知識,這樣的優(yōu)勢是可以支持復(fù)雜的推理,但過于形式化也導(dǎo)致知識庫的擴展性和靈活性不夠。相比之下,ConceptNet采用了非形式化、更加接近自然語言的表述。而與 Google 知識圖譜相比,則側(cè)重于詞與詞之間的關(guān)系。WikiData的目標是構(gòu)建一個免費開放、多語言、任何人或機器都可以編輯修改的大規(guī)模鏈接知識庫,支持以三元組為基礎(chǔ)的知識條目的自由編輯。截至目前,WikiData已經(jīng)包含超過5000萬個知識條目。
2 利用知識圖譜構(gòu)建文物藏品知識庫
在文博領(lǐng)域,近些年國內(nèi)外有許多科研機構(gòu)和個人嘗試利用知識圖譜的方式構(gòu)建各類文物主題庫,知識圖譜的應(yīng)用逐漸受到研究人員和相關(guān)工作人員的關(guān)注,在各個領(lǐng)域均有涉及,比如智慧導(dǎo)覽、智能問答、智慧展陳與可視化等,成為博物館智慧化的重要研究和應(yīng)用領(lǐng)域之一。但由于文物資料來源廣泛,數(shù)量巨大,標準化程度極低,因此資料的知識點提取難度極大。同時,文物研究人員通常專攻某一類型或某一段歷史,文物之間的內(nèi)在聯(lián)系很難獲得,因此,文物知識圖譜的構(gòu)建難度較大,且在構(gòu)建時自動化程度較低,多為人工提取和處理知識點,遠遠無法達到計算機自動處理和識別,這樣就大大降低了文物知識圖譜的檢索效率和應(yīng)用前景。而身處文博知識體系下,通過系統(tǒng)性梳理知識圖譜的構(gòu)建邏輯和構(gòu)建方法,希望可以探索出一條針對文物藏品的知識圖譜的構(gòu)建方法。
一般來說,知識圖譜的構(gòu)建主要包含三個方面,即:知識抽取、知識加工和知識融合,而一套完整的知識圖譜構(gòu)建方法,還需要考慮圖譜的存儲和可視化等問題(圖3)。由于文物的情況比較復(fù)雜,對于文物名稱、描述、年代等方面的元數(shù)據(jù)規(guī)范程度較低,因此,在實際構(gòu)建中,還需要考慮對于來源數(shù)據(jù)庫的預(yù)處理工作,從而最大程度上實現(xiàn)知識圖譜的自動化與準確性。
2.1 數(shù)據(jù)庫預(yù)處理環(huán)節(jié)
數(shù)據(jù)庫的預(yù)處理是指建立文物知識圖譜來源數(shù)據(jù)庫的元數(shù)據(jù)體系規(guī)范,以解決數(shù)據(jù)庫互操作的問題,并為之后的文物知識圖譜的構(gòu)建打下良好基礎(chǔ)。在許多知識圖譜構(gòu)建工具中,已包含預(yù)處理工序,但由于文博領(lǐng)域各類文物藏品的復(fù)雜性與多樣性,數(shù)據(jù)庫規(guī)范程度較低且元數(shù)據(jù)體系不統(tǒng)一,軟件的自動預(yù)處理模塊效果較差,因此需要人工干預(yù),選擇一種邏輯清晰、可擴展性強、且能夠從語義層面解決數(shù)據(jù)之間異構(gòu)性的元數(shù)據(jù)標準,將來源數(shù)據(jù)庫與該元數(shù)據(jù)標準進行映射,以完成數(shù)據(jù)庫的預(yù)處理環(huán)節(jié)。
CIDOC 概念參考模型(CIDOC Conceptual Ref- erence Model,簡稱 CIDOC CRM)是由國際博物館理事會(International Council ofMuseums,簡稱 I- COM)下屬的國際文獻理事會(International Com-mittee for Documentation,簡稱 CIDOC)開發(fā)的一套應(yīng)用于文化遺產(chǎn)的信息集成概念參考模型。它通過提供定義和形式化結(jié)構(gòu)來描述文化遺產(chǎn)中所使用的隱形概念和顯性概念以及它們之間的關(guān)系,從而幫助相關(guān)領(lǐng)域的研究者、管理者和公眾在多源、異構(gòu)、數(shù)量龐雜的數(shù)據(jù)中對特定信息進行定義和表達,并且通過提供通用和可擴展的語義框架,促進公眾對文化遺產(chǎn)信息的共建共享[8]。
目前,最新的版本為 Version 5.0.4,于2011年12月發(fā)布[9]。本版本定義了90個類,147個屬性,涵蓋了圍繞指定文物的時間跨度信息、分類學(xué)信息、主題描述信息、時空關(guān)系信息、復(fù)制權(quán)及版權(quán)信息、采集信息、計劃使用信息、所有人信息等34類著錄信息,隨著模型的不斷完善,類和屬性都可以進行擴展。所有類別均以 E 開頭,如 E1 CRM Entity(CRM 實體),E4 Period(時期);所有屬性均以 P 開頭,如 P1 is identified by(由…確定),P9 consists of(包括)。屬性兩端分別連接著代表“域”和“范圍”的類,定義類與類之間的特定關(guān)系。通過如此規(guī)范化的描述,基本可以滿足某一領(lǐng)域知識的基本體系結(jié)構(gòu),便于數(shù)據(jù)信息的存儲利用和共享。
國家文物局在2017年發(fā)布的《中華人民共和國文物保護行業(yè)標準(征求意見稿)》中的《文物數(shù)字化保護核心元數(shù)據(jù)》,是針對文物數(shù)字化保護中不同類型文物資源基本特征進行描述的元數(shù)據(jù)標準,是根據(jù)文物資源的共同特點確定的元數(shù)據(jù)集合。該標準僅定義文物元數(shù)據(jù)的核心元素集,作為各領(lǐng)域元數(shù)據(jù)互操作的一個基礎(chǔ)元素集,適用于各類文物信息資源的基本特征描述。在基于特定需求的具體項目或應(yīng)用中可以增加額外的限制、規(guī)則和解釋[10]。該核心元數(shù)據(jù)由20個元素組成,可以描述所有文物藏品的基礎(chǔ)信息,并可以通過增加元素集來針對不同文物進行描述。表2為文物數(shù)字化保護核心元數(shù)據(jù)的20個指標項與 CIDOC CRM 的映射,通過映射來完成文物知識圖譜來源數(shù)據(jù)庫的預(yù)處理工作。
2.2 知識抽取
在知識抽取環(huán)節(jié),不同主題的數(shù)據(jù)來源于各現(xiàn)成的數(shù)據(jù)庫,且數(shù)據(jù)庫本身較為規(guī)范,可以通過分析軟件自動抽取,而在文物藏品領(lǐng)域,目前為止并未有足夠支持文物知識圖譜的數(shù)據(jù)庫,且數(shù)據(jù)庫來源復(fù)雜,標準眾多,因此博物館的知識圖譜的構(gòu)建一般都利用各自的館藏文物數(shù)據(jù)庫加上領(lǐng)域?qū)<?,針對某個主題進行構(gòu)建,相對來說人工干預(yù)較多,自動化程度較低。這是一直以來未能解決的問題。
浙江大學(xué)的張娜在畢業(yè)論文中提出了一種基于半監(jiān)督學(xué)習(xí)的三元組文物關(guān)系自動抽取算法,通過改進 Tri-training 模型來抑制半監(jiān)督學(xué)習(xí)中的語義漂移問題。若能夠結(jié)合文物數(shù)據(jù)庫元數(shù)據(jù)預(yù)處理環(huán)節(jié),則可進一步控制自動抽取環(huán)節(jié)的語義偏差,產(chǎn)生較好的知識抽取效果,更加適合文物數(shù)據(jù)庫的關(guān)系抽取工作。
2.3 知識加工與融合
一般來說,文物知識圖譜的知識加工與融合方法主要包括兩類,即:基于多個知識圖譜的融合方法、基于多源異構(gòu)數(shù)據(jù)的融合方法(圖4)。
其中,在基于多個知識圖譜的融合方法中,首先每個知識圖譜都是由一個獨立的文物數(shù)據(jù)庫構(gòu)建而得,然后再將各個知識圖譜融合為一個知識圖譜,主要包括四個步驟,即:概念融合、實體對齊、屬性對齊以及屬性值融合。
在概念融合步驟中,由于文物數(shù)據(jù)庫的特殊性,主要采取人工方法進行匹配以保證融合質(zhì)量。在實體對齊步驟中,主要采取集體對齊的方式,即考慮整個文物知識圖譜的信息進行匹配。之后再進行屬性對齊以及屬性值的融合,包括刪除重復(fù)知識和去除錯誤知識。
而基于多源異構(gòu)數(shù)據(jù)的融合方法是輸入多源異構(gòu)的數(shù)據(jù)庫,比如互聯(lián)網(wǎng)頁面或者其他知識圖譜等,最終輸出一個融合后的文物知識圖譜,這一類的典型代表是谷歌公司的 Knowledge Vault[11]。它采用全自動的信息搜集整合機制,沒有任何人工干預(yù),通過相關(guān)算法從互聯(lián)網(wǎng)自動搜集信息,之后將信息整編為可用內(nèi)容并入庫。目前,Knowlegde Vault 的入庫信息已達16億條,其中2.7億條內(nèi)容被認定為“事實”(即谷歌公司通過大數(shù)據(jù)分析所得結(jié)果真實性在90%以上的內(nèi)容)。
Knowlegde Vault 主要由三部分組件構(gòu)成:知識抽取器,主要以互聯(lián)網(wǎng)頁面作為數(shù)據(jù)源進行知識抽取;知識推理器從知識圖譜自身推理出新知識,并計算相應(yīng)三元組成立的概率;知識融合器訓(xùn)練一個回歸模型,從知識抽取器和知識推理器中得到每條信息的最終可信度[12]。
2.4 常用知識圖譜的構(gòu)建工具
目前文物類知識圖譜的構(gòu)建一般采用建模+系統(tǒng)開發(fā)的方法,選取典型文物,借助大量的專家資源完成知識圖譜的規(guī)則設(shè)置和模型建構(gòu),可擴展性、可復(fù)制性較差。如果能夠在規(guī)范文物元數(shù)據(jù)體系的基礎(chǔ)上,應(yīng)用現(xiàn)成的知識圖譜構(gòu)建工具,根據(jù)實際情況對工具的模塊和算法進行更改和調(diào)整,則可能會給文物知識圖譜的構(gòu)建帶來新的思路。
國內(nèi)常用的構(gòu)建工具有Pajek、CiteSpace,國外常用的工具有 UCINET、Gephi、VOSviewer、Van- tagePoint、Sci2等。下面選取幾個具有代表性的工具進行介紹,以探討針對文物進行知識圖譜構(gòu)建的可能性。
2.4.1 CiteSpace簡介[13]
CiteSpace是美國雷德賽爾大學(xué)信息科學(xué)與技術(shù)學(xué)院的陳超美博士于2004年開發(fā)的一款信息可視化分析軟件??梢苑治瞿硞€領(lǐng)域具有開創(chuàng)性和標志性的作品,分析某個領(lǐng)域起關(guān)鍵作用的知識拐點標志物,可以找出某個領(lǐng)域中主流地位的主題以及不同領(lǐng)域之間的關(guān)聯(lián)。它可以通過分析某個領(lǐng)域中的潛在知識,以可視化的手段呈現(xiàn)其體系結(jié)構(gòu)、規(guī)律和分布情況,并且顯示該領(lǐng)域可能的發(fā)展新趨勢和新動態(tài)。
CiteSpace以動態(tài)追蹤、可視化與序列化兼具以及知識圖譜構(gòu)建功能完整為最大特點。其中,CiteSpace可以通過對特定領(lǐng)域文獻的相關(guān)數(shù)據(jù)的計量,對該學(xué)科領(lǐng)域或研究方向的文獻數(shù)據(jù)進行動態(tài)追蹤,以探索該領(lǐng)域的演化路徑和知識拐點。
CiteSpace展示的既是可視化的知識圖形,又是序列化的知識譜系,它可以顯示知識單元或知識群之間的網(wǎng)絡(luò)、結(jié)構(gòu)、互動、交叉、演化或衍生等諸多復(fù)雜的關(guān)系。利用CiteSpace可以幫助剛進入某一科學(xué)領(lǐng)域的研究者對該領(lǐng)域建立全面完整的認識,識別領(lǐng)域的研究熱點以及預(yù)測學(xué)科的發(fā)展趨勢。? 2.4.2 Gephi 簡介[14]
Gephi 是一款跨平臺的基于 JVM 的復(fù)雜網(wǎng)絡(luò)分析軟件,主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),可以實現(xiàn)動態(tài)和分層圖的交互可視化與探索開源工具。它可以處理巨大規(guī)模的數(shù)據(jù)量,支持100,000個節(jié)點和1,000,000條邊,適合搭建大型的知識圖譜。Gephi 界面優(yōu)美,允許開發(fā)者擴展及編寫插件,具有很強的可擴展性。
作為知識圖譜的分析與構(gòu)建工具,Gephi 可提供類似 Excel 的界面來操作數(shù)據(jù)列以及搜索和轉(zhuǎn)換數(shù)據(jù)。同時,Gephi 提供中間中心性、緊密性、直徑、聚類系數(shù)、社區(qū)檢測(模塊化)等多種分析方法,以用于知識圖譜網(wǎng)絡(luò)的構(gòu)建。
Gephi 以可擴展性強、實時可視化、探索性強以及動態(tài)過濾等功能作為最大特點。其中,Gephi 一直以來致力于研究如何進行交互式和高效的網(wǎng)絡(luò)探索,是動態(tài)圖形分析創(chuàng)新的先鋒。它提供豐富的圖像處理工具,能夠直觀地顯示知識圖譜的復(fù)雜聯(lián)系。2.4.3 VOSviewer簡介[15]
VOSviewer是由荷蘭萊頓大學(xué)的NeesJanvan? Eck 與Ludo Waltman 共同開發(fā)的,用于構(gòu)建可視化網(wǎng)絡(luò)知識圖譜計量分析軟件。它以智能可視化、傻瓜化操作以及基于關(guān)聯(lián)強度的數(shù)據(jù)處理為最大特點。VOSviewer使用類似谷歌地圖的縮放和滾動功能,可以詳細探索知識圖譜。同時提供圖譜關(guān)鍵部分的快速概述和隨時間變化的演變軌跡。
VOSviewer的結(jié)果試圖使用標簽來呈現(xiàn),即每一個節(jié)點用一個圓圈表示,圓圈大小表示節(jié)點的重要程度,若節(jié)點被劃分為不同的聚類,則圓圈顏色不同。另外,知識圖譜上的每個節(jié)點都可根據(jù)其密度進行顏色填充,兩極顏色為紅色和藍色,節(jié)點越大,權(quán)重越大,顏色越接近紅色;反之,若節(jié)點越小,權(quán)重越小,顏色越接近藍色。
3 文物知識圖譜構(gòu)建的嘗試與實踐
在文物知識圖譜構(gòu)建的嘗試與實踐方面,國內(nèi)高校及文博行業(yè)一直在進行積極有益的探索。
3.1 文物知識圖譜構(gòu)建
比如西北大學(xué)計算機應(yīng)用技術(shù)學(xué)院的邱超[16],提出了一種基于 web 文本的文物知識圖譜自動生成方法。該方法將特征詞集的思路融合到文物知識點抽取規(guī)則生成算法中,以減少生成部分的人工干預(yù)成分,極大提高了工作效率和準確性。采用規(guī)則和極限學(xué)習(xí)機(Extreme Learning Machine, ELM)相結(jié)合的文物知識點抽取算法以及基于聯(lián)合索引的資源描述框架(Resource Description Framework, RDF)的文物知識點存儲方法,實現(xiàn)了文物知識點的快速檢索。
浙江大學(xué)計算機科學(xué)與技術(shù)專業(yè)的張娜[17]提出了一種基于半監(jiān)督學(xué)習(xí)的文物關(guān)系抽取算法,在算法中使用經(jīng)過改進的三分類器協(xié)同訓(xùn)練模型(Tri- training Model),用于文物關(guān)系的自動抽取工作。
中國國家博物館在2019年針對館藏文物開始進行文物知識圖譜的構(gòu)建工作,目前已初步完成館藏文物影像元數(shù)據(jù)體系的搭建,以 CIDOC CRM 模型為基礎(chǔ),并可與該模型進行一一映射,簡單易行,方便擴展。其中,以對青銅器類中婦好鴟鵂尊[18]的文物知識圖譜構(gòu)建為例,如圖5所示。
將文物與相關(guān)人物通過事件、地址、時期等屬性進行關(guān)聯(lián),繪制出一幅典型的可擴展可描述的文物知識圖譜模型。但由于國家博物館館藏文物數(shù)量較大,相關(guān)信息較多,且對于各類文物的研究內(nèi)容進展不同、豐富程度不同,因此,在制作文物知識圖譜的過程中,耗時較長,且只能分類處理,進行專題描述,暫時無法形成覆蓋全館所有文物類型的文物知識圖譜模型。
3.2 藏品文物知識問答
天津大學(xué)軟件工程專業(yè)的楊偉強[19]則通過與山西博物院的專家合作,共同完成館內(nèi)100件具有代表性的館藏文物的文物知識圖譜構(gòu)建,提出了一種用于知識表達的本體模型和標準規(guī)范,并通過設(shè)計包括基于圖數(shù)據(jù)庫的數(shù)據(jù)存儲、數(shù)據(jù)模型轉(zhuǎn)換和知識融合等的基礎(chǔ)模塊,實現(xiàn)了山西博物院館藏文物的知識圖譜構(gòu)建,在藏品文物檢索、文物知識問答等方面初步實現(xiàn)人機交互,同時可以進一步支撐諸如文物陳列展覽、文獻研究等內(nèi)容的輔助決策功能。但由于只是圍繞著100件文物展開的研究與嘗試,在文物規(guī)模上不夠龐大,在文物類型覆蓋面上也不夠廣泛。且因為大量的文物知識信息是以自然語言形式存在,在前期的自然語言規(guī)范形式上受到較多的限制,可能出現(xiàn)文物知識問答偏差等問題。
3.3 文物知識圖譜可視化展示
萬達信息承建的上海博物館“董其昌數(shù)字人文”專題書畫知識圖譜,則是針對董其昌書畫作品及對其書畫生涯產(chǎn)生重要影像的鑒藏、交游、教育、傳承等人文脈絡(luò),采用機器學(xué)習(xí) CNN 深度模型卷積網(wǎng)絡(luò)研發(fā)了圖像關(guān)聯(lián) AI 引擎,對董其昌書畫作品的數(shù)字圖像及繪畫元素進行分析,以可視化的形態(tài)為董其昌研究設(shè)計了一個“主體—表達—時代”的綜合維度,逐步形成繪畫元素標準樣本國際平臺。同時,通過機器學(xué)習(xí)建立社會網(wǎng)絡(luò)關(guān)系圖,為更好地理解其交游圈,對他的多方位影像給出了立體圖景。
同時,利用 python、Gephi 等可視化方式繪制了董其昌的大事作品年表、作品可視化、書畫船欄目、社會網(wǎng)絡(luò)關(guān)系圖等,并預(yù)留了與中國歷史人物傳記資料庫、中國歷史地圖集等數(shù)據(jù)庫的接口,為未來的進一步豐富打下了基礎(chǔ)。但作為文物知識圖譜而言,數(shù)據(jù)量和覆蓋范圍偏小,且大量工作是由人工方式完成,如何實現(xiàn)知識圖譜中數(shù)據(jù)自動化導(dǎo)入和更新并且保證準確性、有效性,將是未來重點需要研究的工作。
這些在文物知識圖譜領(lǐng)域進行的嘗試和研究,對于讓博物館的文物真正“活”起來,讓博物館更好地講好文物背后的故事有著非常重要的意義。因為這讓越來越多的文物工作者看到了在“智能+”時代博物館的更多可能性,同時也讓更多的觀眾更加體會到文物的魅力以及中國文化的博大精深。
3.4 文物知識圖譜輔助決策
天津大學(xué)張加萬團隊為故宮92周年“發(fā)現(xiàn)·養(yǎng)心殿—主題數(shù)字體驗展”而構(gòu)建的“養(yǎng)心殿知識圖譜”,打通了文物之間的界限,讓資源無限共享,進而從文物角度關(guān)聯(lián)整個中國歷史文化。不僅如此,通過充分運用云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動通信等新一代信息技術(shù)成果,感知、分析、處理博物館(群)運行的各項關(guān)鍵信息,實現(xiàn)博物館智慧管理、智慧保護、智慧服務(wù)三大能力,從而真正實現(xiàn)“智慧博物館”概念,讓文物真正“活”起來。
4 結(jié)論
隨著社會信息化程度的不斷提高與深入發(fā)展,如何更好地利用文物大數(shù)據(jù)開展工作,一直以來是博物館行業(yè)思考的方向。當(dāng)前大量的文物知識圖譜管理與應(yīng)用方法仍是將知識圖譜當(dāng)作普通的圖數(shù)據(jù)或是輔助展覽的可視化工具,缺乏對于知識圖譜語義信息與減少人工干預(yù)等方面的深入考慮。因此,本文試圖回歸知識圖譜構(gòu)建的本質(zhì),通過介紹目前知識圖譜構(gòu)建領(lǐng)域的一些新思路與新形式,結(jié)合文物數(shù)據(jù)庫的特點,在文物知識圖譜構(gòu)建的三個環(huán)節(jié)中,增加數(shù)據(jù)預(yù)處理環(huán)節(jié),選擇最適合文物知識圖譜構(gòu)建的知識抽取與知識融合方式。另外,在知識融合方面,通過增加文物規(guī)模和覆蓋面,進一步準確地將抽取的實體和知識圖譜中對應(yīng)的實體進行鏈接。
當(dāng)然,文物數(shù)據(jù)庫的數(shù)據(jù)量比之其他領(lǐng)域或者整個網(wǎng)絡(luò)世界而言,并不算是規(guī)模巨大,那些關(guān)于文物知識圖譜構(gòu)建工作的嘗試,雖然可能還處于探索階段,但非常值得關(guān)注。而復(fù)雜網(wǎng)絡(luò)領(lǐng)域積累的大量的真實網(wǎng)絡(luò)分析方法,如果能夠?qū)⑦@些豐富的方法用于文物知識圖譜的實證研究,對于文物知識圖譜的新的認知機制的發(fā)現(xiàn),也有著巨大的價值。
參考文獻
[1]閆樹,魏凱,洪萬福,等.知識圖譜技術(shù)與應(yīng)用[M].北京:人民郵電出版社,2019:2-3.
[2]N. Shadbolt, T. Berners-Lee, W. Hall. The Semantic Web Re- visited[J]. IEEE Intelligent Systems, 2006, 21(3):96-101
[3]Rafols I, Porter A L, Leydesdorff L. Science overlay maps: A new tool for research policy and library management[J]. Journal of the American? Society for Information? Science and Technology, 2010, 61(9):1871-1887.
[4]肖仰華,徐波,林欣,等.知識圖譜:概念與技術(shù)[M].北京:電子工業(yè)出版社,2020:2-3.
[5]劉則淵,陳悅,侯海燕.科學(xué)知識圖譜:方法與應(yīng)用[M].北京:人民出版社,2008:385.
[6]Linked Open Data. About the diagram [EB/OL].[2020-03-18].https://lod-cloud.net/.
[7]肖仰華,徐波,林欣,等.知識圖譜:概念與技術(shù)[M].北京:電子工業(yè)出版社,2020:31-32.
[8]ICOM/CIDOC CRM Special Interest Group. Short Intro of CIDOC CRM[EB/OL].[2020-01-08]. http://www.cidoc-crm. org/node/202.
[9]ICOM/CIDOC? CRM? Special? Interest? Group. Functional Overview of CIDOC CRM [EB/OL].[2020-01-08]. http://www.cidoc-crm.org/functional-units.
[10]中華人民共和國國家文物局.文物數(shù)字化保護核心元數(shù)據(jù)[S/EB].中華人民共和國文物保護行業(yè)標準(征求意見稿).(2017-03-10)[2020-01-13].
[11]Xin? Dong,? Evgeniy? Gabrilovich,? GeremyHeitz,etc. Knowledge vault: A web-scale approach to probabilistic knowledge fusion [C]. The 20th ACM SIGKDD interna- tional conference on Knowledge discovery and data min- ing, New York, America:2014.
[12]Hal Hodson. Google's fact-checking bots build vast knowl- edge bank[EB/OL].[2020-03-24]. https://www.newscientist. com/article/mg22329832-700-googles-fact-checking-bots-? build-vast-knowledge-bank/#.U_rpfKN0Nc4.
[13]陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242-253.
[14]Gephi. The Open Gragh Viz Platform [EB/OL].[2020-03-22].https://gephi.org/.
[15]VOSviewer. Welcome to VOSviewer [EB/OL].[2020-03-22].https://www.vosviewer.com/.
[16]邱超.基于Web 文本的文物知識圖譜自動生成方法研究[D].西安:西北大學(xué),2016.
[17]張娜.文物知識圖譜構(gòu)建關(guān)鍵技術(shù)研究與應(yīng)用[D].杭州:浙江大學(xué),2019.
[18]中國國家博物館.中國國家博物館館藏文物研究叢書.青銅器卷(商)[M].上海:上海古籍出版社,2020:139.
[19]楊偉強.文物知識圖譜的構(gòu)建與應(yīng)用[D].天津:天津大學(xué), 2018.
(2020-09-25收稿,2021-12-08修回)
作者簡介:戴畋(1987—),女,館員,主要研究方向:智慧博物館標準化體系研究、智慧博物館知識圖譜與智能問答研究, E-mail:daitian5049@163.com。
Practice and Research on the Cultural Relics Knowledge Graph Construction in the context of Museum Intelligence// DAI Tian
Author's Address? The National Museum of China, E-mail:daitian5049@163.com .
Abstract? The museum has been shouldered the task of spreading and sharing cultural knowledge andpreserving? cultural? heritage . With? the? development? of? network? digitalization,? the? needs? of? the audience and users for cultural knowledge continue to develop, as well as the appreciation level of historical and cultural? knowledge is also improved . Therefore, it is? necessary for museums to fully explore the internal information of cultural relics and relations between cultural relics and history . As a means of data mining, knowledge graph has been paid more and more attention by the culture and museum? industry? which? is? characterized? by? large? amount? of? data ?processing,? high? degree? of processing? automation,? strong? ability? of? learning? and? expansion,? and? visualization? of? processing results . More and? more? museums? begin to? use the cultural? relic? knowledge graph to excavate the cultural relic information that make positive and beneficial attempts in the cultural relic knowledge graph construction.
Keywords? Smart Museum, knowledge graph, data mining