趙 卓,田 侃,張 殊,張 晨,吳 濤,張浩然
(1.重慶中國三峽博物館文物信息部,重慶 400015;2.重慶郵電大學(xué)網(wǎng)絡(luò)空間安全與信息法學(xué)院,重慶 400065)
隨著社會經(jīng)濟的發(fā)展和生活水平的不斷提高,人們越來越重視精神生活,也更加有條件享受豐富多彩的精神文化產(chǎn)品。博物館是征集、典藏、陳列和研究自然遺跡和人類文化遺產(chǎn)的場所,擁有大量具有科學(xué)性、歷史性和藝術(shù)價值的物品,能夠為公眾提供知識、教育和公益性文化服務(wù)[1]。如何讓文物活起來,使博物館成為公共文化服務(wù)體系的重要載體,成為大眾終身學(xué)習(xí)的精神課堂,是近年來社會對博物館行業(yè)的普遍期望,也是博物館行業(yè)的重要工作方向。如何更好地挖掘傳播地區(qū)歷史文化、創(chuàng)建具有吸引力的文化產(chǎn)品以及提供良好的公共文化服務(wù)是博物館工作的重要訴求。
圍繞文博行業(yè)現(xiàn)狀以及社會實際需要,我國頻繁出臺文物保護和博物館建設(shè)的政策,使文博行業(yè)能更好地服務(wù)于國家文化發(fā)展需要,滿足人民群眾精神文化需求。2015年2 月,國務(wù)院發(fā)布了《博物館條例》,鼓勵博物館向公眾免費開放。2016 年3 月,國務(wù)院印發(fā)的《關(guān)于進一步加強文物工作的指導(dǎo)意見》倡導(dǎo)大力發(fā)展文博創(chuàng)意產(chǎn)業(yè)。2017年4 月,文化部出臺《文化部“十三五”時期文化科技創(chuàng)新規(guī)劃》,提出要實現(xiàn)我國文化、藝術(shù)與科技的融合。實際上,通過近20 年的信息化建設(shè),博物館數(shù)字資源數(shù)量、質(zhì)量穩(wěn)步上升,藏品資源、藏品管理、多媒體展示、專用業(yè)務(wù)系統(tǒng)等均取得了不斐成績。然而,隨著大數(shù)據(jù)、人工智能等新興技術(shù)的出現(xiàn),科技與文化融合成為博物館領(lǐng)域新的發(fā)展趨勢,智能化技術(shù)應(yīng)用成為未來博物館發(fā)展的必由之路。
知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實體間的復(fù)雜關(guān)系,提供了一種高效組織、管理海量信息的方式。傳統(tǒng)的圖像、語音等人工智能領(lǐng)域主要關(guān)注感知智能,而知識圖譜的重點在于通過知識與模型的融合實現(xiàn)認知推理,支持高水平的知識表示與計算。目前,知識圖譜通過與問答、搜索、推薦等應(yīng)用相結(jié)合已被廣泛應(yīng)用于金融、醫(yī)療、電商等領(lǐng)域。為顯著提升文化遺產(chǎn)傳承能力,本文聚焦適合博物館的知識圖譜系統(tǒng)構(gòu)建問題,首先對文博領(lǐng)域知識圖譜系統(tǒng)的構(gòu)建過程和方案進行概述,然后介紹知識圖譜構(gòu)建的主要流程和關(guān)鍵技術(shù),最后對未來值得關(guān)注的研究方向進行初步探討。
知識圖譜在文化、博物館領(lǐng)域的應(yīng)用處于起步階段,取得了一定研究成果。例如,張建星[2]研究了基于大數(shù)據(jù)環(huán)境的中國傳統(tǒng)文化知識圖譜構(gòu)建框架,設(shè)計了由事件、人物、時間、地點、社會背景、文化領(lǐng)域六元組組成的中國傳統(tǒng)文化本體模型,構(gòu)建了中國傳統(tǒng)文化知識庫;萬靜等[3]介紹了知識圖譜在國內(nèi)外的研究應(yīng)用情況,探討了其在智慧博物館建設(shè)中的初步應(yīng)用設(shè)想;張娜[4]針對當前文物知識圖譜依賴于人工構(gòu)建、缺乏自動化方法的問題,對文物知識圖譜構(gòu)建過程中的文物關(guān)系自動抽取技術(shù)進行了研究,設(shè)計并實現(xiàn)了完整的文物知識圖譜構(gòu)建與展示方案;劉芳等[5]設(shè)計了以藏品、多媒體、展覽、項目、人員、機構(gòu)、文獻等實體為核心的知識圖譜,探討了知識圖譜在檢索優(yōu)化、智能推薦、可視化展示和智能問答領(lǐng)域的應(yīng)用方式;楊偉強[6]以山西博物院專家選取的100 件具有代表性的館藏文物作為構(gòu)建知識圖譜的基礎(chǔ)性文物擴展相關(guān)知識節(jié)點,通過與領(lǐng)域?qū)<液献?,提出用于知識表達的本體模型和標準規(guī)范,采用構(gòu)建文物知識圖譜的形式形象地展示文物知識的結(jié)構(gòu)及其之間的聯(lián)系;劉紹南等[7]提出利用文物知識圖譜對不同來源、不同格式的海量文物數(shù)據(jù)進行分析、展示和利用,然后基于語義檢索、推薦和問答開發(fā)等典型應(yīng)用支撐智慧博物館的建設(shè)。
以文博知識圖譜構(gòu)建為目標,聚焦人物、文物、遺跡、建筑、交通、書畫等數(shù)據(jù),在收集相關(guān)古籍資料、研究成果、學(xué)術(shù)文獻、網(wǎng)絡(luò)資源等基礎(chǔ)上,綜合利用自然語言處理、數(shù)據(jù)挖掘、深度學(xué)習(xí)以及圖計算等技術(shù)進行數(shù)據(jù)分析與知識抽取,整體知識圖譜系統(tǒng)構(gòu)建框架如圖1 所示。具體階段介紹如下。
Fig.1 Framework of knowledge graph cultural museum system construction圖1 文博知識圖譜系統(tǒng)構(gòu)建框架
(1)數(shù)據(jù)存儲與訪問架構(gòu)設(shè)計。數(shù)據(jù)采集平臺能夠獲得大量來自考古、交通、宗教等不同領(lǐng)域的文博數(shù)據(jù),這些數(shù)據(jù)往往具有來源廣泛、規(guī)模龐大、種類繁多、非結(jié)構(gòu)化等特征,現(xiàn)有平臺的存儲方式無法很好地支持如此復(fù)雜數(shù)據(jù)的高效查詢和分析。如果孤立地管理這些數(shù)據(jù),會直接影響平臺運作效率和效果。因此,除了對每類數(shù)據(jù)單獨索引外,還需要對多源異構(gòu)數(shù)據(jù)進行特征學(xué)習(xí),建立混合式索引,以提高數(shù)據(jù)訪問效率。
(2)知識特征提取。針對考古、交通、軍事、宗教等不同領(lǐng)域的數(shù)據(jù),通過自然語言處理、機器學(xué)習(xí)領(lǐng)域前沿理論模型,構(gòu)建多源異構(gòu)數(shù)據(jù)的知識特征提取與融合方法,進行文化數(shù)據(jù)的知識抽取,將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的知識表達形式。
(3)知識庫構(gòu)建。根據(jù)數(shù)據(jù)的結(jié)構(gòu)特征,在數(shù)據(jù)庫知識抽取的基礎(chǔ)上,建立文化數(shù)據(jù)知識表達模型,對文物、環(huán)境、歷史文獻、考古資料、歷史事件等海量、多源、異構(gòu)的文化數(shù)據(jù)進行規(guī)范化組織,使文物知識可檢索、可計算、可自動關(guān)聯(lián),形成文化數(shù)據(jù)標準知識庫。
(4)文化知識圖譜構(gòu)建關(guān)鍵技術(shù)研究。研究實體識別、關(guān)系抽取、實體鏈接、推理補全、語義消歧等理論與技術(shù),為知識圖譜系統(tǒng)的構(gòu)建提供理論與技術(shù)支撐。同時,分析面向知識圖譜構(gòu)建文博數(shù)據(jù)的特性問題,展開針對性研究以突破技術(shù)瓶頸。
(5)知識圖譜系統(tǒng)構(gòu)建。遵循統(tǒng)一、集約、高效、規(guī)范的原則,構(gòu)建允許知識檢索、關(guān)聯(lián)挖掘、可視化呈現(xiàn)的知識圖譜系統(tǒng),支持可移植、跨平臺、可配置的需求,自動抽取半結(jié)構(gòu)化文本中的屬性和值,實現(xiàn)知識審核與校對,形成知識圖譜更新管理機制,建立運營管理體系。
文博知識圖譜構(gòu)建以古籍資源、學(xué)術(shù)文獻、文物信息等數(shù)據(jù)資源為依托。文物資源包含石刻、建筑、書畫、交通、軍事、考古等,各類文物有相關(guān)的金石著錄、發(fā)掘報告、研究論文、著作等材料對其進行描述介紹,每個文物都具有差異化的屬性、特質(zhì)。古籍資源往往以神話傳說、歷史事件、民間故事等形式介紹歷史知識文化,具有故事差異性大、內(nèi)容龐雜的特點。著名人物數(shù)據(jù)包含出生于或曾到過各個地區(qū)的書畫家、詩人,以及與之相關(guān)的交通、軍事事件等。文化旅游數(shù)據(jù)包含著名地點以及與之相關(guān)的歷史事件、名人等,涉及文物、古籍、歷史和名人等信息。基于以上內(nèi)容分析,文博數(shù)據(jù)知識表達模型如圖2所示。
Fig.2 Cultural data knowledge representation model圖2 文博數(shù)據(jù)知識表達模型
為了進行文博題刻知識圖譜的構(gòu)建,本文收集整理大量歷史文化數(shù)據(jù),其中題刻數(shù)據(jù)示例如圖3 所示,其文字內(nèi)容為:“涪江石魚,鐫于波底,現(xiàn)則歲豐。數(shù)千百年來,傳為盛事??滴跻页蟠赫涠~復(fù)出。望前二日,偕同人往觀之,仿佛雙魚莫蓂蓮隱躍。蓋因歲久剝落,形質(zhì)模糊,幾不可問。遂命石工刻而新之,俾不至湮沒無傳,且以望豐亨之永兆云爾。時同游者舊黔令、云間杜同春梅川,州佐、四明王運亨元公,旴江吳天衡高倫,何謙文奇,西陵高應(yīng)乾侶叔,郡人劉之益四仙,文珂奚仲。涪州牧?xí)B江蕭星拱薇翰氏記略?!?/p>
Fig.3 Example of Xiao Xinggong reengraving double fish rubbing圖3 蕭星拱重鐫雙魚記拓片示例
可以看出,文博數(shù)據(jù)具有較強的歷史性和專業(yè)性特征,傳統(tǒng)的知識圖譜技術(shù)無法直接應(yīng)用于文博數(shù)據(jù)處理,需要設(shè)計合理的文博知識圖譜構(gòu)建方案。在查閱相關(guān)文博資料的基礎(chǔ)上,綜合分析不同數(shù)據(jù)組織形式的優(yōu)缺點,設(shè)計用于文博知識圖譜構(gòu)建的數(shù)據(jù)組織與處理規(guī)范,如圖4 所示??傮w來說,基于關(guān)系型數(shù)據(jù)庫實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的簡單、高效檢索,基于實體、關(guān)系與屬性抽取技術(shù)實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化處理,基于圖數(shù)據(jù)庫實現(xiàn)復(fù)雜關(guān)聯(lián)數(shù)據(jù)的存儲與檢索。通過該數(shù)據(jù)組織與處理規(guī)范,可以對文博數(shù)據(jù)資源進行預(yù)處理和標準化存儲,以支撐數(shù)據(jù)的知識表達與高效計算。
Fig.4 Data organization standard for the construction of cultural relic knowledge graph圖4 文博知識圖譜構(gòu)建的數(shù)據(jù)組織與處理規(guī)范
命名實體識別(Named Entity Recognition)又稱為實體識別,其對知識圖譜的構(gòu)建具有重要意義。命名實體是一個詞或短語,命名實體識別是指在輸入文本中識別具有特定屬性的實體。在文本被識別為實體后,開發(fā)人員可以對不同類別的實體執(zhí)行各種操作。傳統(tǒng)的命名實體識別方法主要包括基于規(guī)則的方法、知識庫方法、監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法。早期由于計算能力限制,知識庫方法和基于規(guī)則的方法被廣泛使用,多通過維護專門的詞典庫或由專家根據(jù)專門詞匯的特點構(gòu)建規(guī)則以識別命名實體。一般來說,每個規(guī)則都有一個權(quán)重,發(fā)生規(guī)則沖突時,權(quán)重最高的規(guī)則用于確定命名實體的類型。基于規(guī)則的實體識別系統(tǒng)通常需要使用實體字典進一步確認候選實體。當字典內(nèi)容詳盡時,基于規(guī)則的系統(tǒng)運行良好。然而,基于特定領(lǐng)域和不完備字典的規(guī)則往往導(dǎo)致命名實體識別系統(tǒng)召回率低,且這些規(guī)則難以適用于其他領(lǐng)域。近年來,機器學(xué)習(xí)被廣泛應(yīng)用于各種自然語言處理任務(wù)中,并取得了巨大成功。與知識庫和基于規(guī)則的方法相比,機器學(xué)習(xí)方法減少了大量人工干預(yù),具有優(yōu)越的可移植性?;跈C器學(xué)習(xí)模型的命名實體識別方法會預(yù)先標記語料庫作為訓(xùn)練集,并通過訓(xùn)練模型學(xué)習(xí)相關(guān)特征識別實體。
知識圖譜命名實體識別中最具代表性的方法為BERT預(yù)訓(xùn)練模型[8-9]和Bi-LSTM 與CRF 的融合模型[10-11]。Bi-LSTM 與CRF 的融合模型是在Bi-LSTM 的條件上加了一層條件隨機場作為模型的解碼層,以預(yù)測結(jié)果的合理性。同時,由于文博數(shù)據(jù)的專業(yè)性和特殊性,基于常見標記語料庫的實體識別模型無法完全有效識別數(shù)據(jù)中存在的文物、古籍、年號、官職等專業(yè)術(shù)語與歷史名稱。因此,本文通過爬蟲、文本分析等方法構(gòu)建功名、官職、年號、節(jié)日等專有名詞庫,示例如圖5 所示。然后,結(jié)合基于知識庫和算法模型的方法進行命名實體識別,從而支撐文博領(lǐng)域?qū)嶓w信息的準確識別與發(fā)現(xiàn)。
Fig.5 Example of proper nouns for official positions圖5 官職專有名詞庫示例
關(guān)系抽?。≧elationship Extraction)是指在命名實體識別之后,根據(jù)句子中的語義信息學(xué)習(xí)實體間的關(guān)系。準確的關(guān)系抽取有利于構(gòu)造邏輯結(jié)構(gòu)清晰的圖譜[12-13]。基于規(guī)則的關(guān)系抽取方法通過語言學(xué)知識對文本結(jié)構(gòu)抽象出一個固定的模式集,并對給定的文本進行模式匹配以確定其中關(guān)系??傮w上,傳統(tǒng)的關(guān)系抽取方法需要大量人力設(shè)計特征,難以應(yīng)用于大規(guī)模的關(guān)系抽取任務(wù)。近年來,基于深度學(xué)習(xí)的關(guān)系抽取模型被提出,其可自動學(xué)習(xí)有效的關(guān)系特征。目前主流的深度學(xué)習(xí)關(guān)系抽取方法包括基于卷積神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法[14-17]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法[18-20]以及基于詞法句法模型的關(guān)系抽取方法[21-23]。然而,深度學(xué)習(xí)模型往往需要大量已標記訓(xùn)練數(shù)據(jù)。為解決訓(xùn)練數(shù)據(jù)短缺問題,降低模型訓(xùn)練成本,遠程監(jiān)督(Distant Supervision)模型方法被提出[24]。此外,為降低命名實體識別錯誤對關(guān)系抽取準確率的影響,實體關(guān)系聯(lián)合抽取方法[25-27]被提出。
為進行文博數(shù)據(jù)中實體關(guān)系的準確抽取,本文提出基于規(guī)則的方法以及基于正反向迭代式消除的方法。文博數(shù)據(jù)中書名、字號等信息往往標識性強、規(guī)則清晰,在獲取人名、地名等實體的基礎(chǔ)上,基于簡單規(guī)則即可準確發(fā)現(xiàn)人物字號、官職等關(guān)系信息。而對于語句中的復(fù)雜關(guān)系,本文提出首先進行實體和屬性識別與消除、然后在剩余內(nèi)容中正、反雙向識別語義關(guān)系的迭代式解決方案。
知識圖譜關(guān)系推理(Relationship Inference)是指基于已有的知識圖譜結(jié)構(gòu)和內(nèi)容信息推理出新的知識或識別錯誤知識的過程,可解決文博領(lǐng)域數(shù)據(jù)稀疏的問題,并削減數(shù)據(jù)質(zhì)量不高對知識圖譜準確率和完整性的影響。知識圖譜關(guān)系推理方法主要包括基于規(guī)則的方法、基于結(jié)構(gòu)相似性估計的方法、基于結(jié)構(gòu)建模的方法以及基于知識表示的方法。其中,基于規(guī)則的關(guān)系推理主要通過文博數(shù)據(jù)本體模型中的相關(guān)約束和規(guī)律進行推理;基于結(jié)構(gòu)相似性估計的方法主要包括共同鄰居方法、資源分配方法、局部路徑法等;基于結(jié)構(gòu)建模的關(guān)系推理方法借用網(wǎng)絡(luò)數(shù)據(jù)分析領(lǐng)域的模型算法,包括標記傳播(Label Propagation)方法、隨機行走(Random Walk)方法、圖神經(jīng)網(wǎng)絡(luò)模型(Graph Neural Networks)等;基于知識表示的方法首先對知識圖譜中的實體和關(guān)系進行降維表示,然后基于表示結(jié)果直接計算實體之間存在關(guān)系的可能性。知識表示學(xué)習(xí)方法通過機器學(xué)習(xí)算法自動從數(shù)據(jù)中獲得知識表示,能夠根據(jù)具體任務(wù)學(xué)習(xí)到合適的特征。目前,最具代表性的知識表示方法包括TransE[28]、TransH[29]、TransR[30]以及TransD[31]。
本文提出不同顯著性的文博知識圖譜關(guān)系,采用結(jié)構(gòu)相似性估計方法、圖神經(jīng)網(wǎng)絡(luò)模型方法以及基于卷積特征表示的少樣本學(xué)習(xí)方法進行知識圖譜的關(guān)系推理。具體來說,對于局部性、顯著性強的潛在關(guān)系,采用結(jié)構(gòu)相似性估計方法進行預(yù)測;對于大范圍的復(fù)雜結(jié)構(gòu)關(guān)系,基于圖神經(jīng)網(wǎng)絡(luò)模型方法進行結(jié)構(gòu)建模和學(xué)習(xí),然后利用學(xué)習(xí)到的結(jié)構(gòu)模式指導(dǎo)潛在關(guān)系的推理預(yù)測。由于知識圖譜中的關(guān)系往往存在長尾現(xiàn)象,即關(guān)系數(shù)量主要集中在少數(shù)幾種類型上,其他類型的關(guān)系數(shù)量較少,不利于建模學(xué)習(xí),本文提出基于少樣本學(xué)習(xí)的知識圖譜關(guān)系推理方法。
知識圖譜數(shù)據(jù)應(yīng)用的前提是關(guān)聯(lián)數(shù)據(jù)的有效表示和存儲,其數(shù)據(jù)模型主要分為三元組和圖模型兩種[32]。圖數(shù)據(jù)庫因其對節(jié)點間復(fù)雜關(guān)系的良好支持而成為多數(shù)知識圖譜的首要存儲選擇。
圖數(shù)據(jù)庫中,數(shù)據(jù)的基本元素包括節(jié)點集合與關(guān)系集合。關(guān)系型數(shù)據(jù)庫能夠較好地凸顯單條數(shù)據(jù)的內(nèi)容和存儲情況,而圖數(shù)據(jù)庫以非結(jié)構(gòu)化的方式存儲關(guān)聯(lián)數(shù)據(jù),可以直接顯示數(shù)據(jù)的關(guān)聯(lián)特征,在知識圖譜關(guān)系查詢中效率更高。目前代表性圖數(shù)據(jù)庫包括Neo4j、JanusGraph、GraphDB、HugeGraph 等[33]。本文選擇能夠輕松表示關(guān)聯(lián)數(shù)據(jù)的Neo4j,其操作簡便靈活。基于Neo4j,本文構(gòu)建的部分知識圖譜結(jié)果如下。
示例1:與“進士”相關(guān)的人物包括“劉心源”“趙熙”“寇凖”“陳文燭”“龐恭孫”等,其中每個人物又有相關(guān)的實體和關(guān)系。例如,人物“寇凖”涉及到書籍《十朋梅溪后集》以及官職“校書郎”,由此形成了以“進士”為中心的知識圖譜,具體如圖6所示。
Fig.6 Knowledge graph centered on"Jinshi"圖6 以“進士”為中心的知識圖譜
示例2:與“蕭星拱觀石魚記”直接相關(guān)的人物包括“蕭星拱”“陳曦震”等,其中每個人物又有相關(guān)的實體和關(guān)系。例如,人物“蕭星拱”涉及到書名《清蕭星拱傳記》以及官職“郡守”,以“蕭星拱觀石魚記”為中心的知識圖譜如圖7所示。
Fig.7 Knowledge graph centered on"Xiao Xinggong view stone fish"圖7 以“蕭星拱觀石魚記”為中心的知識圖譜
知識圖譜是融合數(shù)據(jù)與算法的新型知識表達形式,其可將數(shù)據(jù)中的知識組織成<主,謂,賓>三元組的形式以表征客觀世界中實體之間的關(guān)系[34]?;谥R圖譜的可視化技術(shù)可以構(gòu)建直觀的數(shù)據(jù)展示系統(tǒng),優(yōu)化用戶交互體驗;基于知識圖譜的推薦系統(tǒng)可以利用圖譜中的關(guān)系推理用戶的興趣偏好,同時支持對推理過程和推薦結(jié)果的解釋;基于知識圖譜的搜索避免了傳統(tǒng)機械的關(guān)鍵詞匹配搜索形式,能夠根據(jù)人們的思考習(xí)慣檢索查詢相關(guān)信息,給出直接的答案;基于知識圖譜的問答系統(tǒng)能夠?qū)栴}邏輯解析到知識圖譜中,通過推理計算直接給出問題答案。
文博知識圖譜構(gòu)建的主要目標是解決長期以來文博領(lǐng)域舊拓資料散落各地而無法形成一套完整體系的問題。收集、整理特定主題的數(shù)據(jù)資料,通過數(shù)據(jù)清洗、整合以及知識圖譜構(gòu)建,自動化形成較為完整的知識體系,有助于文化遺產(chǎn)的科學(xué)發(fā)掘[35]。同時,通過知識圖譜構(gòu)建以及可視化展示,能使觀眾直觀地了解歷史文化知識,提升其觀感體驗,更好地傳播歷史文化知識。具體示例如圖8所示。
Fig.8 Example of visualization for cultural knowledge graph圖8 文博知識圖譜可視化展示示例
知識圖譜的運營管理是指在知識圖譜初次構(gòu)建完成后,根據(jù)用戶的使用反饋以及不斷出現(xiàn)的新知識進行知識圖譜演化和完善的過程,更新過程中需要保證知識圖譜的質(zhì)量可控以及內(nèi)容豐富衍化。
知識圖譜的運營管理是一個體系化工程,覆蓋了知識獲取到知識計算的整個生命周期。知識圖譜的運營主要有兩個關(guān)注點:一個是基于增量數(shù)據(jù)的知識圖譜構(gòu)建過程監(jiān)控,另一個是通過知識圖譜的應(yīng)用發(fā)現(xiàn)知識錯誤和新的業(yè)務(wù)需求,例如錯誤的實體屬性值、缺失的實體間關(guān)系、未識別的實體、重復(fù)實體等問題。總體來說,知識圖譜運營管理需要用戶反饋、專家修正、運行監(jiān)控、算法調(diào)整更新等相結(jié)合,是一個人機協(xié)同、領(lǐng)域?qū)<遗c算法相互配合的過程。
作為人工智能的重要應(yīng)用之一,近年來知識圖譜受到各個領(lǐng)域的廣泛關(guān)注。文博系統(tǒng)是國家精神文明建設(shè)的重要領(lǐng)域,如何結(jié)合前沿科技實現(xiàn)文化創(chuàng)新成為其當前面臨的重要問題。文博領(lǐng)域數(shù)據(jù)資料體量龐大且零散,文博知識圖譜的構(gòu)建對于博物館的智能化建設(shè)、智慧文化產(chǎn)品開發(fā)具有重要支撐作用。然而,相關(guān)學(xué)者雖然對知識圖譜的理論與應(yīng)用問題進行了研究,但針對文博知識圖譜構(gòu)建的研究仍然較少。
本文剖析了文博知識圖譜的背景、內(nèi)涵及發(fā)展現(xiàn)狀,提出了基于多源文化數(shù)據(jù)進行文博知識圖譜構(gòu)建的系統(tǒng)架構(gòu)、知識模型以及組織規(guī)范,基于實體識別、關(guān)系抽取、關(guān)系推理等關(guān)鍵技術(shù)展示了基于圖數(shù)據(jù)庫的知識圖譜構(gòu)建方法,然后介紹了知識圖譜的應(yīng)用以及現(xiàn)實運營管理問題。需要注意的是,由于文博領(lǐng)域數(shù)據(jù)的專業(yè)性與稀疏性,直接應(yīng)用常規(guī)知識圖譜關(guān)鍵技術(shù)往往不能獲得滿意結(jié)果。例如,前期本文進行了DeepDive 等知識圖譜構(gòu)建工具的測試,但結(jié)果并不令人滿意。因此,文博知識圖譜構(gòu)建需要結(jié)合文博數(shù)據(jù)特征進行針對性的理論與技術(shù)研究。為了面向文博知識圖譜的特征提出針對性解決方案,同時保留進一步創(chuàng)新優(yōu)化的可能性,本文給出了文博知識圖譜構(gòu)建的初步技術(shù)并基于相關(guān)前沿算法進行了實現(xiàn)與優(yōu)化,未來將在此開放式方案的基礎(chǔ)上進一步優(yōu)化與提升。