劉紹南 /首都博物館 北京 100045
楊鴻波 /首都博物館 北京 100045
侯 霞 /首都博物館 北京 100045
為了更好地展示、保護(hù)和研究文物遺產(chǎn),世界各國(guó)建立了數(shù)以萬計(jì)各種類型的博物館,博物館逐漸成為文物保護(hù)和文化傳承的主要載體。博物館的發(fā)展可以劃分為傳統(tǒng)博物館、數(shù)字博物館和智慧博物館三個(gè)階段。
傳統(tǒng)實(shí)體博物館中,信息的傳遞主要以文物到人的形式存在,人到文物的信息傳遞需要考慮到文物展出的時(shí)間和空間要求。而數(shù)字博物館的建立克服了時(shí)空要求,通過集中式的數(shù)據(jù)采集將文物實(shí)體數(shù)字化,并借助互聯(lián)網(wǎng)和多媒體技術(shù)在終端上更好的將文物展示給人。但是文物與人的信息傳遞被數(shù)字化所阻隔,人看到的只是冷冰冰的數(shù)字化的文物,導(dǎo)致真實(shí)感、交互性和體驗(yàn)感不足,尤其是對(duì)于文物與文物之間的關(guān)系挖掘和研究支持不足,不利于文物的維護(hù)、保管和研究。智慧博物館的提出是現(xiàn)代技術(shù)進(jìn)步的產(chǎn)物,隨著互聯(lián)網(wǎng)、云計(jì)算、虛擬現(xiàn)實(shí)和人工智能技術(shù)的進(jìn)步,數(shù)字博物館存在的問題也逐漸得到解決。其中知識(shí)圖譜是一種可以挖掘?qū)嶓w與實(shí)體之間關(guān)系的技術(shù),可以有效挖掘文物與文物間的關(guān)系,構(gòu)建知識(shí)數(shù)據(jù)庫,進(jìn)而有效地解決文物的存儲(chǔ)、展示和管理問題。因此將知識(shí)圖譜引入到智慧博物館建設(shè)中,是目前的發(fā)展方向。
知識(shí)圖譜最早于2012年由谷歌提出并成功應(yīng)用于搜索引擎,當(dāng)前知識(shí)圖譜已為語義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成等提供強(qiáng)大的支撐,正在多種大型行業(yè)和領(lǐng)域中得到廣泛應(yīng)用。除谷歌外典型的案例還有Facebook的圖譜搜索,Microsoft Satori以及商業(yè)、金融、生命科學(xué)等領(lǐng)域特定的知識(shí)圖譜。
數(shù)字博物館的廣泛建立,使得文物實(shí)體數(shù)據(jù)化,同時(shí)數(shù)據(jù)規(guī)模也越來越大。目前仍然主要依靠專家來分析和維護(hù)這些文物數(shù)據(jù),由于工作量巨大,領(lǐng)域?qū)<业南∪保瑢?dǎo)致該工作越來越難以完成,需要耗費(fèi)大量的人力、物力和時(shí)間。信息處理技術(shù)的進(jìn)步使得自動(dòng)分析文物實(shí)體間的聯(lián)系成為可能。因此,急需現(xiàn)代化手段來推動(dòng)智慧博物館的發(fā)展。知識(shí)圖譜在文物資源保護(hù)與研究方面有三方面優(yōu)勢(shì):
(1)能夠深度挖掘文物實(shí)體間的內(nèi)在聯(lián)系;
(2)優(yōu)良的可擴(kuò)展性,如想要把新的文物加入到圖譜中,只需要找到相關(guān)的節(jié)點(diǎn)進(jìn)行添加即可,從而建立新的聯(lián)系,原來的文物實(shí)體連接關(guān)系并不會(huì)發(fā)生改變;
(3)推理檢索的便利性,知識(shí)圖譜的邊代表文物實(shí)體間的關(guān)系,對(duì)文物的檢索就是對(duì)知識(shí)圖譜的遍歷,本質(zhì)上來講就是推理檢索。
因此,知識(shí)圖譜技術(shù)可以更好地表示文物知識(shí)及其之間的各種關(guān)聯(lián),將有力推動(dòng)文物信息資源的開放共享,推進(jìn)文物信息資源、內(nèi)容、產(chǎn)品、渠道、消費(fèi)全鏈條設(shè)計(jì),不斷豐富文化產(chǎn)品和服務(wù),進(jìn)一步發(fā)揮文物在培育弘揚(yáng)社會(huì)主義核心價(jià)值觀、構(gòu)建中華優(yōu)秀傳統(tǒng)文化傳承體系和公共文化服務(wù)體系中的重要作用。
知識(shí)圖譜技術(shù)是在語義網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的,是一種知識(shí)庫表示方式,是實(shí)現(xiàn)人工智能的重要手段。2006年,萬維網(wǎng)之父Berners Lee提出了鏈接數(shù)據(jù)(linked data)的思想,旨在強(qiáng)調(diào)語義互聯(lián)網(wǎng)的目的是建立數(shù)據(jù)之間的鏈接,而不是發(fā)布結(jié)構(gòu)化的數(shù)據(jù)。并且相關(guān)技術(shù)標(biāo)準(zhǔn)如RDF(resource description framework)、URI(uniform resource identifier)、OWL(Web ontology language)等的完善為語義網(wǎng)絡(luò)的研究提供了基礎(chǔ)[1]。
國(guó)內(nèi)外對(duì)知識(shí)圖譜的研究已經(jīng)取得了一定的進(jìn)展。除了傳統(tǒng)搜索服務(wù)提供商如谷歌和微軟等先后推出用于網(wǎng)絡(luò)搜索的知識(shí)圖譜產(chǎn)品外,包括Facebook、Apple、IBM等互聯(lián)網(wǎng)領(lǐng)軍企業(yè)也加入了競(jìng)爭(zhēng),比如Facebook的Facebook KB、Apple的Wolfram Alpha、IBM的Watson KB等。國(guó)內(nèi)對(duì)中文知識(shí)圖譜的研究起步較早,也取得了一系列的研究成果。中科院計(jì)算機(jī)語言信息中心董振東領(lǐng)導(dǎo)建立了知網(wǎng)(HowNet)項(xiàng)目[2],但是該知識(shí)庫的數(shù)據(jù)規(guī)模相對(duì)較小、并且對(duì)于領(lǐng)域的限定較強(qiáng),難以將其技術(shù)推廣。在工業(yè)界,百度知心和搜狗知立方等優(yōu)化了搜索引擎。在學(xué)術(shù)界,清華大學(xué)建立了第一個(gè)大規(guī)模中英文跨語言知識(shí)圖譜XLore、中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所基于開放知識(shí)網(wǎng)絡(luò)(OpenKN)建立“人立方、事立方、知立方”原型系統(tǒng),中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院陸汝鈐院士提出知件(Knowware)的概念,復(fù)旦大學(xué)GDM實(shí)驗(yàn)室推出的中文知識(shí)圖譜項(xiàng)目,上海交通大學(xué)構(gòu)建并發(fā)布了中文知識(shí)圖譜研究平臺(tái)zhishi.me等,這些項(xiàng)目的特點(diǎn)是知識(shí)庫規(guī)模較大,涵蓋的知識(shí)領(lǐng)域較廣泛,并且能為用戶提供智能搜索和知識(shí)問答。
2006年鏈接開放數(shù)據(jù)(linked open data,LOD)概念開啟了文化遺產(chǎn)領(lǐng)域的數(shù)字資源語義融合及知識(shí)圖譜構(gòu)建的相關(guān)研究[4]。近年來文物知識(shí)圖譜在世界各個(gè)國(guó)家得到了快速發(fā)展,出現(xiàn)了多個(gè)具有代表性的文物知識(shí)圖譜項(xiàng)目,在數(shù)字資源和文化資源的語義描述、語義關(guān)聯(lián)和關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)建設(shè)中,出現(xiàn)了具有一系列代表性的研究成果。下面從各項(xiàng)目采用的知識(shí)圖譜元數(shù)據(jù)模型的角度對(duì)相關(guān)工作做一個(gè)簡(jiǎn)單的介紹。
文物知識(shí)圖譜項(xiàng)目絕大多數(shù)基于各種不同的知識(shí)圖譜元數(shù)據(jù)模型,主要有: DC[5],DC terms[6],SKOS[7],CIDOC-CRM[8], FRBR[9],EDM[10]等。其中國(guó)外應(yīng)用較多的為CIDOC-CRM模型和Europeana推出的EDM模型。
1.CIDOC-CRM
CRM(Conceptual Reference Model)是文化遺產(chǎn)信息領(lǐng)域的概念參考模型,是由國(guó)際博協(xié)登記著錄委員會(huì)(CIDOC)花費(fèi)十年以上時(shí)間完成的旨在促進(jìn)多樣化的文化遺產(chǎn)信息的集成、轉(zhuǎn)移和相互交換的形式本體。CIDOC-CRM模型提供了一個(gè)通用并且可擴(kuò)展的語義框架,以促進(jìn)對(duì)文化遺產(chǎn)信息的共享共識(shí),該框架可以映射任何文化遺產(chǎn)信息,并且利用其提供的定義和形式結(jié)構(gòu)可以描述文化遺產(chǎn)中使用的隱含和顯性概念和關(guān)系。CIDOC-CRM于1998年發(fā)布第一個(gè)版本,經(jīng)過多年的發(fā)展到目前已經(jīng)演變到V5.0.4版本。該版本將文化遺產(chǎn)領(lǐng)域定義出90個(gè)實(shí)體、149個(gè)屬性,包含了特定文物實(shí)體的時(shí)間、地點(diǎn)、人物、歷史事件、人文藝術(shù)等信息。CIDOCCRM提供的大量的摘要概念(Abstract Concepts)可以用來描述不同類型的文化遺產(chǎn),世界上大量的博物館已經(jīng)廣泛使用CIDOC-CRM,將博物館的數(shù)據(jù)映射到該模型上。其中比較著名的有大英博物館關(guān)聯(lián)開放數(shù)據(jù)項(xiàng)目[11]、俄羅斯文化遺跡云平臺(tái)[12]、波蘭數(shù)字國(guó)家博物館項(xiàng)目、徐悲鴻博物館繪畫藏品項(xiàng)目[13]。
大英博物館是最早使用知識(shí)圖譜技術(shù)的博物館之一,2011年大英博物館關(guān)聯(lián)開放數(shù)據(jù)項(xiàng)目(https://www.researchspace.org/Events.html)將文物數(shù)據(jù)映射到本體CIDOC-CRM上,共發(fā)布了1億條三元組,并將其連接到世界范圍的知識(shí)譜圖上,開發(fā)了語義檢索系統(tǒng)。在此基礎(chǔ)上大英博物館與Andrew Mellon基金會(huì)合作為藝術(shù)研究推出了虛擬研究環(huán)境ResearchSpace。大英博物館為該項(xiàng)目提供了2500條關(guān)聯(lián)開放數(shù)據(jù),并利用這些開放數(shù)據(jù)陸續(xù)推出了多項(xiàng)語義檢索、語義數(shù)據(jù)注釋、語義圖像注釋等開放研究課題。
俄羅斯文化遺跡云平臺(tái)構(gòu)建了包括俄羅斯博物館、彼得人類學(xué)和人種學(xué)博物館在內(nèi)的俄羅斯最大文化知識(shí)圖譜,提供了豐富的知識(shí)呈現(xiàn)方式,包括時(shí)間軸、地圖、關(guān)系圖等,支持網(wǎng)站和手機(jī)應(yīng)用多種終端。圖1(a)顯示了該圖譜中某藝術(shù)品表示的實(shí)例。
2.EDM
Europeana是一個(gè)大型數(shù)字博物館項(xiàng)目,由歐盟委員會(huì)和成員國(guó)的文化和教育部門贊助和支持,歐盟各國(guó)的圖書館、檔案館和博物館參與其中。2012年,為了適應(yīng)語義網(wǎng)的發(fā)展,Europeana推出了關(guān)聯(lián)開放數(shù)據(jù)試點(diǎn)——data.europeana.eu,其中關(guān)聯(lián)數(shù)據(jù)資源類型包括文本、圖片、音頻、視頻、動(dòng)畫等,這些數(shù)據(jù)來自歐盟成員國(guó)的1500多個(gè)不同的文化機(jī)構(gòu),使用元數(shù)據(jù)模型EDM(Europeana Data Model)作為資源內(nèi)容的描述模型。包含有1000萬個(gè)數(shù)字文物對(duì)象和超過兩億條記錄,這些數(shù)據(jù)以關(guān)聯(lián)的形式對(duì)外開放,給歐洲的文物、文化遺產(chǎn)提供了新的共同接口[10,14],構(gòu)建了文化資源不同概念之間的關(guān)聯(lián)關(guān)系的語義知識(shí)本體模型。目前歐盟成員國(guó)的文化遺產(chǎn)知識(shí)圖譜項(xiàng)目多選用EDM作為數(shù)據(jù)模型,比較著名的有:荷蘭國(guó)立博物館知識(shí)圖譜項(xiàng)目[15-16]、歐洲圖書館項(xiàng)目、歐洲文化遺產(chǎn)資源在線訪問平臺(tái)(ATHEVA)、西班牙文博物館數(shù)字化項(xiàng)目(Hispana)等[17]。圖1(b)顯示了荷蘭國(guó)立博物館知識(shí)圖譜中某藝術(shù)品表示的實(shí)例。
由于文物及文化遺產(chǎn)大數(shù)據(jù)的快速發(fā)展,數(shù)據(jù)量和數(shù)據(jù)形式都不斷發(fā)展,知識(shí)圖譜逐漸成為實(shí)現(xiàn)對(duì)異構(gòu)文物海量數(shù)據(jù)的管理和相關(guān)內(nèi)容挖掘的主要技術(shù)。
在文物領(lǐng)域,知識(shí)圖譜的構(gòu)建過程可由數(shù)據(jù)源采集、數(shù)據(jù)融合、圖譜生成及應(yīng)用幾個(gè)步驟構(gòu)成,具體如下圖2所示。
構(gòu)建圖譜的數(shù)據(jù)采集主要來源于數(shù)字化的文物記錄結(jié)構(gòu)化數(shù)據(jù)以及描述文物的文本、音頻、圖像等非結(jié)構(gòu)化數(shù)據(jù)。
圖1.元數(shù)據(jù)模型實(shí)例
圖2.文物知識(shí)圖譜的構(gòu)建過程
構(gòu)建圖譜的數(shù)據(jù)要根據(jù)不同的數(shù)據(jù)類型進(jìn)行融合和鏈接。結(jié)構(gòu)化數(shù)據(jù)主要是存儲(chǔ)在各大數(shù)字博物館的文物關(guān)系型數(shù)據(jù)庫中,由于不同機(jī)構(gòu)的文物數(shù)據(jù)庫對(duì)記錄文物信息的字段定義各有不同,所以必須對(duì)結(jié)構(gòu)化數(shù)據(jù)依照文物領(lǐng)域的元數(shù)據(jù)規(guī)定的本體和概念進(jìn)行數(shù)據(jù)的對(duì)齊才能與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合的鏈接。非結(jié)構(gòu)化數(shù)據(jù)主要有文物的文本描述、音頻和圖片數(shù)據(jù)組成。在進(jìn)行文物知識(shí)的鏈接與融合之前需要根據(jù)文本、音頻和圖片信息進(jìn)行實(shí)體抽取、關(guān)系抽取和屬性抽取產(chǎn)生文物知識(shí)的表示,通過進(jìn)一步的共指消解、實(shí)體消歧等技術(shù)完成文物信息的智能理解與知識(shí)鏈接之后才能使用。特別對(duì)于某些文物的音頻和圖像信息還需要進(jìn)行特征提取、內(nèi)容理解和相關(guān)屬性識(shí)別后與其他相關(guān)知識(shí)進(jìn)行鏈接和融合。
在數(shù)據(jù)采集和數(shù)據(jù)融合基礎(chǔ)上,為了能夠不斷挖掘文物信息組織深度的序化和資源內(nèi)容關(guān)聯(lián)關(guān)系,需要對(duì)處理后的文物知識(shí)依據(jù)文物知識(shí)圖譜模型采用一定的規(guī)則和結(jié)構(gòu)生成文物知識(shí)圖譜,并以圖譜為基礎(chǔ)完成語義檢索、知識(shí)推薦和自動(dòng)問答等具體應(yīng)用。
知識(shí)圖譜構(gòu)建是一項(xiàng)龐大而復(fù)雜的工程,現(xiàn)階段知識(shí)圖譜構(gòu)建基于現(xiàn)實(shí)世界中復(fù)雜而龐大的多源異構(gòu)模式數(shù)據(jù),因此圖譜建立和應(yīng)用的技術(shù),是語義網(wǎng)絡(luò)、自然語言處理和機(jī)器學(xué)習(xí)等的交叉學(xué)科。其中的關(guān)鍵技術(shù)主要包括了知識(shí)表示、信息抽取和知識(shí)融合等多項(xiàng)內(nèi)容。
1.知識(shí)表示
無(半)結(jié)構(gòu)化數(shù)據(jù)中包含大量的文物知識(shí),而知識(shí)圖譜中的數(shù)據(jù)存儲(chǔ)形式則是結(jié)構(gòu)化的。因此,文物知識(shí)圖譜的主要研究目標(biāo)是從這些無(半)結(jié)構(gòu)化數(shù)據(jù)中獲取文物的結(jié)構(gòu)化知識(shí),自動(dòng)整合和構(gòu)建文物知識(shí)圖譜,服務(wù)于文物知識(shí)推理的相關(guān)應(yīng)用。文物知識(shí)圖譜構(gòu)建和應(yīng)用過程中的關(guān)鍵問題是文物的知識(shí)表示。例如:萬維網(wǎng)聯(lián)盟(W3C)發(fā)布的資源描述框架(RDF)技術(shù)標(biāo)準(zhǔn)以三元組表示為基礎(chǔ),受到廣泛認(rèn)可。然而目前的知識(shí)表示面臨著計(jì)算效率和數(shù)據(jù)稀疏問題[18]。
傳統(tǒng)的知識(shí)庫的知識(shí)表示是基于邏輯的符號(hào)知識(shí)表示,主要以一階謂詞為基礎(chǔ),擴(kuò)展了等價(jià)、缺省推理、斯科林化和部分二階謂詞邏輯等知識(shí)表示能力。而現(xiàn)代知識(shí)圖譜都在邏輯的語義表達(dá)方面降低了要求,以事實(shí)型知識(shí)為主。隨著表示學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,基于向量的知識(shí)表示方法得到越來越多的重視?;谙蛄康闹R(shí)表示的目的是對(duì)文物實(shí)體的描述信息,比如無結(jié)構(gòu)化的文本對(duì)象,運(yùn)用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法等技術(shù)提取其向量特征,從而將具體的文物抽象為數(shù)學(xué)化的向量表示,為文物關(guān)系的挖掘打下基礎(chǔ)。以下著重介紹基于向量的知識(shí)表示的發(fā)展和相關(guān)技術(shù)。
基于向量的知識(shí)表示通??梢苑譃闊o學(xué)習(xí)表示和學(xué)習(xí)表示兩種方法。無學(xué)習(xí)的數(shù)據(jù)表示最常用是獨(dú)熱(one-hot)表示[19]。這種表示方法將信息表示為只有某一維非零的向量。為了將不同知識(shí)區(qū)分開,這就導(dǎo)致獨(dú)熱表示的向量維數(shù)很高。例如某文物文字介紹集合中共出現(xiàn)W個(gè)不同的詞,則使用一個(gè)W維的向量表示每個(gè)文物的文本描述,每一維的取值大小表示文物介紹集中的該詞匯在該特定文物描述中的重要性。獨(dú)熱表示無法有效利用對(duì)象間的語義相似度信息,容易受到數(shù)據(jù)稀疏問題影響,計(jì)算效率不高。
而學(xué)習(xí)表示與獨(dú)熱表示相比,通過學(xué)習(xí)階段可以充分利用對(duì)象間的語義信息,大大降低知識(shí)表示的向量維度。近年來,出現(xiàn)了許多知識(shí)表示技術(shù),包括距離模型,單層神經(jīng)網(wǎng)絡(luò)模型,雙線性模型,能量模型,張量神經(jīng)網(wǎng)絡(luò)模型,矩陣分解模型和翻譯模型(TransE)[18]。在TransE基礎(chǔ)上研究者從不同角度嘗試解決復(fù)雜關(guān)系建模問題,又陸續(xù)提出了TransH,TransR,TransD,TransSparse,TransA,TransG和KG2E等模型[20,26],不同程度的提高了表示性能。
2.信息抽取
形成知識(shí)圖譜的數(shù)據(jù)依靠人工加工工作量巨大,很難形成大規(guī)模的知識(shí)圖譜。構(gòu)建知識(shí)圖譜的關(guān)鍵是如何自動(dòng)地去抽取信息。對(duì)于文物知識(shí)圖譜的構(gòu)建而言,大部分?jǐn)?shù)據(jù)都是半結(jié)構(gòu)化的網(wǎng)頁信息和非結(jié)構(gòu)化的文本信息,由于其數(shù)據(jù)規(guī)模較大,手工抽取難以實(shí)現(xiàn),因此需要借助當(dāng)前較為成熟的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)自動(dòng)地去抽取文物信息。
知識(shí)抽取大部分是面向開放的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通常典型的輸入是自然語言文本或者多媒體內(nèi)容文檔等。知識(shí)抽取主要包括實(shí)體提取、關(guān)系抽取和屬性抽取三個(gè)方面,主要是借助統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)自動(dòng)抽取。在知識(shí)抽取的基礎(chǔ)上,進(jìn)而進(jìn)行知識(shí)表示,然后考慮實(shí)體對(duì)齊、本體構(gòu)建、知識(shí)更新等方面,最終構(gòu)造完整的知識(shí)圖譜。
實(shí)體提取是從自然語言文本中查找相關(guān)實(shí)體,并標(biāo)記實(shí)體的位置和類型,也被稱為命名實(shí)體識(shí)別(Named Entity Recognition,NER)。命名實(shí)體是構(gòu)建知識(shí)圖譜的基礎(chǔ),因此實(shí)體抽取的完整性、精確度和召回率等決定了知識(shí)圖譜構(gòu)建的質(zhì)量。實(shí)體抽取的方法分為4種:基于百科站點(diǎn)或垂直站點(diǎn)提取[27]、基于規(guī)則與詞典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[28]以及面向開放域的抽取方法。
關(guān)系抽取的目的是通過提取命名實(shí)體之間的關(guān)系來解決實(shí)體語義鏈接的問題。其中,實(shí)體間的關(guān)系包括參數(shù)類型、符合此關(guān)系的元組模式等。由此可見,關(guān)系抽取是在實(shí)體抽取的基礎(chǔ)上,把無結(jié)構(gòu)的信息數(shù)據(jù)中所蘊(yùn)含的實(shí)體之間的語義關(guān)系抽取出來,整理成結(jié)構(gòu)化的三元組存儲(chǔ)在圖數(shù)據(jù)庫中,以便讓人們進(jìn)一步的做知識(shí)融合和知識(shí)表示。這對(duì)于知識(shí)圖譜的構(gòu)建非常關(guān)鍵。目前主流的關(guān)系抽取技術(shù)分為:基于規(guī)則的方法[30-31]、基于核函數(shù)的方法[32-33]和基于深度學(xué)習(xí)的方法[34-35]。
屬性抽取的任務(wù)是為每個(gè)本體語義類構(gòu)造屬性列表,而屬性值提取則為一個(gè)語義類的實(shí)體附加屬性值。屬性和屬性值的抽取能夠形成完整的實(shí)體概念的知識(shí)圖譜維度,屬性抽取也可看作是關(guān)系抽取中“isa”關(guān)系的特例。
3.知識(shí)融合
除了知識(shí)表示和信息抽取技術(shù)以外,知識(shí)圖譜的構(gòu)建還面臨著多源信息融合、復(fù)雜推理模式的重要問題。知識(shí)融合指將不同來源的知識(shí)進(jìn)行對(duì)齊、合并的工作,形成全局統(tǒng)一的知識(shí)標(biāo)識(shí)和關(guān)聯(lián)。知識(shí)融合是知識(shí)圖譜構(gòu)建中不可缺少的一環(huán),知識(shí)融合體現(xiàn)了開放鏈接數(shù)據(jù)中互聯(lián)的思想。
如著名的TransE僅利用知識(shí)圖譜中的三元組結(jié)構(gòu)信息進(jìn)行表示學(xué)習(xí),尚有如實(shí)體和關(guān)系的描述、類別信息以及知識(shí)庫外的海量信息未得到充分利用的問題。如何充分整合這些異構(gòu)多源信息實(shí)現(xiàn)知識(shí)融合具有重要意義。其中,基于實(shí)體描述的知識(shí)表示學(xué)習(xí)模型(DKRL)[29]和基于文本和知識(shí)庫融合的知識(shí)表示學(xué)習(xí)最為典型。多源信息融合可以有效地提高知識(shí)表示的性能,尤其是新實(shí)體的表示。多源信息融合的知識(shí)圖譜構(gòu)建仍處于起步階段,相關(guān)工作較少,信息來源有限,有大量信息(如實(shí)體類別)未被考慮,所以具有廣闊的研究前景。此外,基于關(guān)系路徑的知識(shí)表示學(xué)習(xí)由于充分利用了實(shí)體間關(guān)系和關(guān)系路徑的推理模式也成為研究的重要方向[18]。
在文物領(lǐng)域構(gòu)建知識(shí)圖譜后,語義檢索、推薦、問答是最典型的三類應(yīng)用,是在智慧博物館建設(shè)中邁出的一大步。無論是對(duì)于僅是想要了解文物信息的普通用戶,還是對(duì)想要研究文物的專業(yè)人士,基于文物知識(shí)圖譜構(gòu)建的這些應(yīng)用,對(duì)于深層次地挖掘和利用文物領(lǐng)域的數(shù)字化資源都是非常具有研究?jī)r(jià)值和應(yīng)用價(jià)值的。
在信息爆炸的時(shí)代,大數(shù)據(jù)量的信息對(duì)于用戶來說具有很大的選擇壓力,用戶很難從海量數(shù)據(jù)中找尋到自己感興趣的資源,反而導(dǎo)致信息使用效率的降低。隨著數(shù)字化博物館的建設(shè),數(shù)據(jù)資源無論是種類還是數(shù)量都很巨大,信息高效檢索利用問題也日益突出。
知識(shí)圖譜以圖的形式刻畫和管理數(shù)據(jù)及其之間的關(guān)系,構(gòu)成一個(gè)知識(shí)庫,在這種知識(shí)庫上可以方便地進(jìn)行多維相關(guān)信息的檢索,而不僅是基于關(guān)鍵詞的全文檢索。因此,在構(gòu)建文物領(lǐng)域的知識(shí)圖譜后,可以清晰地描述文物、人物、時(shí)代、材質(zhì)等各種實(shí)體及其之間的關(guān)系,并進(jìn)行快速的數(shù)據(jù)導(dǎo)航。例如,當(dāng)輸入一個(gè)名畫的名稱時(shí),不但可以查詢到該畫作的詳細(xì)信息,同時(shí)還可以給出該畫作的作者、時(shí)期、簡(jiǎn)介、圖像資料等相關(guān)信息?;诖私Y(jié)果,還可以進(jìn)行深入地信息導(dǎo)航。例如,了解該作者的其他作品,了解同時(shí)期的同類作品等。類似地語義檢索更便于文物領(lǐng)域知識(shí)的高效導(dǎo)航和數(shù)據(jù)利用,對(duì)于博物館的管理人員和游客都具有非常好的應(yīng)用價(jià)值。
推薦技術(shù)是解決信息過載問題一個(gè)非常有潛力的辦法。用戶不僅僅只是主動(dòng)去搜索信息,而是根據(jù)用戶的興趣特征主動(dòng)向用戶推薦他們感興趣的信息?!巴扑]”目前在購物網(wǎng)站中應(yīng)用很多。在頭條的帶領(lǐng)下,很多新聞?lì)愊到y(tǒng)也開始采用推薦技術(shù),使用戶更容易獲得感興趣的內(nèi)容。通過推薦系統(tǒng)的幫助,可以實(shí)現(xiàn)信息的生成者和消費(fèi)者雙方都獲利的局面。在文物領(lǐng)域,推薦技術(shù)也存在應(yīng)用價(jià)值,但是目前并沒有大幅推廣應(yīng)用。
經(jīng)過數(shù)字化建設(shè),很多博物館的網(wǎng)站建設(shè)已具規(guī)模,但是信息主要依靠用戶主動(dòng)瀏覽。借助推薦技術(shù),可以依靠系統(tǒng)收集用戶的屬性特征、行為歷史,在此基礎(chǔ)上通過推薦算法計(jì)算出用戶可能感興趣的相關(guān)信息,并對(duì)候選信息進(jìn)行排序返回。
問答系統(tǒng)(Question Answering,QA)是讓計(jì)算機(jī)自動(dòng)回答用戶所提出的問題,和目前的搜索引擎不同,問答系統(tǒng)不再是返回基于關(guān)鍵字匹配的文檔排序,而是通過自然語言的形態(tài)給出確定的答案。智能問答系統(tǒng)是讓計(jì)算機(jī)理解人類語言的主要手段。這部分內(nèi)容的體現(xiàn)主要集中在門戶社區(qū)或各種交互式的問答系統(tǒng)中。目前專門針對(duì)文物領(lǐng)域的問答系統(tǒng)還并不成熟。
構(gòu)建文物領(lǐng)域的知識(shí)圖譜后,則可以為該領(lǐng)域的自動(dòng)問答提供知識(shí)來源。例如,用戶提問“《墨梅》的作者是誰?”。文物圖譜中已經(jīng)存儲(chǔ)了三元組數(shù)據(jù)[《墨梅》 作者 王冕],問答系統(tǒng)會(huì)返回“王冕”。
自動(dòng)問答是針對(duì)用戶輸入的自然語言問句進(jìn)行理解,然后從知識(shí)圖譜中計(jì)算出用戶問題的答案。其中涉及的關(guān)鍵技術(shù)和難點(diǎn)包括:如何正確理解用戶的真實(shí)意圖;如何對(duì)候選答案進(jìn)行評(píng)分以確定優(yōu)先級(jí)順序等?;谥R(shí)圖譜,構(gòu)建文物的自動(dòng)問答系統(tǒng),則可以在其上完成更人性化的應(yīng)用服務(wù)。
現(xiàn)階段,基于本體工程的知識(shí)描述和表示仍是知識(shí)圖譜建模的主流方法,而且僅用到了一些 RDFS及OWL中定義的基礎(chǔ)元屬性來完成知識(shí)圖譜模式層構(gòu)建,圖譜所關(guān)注的重點(diǎn)也仍然是數(shù)據(jù)中的概念、實(shí)體屬性等。由于文物描述承載了更多的時(shí)間、空間以及歷史事件的知識(shí),所以隨著人們對(duì)文物背后蘊(yùn)藏的文化知識(shí)的認(rèn)知層次的提升,勢(shì)必會(huì)對(duì)現(xiàn)有的知識(shí)表示方法進(jìn)行擴(kuò)展,需要逐步擴(kuò)展對(duì)現(xiàn)有的文物知識(shí)表示方法,擴(kuò)充對(duì)于文物的時(shí)序知識(shí)、空間[37]、事件知識(shí)[38]等的表示。而知識(shí)圖譜本身也會(huì)逐步將關(guān)注重點(diǎn)轉(zhuǎn)移到時(shí)序、位置事件等動(dòng)態(tài)知識(shí)中去,來更有效地描述事物發(fā)展的變化,為預(yù)測(cè)類的應(yīng)用形態(tài)提供支持。
國(guó)內(nèi)各地文物博物館的數(shù)字化資源建設(shè)已經(jīng)進(jìn)行了若干年,效果顯著。數(shù)字化資源建設(shè)已獲得了大量的結(jié)構(gòu)化數(shù)據(jù)。但是除此之外還有大量的文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)有待深入挖掘和利用。
文物領(lǐng)域中通常具有大量的文物知識(shí)語料是采用圖文配合的方式提供的,因此圖像和文本都含有了文物的信息。鑒于文物語料知識(shí)的這種特點(diǎn),文物知識(shí)圖譜的研究急需構(gòu)建一種同時(shí)處理文本和視覺的多模態(tài)信息文物知識(shí)表示和抽取方法,研究融合圖像和文本的特征提取方法,進(jìn)而提升命名實(shí)體識(shí)別精度和召回率,達(dá)到增強(qiáng)文物知識(shí)的表示能力的目的。
通過分析目前國(guó)內(nèi)各博物館網(wǎng)站結(jié)構(gòu)和數(shù)據(jù)發(fā)現(xiàn),多數(shù)項(xiàng)目是獨(dú)立進(jìn)行的,國(guó)內(nèi)資源共享和管理模式還沒有達(dá)成。如果能夠借助知識(shí)圖譜技術(shù),通過知識(shí)融合將各地的數(shù)字化資源進(jìn)行關(guān)聯(lián)與鏈接,形成以知識(shí)為中心的大型知識(shí)庫,可為我國(guó)文物信息的資源整合和利用,提供技術(shù)和資源基礎(chǔ)。為了更好地完成這一設(shè)想,需要統(tǒng)一和規(guī)范跨類型、跨機(jī)構(gòu)、跨領(lǐng)域數(shù)字文物資源內(nèi)容的語義描述規(guī)則;轉(zhuǎn)換文物資源對(duì)象的完整格式記錄為特征內(nèi)容的元素描述;突出文物對(duì)象具體內(nèi)容特征的全方面描述,挖掘其內(nèi)在的關(guān)聯(lián)關(guān)系;實(shí)現(xiàn)對(duì)數(shù)字文物文化資源內(nèi)容的統(tǒng)一細(xì)粒度描述和去格式化語義描述。
多方面的實(shí)踐證明,目前國(guó)內(nèi)文化遺產(chǎn)保護(hù)領(lǐng)域急需設(shè)計(jì)一個(gè)與多域元數(shù)據(jù)標(biāo)準(zhǔn)兼容的語義互操作框架模型。在該框架模型的基礎(chǔ)上,參考元數(shù)據(jù)應(yīng)用程序概要(Metadata Application Profile),復(fù)用現(xiàn)有成熟元數(shù)據(jù)標(biāo)準(zhǔn)的元素、術(shù)語和修飾詞來擴(kuò)展?jié)M足文化遺產(chǎn)領(lǐng)域資源描述所需的其他類和屬性的定義、約束和規(guī)則,構(gòu)建聚合式元數(shù)據(jù)模型以支持?jǐn)?shù)字文化資源的語義描述和組織,并節(jié)省元數(shù)據(jù)開發(fā)的成本。
對(duì)文物大數(shù)據(jù)進(jìn)行信息抽取形成文物知識(shí)圖譜,再通過推理和分析技術(shù),挖掘文物極具價(jià)值的文化、歷史、藝術(shù)、哲學(xué)、宗教等信息,可使人們對(duì)文物所承載的文化歷史發(fā)展脈絡(luò)、社會(huì)規(guī)律和關(guān)聯(lián)的認(rèn)識(shí)更全面、透徹。利用文物知識(shí)圖譜不斷挖掘文物信息組織深度的序化和資源內(nèi)容關(guān)聯(lián)關(guān)系,支持用戶利用開放的應(yīng)用程序接口(API)將獲取的數(shù)據(jù)集嵌入到移動(dòng)APP、網(wǎng)站、社交網(wǎng)絡(luò)平臺(tái)、網(wǎng)絡(luò)社區(qū)等特定應(yīng)用服務(wù)中,為用戶提供廣泛的數(shù)字文化遺產(chǎn)應(yīng)用服務(wù),促進(jìn)文物信息資源的公開共享,促進(jìn)文物信息資源、內(nèi)容、產(chǎn)品、渠道和消費(fèi)鏈的設(shè)計(jì),不斷豐富文化產(chǎn)品和服務(wù),使文物在培育和弘揚(yáng)社會(huì)主義核心價(jià)值觀,建立中國(guó)優(yōu)秀傳統(tǒng)文化和公共文化服務(wù)體系的傳承體系中發(fā)揮重要作用。