彭 博
(1.華中科技大學(xué)建筑與城市規(guī)劃學(xué)院 武漢 4300742.華中師范大學(xué)信息管理學(xué)院 武漢 430079)
中國文物作為中華歷史文化傳承中的精華,記錄著華夏文明上下五千年的歷史變遷進(jìn)程。隨著數(shù)據(jù)爆炸式增長時代的來臨,以往將結(jié)構(gòu)化數(shù)據(jù)視為文物信息資源的觀點已無法適應(yīng)大數(shù)據(jù)環(huán)境下信息資源的定義,應(yīng)該將廣義的信息資源概念應(yīng)用于文物信息資源中,數(shù)量龐大、形式多樣的與文物有關(guān)的信息都可以被視為文物信息資源。因此,如何從非結(jié)構(gòu)化數(shù)據(jù)組成的信息資源中抽取實體關(guān)系三元組并進(jìn)行知識發(fā)現(xiàn),成為了大數(shù)據(jù)時代文物信息資源利用與推廣中需要解決的重要問題。
信息資源中實體關(guān)系抽取的普遍做法是在輸入的文本數(shù)據(jù)中以句為單位識別出其中包含的實體及實體間的關(guān)系[1]。現(xiàn)有實體關(guān)系抽取研究分別圍繞無監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法、全監(jiān)督的學(xué)習(xí)方法以及遠(yuǎn)程監(jiān)督的方式進(jìn)行。
無監(jiān)督的學(xué)習(xí)方法利用實體關(guān)系對在句中的固定特征進(jìn)行聚類,通過聚類后的結(jié)果進(jìn)行實體關(guān)系抽取。早期開始于使用人工標(biāo)注的特定領(lǐng)域語料與增強型的句法解析對待抽取文本按一定規(guī)則進(jìn)行挖掘,如Miller等[2]通過統(tǒng)計方法設(shè)計匹配規(guī)則,經(jīng)過詞性識別、實體識別、句法分析、語義解析四步驟進(jìn)行實體關(guān)系抽取。Kambhatla[3]采用最大熵模型整合文本中的詞、句的語義特征,使用邏輯回歸的方法進(jìn)行實體關(guān)系的分類。Zhao等[4]使用核函數(shù)模型,將分詞、句子解析、深度依存分析分別進(jìn)行核函數(shù)表示,綜合三種維度進(jìn)行預(yù)定義關(guān)系下的實體關(guān)系抽取。Culotta等[5]使用隨機條件場對文本中存在的類似關(guān)系進(jìn)行抽取,提高了基于規(guī)則實體關(guān)系抽取的效率。Banko等[6]在預(yù)定義詞匯-句法模式后通過隨機條件場進(jìn)行實體關(guān)系抽取,在特定領(lǐng)域的關(guān)系抽取中取得了更高的精度。
半監(jiān)督學(xué)習(xí)通過多次重復(fù)抽樣建立小樣本進(jìn)行實體關(guān)系標(biāo)注,得到標(biāo)注結(jié)果后再進(jìn)行樣本的實體關(guān)系抽取。Chen等[7]結(jié)合圖模型與標(biāo)簽傳播算法,對關(guān)系標(biāo)簽形成的圖模型節(jié)點和邊的權(quán)重加入提取條件,在少量關(guān)系標(biāo)簽可用的情況下實現(xiàn)了實體關(guān)系的抽取。Riedel等[8]提出使用矩陣分解模型來學(xué)習(xí)實體序列標(biāo)注和關(guān)系的潛在特征向量,能夠?qū)Y(jié)構(gòu)化和非結(jié)構(gòu)化的實體關(guān)聯(lián)關(guān)系進(jìn)行推理,實現(xiàn)開放領(lǐng)域的實體關(guān)系抽取。
全監(jiān)督的學(xué)習(xí)方法是在已標(biāo)注數(shù)據(jù)上訓(xùn)練模型,對數(shù)據(jù)集中的實體關(guān)系進(jìn)行抽取,全監(jiān)督的學(xué)習(xí)方法有基于規(guī)則、基于特征和基于核函數(shù)等。隨著深度學(xué)習(xí)的出現(xiàn),擺脫了傳統(tǒng)機器學(xué)習(xí)算法需要進(jìn)行特征設(shè)計的缺點,可以自動提取實體關(guān)系的特征。Socher等[9]使用Word2Vec與遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行實體關(guān)系抽取,首先學(xué)習(xí)節(jié)點在句子中的向量表示,隨后通過遞歸神經(jīng)網(wǎng)絡(luò)得到句子的向量表示進(jìn)行關(guān)系分類,開創(chuàng)了深度學(xué)習(xí)在實體關(guān)系抽取中的應(yīng)用。Zeng等[10]利用卷積神經(jīng)網(wǎng)絡(luò)提取詞匯和句子級特征,將這兩個級別的特征聯(lián)結(jié)起來形成特征向量,隨后將特征輸入到softmax分類器中,從而預(yù)測兩個標(biāo)記實體之間的關(guān)系進(jìn)行實體關(guān)系抽取。Nguyen等[11]使用多個尺度的窗口過濾預(yù)訓(xùn)練的詞向量,得到了一種基于卷積神經(jīng)網(wǎng)絡(luò)的泛化實體關(guān)系提取方法。由于卷積神經(jīng)網(wǎng)絡(luò)會由于輸入句子長度增加而導(dǎo)致精度下降,Xu等[12]提出使用長短時記憶網(wǎng)絡(luò)(LSTM)進(jìn)行關(guān)系抽取,在句子級別的實體關(guān)系抽取中找到兩個實體在依存樹中的最短路徑可以去除無關(guān)信息。
遠(yuǎn)程監(jiān)督有關(guān)方法誕生于外部知識庫的出現(xiàn)與發(fā)展,其核心思想來源于一個基本假設(shè):如果兩個實體在知識庫中存在關(guān)聯(lián),那么其在句子級別語料中出現(xiàn)則表明該句描述的是這種實體關(guān)系,在這個假設(shè)下可以利用知識庫自動標(biāo)記語料。Mintz等[13]使用Freebase知識庫提取實體間關(guān)聯(lián)關(guān)系,根據(jù)假設(shè)策略生成訓(xùn)練樣本,設(shè)計特征訓(xùn)練關(guān)系分類器進(jìn)行實體關(guān)系抽取。Yao等[14]對Freebase知識庫進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取的方法進(jìn)行了改進(jìn),使用Gibbs采樣進(jìn)行線性時間聯(lián)合推理,通過多個文檔確定實體間最可能存在的關(guān)聯(lián)關(guān)系,提升遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確率。Hoffmann等[15]為了減少遠(yuǎn)程監(jiān)督噪音影響,使用多實例學(xué)習(xí)思想結(jié)合句子與文檔特征進(jìn)行重疊關(guān)系的抽取。
在實體關(guān)系抽取的有關(guān)研究中,高質(zhì)量的實體關(guān)系標(biāo)注數(shù)據(jù)是進(jìn)行關(guān)系抽取的前提。由于文物信息資源具有認(rèn)知性與歷史性特征[16],知識屬性是唯一的和排他的,已知的文物知識考證明確,準(zhǔn)確性高,這為通過外部知識庫對文物信息資源中的實體關(guān)系進(jìn)行標(biāo)注提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。因此,通過遠(yuǎn)程監(jiān)督與有監(jiān)督學(xué)習(xí)融合的方法進(jìn)行文物信息資源實體關(guān)系抽取相較于其他領(lǐng)域具有得天獨厚的優(yōu)勢。
當(dāng)前國內(nèi)外有關(guān)文物信息資源的研究主要集中在結(jié)構(gòu)化數(shù)據(jù)開發(fā)與數(shù)據(jù)間語義關(guān)系的利用兩方面。
第一類研究結(jié)合文物特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)建,在數(shù)據(jù)層面進(jìn)行文物信息資源的開發(fā)和利用。如結(jié)合資源情境進(jìn)行文物圖像的標(biāo)注,將文物元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用于圖像等非結(jié)構(gòu)化文物信息資源中[17]。艾雪松等[18]在文物信息資源與有關(guān)文物元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上,構(gòu)建了面向博物館領(lǐng)域的文物信息資源元數(shù)據(jù)模型。劉美杏等[19]依據(jù)不可移動文物的特征屬性,制定了相應(yīng)的文物元數(shù)據(jù)標(biāo)準(zhǔn)以進(jìn)行后續(xù)研究。夏翠娟等[20]對可移動文物的有關(guān)特征制定了數(shù)據(jù)標(biāo)準(zhǔn),意圖從文物屬性特征、時空變化特征、管理傳承特征等方面進(jìn)行知識發(fā)現(xiàn)。
第二類研究從文物信息資源的語義特征入手,使用關(guān)聯(lián)數(shù)據(jù)、知識圖譜等方法進(jìn)行文物信息資源的開發(fā)與利用。如Hyv?nen等[21]通過關(guān)聯(lián)數(shù)據(jù)組織和整合文化遺產(chǎn)有關(guān)信息資源并使用語義網(wǎng)進(jìn)行發(fā)布。DeBoer等[22]分析了關(guān)聯(lián)數(shù)據(jù)在文物信息資源組織中的優(yōu)勢,提出了文物信息資源關(guān)聯(lián)數(shù)據(jù)的資源采集、存儲、加工與發(fā)布流程。曾子明等[23]圍繞文化遺產(chǎn)多媒體資源、視覺資源中的潛在語義關(guān)系進(jìn)行研究,提出了一系列語義關(guān)聯(lián)方法。Cimmino等[24]研究了文物信息資源中的知識組織與知識圖譜的構(gòu)建與應(yīng)用,探討了數(shù)字人文背景下文物知識的深層次利用。
綜合來看,文物信息資源數(shù)據(jù)層面的研究成果十分豐富,但使用自然語言描述的文物信息資源卻不被重視。在實際應(yīng)用中,受眾面對的都是通過文本形式對文物進(jìn)行描述的信息資源,如何利用豐富的結(jié)構(gòu)化數(shù)據(jù)研究成果幫助受眾解析有關(guān)信息資源,成為推廣和傳播文物知識的關(guān)鍵。
進(jìn)行文物實體關(guān)系抽取需要解決三個方面的問題:一是如何獲得實體間關(guān)聯(lián)關(guān)系,文物實體關(guān)系具有唯一性和即時性特征,唯一性指文物知識是經(jīng)過科學(xué)考證的結(jié)果,不存在不確定的關(guān)系,即時性指隨著文物研究中新考證的出現(xiàn),實體關(guān)系存在更新的可能,這就要求文物實體關(guān)系的獲取需要同時具有標(biāo)準(zhǔn)性和可操作性,以便確保數(shù)據(jù)準(zhǔn)確與即時更新。二是實體關(guān)系的精簡與統(tǒng)一,實體間關(guān)系多種多樣,描述關(guān)系時的用詞不盡相同,同時關(guān)系種類的增加也會導(dǎo)致后續(xù)關(guān)系抽取算法復(fù)雜度提高,因此文物實體間關(guān)系需要依照特定的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行歸納與合并。三是關(guān)系抽取模型的選取,由于文物描述規(guī)范化的特點,文物知識在自然語言中的出現(xiàn)順序與排列方式具有統(tǒng)一特征,提取有關(guān)字、詞在文本中的特征能夠有效提高實體關(guān)系抽取效率。針對以上三方面問題,文章提出從文物實體關(guān)系獲取、標(biāo)記、抽取三方面構(gòu)建融合知識圖譜與深度學(xué)習(xí)的文物實體關(guān)系抽取框架,如圖1所示。
圖1 文物實體關(guān)系抽取框架
文物實體關(guān)系抽取的首要問題是關(guān)系的獲取,外部知識庫的出現(xiàn)成為實體名稱及實體關(guān)系的重要數(shù)據(jù)來源[25]。以研究對象實體為檢索入口,通過對與其有關(guān)聯(lián)關(guān)系的實體進(jìn)行檢索,得到實體關(guān)系后再進(jìn)行多次檢索,最終得到與文物實體有關(guān)的關(guān)系集合(S,P,O)三元組[26]作為進(jìn)行實體關(guān)系標(biāo)記的數(shù)據(jù)來源。
在得到多個外部知識庫檢索的三元組集合后,使用數(shù)據(jù)清洗、去重等手段通過圖模型將三元組中的實體及屬性映射為節(jié)點和邊,其映射過程可以表示為(S,P,O)→Gi=(Vn,Em)其中V={S}∪{O}、E={(S→O)},邊E的標(biāo)簽表示為P,構(gòu)建針對研究對象的文物知識圖譜。
構(gòu)建的知識圖譜存在多種實體關(guān)系,需要對相似實體關(guān)系進(jìn)行歸類與合并,參考元數(shù)據(jù)標(biāo)準(zhǔn)以及標(biāo)準(zhǔn)間的相互映射作為實體關(guān)系歸并的依據(jù)[27]。如都柏林核心(DC)[28]、藝術(shù)品描述類目(CDWA)[29]、地名本體(GeoNames)[30]元數(shù)據(jù)標(biāo)準(zhǔn)等,經(jīng)過歸并后的實體關(guān)系可以在有限的標(biāo)記資源中為類似關(guān)系獲得更多標(biāo)記樣本。文章依據(jù)遠(yuǎn)程監(jiān)督方法假設(shè)句中存在兩個字或詞與知識圖譜中的實體名稱一致,則使用知識圖譜節(jié)點名稱(V1,V2)進(jìn)行實體名稱標(biāo)注,實體關(guān)系標(biāo)注為E1-2;若句中存在兩個以上字、詞與知識圖譜中的實體名稱一致時,則依次選取在知識圖譜中節(jié)點距離為1的節(jié)點的名稱進(jìn)行標(biāo)注,標(biāo)注為(V1,V2)、…、(Vn,Vm),實體關(guān)系對應(yīng)標(biāo)注為E1-2、…、En-m。實體關(guān)系為“別名”、“字”、“號”等表示兩節(jié)點指代同一實體時,則將這些實體間距離視為0,進(jìn)行不同名稱下同一指代實體的關(guān)系標(biāo)注。
實體關(guān)系抽取是分類問題的一種,以實體出現(xiàn)的句子為特征提取對象,根據(jù)特征對實體關(guān)系進(jìn)行分類,進(jìn)行關(guān)系抽取需要經(jīng)過文本特征向量化和使用神經(jīng)網(wǎng)絡(luò)提取序列數(shù)據(jù)中的特征兩個步驟。文本向量化的方法有Word2Vec[31]、以及預(yù)訓(xùn)練模型BERT[32]、Xlnet[33]、ALBERT[34]等,它們都是通過在一定維度內(nèi)對文本中的字、詞進(jìn)行映射,利用向量間的距離進(jìn)行文本語義的挖掘。如GOOGLE開發(fā)的預(yù)訓(xùn)練模型BERT,利用Transformer Encoder與Self-attention機制描述上下文的語義特征,加入Next Sentence Prediction與Masked-LM進(jìn)行聯(lián)合訓(xùn)練,從而能夠獲取句子級別的語義特征。隨后推出的ALBERT模型對BERT模型通過一次尺度變換降低了參數(shù)量,參數(shù)量從V×H降低到了V×E+E×H,其中E代表詞向量維度,H代表隱藏層維度,V代表詞庫。同時通過共享Transformer Encoder中的所有參數(shù),進(jìn)一步降低了模型的參數(shù)量,相較于其他預(yù)訓(xùn)練語言模型,ALBERT更小的參數(shù)量能夠快速的提取小樣本信息資源中的字符特征。
由于實體關(guān)系抽取需要處理前、后實體間存在的關(guān)聯(lián)關(guān)系,也就是前后序列數(shù)據(jù)間的特征提取,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以對同一神經(jīng)網(wǎng)絡(luò)多次賦值,每個神經(jīng)網(wǎng)絡(luò)模塊會把消息傳遞給下一個,處理序列數(shù)據(jù)有著較高的效率[35]。其解決長距離依賴問題的長短時記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)[36]既能處理序列數(shù)據(jù),又能應(yīng)對循環(huán)神經(jīng)網(wǎng)絡(luò)中序列過長引發(fā)的梯度消失問題。LSTM每個隱藏層中包含了遺忘門、輸入門及輸出門。文章加入正向和反向兩個神經(jīng)網(wǎng)絡(luò),輸入經(jīng)過兩個方向相反的LSTM,而輸出則由雙向門控循環(huán)單元(BiLSTM)進(jìn)行文本深層次特征的提取。為了減小文物信息資源輸入序列過長對神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)效果的影響,文章加入注意力機制(ATT)擇性地篩選特征。最終構(gòu)建的實體關(guān)系抽取框架如圖2所示,共分為五層,分別是輸入層、用于文本特征提取的預(yù)訓(xùn)練模型ALBERT層、進(jìn)行深度學(xué)習(xí)的雙向LSTM層和注意力層,以及輸出層。
圖2 基于深度學(xué)習(xí)的文物信息資源實體關(guān)系抽取框架
為了驗證文章方法在文物信息資源實體關(guān)系抽取中的效果,以中國十大傳世名畫之一的北宋風(fēng)俗畫《清明上河圖》信息資源為例進(jìn)行實證研究。
數(shù)據(jù)來源以《清明上河圖》為主題在百度百科、維基百科、搜狗百科中查詢詞條以及在線知識社區(qū)“知乎”檢索“清明上河圖”話題有關(guān)內(nèi)容和中國知網(wǎng)中選擇“CSSCI來源”的近三年期刊共100篇文本為研究對象。
在文物實體關(guān)系的獲取方面,文章在Wikidata知識庫中以“清明上河圖”(編號:Q714802)進(jìn)行檢索,圍繞結(jié)果進(jìn)行了3次再檢索,共得到RDF三元組380對。隨后,在中文知識庫CN-DBpedia中以“Named-Entity Disambiguation:清明上河圖(北宋張擇端風(fēng)俗畫)”同樣檢索得到RDF三元組108對,經(jīng)去重得到401個節(jié)點、409條邊的“清明上河圖”知識圖譜,結(jié)果如圖3所示。
圖3 《清明上河圖》文物知識圖譜
由于沒有統(tǒng)一標(biāo)準(zhǔn),互聯(lián)網(wǎng)中不同知識庫中存儲的實體關(guān)聯(lián)關(guān)系名稱不盡相同,信息資源實體關(guān)系的標(biāo)注需要依照一定的標(biāo)準(zhǔn)對關(guān)系描述進(jìn)行歸類與合并,否則會由于名稱問題造成實體關(guān)系出現(xiàn)歧義。同時依據(jù)已有的標(biāo)準(zhǔn)對實體關(guān)系進(jìn)行歸并能夠減少實體關(guān)系標(biāo)注的復(fù)雜度,在樣本有限的情況下最大限度整合資源,提高實體關(guān)系標(biāo)注的效率。
文章選擇都柏林核心元素集(DC)[37]中的15個核心元素作為實體關(guān)系對齊的參考標(biāo)準(zhǔn)。都柏林核心元素集是由聯(lián)機計算機圖書館中心(OCLC)和美國國家超級計算應(yīng)用中心(NCSA)與眾多專家聯(lián)合研討制定的一套專門用于描述網(wǎng)絡(luò)信息資源的元素集。其承載的描述性數(shù)據(jù)信息在實現(xiàn)通用性特征的同時還能包含關(guān)系的詳細(xì)描述信息,是網(wǎng)絡(luò)資源與實體資源數(shù)據(jù)描述的綱領(lǐng)性標(biāo)準(zhǔn)。根據(jù)知識庫實體關(guān)系的具體內(nèi)容,文章共選擇6個核心元素進(jìn)行實體關(guān)系對齊,對知識圖譜中的19種關(guān)系進(jìn)行了歸并,具體情況如表1所示。
表1 實體關(guān)系對齊表
在實體關(guān)系對齊實踐中,文章將知識庫中實體關(guān)系對齊為表1中的6個核心元素,如WikiData與CN-DBpedia知識庫中北宋皇帝“宋徽宗”與“宣和”之間的關(guān)系既有“時間”又有“年號”,由于“年號”是中國封建王朝用來紀(jì)年的一種名號,代表的是一個時間段與實體關(guān)系中的“時間”意義相同,故在關(guān)系的對齊中將兩種關(guān)系映射為核心名稱中的“日期”,使用dc:data作為統(tǒng)一描述以減少相似關(guān)系在后續(xù)關(guān)系抽取中帶來冗余,減少受眾在文物知識理解中的誤讀。共根據(jù)知識庫實體關(guān)系標(biāo)注語料中的實體關(guān)系2094條,其中創(chuàng)建者關(guān)系380條、主題關(guān)系240條、描述關(guān)系244條、日期關(guān)系632條、范圍關(guān)系414條、管理關(guān)系184條。而為了對比實體關(guān)系抽取方法對未標(biāo)記關(guān)系的發(fā)現(xiàn)能力,文章使用人工標(biāo)注的方法對語料中文物實體關(guān)系進(jìn)行了二次標(biāo)注,經(jīng)過比對,新增實體關(guān)系標(biāo)注590條,其中創(chuàng)建者關(guān)系66條、主題關(guān)系8條、描述關(guān)系116條、日期關(guān)系198條、范圍關(guān)系162條、管理關(guān)系40條。
文章實驗平臺為CPU:I7-9750H、內(nèi)存:16GB、顯卡:GTX-1660Ti、顯存:6G,實驗環(huán)境為Python3.6。為了研究基于ALBERT的文物信息資源實體關(guān)系抽取方法的實體關(guān)系抽取效果,從兩個方面進(jìn)行實驗。一是將知識庫實體關(guān)系標(biāo)注語料按8∶2的比例劃分為訓(xùn)練集和測試集,再隨機抽取20%的人工標(biāo)注中新增的實體關(guān)系加入進(jìn)測試集,以模擬隨機環(huán)境下通過知識圖譜與深度學(xué)習(xí)方法在文物信息資源實體關(guān)系抽取中的效果。二是將知識庫實體關(guān)系標(biāo)注語料作為訓(xùn)練集,人工標(biāo)注實體關(guān)系作為測試集,以探究文章方法在未標(biāo)記文物信息資源實體關(guān)系中的發(fā)現(xiàn)效果。為檢驗?zāi)P驮趯嶓w關(guān)系抽取中的效果,文章采用精確度(Precision,P)、召回率(Recall,R)和F1(F1-score)值作為度量指標(biāo)。精確度代表被預(yù)測為正樣本的正確率,召回率代表實際為正樣本被正確預(yù)測的比例,F(xiàn)1 值為兩種指標(biāo)的調(diào)和平均值,模型的綜合抽取效果與數(shù)值正相關(guān)。
隨后,文章將1 674條知識庫標(biāo)注實體關(guān)系作為訓(xùn)練集,420條知識庫標(biāo)注實體關(guān)系與隨機選取的118條人工標(biāo)注實體關(guān)系共同組成的538條實體關(guān)系作為測試集。抽取方法選擇ALBERT base預(yù)訓(xùn)練模型提取字在句子級別中的語義特征,詞向量維度128、隱藏層維度768。使用BiLSTM神經(jīng)網(wǎng)絡(luò)與注意力機制提取深層次語義特征。對比模型有BiGRU+ATT、BiRNN+ATT以及深層金字塔卷積神經(jīng)網(wǎng)絡(luò)(DPCNN)[38]。訓(xùn)練時,最大序列長度采用樣本中句子的最大長度347,train_batch_size為32,droup_out_rate為02,learning_rate為0.01,優(yōu)化器為Adam,BiLSTM隱藏層維數(shù)為128,Epochs設(shè)置為20但由于實驗為小樣本,為了防止過擬合,文章加入early stopping機制,連續(xù)5個Epoch未超過當(dāng)前訓(xùn)練最佳精度則停止。同時為了對比ALBERT預(yù)訓(xùn)練模型在字符級別語義特征提取中的效果,文章選擇當(dāng)前綜合性能最好的中文詞向量預(yù)訓(xùn)練模型:中文詞向量語料庫[39]提取字符與詞級別的語義特征,使用Skip-Gram模型訓(xùn)練,字符窗口長度為5,詞頻閾值為10,詞向量維度為300,語料分詞工具為jieba,同BiLSTM+ATT模型融合與文章方法進(jìn)行對比,結(jié)果如圖4所示,精確度、召回率和F1值取6種關(guān)系類別的加權(quán)平均數(shù)。
圖4 隨機樣本實體關(guān)系抽取結(jié)果
從圖4可以發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)及其有關(guān)改進(jìn)方法在序列數(shù)據(jù)的處理中要優(yōu)于卷積神經(jīng)網(wǎng)絡(luò),實驗結(jié)果中的F1值分別提高0.07、0.09、0.11。ALBERT預(yù)訓(xùn)練模型在字符特征的提取上要優(yōu)于目前Word2vec中的預(yù)訓(xùn)練詞向量模型,F(xiàn)1值提高了0.08。從隨機樣本中的結(jié)果來看,文物信息資源中的實體關(guān)系具有較為明顯的語義特征,在通過知識庫實體關(guān)系標(biāo)注后使用ALBERT base+ BiLSTM+ATT方法能夠抽取大部分文物信息資源中的實體關(guān)系。
為了更進(jìn)一步研究ALBERT預(yù)訓(xùn)練模型在未標(biāo)記實體關(guān)系抽取中的效果,文章以知識庫實體關(guān)系為來源的2094條實體關(guān)系作為訓(xùn)練集,人工標(biāo)記新增的590條實體關(guān)系作為測試集,對ALBERT base+ BiLSTM+ATT方法在未標(biāo)記實體關(guān)系中的發(fā)現(xiàn)能力進(jìn)行探究。實驗采用ALBERT base、ALBERT tiny、ALBERT large、ALBERT xlarge以及BERT base預(yù)訓(xùn)練模型進(jìn)行對比,BiLSTM+ATT參數(shù)與前文中設(shè)置一致,精確度、召回率和F1值取6種關(guān)系類別的加權(quán)平均數(shù),其結(jié)果如表2所示。
表2 未標(biāo)記實體關(guān)系抽取結(jié)果
續(xù)表2 未標(biāo)記實體關(guān)系抽取結(jié)果
從表2可以發(fā)現(xiàn),ALBERT預(yù)訓(xùn)練模型的各種分支在實驗中表現(xiàn)各異,由于ALBERT tiny、base、large、xlarge的隱藏層維度分別為312、768、1024、2048,而詞向量維度為統(tǒng)一的128,致使其對語料中字符特征的提取時間產(chǎn)生了明顯差異。而由于語料為小樣本,隱藏層維度的提升并沒有帶來抽取效率的提升,相反由于文物信息資源文本特征較為集中的特點,隱藏層增加反而由于小樣本帶來的數(shù)據(jù)的稀疏性導(dǎo)致抽取效果下降。在同BERT base預(yù)訓(xùn)練模型的比較中,ALBERT base在召回率指標(biāo)上領(lǐng)先,這是由于在90%的情況下ALBERT的輸入都是raw sequence length,最長限制512,而BERT在90%的情況下是128,輸入越長模型更容易捕獲上下文中的語義特征,因此其召回率相對較高,但同時由于BERT base模型詞向量維度為768,相對不容易產(chǎn)生詞義的混淆,這也是其精確度相對較高的原因。綜合表3的結(jié)果,ALBERT為字符向量的提取提供了多種方案,小樣本的關(guān)系抽取可以根據(jù)樣本數(shù)據(jù)選擇最為適應(yīng)的預(yù)訓(xùn)練向量模型,相較于早先推出的BERT模型,ALBERT大大減少了模型參數(shù),但在計算量方面沒有明顯區(qū)別,其實體關(guān)系抽取效果也較為類似。
在實體關(guān)系抽取的具體分析中,文章依照抽取效果最好的ALBERT base+BiLSTM+ATT方法進(jìn)行實驗,研究文物信息資源實體關(guān)系6分類在抽取效果中的不同。
表3 未標(biāo)記實體關(guān)系詳細(xì)抽取結(jié)果
如表3所示,位置和時間相關(guān)實體關(guān)系中的抽取效果與其他分類相比有明顯提升,這與文物信息資源中的位置和時間信息具有明確的表達(dá)規(guī)范有關(guān),使得深度學(xué)習(xí)模型能夠識別其固定的語義特征,致使抽取效果較好。在關(guān)系預(yù)測的實踐中,文章以CSSCI收錄論文《張擇端《清明上河圖》繪畫長卷的敘事性》[40]中的例句“卷后張公藥詩,其中:“通衢車馬正喧闐,只是宣和第幾年。當(dāng)日翰林呈畫本,升平風(fēng)物正堪傳。”隱約道出張擇端是宣和年間畫師,《清明上河圖》也作于宣和年間?!睘槔M(jìn)行關(guān)系預(yù)測。該句從知識庫獲取的實體關(guān)系有“張擇端”與“《清明上河圖》”是“創(chuàng)建者”關(guān)系,“《清明上河圖》”與“宣和”是“日期”關(guān)系,而“張擇端”與“宣和”兩個實體具有何種關(guān)系知識庫并未收錄,因此文章利用訓(xùn)練出的深度學(xué)習(xí)模型進(jìn)行關(guān)系預(yù)測,預(yù)測結(jié)果“日期”代表的時間關(guān)系,與例句中“張擇端”與“宣和”實體間的實際關(guān)系一致,說明文章方法能夠預(yù)測實體間可能存在的關(guān)聯(lián)關(guān)系,豐富實體關(guān)系抽取的數(shù)量提高抽取效果,同時為歷史學(xué)研究人員推斷文物有關(guān)實體關(guān)系時提供參考。以上結(jié)果說明實體的時空關(guān)系在文物信息資源中具有顯著的語義特征,通過實體關(guān)系的抽取,能夠較好的發(fā)現(xiàn)與時空有關(guān)的知識,為文物信息資源的開發(fā)與利用提供新的研究方向。
實體關(guān)系是知識的數(shù)據(jù)來源,為解決文物信息資源中知識發(fā)現(xiàn)的問題,文章提出從知識庫獲取實體關(guān)系后構(gòu)建文物知識圖譜,利用遠(yuǎn)程監(jiān)督方法進(jìn)行文物信息資源的知識關(guān)系標(biāo)注,使用ALBERT預(yù)訓(xùn)練模型構(gòu)建基于深度學(xué)習(xí)的文物實體關(guān)系抽取方法,進(jìn)行了實體關(guān)系抽取與發(fā)現(xiàn)的有關(guān)實驗。在實體關(guān)系抽取實驗中取得了F1值0.9的性能,在未標(biāo)記關(guān)系的發(fā)現(xiàn)實驗中取得了F1值0.62的性能。同時,研究了不同體量預(yù)訓(xùn)練模型對于小樣本數(shù)據(jù)在計算時間與抽取效率上的差異,發(fā)現(xiàn)了綜合性能最好的抽取方法。挖掘了文物信息資源中具有明顯語義特征的兩類實體關(guān)聯(lián)關(guān)系,為文物信息資源知識發(fā)現(xiàn)的有關(guān)研究提供了新的思路。
未來的研究中,文章將進(jìn)一步提高文物信息資源實體關(guān)系抽取的效率,并針對時空數(shù)據(jù)進(jìn)行文物信息資源有關(guān)知識的挖掘與發(fā)現(xiàn),拓展文章方法在文物信息資源有關(guān)研究中的應(yīng)用范圍。