崔鑫,王琰,侯小剛,周月
(1.北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876;2.北京郵電大學(xué)人工智能學(xué)院,北京 100876;3.北京郵電大學(xué)電子工程學(xué)院,北京 100876)
文物是中華文化的重要組成部分,對于保護(hù)和傳承中華文化具有不可替代的作用。本文選取可移動文物中的三類典型文物石刻、陶瓷、青銅器作為研究對象,這些文物是中國文化遺產(chǎn)中較為珍貴且受到廣泛關(guān)注的部分,對于研究中國古代科技、美學(xué)和文化歷史等方面具有極為重要的價(jià)值。文物數(shù)據(jù)是指文物各種屬性和信息的數(shù)字化記錄和存儲,例如文物的名稱、年代、類別、材質(zhì)、尺寸、形態(tài)、寓意、保存狀況、歷史背景等各方面的信息。通過對文物數(shù)據(jù)的采集、整理和分析,可以更好地了解和挖掘文物的歷史文化價(jià)值,同時(shí)也為文物的保護(hù)和傳承提供了基礎(chǔ)數(shù)據(jù)支持。通過命名實(shí)體識別技術(shù)可以從非結(jié)構(gòu)化文本數(shù)據(jù)中得到實(shí)體位置以及實(shí)體類型信息,減輕博物館工作人員人工標(biāo)注的壓力,促進(jìn)三元組數(shù)據(jù)的構(gòu)建。
典型文物數(shù)據(jù)具有構(gòu)詞的特殊性,比如“四子折桂”表達(dá)了石刻的寓意,使用現(xiàn)有的命名實(shí)體識別算法很難將“四子折桂”識別為相應(yīng)的寓意。為了解決該問題,本文提出了一種基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法,算法在輸入表示層和上下文編碼層都引入詞匯信息,提高了詞語領(lǐng)域?qū)I(yè)性。算法通過構(gòu)建文物領(lǐng)域詞庫,將其作為基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法詞典,最終較好地解決了詞邊界判斷錯誤問題,在典型文物數(shù)據(jù)集上取得了較好的效果。
命名實(shí)體識別是從句子中提取特定的實(shí)體并將其分為對應(yīng)的類別,比如人名、地名、組織名等,是知識圖譜構(gòu)建的關(guān)鍵步驟,影響之后的關(guān)系抽取和知識圖譜構(gòu)建?;谏疃葘W(xué)習(xí)的命名實(shí)體識別方法占據(jù)著支配性作用,深度學(xué)習(xí)采用多層次的處理結(jié)構(gòu),每一層都會從前一層中抽取部分特征信息,并抽象化表示出更高層次的特征,從而增強(qiáng)數(shù)據(jù)的表征能力。
基于深度學(xué)習(xí)的命名實(shí)體識別模型主要用到了三類輸入表示:單詞級別的輸入表示、字符級別的輸入表示以及混合表示。對于單詞級別的輸入表示,經(jīng)過訓(xùn)練,每個(gè)單詞可以用一個(gè)低維度的實(shí)值向量表示,Zheng 等人[1]采用Word2Vec 模型,對于字符級別的輸入表示,可以更有效地利用詞級別的信息,能夠很好的處理詞匯溢出(Out-of-vocabulary,OOV)問題,可以對沒有見過的單詞進(jìn)行表示,并在語素層面上共享、處理信息。Peters 等人提出了ELMo[2]表示,利用深度雙向語言模型對大規(guī)模語料進(jìn)行預(yù)訓(xùn)練,經(jīng)原始任務(wù)數(shù)據(jù)集微調(diào),產(chǎn)生適用于命名實(shí)體識別等任務(wù)的詞向量表示。Kuru 等人[3]提出了CharNER,將句子視為字符序列,并利用LSTM 提取字符級別的表示。除上述兩種輸入表示,一些研究將附加信息納入到單詞的最終表示中,然后再輸入上下文編碼層,附加信息包括地名錄[4]、詞匯相似性[5]、語言依賴性[6]和視覺特征[7]。Devlin 等人[8]提出了預(yù)訓(xùn)練語言模型BERT,通過無監(jiān)督的預(yù)訓(xùn)練方式學(xué)習(xí)文本中的雙向上下文信息,從而能夠更好地理解單詞和文本之間的關(guān)系。
中文命名實(shí)體識別方法通常先使用中文分詞工具進(jìn)行分詞,再進(jìn)行詞級別的序列標(biāo)注,中文分詞工具不可避免地會錯誤地分割句子。一些方法[9,10]使用基于BERT 的方法進(jìn)行命名實(shí)體識別,借助預(yù)訓(xùn)練語言模型BERT 提取通用的包含上下文的文本信息,但是BERT 在垂直領(lǐng)域的表現(xiàn)一般,特別是在文物類的文本中表現(xiàn)不佳,BERT提取的信息更加全局,而命名實(shí)體識別任務(wù)更需要局部信息,因此依然會有詞邊界判斷錯誤的問題。Zhang 和Yang[11]提出了Lattice LSTM,Ma 等人[12]提出了SoftLexicon,在基于深度學(xué)習(xí)的命名實(shí)體識別方法的基礎(chǔ)上,引入詞匯信息,較好地解決了詞邊界識別錯誤的問題。SoftLexicon 在輸入表示層引入詞匯信息,Lattice LSTM 修改了原有LSTM的結(jié)構(gòu),在上下文編碼層引入了詞匯信息。
本文提出了一種結(jié)合SoftLexicon與Lattice LSTM的基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法,在輸入表示層采用SoftLexicon 特征進(jìn)行編碼,在上下文編碼層采用Lattice LSTM 獲取上下文語義信息,在輸入表示層跟上下文編碼層都引入詞匯信息,并且構(gòu)建了文物領(lǐng)域詞庫,將其作為詞典引入基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法,較好地解決了詞邊界判斷錯誤的問題。
典型文物數(shù)據(jù)集選取了石刻、陶瓷、青銅器三類典型文物,主要數(shù)據(jù)來源于各地博物館的官網(wǎng)(比如故宮博物院、山東博物館),從博物館官網(wǎng)上爬取到文物的名稱、對應(yīng)圖片、對應(yīng)的文字描述以及來源,具體如表1所示。
表1 典型文物數(shù)據(jù)集示例
在命名實(shí)體識別數(shù)據(jù)集構(gòu)建中,主要對非結(jié)構(gòu)化的文字描述進(jìn)行標(biāo)注??傆?jì)收集3128條數(shù)據(jù),經(jīng)過清洗之后的有效數(shù)據(jù)為3000 條,將其劃分為訓(xùn)練集2400 條、驗(yàn)證集300 條以及測試集300 條。根據(jù)文博專家的指導(dǎo)意見,制定了如表2所示的實(shí)體類型。
表2 典型文物數(shù)據(jù)集的8種實(shí)體類型
序列標(biāo)注的主要方法有BIO、BIOES以及BMES。BMES 常用于分詞標(biāo)注,BIO 標(biāo)注缺少顯式的單詞結(jié)尾信息,在Lattice LSTM 跟SoftLexicon 模型中,需要用到單詞結(jié)尾的信息,因此在數(shù)據(jù)集的標(biāo)注階段采用BIOES標(biāo)注法。
典型文物數(shù)據(jù)集中的文本有很多文物領(lǐng)域的專有名詞和領(lǐng)域詞匯,比如:“四子折桂”、“北方七宿”、“磁山文化”等。使用常見的中文分詞工具對文物語料進(jìn)行分詞,往往無法進(jìn)行準(zhǔn)確地切分,影響語義信息的提取。文物領(lǐng)域詞庫的豐富性和準(zhǔn)確性影響著命名實(shí)體識別以及之后的關(guān)系抽取,因此,非常有必要制作文物領(lǐng)域的領(lǐng)域詞庫。
本文主要研究的是文物領(lǐng)域的知識圖譜構(gòu)建,因此主要關(guān)注與文物名稱、朝代、出土地點(diǎn)、博物館、紋樣、寓意等有關(guān)的細(xì)分領(lǐng)域詞庫。通過收集輸入法詞庫、百科類詞庫、以及一些細(xì)分領(lǐng)域的詞庫,再加入人工篩選,以及領(lǐng)域?qū)<姨峁┎糠址N子詞語,得到種子領(lǐng)域詞庫。在構(gòu)建種子領(lǐng)域詞庫的過程中,主要參考了THUOCL 詞庫、搜狗輸入法詞庫以及DomainWords‐Dict詞庫中一些細(xì)分領(lǐng)域詞庫,具體如表3所示。
表3 構(gòu)建種子詞庫所需的領(lǐng)域詞庫
本文利用詞向量技術(shù)擴(kuò)充領(lǐng)域詞庫,采用騰訊AI Lab 提供的包含800 萬詞匯的中文詞向量,對種子領(lǐng)域詞庫中的紋樣、朝代、寓意等詞語,計(jì)算語義相似的前10 個(gè)詞,具體示例如表4 所示。以“龍紋”為例,可以通過詞向量技術(shù)獲得相似詞“風(fēng)紋”、“云紋”以及“龍風(fēng)紋”,但是也會出現(xiàn)一些噪聲詞,比如“紋飾”、“夔龍”,所以還需要進(jìn)行人工篩選。
表4 詞向量相似詞擴(kuò)展示例
借助已有領(lǐng)域詞庫構(gòu)建種子詞庫以及通過詞向量技術(shù)對種子詞庫進(jìn)行擴(kuò)充,最終得到15000 個(gè)文物領(lǐng)域的詞語,部分例子如表5所示。
表5 文物領(lǐng)域詞庫示例
如圖1 所示,基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法可以分為輸入表示層、上下文編碼層以及標(biāo)簽解碼層。輸入表示層采用SoftLexicon,上下文編碼層采用Lattice LSTM,標(biāo)簽解碼層采用CRF,輸入表示層跟上下文編碼層都引入了詞匯信息,以增強(qiáng)命名實(shí)體識別模型鑒別詞邊界的能力。
圖1 基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法框架
本文分別對比了BERT+BiLSTM+CRF 模型、BERT+CRF 模型、Lattice LSTM 模型、SoftLexicon 模型以及SoftLexicon+Lattice LSTM+CRF 模型(本文方法)。實(shí)驗(yàn)結(jié)果如表6所示。
表6 實(shí)驗(yàn)結(jié)果
對于Lattice LSTM 方法、SoftLexicon 方法以及本文算法,本文使用兩種詞典分別進(jìn)行實(shí)驗(yàn),無‘*’標(biāo)記符表示使用Lattice LSTM 提出的詞庫,‘*’標(biāo)記符表示使用本文制作的文物領(lǐng)域詞庫。實(shí)驗(yàn)結(jié)果表明,BERT+CRF 模型與BERT+BiLSTM+CRF 的效果差別不大,這是由于BERT 強(qiáng)大的上下文編碼能力可以提取出需要的信息,BiLSTM 只是在BERT 的基礎(chǔ)上選擇有效的信息進(jìn)行處理。引入詞匯信息的方法有明顯的提升。輸入表示層SoftLexicon 和上下文編碼層Lattice LSTM 都引入詞匯信息優(yōu)于分別在兩層單獨(dú)引入詞匯信息的效果。
為了解決文物領(lǐng)域數(shù)據(jù)構(gòu)詞特殊性導(dǎo)致實(shí)體邊界識別錯誤的問題,本文構(gòu)建了文物領(lǐng)域詞庫,并提出了一種基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法。首先,在輸入表示層采用SoftLexicon,引入詞匯信息;其次,在上下文編碼層采用Lattice LSTM,在輸入表示層的基礎(chǔ)上再次引入詞匯信息;最后,在標(biāo)簽解碼層采用CRF解碼,獲取最終的標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,使用本文構(gòu)建的文物領(lǐng)域詞庫,基于詞匯增強(qiáng)的命名實(shí)體識別方法在典型文物數(shù)據(jù)集上有較好的表現(xiàn)。
本文在構(gòu)建典型文物數(shù)據(jù)集時(shí),主要數(shù)據(jù)來源于相關(guān)博物館官網(wǎng)的圖文對數(shù)據(jù),只對文本數(shù)據(jù)進(jìn)行了算法處理。目前并沒有高精度的文物多模態(tài)命名實(shí)體識別數(shù)據(jù)集,未來會考慮在領(lǐng)域?qū)<业闹笇?dǎo)下對圖文數(shù)據(jù)進(jìn)行多模態(tài)標(biāo)注,融合圖像文本信息,進(jìn)行命名實(shí)體識別。