亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法

2023-06-12 07:57:58崔鑫王琰侯小剛周月

中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年2期

崔鑫，王琰，侯小剛，周月

（1.北京郵電大學(xué)計(jì)算機(jī)學(xué)院，北京 100876；2.北京郵電大學(xué)人工智能學(xué)院，北京 100876；3.北京郵電大學(xué)電子工程學(xué)院，北京 100876）

1 引言

文物是中華文化的重要組成部分，對于保護(hù)和傳承中華文化具有不可替代的作用。本文選取可移動文物中的三類典型文物石刻、陶瓷、青銅器作為研究對象，這些文物是中國文化遺產(chǎn)中較為珍貴且受到廣泛關(guān)注的部分，對于研究中國古代科技、美學(xué)和文化歷史等方面具有極為重要的價(jià)值。文物數(shù)據(jù)是指文物各種屬性和信息的數(shù)字化記錄和存儲，例如文物的名稱、年代、類別、材質(zhì)、尺寸、形態(tài)、寓意、保存狀況、歷史背景等各方面的信息。通過對文物數(shù)據(jù)的采集、整理和分析，可以更好地了解和挖掘文物的歷史文化價(jià)值，同時(shí)也為文物的保護(hù)和傳承提供了基礎(chǔ)數(shù)據(jù)支持。通過命名實(shí)體識別技術(shù)可以從非結(jié)構(gòu)化文本數(shù)據(jù)中得到實(shí)體位置以及實(shí)體類型信息，減輕博物館工作人員人工標(biāo)注的壓力，促進(jìn)三元組數(shù)據(jù)的構(gòu)建。

典型文物數(shù)據(jù)具有構(gòu)詞的特殊性，比如“四子折桂”表達(dá)了石刻的寓意，使用現(xiàn)有的命名實(shí)體識別算法很難將“四子折桂”識別為相應(yīng)的寓意。為了解決該問題，本文提出了一種基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法，算法在輸入表示層和上下文編碼層都引入詞匯信息，提高了詞語領(lǐng)域?qū)I(yè)性。算法通過構(gòu)建文物領(lǐng)域詞庫，將其作為基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法詞典，最終較好地解決了詞邊界判斷錯誤問題，在典型文物數(shù)據(jù)集上取得了較好的效果。

2 相關(guān)工作

命名實(shí)體識別是從句子中提取特定的實(shí)體并將其分為對應(yīng)的類別，比如人名、地名、組織名等，是知識圖譜構(gòu)建的關(guān)鍵步驟，影響之后的關(guān)系抽取和知識圖譜構(gòu)建?；谏疃葘W(xué)習(xí)的命名實(shí)體識別方法占據(jù)著支配性作用，深度學(xué)習(xí)采用多層次的處理結(jié)構(gòu)，每一層都會從前一層中抽取部分特征信息，并抽象化表示出更高層次的特征，從而增強(qiáng)數(shù)據(jù)的表征能力。

基于深度學(xué)習(xí)的命名實(shí)體識別模型主要用到了三類輸入表示：單詞級別的輸入表示、字符級別的輸入表示以及混合表示。對于單詞級別的輸入表示，經(jīng)過訓(xùn)練，每個(gè)單詞可以用一個(gè)低維度的實(shí)值向量表示，Zheng 等人[1]采用Word2Vec 模型，對于字符級別的輸入表示，可以更有效地利用詞級別的信息，能夠很好的處理詞匯溢出（Out-of-vocabulary，OOV）問題，可以對沒有見過的單詞進(jìn)行表示，并在語素層面上共享、處理信息。Peters 等人提出了ELMo[2]表示，利用深度雙向語言模型對大規(guī)模語料進(jìn)行預(yù)訓(xùn)練，經(jīng)原始任務(wù)數(shù)據(jù)集微調(diào)，產(chǎn)生適用于命名實(shí)體識別等任務(wù)的詞向量表示。Kuru 等人[3]提出了CharNER，將句子視為字符序列，并利用LSTM 提取字符級別的表示。除上述兩種輸入表示，一些研究將附加信息納入到單詞的最終表示中，然后再輸入上下文編碼層，附加信息包括地名錄[4]、詞匯相似性[5]、語言依賴性[6]和視覺特征[7]。Devlin 等人[8]提出了預(yù)訓(xùn)練語言模型BERT，通過無監(jiān)督的預(yù)訓(xùn)練方式學(xué)習(xí)文本中的雙向上下文信息，從而能夠更好地理解單詞和文本之間的關(guān)系。

中文命名實(shí)體識別方法通常先使用中文分詞工具進(jìn)行分詞，再進(jìn)行詞級別的序列標(biāo)注，中文分詞工具不可避免地會錯誤地分割句子。一些方法[9,10]使用基于BERT 的方法進(jìn)行命名實(shí)體識別，借助預(yù)訓(xùn)練語言模型BERT 提取通用的包含上下文的文本信息，但是BERT 在垂直領(lǐng)域的表現(xiàn)一般，特別是在文物類的文本中表現(xiàn)不佳，BERT提取的信息更加全局，而命名實(shí)體識別任務(wù)更需要局部信息，因此依然會有詞邊界判斷錯誤的問題。Zhang 和Yang[11]提出了Lattice LSTM，Ma 等人[12]提出了SoftLexicon，在基于深度學(xué)習(xí)的命名實(shí)體識別方法的基礎(chǔ)上，引入詞匯信息，較好地解決了詞邊界識別錯誤的問題。SoftLexicon 在輸入表示層引入詞匯信息，Lattice LSTM 修改了原有LSTM的結(jié)構(gòu)，在上下文編碼層引入了詞匯信息。

本文提出了一種結(jié)合SoftLexicon與Lattice LSTM的基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法，在輸入表示層采用SoftLexicon 特征進(jìn)行編碼，在上下文編碼層采用Lattice LSTM 獲取上下文語義信息，在輸入表示層跟上下文編碼層都引入詞匯信息，并且構(gòu)建了文物領(lǐng)域詞庫，將其作為詞典引入基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法，較好地解決了詞邊界判斷錯誤的問題。

3 領(lǐng)域詞庫構(gòu)建與典型文物數(shù)據(jù)集制作

3.1 典型文物數(shù)據(jù)集制作

典型文物數(shù)據(jù)集選取了石刻、陶瓷、青銅器三類典型文物，主要數(shù)據(jù)來源于各地博物館的官網(wǎng)（比如故宮博物院、山東博物館），從博物館官網(wǎng)上爬取到文物的名稱、對應(yīng)圖片、對應(yīng)的文字描述以及來源，具體如表1所示。

表1 典型文物數(shù)據(jù)集示例

在命名實(shí)體識別數(shù)據(jù)集構(gòu)建中，主要對非結(jié)構(gòu)化的文字描述進(jìn)行標(biāo)注?？傆?jì)收集3128條數(shù)據(jù)，經(jīng)過清洗之后的有效數(shù)據(jù)為3000 條，將其劃分為訓(xùn)練集2400 條、驗(yàn)證集300 條以及測試集300 條。根據(jù)文博專家的指導(dǎo)意見，制定了如表2所示的實(shí)體類型。

表2 典型文物數(shù)據(jù)集的8種實(shí)體類型

序列標(biāo)注的主要方法有BIO、BIOES以及BMES。BMES 常用于分詞標(biāo)注，BIO 標(biāo)注缺少顯式的單詞結(jié)尾信息，在Lattice LSTM 跟SoftLexicon 模型中，需要用到單詞結(jié)尾的信息，因此在數(shù)據(jù)集的標(biāo)注階段采用BIOES標(biāo)注法。

3.2 領(lǐng)域詞庫構(gòu)建

典型文物數(shù)據(jù)集中的文本有很多文物領(lǐng)域的專有名詞和領(lǐng)域詞匯，比如：“四子折桂”、“北方七宿”、“磁山文化”等。使用常見的中文分詞工具對文物語料進(jìn)行分詞，往往無法進(jìn)行準(zhǔn)確地切分，影響語義信息的提取。文物領(lǐng)域詞庫的豐富性和準(zhǔn)確性影響著命名實(shí)體識別以及之后的關(guān)系抽取，因此，非常有必要制作文物領(lǐng)域的領(lǐng)域詞庫。

本文主要研究的是文物領(lǐng)域的知識圖譜構(gòu)建，因此主要關(guān)注與文物名稱、朝代、出土地點(diǎn)、博物館、紋樣、寓意等有關(guān)的細(xì)分領(lǐng)域詞庫。通過收集輸入法詞庫、百科類詞庫、以及一些細(xì)分領(lǐng)域的詞庫，再加入人工篩選，以及領(lǐng)域?qū)＜姨峁┎糠址N子詞語，得到種子領(lǐng)域詞庫。在構(gòu)建種子領(lǐng)域詞庫的過程中，主要參考了THUOCL 詞庫、搜狗輸入法詞庫以及DomainWords‐Dict詞庫中一些細(xì)分領(lǐng)域詞庫，具體如表3所示。

表3 構(gòu)建種子詞庫所需的領(lǐng)域詞庫

本文利用詞向量技術(shù)擴(kuò)充領(lǐng)域詞庫，采用騰訊AI Lab 提供的包含800 萬詞匯的中文詞向量，對種子領(lǐng)域詞庫中的紋樣、朝代、寓意等詞語，計(jì)算語義相似的前10 個(gè)詞，具體示例如表4 所示。以“龍紋”為例，可以通過詞向量技術(shù)獲得相似詞“風(fēng)紋”、“云紋”以及“龍風(fēng)紋”，但是也會出現(xiàn)一些噪聲詞，比如“紋飾”、“夔龍”，所以還需要進(jìn)行人工篩選。

表4 詞向量相似詞擴(kuò)展示例

借助已有領(lǐng)域詞庫構(gòu)建種子詞庫以及通過詞向量技術(shù)對種子詞庫進(jìn)行擴(kuò)充，最終得到15000 個(gè)文物領(lǐng)域的詞語，部分例子如表5所示。

表5 文物領(lǐng)域詞庫示例

4 算法框架

如圖1 所示，基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法可以分為輸入表示層、上下文編碼層以及標(biāo)簽解碼層。輸入表示層采用SoftLexicon，上下文編碼層采用Lattice LSTM，標(biāo)簽解碼層采用CRF，輸入表示層跟上下文編碼層都引入了詞匯信息，以增強(qiáng)命名實(shí)體識別模型鑒別詞邊界的能力。

圖1 基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法框架

5 實(shí)驗(yàn)結(jié)果

本文分別對比了BERT+BiLSTM+CRF 模型、BERT+CRF 模型、Lattice LSTM 模型、SoftLexicon 模型以及SoftLexicon+Lattice LSTM+CRF 模型（本文方法）。實(shí)驗(yàn)結(jié)果如表6所示。

表6 實(shí)驗(yàn)結(jié)果

對于Lattice LSTM 方法、SoftLexicon 方法以及本文算法，本文使用兩種詞典分別進(jìn)行實(shí)驗(yàn)，無‘*’標(biāo)記符表示使用Lattice LSTM 提出的詞庫，‘*’標(biāo)記符表示使用本文制作的文物領(lǐng)域詞庫。實(shí)驗(yàn)結(jié)果表明，BERT+CRF 模型與BERT+BiLSTM+CRF 的效果差別不大，這是由于BERT 強(qiáng)大的上下文編碼能力可以提取出需要的信息，BiLSTM 只是在BERT 的基礎(chǔ)上選擇有效的信息進(jìn)行處理。引入詞匯信息的方法有明顯的提升。輸入表示層SoftLexicon 和上下文編碼層Lattice LSTM 都引入詞匯信息優(yōu)于分別在兩層單獨(dú)引入詞匯信息的效果。

6 結(jié)論

為了解決文物領(lǐng)域數(shù)據(jù)構(gòu)詞特殊性導(dǎo)致實(shí)體邊界識別錯誤的問題，本文構(gòu)建了文物領(lǐng)域詞庫，并提出了一種基于詞匯增強(qiáng)的典型文物命名實(shí)體識別算法。首先，在輸入表示層采用SoftLexicon，引入詞匯信息；其次，在上下文編碼層采用Lattice LSTM，在輸入表示層的基礎(chǔ)上再次引入詞匯信息；最后，在標(biāo)簽解碼層采用CRF解碼，獲取最終的標(biāo)簽。實(shí)驗(yàn)結(jié)果表明，使用本文構(gòu)建的文物領(lǐng)域詞庫，基于詞匯增強(qiáng)的命名實(shí)體識別方法在典型文物數(shù)據(jù)集上有較好的表現(xiàn)。

本文在構(gòu)建典型文物數(shù)據(jù)集時(shí)，主要數(shù)據(jù)來源于相關(guān)博物館官網(wǎng)的圖文對數(shù)據(jù)，只對文本數(shù)據(jù)進(jìn)行了算法處理。目前并沒有高精度的文物多模態(tài)命名實(shí)體識別數(shù)據(jù)集，未來會考慮在領(lǐng)域?qū)＜业闹笇?dǎo)下對圖文數(shù)據(jù)進(jìn)行多模態(tài)標(biāo)注，融合圖像文本信息，進(jìn)行命名實(shí)體識別。