王海寧, 周菊香, 徐天偉
(云南師范大學 民族教育信息化教育部重點實驗室,云南 昆明 650500)
通過研究一個民族的工藝品,可以快速了解該民族的生活習慣、民族風情等;許多特色民族工藝品還可以增加當?shù)厝说氖杖搿⑻岣呷藗兊纳钯|(zhì)量.隨著社會現(xiàn)代化的快速進行,許多民族工藝品失去了原有的應用價值,逐漸淡出人們的視線,但其所蘊含的文化與歷史價值獨一無二,依然需要人們的保護和傳承.
隨著網(wǎng)絡信息化的發(fā)展,與民族相關的網(wǎng)站逐漸增多,此類網(wǎng)站一般都有介紹民族工藝品的專欄,將以前隱藏于民間的民族工藝品展現(xiàn)于網(wǎng)絡,但由于網(wǎng)頁呈現(xiàn)的文本類資源結(jié)構化低,可利用和傳播性較差,構建民族文化資源知識圖譜是有效保存和傳播民族文化的有效手段.在知識圖譜的構建過程中,從大量不同來源的非結(jié)構化網(wǎng)絡文本資源中自動提取民族相關實體是最為重要的基礎工作之一.
命名實體識別[1](Named Entity Recognition,NER)是信息抽取的任務之一,旨在識別并自動標記文本中特定實體,在知識圖譜、智能問答等領域發(fā)揮重要作用.目前基于神經(jīng)網(wǎng)絡的民族工藝品實體識別研究尚處在起步階段,研究面臨的主要問題有:(1)當前暫無公開的民族工藝品數(shù)據(jù)集,數(shù)據(jù)集的規(guī)模及實體標注的質(zhì)量會影響命名實體識別的效果.(2)由于一些少數(shù)民族使用不同民族語言,對于同一工藝品,可能有不同的名稱.如“哈達”,藏族稱為“卡達爾”,蒙古族稱為“哈達噶”.民族工藝品名稱的復雜性帶來大量未登錄詞,難以構建一個全面和完善的詞庫.(3)傳統(tǒng)詞向量無法解決多義詞問題,比如民族工藝品中佤族的“牛頭”與常識中“牛頭”代表不同的實體,而傳統(tǒng)詞向量會將不同的“牛頭”映射為同一向量,與客觀事實不符.(4)大量民族工藝品實體由不同類別實體嵌套組成,系統(tǒng)容易預測出錯.
目前,基于深度學習的命名實體識別方法逐漸取代基于詞典和規(guī)則、基于傳統(tǒng)機器學習算法等方法,多以RNN-CRF序列標注模型為基礎的改進,并在不同領域的命名實體識別任務中取得了更好的效果.Huang等人[2]首次將手工拼寫特征和詞向量的拼接向量輸入到BiLSTM-CRF模型,在CON-LL2003數(shù)據(jù)集F1值為90.10%.Rei等人[3]加入注意力機制將字符向量和詞向量加權求和作為輸入特征.Zhang等人[4]將提出Lattice LSTM代替?zhèn)鹘y(tǒng)的LSTM,將詞信息加入基于字向量的模型中,在MSRA中文數(shù)據(jù)集的F1值為93.18%.以上命名實體識別方法為基于固定的詞向量的輸入特征,無法解決多義詞問題.為了解決多義詞問題,Jacob 等人使用BERT(Bidirectional Encoder Representations from Transformers)[5]預訓練語言模型在命名實體識別任務取得了最好的效果,其將CON-LL2003數(shù)據(jù)集F1值提升至96.6%,極大地提高了在此數(shù)據(jù)集上的成績.楊飄等人[6]使用BERT預訓練語言模型增強字的語義表示,將動態(tài)生成的字向量序列輸入到BiGRU-CRF模型,用以提高中文命名實體的識別效果,在MSRA中文數(shù)據(jù)集上F1值為95.43%.上述方法證明加入BERT預訓練語言模型代替?zhèn)鹘y(tǒng)詞向量可以顯著提升命名實體識別效果.在特定領域方面,張應成等人[7]提出使用BiLSTM-CRF深度學習模型提取招標人、招標代理和招標編號三個實體,并證明效果優(yōu)于傳統(tǒng)機器學習模型.禤鎮(zhèn)宇等人[8]提出把多特征(字向量、邊界向量、用字向量)輸入到BiLSTM-CRF模型,提取影評之中的人名.何陽宇等人[9]針對老撾語的軍事領域命名實體識別任務,提出用CRF(Conditional Random Fields)與規(guī)則相結(jié)合的方法,實驗證明加入領域規(guī)則后可以顯著的提升軍事領域?qū)嶓w識別效果.
綜合以上相關工作,本文針對民族工藝品領域?qū)嶓w提取任務,在傳統(tǒng)的BiLSTM-CRF模型的基礎上加入BERT預訓練語言模型,構建BERT-BiLSTM-CRF模型,保證實體識別取得較好的效果,同時又避免構造復雜的特征工程.另外針對民族工藝品領域特點制定了相應的規(guī)則,對模型的輸出結(jié)果進行優(yōu)化調(diào)整,使預測效果進一步提升.
BERT-BiLSTM-CRF模型整體結(jié)構如圖1所示,主要由三部分組成:BERT預訓練語言模型層、BiLSTM層和CRF層.其訓練過程主要如下:(1)將文本預處理后輸入到BERT預訓練語言模型中獲取字向量序列.(2)將字向量序列輸入到BiLSTM模型進一步提取語義特征.(3)加入CRF層中預測概率值最大的標簽序列.
圖1 BERT-BiLSTM-CRF模型
BERT訓練包括兩個部分:Pre-training和Fine-tuning.Pre-training為雙向語言特征提取模型的訓練.Fine-tuning為根據(jù)不同的自然語言處理任務對模型微調(diào)訓練.BERT的預訓練語言模型結(jié)構如圖2所示.
圖2 BERT預訓練語言模型
Pre-training部分采用了以下兩個無監(jiān)督訓練任務.(1)為了訓練深度雙向語言表示向量,采用了“Masked LM”方法.即隨機掩蓋句子中15%的單詞,然后訓練模型預測這些單詞.(2)為了使模型獲得理解句子關系的能力,提出了“預測下一個句子”的訓練任務.在為每個訓練樣本選擇句子A和B時,50%的訓練樣本中句子B是語料庫中句子A之后的句子,另外50%訓練樣本中句子B是語料庫中隨機的句子,然后訓練模型預測句子B是否為句子A的下一句.
BERT使用雙向Transformer[10]提取自然語言特征.Transformer使用Attention機制實現(xiàn)不同層級間的信息傳遞,并行處理,提高運行速度和準確度.Transformer的編碼單元如圖3所示.
圖3 Transformer編碼單元
Transformer每個編碼器由自注意力層和前饋神經(jīng)網(wǎng)絡構成.一個編碼器接受向量表作為輸入,將向量表中的向量傳遞到自注意力層處理后遞到前饋神經(jīng)網(wǎng)絡處理,然后傳遞給下一個編碼器.其中自注意力層如公式(1)所示.其中Q為查詢矩陣,K為鍵矩陣,V為值矩陣,dk為輸入向量的維數(shù).
(1)
Transformer使用“多頭”注意力機制完善注意力機制,擴展了模型專注于不同位置的能力,使注意力層有多個“表示子空間”,如公式(2)、(3)所示:
MultiHead(Q,K,V)=Concat(head1,...,headh)
(2)
(3)
前饋神經(jīng)網(wǎng)絡如公式(4)所示:
FFN(x)=max(0,xW1+b1)W2+b2
(4)
循環(huán)神經(jīng)網(wǎng)絡[11](Recurrent Neural Network,RNN)模型常用于解決序列標注問題,能夠?qū)㈤L時間的歷史信息作為預測當前信息的指標,但可能伴隨著梯度消失與梯度爆炸的問題.長短期記憶網(wǎng)絡(Long Short-Term Meory,LSTM)為RNN的一個變種模型,有效地解決了這個問題.LSTM通過遺忘門、輸入門、輸出門等結(jié)構,遺忘次要的信息,保留重要的信息,記憶新的信息,從而使信息有效的傳遞.LSTM如公式(5)-(10)所示.
ft=σ(Wf.[ht-1,xt]+bf)
(5)
it=σ(Wi.[ht-1,xt]+bi)
(6)
(7)
(8)
ot=σ(Wo.[ht-1,xt]+bo)
(9)
ht=ot?tanh(ct)
(10)
由于LSTM只能獲取歷史信息,而判斷一個字的標簽,不僅要依據(jù)上文還要關聯(lián)下文,所以使用雙向長短期記憶網(wǎng)絡[12](Bi-directional Long Short-Term Memory,BiLSTM)模型代替LSTM模型.BiLSTM模型由前向LSTM與后向LSTM構成,輸出由兩者的輸出向量拼接而成,能充分利用上下文信息,自動提取句子特征.
條件隨機場是給定一組隨機變量條件下另一組輸出隨機變量的條件概率分布模型[13].傳統(tǒng)序列標注模型常使用softmax函數(shù)預測標簽,預測的標簽之間相互獨立,不能利用上下文信息,而實際預測時需要處理標簽的上下文關系,如“I-CRA”標簽前不能為“B-LOC”.CRF能夠考慮標簽之間的關系來獲取全局最優(yōu)標簽序列,充分利用句子級別的標簽信息,使實體抽取結(jié)果更加準確.
CRF對x=(x1,x2,…,xn)序列和其對應的標簽序列y=(y1,y2,…,yn)的評估分數(shù)如公式(11)所示:
(11)
其中M為狀態(tài)轉(zhuǎn)移矩陣,Mi,j表示每個元素從i變化到j的概率.Pi,yi表示第i個字符對應第yi標簽的分數(shù).
x序列的標注序列為y的概率如公式(12)所示:
(12)
通用領域的命名實體識別一般指識別人名、地名和機構名等三類名詞.經(jīng)過篩選查閱來自網(wǎng)絡、書籍的介紹民族工藝品的文章幾乎都包含三類實體:民族工藝品名、民族名、地域名,所以本文將主要識別這三類實體.本文的所識別民族工藝品主要指具有民族特色的陶器、青銅器、工藝、生活用具、傳統(tǒng)技藝等名稱.地域名所指民族工藝品的主要分布地區(qū),如省、市、縣、鎮(zhèn)、村、寨、地區(qū)等,另外因某些珍貴民族工藝品保存在博物館中,所以將博物館名也歸到地域名.民族名指民族工藝品所屬的民族名,包括五十六個民族名、民族自稱、民族史稱等.
本文所用獲取的語料主要來自民族網(wǎng)、云南民族網(wǎng)等網(wǎng)站以及《少數(shù)民族大辭典》[14]系列書籍.經(jīng)過去重、去無意義字符等文本預處理,共獲得有效句子6 428條,約30萬字符.采用BIO標注方式對數(shù)據(jù)中的民族工藝品名稱、民族名、地域名三類實體標注.具體為:“O”標注非實體;“B-CRA”“I-CRA”標注民族工藝品名的首字和非首字;“B-NAT”“I-NAT”標注民族名的首字和非首字、“B-LOC”“I-LOC”標注地域名的首字和非首字.標注樣本如表1所示.
表1民族工藝品數(shù)據(jù)集標注樣本
Table1Labelsamplesofethnichandicraftdataset
白族傳統(tǒng)扎染B-NATI-NATOOB-CRAI-CRA成為了周城村OOOB-LOCI-LOCI-LOC的產(chǎn)業(yè)優(yōu)勢.OOOOOO
將標注完成的數(shù)據(jù)集按照7.5∶1∶1.5的比例分為訓練集、驗證集和測試集.每個數(shù)據(jù)集的詳細信息如表2所示,其中測試集括號中的數(shù)字為對應實體的未登錄詞(未在訓練集中出現(xiàn)的詞)的數(shù)量,總未登錄詞數(shù)量約為測試集總標注詞的35%.
表2 民族工藝品數(shù)據(jù)集信息
另外,為了驗證BERT-BiLSTM-CRF模型的可移植性,本文選用MSRA公開中文命名數(shù)據(jù)集進行對比實驗,MSRA數(shù)據(jù)集包括人名、地名、機構名等三類通用實體,同樣為BIO標注模式.
預測結(jié)果中每個實體的首字與非首字與測試集的對應實體的標注完全正確匹配則判定該實體識別正確.實驗采用的評價指標為準確率(P)、召回率(R)和F1值.如公式(13)-(15)所示.其中Np表示模型識別的正確實體個數(shù),NF表示模型識別的實體總個數(shù),NA表示測試集中所有的實體個數(shù).
(13)
(14)
(15)
通過實驗證明,在民族工藝品數(shù)據(jù)集上,不同模型取得其最高F1值所設置的參數(shù)都有所不同.其中BERT-BiLSTM-CRF模型取得最高F1值時的參數(shù)配置如下:lstm_size為128,max_seq_length為128,batch_size為32, learning_rate為5e-5,dropout_rate為0.5,clip為0.5,warmup_proportion為0.1,num_train_epoch為12.
所有實驗環(huán)境如表3所示.
表3 實驗環(huán)境
本文首先在MSRA中文通用命名實體識別數(shù)據(jù)集上實驗,將BERT-BiLSTM-CRF模型與其他相關模型進行對比,實驗結(jié)果如表4所示.
表4MSRA數(shù)據(jù)集的各模型結(jié)果
Table4ResultsofeachmodeloftheMSRAdataset
模型P/%R/%F1/%BiLSTM-CRF89.4587.5288.47Lattice-LSTM-CRF93.5792.7993.18BERT-BiGRU-CRF95.3195.5495.43BERT-BiLSTM-CRF95.7395.3495.53
在MSRA數(shù)據(jù)集上,BERT-BiLSTM-CRF模型取得最高的F1值95.53%,比基于傳統(tǒng)詞向量的BiLSTM-CRF模型F1值提高7.06%,比Lattic-LSTM-CRF模型相比F1值提高2.35%.說明使用BERT預訓練語言模型比傳統(tǒng)的詞向量或字詞融合特征更好地提取語義特征.與BERT-BiGRU-CRF模型相比,主要區(qū)別將GRU[15](Gated Recurrent Unit)模型使用LSTM代替.GRU與LSTM比較,結(jié)構簡單、參數(shù)少,需要根據(jù)具體任務在二者中進行選擇效果更優(yōu)者,在此數(shù)據(jù)集二模型結(jié)果相近.通過此實驗說明了BERT-BiLSTM-CRF模型在公共數(shù)據(jù)集上可取得較高的成績,證明模型具有較好的可移植性.
在民族工藝品數(shù)據(jù)集上,使用基于BERT預訓練語言模型的各模型識別結(jié)果如表5所示.
表5民族工藝品數(shù)據(jù)集各模型的結(jié)果
Table5Resultsofeachmodeloftheethniccraftsdataset
模型P/%R/%F1/%BiLSTM-CRF88.2078.0182.79BERT-CRF92.1588.2090.13BERT-BiGRU-CRF91.4289.8290.61BERT-BiLSTM-CRF92.9889.3991.15
其中BERT-BiLSTM-CRF模型在民族工藝品數(shù)據(jù)集上取得了最高的F1值91.31%,比傳統(tǒng)基于詞向量的BiLSTM-CRF模型提高了8.52%,證明了加入BERT預訓練語言模型能夠顯著提升在此數(shù)據(jù)集的識別效果,如在測試集中“熱貢唐卡藝術聲名鵲起”,BERT-BiLSTM-CRF模型能夠正確識別民族工藝品名稱“熱貢唐卡”,而BiLSTM-CRF將其錯誤識別為“貢唐卡”.與BERT-CRF模型、BERT-BiGRU-CRF模型對比F1值略高.此模型詳細的民族工藝品名、民族名、地域名三類實體的準確率、召回率、F1值如表6所示.
表6BERT-BiLSTM-CRF模型實體識別結(jié)果
Table6BERT-BiLSTM-CRFmodelentityrecognitionresults
實體類別P/%R/%F1/%民族工藝品名91.3587.7389.50民族名97.5194.7696.11地域名93.2389.2191.18
其中民族工藝品名的F1值偏低,分析原因為民族工藝品名中存在較多地域名、民族名嵌套,如“大姚彝繡”,系統(tǒng)將其判斷為地域名“大姚”和工藝品名“彝繡”兩個實體 ,此類嵌套實體預測錯誤會相應地影響民族名、地域名的識別效果.另外對于三類實體錯誤主要集中在未登錄詞,尤其民族工藝品測試集中未登錄詞的比例較高,約為40%,由于訓練集的規(guī)模較小,如果沒有完善的上下文信息則不能推斷出部分未登錄詞.
為了優(yōu)化民族工藝品領域?qū)嶓w識別效果,針對民族語料的特點定制相應規(guī)則對BERT-BiLSTM-CRF模型的初步預測結(jié)果進行調(diào)整.具體調(diào)整規(guī)則如下:
(1)對民族工藝品名稱:大量民族工藝品名稱由不同實體嵌套組合而成.設定規(guī)則當預測結(jié)果中的民族工藝品名前緊鄰出現(xiàn)地域名或民族名時,則將其共同判為一個民族工藝品實體.另外利用某些標點符號對民族工藝品名邊界進行劃分,如在引號中出現(xiàn)民族工藝實體,則符號內(nèi)所有字符判斷為一個民族工藝品實體.
(2)對地域名:民族語料中存在大量多級地名,如“呂江七叉鎮(zhèn)機構村”.模型將其預測為“B-LOC I-LOC|B-LOC I-LOC I-LOC|O O O”,漏掉了“機構村”.按照我國行政區(qū)劃級別設定規(guī)則,如“省市縣鄉(xiāng)鎮(zhèn)村”,當檢測地名則在相鄰文本向前匹配高級別地名或向后匹配低級別地名.
(3)對民族名:民族名后常跟“族、胞、家、文、語、女”等文字.如“漢字”“瑤女”“藏文”等,因此可以在這些關鍵字相鄰文本中向前匹配是否存在民族名.
另外對所有的BERT-BiLSTM-CRF模型預測結(jié)果調(diào)整,如去除對標點符號的預測、“I”標記開頭的錯誤預測等.
將各模型加入規(guī)則后識別結(jié)果如表7所示,其中效果最佳的BERT-BiLSTM-CRF 的詳細結(jié)果如表8所示.
表7各模型加入規(guī)則后實體識別結(jié)果
Table7Entityrecognitionresultsafteraddingrulestoeachmodel
實體類別P/%R/%F1/%BiLSTM-CRF89.6879.2484.14BERT-CRF93.5788.7791.11BERT-BiGRU-CRF92.8690.3291.57BERT-BiLSTM-CRF95.4390.8893.10
表7中可以看出,加入領域規(guī)則后,不同模型的F1值都有提升,其中BERT-BiLSTM-CRF模型加入規(guī)則后依然取得最好效果,其詳細結(jié)果如表8所示.
表8BERT-BiLSTM-CRF模型加入規(guī)則后的實體識別結(jié)果
Table8EntityrecognitionresultsafteraddingrulestotheBERT-BiLSTM-CRFmodel
實體類別P/%R/%F1/%民族工藝品名95.2689.6392.36民族名97.9395.5696.73地域名94.2290.3692.25
由表8可以看出對BERT-BiLSTM-CRF模型的預測結(jié)果加入規(guī)則處理后三類實體的識別效果都有不同程度的提升.其中民族工藝品名最明顯,F(xiàn)1值提高約為3%.由此證明了加入規(guī)則在一定程度上可以對BERT-BiLSTM-CRF模型的預測結(jié)果進行優(yōu)化,可以糾正模型初步預測的部分錯例.
對構建民族文化資源知識圖譜工作做出初步探索,選取民族工藝品命名實體識別任務,提出融合BERT-BiLSTM-CRF模型與規(guī)則的工藝品命名實體識別方法,實驗證明該方法可以有效提取民族文本中的民族工藝品相關實體.