劉舸舸
(陸軍軍醫(yī)大學(xué)第二附屬醫(yī)院醫(yī)學(xué)工程科,重慶 400037)
隨著檔案數(shù)據(jù)數(shù)字化程度的快速增加,各種電子檔案數(shù)量呈現(xiàn)出爆炸式的增長。面對海量的檔案數(shù)據(jù),現(xiàn)有的手工分類模式費時費力,效率不高且易誤分類[1-2]。如何合理挖掘和分析檔案內(nèi)容的潛在關(guān)聯(lián)性,以及快速識別檔案類別已經(jīng)成為一個急需解決的問題。
傳統(tǒng)靜態(tài)詞向量Word2vec[3]和Glove 在訓(xùn)練過程中舍棄了詞的位置信息,無法準(zhǔn)確表示檔案文本的完整語義。動態(tài)詞向量模型ELMO[4]和BERT[5]結(jié)合了每個詞具體上下文語境進行動態(tài)學(xué)習(xí),使得相同詞在不同語境下有著不同的詞向量表征,解決了一詞多義問題。MacBERT[6]模型引入了全詞MASK策略,并使用相似的詞替換MASK 詞,減緩預(yù)訓(xùn)練和微調(diào)兩個階段的誤差,提升了模型的語義理解能力。
檔案數(shù)據(jù)自動分類方法主要有機器學(xué)習(xí)方法和深度學(xué)習(xí)方法。機器學(xué)習(xí)方法需要人為構(gòu)建復(fù)雜特征工程,導(dǎo)致時間、人工成本高,且無法確保提取特征的準(zhǔn)確性。而在深度學(xué)習(xí)方面,文獻[7]提出了Word2vec-ABLCNN 的文本分類模型,詞向量模型Word2vec 無法表示多義詞,詞向量語義表示質(zhì)量低。針對專利分類研究,文獻[8]提出了BERT-CNN模型,該模型提升了層級專利分類性能,但CNN 模塊僅能捕獲文本局部特征,特征提取不夠全面。文獻[9]提出了BERT-BiLSTM-CRF 命名實體識別模型,BilSTM 受限于循環(huán)機制,訓(xùn)練效率不高,且缺乏對局部特征的學(xué)習(xí)。以上模型未能識別出對分類結(jié)果影響更大的關(guān)鍵特征。
針對目前研究仍然存在的不足,文中提出了結(jié)合MacBERT 和多尺度融合網(wǎng)絡(luò)的檔案數(shù)據(jù)分類模型,主要創(chuàng)新和貢獻如下:
1)針對靜態(tài)詞向量無法表示多義詞的問題,MacBERT 模型獲取了文本的動態(tài)特征表示,提高了詞向量表征能力。
2)為確保特征提取的全面性,采用多尺度融合網(wǎng)絡(luò)捕獲檔案文本局部特征和全局序列語義特征。
3)利用軟注意力[10]模塊賦予模型識別關(guān)鍵特征的能力。
文中提出的結(jié)合MacBERT 和多尺度融合網(wǎng)絡(luò)的檔案數(shù)據(jù)分類模型整體結(jié)構(gòu)如圖1 所示。檔案數(shù)據(jù)分類的主要步驟如下:1)對檔案數(shù)據(jù)進行清洗和預(yù)處理,對錯誤分類的檔案樣本進行糾正。2)利用MacBERT 預(yù)訓(xùn)練模型提取檔案文本的動態(tài)特征向量表示。3)由多尺度融合網(wǎng)絡(luò)提取文本局部語義特征和上下文深層序列特征。4)利用軟注意力模塊計算每個詞對分類結(jié)果的權(quán)重得分。5)分類層輸出檔案文本分類結(jié)果。
圖1 模型整體結(jié)構(gòu)
MacBERT 利用雙向Transformer 編碼器提取文本語義特征,內(nèi)置自注意力作為核心模塊,能夠關(guān)注到句子內(nèi)部每個詞與詞之間的依賴關(guān)系,捕捉到文本句法結(jié)構(gòu),增強模型語義理解能力[11]。模型結(jié)構(gòu)如圖2 所示。
圖2 MacBERT模型結(jié)構(gòu)
其中,E1,E2,…,Em為輸入向量,由字嵌入、位置嵌入和分句嵌入相加而成,相關(guān)過程如圖3 所示。經(jīng)多層Transform 編碼器動態(tài)語義學(xué)習(xí)后,得到文本的動態(tài)特征表示T1,T2,…,Tm,Ti為文本中詞的向量表示。
圖3 輸入向量組成
多尺度融合網(wǎng)絡(luò)主要由多通道卷積模塊和雙向簡單循環(huán)網(wǎng)絡(luò)構(gòu)成。多通道卷積模塊[12]通過設(shè)置不同尺寸的卷積核,分別對特征圖進行卷積操作,捕獲詞和短語級別的局部語義特征。雙向簡單循環(huán)網(wǎng)絡(luò)對局部特征進行多尺度上下文序列特征學(xué)習(xí)。
在多通道卷積模塊中,對MacBERT 模型輸出的動態(tài)特征表示T進行卷積操作,為降低語義損失,不加入池化操作,得到新的特征表示ci。計算過程如式(1)、(2)所示:
其中,w為卷積核;b為偏置值;m為滑動窗口大??;?為卷積操作;f為relu()函數(shù);Ti:i+m-1表示T中第i到i+m-1 行文本向量。
雙向簡單循環(huán)單元(Simple Recurrent Unit,SRU)[13]作為LSTM[14]和GRU[15]的優(yōu)秀變體,擺脫了傳統(tǒng)循環(huán)模型固有的對上一個時間步輸出狀態(tài)的依賴,充分利用顯卡資源進行并行計算加速,提高訓(xùn)練效率。SRU 前向計算過程如式(3)-(6)所示:
檔案文本語義不僅由上文語義決定,也與下文的語義關(guān)系密切。因此,將前向SRU 和后向SRU 疊加形成BiSRU 模塊,利用BiSRU 提取檔案文本的完整語義表示,其模型結(jié)構(gòu)如圖4 所示。行向
圖4 BiSRU模型結(jié)構(gòu)
其中,xt代表卷積操作得到的新特征C的第t行向量。第t時刻的狀態(tài)輸出Ht由前向和后向拼接而成。
將卷積層多個通道輸出的局部特征表示[C1,C2,…,Cn]分別輸入到BiSRU,將每個BiSRU 最后一個隱狀態(tài)輸出進行拼接,得到多尺度融合特征表示
將多尺度特征輸出H輸入到軟注意力層,計算每個特征對分類結(jié)果的注意力得分大小ai,賦予關(guān)鍵特征更高的權(quán)重。相關(guān)過程如式(7)-(9)所示:
其中,tanh()為非線性函數(shù);exp()表示指數(shù)運算。
將注意力特征的表示A通過全連接層變換到分類空間,由Softmax 函數(shù)得到概率分布Ps,取行最大值對應(yīng)的檔案類別標(biāo)簽作為分類結(jié)果,其過程如式(10)、(11)所示:
采用某企業(yè)人事檔案數(shù)據(jù)資源作為實驗依據(jù),共8 977 份檔案樣本。手動標(biāo)注每份檔案文本的所屬類別,并加入到樣本首部,以 作為分隔符號,用于區(qū)分標(biāo)簽和檔案內(nèi)容。由于數(shù)據(jù)集中類別數(shù)量不平衡,因此僅選擇檔案樣本數(shù)量較多的類別進行實驗,分 別 是C12-User、C13-Upper computer、C14-Identity、C15-Address 和C16-Politics,按照80%、10%和10%劃分訓(xùn)練集、測試集和驗證集。
模型性能評價指標(biāo)采用準(zhǔn)確率(Accuary)、精確率(Precision)、召回率(Recall)和F1 分?jǐn)?shù),計算過程如式(12)-(15)所示:
模型訓(xùn)練采用Linux 操作系統(tǒng),顯卡為3090,顯存大小為24 GB;Python 版本為3.6.0,深度學(xué)習(xí)框架Pytorch 版本為1.7.0,使用numpy 等第三方支持庫構(gòu)建模型并進行訓(xùn)練。
文中采用Base版本的中文MacBERT模型;MCNN卷積核尺寸為(2,3,4),特征通道數(shù)量均為128;BiSRU隱藏層大小為256,層數(shù)為1;軟注意力機制維度為256;隨機失活概率設(shè)置為0.3;最大序列截斷長度為300。綜合訓(xùn)練參數(shù)設(shè)定如表1 所示。
表1 綜合訓(xùn)練參數(shù)
模型性能指標(biāo)如表2所示。由表2可知,文中模型MacBERT-MCNN-BiSRU-AT 的準(zhǔn)確率達(dá)到了90.5%,優(yōu)于近期表現(xiàn)較好的深度學(xué)習(xí)模型,較BERTCNN 和BERT-BiLSTM 分別提升了5.7%和5.2%,證明了MacBERT 與多尺度融合網(wǎng)絡(luò)結(jié)合的有效性。
表2 性能指標(biāo)對比
為驗證MacBERT 作為詞向量提取層的有效性,設(shè)置Word2vec[16]、ELMO 和BERT 模型作為對比,結(jié)果表明,MacBERT 準(zhǔn)確率最高,具有更好的應(yīng)用效果。
為證明多尺度融合網(wǎng)絡(luò)的效果,設(shè)置消融實驗,與MacBERT-MCNN和MacBERT-BiSRU對比,結(jié)果表明,MacBERT-MCNN-BiSRU模型準(zhǔn)確率與MacBERTMCNN 和MacBERT-BiSRU 相比分別提高了2.5%和2.2%,多尺度融合網(wǎng)絡(luò)能夠全面提取檔案文本的局部語義特征和全局序列特征,提升了模型分類性能。
加入軟注意力機制的MacBERT-MCNN-BiSRUAT 模型準(zhǔn)確率較MacBERT-MCNN-BiSRU 提高了1.9%,證明了軟注意力層能夠識別關(guān)鍵特征,提高分類效果[17-18]。
綜上所述,文中提出的MacBERT-MCNN-BiSRUAT 模型有效地提高了檔案文本分類準(zhǔn)確率。
為提高檔案數(shù)據(jù)分類的準(zhǔn)確率,文中提出了結(jié)合MacBERT 和多尺度融合網(wǎng)絡(luò)的檔案數(shù)據(jù)自動分類模型。利用MacBERT 提取檔案文本動態(tài)特征表示,解決了一詞多義問題;多尺度融合網(wǎng)絡(luò)充分利用文本的局部語義特征和全局上下文語義關(guān)聯(lián),確保獲取文本特征的全面性。使用軟注意力機制計算每個特征的權(quán)重大小,識別出關(guān)鍵特征。實驗結(jié)果證明了文中模型在檔案自動分類任務(wù)上的有效性。在未來工作中,考慮在維持基本精度的前提下,降低MacBERT 模型參數(shù),并將模型應(yīng)用到其他文本分類領(lǐng)域。