摘 要:由于現(xiàn)有其他模型存在無法提取文本重點部分權(quán)重等問題,導(dǎo)致了模型分類不準確,難以適應(yīng)航天文本分類工作中繁重的工作環(huán)境。因此,在融合BERT預(yù)訓(xùn)練模型和LSTM神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,結(jié)合多特征嵌入和多網(wǎng)絡(luò)融合方法構(gòu)建BERT-LSTM模型,使用BERT模型將輸入的文本轉(zhuǎn)換為詞向量,然后將文本序列的詞向量拼接成矩陣,之后采用不同尺寸的卷積核進行卷積操作,將得到的最大特征組成特征向量集合,再輸入到Bi-LSTM層進行序列建模,并采用自注意力來捕捉全局信息中的關(guān)鍵信息,進一步提高關(guān)鍵特征在文本分類中的權(quán)重。將其與TextCNN、TextRNN、DPCNN等模型進行航天文本分類任務(wù)對比試驗,結(jié)果表明:本文提出的基于雙向長短時記憶網(wǎng)絡(luò)融合注意力機制模型在航天文本分類任務(wù)上相比其他模型分別提升了25.3%、25.8%和18.4%的準確率。
關(guān)鍵詞:航天文本情報;預(yù)訓(xùn)練;神經(jīng)網(wǎng)絡(luò);注意力機制;文本分類
DOI:10.15938/j.jhust.2024.04.005
中圖分類號: TP391
文獻標志碼: A
文章編號: 1007-2683(2024)04-0040-10
Research on Aerospace Text Classification Based on BERT-LSTM Model
AN Rui, CHEN Hailong, AI Siyu, CUI Xinying
(School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)
Abstract:Due to the problems of other existing models, such as the inability to extract the weights of the key parts of the text, the model classification is inaccurate, and it is difficult to adapt to the heavy work environment in the space text classification work. Therefore, based on the fusion of the BERT pre-training model and the LSTM neural network model, we combine the multi-feature embedding and multi-network fusion methods to construct the BERT-LSTM model, using the BERT model to convert the input text into word vectors. Then, the word vectors of the text sequence are concatenated into a matrix, and different sizes of convolution kernels are used for convolution operations. The obtained maximum features are combined into a feature vector set, which is then input into the Bi-LSTM layer for sequence modeling. Self attention is used to capture key information in the global information, further improving the weight of key features in text classification. Comparison tests are conducted with TextCNN, TextRNN, DPCNN and other models for aerospace text categorization task, and the results show that the proposed model based on bi-directional long and short-term memory networks fused with the attention mechanism improves the accuracy by 25.3%, 25.8%, and 18.4% compared with the other models on aerospace text categorization task, respectively.
Keywords:aerospace text intelligence; pre-training; neural networks; attention mechanisms; text classification
0 引 言
近年來,世界各國在航天事業(yè)進展飛速,而我國在航天領(lǐng)域的發(fā)展上已經(jīng)位于世界前列,尤其可以肯定的是,我國在載人航天、火星探測以及特殊觀測衛(wèi)星對太陽進行觀測等方面實現(xiàn)突破,各國都投來羨慕的目光,而航天事業(yè)的快速發(fā)展離不開對相關(guān)領(lǐng)域?qū)W者的理解及研究,世界各國對航天事業(yè)的研究報告信息對于我國航天事業(yè)的發(fā)展起到重要作用。傳統(tǒng)的航天報告整理和分類工作通常需要耗費大量的人力和財力支持[1]。隨著國際形勢的緊張和對航天事業(yè)發(fā)展的重視,傳統(tǒng)的分類工作已經(jīng)無法滿足當前的需求。為了適應(yīng)當前科技發(fā)展的趨勢,航天科技情報工作也需要做出必要的調(diào)整。通過利用現(xiàn)代化的軟件平臺和信息技術(shù)手段,可以實現(xiàn)航天文本數(shù)據(jù)的自動化分類、管理和分析,提高工作效率,促進航天科技的進一步發(fā)展[2]。因此,航天科技文本數(shù)據(jù)的處理需要從以下幾個方面著手:
1)引入自動化文本數(shù)據(jù)分類技術(shù)。借助自然語言處理技術(shù)和機器學(xué)習技術(shù)等現(xiàn)代信息技術(shù)手段,開發(fā)出自動化文本分類工具和平臺,可以將航天科技文本數(shù)據(jù)進行快速、準確地分類和存儲,提高數(shù)據(jù)處理和信息化程度,降低人工處理的依賴程度[3]。
2)更新文本數(shù)據(jù)處理工具。嘗試采用一些專業(yè)的文本信息挖掘和可視化分析等工具,可以更好地完成文本數(shù)據(jù)分析任務(wù)[4],提高分析效率和結(jié)果的準確性。
3)應(yīng)用知識關(guān)聯(lián)技術(shù)。結(jié)合知識圖譜等技術(shù),將文本信息之間的關(guān)聯(lián)關(guān)系進行建模和挖掘,可以更好地理解文本信息之間的相互關(guān)系,幫助研究人員更好地了解航天科技發(fā)展的整體情況和趨勢[5]。
我們認為航天文本分類任務(wù)之所以開展困難,是因為文本數(shù)據(jù)中包含大量生僻的文字和詞語,并且文本與標簽之間關(guān)聯(lián)性較弱,導(dǎo)致一般模型提取特征困難。因此本次實驗主要針對提取文本重點特征這一方向,通過模型組合提取文本各類型特征,最大化體現(xiàn)文本關(guān)鍵詞和文本類型的關(guān)聯(lián)度。
1 文本分類方法
當前被廣泛應(yīng)用于文本挖掘領(lǐng)域的兩種預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers)和GPT(generative pre-trained transformer)都是基于Transformer模型而改進的,分別由谷歌公司和OpenAI團隊研發(fā)。在此之前,1958年Hans開始在在詞頻統(tǒng)計的思想基礎(chǔ)上進了文章摘要的提取[6],之后有學(xué)者使用詞匹配法即基于規(guī)則查找與相關(guān)詞相近的詞語進行分類。1961年,Maron提出了基于“貝葉斯假設(shè)”[7],即文本特征獨立的樸素貝葉斯分類方法,這極大推動了文本分類的發(fā)展。谷歌的MikolovT在2013年開發(fā)了word2vec模型[8],成為許多自然語言處理任務(wù)的流行框架,開始學(xué)者把word2vec模型應(yīng)用在文本分類任務(wù)上[9-10],獲得了不錯的效果。Zhang等[11]在2015年提出在字符級別上處理文本,并將ConvNets模型運用在文本分類任務(wù)上,與目前常見的單詞級別處理文本不同,該方法在文本數(shù)據(jù)存在噪聲或包含大量拼寫錯誤或縮寫的情況下特別有用,也會消耗更多的計算資源,當處理較長的文本時,將導(dǎo)致信息丟失和誤差的增加。2018年,Open AI開始使用基于注意力機制的Transformer[12]構(gòu)建嵌入模型,并提高了TPU(tensor processing unit)上大規(guī)模模型訓(xùn)練的效率。同年谷歌公司的Devlin J等創(chuàng)建了基于雙向Transformer的BERT。BERT具有340M個參數(shù),是當前較先進的神經(jīng)網(wǎng)絡(luò)嵌入模型,使用更大的模型和更多的訓(xùn)練數(shù)據(jù)是當前的趨勢[13]。2022年11月,由OpenAI公司開發(fā)的ChatGPT開源使用,讓更多用戶發(fā)現(xiàn)了智能文本挖掘?qū)萍忌畎l(fā)展的重要性,相信今后的NLP方向的研究會更加完善。
BERT模型作為近年來文本分類領(lǐng)域的熱門研究課題,為了提高分類效果,許多學(xué)者提出了基于BERT的文本分類模型,并將其應(yīng)用于社交電商文本、新聞文本等不同應(yīng)用場景。由于這些模型往往需要大量的數(shù)據(jù)集支撐,并在各自的應(yīng)用領(lǐng)域都表現(xiàn)出了很好的效果[14]。OpenAI研究團隊提出了通過無監(jiān)督自學(xué)習方法進行預(yù)訓(xùn)練,將預(yù)訓(xùn)練模型看作特征提取器,提升了文本任務(wù)的效率和準確性,之后更多的預(yù)訓(xùn)練模型被應(yīng)用于文本分類任務(wù)。在此基礎(chǔ)上,2018年由Jeremy Howard等提出了ULMFit(universal language model fine-tuning)語言模型[15]通過大量無監(jiān)督預(yù)訓(xùn)練提取文本特征,以獲得更好的分類效果,并在模型Fine-tuning階段,采用了逐層解凍、差異化學(xué)習率等技術(shù)以充分利用訓(xùn)練數(shù)據(jù)并加速任務(wù)的收斂。不過也仍需要大量計算資源和訓(xùn)練成本,且經(jīng)實驗驗證,該模型在小規(guī)模數(shù)據(jù)集上的表現(xiàn)不佳,可能的原因是在小規(guī)模領(lǐng)域特定數(shù)據(jù)集上,
通用模型存在著不同程度的過擬合問題。Li等[16]考慮通過屏蔽類別預(yù)測來進行詞級分類,并在未標記的語料庫上進行自我訓(xùn)練以實現(xiàn)泛化,提出了一種高效的監(jiān)督分類方法。Wang等[17]提出使用ERNIE模型進行中文新聞文本分類任務(wù),相較于基于BERT模型,ERNIE模型在中文語言處理領(lǐng)域具有更好的表現(xiàn)。2020年在ICLR(international conference on learning representations)會議上提出的ALBERT[18]是在BERT模型基礎(chǔ)上,提出了融入分解嵌入?yún)?shù)化和交叉層參數(shù)共享方法,解決BERT模型在自然語言處理領(lǐng)域應(yīng)用時所需要的海量參數(shù)以及訓(xùn)練時間過長的問題。與BERT相比,ALBERT具有較少的參數(shù)量,并且訓(xùn)練速度更快。
2 特征表示和融合方法
特征融合是指將多個特征源融合在一起,生成一個更加有表現(xiàn)力的特征向量,以提高模型性能,在計算機視覺、自然語言處理、語音識別等領(lǐng)域都有廣泛的應(yīng)用。在文本分類領(lǐng)域使用特征融合方法也是熱門研究話題。其中部分學(xué)者研究文本表示融合領(lǐng)域(FastText、ELMo、BERT),如FastText使用詞袋模型和n-gram特征來表示文本,并使用層級softmax訓(xùn)練模型。還有部分學(xué)者研究特征選擇融合領(lǐng)域(XGBoost、SVM),如使用SVM支持向量機模型進行分類,PCA、LDA、t-SNE使用降維映射方法減少特征數(shù)量,從而提高模型效率。Yang等[19]通過將詞向量和TF-IDF權(quán)重進行拼接,作為文本的向量表示,提升了準確率和性能。Lai等[20]將GloVe和FastText兩種不同的詞向量模型進行融合,以增加模型對不同語境下的理解能力,同樣獲得了不錯的效果。對于航天科技文本分類來說,其自身具有很特殊的領(lǐng)域特征,直接遷移傳統(tǒng)任務(wù)的方法并不能滿足我們的任務(wù)要求。因此,有必要從數(shù)據(jù)中挖掘可以代表這種強領(lǐng)域特征的特征。因此使用多特征融合方法提取航天文本特征具有可行性。
3 相關(guān)工作
在特征融合角度我們考慮到深層網(wǎng)絡(luò)相比于并行網(wǎng)絡(luò),在分類上有更好表現(xiàn),因此本文提出的深層網(wǎng)絡(luò)BERT-LSTM模型整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。模型流程大致分為5個部分,分別為:BERT預(yù)處理階段、CNN層階段、BI-LSTM層階段、注意力機制階段、分類輸出階段。在預(yù)處理階段使用BERT模型將輸入的文本轉(zhuǎn)換為詞向量,然后將文本序列的詞向量拼接成矩陣,之后采用不同尺寸的卷積核進行卷積操作,從而提取不同長度的n-gram特征,得到特征圖,將得到的最大池化提取出最大特征,并組成特征向量集合,再輸入到Bi-LSTM層進行序列建模,得到文本的語義表示,并采用自注意力來捕捉全局信息中的關(guān)鍵信息,進一步提高關(guān)鍵特征在文本分類中的權(quán)重,最后采用SOFTMAX函數(shù)進行分類。
4 基于BERT-LSTM的航天文本分類模型
4.1 BERT預(yù)訓(xùn)練模型
在文本挖掘領(lǐng)域,最受關(guān)注的應(yīng)用當屬目前大火的ChatGPT,其所屬的語言模型原理(language mode,LM)是內(nèi)部從左至右依次輸入并處理文本,根據(jù)給定的上文文本預(yù)測下一個單詞,再帶上預(yù)測好的當前單詞向下預(yù)測,
而BERT模型作為最出名的掩碼語言模型(masked language model,MLM),與單向語言模型的原理不同,在給定預(yù)測單詞兩側(cè)的文本后,可以預(yù)測輸入中被掩蓋的少量單詞,其雙向的優(yōu)勢特點,決定了BERT在文本分類任務(wù)上具有更大的優(yōu)勢[21]。其在各個任務(wù)中的表現(xiàn)明顯優(yōu)于其他基礎(chǔ)模型,因此本次實驗中選用BERT模型為預(yù)訓(xùn)練基礎(chǔ)模型,BERT預(yù)訓(xùn)練模型輸入表示如圖2所示。
對經(jīng)過預(yù)訓(xùn)練的BERT模型執(zhí)行了微調(diào),并將其與CNN和Bi-LSTM模型融合。初始階段,文本首先經(jīng)BERT預(yù)訓(xùn)練模型轉(zhuǎn)換成詞向量。其中,[CLS]標記被用來代表整句分類,而[SEP]標記則用于區(qū)分兩個獨立的句子。文本X={x1,x2,…,xn}通過詞嵌入、句子嵌入以及位置嵌入三者相加融合得到BERT編碼器的輸入,其中每個xn是一個詞或字符的向量表示,維度為d。通過數(shù)個疊加的Transformer編碼器的編碼,我們得到了文本的向量化表示。而位于句首的[CLS]標記的最后隱藏層則用于代表輸入文本的整體信息。
4.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習領(lǐng)域的一個核心結(jié)構(gòu),它主要通過卷積操作來捕捉空間結(jié)構(gòu)中的層次化特征。對于文本處理,首先會采用詞嵌入技術(shù)將文本轉(zhuǎn)化為一系列的詞向量,以表示單詞的語義信息和上下文結(jié)構(gòu)。隨后,這些詞向量被輸入到卷積層。在卷積操作中,各種大小的濾波器會在輸入數(shù)據(jù)上滑動,目的是識別并提取例如n-gram的結(jié)構(gòu)性特征,詳細的網(wǎng)絡(luò)架構(gòu)如圖3展示。在我們的研究中,選擇的CNN模型采納了Relu作為激活函數(shù)。相較于Sigmoid和Tanh,Relu不僅可以提供更快的收斂速度,而且有效地避免了梯度消失的問題。
將轉(zhuǎn)換好的詞向量表示拼接成一個矩陣E∈Rn×d,其中每行是一個詞向量。然后,對于每個詞向量,可以采用不同尺寸的卷積核進行卷積操作,從而提取不同長度的n-gram特征,得到一組特征圖(feature map)F∈Rl×h,其中l(wèi)表示不同尺寸卷積核輸出的序列長度,h為卷積核輸出的特征數(shù)。卷積操作如式(1)所示:
Fi=h(wiE+b)(1)
其中:wi表示卷積核權(quán)重;b為偏置項;*為卷積操作;h為激活函數(shù)。
再將特征圖F輸入到一個最大池化(max-pooling)層,對每個特征圖提取出最大的特征,得到一個向量p∈Rh,表示該特征圖的最重要的特征。最大池化操作如式(2)所示:
pi=max(Fi1,F(xiàn)i2,…,F(xiàn)il)(2)
其中l(wèi)為卷積核輸出的序列長度。
這樣,我們就得到了一組池化后的特征向量集合P={p1,p2,…,pm},其中m為卷積核的數(shù)量。
4.3 長短時記憶網(wǎng)絡(luò)
長短時記憶網(wǎng)絡(luò)(LSTM),是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)。RNN模型的記憶性能有效的保持信息,在處理時間序列預(yù)測相關(guān)的問題時有非常好的效果,普通的RNN模型在處理長序列數(shù)據(jù)時容易出現(xiàn)梯度消失或梯度爆炸的問題,這會導(dǎo)致模型難以捕捉到長期的依賴關(guān)系[22]。長短時記憶網(wǎng)絡(luò)(LSTM)模型引入的輸入門、遺忘門和輸出門可以控制信息的流動和記憶的更新,使模型能夠更好地捕捉到序列中的長期依賴關(guān)系。另外,雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)由兩個LSTM組成,分別從序列的兩個方向進行處理,并將它們連接到同一個輸出層。這使得輸出層能夠獲得來自前向和后向上下文的信息,從而更全面地捕捉序列的特征。因此,Bi-LSTM在分類模型中的性能通常比單向LSTM更好。在本次實驗中,選擇Bi-LSTM模型作為深度學(xué)習模型,旨在提高分類任務(wù)的性能。通過雙向處理和上下文信息的融合提升分類模型的準確性。
本文采用雙向長短期記憶網(wǎng)絡(luò)Bi-LSTM來代替普通的LSTM,充分考慮當前節(jié)點的上下文語義信息。LSTM的獨立單元結(jié)構(gòu)如圖4所示。
將池化后的特征向量P作為Bi-LSTM的輸入序列,將其輸入到Bi-LSTM網(wǎng)絡(luò)中進行雙向建模。對于一個時刻t,Bi-LSTM的前向和后向傳播如式(3)、(4)所示:
hft=f(Wifxt+Uhfhft-1+bf)(3)
hbt=f(Wibxt+Uhbhft+1+bb)(4)
其中:hft和hbt分別為Bi-LSTM的前向傳播和后向傳播的隱藏狀態(tài);U為輸入到隱藏狀態(tài)的權(quán)重矩陣,b為偏置項(bias)。
在Bi-LSTM中,可以通過將它們進行拼接得到當前時刻的隱藏狀態(tài)ht∈R2u,其中u為Bi-LSTM的隱層大小,如式(5)所示:
ht=[hft;hbt](5)
其中[;]表示向量的拼接操作。
最后一步,將Bi-LSTM的輸出序列進行平均池化,將整個Bi-LSTM的輸出轉(zhuǎn)化成一個固定長度的向量(即文本的語義表示),最終的文本表示如式(6)所示:
hfinal=fpooling(h1,h2,…,hn)(6)
其中fpooling是平均池化操作。
4.4 輸出層
通過自注意力層來捕捉全局特征中的關(guān)鍵信息,并進一步提高關(guān)鍵特征在文本分類中的權(quán)重。
具體而言,自注意力層會由3個線性變換矩陣(即Query,Key,Value)將輸入序列進行處理。在計算過程中,輸入序列中每一個位置都被用來查詢其他所有位置的信息,因此,每一個位置能夠計算出一組權(quán)重值,這些權(quán)重與輸入序列中對應(yīng)位置的向量相乘后,就得到了經(jīng)過加權(quán)聚合后的向量表示。這些聚合后的向量進一步融合成一個全局特征向量,代表了整個文本的關(guān)鍵信息。計算式如下:
uj=tanh(Wshj+bs)(7)
αj=exp(uTjus)∑jexp(uTjus)(8)
v=∑jαjh(9)
其中:Ws、bs為網(wǎng)絡(luò)參數(shù);uj為hj的隱藏表示;us為上下文向量;αj為注意力權(quán)重值。
最后構(gòu)建全連接層,將其傳遞到softmax分類器中進行歸一化處理預(yù)測文本標簽y,其中y屬于{y1,y2…,yn},計算式如式(10)所示,Wc為模型最后一層隱藏層與輸出類別之間的權(quán)重矩陣,bc為偏置項:
y=softmax(Wcv+bc)(10)
5 實驗內(nèi)容
5.1 實驗環(huán)境及參數(shù)
本次BERT-LSTM模型中選擇BERT-base-uncased為預(yù)訓(xùn)練模型,模型的重要參數(shù)如表1所示。
為驗證分類模型性能,本文所提出的方法和對比實驗均在Windows系統(tǒng)上進行,使用Python3.6.5版本編程語言。具體實驗環(huán)境如表2所示。
5.2 實驗數(shù)據(jù)集
為了進行航天文本分類任務(wù),首先挑選合適數(shù)據(jù)集并對其進行處理。選取美國航天航空局公布的公開數(shù)據(jù)集NASAset作為本次分類數(shù)據(jù)集。NASAset是一個半結(jié)構(gòu)化數(shù)據(jù)集,其中包括敘述和概要形式的文本數(shù)據(jù)。敘述從記者的角度描述了事件。對于每個敘述,NASA工作人員都會生成概要,從而記錄此次事件。此外,NASA數(shù)據(jù)還涉及由報告者或NASA工作人員創(chuàng)建的元數(shù)據(jù)。報告者生成的元數(shù)據(jù)包括有關(guān)事件背景的結(jié)構(gòu)化信息(例如,Management Systems、Propulsion Systems、Entry, Descent, and Landing、Materials, Structures, Mechanical Systems, and Manufacturing等)。在本研究中,我們利用NASA數(shù)據(jù)集中的敘述和敘述類目數(shù)據(jù)。NASA數(shù)據(jù)中的每個敘述都與一個相應(yīng)的敘述類目相關(guān)聯(lián),這些敘述和敘述類目用分號分隔,將敘述類目作為本次分類任務(wù)的“l(fā)abel”,敘述內(nèi)容作為本次分類任務(wù)的“text”。NASA數(shù)據(jù)集結(jié)構(gòu)的直觀表示如圖5所示。
對數(shù)據(jù)集進行了可視化分析,所有標簽的頻率情況以及標簽相關(guān)性熱圖,如圖6所示。我們發(fā)現(xiàn)NASA數(shù)據(jù)集中標簽與標簽之間的相關(guān)性不穩(wěn)定,相關(guān)性熱圖證明了這一點。這一觀察結(jié)果表明,多標簽分類任務(wù)本質(zhì)上是復(fù)雜的,因為標簽之間的相關(guān)性差異度意味著異常事件之間的關(guān)系錯綜復(fù)雜,可能會給影響模型的準確捕獲。
本次實驗中,文本采用分類任務(wù)作為實例任務(wù),用于驗證本文的模型性能。在英文數(shù)據(jù)集上,選擇了AGNews數(shù)據(jù)集,該數(shù)據(jù)集由學(xué)術(shù)新聞搜索引擎ComeToMyHead搜集而成,包含多達2000個新聞數(shù)據(jù)源。在中文數(shù)據(jù)集上,選用了THCnews數(shù)據(jù)集,該數(shù)據(jù)集由新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成。為了驗證模型的泛化能力,我們還使用了多標簽的航天文本進行實驗。采用的航天文本數(shù)據(jù)集來自美國國家航空航天局(NASA)的信息公布網(wǎng)站NTRS-NASA上的公開數(shù)據(jù),選取其中92000份航天領(lǐng)域科技報告及文獻記錄作為樣本,總共分為16個類別,選取64400份文本為訓(xùn)練集數(shù)據(jù),13800份文本為校驗集數(shù)據(jù)和13800份文本為測試集數(shù)據(jù),進行訓(xùn)練和預(yù)測。
5.3 評價指標
本次實驗的任務(wù)是多標簽文本分類任務(wù),更看重分類的準確率(Precision),因此將準確率P作為最終模型性能指標,如式(11)所示:
P=預(yù)測正確的樣本數(shù)預(yù)測出來的樣本數(shù)(11)
5.4 實驗結(jié)果及分析
本文使用如下模型進行文本分類任務(wù)對比實驗:
1)TextCNN:TextCNN是一種簡單而有效的文本分類模型[23],其核心思想是通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)對文本進行局部特征提取,從而捕捉到詞語之間的語義關(guān)系。模型的輸入是經(jīng)過預(yù)處理得到的詞向量,這些詞向量被作為CNN的輸入。
2)TextRNN:TextRNN是一種適用于處理序列數(shù)據(jù)的深度學(xué)習模型,主要應(yīng)用于文本分類、情感分析、語言建模等任務(wù)中。TextRNN通過雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)
來捕捉序列中的上下文信息[24],這使得模型能夠更加全面地理解文本中的語義和依賴關(guān)系。
3)DPCNN:DPCNN是由Johnson等[25]在2017年提出的模型。該模型的核心思想是將文本劃分為n-gram文本塊,并將這些文本塊輸入到卷積層中進行向量化表示。然后,通過堆疊多個等長卷積層和殘差連接(residual connections),利用最大池化操作來提取特征。最后,將提取到的特征輸入到全連接層并通過softmax進行歸一化以得到最終的分類結(jié)果[26]。
4)HAN:HAN(hierarchical attention networks)是一種用于文檔分類的層次注意網(wǎng)絡(luò)模型。通過多層注意力機制提取關(guān)鍵詞和句子,構(gòu)建文檔表征。
5)BERT:利用雙向編碼、多層次表示和預(yù)測上下文等技術(shù)來捕捉文本的語義信息,并通過在特定任務(wù)上進行微調(diào)來提高模型的性能,并將其應(yīng)用在文本分類任務(wù)上。其中BERTbase和BERTlarge的主要區(qū)別在于Encoder層個數(shù)、參數(shù)個數(shù)和隱藏層維度上的不同。
6)ALBERT:ALBERT是谷歌團隊于2019年提出的預(yù)訓(xùn)練語言模型,它通過引入跨層和交叉層參數(shù)共享策略以及對Embedding層進行分解等優(yōu)化,顯著降低了模型參數(shù)數(shù)量,提高了訓(xùn)練速度和部署效率,同時在保持BERT模型性能的前提下,減少了資源消耗,使得大規(guī)模語言模型的訓(xùn)練和應(yīng)用更加可行。
7)BERT-DPCNN:由Li等提出[27],結(jié)合兩種模型的優(yōu)點,BERT可以更有效地處理上下文,不僅解決了長距離依賴的問題,而且DPCNN建立了文本長距離依賴的模型,兩種模型的結(jié)合使得數(shù)據(jù)處理和用戶信息提取更準確。
將本文提出的BERT-LSTM模型與上述模型進行實驗對比,得到準確率結(jié)果如表3所示。
通過實驗表明,本文提出的BERT-LSTM模型在結(jié)果表現(xiàn)上更優(yōu)。相比于TEXT-CNN模型,本文所提出的模型在中文數(shù)據(jù)集THCnews上提升了12.3%,在英文數(shù)據(jù)集AGnews標簽分類上提升了11.0%。相比于TEXT-CNN模型,本文提出的模型充分發(fā)揮了BERT預(yù)處理模型在詞向量中保存上下文本信息這一特性,更好保留了文本特征和上下文位置信息等。相較于TEXT-RNN模型在兩種標準數(shù)據(jù)集上的表現(xiàn)81.2%和83.4%,BERT-LSTM模型分類效果分別提升了11.9%和10.2%,模型表現(xiàn)上明顯優(yōu)于TEXT-RNN模型,LSTM模型通過3個控制器RNN模型存在的梯度問題。另外,采用了雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)來進一步提高模型性能。這個結(jié)構(gòu)包含兩個LSTM組成,它們共享同一個輸出層,這使得它們能夠同時提供上下文信息給輸出層。這些改進使得我們更好地處理了梯度問題并提高了模型的性能。除此之外,BERT-LSTM模型在THCnews數(shù)據(jù)集上性能相比DPCNN提高了7.5%,在英文數(shù)據(jù)集上發(fā)揮相比高于DPCNN約8.5%,原因是由于AGnews在分類上種類較少,僅為4類導(dǎo)致融合的特征機制不能發(fā)揮最大效用,BERT-LSTM的特征融合機制更適合在多文本標簽的分類任務(wù)上工作。相較于其他模型BERT-LSTM實驗結(jié)果均有不同程度上的提升,也驗證了特征融合方法在小文本數(shù)據(jù)集上的優(yōu)越性。BERT-LSTM模型在標準模型的多標簽分類任務(wù)上優(yōu)于其他8種模型。
為了表明本文提出的BERT-LSTM模型中CNN層和Bi-LSTM層特征融合方法對于模型性能的影響,本章在兩個公開數(shù)據(jù)集上完成了一組消融實驗,結(jié)果如表4所示。可以看出CNN層和Bi-LSTM層是模型想要取得優(yōu)秀性能所必不可少的。
首先,我們省略用來特征融合部分的CNN層和Bi-LSTM層,在BERT預(yù)處理層直接接softmax分類器,記為w/o CNN-LSTM。從實驗結(jié)果可以看出,結(jié)合了特征融合思想的BERT-LSTM模型比使用基礎(chǔ)的BERT分類有顯著的改進,說明了利用CNN和Bi-LSTM的特性全面獲取模型特征對于模型分類任務(wù)性能的重要性。其中THCnews數(shù)據(jù)集分類準確率變化曲線如圖7所示。
本次解決傳統(tǒng)航天文本分類問題,實現(xiàn)航天科技文本快速和精準分類這一任務(wù),使用的航天文本數(shù)據(jù)集來自美國國家航空航天局(NASA)的信息公布網(wǎng)站NTRS-NASA上的公開數(shù)據(jù)。通過BERT-LSTM模型和8種對比模型進行分類任務(wù),實驗結(jié)果表明:本文提出的基于雙向長短時記憶網(wǎng)絡(luò)融合注意力機制的BERT-LSTM模型表現(xiàn)最好,分類準確率為82.6%明顯高于其他8種對比模型的結(jié)果,分類準確率分別相較其他模型高20%左右。由此可以證明我們選取的特征融合方法以及基礎(chǔ)模型更適用于處理航天文本分類任務(wù)。由于航天文本標簽之間的相關(guān)性不穩(wěn)定這一特點,且標簽與文本內(nèi)容間的關(guān)聯(lián)性不強,導(dǎo)致其他基礎(chǔ)模型提取特征困難,因此準確率偏低,而本文的BERT-LSTM模型通過多特征嵌入和多網(wǎng)絡(luò)融合方法,最大程度的提取有效信息并通過Attention層放大顯著特征,因此該任務(wù)上準確率更高。同時我們的模型準確率高于BERT-DPCNN模型,其原因是Bi-LSTM層可以更好地處理上下文中關(guān)聯(lián)性信息。航天文本NASA數(shù)據(jù)集分類準確率變化曲線如圖8所示。我們認為在文本庫中加入航天文本專用詞典效果會更好,這也側(cè)面驗證了BERT-LSTM模型具有良好的泛化能力,有效提升了航天科技文本分類的準確率。
6 結(jié) 論
本文提出一種基于BERT-LSTM融合注意力機制模型。在該模型中,首先基于BERT預(yù)訓(xùn)練模型與BI-LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),考慮到CNN在文本局部特征提取上的高效性,提出特征融合方法將CNN、BERT和BI-LSTM模型結(jié)合獲得BERT-LSTM文本分類模型。使用BERT模型將輸入的文本轉(zhuǎn)換為詞向量,然后將文本序列的詞向量拼接成矩陣,之后采用不同尺寸的卷積核進行卷積操作,將得到的最大特征組成特征向量集合,再輸入到BI-LSTM層進行序列建模,有效解決了文本分類模型較遠距離信息被弱化的問題和梯度爆炸問題。這種設(shè)計能夠有效地提取文本特征并進行準確的分類。這種方法結(jié)合了BERT預(yù)訓(xùn)練模型的強大表示學(xué)習能力和CNN、LSTM的特征提取能力。通過在卷積層和LSTM層之間的連接,模型可以有效地捕捉到文本中的上下文信息和局部特征,從而進行文本類型的預(yù)測。實驗表明BERT-LSTM模型在標準模型的多標簽分類任務(wù)上優(yōu)于其他模型,尤其在航天文本分類任務(wù)上取得82.6%的準確率。后續(xù)工作將考慮額外在BERT-LSTM模型中嘗試加入了矩陣分解方法,測試矩陣分解方法對于航天文本分類任務(wù)效率的影響程度。并在文本詞庫中加入航天領(lǐng)域?qū)S性~匯以提升模型性能,相信在不久的將來我們設(shè)計的分類模型將更為成熟。
參 考 文 獻:
[1] 宋巍,王潔心,梁軼,等.基于知識管理思想的航天科技情報工作研究[J].航天工業(yè)管理,2018(4):51.
SONG Wei, WANG Jiexin, LIANG Yi, et al. Research on Aerospace Science and Technology Intelligence Work Based on Knowledge Management Ideology[J]. Aerospace Industry Management,2018(4):51.
[2] 徐建忠,朱俊,趙瑞,等.基于Web技術(shù)的航天文本分類系統(tǒng)研究與應(yīng)用[J].軍民兩用技術(shù)與產(chǎn)品,2016(23):48.
XU Jianzhong, ZHU Jun, ZHAO Rui, et al. Research and Application of Aerospace Text Classification System Based on Web Technology[J]. Dual-use Technology and Products,2016(23):48.
[3] 張亞超.面向航天情報領(lǐng)域的文本分類算法研究與實現(xiàn)[D].西安:西安電子科技大學(xué),2018.
[4] 鄭國興.面向航天領(lǐng)域的中文分詞算法研究與實現(xiàn)[D].西安:西安電子科技大學(xué),2019.
[5] 魏明飛,潘冀,陳志敏,等.預(yù)訓(xùn)練模型下航天情報實體識別方法[J].華僑大學(xué)學(xué)報(自然科學(xué)版),2021,42(6):831.
WEI Mingfei,PAN Ji,CHEN Zhimin,et al. Aerospace Intelligence Entity Recognition Method Under Pre-training Model[J]. Journal of Huaqiao University(Natural Science Edition),2021,42(6):831.
[6] HANS P L. Auto-Encoding of Documents for Information Retrieval Systems[M]. New York:Pergamon Press,1959.
[7] MARON M E, KUHNS J L. On Relevance, Probabilistic Indexing and Information Retrieval[J]. Journal of the ACM (JACM), 1960, 7(3): 216.
[8] MIKOLOV T, et al. Distributed Representations of Words and Phrases and Their Compositionality[C]//Lake Tahoe: Advances in Neural Information Processing Systems, 2013: 3111.
[9] LILLEBERG J, ZHU Y, ZHANG Y. Support Vector Machines and Word2vec for Text Classification with Semantic Features[C]//2015 IEEE 14th International Conference on Cognitive Informatics amp; Cognitive Computing (ICCI*CC), 2015: 136.
[10]張冬雯,楊鵬飛,許云峰.基于word2vec和SVMperf的中文評論情感分類研究[J].計算機科學(xué),2016,43(S1):418.
ZHANG Dongwen,YANG Pengfei,XU Yunfeng. A Study on Sentiment Classification of Chinese Comments Based on Word2vec and SVMperf[J]. Computer Science,2016,43(S1):418.
[11]ZHANG Xiang, ZHAO Junbo Jake, CUN Yann Le. Character-level Convolutional Networks for Text Classification[J]. CoRR,2015,abs/1509.01626.
[12]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is All You Need[J]. arXiv, 2017.
[13]Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].arXiv preprint arXiv:1810.04805,2018.
[14]鄭誠,梅亮,趙伊研,等.基于雙向注意力機制和門控圖卷積網(wǎng)絡(luò)的文本分類方法[J].計算機科學(xué),2023,50(1):221.
ZHENG Cheng, MEI Liang, ZHAO Yiyan, et al. A Text Categorization Method Based on Two-way Attention Mechanism and Gated Graph Convolutional Network[J]. Computer Science,2023,50(1):221.
[15]HOWARD J," RUDER S. Fine-tuned Language Models for Text Classification[J]. arXiv,:1801.06146,2018.
[16]LI Meng,CHEN Shenyu,YANG Weifeng,et al. Multi-Stream Graph Convolutional Networks for Text Classification via Representative-Word Document Mining[J]. International Journal of Computational Intelligence and Applications,2022,21(4):125.
[17]WANG Qi, LI Xu. 2023. Chinese News Title Classification Model Based on ERNIE-TextRCNN[C]// Association for Computing Machinery, New York, NY, USA: 147.
[18]LIU Yinhan, OTT Myle, GOYAL Naman, et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach[J].CoRR abs/1907.11692,2019.
[19]YANG Z, YANG D, DYER C, et al. Hierarchical Attention Networks for Document Classification[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016:33.
[20]LAI S, XU L, LIU K, et al. Recurrent Convolutional Neural Networks for Text Classification[C]// National Conference on Artificial Intelligence. AAAI Press, 2015.
[21]劉宇鵬,李國棟.基于棧式預(yù)訓(xùn)練模型的中文序列標注[J].哈爾濱理工大學(xué)學(xué)報,2022,27(1):8.
LIU Yupeng,LI Guodong. Chinese Sequence Annotation Based on Stack Pre-training Model[J]. Journal of Harbin Institute of Technology,2022,27(1):8.
[22]鄭鑫,陳海龍,馬玉群,等.融合依存句法和LSTM的神經(jīng)機器翻譯模型[J].哈爾濱理工大學(xué)學(xué)報,2023,28(3):20.
ZHENG Xin, CHEN Hailong, MA Yuqun, et al. A Neural Machine Translation Model Incorporating Dependent Syntax and LSTM[J]. Journal of Harbin Institute of Technology,2023,28(3):20.
[23]李飛鴿,王芳,黃樹成.基于AlBERT與TextCNN的中文文本分類研究[J].軟件導(dǎo)刊,2023,22(4):27.
LI Feige,WANG Fang,HUANG Shucheng. Research on Chinese Text Classification Based on AlBERT and TextCNN[J]. Software Guide,2023,22(4):27.
[24]姜炎宏. 基于深度學(xué)習的中文文本多標簽分類研究[D].鞍山:遼寧科技大學(xué),2020.
[25]JOHNSON R, TONG Z. Deep Pyramid Convolutional Neural Networks for Text Categorization[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017.
[26]呂淑寶,王明月,翟祥,等.一種深度學(xué)習的信息文本分類算法[J].哈爾濱理工大學(xué)學(xué)報,2017,22(2):105.
LV Shubao,WANG Mingyue,ZHAI Xiang,et al. A Deep Learning Algorithm for Informative Text Classification[J]. Journal of Harbin Institute of Technology,2017,22(2):105.
[27]LI Y J, ZHANG H J, PAN W M, et al. Microblog Rumor Detection Based on BERT-DPCNN[C]// Artificial Intelligence in China. Lecture Notes in Electrical Engineering, vol 653. Springer, Singapore,2021.
(編輯:溫澤宇)