摘 要:為了解決預(yù)訓(xùn)練語言模型訓(xùn)練時間過長、參數(shù)多且難以部署,以及非預(yù)訓(xùn)練語言模型分類效果較差的問題,提出了基于知識蒸餾模型的文本情感分析。以預(yù)訓(xùn)練深度學(xué)習(xí)模型(Bidirectional Encoder Representationsfrom Transformers,BERT)作為教師模型,選擇雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)作為學(xué)生模型;在知識蒸餾過程中,將教師模型的Softmax層的輸出作為“知識”蒸餾給學(xué)生模型,并將蒸餾后的模型應(yīng)用到公共事件網(wǎng)絡(luò)輿情文本情感分析中。實驗結(jié)果表明,該模型參數(shù)僅為BERT模型的1/13,使BiLSTM模型的準(zhǔn)確率提升了2.2百分點,優(yōu)于其他同類別輕量級模型,提高了文本情感分析效率。
關(guān)鍵詞:知識蒸餾;網(wǎng)絡(luò)輿情;BERT模型;BiLSTM模型
中圖分類號:TP391.1 文獻標(biāo)志碼:A
0 引言(Introduction)
在大數(shù)據(jù)和互聯(lián)網(wǎng)飛速發(fā)展的背景下,社交平臺(如微博、小紅書、Twitter)中涌現(xiàn)了大量情緒化數(shù)據(jù),此時輿情文本情感分析在該領(lǐng)域起到了重要作用[1]。現(xiàn)有的文本情感分析模型主要分為預(yù)訓(xùn)練語言模型和非預(yù)訓(xùn)練語言模型兩種。預(yù)訓(xùn)練語言模型效果好,但訓(xùn)練時間過長且參數(shù)多,不適用于低資源設(shè)備;非預(yù)訓(xùn)練語言模型簡單易用,但分析效果較差。
針對上述問題,本文提出基于知識蒸餾模型的文本情感分析,將教師模型的輸出層作為“知識”蒸餾給學(xué)生模型,以便在壓縮教師模型的同時,也能提升學(xué)生模型的準(zhǔn)確率。通過該方法,深入挖掘和分析公眾對突發(fā)事件的情感傾向,幫助政府部門及時了解公眾對突發(fā)事件的態(tài)度和情感需求,也可以根據(jù)情感分析結(jié)果對輿情發(fā)展趨勢進行預(yù)判,以此提高網(wǎng)絡(luò)輿情智能化管理效能。
1 相關(guān)研究(Related research)
文本情感分析又稱情感傾向分析或意見挖掘,是從用戶意見中獲取信息的過程。目前,文本情感分析方法主要包括基于機器學(xué)習(xí)的模型和基于深度學(xué)習(xí)的模型兩種。從機器學(xué)習(xí)的角度來看,基于機器學(xué)習(xí)的文本情感分析是通過使用有標(biāo)注或者無標(biāo)注的數(shù)據(jù),利用傳統(tǒng)統(tǒng)計機器學(xué)習(xí)算法抽取特征,然后進行情感傾向分析。例如,鄧君等[2]提出Word2Vec和支持向量機(SVM)方法實現(xiàn)了對評論文本進行二分類。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度學(xué)習(xí)在處理文本信息領(lǐng)域取得了較大的進展。不同的網(wǎng)絡(luò)搭建方法構(gòu)成了不同的算法,典型的有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短期記憶網(wǎng)絡(luò)(LSTM)等。BEHERA等[3]提出基于Co-LSTM 的情感分析方法。BASIRI等[4]將注意力機制與CNN-RNN融合用于文本情感分析。硬件技術(shù)的迭代推動了預(yù)訓(xùn)練語言模型的快速發(fā)展,在自然語言處理領(lǐng)域(NLP)取得重大突破。DEVLIN等[5]首次提出自編碼(AutoEncoder)預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representations from Transformers),該模型提升了11項NLP任務(wù)的技術(shù)水平。為了解決單一模型存在的缺陷,有學(xué)者進行了模型融合。例如,馬長林等[6]提出一種融合主題模型的情感分析算法。ALAYBA等[7]將CNN和LSTM進行融合,提出基于CNN-LSTM的文本情感分類方法。劉繼等[8]提出混合深度學(xué)習(xí)模型M2BERT-BiLSTM,該模型很好地解決了輿情正負(fù)樣本失衡的問題。
隨著深度學(xué)習(xí)的發(fā)展,自然語言處理領(lǐng)域取得了重大的突破。但在實際應(yīng)用中,深度學(xué)習(xí)模型仍然存在諸多挑戰(zhàn)。為了獲得更高的準(zhǔn)確率,模型通常會被設(shè)計得龐大而復(fù)雜,這就導(dǎo)致模型在訓(xùn)練和部署過程中需要消耗大量資源,因此很難部署在手機等邊緣設(shè)備上。所以,設(shè)計一個具有高性能且滿足低資源設(shè)備的模型尤為必要。當(dāng)前,有5種方法可以獲得高效的深度學(xué)習(xí)模型,直接設(shè)計輕量級網(wǎng)絡(luò)、剪枝、量化、網(wǎng)絡(luò)自動設(shè)計以及知識蒸餾(Knowledge Distillation,KD),其中知識蒸餾是由HINTON等[9]在其Distilling the Knowledge in a NeuralNetwork 論文中首次提出,它作為一種新型的模型壓縮方法,目前已經(jīng)成為深度學(xué)習(xí)研究領(lǐng)域的一個熱點。
知識蒸餾采用教師-學(xué)生(Teacher-Student)的訓(xùn)練框架,該方法通常是把復(fù)雜的深層網(wǎng)絡(luò)當(dāng)作教師模型,淺層的小型網(wǎng)絡(luò)當(dāng)作學(xué)生模型。在文本情感分類任務(wù)中,輕量級網(wǎng)絡(luò)(如BiLSTM)的表現(xiàn)通常不佳,但可以利用知識蒸餾原理加強其分類能力。為了在壓縮模型的同時能夠進一步提升BiLSTM 模型的文本情感分類能力,本文采用BERT 作為教師模型,BiLSTM作為學(xué)生模型,提出一種基于知識蒸餾的模型Distill-BiLSTM對網(wǎng)絡(luò)輿情文本進行有效分析。
2 研究方法(Research method)
2.1 知識蒸餾
知識蒸餾是模型壓縮中常用的方法之一。通常復(fù)雜度越高的模型其分類能力越好,但過大的模型可能存在冗余,訓(xùn)練時會消耗大量的計算時間,因此很難部署在低資源設(shè)備上。知識蒸餾以輕微損失模型的準(zhǔn)確度為代價,壓縮復(fù)雜模型。有學(xué)者從不同角度分析知識蒸餾的有效性。例如,F(xiàn)URLANELLO等[10]指出,教師模型的最大Softmax概率值可以視為加權(quán)重要性,并通過實驗表明,即使重新排列所有的非最大Softmax概率值也可以提高知識蒸餾的性能。YUAN等[11]認(rèn)為,知識蒸餾的成功不僅歸功于類間相似性的信息,還歸功于標(biāo)簽平滑正則化(Label Smoothing Regularization,LSR),在一些情況下,使用“軟標(biāo)簽”的理論推理是正確的。
在蒸餾過程中,教師模型將其掌握的“知識”作為監(jiān)督信號傳遞給學(xué)生模型,文獻[8]將這種知識稱為“暗知識”(DarkKnowledge)。學(xué)生模型在訓(xùn)練過程中接受這種“知識”提高其準(zhǔn)確度,防止過擬合問題,使之接近教師的性能,實現(xiàn)知識的遷移,以此達到壓縮模型的目的。蒸餾框架涉及兩種標(biāo)簽:軟標(biāo)簽(Soft Label)和硬標(biāo)簽(Hard Label)。教師模型經(jīng)過溫度蒸餾得到的概率輸出稱為軟標(biāo)簽;通過one-hot方式進行編碼的稱為硬標(biāo)簽(真實標(biāo)簽)。在訓(xùn)練過程中,相較于硬標(biāo)簽,軟標(biāo)簽往往攜帶更多的“知識”。
定義預(yù)測正確的類別概率稱為絕對信息(AbsoluteInformation);把非正確預(yù)測類別的概率稱為相對信息(Relative Information)。模型在訓(xùn)練過程中經(jīng)過Softmax層之后往往會把絕對信息賦予較大的值,把相對信息賦予較小的值,然而相對信息中包含著重要知識。為了平滑兩種信息之間的差異性,引入溫度系數(shù)ρ 進行調(diào)節(jié),通過控制ρ 放大信息之間的相似性進而確定蒸餾程度。當(dāng)溫度越高,學(xué)生模型就越容易從相對信息中獲取更多的知識。經(jīng)過平滑后的概率分布qi(Zi,ρ)就被稱為軟標(biāo)簽,其中Zi 表示模型對第i 個類別的logits值,軟標(biāo)簽概率的計算公式如下:
然而并不是溫度越高越好,當(dāng)溫度過高時就會陷入一種平均主義。比如,一張手寫數(shù)字7的圖片對應(yīng)的硬標(biāo)簽值為[1,0,0],將圖片輸入模型中得到logits值為[7,5,3],通過Softmax之后,得到軟標(biāo)簽值為[0.83,0.12,0.05],模型的輸出表明,手寫數(shù)字7特別像數(shù)字2,但特別不像數(shù)字8;當(dāng)溫度為3時,通過公式(1)輸出為[0.56,0.28,0.16],它們的相對大小就越接近;而當(dāng)溫度為100時,通過公式(1)輸出為[0.34,0.33,0.33],就體現(xiàn)不出類別之間的差異性。
知識蒸餾損失函數(shù)由兩個部分組成:一是KL 散度損失函數(shù),使用公式(2)計算;二是CE 交叉熵?fù)p失函數(shù),使用公式(3)計算。
知識蒸餾的總損失函數(shù)是這兩者的加權(quán)和,使用公式(4)表示。
LKD =αKL(q(zT;ρ),q(zS;ρ))+(1-α)CE(zhard,zS)(4)
其中:zS 為學(xué)生模型的logits融合輸出,zhard 為硬標(biāo)簽(真實標(biāo)簽),zT 為教師模型的logits融合輸出,ρ 為溫度系數(shù),α 為平衡系數(shù),知識蒸餾模型流程如圖1所示。
2.2 教師模型
本文采用大規(guī)模中文預(yù)訓(xùn)練Bert-base-Chinese作為教師模型,大量研究工作已經(jīng)證明[12-13],預(yù)訓(xùn)練語言模型可以提高許多自然語言處理任務(wù)(如文本情感分析、自然語言生成)的性能。預(yù)訓(xùn)練是指在大量未帶有標(biāo)簽的文本上,以上一個詞預(yù)測下一個詞為目的進行模型訓(xùn)練,這樣做的好處是可以使模型學(xué)習(xí)到每個詞元的上下文表示,通過這種方式學(xué)到的向量稱為詞向量。通過訓(xùn)練得到的詞向量和模型參數(shù)中包含許多在預(yù)訓(xùn)練階段學(xué)習(xí)到的語義特征?;陬A(yù)訓(xùn)練的語言模型只需要進行微調(diào)(Fine-tuning),就可以應(yīng)用到下游任務(wù)當(dāng)中。
BERT模型用于情感分類的過程如下:首先將單個句子以[CLS]+句子+[SEP]方式進行拼接,其次通過位置編碼轉(zhuǎn)換成詞向量,將轉(zhuǎn)換的詞向量作為Transformer的輸入進行訓(xùn)練,最后取出經(jīng)過訓(xùn)練的詞向量分類標(biāo)識[CLS]所對應(yīng)的向量,傳給Softmax分類器就可以實現(xiàn)文本分類。BERT教師模型框架如圖2所示。
2.3 學(xué)生模型
本文采用BiLSTM 作為學(xué)生模型,該模型是由一個前向LSTM和一個后向LSTM 構(gòu)成。在BiLSTM 學(xué)生模型中,對于一個長度為n 的輸入序列X=[x1,x2,…,xn],其中每個xi表示第i 個詞元的向量,詞向量輸入前向長短期記憶網(wǎng)絡(luò)hf的同時在后向長短期記憶網(wǎng)絡(luò)hb 進行反向計算,其t 時刻的傳播公式如公式(5)、公式(6)所示:
利用拼接后的詞向量H 的輸出作為輸出層,然后利用Softmax分類器進行分類,這個過程為BiLSTM 文本情感分類的完整過程。BiLSTM學(xué)生模型框架如圖3所示。
BiLSTM模型可以同時兼顧前向信息和后向信息,在結(jié)合輸入文本的語義信息和詞性特征的同時,還能獲取上下文相關(guān)的遠(yuǎn)期信息,從而有效地解決了由于距離過長而引起的梯度消失和梯度爆炸等問題。
2.4 基于Distill-BiLSTM 的蒸餾模型
知識蒸餾采用教師-學(xué)生模型框架進行訓(xùn)練時,需要分別選擇合適的模型作為教師模型和學(xué)生模型。通常,復(fù)雜但準(zhǔn)確度高的作為教師模型;結(jié)構(gòu)簡單、容易部署的作為學(xué)生模型。文獻[9]提出的BERT模型在當(dāng)時11項自然語言處理任務(wù)中達到最高水平,該模型能夠很好地利用文本語義特征充分獲取樣本信息;BiLSTM模型結(jié)構(gòu)簡單,可以在考慮文本的語義信息和詞性特征的基礎(chǔ)上獲取上下文相關(guān)的長時信息。所以,本文采用Bert-base-Chinese作為教師模型,BiLSTM 作為學(xué)生模型,提出基于Distill-BiLSTM的中文文本情感分類模型。此模型通過已經(jīng)訓(xùn)練完成的BERT教師模型的軟標(biāo)簽作為監(jiān)督信號,指導(dǎo)BiLSTM學(xué)生模型進行訓(xùn)練,通過最小化蒸餾損失,使BiLSTM學(xué)生模型的性能接近BERT教師模型的性能,從而讓學(xué)生模型具有更好的泛化性能。BiLSTM 通過利用BERT模型的輸出以及BiLSTM模型中反向傳播誤差的對應(yīng)關(guān)系模擬BERT教師模型的知識。
此模型包括兩個步驟:前向計算中,將數(shù)據(jù)通過位置編碼轉(zhuǎn)化為詞向量方式輸入BERT教師模型,將logits輸出的概率分布作為學(xué)生模型的知識;BiLSTM 學(xué)生模型將數(shù)據(jù)通過位置編碼轉(zhuǎn)化為詞向量方式輸入,聯(lián)合軟標(biāo)簽和硬標(biāo)簽對學(xué)生模型進行知識蒸餾。本文采用KL 散度作為蒸餾損失函數(shù),并且BiLSTM學(xué)生模型通過結(jié)合軟標(biāo)簽、硬標(biāo)簽避免學(xué)習(xí)到錯誤的知識。在蒸餾過程中,KL 散度損失函數(shù)和CE 交叉熵分類損失函數(shù)用來計算模型損失。BiLSTM 學(xué)生模型通過反向傳播計算誤差,并通過計算梯度更新模型參數(shù),從而更新BiLSTM學(xué)生模型的參數(shù),Distill-BiLSTM 模型的損失函數(shù)如公式(4)所示。每次蒸餾結(jié)束后,將蒸餾損失和學(xué)生損失進行加權(quán)求和,并將其反饋給BiLSTM 學(xué)生模型,然后利用BiLSTM 學(xué)生模型對文本進行情感分類。
知識蒸餾模型如圖4所示。
3 相關(guān)實驗(Related experiments)
3.1 實驗環(huán)境配置
本實驗在Mat Pool平臺上操作,使用Python3.8語言進行編程,使用Pytorh 1.11.0版本深度學(xué)習(xí)框架搭建模型。實驗使用的GPU 型號為NVIDIA RTX A4000,顯存大小為16 GB,使用CUDA 11.3進行GPU加速。
3.2 實驗數(shù)據(jù)集
使用Microsoft Edge瀏覽器以“疫情”為關(guān)鍵詞爬取微博客戶端中的相關(guān)內(nèi)容,總共采集30 434條數(shù)據(jù),數(shù)據(jù)內(nèi)容包含發(fā)布人名稱、發(fā)布來源、發(fā)布時間、評論文本、點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評論數(shù)。數(shù)據(jù)自身未帶情感傾向標(biāo)注,為確保數(shù)據(jù)的有效性,利用Python自帶的自然語言處理庫SnowNLP進行預(yù)分類。由于自帶的SnowNLP庫是有關(guān)電商評論的文本,對于分析本文與關(guān)鍵詞“疫情”相關(guān)的數(shù)據(jù)會造成一定的偏差,進而影響模型的準(zhǔn)確度。所以,第一步需要訓(xùn)練一個有關(guān)“疫情”的語料庫,將爬取的數(shù)據(jù)隨機抽取1 000條預(yù)先進行人工標(biāo)注,將人工標(biāo)注情感傾向為“正向”和“負(fù)向”分別存入SnowNLP庫的“pos.txt”文件和“neg.txt”文件中,用以擴充樣本的多樣性,將模型運行后的“sentiment.marshal”替換原有的SnowNLP中的“sentiment.marshal”文件。第二步從爬取的數(shù)據(jù)中隨機抽取不同于第一步選取的1 000條數(shù)據(jù)進行人工標(biāo)注(標(biāo)注方式同第一步),用于測試數(shù)據(jù)。通過人工標(biāo)注和機器算法進行對比,使得當(dāng)模型的準(zhǔn)確率達到80%以上時用于數(shù)據(jù)分類。第三步是對爬取的數(shù)據(jù)運用第一步和第二步訓(xùn)練好的SnowNLP進行分類,將分類后的結(jié)果進行人工調(diào)整得到最終數(shù)據(jù)標(biāo)簽,數(shù)據(jù)預(yù)處理過程如圖5所示。
鑒于本文研究的是二分類問題,選定以1表示積極,0表示消極。數(shù)據(jù)樣本量共30 434條,以8∶1∶1的方式將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,即訓(xùn)練數(shù)據(jù)為24 347條,驗證數(shù)據(jù)為3 043條,測試數(shù)據(jù)為3 044條,微博評論數(shù)據(jù)集合如表1所示。
3.3 評價指標(biāo)
選取準(zhǔn)確率(Acc)、精確率(P)、召回率(R)和F1值作為評價指標(biāo)。
其中:TP 表示預(yù)測為正例且實際為正例,TN 表示預(yù)測為負(fù)例且實際為負(fù)例,F(xiàn)P 表示預(yù)測為正例且實際為負(fù)例,F(xiàn)N 表示預(yù)測為負(fù)例且實際為正例,n 表示樣本量。
3.4 參數(shù)設(shè)置
教師模型參數(shù)設(shè)定:采用Bert-base-Chinese作為教師模型進行訓(xùn)練,該模型共有12個Transformer的架構(gòu),隱藏層大小為768,有12個多頭自注意力,共1.1億個參數(shù),模型的優(yōu)化方式采用AdamW,初始學(xué)習(xí)率為3e-5,詞向量的最大長度為256,訓(xùn)練輪數(shù)(epoch)為10 且批量大小為32,丟棄率(Dropout)默認(rèn)為0.1。
學(xué)生模型參數(shù)設(shè)定:采用BiLSTM 作為學(xué)生模型,模型訓(xùn)練時的批量大?。╞atch_size)為32,訓(xùn)練輪數(shù)(epoch)為8,隱藏層維度(num_hiddens)為256,學(xué)習(xí)率(lr)為0.001,優(yōu)化器(optimizer)選用Adam,丟棄率(Dropout)選用0.5。
蒸餾參數(shù)設(shè)定:利用知識蒸餾技術(shù)進行教師-學(xué)生架構(gòu)訓(xùn)練,蒸餾過程涉及蒸餾溫度ρ 和平衡系數(shù)α 兩個參數(shù),其中在蒸餾過程中起主導(dǎo)作用的是α,它表示從教師模型蒸餾知識能力的大小。所以,本文選用不同的平衡系數(shù),以模型結(jié)果的準(zhǔn)確率為衡量標(biāo)準(zhǔn),模型的準(zhǔn)確率越高,表明從教師模型學(xué)習(xí)到的知識越多,蒸餾效果越好。
給定蒸餾溫度ρ=3,α 的取值為0~0.9,當(dāng)α=1時,表明知識蒸餾模型為原始的BiLSTM 模型,所以在此部分不考慮α=1的情況。不同α 值的設(shè)定如表2所示。
為了更直觀地反映出不同α 值對模型的準(zhǔn)確率的影響,將表2中的數(shù)據(jù)繪制成折線圖,如圖6所示。
從圖6中可以觀察到,當(dāng)α=0.2時,模型的準(zhǔn)確率達到80.72%,為所有取值中最大。α=0.2表明,模型的損失中,有80%來自蒸餾損失,有20%來自學(xué)生損失,此時學(xué)生模型從教師模型中學(xué)習(xí)到最多的知識。
4 實驗結(jié)果(Experimental result)
準(zhǔn)確率是指模型對整體數(shù)據(jù)分類結(jié)果的準(zhǔn)確性進行評估,能夠反映分類器對所有類別的分類準(zhǔn)確性;精確率是指分類器預(yù)測為正類的數(shù)據(jù)中,真正為正類的占比,反映的是對正樣本的區(qū)分能力;召回率是指真正為正類別的數(shù)據(jù)中,分類器預(yù)測為正類別的占比,反映的是對正樣本的識別能力;F1是綜合考慮精確率與召回率的數(shù)值,能夠更全面地反映模型的分類性能,其值越接近1,表示分類器的性能越好。
(1)BERT:選用Bert-base-Chinese預(yù)訓(xùn)練模型,參數(shù)為模型原始設(shè)定的參數(shù),將文本轉(zhuǎn)化為詞向量輸入BERT模型進行分類。
(2)BiLSTM:由前向LSTM模型和后向LSTM模型構(gòu)成,模型共兩層,采用全連接層經(jīng)過Softmax進行分類。
(3)GRU:調(diào)用torch 中的GRU,采用全連接層經(jīng)過Softmax進行分類。
(4)LSTM:調(diào)用torch中的LSTM,采用全連接層經(jīng)過Softmax進行分類。
(5)TEXT-CNN:調(diào)用BERT模型詞表經(jīng)過全局最大池化層,最后一層的全連接的Softmax層輸出每個類別的概率。
(6)Distill-BiLSTM:選用BERT作為教師模型、BiLSTM作為學(xué)生模型進行知識蒸餾。
模型參數(shù)量對比如表3所示。
為了避免實驗出現(xiàn)的偶然性,實驗中共測試5次,再取平均值。模型結(jié)果比較如表4所示。
實驗使用本文提出的方法將教師模型的“知識”蒸餾到學(xué)生模型后,將收集到的數(shù)據(jù)進行測試,對比模型的評價結(jié)果。根據(jù)表3和表4,BERT模型的參數(shù)量龐大,約為102 MB,數(shù)據(jù)集的分類準(zhǔn)確率達到了81.76%,在所有模型分類能力中性能最佳。本文提出的Distill-BiLSTM 模型相比大規(guī)模預(yù)訓(xùn)練語言BERT模型,準(zhǔn)確率只差1.04百分點,但是該模型的參數(shù)量約為8 MB,約為BERT模型的1/13;相比于輕量級BiLSTM模型,該模型與BiLSTM 模型的參數(shù)量一致,但相較于BiLSTM模型準(zhǔn)確率、精確率、召回率和F1分別提升了2.20百分點、6.66百分點、7.14百分點和6.89百分點。此外,實驗還比較了LSTM、GRU、TEXT-CNN以及Distill-BiLSTM幾種模型的性能。結(jié)果表明,在同類別輕量級網(wǎng)絡(luò)中,本文提出的Distill-BiLSTM模型的文本分類能力最佳。
不同模型的實驗結(jié)果如圖7所示。從圖7可以觀察到,Distill-BiLSTM模型在同類別輕量級模型中的中文文本情感分類能力最佳。
5 結(jié)論(Conclusion)
本文針對大規(guī)模預(yù)訓(xùn)練語言BERT模型訓(xùn)練時間長、計算資源消耗大、難以部署等問題,提出了一種基于Distill-BiLSTM的中文文本情感分析模型。將BERT模型作為教師模型,使用BiLSTM模型作為學(xué)生模型,并運用知識蒸餾的思想將BERT模型的知識遷移到BiLSTM 模型,從而實現(xiàn)文本情感分類。結(jié)果表明,Distill-BiLSTM 模型與BERT模型的分類能力相當(dāng),驗證了本文提出方法的合理性及有效性。本文提出的模型旨在既能提升輕量級淺層BiLSTM 模型的中文文本情感分類效果,又能降低BERT模型的復(fù)雜度和計算開銷。在未來的研究中,可以嘗試在教師模型中加入領(lǐng)域知識以進一步提高教師模型的分類能力,從而提高學(xué)生模型的分類精度。
參考文獻(References)
[1] 王春東,張卉,莫秀良,等. 微博情感分析綜述[J]. 計算機工程與科學(xué),2022,44(1):165-175.
[2] 鄧君,孫紹丹,王阮,等. 基于Word2Vec和SVM的微博輿情情感演化分析[J]. 情報理論與實踐,2020,43(8):112-119.
[3] BEHERA R K,JENA M,RATH S K,et al. Co-LSTM:Convolutional LSTM model for sentiment analysis in socialbig data[J]. Information processing amp; management,2021,58(1):102435.
[4] BASIRI M E,NEMATI S,ABDAR M,et al. ABCDM:anattention-based bidirectional CNN-RNN deep model forsentiment analysis[J]. Future generation computer systems,2021,115:279-294.
[5] DEVLIN J,CHANG M W,LEE K,et al. Bert:Pre-trainingof deep bidirectional transformers for language understanding[C]∥BURSTEIN J,DORAN C,SOLORIO T. Proceedingsof the 2019 Conference of the North AmericanChapter of the Association for Computational Linguistics:Human Language Technologies,NAACL-HLT 2019. MinneapolisMN USA:ACL,2019:4171-4186.
[6] 馬長林,王濤. 基于相關(guān)主題模型和多層知識表示的文本情感分析[J]. 鄭州大學(xué)學(xué)報(理學(xué)版),2021,53(4):30-35.
[7] ALAYBA A M,PALADE V. Leveraging Arabic sentimentclassification using an enhanced CNN-LSTM approach andeffective Arabic text preparation[J]. Journal of King Sauduniversity-computer and information sciences,2022,34(10):9710-9722.
[8] 劉繼,顧鳳云. 基于BERT與BiLSTM 混合方法的網(wǎng)絡(luò)輿情非平衡文本情感分析[J]. 情報雜志,2022,41(4):104-110.
[9] HINTON G E,VINYALS O,DEAN J. Distilling theknowledge in a neural network[J]. Computer science,2015,14(7):38-39.
[10] FURLANELLO T,LIPTON Z C,TSCHANNEN M,et al. Born again neural networks[EB/OL]. (2018-06-29)[2023-03-25]. https:∥arxiv.org/pdf/1805.04770.pdf.
[11] YUAN L,TAY F E H,LI G,et al. Revisiting knowledgedistillation via label smoothing regularization[EB/OL].(2021-03-04)[2023-03-27]. https:∥arxiv.org/pdf/1909.11723.pdf.
[12] ZHAO A,YU Y. Knowledge-enabled BERT for aspectbasedsentiment analysis[J]. Knowledge-based systems,2021,227(5):107220.
[13] DABRE R,SHROTRIYA H,KUNCHUKUTTAN A,et al. IndicBART:A pre-trained model for indic naturallanguage generation[EB/OL]. (2022-10-27)[2023-03-29]. https:∥arxiv.org/pdf/2109.02903.pdf.
作者簡介:
李錦輝(1999-),男,碩士生。研究領(lǐng)域:數(shù)據(jù)智能分析,知識蒸餾,網(wǎng)絡(luò)輿情。
劉 繼(1974-),男,博士,教授。研究領(lǐng)域:數(shù)據(jù)智能分析,網(wǎng)絡(luò)輿情。
基金項目:國家自然社科基金資助項目(大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情智能治理:共同體構(gòu)建、協(xié)同演進與引導(dǎo)機制,編號:72164034)