徐慧超 徐海文 劉麗娜
摘要:隨著Transformer模型的改進(jìn)與發(fā)展,模型的參數(shù)數(shù)量顯著增加,使得Transformer模型及其衍生模型需要消耗大量的計(jì)算資源和存儲資源。文章提出一種基于知識蒸餾的新的Transformer模型輕量化方法:使用預(yù)訓(xùn)練好的BERT模型(Bidirectional Encoder Representation from Transformers) 作為教師模型,設(shè)計(jì)學(xué)生模型卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NeuralNetwork,CNN) ,加入注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN) 和全連接神經(jīng)網(wǎng)絡(luò)(Full Connect Neu?ral Network,DNN) ,并采用logits和matching logits兩種蒸餾方法,實(shí)現(xiàn)模型的輕量化。實(shí)驗(yàn)結(jié)果表明,當(dāng)將BERT模型蒸餾給CNN時(shí),參數(shù)數(shù)量減少93.46%,運(yùn)行速度提升30余倍,在小規(guī)模數(shù)據(jù)集上準(zhǔn)確率僅下降0.70%;當(dāng)將BERT蒸餾給加入注意力機(jī)制的RNN時(shí),參數(shù)數(shù)量減少了93.38%,速度提升100余倍,模型準(zhǔn)確率輕微下降;當(dāng)將DNN作為學(xué)生模型時(shí),參數(shù)數(shù)量減少了93.77%,速度提升了200余倍,在大規(guī)模數(shù)據(jù)集上,準(zhǔn)確率僅下降0.02%。
關(guān)鍵詞:深度學(xué)習(xí);Transformer模型;注意力機(jī)制;輕量化方法;知識蒸餾
中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)04-0025-04