亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT預(yù)訓(xùn)練模型壓縮技術(shù)分析

        2020-09-16 13:29:19李進(jìn)
        科學(xué)與信息化 2020年14期

        李進(jìn)

        摘要:基于語言模型的預(yù)訓(xùn)練已經(jīng)在很多自然語言處理任務(wù)中取得了顯著的性能,然而由于起巨大的模型容量和復(fù)雜的計(jì)算,往往需要消耗大量的存儲(chǔ)資源,在資源受限的設(shè)備上難以發(fā)揮其性能優(yōu)勢(shì),本文對(duì)當(dāng)前被廣泛應(yīng)用的BERT壓縮技術(shù)從效率,性能以及壓縮強(qiáng)度等多個(gè)角度進(jìn)行了分析。

        關(guān)鍵詞:預(yù)訓(xùn)練;模型壓縮;BERT

        1預(yù)訓(xùn)練模型BERT

        預(yù)訓(xùn)練模型BERT采用Transformer模型中提出的編碼層結(jié)構(gòu),應(yīng)用了多層堆疊編碼層,每個(gè)編碼層由自注意力子層及前饋神經(jīng)網(wǎng)絡(luò)子層組成,并在每個(gè)子層后應(yīng)用了殘差連接和層正則化操作,以多任務(wù)學(xué)習(xí)作為訓(xùn)練目標(biāo)。任務(wù)一是掩碼預(yù)言模型,即隨機(jī)掩蓋語句子中15%的詞,并通過模型對(duì)掩蓋掉的詞進(jìn)行預(yù)測(cè),值得注意的是,在BERT中并不是將所選擇15%的詞全部使用MASK標(biāo)簽進(jìn)行掩蓋,而是將其劃分為三份,其中80%用MASK標(biāo)簽掩蓋,10%不做任何操作,10%隨機(jī)替換為其他詞。任務(wù)二是預(yù)測(cè)兩個(gè)句子之間的關(guān)系,即句子B是否為句子A的下文,以此來捕捉句子之間的關(guān)系,BERT模型因?yàn)槠鋸?qiáng)大的性能和泛化能力在多項(xiàng)NLP任務(wù)中取得了最佳性能,但是由于其龐大的模型容量以及對(duì)存儲(chǔ)的巨大消耗,也衍生了很多針對(duì)BERT的壓縮技術(shù)。

        2基于知識(shí)精煉技術(shù)的BERT壓縮

        知識(shí)精煉技術(shù)是一種常用的模型壓縮手段,其主要的方式主要使子模型去學(xué)習(xí)教師模型的預(yù)測(cè)結(jié)果,從教師模型預(yù)測(cè)得到的更軟的分布中去學(xué)習(xí)教師模型中的知識(shí),從而使子模型能夠達(dá)到模擬教師模型行為的目的。在BERT模型中同樣也可以應(yīng)用類似的技術(shù)進(jìn)行模型的壓縮。在DistilBERT壓縮中,其壓縮對(duì)象是減少模型的神經(jīng)網(wǎng)絡(luò)層數(shù),構(gòu)建層數(shù)更少的子模型,通過使用知識(shí)精煉手段,使子模型學(xué)習(xí)教師模型的輸出層的預(yù)測(cè)。同時(shí)設(shè)計(jì)了余弦相似度損失,來對(duì)其子模型和教師模型的隱藏層狀態(tài),即如果將12層的教師模型壓縮為3層,則另子模型的第1,2,3層分別的輸出分別使用余弦相似度來計(jì)算,其與教師模型第4,8,12層之間的差異。最終子模型的損失函數(shù)包括三項(xiàng),分別是,BERT模型訓(xùn)練目標(biāo)的損失,知識(shí)精煉的損失,以及余弦相似度計(jì)算得到的損失項(xiàng)。同時(shí)在構(gòu)建子模型初始化時(shí),放棄了隨即初始化的手段,通過從教師模型中抽取子模型規(guī)模大小的神經(jīng)網(wǎng)絡(luò)層數(shù)來構(gòu)建子模型,成功地將模型容量壓縮了40%,并維持了97%的性能,同時(shí)實(shí)現(xiàn)了60%的加速。

        3Tiny-BERT壓縮技術(shù)”

        Tiny-BERT壓縮技術(shù)同樣是基于知識(shí)精煉技術(shù)對(duì)BERT模型進(jìn)行壓縮,相比于普通的知識(shí)精煉技術(shù)只在模型的輸出層進(jìn)行約束,Tiny-BERT壓縮針對(duì)構(gòu)成BERT模型的每一層的不同輸出位置都進(jìn)行了約束。如果以學(xué)習(xí)類比,DistilBERT便是直接學(xué)習(xí)了正確答案和部分的中間過程,而Tiny-BERT則是對(duì)中間過程進(jìn)行了更詳細(xì)的拆分,進(jìn)行更細(xì)致的學(xué)習(xí)。在預(yù)訓(xùn)練階段,Tiny-BERT講教師模型中的層分為不同的神經(jīng)網(wǎng)絡(luò)層組,將對(duì)應(yīng)組的知識(shí)精煉于子模型的一層之上,完成多層對(duì)一層的映射。例如,將12NBERT模型壓縮為4層,則將教師模型劃分為3組,令子模型中對(duì)應(yīng)的層學(xué)習(xí)教師模型每組中最后一層的行為。同時(shí)針對(duì)每層網(wǎng)絡(luò)中不同位置的輸出設(shè)計(jì)了不同的知識(shí)遷移方式,例如對(duì)于層輸出和自注意力機(jī)制得到的注意力分布,設(shè)計(jì)了均方誤差損失,來衡量子網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的差異。對(duì)于子模型和教師模型的輸入層,同樣應(yīng)用了均方誤差損失,對(duì)輸出層,采用了與DistilBERT同樣的方式,將各個(gè)位置上的損失累加于損失函數(shù)之上作為正則化項(xiàng),使子模型充分學(xué)習(xí)到教師模型的表現(xiàn)行為。與DistilBERT中復(fù)用了教師模型中的參數(shù)不同,Tiny-BERT壓縮中子模型的參數(shù)采用隨機(jī)初始化的方式,因此可以選擇更小的隱藏層維度,同時(shí)在層的維度和隱藏層的維度對(duì)教師模型進(jìn)行壓縮,壓縮比率更大。此外對(duì)于下游任務(wù)的微調(diào)過程,Tiny-BERT壓縮采用了兩階段學(xué)習(xí)框架,即在對(duì)特定的任務(wù)進(jìn)行微調(diào)時(shí),同樣使用與預(yù)訓(xùn)練階段同樣的知識(shí)精煉方式,以便于子模型能夠充分捕捉到教師模型中的普遍的域內(nèi)知識(shí)和特定任務(wù)相關(guān)的知識(shí)。最終實(shí)現(xiàn)了只使用133%的參數(shù)量,便達(dá)到了教師模型97%的性能表現(xiàn)。

        4對(duì)比分析

        目前階段,針對(duì)BERT模型的壓縮主要分為兩個(gè)方面,即對(duì)模型層數(shù)的壓縮和模型的隱藏維度的壓縮。常用的壓縮手段則包括模型的量化,剪枝和知識(shí)精煉。其中知識(shí)精煉因?yàn)槠湫阅軆?yōu)異,操作簡(jiǎn)單成為了主要的研究方向。相比于傳統(tǒng)知識(shí)精煉對(duì)輸出層的約束,對(duì)于BERT模型這種復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),只對(duì)模型的輸出層進(jìn)行約束并不能使子模型充分學(xué)習(xí)到教師模型的性能。因此往往需要設(shè)計(jì)額外的損失函數(shù)來進(jìn)行約束。但是額外的損失計(jì)算也帶來了額外的計(jì)算量,往往需要計(jì)算計(jì)算更多的中間信息的約束狀態(tài)。因此在實(shí)際應(yīng)用過程中,可以根據(jù)計(jì)算成本合理的選擇額外的損失數(shù)量,不同的衡量向量之間差異的指標(biāo)。此外,如果不考慮維度的壓縮,可以考慮復(fù)用教師模型的參數(shù)來構(gòu)建子模型。如果需要縮減隱藏層的維度,則需要重新初始化指定維度的模型,或利用一些特殊的手段從教師模型中得到對(duì)應(yīng)維度的參數(shù)。

        老太婆性杂交视频| 中文字幕一区韩国三级| 国产亚洲精品综合99久久| 免费蜜桃视频在线观看| 风韵丰满熟妇啪啪区99杏| 99视频偷拍视频一区二区三区| 精华国产一区二区三区| av无码国产精品色午夜| 中文无码久久精品| 欧美成人在线A免费观看| 日韩精品一区二区三区在线观看的| 久久伊人中文字幕有码久久国产 | 亚洲乱码中文字幕一线区| 久久精品成人一区二区三区| 国产精品亚洲欧美大片在线看 | 亚洲一区二区在线观看免费视频 | 亚洲色图在线视频观看| 久久一区二区国产精品| 中文字幕日韩人妻在线视频| 国产亚洲精品aaaaaaa片| 精品人妻丰满久久久a| 精品国产3p一区二区三区| 中文字幕一区二区中文| 中文字幕乱码一区av久久不卡| 亚洲欧美综合区自拍另类| 日韩插啊免费视频在线观看| 91亚洲人成手机在线观看| 中文字幕一区二区区免| 中文字幕亚洲乱码熟女1区| 在线成人爽a毛片免费软件| 国产精品一区二区久久| 久草国产手机视频在线观看| 日本视频在线观看一区二区| 含紧一点h边做边走动免费视频| www国产亚洲精品久久网站| 在线偷窥制服另类| 久久久精品国产av麻豆樱花| 日韩视频在线观看| 福利视频一二三在线观看| 国产啪精品视频网站免| 大陆少妇一区二区三区|