亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種針對 BERT 模型的多教師蒸餾方案

2024-05-17 00:00:00石佳來郭衛(wèi)斌

華東理工大學(xué)學(xué)報(自然科學(xué)版) 2024年2期

摘要：在傳統(tǒng)的知識蒸餾中，若教師、學(xué)生模型的參數(shù)規(guī)模差距過大，則會出現(xiàn)學(xué)生模型無法學(xué)習(xí)較大教師模型的負(fù)面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型，深入研究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點，提出了一種新型的來自 Transformers 的雙向編碼器表示（Bidrectional Enoceder Respresentations from Transformers，BERT）模型的多教師蒸餾方案，即使用 BERT、魯棒優(yōu)化的 BERT 方法（ Robustly optimized BERT approach， RoBERTa）、語言理解的廣義自回歸預(yù)訓(xùn)練模型（XLNET）等多個擁有 BERT 結(jié)構(gòu)的教師模型對其進(jìn)行蒸餾，同時修改了對教師模型中間層知識表征的蒸餾方案，加入了對 Transformer 層的蒸餾。該蒸餾方案在通用語言理解評估（General Language Understanding Evaluation，GLUE）中的多個數(shù)據(jù)集上的實驗結(jié)果表明，最終蒸餾實驗的結(jié)果較為理想，可以保留教師模型 95.1% 的準(zhǔn)確率。

關(guān)鍵詞：BERT；知識蒸餾；多教師蒸餾；Transformer 蒸餾；自然語言理解

中圖分類號：TP391.1

文獻(xiàn)標(biāo)志碼：A

Devlin 等[1] 在 2018 年提出的 BERT（Bidirectional Enoceder Respresentations from Transformers）模型在自然語言處理（Nature Language Processing， NLP）方面的研究成果顯著，堪稱 NLP 研究的里程碑。此后學(xué)者們不斷提出對 BERT 模型進(jìn)行改進(jìn)，包括引入傳統(tǒng)單向語言模型（LM）方式和 seq2seq 訓(xùn)練的單向語言模型（UNILM） [2]、將 BERT 中 Mask 隨機 token 改進(jìn)為 Mask 隨機實體或詞組的 Ernie-baidu 模型[3] 等，此類基于 BERT 的模型均在自然語言處理方面發(fā)揮了不錯的表現(xiàn)。但是，這些模型在具有極強的運算能力的前提下，參數(shù)規(guī)模龐大，推理周期長，其參數(shù) 數(shù)目往往超過 1000 億。如何在存儲空間有限的場合（比如在移動終端）中，有效地實現(xiàn)這種預(yù)先學(xué)習(xí) 的方法，并使之具有一定的計算能力，成為學(xué)者們一個新的研究方向。許多學(xué)者提出了不少有效的方法，其中，最受歡迎的方法就是“知識蒸餾”。該方法一般由大型的教師模型和小型的學(xué)生模型組成，在蒸餾過程中，學(xué)生不僅要從文本樣本的硬標(biāo)簽中學(xué) 習(xí)，還要從教師模型中學(xué)習(xí)。最初，基于 BERT 模式的蒸餾主要是以一位老師和一位學(xué)生的方式來進(jìn) 行，近年來，眾多學(xué)者也進(jìn)行了大量的多教師蒸餾策略。

在多教師蒸餾策略中，由不同的教師模型為學(xué) 生模型提供不同的“見解” [4] ，學(xué)生模型可以從不同的角色模型中獲取不同的知識表征以獲得更佳的表現(xiàn)。但是傳統(tǒng)的多教師蒸餾中，僅使用教師模型最后一層的輸出進(jìn)行蒸餾，若教師模型過于復(fù)雜，學(xué)生模型則有可能會因為無法捕捉教師模型中更細(xì)粒度的知識而無法接近教師模型[5] ，甚至?xí)霈F(xiàn)學(xué)生模型在數(shù)據(jù)的某些部分過度擬合的問題。為了解決以上問題，在蒸餾時提取教師模型中間層的知識，除了教師預(yù)測層外，還讓學(xué)生模型從教師模型中間的 Transformer 層中學(xué)習(xí)知識，整體的蒸餾函數(shù)包括了預(yù)測層的蒸餾。

本文選用 BERT[1]、RoBERT[6]、XLNET[7] 3 個教師模型，以及 3 層 BERT 的學(xué)生模型的多教師蒸餾模型，并修改了蒸餾損失函數(shù)，新的蒸餾損失函數(shù)包括對教師模型的預(yù)測層、隱藏層、注意力層以及嵌入層的蒸餾。在 GLUE[8] 任務(wù)的部分?jǐn)?shù)據(jù)集上與其他常見的蒸餾方案進(jìn)行了對比實驗，本文方案在結(jié)果上得到有效的提升。

1""" 知識蒸餾相關(guān)工作

1.1 知識蒸餾方案

Hinton 等[9] 認(rèn)為，在預(yù)訓(xùn)練階段大量的參數(shù)可以幫助模型更好地獲取樣本的知識表征，但是在預(yù) 測時則不需要過多的參數(shù)。為了減少模型的計算成本，本文提出了基于教師-學(xué)生架構(gòu)的知識蒸餾模型，通過知識蒸餾的方法訓(xùn)練得到性能相近、結(jié)構(gòu)緊湊的學(xué)生模型。在眾多深度學(xué)習(xí)領(lǐng)域中，知識蒸餾都可以得到不錯的效果。

Hinton 等的模型蒸餾僅對教師模型的預(yù)測層輸出進(jìn)行蒸餾，工程師們則關(guān)心教師模型的輸入和輸出，因此教師模型很可能會出現(xiàn)過擬合的負(fù)面情況。為了解決這個問題，Sun 等[10] 提出了一種“耐心蒸餾”（Patient Knowledge Distillation， PKD）策略，旨在使學(xué)生模型除了從教師模型最后一層學(xué)習(xí)外，還讓其學(xué)習(xí)教師模型的中間層，從而使教師模型中間層的知識表征能較好地轉(zhuǎn)移到學(xué)生模型中。然而 PKD 對中間層的蒸餾過于簡單，忽略了每一層 Transformer 內(nèi)部的知識內(nèi)容。本文在此基礎(chǔ)上對每一層 Transformer 層的隱藏態(tài)和注意力矩陣進(jìn)行了蒸餾。

1.2 多教師蒸餾方案

在常見的模型蒸餾方法中，多采用單教師-單學(xué) 生的架構(gòu)，然而 Cho 等[11] 的研究發(fā)現(xiàn)，在知識蒸餾過程中并不是性能越卓越的教師模型就一定可以蒸餾出更好的學(xué)生模型，這與我們的直觀感受相悖。本文采用多個基于 BERT 的教師模型，搭建一套多教師蒸餾模型，為學(xué)生模型尋找更好的蒸餾架構(gòu)。

Fukuda 等[12] 提出的多教師蒸餾方案主張在蒸餾過程中直接使用多個教師，并提出了兩種多教師蒸餾的方案：（1）通過在小批量級別切換教師模型標(biāo) 簽來訓(xùn)練學(xué)生模型；（2）學(xué)生模型根據(jù)來自不同教師分布的多個信息流進(jìn)行訓(xùn)練。Liu 等[13] 提出將多個教師的軟標(biāo)簽與可學(xué)習(xí)權(quán)重相結(jié)合，提取數(shù)據(jù)示例之間的結(jié)構(gòu)知識，并傳遞中間層表示，使每個教師負(fù) 責(zé)學(xué)生網(wǎng)絡(luò)中的特定層。Yang 等[14] 提出了一種多教師兩階段蒸餾的方法，針對機器問答任務(wù)，讓學(xué)生模型在預(yù)訓(xùn)練階段與微調(diào)階段均進(jìn)行蒸餾訓(xùn)練。

多教師學(xué)習(xí)是通過利用多個教師模型提高學(xué)生模型在單個任務(wù)上的性能。多教師蒸餾方法核心的設(shè)計在于多個教師軟標(biāo)簽、中間層知識的組合策略。本文在針對 BERT 的多教師蒸餾架構(gòu)中，對每一個教師模型的蒸餾都新增了針對 Transformer 的蒸餾，可以幫助學(xué)生模型獲取所有教師模型中更細(xì)粒度的知識，為學(xué)生模型提供更豐富的“見解”，以獲得更佳的表現(xiàn)。

2""" 多教師蒸餾模型

多個教師模型蒸餾到單個學(xué)生模型可以傳遞多種知識，多教師蒸餾的優(yōu)勢在于每個教師模型的輸出都不同，學(xué)生模型可以學(xué)習(xí)到不同教師模型之間的差異，提升預(yù)測的泛化能力[15]。對于傳統(tǒng)的多教師蒸餾工作，一般將對教師模型最后一層平均之后的結(jié)果作為指導(dǎo)學(xué)生訓(xùn)練的信息，即使學(xué)生模型與教師模型軟標(biāo)簽緊密匹配，其內(nèi)部表現(xiàn)也可能有很大不同，這種內(nèi)部不匹配可能會使學(xué)生模型泛化能力的提升變得有限[16] ，同時還伴隨著過擬合的風(fēng)險[10]。 BERT 模型是由 Transformer 構(gòu)建而成，它可以通過自注意力機制獲取輸入 token 之間的長期依賴關(guān)系，在多教師蒸餾中新增對每個教師模型的 Transformer 的蒸餾，在這種情況下，學(xué)生模型的中間層可以保留教師模型中間層的語言行為。

本文的多教師蒸餾模型由多個經(jīng)過預(yù)訓(xùn)練的教師模型同時對單個學(xué)生模型進(jìn)行蒸餾，整體架構(gòu)如圖 1 所示。對于擁有 BERT 結(jié)構(gòu)的教師模型與學(xué)生模型來說，嵌入層和預(yù)測層均可以直接采用一對一的層映射方式，每個 BERT 模型都擁有多個 Transformer 中間層，而通常來說教師模型的中間層數(shù)量是學(xué)生模型的數(shù)倍。Clark 等[17] 的研究結(jié)果表明，BERT 構(gòu) 建的語言知識從模型網(wǎng)絡(luò)的底部到頂部逐漸變得復(fù) 雜，由于模型建立在底部表示之上，因此本文以自下而上的方式逐步提取與內(nèi)部表示匹配的知識。對于多層的 Transformer，本文將模仿 BERT-PKD 的跨層指定映射方式進(jìn)行跨層映射，如圖 2 所示。文獻(xiàn) [18-19] 的研究表明，Transformer 中的注意力層包括了豐富的語法、指代等文本知識。李宜儒等[20] 的研究表明，對師生間的注意力進(jìn)行蒸餾有利于提高學(xué)生模型的準(zhǔn)確率。因此 Transformer 層的蒸餾又是基于注意力和隱藏狀態(tài)的蒸餾，每個學(xué)生注意力層/隱藏層可以從指定的教師注意力層/隱藏層中學(xué)習(xí)知識。整體來說本實驗的蒸餾損失函數(shù)包括了嵌入層蒸餾損失函數(shù)、Transformer層的蒸餾損失函數(shù)和預(yù)測層蒸餾損失函數(shù)，其中 Transformer 層的蒸餾又包括了隱藏層的蒸餾以及對注意力層的蒸餾。

2.1 預(yù)測層損失函數(shù)

學(xué)生模型和教師模型都會在每個樣本上產(chǎn)生一個關(guān)于類別標(biāo)簽的分布信息，軟標(biāo)簽損失函數(shù)的計算就是計算這兩個分布之間的相似性。假設(shè)使用 K 個教師模型進(jìn)行實驗，則需要計算學(xué)生模型預(yù)測層輸出和 K 個教師模型預(yù)測輸出的交叉熵（CE），預(yù)測層損失函數(shù)（Lpredict "）如式（1）所示。

其中：z T k 表示第 k 個教師模型預(yù)測的 logits 值； z表示學(xué)生模型預(yù)測的 logits 值；使用 softmax 函數(shù)將 logits 值 zi 映射到概率向量 pi 中，這樣的映射可以使每個映射的值和為 1；表示蒸餾時的溫度參數(shù)，溫度越高可以使概率分布曲線越“平滑”，即淡化各個標(biāo) 簽之間預(yù)測值的差異。

2.2 隱藏層損失函數(shù)

針對 Transformer 層的蒸餾包括隱藏層（FFN 之后）和注意力層的蒸餾[21]。學(xué)生和教師模型 Transformer 層之間的映射將模仿耐心蒸餾跨層映射的方式進(jìn)行映射。假設(shè)教師模型擁有 M 層 Transformer，學(xué)生模型擁有 N 層 Transformer，那么需要從教師模型中選擇 N 層 Transformer 層進(jìn)行蒸餾，則學(xué)生模型將會從教師模型的每 l 層中學(xué)習(xí)。例如對于存在的 3 個教師模型，且每個教師模型均擁有 11 層 Transformer 中間層（除了最后一層 Transformer 層直接與預(yù)測層相連接，不計作中間層），學(xué) 生模型擁有 3 層 Transformer 中間層，指定學(xué)生模型第 1 層從每個教師模型第 4 層中學(xué)習(xí)、學(xué)生模型第 2 層從每個教師模型第 8 層中學(xué)習(xí)、學(xué)生模型第 3 層從每個教師模型第 12 層中學(xué)習(xí)。

多教師蒸餾中 Transformer 層的跨層映射策略如圖3 所示。學(xué)生模型與第k 個教師模型中間Transformer 層的映射函數(shù)記為，表示第 k 個教師模型的第 n 層與學(xué)生模型的第 m 層相互映射。除了 Transfor[1]mer 層以外，將 0 設(shè)置為嵌入層的索引，將 M+1 和 N+1 分別設(shè)置為教師模型、學(xué)生模型預(yù)測層的索引，相應(yīng)的層映射定義為0=g，（O）和N+l= g4（M+ l）。

學(xué)生模型第ü層的隱藏態(tài)（H）可以表示為H∈ Rd，其中標(biāo)量d表示模型的隱藏大小，1是輸入文本的長度。第k個教師模型的第j層的隱藏態(tài)（H ）可以表示為eRId，其中標(biāo)量d表示第k 個教師模型的隱藏態(tài)大小。使用代表一個線性變換參數(shù)，將學(xué)生的隱藏態(tài)轉(zhuǎn)換為與教師網(wǎng)絡(luò)狀態(tài)相同的空間。那么學(xué)生模型第 i 層隱藏層到第 k 個教師的第 j 層隱藏層之間的距離（）可以用式（2）表示，其中均方誤差（MSE）表示教師模型和學(xué) 生模型詞嵌入之間的“距離”，并通過最小化它來提升學(xué)生模型性能。

3""" 實驗設(shè)置與結(jié)果分析

3.1 實驗設(shè)置

GLUE[8] 是一個針對自然語言理解的多任務(wù)的基準(zhǔn)和分析平臺，由紐約大學(xué)、華盛頓大學(xué)等機構(gòu)所創(chuàng) 建，近年來流行的 NLP 模型例如 BERT[1]、RoBERTa[6]、 XLNET[7] 等都會在此基準(zhǔn)上進(jìn)行測試，同時 GLUE 也是知識蒸餾模型 BERT-PKD[8]、DistillBERT[23] 等所選用的實驗數(shù)據(jù)集。本實驗數(shù)據(jù)集選用 GLUE[8] 中的部分公開數(shù)據(jù)集 QNLI、MNLI和 SST-2 作為本實驗的數(shù)據(jù)集，在上述數(shù)據(jù)集中對模型的處理效果進(jìn) 行了檢驗。在 QNLI 數(shù)據(jù)集中，要求模型要判定問題與語句之間的包含關(guān)系，其結(jié)論有包含與不包含兩種情況，是二分類問題。QNLI 包含 104 743 個培訓(xùn) 集合、5 463 個發(fā)展集合和 5 461 個測試集合。在 SST-2 中，模型要判定輸入的語篇包含了積極的情緒還是消極的情緒，這也是一種二分類問題，包含了訓(xùn) 練集 67 350 個，開發(fā)集 873 個，驗證集 821 個。在 MNLI 中，模型被輸入一個句子對，包括了前提語句與假設(shè)語句，該模型需要基于輸入內(nèi)容，判斷二者的關(guān)系是屬于假定、假定沖突或是中立中的哪一種，這屬于三分類問題。由于 MNLI 是一種包含多種類型的文字，因此它被分成了 matched 和 mismatched 兩種類型，其中 matched 表示訓(xùn)練和測試集具有相同的資料源，而 mismatched 是不相容的；本論文選取的資料集包含 392 702 個培訓(xùn)集、9 815 個開發(fā)集 dev-matched 和 9 796 個 test-matched。

訓(xùn)練時如何確定學(xué)習(xí)率等超參數(shù)十分關(guān)鍵，訓(xùn) 練開始時使用較大的學(xué)習(xí)率可以使模型更快地接近局部或全局最優(yōu)解，但是在訓(xùn)練后期會有較大波動，甚至出現(xiàn)損失函數(shù)的值圍繞最小值徘徊，難以達(dá)到最優(yōu)的情況。本實驗使用網(wǎng)格搜索法調(diào)整超參數(shù)，由于存在許多超參數(shù)組合，因此首先對學(xué)習(xí)率和式（9）中的權(quán)重 α 進(jìn)行網(wǎng)格搜索，將學(xué)習(xí)率在{ }中調(diào)整，式（9）中 α 的取值在{0.1， 0.2， 0.5}之間調(diào)整。固定學(xué)習(xí)率和式（9）中 α 這兩個超參數(shù)的值，再對其他超參數(shù)的值進(jìn)行調(diào)整，將蒸餾溫度取值在{1， 5， 10}之間調(diào)整。按照顯存容量將批量樣本容量 bath size 設(shè)置為 32，最多對數(shù)據(jù)進(jìn)行 4 輪訓(xùn)練。

3.2 多教師蒸餾結(jié)果

為了方便蒸餾時進(jìn) 行跨層映射，選用了 BERT12、RoBERTa12、XLNet12 作為教師模型，選用的教師模型都是 12 層基于 BERT 的預(yù)訓(xùn)練好的模型，教師模型選擇的理由如下：（1）所選的每個教師模型均 12 層，由 Transformer 構(gòu)建而成，結(jié)構(gòu)相似。（2）所選的每個教師模型中包含的參數(shù)數(shù)量在 1.1 億左右，教師模型的大小相似。在每個數(shù)據(jù)集中，均使用不同的隨機種子微調(diào) 3 個教師模型。各個教師模型在每個數(shù)據(jù)集上的表現(xiàn)如表 1 所示，各個數(shù)據(jù)集中均用推斷準(zhǔn)確率表示結(jié)果。

選取的學(xué)生模型 BERT3 是以選取的 BERT12 模型的前三層的參數(shù)作為初始值，學(xué)生模型擁有 0.45 億參數(shù)，再用前文中基于 Transformer 的知識蒸餾框架對學(xué)生模型進(jìn)行蒸餾，以驗證教師模型的數(shù) 量與蒸餾的關(guān)系。

表 1 結(jié)果顯示教師模型在 3 個數(shù)據(jù)集中的平均推斷準(zhǔn)確率為 89.4%，而學(xué)生模型在 3 個相同數(shù)據(jù)集中的平均推斷準(zhǔn)確率為 85.0%（表 2）。學(xué)生模型的推斷準(zhǔn)確率在保留了各個教師模型平均推斷準(zhǔn)確率（95.1%）的同時，參數(shù)規(guī)模只占用了教師模型平均參數(shù)規(guī)模的 41.5%。同時也可以看到不同教師模型所 “擅長”的領(lǐng)域也不同，RoBERTa12 教師模型是在 BERT 模型的基礎(chǔ)上采用更大的預(yù)訓(xùn)練語料進(jìn)行訓(xùn)練而得到的模型，因此在各個數(shù)據(jù)集上的表現(xiàn)均優(yōu) 于 BERT 模型，在同屬于二分任務(wù)的 QNLI、SST-2 數(shù)據(jù) 集中的表現(xiàn)在所有教師模型中最優(yōu)。而 XLNET12 教師模型使用了 Transformer-XL 中的段循環(huán) （Segment" Recurrence" Mechanism）、相對位置編碼（Relative Positional Encoding）進(jìn)行優(yōu)化，在長文本問題中可以有更好的表現(xiàn)，在屬于三分任務(wù)的 MNLI 數(shù) 據(jù)集中表現(xiàn)最優(yōu)。

3.3 不同蒸餾模型對比

為了驗證本文多教師蒸餾方案的有效性，本實驗還選取了 Sun 等[10] 提出的 BERT-PKD、Sanh 等[23] 提出的 DistilBERT 作為單教師模型的 baseline 模型進(jìn)行了對比，其中 BERT-PKD 對比了選用跨層映射的 BERT-PKD（skip）版與選用尾層映射的 BERT[1]PKD（last）兩個版本。所有的 baseline 模型均采用 BERT12 模型作為教師模型，并采用 BERT3 模型作為學(xué)生模型，在 QNLI、SST-2、MNLI 數(shù)據(jù)集中進(jìn)行實驗，不同蒸餾模型的學(xué)生模型性能對比結(jié)果如表 2 所示。可以看出本文的蒸餾方案（BERT12+ RoBERTa12+ XLNET12）在選取的 3 個數(shù)據(jù)集中均優(yōu)于常見的對比蒸餾模型。此外還可以看出，在蒸餾時，教師模型在某一特定任務(wù)中的優(yōu)秀性能，可以很好地傳遞給學(xué) 生模型。例如在 SST-2 的情感分類任務(wù)中，本文實驗方案的推斷準(zhǔn)確率明顯高于其他的 baseline 模型，比 BERT-PKD（last）的推斷準(zhǔn)確率提高 5.4%，有了非常大的提升，是因為本文提供的多教師模型可以讓學(xué) 生模型在知識獲取上就獲得更大的優(yōu)勢。

3.4 相同教師模型、不同蒸餾損失函數(shù)的模型對比為了驗證蒸餾時對 Transformer 層中的知識進(jìn)行提取這一策略的有效性，本文同時還設(shè)立了多教師蒸餾 baseline 模型，分別選取了只從教師預(yù)測層中學(xué) 習(xí) 知識的 OKD（Original" Knowledge" Distillation）和 PKD。以上 baseline 模型與本文模型一樣，同樣選取 BERT12、RoBERTa12、XLNET12 作為教師模型，將本文采用的從 Transformer 層中提取知識的蒸餾方案記作 TKD（Transformer Knowledge Distillation），實驗結(jié) 果如表 3 所示。

從橫向進(jìn)行比較，可以看到在固定教師模型的數(shù)量，以及類型相同的情況下，對 Transformer 層的知識蒸餾可以在一定程度上提升其對學(xué)生模型的性能。例如在共同選用 BERT12、RoBERTa12、XLNET12 3 個教師模型的情況下，OKD 模型在本實驗所選的任務(wù)中的性能均不如 TKD 模型的性能好，差別最大的是在 QNLI 數(shù)據(jù)集中，二者推斷準(zhǔn)確率最高相差 2.6%。

但是，這種現(xiàn)象在更加復(fù)雜的任務(wù)中并不明顯，在 MNLI 數(shù)據(jù)集中，甚至出現(xiàn)了 TKD 被 PKD 反超的情況，盡管推斷準(zhǔn)確率只高出了 0.2%。這種現(xiàn)象的原因可以理解為更多的教師模型已經(jīng)為學(xué)生模型提供了非常豐富的知識，再加上學(xué)生模型和教師模型之間的參數(shù)規(guī)模比較大，因而 BERT3 學(xué)生模型捕捉教師模型中間知識的能力并不是很好。

4""" 結(jié)束語

本文針對傳統(tǒng)多教師蒸餾只蒸餾教師模型預(yù)測層而忽略中間層表達(dá)的問題，提出了針對 BERT 模型的多教師蒸餾方法，同時修改了傳統(tǒng)的蒸餾損失函數(shù)，新增了對 Transformer 中間層的知識的提取。實驗選用預(yù)訓(xùn)練好的 BERT12、 RoBERTa12、 XLNET12 作為教師模型，BERT3 作為學(xué)生模型，實驗結(jié)果證明學(xué)生模型可以很好地保留教師模型的性能，保留了教師模型平均 95.1% 的準(zhǔn)確率。同時學(xué)生模型的參數(shù)規(guī)模更加緊湊，只占用教師模型平均參數(shù)規(guī)模的 41.5%。與常見的蒸餾模型進(jìn)行了對比，在所選的數(shù) 據(jù)集中，本文提出的方法均獲得了最佳成績。本文很好地驗證了從 Transformer 層中提取知識這一策略在蒸餾實驗中的有效性。Transformer的蒸餾可以協(xié)調(diào)對多個教師中間層知識表征的學(xué)習(xí)，有效提升學(xué)生模型的性能。

參考文獻(xiàn)：

DEVLIN J， CHANG M W， LEE K， et al. BERT： Pre-train[1]ing of" deep" bidirectional" transformers" for" language"" under[1]standing[C]//Proceedings" of" the" 2019" Conference" of" the North American" Chapter" ofthe" Association" for"" Computa[1]tional Linguistics：" Human" Language" Technologies."" Min[1]neapolis： ACL Press， 2019： 4171-4186.

DONG" L，" YANG" N，" WANG" W， et al." Unified" language model" pre-training" for" natural" language" understanding" and generation[J]." Advances" in" Neural" Information" Processing Systems， 2019， 32（1）： 3179-3191.

YU S， Wang S H， YUKUN L， et al. Ernie： Enhanced rep[1]resentation" through" knowledge" integration[C]//Proceedings of" the" AAAI" Conference" on" Artificial" Intelligence." [s.l.]： AAAI Press， 2020： 8968-8975.

SHEN C， WANG X， SONG J， et al. Amalgamating know[1]ledge" towards" comprehensive" classification[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence. Honolulu： AAAI Press， 2019： 3068-3075.

ILICHEV" A，" SOROKIN" N，" PIONTKOVSKAYA" I， et al. Multiple" teacher" distillation" for" robust" and" greener models[C]//Proceedings of the International Conference on Recent" Advances" in" Natural" Language" Processing." New York： RANLP， 2021： 601-610.

LIU Y H， OTT M， GOYAL N， et al. RoBERTa： A robustly optimized" BERT" pretraining" approach[J]." ArXiv，" 2019， 1907： 1169.

YANG" Z" L，" DAI" Z" L，" CARBONELL" J" G， et al." XLNet： Generalized autoregressive pretraining for language under[1]standing[C]//Advances" in" Neural" Information" Processing Systems 32 Annual Conference on Neural Information Pro[1]cessing Systems. Canada： NeurIPS， 2019： 5754-5764.

WANG A， SINGH A， MICHAEL J， et al. GLUE： A multi[1]task benchmark and analysis platform for natural language understanding[C]//Proceedings of the 7th International Con[1]ference on" Learning" Representations" Proceedings" of"" Ma[1]chine Learning Research. [s.l.]： ICLR Press， 2019： 1-20.

HINTON G， VINYALS O， DEAN J. Distilling the know[1]ledge in a neural network[J]. Journal of Machine Learning Research， 2016， 17（1）： 2435-2445.

SUN S Q， CHENG Y， GEN Z， et al. Patient knowledge dis[1]tillation" for" BERT" model" compression[C]//Proceedings" of the 2019 Conference on Empirical Methods in Natural Lan[1]guage Processing" and" the" 9th" International" Joint"" Confer- ence" on" Natural" Language" Processing." Hong" Kong： EMNLP-IJCNLP， 2019： 4322-4331.

CHO J H， HARIHARAN B. On the efficacy of knowledge distillation[C]//Proceedings" of" the" IEEE/CVF" International Conference on Computer Vision. Seoul： IEEE Press， 2019： 4794-4802.

FUKUDA T， KURATA G. Generalized knowledge distilla[1]tion" from" an" ensemble" of" specialized" teachers" leveraging Unsupervised neural clustering[C]//ICASSP 2021 IEEE In[1]ternational" Conference" on" Acoustics" Speech" and" Signal Processing （ICASSP）. [s.l.]： IEEE Press， 2021： 6868-6872.

LIU X， HE P， CHEN W， et al. Improving multi-task deep neural networks via knowledge distillation for natural lan[1]guage understanding[C]//IEEE International Conference on Acoustics Speech" and" Signal" Processing" （ICASSP）."" Bar[1]celona： IEEE Press， 2020： 7419-7423.

YANG Z， SHOU L， GONG M， et al. Model compression with two-stage multi-teacher knowledge distillation for web question answering system[C]//Proceedings of the 13th In[1]ternational" Conference" on" Web" Search" and" Data" Mining. Houston： ACM Press， 2020： 690-698.

TRAN" L，" VEELING" B" S，" ROTH" K， et al. Hydra："" Pre[1]serving" ensemble" diversity" for" model" distillation[C]//Pro[1]ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing （EMNLP）. [s.l.]： ACL Press， 2021： 4093-4107.

AGUILAR G， LING Y， ZHANG Y， YAO B， et al. Know[1]ledge distillation from internal representations[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence.

New York： AAAI Press， 2020： 7350-7357 CLARK K， KHANDELWAL U， LEVY O， et al. What does bert" look" at？" An" analysis" of" bert's" attention[C]//Proceed[1]ings of the 2019 ACL Workshop Blackbox NLP Analyzing and Interpreting Neural Networks for NLP. Florence： ACL Press， 2019： 276-286.

VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all" you" need[J]." Advances" in" Neural" Information"" Pro[1]cessing Systems， 2017， 30： 5998-6008.

MICHEL" P，" LEVY" O，" NEUBIG" G.nbsp; Are" sixteen" heads really better than one？[J]. Advances in Neural Information Processing Systems， 2019， 32： 219-234.

李宜儒，羅健旭. 一種基于師生間注意力的AD診斷模型[J]. 華東理工大學(xué)學(xué)報（自然科學(xué)版）， 2022， 49（3）： 1-6.

ADRIANA R， NICOLAS B， SAMIRA E K， et al. FitNets： Hints for thin deep nets[C]//3rd International Conference on Learning" Representations." New" York：" ICLR" Press，" 2015： 191-207.

CLARK K， LUONG M T， LE Q V， et al. ELECTRA： Pre[1]training text encoders as discriminators rather than generat[1]ors[C]// 8th" International" Conference" on" Learning" Repres[1]entations. New York： ICLR， 2020： 276-286.

SANH V， DEBUT L， CHAUMOND J， et al. DistilBERT， a distilled" version" of" BERT：" Smaller，" faster，" cheaper" and lighter[C]//Proceedings of the 2020 Conference on Empiri[1]cal" Methods" in" Natural" Language" Processing" （EMNLP）. [s.l.]：" Association" for" Computational" Linguistics" Press， 2022： 7701-7711.

華東理工大學(xué)學(xué)報(自然科學(xué)版)2024年2期

華東理工大學(xué)學(xué)報(自然科學(xué)版)的其它文章: 長石質(zhì)陶瓷磨損研究及有限元數(shù)值模擬; 多采樣率雙通道有源噪聲反饋控制系統(tǒng)的研究; 基于外部存檔更新及截斷的 NSGA-Ⅱ改進(jìn)算法; 基于 NOMA 增強的 D2D 系統(tǒng)聯(lián)合資源分配算法; 基于卸載策略的物聯(lián)網(wǎng)邊緣計算任務(wù)調(diào)度優(yōu)化; 基于動態(tài)最小支持度的增量頻繁序列挖掘