亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種針對 BERT 模型的多教師蒸餾方案

        2024-05-17 00:00:00石佳來郭衛(wèi)斌

        摘要:在傳統(tǒng)的知識蒸餾中,若教師、學生模型的參數(shù)規(guī)模差距過大,則會出現(xiàn)學生模型無 法學習較大教師模型的負面結果。為了獲得在不同任務上均擁有較好表現(xiàn)的學生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點,提出了一種新型的來自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語言理解的廣義自回歸預訓練模型(XLNET)等多個擁有 BERT 結構的教師模型對 其進行蒸餾,同時修改了對教師模型中間層知識表征的蒸餾方案,加入了對 Transformer 層的 蒸餾。該蒸餾方案在通用語言理解評估(General Language Understanding Evaluation,GLUE) 中的多個數(shù)據(jù)集上的實驗結果表明,最終蒸餾實驗的結果較為理想,可以保留教師模型 95.1% 的準確率。

        關鍵詞:BERT;知識蒸餾;多教師蒸餾;Transformer 蒸餾;自然語言理解

        中圖分類號:TP391.1

        文獻標志碼:A

        Devlin 等[1] 在 2018 年提出的 BERT(Bidirectional Enoceder Respresentations from Transformers)模型在 自然語言處理(Nature Language Processing, NLP)方 面的研究成果顯著,堪稱 NLP 研究的里程碑。此后 學者們不斷提出對 BERT 模型進行改進,包括引入傳 統(tǒng)單向語言模型(LM)方式和 seq2seq 訓練的單向語 言模型(UNILM) [2]、將 BERT 中 Mask 隨機 token 改 進為 Mask 隨機實體或詞組的 Ernie-baidu 模型[3] 等, 此類基于 BERT 的模型均在自然語言處理方面發(fā)揮 了不錯的表現(xiàn)。但是,這些模型在具有極強的運算 能力的前提下,參數(shù)規(guī)模龐大,推理周期長,其參數(shù) 數(shù)目往往超過 1000 億。如何在存儲空間有限的場 合(比如在移動終端)中,有效地實現(xiàn)這種預先學習 的方法,并使之具有一定的計算能力,成為學者們一 個新的研究方向。許多學者提出了不少有效的方 法,其中,最受歡迎的方法就是“知識蒸餾”。該方法 一般由大型的教師模型和小型的學生模型組成,在 蒸餾過程中,學生不僅要從文本樣本的硬標簽中學 習,還要從教師模型中學習。最初,基于 BERT 模式 的蒸餾主要是以一位老師和一位學生的方式來進 行,近年來,眾多學者也進行了大量的多教師蒸餾策略。

        在多教師蒸餾策略中,由不同的教師模型為學 生模型提供不同的“見解” [4] ,學生模型可以從不同的 角色模型中獲取不同的知識表征以獲得更佳的表 現(xiàn)。但是傳統(tǒng)的多教師蒸餾中,僅使用教師模型最 后一層的輸出進行蒸餾,若教師模型過于復雜,學生 模型則有可能會因為無法捕捉教師模型中更細粒度 的知識而無法接近教師模型[5] ,甚至會出現(xiàn)學生模型 在數(shù)據(jù)的某些部分過度擬合的問題。為了解決以上 問題,在蒸餾時提取教師模型中間層的知識,除了教 師預測層外 ,還讓學生模型從教師模型中間 的 Transformer 層中學習知識,整體的蒸餾函數(shù)包括了 預測層的蒸餾。

        本文選用 BERT[1]、RoBERT[6]、XLNET[7] 3 個教師模型,以及 3 層 BERT 的學生模型的多教師蒸餾模 型,并修改了蒸餾損失函數(shù),新的蒸餾損失函數(shù)包括 對教師模型的預測層、隱藏層、注意力層以及嵌入層 的蒸餾。在 GLUE[8] 任務的部分數(shù)據(jù)集上與其他常 見的蒸餾方案進行了對比實驗,本文方案在結果上 得到有效的提升。

        1""" 知識蒸餾相關工作

        1.1 知識蒸餾方案

        Hinton 等[9] 認為,在預訓練階段大量的參數(shù)可 以幫助模型更好地獲取樣本的知識表征,但是在預 測時則不需要過多的參數(shù)。為了減少模型的計算成 本,本文提出了基于教師-學生架構的知識蒸餾模型, 通過知識蒸餾的方法訓練得到性能相近、結構緊湊 的學生模型。在眾多深度學習領域中,知識蒸餾都 可以得到不錯的效果。

        Hinton 等的模型蒸餾僅對教師模型的預測層輸 出進行蒸餾,工程師們則關心教師模型的輸入和輸 出,因此教師模型很可能會出現(xiàn)過擬合的負面情 況。為了解決這個問題,Sun 等[10] 提出了一種“耐心 蒸餾”(Patient Knowledge Distillation, PKD)策略,旨 在使學生模型除了從教師模型最后一層學習外,還 讓其學習教師模型的中間層,從而使教師模型中間 層的知識表征能較好地轉移到學生模型中。然而 PKD 對 中 間 層 的 蒸 餾 過 于 簡 單 , 忽 略 了 每 一 層 Transformer 內(nèi)部的知識內(nèi)容。本文在此基礎上對每一 層 Transformer 層的隱藏態(tài)和注意力矩陣進行了蒸餾。

        1.2 多教師蒸餾方案

        在常見的模型蒸餾方法中,多采用單教師-單學 生的架構,然而 Cho 等[11] 的研究發(fā)現(xiàn),在知識蒸餾過 程中并不是性能越卓越的教師模型就一定可以蒸餾 出更好的學生模型,這與我們的直觀感受相悖。本 文采用多個基于 BERT 的教師模型,搭建一套多教師 蒸餾模型,為學生模型尋找更好的蒸餾架構。

        Fukuda 等[12] 提出的多教師蒸餾方案主張在蒸 餾過程中直接使用多個教師,并提出了兩種多教師 蒸餾的方案:(1)通過在小批量級別切換教師模型標 簽來訓練學生模型;(2)學生模型根據(jù)來自不同教師 分布的多個信息流進行訓練。Liu 等[13] 提出將多個 教師的軟標簽與可學習權重相結合,提取數(shù)據(jù)示例 之間的結構知識,并傳遞中間層表示,使每個教師負 責學生網(wǎng)絡中的特定層。Yang 等[14] 提出了一種多 教師兩階段蒸餾的方法,針對機器問答任務,讓學生 模型在預訓練階段與微調階段均進行蒸餾訓練。

        多教師學習是通過利用多個教師模型提高學生 模型在單個任務上的性能。多教師蒸餾方法核心的 設計在于多個教師軟標簽、中間層知識的組合策 略。本文在針對 BERT 的多教師蒸餾架構中,對每一 個教師模型的蒸餾都新增了針對 Transformer 的蒸 餾,可以幫助學生模型獲取所有教師模型中更細粒 度的知識,為學生模型提供更豐富的“見解”,以獲得 更佳的表現(xiàn)。

        2""" 多教師蒸餾模型

        多個教師模型蒸餾到單個學生模型可以傳遞多 種知識,多教師蒸餾的優(yōu)勢在于每個教師模型的輸 出都不同,學生模型可以學習到不同教師模型之間 的差異,提升預測的泛化能力[15]。對于傳統(tǒng)的多教師 蒸餾工作,一般將對教師模型最后一層平均之后的 結果作為指導學生訓練的信息,即使學生模型與教 師模型軟標簽緊密匹配,其內(nèi)部表現(xiàn)也可能有很大 不同,這種內(nèi)部不匹配可能會使學生模型泛化能力 的提升變得有限[16] ,同時還伴隨著過擬合的風險[10]。 BERT 模型是由 Transformer 構建而成,它可以通過 自注意力機制獲取輸入 token 之間的長期依賴關系, 在多教師蒸餾中新增對每個教師模型的 Transformer 的蒸餾,在這種情況下,學生模型的中間層可以保留 教師模型中間層的語言行為。

        本文的多教師蒸餾模型由多個經(jīng)過預訓練的教 師模型同時對單個學生模型進行蒸餾,整體架構如 圖 1 所示。對于擁有 BERT 結構的教師模型與學生 模型來說,嵌入層和預測層均可以直接采用一對一的 層映射方式,每個 BERT 模型都擁有多個 Transformer 中間層,而通常來說教師模型的中間層數(shù)量是學生 模型的數(shù)倍。Clark 等[17] 的研究結果表明,BERT 構 建的語言知識從模型網(wǎng)絡的底部到頂部逐漸變得復 雜,由于模型建立在底部表示之上,因此本文以自下 而上的方式逐步提取與內(nèi)部表示匹配的知識。對于 多層的 Transformer,本文將模仿 BERT-PKD 的跨層 指定映射方式進行跨層映射,如圖 2 所示。文獻 [18-19] 的研究表明,Transformer 中的注意力層包括了豐富 的語法、指代等文本知識。李宜儒等[20] 的研究表明, 對師生間的注意力進行蒸餾有利于提高學生模型的 準確率。因此 Transformer 層的蒸餾又是基于注意力 和隱藏狀態(tài)的蒸餾,每個學生注意力層/隱藏層可以 從指定的教師注意力層/隱藏層中學習知識。整體來 說本實驗的蒸餾損失函數(shù)包括了嵌入層蒸餾損失函 數(shù)、Transformer層的蒸餾損失函數(shù)和預測層蒸餾損失函數(shù),其中 Transformer 層的蒸餾又包括了隱藏層 的蒸餾以及對注意力層的蒸餾。

        2.1 預測層損失函數(shù)

        學生模型和教師模型都會在每個樣本上產(chǎn)生一 個關于類別標簽的分布信息,軟標簽損失函數(shù)的計 算就是計算這兩個分布之間的相似性。假設使用 K 個教師模型進行實驗,則需要計算學生模型預測層 輸出和 K 個教師模型預測輸出的交叉熵(CE),預測 層損失函數(shù)(Lpredict ")如式 (1) 所示。

        其中:z T k 表示第 k 個教師模型預測的 logits 值; z表 示學生模型預測的 logits 值 ;使用 softmax 函數(shù)將 logits 值 zi 映射到概率向量 pi 中,這樣的映射可以使 每個映射的值和為 1; 表示蒸餾時的溫度參數(shù),溫 度越高可以使概率分布曲線越“平滑”,即淡化各個標 簽之間預測值的差異。

        2.2 隱藏層損失函數(shù)

        針對 Transformer 層的蒸餾包括隱藏層(FFN 之 后)和注意力層的蒸餾[21]。學生和教師模型 Transformer 層之間的映射將模仿耐心蒸餾跨層映射的方式進行 映射。假設教師模型擁有 M 層 Transformer,學生模 型擁有 N 層 Transformer,那么需要從教師模型中選 擇 N 層 Transformer 層進行蒸餾,則學生模型將會從 教師模型的每 l 層中學習。例如對于存在的 3 個教 師模型,且每個教師模型均擁有 11 層 Transformer 中 間層(除了最后一層 Transformer 層直接與預測層相 連 接 , 不 計 作 中 間 層 ) , 學 生 模 型 擁 有 3 層 Transformer 中間層,指定學生模型第 1 層從每個教 師模型第 4 層中學習、學生模型第 2 層從每個教師 模型第 8 層中學習、學生模型第 3 層從每個教師模 型第 12 層中學習。

        多教師蒸餾中 Transformer 層的跨層映射策略如 圖3 所示。學生模型與第k 個教師模型中間Transformer 層的映射函數(shù)記為 ,表示第 k 個教師模型的第 n 層與學生模型的第 m 層相互映射。除了 Transfor[1]mer 層以外,將 0 設置為嵌入層的索引,將 M+1 和 N+1 分別設置為教師模型、學生模型預測層的索引,相應的層映射定義為0=g,(O)和N+l= g4(M+ l)。

        學生模型第ü層的隱藏態(tài)(H)可以表示為H∈ Rd,其中標量d表示模型的隱藏大小,1是輸入文本的長度。第k個教師模型的第j層的隱藏態(tài)(H )可以表示為eRId,其中標量d表示第k 個教師模型的隱藏態(tài)大小。使用 代表一個線 性變換參數(shù),將學生的隱藏態(tài)轉換為與教師網(wǎng)絡狀 態(tài)相同的空間。那么學生模型第 i 層隱藏層到第 k 個教師的第 j 層隱藏層之間的距離 ( ) 可以用 式 (2) 表示,其中均方誤差(MSE)表示教師模型和學 生模型詞嵌入之間的“距離”,并通過最小化它來提升 學生模型性能。

        3""" 實驗設置與結果分析

        3.1 實驗設置

        GLUE[8] 是一個針對自然語言理解的多任務的 基準和分析平臺,由紐約大學、華盛頓大學等機構所創(chuàng) 建,近年來流行的 NLP 模型例如 BERT[1]、RoBERTa[6]、 XLNET[7] 等都會在此基準上進行測試,同時 GLUE 也 是知識蒸餾模型 BERT-PKD[8]、DistillBERT[23] 等所 選用的實驗數(shù)據(jù)集。本實驗數(shù)據(jù)集選用 GLUE[8] 中 的部分公開數(shù)據(jù)集 QNLI、MNLI和 SST-2 作為本實 驗的數(shù)據(jù)集,在上述數(shù)據(jù)集中對模型的處理效果進 行了檢驗。在 QNLI 數(shù)據(jù)集中,要求模型要判定問題 與語句之間的包含關系,其結論有包含與不包含兩 種情況,是二分類問題。QNLI 包含 104 743 個培訓 集合、5 463 個發(fā)展集合和 5 461 個測試集合。在 SST-2 中,模型要判定輸入的語篇包含了積極的情緒 還是消極的情緒,這也是一種二分類問題,包含了訓 練集 67 350 個,開發(fā)集 873 個,驗證集 821 個。在 MNLI 中,模型被輸入一個句子對,包括了前提語句 與假設語句,該模型需要基于輸入內(nèi)容,判斷二者的 關系是屬于假定、假定沖突或是中立中的哪一種,這 屬于三分類問題。由于 MNLI 是一種包含多種類型的文字,因此它被分成了 matched 和 mismatched 兩種 類型,其中 matched 表示訓練和測試集具有相同的資 料源,而 mismatched 是不相容的;本論文選取的資料 集包含 392 702 個培訓集、9 815 個開發(fā)集 dev-matched 和 9 796 個 test-matched。

        訓練時如何確定學習率等超參數(shù)十分關鍵,訓 練開始時使用較大的學習率可以使模型更快地接近 局部或全局最優(yōu)解,但是在訓練后期會有較大波動, 甚至出現(xiàn)損失函數(shù)的值圍繞最小值徘徊,難以達到 最優(yōu)的情況。本實驗使用網(wǎng)格搜索法調整超參數(shù), 由于存在許多超參數(shù)組合,因此首先對學習率和式 (9) 中的權重 α 進行網(wǎng)格搜索,將學習率在{ }中調整 ,式 (9) 中 α 的取值在{0.1, 0.2, 0.5}之間調整。固定學習率和式 (9) 中 α 這兩個 超參數(shù)的值,再對其他超參數(shù)的值進行調整,將蒸餾 溫度 取值在{1, 5, 10}之間調整。按照顯存容量將 批量樣本容量 bath size 設置為 32,最多對數(shù)據(jù)進行 4 輪訓練。

        3.2 多教師蒸餾結果

        為 了 方 便 蒸 餾 時 進 行 跨 層 映 射 , 選 用 了 BERT12、RoBERTa12、XLNet12 作為教師模型,選用的 教師模型都是 12 層基于 BERT 的預訓練好的模型, 教師模型選擇的理由如下:(1)所選的每個教師模型 均 12 層,由 Transformer 構建而成,結構相似。(2)所 選的每個教師模型中包含的參數(shù)數(shù)量在 1.1 億左右, 教師模型的大小相似。在每個數(shù)據(jù)集中,均使用不 同的隨機種子微調 3 個教師模型。各個教師模型在 每個數(shù)據(jù)集上的表現(xiàn)如表 1 所示,各個數(shù)據(jù)集中均用 推斷準確率表示結果。

        選取的學生模型 BERT3 是以選取的 BERT12 模 型的前三層的參數(shù)作為初始值 ,學生模型擁 有 0.45 億參數(shù),再用前文中基于 Transformer 的知識蒸 餾框架對學生模型進行蒸餾,以驗證教師模型的數(shù) 量與蒸餾的關系。

        表 1 結果顯示教師模型在 3 個數(shù)據(jù)集中的平均 推斷準確率為 89.4%,而學生模型在 3 個相同數(shù)據(jù)集 中的平均推斷準確率為 85.0%(表 2)。學生模型的推 斷準確率在保留了各個教師模型平均推斷準確率 (95.1%)的同時,參數(shù)規(guī)模只占用了教師模型平均參 數(shù)規(guī)模的 41.5%。同時也可以看到不同教師模型所 “擅長”的領域也不同,RoBERTa12 教師模型是在 BERT 模型的基礎上采用更大的預訓練語料進行訓練而得 到的模型 ,因此在各個數(shù)據(jù)集上的表現(xiàn)均優(yōu) 于 BERT 模型,在同屬于二分任務的 QNLI、SST-2 數(shù)據(jù) 集中的表現(xiàn)在所有教師模型中最優(yōu)。而 XLNET12 教 師 模 型 使 用 了 Transformer-XL 中 的 段 循 環(huán) (Segment" Recurrence" Mechanism)、 相 對 位 置 編 碼 (Relative Positional Encoding) 進行優(yōu)化,在長文本問 題中可以有更好的表現(xiàn),在屬于三分任務的 MNLI 數(shù) 據(jù)集中表現(xiàn)最優(yōu)。

        3.3 不同蒸餾模型對比

        為了驗證本文多教師蒸餾方案的有效性,本實 驗還選取了 Sun 等[10] 提出的 BERT-PKD、Sanh 等[23] 提出的 DistilBERT 作為單教師模型的 baseline 模型 進行了對比,其中 BERT-PKD 對比了選用跨層映射 的 BERT-PKD(skip) 版 與 選 用 尾 層 映 射 的 BERT[1]PKD(last) 兩個版本。所有 的 baseline 模型均采 用 BERT12 模型作為教師模型,并采用 BERT3 模型作為 學生模型,在 QNLI、SST-2、MNLI 數(shù)據(jù)集中進行實 驗,不同蒸餾模型的學生模型性能對比結果如表 2 所 示??梢钥闯霰疚牡恼麴s方案(BERT12+ RoBERTa12+ XLNET12)在選取的 3 個數(shù)據(jù)集中均優(yōu)于常見的對比 蒸餾模型。此外還可以看出,在蒸餾時,教師模型在 某一特定任務中的優(yōu)秀性能,可以很好地傳遞給學 生模型。例如在 SST-2 的情感分類任務中,本文實驗 方案的推斷準確率明顯高于其他的 baseline 模型,比 BERT-PKD(last) 的推斷準確率提高 5.4%,有了非常 大的提升,是因為本文提供的多教師模型可以讓學 生模型在知識獲取上就獲得更大的優(yōu)勢。

        3.4 相同教師模型、不同蒸餾損失函數(shù)的模型對比 為了驗證蒸餾時對 Transformer 層中的知識進行 提取這一策略的有效性,本文同時還設立了多教師 蒸餾 baseline 模型,分別選取了只從教師預測層中學 習 知 識 的 OKD(Original" Knowledge" Distillation) 和 PKD。以上 baseline 模型與本文模型一樣,同樣選取 BERT12、RoBERTa12、XLNET12 作為教師模型,將本 文采用的從 Transformer 層中提取知識的蒸餾方案記 作 TKD(Transformer Knowledge Distillation),實驗結 果如表 3 所示。

        從橫向進行比較,可以看到在固定教師模型的 數(shù)量,以及類型相同的情況下,對 Transformer 層的知 識蒸餾可以在一定程度上提升其對學生模型的性 能。例如在共同選用 BERT12、RoBERTa12、XLNET12 3 個教師模型的情況下,OKD 模型在本實驗所選的 任務中的性能均不如 TKD 模型的性能好,差別最大的 是在 QNLI 數(shù)據(jù)集中,二者推斷準確率最高相差 2.6%。

        但是,這種現(xiàn)象在更加復雜的任務中并不明顯, 在 MNLI 數(shù)據(jù)集中,甚至出現(xiàn)了 TKD 被 PKD 反超的 情況,盡管推斷準確率只高出了 0.2%。這種現(xiàn)象的 原因可以理解為更多的教師模型已經(jīng)為學生模型提 供了非常豐富的知識,再加上學生模型和教師模型 之間的參數(shù)規(guī)模比較大,因而 BERT3 學生模型捕捉 教師模型中間知識的能力并不是很好。

        4""" 結束語

        本文針對傳統(tǒng)多教師蒸餾只蒸餾教師模型預測 層而忽略中間層表達的問題,提出了針對 BERT 模型 的多教師蒸餾方法,同時修改了傳統(tǒng)的蒸餾損失函 數(shù),新增了對 Transformer 中間層的知識的提取。實 驗選用預訓練好的 BERT12、 RoBERTa12、 XLNET12 作為教師模型,BERT3 作為學生模型,實驗結果證明 學生模型可以很好地保留教師模型的性能,保留了 教師模型平均 95.1% 的準確率。同時學生模型的參 數(shù)規(guī)模更加緊湊,只占用教師模型平均參數(shù)規(guī)模的 41.5%。與常見的蒸餾模型進行了對比,在所選的數(shù) 據(jù)集中,本文提出的方法均獲得了最佳成績。 本文很好地驗證了從 Transformer 層中提取知識 這一策略在蒸餾實驗中的有效性。Transformer的蒸 餾可以協(xié)調對多個教師中間層知識表征的學習,有 效提升學生模型的性能。

        參考文獻:

        DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-train[1]ing of" deep" bidirectional" transformers" for" language"" under[1]standing[C]//Proceedings" of" the" 2019" Conference" of" the North American" Chapter" ofthe" Association" for"" Computa[1]tional Linguistics:" Human" Language" Technologies."" Min[1]neapolis: ACL Press, 2019: 4171-4186.

        DONG" L," YANG" N," WANG" W, et al." Unified" language model" pre-training" for" natural" language" understanding" and generation[J]." Advances" in" Neural" Information" Processing Systems, 2019, 32(1): 3179-3191.

        YU S, Wang S H, YUKUN L, et al. Ernie: Enhanced rep[1]resentation" through" knowledge" integration[C]//Proceedings of" the" AAAI" Conference" on" Artificial" Intelligence." [s.l.]: AAAI Press, 2020: 8968-8975.

        SHEN C, WANG X, SONG J, et al. Amalgamating know[1]ledge" towards" comprehensive" classification[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence. Honolulu: AAAI Press, 2019: 3068-3075.

        ILICHEV" A," SOROKIN" N," PIONTKOVSKAYA" I, et al. Multiple" teacher" distillation" for" robust" and" greener models[C]//Proceedings of the International Conference on Recent" Advances" in" Natural" Language" Processing." New York: RANLP, 2021: 601-610.

        LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized" BERT" pretraining" approach[J]." ArXiv," 2019, 1907: 1169.

        YANG" Z" L," DAI" Z" L," CARBONELL" J" G, et al." XLNet: Generalized autoregressive pretraining for language under[1]standing[C]//Advances" in" Neural" Information" Processing Systems 32 Annual Conference on Neural Information Pro[1]cessing Systems. Canada: NeurIPS, 2019: 5754-5764.

        WANG A, SINGH A, MICHAEL J, et al. GLUE: A multi[1]task benchmark and analysis platform for natural language understanding[C]//Proceedings of the 7th International Con[1]ference on" Learning" Representations" Proceedings" of"" Ma[1]chine Learning Research. [s.l.]: ICLR Press, 2019: 1-20.

        HINTON G, VINYALS O, DEAN J. Distilling the know[1]ledge in a neural network[J]. Journal of Machine Learning Research, 2016, 17(1): 2435-2445.

        SUN S Q, CHENG Y, GEN Z, et al. Patient knowledge dis[1]tillation" for" BERT" model" compression[C]//Proceedings" of the 2019 Conference on Empirical Methods in Natural Lan[1]guage Processing" and" the" 9th" International" Joint"" Confer- ence" on" Natural" Language" Processing." Hong" Kong: EMNLP-IJCNLP, 2019: 4322-4331.

        CHO J H, HARIHARAN B. On the efficacy of knowledge distillation[C]//Proceedings" of" the" IEEE/CVF" International Conference on Computer Vision. Seoul: IEEE Press, 2019: 4794-4802.

        FUKUDA T, KURATA G. Generalized knowledge distilla[1]tion" from" an" ensemble" of" specialized" teachers" leveraging Unsupervised neural clustering[C]//ICASSP 2021 IEEE In[1]ternational" Conference" on" Acoustics" Speech" and" Signal Processing (ICASSP). [s.l.]: IEEE Press, 2021: 6868-6872.

        LIU X, HE P, CHEN W, et al. Improving multi-task deep neural networks via knowledge distillation for natural lan[1]guage understanding[C]//IEEE International Conference on Acoustics Speech" and" Signal" Processing" (ICASSP)."" Bar[1]celona: IEEE Press, 2020: 7419-7423.

        YANG Z, SHOU L, GONG M, et al. Model compression with two-stage multi-teacher knowledge distillation for web question answering system[C]//Proceedings of the 13th In[1]ternational" Conference" on" Web" Search" and" Data" Mining. Houston: ACM Press, 2020: 690-698.

        TRAN" L," VEELING" B" S," ROTH" K, et al. Hydra:"" Pre[1]serving" ensemble" diversity" for" model" distillation[C]//Pro[1]ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). [s.l.]: ACL Press, 2021: 4093-4107.

        AGUILAR G, LING Y, ZHANG Y, YAO B, et al. Know[1]ledge distillation from internal representations[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence.

        New York: AAAI Press, 2020: 7350-7357 CLARK K, KHANDELWAL U, LEVY O, et al. What does bert" look" at?" An" analysis" of" bert's" attention[C]//Proceed[1]ings of the 2019 ACL Workshop Blackbox NLP Analyzing and Interpreting Neural Networks for NLP. Florence: ACL Press, 2019: 276-286.

        VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all" you" need[J]." Advances" in" Neural" Information"" Pro[1]cessing Systems, 2017, 30: 5998-6008.

        MICHEL" P," LEVY" O," NEUBIG" G.nbsp; Are" sixteen" heads really better than one?[J]. Advances in Neural Information Processing Systems, 2019, 32: 219-234.

        李宜儒, 羅健旭. 一種基于師生間注意力的AD診斷模 型[J]. 華東理工大學學報(自然科學版), 2022, 49(3): 1-6.

        ADRIANA R, NICOLAS B, SAMIRA E K, et al. FitNets: Hints for thin deep nets[C]//3rd International Conference on Learning" Representations." New" York:" ICLR" Press," 2015: 191-207.

        CLARK K, LUONG M T, LE Q V, et al. ELECTRA: Pre[1]training text encoders as discriminators rather than generat[1]ors[C]// 8th" International" Conference" on" Learning" Repres[1]entations. New York: ICLR, 2020: 276-286.

        SANH V, DEBUT L, CHAUMOND J, et al. DistilBERT, a distilled" version" of" BERT:" Smaller," faster," cheaper" and lighter[C]//Proceedings of the 2020 Conference on Empiri[1]cal" Methods" in" Natural" Language" Processing" (EMNLP). [s.l.]:" Association" for" Computational" Linguistics" Press, 2022: 7701-7711.

        91久久国产情侣真实对白| 在线涩涩免费观看国产精品 | 国产精品久久久免费精品| 东京道一本热中文字幕| 青青青国产精品一区二区| 无码专区无码专区视频网址| 中文字幕有码久久高清| 国产精品 无码专区| 人人玩人人添人人澡| 亚洲中文字幕久爱亚洲伊人 | 特级毛片a级毛片100免费播放| 亚洲精品免费专区| 99久久国产一区二区三区| 少妇连续高潮爽到抽搐| 免费a级作爱片免费观看美国| 亚洲一区综合精品狠狠爱| 精品国产97av一区二区三区| 亚洲男人天堂一区二区| 精品免费看国产一区二区| 538任你爽精品视频国产| 久久免费看视频少妇高潮| 精品香蕉一区二区三区| 国产精品国产成人国产三级| 亚洲高清国产品国语在线观看 | 国产精品制服一区二区| 亚洲日本人妻少妇中文字幕| 国产无遮挡又黄又爽免费网站| 日日摸夜夜欧美一区二区| 亚洲一区二区三区亚洲| 精品露脸国产偷人在视频| 国产三级在线观看免费| 久久国产精品男人的天堂av| 国产亚洲精品av一区| 一品二品三品中文字幕| 女的把腿张开男的猛戳出浆| 日本高清不卡二区三区| 人妻尝试又大又粗久久| 久久艹影院| 亚洲中文字幕第一第二页| 公和我做好爽添厨房| 久久中文字幕人妻熟av女蜜柚m|