近年來,大規(guī)模深度學(xué)習(xí)模型的迅猛發(fā)展與實(shí)際部署需求之間的差距日益加劇,成為制約人工智能技術(shù)廣泛應(yīng)用的主要瓶頸[1-2]。以 GPT-4、DeepSeek 為代表的千億參數(shù)級模型展現(xiàn)出卓越的認(rèn)知能力,其在復(fù)雜任務(wù)中的表現(xiàn)令人矚目。然而,這些模型對計(jì)算資源的極高依賴顯著限制了其在智能終端及邊緣設(shè)備上的部署可行性,尤其在資源受限場景下暴露出效率短板[3]。在此背景下,知識蒸餾技術(shù)憑借師生協(xié)同優(yōu)化機(jī)制脫穎而出,通過將復(fù)雜模型的知識高效遷移至輕量架構(gòu),顯著精簡計(jì)算復(fù)雜度,成為破解模型性能與效率瓶頸的戰(zhàn)略性方案[4]。該技術(shù)不僅為模型壓縮提供了創(chuàng)新路徑,還為邊緣智能的落地應(yīng)用奠定了基礎(chǔ),特別是在農(nóng)業(yè)監(jiān)測、地質(zhì)分析等領(lǐng)域的智能化需求中展現(xiàn)出獨(dú)特優(yōu)勢。
知識蒸餾的理論根基源于HINTON等人具有開創(chuàng)性意義的奠基研究[5],其核心創(chuàng)新在于通過師生映射機(jī)制,將深層神經(jīng)網(wǎng)絡(luò)的知識精髓一一包括輸出分布的概率特性、隱層表征的語義模式以及樣本間的關(guān)聯(lián)規(guī)律—高效遷移至輕量級學(xué)生模型,從而在維持性能的同時(shí)大幅度降低計(jì)算負(fù)擔(dān)。這一方法為模型壓縮開辟了全新路徑。經(jīng)過多年演化,知識蒸餾技術(shù)形成了清晰的四階段發(fā)展脈絡(luò):早期以常溫蒸餾為主,聚焦輸出層響應(yīng)的高效傳遞;隨后發(fā)展至FitNet架構(gòu)[7],強(qiáng)調(diào)中間特征的精細(xì)提煉;繼而進(jìn)入關(guān)系蒸餾階段[8],關(guān)注樣本間依賴關(guān)系的建模;當(dāng)前演進(jìn)至基于網(wǎng)絡(luò)結(jié)構(gòu)重組的深度遷移[9],實(shí)現(xiàn)體系化知識重構(gòu)。其應(yīng)用領(lǐng)域亦隨之拓展,從圖像分類[10]擴(kuò)展至目標(biāo)檢測[11]與語義分割[12],并滲透至自然語言處理的文本理解[13]與內(nèi)容生成[14],構(gòu)建起跨領(lǐng)域的技術(shù)生態(tài)。這一技術(shù)在農(nóng)業(yè)與地學(xué)中的潛力尤為顯著,例如支持精準(zhǔn)農(nóng)業(yè)中的作物分類或地質(zhì)分析中的多維特征提取]。然而,知識蒸餾仍面臨諸多挑戰(zhàn):知識篩選機(jī)制缺乏統(tǒng)一的理論框架[15],過度依賴經(jīng)驗(yàn)設(shè)計(jì)易引入信息噪聲與語義偏差;同時(shí),傳統(tǒng)單模態(tài)方法呈現(xiàn)碎片化特性,互信息依賴的局限削弱了模型在復(fù)雜場景下的魯棒性[16]。這些問題在跨模態(tài)、多源數(shù)據(jù)的農(nóng)業(yè)與地學(xué)應(yīng)用中尤為突出,亟待系統(tǒng)性解決方案。
本文將系統(tǒng)剖析知識蒸餾技術(shù)體系,在理論層面深入闡釋了溫度調(diào)節(jié)與動態(tài)損失函數(shù)等機(jī)制的數(shù)學(xué)本質(zhì),揭示其在知識遷移中的調(diào)控原理;在技術(shù)層面上,解讀了稀疏特征對齊、教師種群優(yōu)化等創(chuàng)新成果,展現(xiàn)其提升蒸餾效率與模型性能的潛力;在工程實(shí)踐層面上,比較了計(jì)算機(jī)視覺與自然語言處理領(lǐng)域的輕量化應(yīng)用,如圖像分割與文本生成,驗(yàn)證了技術(shù)的跨場景適用性。通過理論、技術(shù)與應(yīng)用的“三位一體”解構(gòu)分析,本研究旨在為知識蒸餾的理論范式提供優(yōu)化框架,彌補(bǔ)現(xiàn)有體系在知識選擇與適配性上的不足。
同時(shí),探索知識蒸餾在邊緣推理與聯(lián)邦學(xué)習(xí)等新興場景的增值潛力,尤其在農(nóng)業(yè)與地學(xué)領(lǐng)域,如支持邊緣設(shè)備上的農(nóng)情監(jiān)測與地質(zhì)數(shù)據(jù)處理,為資源受限環(huán)境下的智能化部署提供技術(shù)指引,推動人工智能在跨領(lǐng)域?qū)嵺`中的深化應(yīng)用。
核心理論與方法
AI知識蒸餾技術(shù)演進(jìn)框架如圖1所示,該圖完整呈現(xiàn)了從師生架構(gòu)基礎(chǔ)到技術(shù)創(chuàng)新方法,最后延伸至垂直領(lǐng)域工程實(shí)踐的遞進(jìn)關(guān)系。接下來,我們將根據(jù)該圖進(jìn)行詳細(xì)闡述。
1.1 基本框架
知識蒸餾的理論基石源于HINTON團(tuán)隊(duì)于2015年提出的開創(chuàng)性研究[5],其突破性貢獻(xiàn)在于通過軟目標(biāo)機(jī)制構(gòu)建了知識遷移的數(shù)學(xué)表征。這一創(chuàng)新有效緩解了模型壓縮過程中精度驟降的行業(yè)難題,其核心在于通過學(xué)生模型模仿教師輸出的類間關(guān)聯(lián)規(guī)律—一即所謂的“暗知識”一顯著提升泛化能力。該框架整合了三大支柱要素:師生協(xié)同架構(gòu)、多元損失函數(shù)以及溫度縮放模塊,共同構(gòu)筑了知識蒸餾系統(tǒng)的理論骨架,為后續(xù)發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
在經(jīng)典實(shí)現(xiàn)中,教師模塊通常采用預(yù)訓(xùn)練的大規(guī)模網(wǎng)絡(luò)(如ResNet或BERT),其輸出概率分布蘊(yùn)含豐富的類間相似性信息,為知識提煉提供了高質(zhì)量來源。與之相對,學(xué)生網(wǎng)絡(luò)則設(shè)計(jì)為輕量架構(gòu)(如MobileNet或TinyBERT),以滿足高效推理的需求。蒸餾過程的優(yōu)化依托雙路徑損失機(jī)制:知識遷移損失引導(dǎo)學(xué)生模型對齊教師的知識圖譜,任務(wù)驅(qū)動損失則確保其基礎(chǔ)判別能力得以保留。數(shù)學(xué)上,知識遷移損失( LKD )可形式化為等式1。
其中, zs 和 Zt 分別代表學(xué)生與教師模型的logits輸出,σ(?) 為Softmax函數(shù),通過縮放logits提取類間相似性信息; τ2 為損失縮放因子,用于平衡梯度量級。與此同時(shí),任務(wù)損失( LTask )采用交叉熵?fù)p失維持基礎(chǔ)性能表示為等式2。
習(xí)的結(jié)構(gòu)化學(xué)習(xí)框架,其發(fā)展歷程折射出對神經(jīng)網(wǎng)絡(luò)知識表征機(jī)制的深刻解構(gòu)與洞察。研究趨勢逐步從單一的輸出模仿轉(zhuǎn)向多粒度的認(rèn)知重構(gòu),構(gòu)建起涵蓋表層語義提煉至抽象邏輯推理的系統(tǒng)性知識提取體系,具體演進(jìn)路徑參見圖2。
1)輸出特征知識
知識蒸餾的突破性研究奠定了響應(yīng)蒸餾范式[5],該方法以輸出層的軟自標(biāo)作為知識傳遞載體。通過引入溫度調(diào)控的KL散度損失,算法引導(dǎo)學(xué)生模型復(fù)現(xiàn)教師模型的概率分布特性。這一范式在輕量化網(wǎng)絡(luò)中建立了性能基準(zhǔn),其價(jià)值在于高效處理目標(biāo)分類任務(wù)中的類別信息與響應(yīng)模式,確保訓(xùn)練效率與應(yīng)用可行性,使其在實(shí)際場景中占據(jù)基礎(chǔ)性地位。然而,該方法的局限性在于難以傳遞深層網(wǎng)絡(luò)蘊(yùn)含的空間推理能力與隱性知識,促使后續(xù)研究轉(zhuǎn)向?qū)W(wǎng)絡(luò)內(nèi)部表征的更深入挖掘。
其中, 為真實(shí)標(biāo)簽的編碼向量,任務(wù)損失用于衡量學(xué)生預(yù)測結(jié)果與真實(shí)標(biāo)簽的差異??倱p失( LTotal )則為兩者的加權(quán)和,如式3。
LTotal=αLKDH(1-α)LTask
其中, α∈[0,1] 為知識遷移權(quán)重系數(shù),用于動態(tài)調(diào)節(jié)知識蒸餾損失與任務(wù)損失的比例。溫度系數(shù) τ 在此過程中具有雙重功能:一方面平滑輸出分布以捕捉類間關(guān)系(Hinton經(jīng)典理論),另一方面通過調(diào)節(jié)知識熵提升知識傳遞質(zhì)量,知識遷移強(qiáng)度則由權(quán)重系數(shù) αa 獨(dú)立調(diào)控。
1.2 知識類型分類
知識蒸餾已從最初的模型壓縮工具演化為深度學(xué)
2)中間特征知識
為克服輸出知識局限于表層的不足,ROMERO等人提出了FitNets架構(gòu)[],標(biāo)志著知識遷移范式從輸出層向中間層的戰(zhàn)略性轉(zhuǎn)向。其核心創(chuàng)新在于設(shè)計(jì)可學(xué)習(xí)的特征適配器,通過L2損失實(shí)現(xiàn)跨深度網(wǎng)絡(luò)的特征空間對齊與映射。這一方法突破了單一響應(yīng)模仿的限制,深化了學(xué)生模型對教師中間表征的吸收能力。其損失函數(shù)( LHint? )定義為式4。
其中, x 為輸入數(shù)據(jù)樣本, ht 和 hs 分別為教師與學(xué)生的特征映射函數(shù)。FitNets框架借鑒度量學(xué)習(xí)的理念,通過引導(dǎo)學(xué)生模型模仿教師模型的中間特征表征,最小化兩者特征映射間的距離,從而實(shí)現(xiàn)知識的有效傳遞。這一方法顯著緩解了輸出層遷移的局限性。后續(xù)研究進(jìn)一步引入注意力權(quán)重再分配[17和動態(tài)特征優(yōu)化策略[18],有效彌補(bǔ)了深度網(wǎng)絡(luò)層次差異引發(fā)的語義鴻溝,提升了模型在特征敏感型任務(wù)中的表現(xiàn)。這些改進(jìn)使其在需要精細(xì)特征提取的場景中獲得廣泛應(yīng)用,例如農(nóng)業(yè)影像分析中的作物識別與地學(xué)數(shù)據(jù)中的空間模式挖掘。
3)關(guān)系特征知識
為突破單樣本表征的局限性,PARK等人提出了關(guān)系知識蒸餾(RKD)方法[8。該方法基于分布式表征理論,揭示了知識蒸餾的本質(zhì)在于捕捉層級間的非線性交互以及樣本間的相似性關(guān)聯(lián)。為此,RKD構(gòu)建了恒等關(guān)系映射機(jī)制,通過距離-角度雙重?fù)p失函數(shù)量化樣本間的拓?fù)浣Y(jié)構(gòu)與幾何特性,從而實(shí)現(xiàn)更豐富的知識傳遞。其關(guān)系損失函數(shù)( LRKD )可形式化為式5。
其中, ψ(?) 為距離度量函數(shù), fit 和 fis 分別為教師和學(xué)生對第 i 個(gè)樣本的特征表示。該方法通過空間拓?fù)浔3旨夹g(shù),引導(dǎo)學(xué)生網(wǎng)絡(luò)在樣本關(guān)系矩陣中重構(gòu)教師模型的全局分布認(rèn)知,從而實(shí)現(xiàn)樣本間關(guān)系的精確傳遞。理論分析表明,這一遷移機(jī)制顯著增強(qiáng)了網(wǎng)絡(luò)的空間泛化能力,構(gòu)建了可微分的關(guān)系遷移框架,突破了傳統(tǒng)單樣本蒸餾的局限,形成了更具普適性的知識提取范式。
4)結(jié)構(gòu)特征知識
結(jié)構(gòu)知識構(gòu)成了教師模型完整的知識體系。KIM等人提出的因子遷移理論[開創(chuàng)了結(jié)構(gòu)化知識蒸餾的新范式,通過整合多種知識形式,使學(xué)生模型的預(yù)測能力逼近教師水平。該方法的核心在于通過顯式表達(dá)知識因子及其遷移路徑,將神經(jīng)網(wǎng)絡(luò)的隱式推理過程轉(zhuǎn)化為顯式化傳遞機(jī)制,從而實(shí)現(xiàn)結(jié)構(gòu)化知識的高效提取與利用。教師網(wǎng)絡(luò)高層特征的解耦可形式化為可解釋因子( LFT )的表達(dá)式。
其中, ft 和 fs 分別為教師模型與學(xué)生的解耦特征因子。這種結(jié)構(gòu)化方法能夠精準(zhǔn)捕捉教師網(wǎng)絡(luò)的層次化決策過程,突破傳統(tǒng)特征蒸餾中黑箱性質(zhì)的局限性。同時(shí),多樣化的知識體系通過多維視角賦予學(xué)生模型多模態(tài)理解能力,提升其對復(fù)雜信息的建模與推理能力。
1.3 訓(xùn)練范式演進(jìn)
知識蒸餾的訓(xùn)練方法論經(jīng)歷了從單向傳輸向協(xié)同共創(chuàng)的深刻轉(zhuǎn)變,體現(xiàn)出研究者對知識動力學(xué)認(rèn)知的不斷深化。這一模式構(gòu)建了一種動態(tài)演進(jìn)的訓(xùn)練框架,映射了人工智能從機(jī)械式復(fù)制邁向自主認(rèn)知的理論飛躍,反映了技術(shù)體系在智能生成與知識重構(gòu)上的突破。
1)離線蒸餾
離線蒸餾(OfflineDistillation)作為2015年奠定的基礎(chǔ)框架,采用兩階段訓(xùn)練拓?fù)洌航處熌P褪紫冉?jīng)過充分訓(xùn)練并固化參數(shù),隨后通過單向指導(dǎo)信道將知識傳遞至學(xué)生模型。這一解耦架構(gòu)便于工業(yè)化部署,例如MobileNet的大規(guī)模優(yōu)化生產(chǎn)。然而,其靜態(tài)知識表征難以適配學(xué)生網(wǎng)絡(luò)的動態(tài)學(xué)習(xí)軌跡,導(dǎo)致訓(xùn)練后期易出現(xiàn)認(rèn)知停滯現(xiàn)象,限制了模型的進(jìn)一步優(yōu)化與適應(yīng)性。
2)在線蒸餾
為突破離線蒸餾的固有局限,ZHANG等人提出了深度互學(xué)習(xí)架構(gòu),開創(chuàng)了在線蒸餾(OnlineDistillation)的研究范式[19]。該方法構(gòu)建去中心化的訓(xùn)練體系,通過KL散度驅(qū)動學(xué)生模型群體間的互監(jiān)督,實(shí)現(xiàn)隱性知識的動態(tài)交換與協(xié)同進(jìn)化,其損失函數(shù)( LDML )表示為公式7。
其中, LDML 為協(xié)同損失, LTask 為學(xué)生模型的任務(wù)損失, λ 為互學(xué)習(xí)強(qiáng)度系數(shù), (i,j) 為學(xué)生群體索引, σ (zi) 和 σ(zj) 為學(xué)生模型的軟化概率,KL散度著衡量兩個(gè)學(xué)生模型輸出分布的差異,驅(qū)動模型間隱性知識共享。這一框架下,各模型同時(shí)扮演教師與學(xué)生的雙重角色,進(jìn)一步提升了訓(xùn)練的靈活性。隨后,Anil等人擴(kuò)展的分布式版本引入知識聚合服務(wù)器,實(shí)現(xiàn)了異構(gòu)模型間的協(xié)同進(jìn)化,增強(qiáng)了在線蒸餾的普適性與效率[20]。
3)自蒸餾
自蒸餾(Self-Distillation)技術(shù)開啟了自我迭代的研究新篇章,其核心在于通過內(nèi)生循環(huán)驅(qū)動模型的持續(xù)進(jìn)化。該方法源于Furlanello等人提出的再生神經(jīng)網(wǎng)絡(luò)[21],通過代際傳遞構(gòu)建知識正反饋環(huán)路,實(shí)現(xiàn)模型性能的漸進(jìn)優(yōu)化。其代數(shù)遞推損失函數(shù)(BAN)公式可表達(dá)為公式8。
LBAN=αLKD(Θt+1,Θt)+(1-α)LTask(Θt+1)
這一迭代機(jī)制實(shí)現(xiàn)了知識的代際傳承,其中, θt 和 θt+1 表示第 t 代和 t+l 代模型的參數(shù),通過迭代更新實(shí)現(xiàn)知識正反饋,有效消除了獨(dú)立教師模型訓(xùn)練的成本負(fù)擔(dān)。該方法在持續(xù)學(xué)習(xí)場景中展現(xiàn)出獨(dú)特優(yōu)勢,通過多輪次自蒸餾逐步積累認(rèn)知多樣性,提升模型的適應(yīng)性與表征能力。
4)思維鏈蒸餾
思維鏈蒸餾(DistillingStep-by-Step)是一種新興的知識蒸餾方法,旨在從大型語言模型(LLMs)中提取其推理過程(Chain-of-Thought,CoT),將其遷移至小型學(xué)生模型,以提升其在復(fù)雜任務(wù)中的推理能力和性能[22]。該方法通過顯式地模擬教師模型的逐步推理過程,取代傳統(tǒng)的直接輸出蒸餾,顯著提高了學(xué)生模型在邏輯推理、數(shù)學(xué)問題求解和多步?jīng)Q策等任務(wù)中的表現(xiàn)。為緩解CoT數(shù)據(jù)稀缺問題,LI等人利用教師模型生成高質(zhì)量的推理軌跡數(shù)據(jù)集,通過自一致性解碼(Self-ConsistencyDecoding)生成多樣化的CoT路徑,豐富學(xué)生模型的訓(xùn)練數(shù)據(jù)[23]。
5)可解釋蒸餾
可解釋蒸餾旨在提升知識蒸餾過程的透明性和可解釋性,通過顯式建模教師模型的知識結(jié)構(gòu)(如數(shù)據(jù)、信息、知識、智慧、目的,簡稱DIKWP),實(shí)現(xiàn)分層匹配與遷移。DIKWP分層匹配方法通過將教師模型的特征表示分解為多層次的語義單元,指導(dǎo)學(xué)生模型逐步學(xué)習(xí),從而提升遷移效率和模型可解釋性[24]。通過可視化每一層的匹配過程(如注意力圖、特征分布),研究者能夠分析學(xué)生模型在哪些層次上未能充分學(xué)習(xí),從而優(yōu)化蒸餾策略[25]。
2 關(guān)鍵技術(shù)突破
2.1特征對齊創(chuàng)新
深度神經(jīng)網(wǎng)絡(luò)的特征編碼與遷移機(jī)制構(gòu)成了知識蒸餾的理論基石。針對傳統(tǒng)方法中語義鴻溝與抽象層級失配的難題,研究者從注意力機(jī)制、選擇性遷移及多尺度融合等視角展開系統(tǒng)性探索,逐步構(gòu)建起多維度的特征傳輸理論框架,推動了知識蒸餾技術(shù)的精進(jìn)。
1)注意力轉(zhuǎn)移
特征對齊的首次突破源于空間注意力機(jī)制的引入。ZAGORUYKO 等人[17]通過將視覺注意力融入特征遷移過程,建立了師生網(wǎng)絡(luò)間的顯式注意力圖映射關(guān)系。這一方法引導(dǎo)學(xué)生模型精準(zhǔn)重構(gòu)教師特征的空間語義聚焦模式,顯著提升了特征傳遞的有效性。其數(shù)學(xué)表達(dá)形式為:
其中, At 為歸一化后的注意力權(quán)重, 表示教師模型第 Ψc 個(gè)通道的特征圖。該公式量化了教師模型在通道維度上的注意力分布特性,并通過損失( LAT )引導(dǎo)學(xué)生模型重塑其語義聚焦模式,從而實(shí)現(xiàn)特征空間的有效對齊,如公式10所示。
其中,N為訓(xùn)練樣本批次,AT(算子通過空間維度收縮生成具有類別辨別力的注意力權(quán)重場。這一創(chuàng)新方法將特征對齊從像素級的幾何匹配升華為語義級的注意力重定向,顯著提升了知識傳遞的語義一致性,為后續(xù)研究奠定了可解釋特征傳輸范式的理論基礎(chǔ)。
2)神經(jīng)元選擇性遷移
針對特征空間分布漂移的挑戰(zhàn),HUANG等人提出了神經(jīng)元選擇性遷移范式[26],開創(chuàng)了基于統(tǒng)計(jì)匹配的特征適配理論。該方法通過匹配激活區(qū)域的分布特性,實(shí)現(xiàn)特征的細(xì)粒度對齊。鑒于教師模型的神經(jīng)元激活模式蘊(yùn)含對輸入特征重要性的內(nèi)在評估,該范式采用最大均值差異(MMD)度量師生模型激活分布的差異,從而精準(zhǔn)捕捉并傳遞關(guān)鍵特征信息( LNST 如公式11所示。
其中, k(?,?) 為高斯核函數(shù), fit 和 fis 為師生模型第 i 個(gè)樣本的特征向量。該范式的理論貢獻(xiàn)在于揭示深度特征的可遷移本質(zhì)在于統(tǒng)計(jì)分布模態(tài),而非具體的特征張量,為分布式特征適配奠定了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。這一洞見不僅深化了對特征遷移機(jī)制的理解,還為后續(xù)研究提供了可量化的理論支撐。
3)多粒度特征融合
HEO等人系統(tǒng)剖析了傳統(tǒng)特征對齊方法的局限性,提出了多粒度特征融合框架[18]。該方法構(gòu)建了一個(gè)混合粒度特征傳輸體系,通過動態(tài)特征解耦有效彌合層級間的語義鴻溝,將教師特征分解為空間細(xì)節(jié)和高階語義分量。隨后,借助自適應(yīng)權(quán)重分配網(wǎng)絡(luò),根據(jù)學(xué)生模型的訓(xùn)練階段動態(tài)調(diào)節(jié)不同粒度特征的遷移強(qiáng)度,從而優(yōu)化知識傳遞效率。其權(quán)重! (wl) 表達(dá)式形式化為公式12。
其中, KLl 為第 l 層特征對齊的KL散度, γ 為溫度系數(shù)。分析表明,該方法能夠有效緩解深度神經(jīng)網(wǎng)絡(luò)層間語義斷層的問題,顯著提升特征傳遞的連貫性。在密集預(yù)測任務(wù)中,這一方法展現(xiàn)出獨(dú)特優(yōu)勢,為深度特征的可控分解與分餾提供了全新的理論范式。
2.2 動態(tài)蒸餾機(jī)制
傳統(tǒng)知識蒸餾的靜態(tài)訓(xùn)練模式難以適配師生模型間的動態(tài)交互需求。為此,動態(tài)蒸餾機(jī)制通過構(gòu)建自適應(yīng)調(diào)節(jié)系統(tǒng),實(shí)現(xiàn)了知識傳遞的動態(tài)優(yōu)化,開創(chuàng)了自適應(yīng)動態(tài)蒸餾的新范式。
1)漸進(jìn)式知識遷移
當(dāng)師生模型能力差距過大時(shí),直接蒸餾易導(dǎo)致知識坍縮,削弱學(xué)生模型的學(xué)習(xí)效能。為應(yīng)對這一挑戰(zhàn),MIRZADEH等人[27提出了教師助理框架,設(shè)計(jì)了分階段的知識傳導(dǎo)路徑,通過多級中間認(rèn)知體系實(shí)現(xiàn)從教師到學(xué)生的平滑過渡。其具體流程為:
其中每個(gè)TA 模型通過最小化與上一階段模型的 KL散度進(jìn)行訓(xùn)練:
式中, ZTAk 為第 k 個(gè)階段教師助理模型的logits輸出,每個(gè)TA單元作為中間知識導(dǎo)體,通過認(rèn)知勢能梯度的傳遞實(shí)現(xiàn)知識流的動態(tài)重組。這一過程本質(zhì)上是對認(rèn)知拓?fù)浣Y(jié)構(gòu)的自適應(yīng)調(diào)整,為超大容量差異模型的壓縮提供了堅(jiān)實(shí)的理論支撐。進(jìn)一步地,ZHU等人[28]提出了動態(tài)熵校正算法,通過調(diào)整輸出熵優(yōu)化學(xué)生模型的損失函數(shù),以縮小師生間的性能差距。具體而言,該方法利用蒸餾損失動態(tài)更新的熵控制器實(shí)時(shí)校正輸出熵分布,不僅降低了計(jì)算復(fù)雜度,還確保了知識傳導(dǎo)的完整性與一致性。
2)自適應(yīng)權(quán)重分配
在動態(tài)蒸餾機(jī)制中,自適應(yīng)權(quán)重分配通過實(shí)時(shí)評估輸入特征與任務(wù)需求,動態(tài)調(diào)節(jié)師生模型間的知識遷移強(qiáng)度。以GAIDO 等人[2在端到端語音翻譯中的研究為例,該方法引入雙通道注意力機(jī)制,融合教師模型的特征重要性評分(如MFCC方差)與學(xué)生模型的預(yù)測不確定性(基于梯度模長),實(shí)現(xiàn)權(quán)重的動態(tài)計(jì)算。這一策略優(yōu)化了知識傳遞的針對性,其權(quán)重公式( Wt,s(x) )形式化為公式14。
其中, At(x) 為教師模型的特征重要性評分, Bs(x) 為學(xué)生模型的預(yù)測不確定性, C(x) 為輸入樣本的置信度,a , β , γ 為可學(xué)習(xí)的權(quán)重參數(shù),根據(jù)師學(xué)輸出的相似性動態(tài)調(diào)節(jié)蒸餾強(qiáng)度。通過門控單元融合靜態(tài)蒸餾損失與動態(tài)對比損失,減少冗余計(jì)算并提升訓(xùn)練效率。訓(xùn)練階段采用分層自適應(yīng)策略保留基礎(chǔ)語義,微調(diào)階段強(qiáng)化上下文一致性約束,最終通過動態(tài)平衡蒸餾損失與真實(shí)標(biāo)簽損失的權(quán)重優(yōu)化精度與效率。
2.3 多教師協(xié)同
多教師協(xié)同蒸餾通過引入更多監(jiān)督信息克服單一教師的局限,構(gòu)建跨模態(tài)知識交互網(wǎng)絡(luò)。現(xiàn)有方法聚焦于集成策略、對抗訓(xùn)練和聯(lián)邦架構(gòu),實(shí)現(xiàn)異源知識的高效遷移,為復(fù)雜場景下的模型優(yōu)化提供解決方案。
1)知識集成方法
傳統(tǒng)多教師集成依賴于靜態(tài)策略(如投票或加權(quán)平均),但在無數(shù)據(jù)或隱私敏感場景下仍面臨可行性挑戰(zhàn)。LOPES等人[30提出了首個(gè)無數(shù)據(jù)多教師蒸餾框架,通過生成合成數(shù)據(jù)( |yensemble| )激活教師模型并集成其輸出如公式15。
其中, wk 為第 k 個(gè)教師的權(quán)重, zkt 為第 k 個(gè)教師模型的logits 輸入, Xsyn 為生成器合成的輸入樣本。生成器遵循從教師特征空間到潛在數(shù)據(jù)空間的微分同胚映射,這一方法突破了知識傳遞對原始數(shù)據(jù)的依賴,為無數(shù)據(jù)環(huán)境構(gòu)建虛擬知識獲取通道。
2)對抗性蒸餾
WANG等人[31提出的KDGAN首次將生成對抗網(wǎng)絡(luò)(GAN)引入多教師協(xié)同蒸餾,通過分類器(C)、教師(T)和判別器(D)的博弈實(shí)現(xiàn)高效知識遷移與真實(shí)數(shù)據(jù)分布學(xué)習(xí)。其框架中,分類器作為輕量級學(xué)生模型,負(fù)責(zé)在資源受限的推理階段生成標(biāo)簽預(yù)測,并通過雙向蒸餾損失與教師模型交互以提升預(yù)測準(zhǔn)確性;教師模型利用特權(quán)信息(如額外特征或計(jì)算資源)
生成高質(zhì)量的偽標(biāo)簽分布,并通過蒸餾損失將知識傳遞給學(xué)生,同時(shí)從學(xué)生的反饋中優(yōu)化自身;判別器通過對抗訓(xùn)練機(jī)制區(qū)分真實(shí)標(biāo)簽與偽標(biāo)簽,輸出概率以驅(qū)動生成的標(biāo)簽分布逼近真實(shí)數(shù)據(jù)。三方通過聯(lián)合優(yōu)化對抗損失與蒸餾損失實(shí)現(xiàn)動態(tài)均衡,其目標(biāo)函數(shù)為minCmaxDV(C,D)
minCmaxDV(C,D)=Ey~pu(y∣x)[logpd(x,y)]+Ey~pc(y∣x)[log(1-pd(x,y))]
其中,C為分類器,D為判別器,E為條件期望, pu(ν|x) 為真實(shí)數(shù)據(jù)分布, pc(y|x) 為分類器生成的標(biāo)簽分布,pd(x|ν) 為判別器輸出概率。該方法將對抗動態(tài)系統(tǒng)理論引入知識蒸餾領(lǐng)域,使分類器與判別器的博弈平衡對應(yīng)于最優(yōu)知識融合狀態(tài),為開放環(huán)境下的知識聚合奠定了基礎(chǔ)。
3)聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)場景下的多教師協(xié)同需應(yīng)對模型異構(gòu)性和數(shù)據(jù)隱私的雙重挑戰(zhàn)。對于學(xué)生模型,小樣本學(xué)習(xí)面臨數(shù)據(jù)過擬合的風(fēng)險(xiǎn),而增量學(xué)習(xí)則需解決災(zāi)難性遺忘問題[32]。WU等人[33]在其系統(tǒng)性綜述中指出,聯(lián)邦蒸餾的核心技術(shù)包括:首先,通過知識投影將不同結(jié)構(gòu)的教師知識映射至統(tǒng)一空間,以適配異構(gòu)架構(gòu);隨后,在教師輸出中引入高斯噪聲 (N(0,σ2)) ,滿足ε差分隱私約束,確保知識傳遞中的數(shù)據(jù)隱私保護(hù);最后,借助跨模態(tài)對齊模塊(如CLIP風(fēng)格編碼器)實(shí)現(xiàn)多模態(tài)知識的聯(lián)合蒸餾。
3 應(yīng)用領(lǐng)域分析
3.1 計(jì)算機(jī)視覺
知識蒸餾在計(jì)算機(jī)視覺(CV)領(lǐng)域的應(yīng)用已從基礎(chǔ)分類任務(wù)擴(kuò)展至復(fù)雜感知場景,其核心在于通過模型輕量化實(shí)現(xiàn)高效知識遷移,涵蓋圖像分類、目標(biāo)檢測和語義分割三大方向。
在圖像分類領(lǐng)域,知識蒸餾技術(shù)已成功應(yīng)對復(fù)雜問題。CHEN等人[34]提出基于特征圖的生成對抗網(wǎng)絡(luò)(GAN)知識蒸餾方法,將教師模型的特征圖知識轉(zhuǎn)移至學(xué)生模型,提升小模型分類精度。針對樣本間關(guān)系建模的局限,楊傳廣等人[10設(shè)計(jì)了基于圖卷積網(wǎng)絡(luò)的關(guān)系感知蒸餾框架,通過構(gòu)建樣本關(guān)系圖實(shí)現(xiàn)跨樣本特征聚合,并結(jié)合雙路徑蒸餾與元學(xué)習(xí)優(yōu)化策略,進(jìn)一步增強(qiáng)圖像分類性能。對于低分辨率人臉識別,ZHU等人[35]提出深度特征蒸餾,通過學(xué)生模型輸出特征與教師特征的對齊,使低分辨率圖像網(wǎng)絡(luò)有效捕捉人臉細(xì)節(jié)。
目標(biāo)檢測對輕量級網(wǎng)絡(luò)的需求尤為突出,知識蒸餾通過將復(fù)雜教師模型的知識遷移至輕量學(xué)生模型,成為提升效率與性能的關(guān)鍵手段[36]。王改華等人[11]通過池化主干網(wǎng)絡(luò)和雙池化注意力機(jī)制降低計(jì)算復(fù)雜度,并設(shè)計(jì)DETR通用蒸餾框架,實(shí)現(xiàn)預(yù)測結(jié)果、查詢向量及教師特征的多維度知識遷移,為輕量化目標(biāo)檢測提供了高效解決方案。WEI等人[7進(jìn)一步引入量化技術(shù),通過降低特征圖精度減少學(xué)習(xí)難度,使量化后的學(xué)生網(wǎng)絡(luò)仍能保持優(yōu)異性能。
語義分割則更傾向于細(xì)粒度知識的應(yīng)用。LIU等人[12針對語義分割任務(wù)提出結(jié)構(gòu)化知識蒸餾,通過多尺度特征圖對齊優(yōu)化預(yù)測,實(shí)現(xiàn)像素級精準(zhǔn)分割。針對細(xì)節(jié)丟失與模型冗余問題,謝新林團(tuán)隊(duì)[38]提出邊界感知蒸餾算法,創(chuàng)新設(shè)計(jì)邊界損失函數(shù)并結(jié)合自適應(yīng)融合模塊,構(gòu)建輕量化蒸餾網(wǎng)絡(luò),在保持分割精度的同時(shí)對小目標(biāo)及細(xì)長障礙物表現(xiàn)出顯著優(yōu)勢。
3.2 自然語言處理
知識蒸餾在自然語言處理(NLP)領(lǐng)域展現(xiàn)出顯著優(yōu)勢,尤其在數(shù)據(jù)增強(qiáng)、任務(wù)適配和模型輕量化方面表現(xiàn)突出。通過從大語言模型提取知識,該技術(shù)有效提升小模型在文本理解、生成和檢索任務(wù)中的性能,同時(shí)降低計(jì)算成本。
在自然語言理解任務(wù)(如文本分類、情感分析)中,標(biāo)注數(shù)據(jù)稀缺和噪聲干擾是常見挑戰(zhàn)。知識蒸餾利用教師模型的泛化能力生成高質(zhì)量偽標(biāo)簽或增強(qiáng)數(shù)據(jù),大幅提升學(xué)生模型的魯棒性。例如,DAI 等人[13]提出的AugGPT方法利用ChatGPT對臨床文本進(jìn)行語義改寫,將訓(xùn)練樣本中的句子重述為多個(gè)概念相似但表達(dá)不同的變體,豐富了數(shù)據(jù)集的多樣性。董增波[39]則在蒸餾中引入早停機(jī)制,根據(jù)樣本特性動態(tài)調(diào)整編碼層數(shù)提取特征,有效減少學(xué)生模型過擬合,同時(shí)優(yōu)化推理時(shí)間,實(shí)現(xiàn)性能與效率的平衡。
在文本摘要和機(jī)器翻譯等生成任務(wù)中,知識蒸餾不僅遷移教師模型的生成能力,還通過反饋機(jī)制提升輸出質(zhì)量。XU等人[14]用GPT-3.5生成的摘要數(shù)據(jù)蒸餾訓(xùn)練ZCode ++ 模型,使其在CNN/DM數(shù)據(jù)集上的表現(xiàn)接近教師模型。針對平行語料不足,申影利等人[40]利用單語教師模型構(gòu)建正則化因子,將泛化先驗(yàn)知識遷移至神經(jīng)翻譯學(xué)生模型,并采用“訓(xùn)練-推斷分離”架構(gòu)避免解碼延遲,顯著提升低資源翻譯性能。YEHUDAI 等人[41]則通過教師模型生成內(nèi)容相關(guān)的問答對,結(jié)合自監(jiān)督訓(xùn)練提高生成數(shù)據(jù)的質(zhì)量與可靠性。
在信息檢索任務(wù)中,知識蒸餾通過模擬教師模型的排序邏輯或生成偽查詢提升效率。ZHANG等人[42]在檢索推薦系統(tǒng)中將推薦視為指令遵循,利用ChatGPT提取個(gè)性化指令數(shù)據(jù),基于用戶真實(shí)交互歷史微調(diào)學(xué)生模型,實(shí)現(xiàn)精準(zhǔn)推薦。此外,知識蒸餾還能遷移教師模型的評估能力,構(gòu)建更符合人類偏好的評價(jià)體系。WANG等人[43]設(shè)計(jì)成對評估器,利用GPT-3.5判斷生成內(nèi)容的優(yōu)劣并提供決策依據(jù)。MuGSI框架通過多層次知識遷移與特征增強(qiáng)實(shí)現(xiàn)端到端優(yōu)化,為師生協(xié)同提供全新范式[44]。
3.3 農(nóng)學(xué)地學(xué)應(yīng)用
知識蒸餾在農(nóng)學(xué)和地學(xué)領(lǐng)域的應(yīng)用展現(xiàn)出獨(dú)特優(yōu)勢,尤其在數(shù)據(jù)處理、模型優(yōu)化和資源受限場景中。通過從大型復(fù)雜模型中提取知識,蒸餾技術(shù)能夠提升小型模型在農(nóng)業(yè)監(jiān)測、地質(zhì)分析和環(huán)境預(yù)測等任務(wù)中的性能,同時(shí)降低計(jì)算需求,適配邊緣設(shè)備部署。
在遙感圖像分類中,知識蒸餾通過融合多源特征與優(yōu)化語義表示,解決了農(nóng)業(yè)地塊識別與地表覆蓋分類中的標(biāo)注數(shù)據(jù)稀缺問題。例如:針對高光譜遙感圖像維度高、冗余性強(qiáng)的問題,趙全意等[45]提出流形蒸餾網(wǎng)絡(luò),通過SwinTransformer教師模型挖掘光譜長程依賴,并在流形空間對齊學(xué)生網(wǎng)絡(luò)特征,顯著提升了復(fù)雜地物場景的分類精度;張重陽等[4則通過融合Transformer與CNN的蒸餾框架,設(shè)計(jì)類間-類內(nèi)聯(lián)合損失函數(shù),在降低模型參數(shù)量和計(jì)算量的同時(shí)保持高分類精度,為輕量化農(nóng)業(yè)遙感分析提供了新思路。李大湘等[47]進(jìn)一步驗(yàn)證了知識蒸餾的潛力。其提出的雙知識蒸餾模型通過雙注意力模塊(DA)和空間結(jié)構(gòu)(SS)損失,將ResNet101教師網(wǎng)絡(luò)的特征提取能力遷移至輕量學(xué)生網(wǎng)絡(luò),在AID和NWPU-45數(shù)據(jù)集上僅用 20% 訓(xùn)練數(shù)據(jù)即實(shí)現(xiàn) 7% 以上的精度提升,為輕量化模型在邊緣端(如無人機(jī)、衛(wèi)星)部署提供了技術(shù)支撐。
在遙感反演領(lǐng)域中。因在農(nóng)學(xué)和地學(xué)領(lǐng)域遙感氣象參數(shù)反演精度受限于不同參數(shù)之間的物理機(jī)制不明和高維遙感數(shù)據(jù)的復(fù)雜性。知識蒸餾利用教師模型的泛化能力生成偽標(biāo)簽或增強(qiáng)數(shù)據(jù),有效提升學(xué)生模型的預(yù)測精度。例如,DAI等人利用蒸餾技術(shù)提高了地表溫度和發(fā)射率的反演精度,在蒸餾過程中引入動態(tài)特征選擇機(jī)制,根據(jù)生長周期調(diào)整教師模型的知識遷移重點(diǎn),減少學(xué)生模型對噪聲數(shù)據(jù)的過擬合,同時(shí)優(yōu)化推理速度,適應(yīng)農(nóng)業(yè)氣象參數(shù)高精度反演的需求。此外,該技術(shù)可擴(kuò)展至土壤濕度、植被覆蓋、產(chǎn)量預(yù)測等參數(shù)的反演,通過動態(tài)特征選擇增強(qiáng)模型對復(fù)雜地形的適應(yīng)性,為氣候變化研究和災(zāi)害預(yù)警提供實(shí)時(shí)支持。
4結(jié)語與討論
知識蒸餾作為解決深度學(xué)習(xí)模型效率瓶頸的核心技術(shù),已實(shí)現(xiàn)從理論創(chuàng)新到工程實(shí)踐的系統(tǒng)性跨越。本文系統(tǒng)梳理了知識遷移路徑,闡明了溫度縮放、自適應(yīng)架構(gòu)等關(guān)鍵機(jī)制的數(shù)學(xué)本質(zhì),并通過多場景實(shí)證分析驗(yàn)證了其在模型輕量化中的卓越效能。該技術(shù)不僅為人工智能的性能優(yōu)化提供了理論基石,也為邊緣智能部署開辟了實(shí)踐路徑,尤其在農(nóng)業(yè)與地學(xué)領(lǐng)域展現(xiàn)出推動精準(zhǔn)監(jiān)測與數(shù)據(jù)分析的廣闊潛力。然而,知識蒸餾技術(shù)的進(jìn)一步發(fā)展仍受限于若干核心挑戰(zhàn)。首先,知識形式的選擇(如參數(shù)、輸出、中間特征)缺乏系統(tǒng)理論支撐,經(jīng)驗(yàn)導(dǎo)向的設(shè)計(jì)易引發(fā)語義偏移與信息噪聲。其次,師生模型容量差異導(dǎo)致的動態(tài)適配難題,常引發(fā)知識冗余或傳遞失真,限制了模型在復(fù)雜環(huán)境下的魯棒性。此外,傳統(tǒng)單模態(tài)知識難以彌合表征差距,多模態(tài)協(xié)同框架的缺失進(jìn)一步削弱了跨場景泛化能力。這些瓶頸在資源受限的農(nóng)業(yè)與地學(xué)應(yīng)用中尤為突出,例如多源數(shù)據(jù)融合下的作物監(jiān)測與地質(zhì)分析。
針對上述挑戰(zhàn),未來研究應(yīng)聚焦以下方向以推動技術(shù)突破。一方面,自動化蒸餾框架是解決動態(tài)適配的關(guān)鍵路徑。結(jié)合神經(jīng)架構(gòu)搜索技術(shù),可進(jìn)一步優(yōu)化知識組合與交互機(jī)制,提升蒸餾效率。另一方面,多模態(tài)知識融合將成為增強(qiáng)模型魯棒性的重點(diǎn),需探索知識傳遞的臨界條件與聯(lián)合優(yōu)化理論,推動技術(shù)向跨模態(tài)場景延伸。在農(nóng)業(yè)與地學(xué)領(lǐng)域,這意味著整合圖像、傳感器與文本數(shù)據(jù),支持復(fù)雜環(huán)境下的智能決策,如精準(zhǔn)農(nóng)業(yè)中的病蟲害預(yù)警或地學(xué)中的災(zāi)害預(yù)測。展望未來,知識蒸餾將在理論深化與應(yīng)用拓展的雙輪驅(qū)動下,為邊緣推理、聯(lián)邦學(xué)習(xí)及跨領(lǐng)域協(xié)作提供新的技術(shù)支撐,助力人工智能在資源受限場景中的廣泛落地。
參考文獻(xiàn)
[1]MAO K,WU C, YUAN Z., et al. Theory and conditions for AI-based inversion paradigm of geophysical parameters using energy balance, EarthArXiv,2024,12:1-16.DOI: https://doi.org/10.31223/X5H13J.
[2] 毛克彪,王涵,袁紫晉,等,熱紅外遙感多參數(shù)人工智能一體化反演 范式理論與技術(shù).中國農(nóng)業(yè)信息,2024,36(3):63-80.
[3] 毛克彪,袁紫晉,施建成,等.基于大數(shù)據(jù)的遙感參數(shù)人工智能反演范 式理論形成與工程技術(shù)實(shí)現(xiàn).農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2023,5(4):1-12.
[4] GOUJ,YUB,MAYBANKJS,etal.Knowledgedistillation:A survey.International Journal of ComputerVision,2021,129(6):1-31.
[5]HINTON G E, VINYALS O, DEAN J. Distillng the knowledge in a neural network.arXiv:1503.02531,2015.
[6]DAI W, MAO K, GUO Z, et al. Joint optimization of AI large and small models for surface temperature and emissivity retrieval using knowledge distillation.Artificial Intelligencein Agriculture,2025, 15(3): 407-425.
[7]ROMERO A, BALLAS N, KAHOU SE, et al. FitNets: hints for thin deep nets//Proceedings of the 3rd International Conference on LearningRepresentations, SanDiego,May 7-9,2015:1-13.
[8]PARK W,KIMD,LU Y,etal.Relational knowledge distillation// Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition,Long Beach,Jun 16-20,20l9.Piscataway: IEEE, 2019:3967-3976.
[9]KIM J, PARK S, KWAK N. Paraphrasing complex network: network compression via factor transfer.arXiv:1802.04977,2018.
[10]楊傳廣,陳路明,趙二虎,等.基于圖表征知識蒸餾的圖像分類方法.電 子學(xué)報(bào),2024,52(10):3435-3447.
[11]王改華,李柯鴻,龍潛,等.基于知識蒸餾的輕量化 Transformer目 標(biāo)檢測.系統(tǒng)仿真學(xué),2024,36(11):2517-2527.DOI:10.16182/j. issn1004731x.joss.24-0754.
[1Z]LIU Y, CHEN K,LIU C, et al. Structured knowledge distilation tor semantic segmentation.CoRR,2019,abs/1903.04197.
[13]DAI H,LIU Z,LIAOW, et al. AugGPT: Leveraging ChatGPT for text dataaugmentation.IEEE Transactions onBig Data,2025.3536934.
[14]XU Y, XUR, ITERD,et al.InheritSumm: A general,versatile and compact summarizerby distilling from GPT. ArXiv, 2023. DOI:10.48550/arXiv.2305.13083.
[15]HOU W,ZHAOW, JIA N, etal.Low-resource knowledge graph completionbasedonknowledge distilationdivenbylarge laguage models.Applied Soft Computing,2025,169112622-112622.
[16] ACHARYA K, VELASQUEZ A, SONG H H. A survey on symbolic knowledge distillation of large language models.IEEE Transactions on Artificial Inteligence,2024.DOI:10.1109/TAI.2024.3428519.
[17] ZAGORUYKO S, KOMODAKIS N. Paying more attention to attention:Improving the performance of convolutional neural networks viaattention transfer. CoRR,20l6abs/161.0928.
[18]HEO B,KIMJ, YUN S,et al.A comprehensive overhaul of feature distillation.CoRR,2019,abs/1904.01866.
[19]ZHANGY,XIANGT,HOSPEDALEST M,etal.DeepMutual Learning.2018 IEEE/CVF Conference on Computer Vision and PatternRecognition,SaltLakeCity,UT,USA,2018:4320-4328.
[20] ANIL R,PEREYRA G, PASSOS A T, et al. Large scale distributed neural network training through online distillation. International Conferenceon Learning Representations (ICLR),Vancouver, Canada, 2018.
[21]FURLANELLOT,LIPTON ZC, TSCHANEN M,etal.Bornagain neural networks.International Conferenceon Machine Learning (ICML), Stockholm, Sweden,2018:1602-1611.
[22] HSIEH C Y, HUANG J, HUANG S,et al. Distillng step-by-step: Training smaller models with less data via reasoning transfer. In Advances in Neural Information Processing Systems (NeurIPS). arXiv,2024. https://doi. org/10.48550/arXiv.2305.02301.
[23]LI Y,LI Z,ZHANGY, etal. Self-consistency decoding for chain-of thought distillation.In Proceedings ofthe International Conferenceon Machine Learning (ICML),2024.
[24] DUAN Z, WANG Y, LI X, et al. DIKWP: A hierarchical knowledge distillation framework forinterpretable model compression.In Proceedingsof the AAAI Conference on Artificial Intelligence (AAAI), 2025.
[25]JIANGY,ZHAO X,WUY,etal.Aknowledge distillation-based approach to enhance transparency of classifiermodels.arXivpreprint arXiv,2025.https://doi.org/10.48550/arXiv.2502.15959.
[26]HUANG Z,WANG N.Like what you like:Knowledge distill via neuronselectivity transfer.2017.DOI:10.48550/arXiv.1707.01219.
[27]MIRZADEHI S, FARAJTABAR M,LI A, et al. Improved knowledge distillation viateacher assistant.Proceedings of theAAAI Conference onArtificial Intelligence,2020,34(4):5191-5198.
[28]ZHUS,SHANGR,YUANB,etal.DynamicKD:Aneffective knowledge distillation via dynamic entropy correction-based disillationforgapoptimizing.PatternRecognition,2024,153 (12):110545.
[29]GAIDO M, DI GANGI M A, NEGRI M, et al. End-to-End Speech-Translationwith KnowledgeDistillation:FBK@IWSLT2020 //17th International Conference on Spoken Language Translation, Online,2020:80-88.Association for Computational Linguistics.
[30] LOPES R G FENU S, STARNER T. Data-Free knowledge distillation for deep neural networks.2017.DOI:10.48550/arXiv.1710.07535.
[31]WANG X, ZHANG R, SUNY, et al. KDGAN: Knowledge distillation withgenerative adversarial networks.Neural Information Processing Systems (Neur),ontreal, Canada,218.https://apisemanticsholar. org/CorpusID:53976534.
[32]AKMEL F,MENG F,LIU M,et al.Few-shot class incremental learning via prompt transfer and knowledge distillation. Image and Vision Computing,2024,151105251-105251.
[33]WU Z,SUNS,WANG Y, etal.Knowledge distillation in federated edgelearning:A survey.arXiv,2023.https://arxiv.org/abs/2301. 05849.
[34]CHEN WC, CHANG C C, LEE CR. Knowledge distillation with feature maps for image classification. Asian Conference on Computer Vision (ACCV), Sydney, Australia, 2018:200-215. Springer, Cham. https://doi.0rg/10.1007/978-3-030-20893-6_13.
[35] ZHU M, HAN K, ZHANG C,etal.Low-resolution visual recognition via deep feature distillation. 20l9 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),Brighton,UK,
2019:3762-3766. doi:10.1109/ICASSP.2019.8682926.
[36]SUNF,JIAJ,HANX,etal. SmalSample target detectionacross domains based on supervision and distillation. Electronics,2024, 13(24):4975-4975.
[37]WEI Y, PAN X,QIN H, et al. Quantization Mimic: Towards very tiny CNN for object detection. European Conference on Computer Vision (ECCV),Munich,Germany,2018.Lecture Notesin Computer Science,vol 11212.Springer,Cham.
[38] 謝新林,段澤云,羅臣彥,等.邊界感知引導(dǎo)多層級特征的知識蒸餾交 通場景語義分割算法.模式識別與人工智能,2024,37(9):770-785.
[39] 董增波,徐詩雨,陳曦,等.電力領(lǐng)域自然語言理解模型的輕量化研究. 哈爾濱理工大學(xué)學(xué)報(bào),1-8[2025-03-05].htp://kns.cnki.net/kcms/ detail/23.1404.N.20231204.1602.020.html.
[40]申影利,趙小兵.語言模型蒸餾的低資源神經(jīng)機(jī)器翻譯方法.計(jì)算機(jī) 工程與科學(xué),2024,46(4):743-751.
[41]YEHUDAI A,CARMELIB,MASS Y, et al. Genie: Achieving human parityin content-grounded datasets generation.arXiv,24ol.14367.
[42]ZHANG J,XIER,HOU Y,etal.Recommendation as instruction following:A large language model empowered recommendation approach.2023.DOI:10.48550/arXiv.2305.07001.
[43]WANGY,YU Z,YAO W, etal.PandaLM:An automatic evaluation benchmark for LLM instruction tuning optimization. International Conference on Learning Representations (ICLR),New Orleans,LA, USA,2024.
[44]YAO TJ, SUN J Q, CAO D F, et al. MuGSI: Distilling GNNs with Multi-Granularity Structural Information for Graph Classification. ACM Web Conference 2024 (WWW 2024),Singapore, 2024:709-720. ACM.
[45] 趙全意,鄭福建,夏波,等.基于深度流形蒸餾網(wǎng)絡(luò)的高光譜遙感圖像 場景分類方法.測繪學(xué)報(bào),2024,53(12):2404-2415.
[46] 張重陽,王斌.基于知識蒸餾的輕量化遙感圖像場景分類.紅外與毫 米波學(xué)報(bào),2024,43(5):684-695.
[47]李大湘,南藝璇,劉穎.面向遙感圖像場景分類的雙知識蒸餾模型.電子與信息學(xué)報(bào),2023,45(10):3558-3567.
引用格式:毛克彪,代旺,郭中華,孫學(xué)宏,肖柳瑞.AI知識蒸餾技術(shù)演進(jìn)與應(yīng)用綜述[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2025,7(2):144-154.DOI:10.19788/jism.2096- 6369.000106.
Abstract:KnowledgeDistilltion(KD)inArtificial Intellgence(AI)achievesmodellightweightingthroughateacher-stdent framework,emergingasakeytechnology toaddress the performance-eficiencybotleneck indeep leaming.This paper systematicallanalyzesKDstheoreticalframeworkfromteperspectiveofalgorithmevolution,categoringknowledgetrasfer pathsintofouaigpsdbsdioddcbsdIbspatiio systemfordynamicand static KDmethods.We deeply explore innovative mechanismssuch ascrossmodal featurealignment, adaptive ditilationarchitectures,andmulti-teachercollaborativevalidation,whileanalyzingfusionstrategieslikeprogesive knowlede transferandadversarialdistilltion.Trough empiicalanalysisicomputervisionand naturalanguage proceing,we assessKD'spracticalityinsenarioslikemageclasscationmanticsgmetationandtextgnerationNotablyweghligt KD's potentialingicultueandgeosics,ablingfiientdeploymentinesourcostraedsingsfoprecisinaiculue andgeospatial analysis.Curent modelsoften faceissues likeambiguous knowledge selection mechanismsandinsuficient theoreticalinterpretability.Accordinglywedisussthefeasibilityofautomateddisilationsystemsandmultimodal kowledge fusion,offringnetehnicalpathwaysforedgeinteligencedeploymentandpivacycomputingparticularlysuitedforagricultural intelligence and geoscience research.
Keywords: knowledge distilation; model compresson; knowledge transfer;dynamicoptimization;multimodal learing