顧玉蓉
摘要:近年來,預訓練模型在深度學習算法中的應用越發(fā)廣泛,其具體功能愈加完善。文章首先闡述了深度學習的研究進展及其存在的問題,其次由深度學習的應用引入預訓練模型的概念、應用方式及其在深度學習算法優(yōu)化中的作用,最后總結了預訓練模型存在的不足及發(fā)展前景。隨著自然語言處理技術的進一步發(fā)展,基于預訓練模型的深度學習算法的弊端得到部分消除,未來發(fā)展前景值得期待。
關鍵詞:預訓練模型;深度學習;計算機;信息時代
中圖分類號:TP39? 文獻標志碼:A
0 引言
信息時代的深度發(fā)展,促使計算機應用在各行各業(yè)深入滲透,由此形成了諸多廣泛而豐富的功能需求。在這種背景下,基于人工神經網絡的深度學習(Deep Learning,DL)算法應運而生。同時,隨著信息技術的全面發(fā)展,深度學習算法在許多新興技術中扮演著重要的角色,例如無人駕駛汽車、人臉識別、圖片識別及分類、機器翻譯、目標識別、情感識別和藝術創(chuàng)作等。
1 深度學習算法發(fā)展現狀
任何事物的發(fā)展都具有兩面性,深度學習算法也不例外。深度學習算法區(qū)別于傳統(tǒng)的機器學習,網絡層級更為復雜,需要更多的訓練樣本。盡管深度學習算法應用廣泛,功能強大,但隨著應用需求的多樣性拓展和對海量訓練樣本的操作需求,其缺陷也逐漸浮現。
1.1 只能根據既有的樣本數據學習,無法判斷數據是否正確
深度學習模仿樣本數據中的內容,對于數據正確與否無法判斷。即深度學習側重“學習”,基于數據中內容出現的頻率而做出判斷,對于數據的內涵無法深刻理解,這導致深度學習得出的結果常常違背社會發(fā)展的規(guī)則,甚至令人啼笑皆非。例如,某公司員工樣本模型中男性多于女性,那么深度學習在招聘中則會優(yōu)先篩選和識別男性應聘者。這一結論顯然是違背公平原則的,因而深度學習判斷結果需要大量、豐富且多元的樣本支持。
1.2 無法自動修正學習結果
深度學習的訓練結果無法自動修正,即無法在訓練之后再加以局部修補,這是因為其僅僅是一個神經網絡,不具備智能修正功能。此外,數據、網絡和連接具有復雜性,哪怕是微小的變化,也會引發(fā)深度學習模型的重大失誤,對訓練結果造成重大影響,使結論偏離原有的方向。深度學習算法的訓練取決于深度學習模型的數據特征,因而深度學習要想獲得一個有效的、實用性強的訓練結果,技術人員就必須構建一個數據多元、完全平衡、公正公平且鮮少難見的真實世界的數據模型,對其進行訓練[1]。
1.3 無法解釋做出的決策
深度學習的原則是利用深度來取代廣度,這樣可以進一步減少參數的應用范圍,提高數據擬合能力。因此,在很多情況下,深度學習算法在大多數情況下比傳統(tǒng)的機器學習更具有優(yōu)勢。但其擺脫不了固有的原理,即深度學習仍然是一個映射f(x)=y,例如x是輸入的手寫數字圖片,那么y就是0~9中的一個。深度學習給出的是非自然(合法)語言解釋的結果,這樣的結果往往符合代碼和算法規(guī)則,卻很難被人類理解并接受。它無法理解人類的情感、倫理,例如公平、正義和道德,只會根據樣本的偏好訓練獲得傾向性結果。
1.4 缺乏先驗性
深度學習是相對獨立的一種算法,它一次只能解決一個問題,無法跨越多個域獲取數據并創(chuàng)建復雜算法[2]。訓練模型不會對數據進行自適應,一旦數據發(fā)生變化,深度學習系統(tǒng)就要重新進行模型培訓和測試。關于人類最基礎的物理學和基礎數學,深度學習中也無法自主獲得,必須通過明確的編程將其納入人工智能系統(tǒng)才可能實現。
1.5 需要耗費巨大的算力資源
一個普通的深度學習模型往往需要強大的CPU能力支持,甚至是GPUs,這會導致應用成本十分高昂,一般企業(yè)或地方政府鮮有余力承受這樣高額的經濟支出。
2 預訓練模型
深度學習算法存在的諸多問題都與訓練模型中的樣本數據有關。因而,在正式訓練開展之前,要想提高深度學習算法的準確性和可行性,需要建立預訓練模型,對其加以反復訓練,并對訓練結果加以分析,不斷修正數據偏差,建立相對公平、公正且符合人類期待的預訓練模型。
2.1 預訓練模型的概念
預訓練模型是使自然語言處理由原來的手工調整參數、依靠ML專家的階段,進入可以大規(guī)模、可復制的大工業(yè)實戰(zhàn)階段[3],從單語言擴展到多語言、多模態(tài)任務,具備更豐富、更智能的特征。預訓練模型基于遷移學習原理,賦予計算機聽說讀寫、搜索翻譯、問答對話和摘要總結等能力。
2.2 預訓練模型的應用特征
首先,預訓練模型實質是一種遷移學習的應用,其利用幾近無限的文本,學習輸入的句子中每一個部分上下文相關的表示,從隱藏層面的學習升級為通用的語法和語義知識[4]。
其次,預訓練模型將從開放領域學到的知識遷移到下游任務,目標在于改善低資源任務這樣非常有利于處理的資源語言。
再次,預訓練模型在幾乎全部的自然語言處理任務中都獲得了目前最好的成績。因而利用這樣的預訓練模型獲得的結果更符合人類需求,其可行性更強,應用更能落到實處。
最后,預訓練模型+微調機制擁有良好的可擴展性,當需要支持一個新任務時,技術人員僅僅將該任務中的標注數據進行微調即可。微調是將頂部的幾層解凍,將解凍的幾層和新增的部分,如全連接層聯合訓練。微調是略微調整復用模型更加抽象的表示部分,這樣可以使模型與當前求解問題更加相關。
3 預訓練模型在深度學習算法中的應用
當需要使用深度學習算法執(zhí)行某個任務時,在一個原始任務上預先訓練一個初始模型,然后在目標任務上使用該模型,針對目標任務的特性,精細調整該初始模型,進而實現目標任務甚至超要求完成任務。從根本上而言,這是一種遷移學習的方式,使用預先訓練好的模型,完成當前的目標任務。這對文本語言而言,具有一定的天然的標注特征存在。這是因為文本訓練模型不僅可以根據之前輸入的詞語進行預測,而且文本詞語一般較為豐富且數量眾多,可形成一個巨大的預訓練數據,提供自監(jiān)督效果。這是依據之前詞語輸出的,具有自監(jiān)督學習的預訓練[3]。
具體而言,針對深度學習算法存在的問題,可以考慮使用ELMo模型、GPT模型兩個預訓練模型加以改進。
3.1 ELMo模型
早前的深度學習算法,無法解決一詞多義的問題,無法理解任務復雜的語境。ELMo模型針對這種情況具有靶向改善效果。該模型通過深層雙向語言模型構建文本,可以有效解決一詞多義的問題。
ELMo基于大規(guī)模的無監(jiān)督語料,構建了一個預訓練雙向LSTM語言模型。該模型分為兩個階段:第一階段是大規(guī)模語料庫上利用語言模型進行預訓練;第二個階段是在做下游任務時,從預訓練網絡中提取的對應單詞的網絡各層詞嵌入作為新特征補充到下游任務中。它是一種典型的基于特征融合的預訓練模型,它的模型結構如圖1所示。
ELMo模型大大減少了所需訓練數據數量,不僅縮短了深度學習算法的學習時間,也能賦予深度學習算法一定程度的理解能力,提升用戶對訓練結果的滿意度,可以減少訓練結果不盡如人意的情況,使訓練結果更具有可操作性和落地時效性。
3.2 GPT模型
ELMo使計算機界意識到了基于大規(guī)模預料集預訓練的語言模型的效果,與此同時,Transformer的提出使得其在處理長期依賴性任務方面比LSTM有更好的表現,它在機器翻譯等任務上取得的成果也被認為是LSTM的替代品。在此背景下,OpenAI的ALEC R等[5]提出了生成式預訓練語言模型。
GPT模型也分為兩階段:第一階段利用無監(jiān)督的預訓練語言模型進行預訓練,學習神經網絡的初始參數;第二階段通過有監(jiān)督的微調模式解決下游任務,這是一種半監(jiān)督的方法,結合了非監(jiān)督的預訓練模型和監(jiān)督的微調模型,是一種通用的表示法。
GPT模型的部分凍結網絡結構,微調操作可以減少重新訓練的計算量,提升訓練速度,同時優(yōu)化深度學習空間。中小型預訓練模型可有效節(jié)約算力資源,節(jié)省深度學習算法所需的空間,降低操作成本。
4 預訓練模型存在的不足
預訓練模型雖然在優(yōu)化深度學習算法方面有很大優(yōu)勢,但由于模型數量、類別眾多,訓練目標任務也各不相同,其也不可避免地存在一些缺陷。
(1)一般預訓練模型都較大,包含的參數數量眾多,凍結的模型結構固化,靈活性相對較弱,網絡結構可調節(jié)性弱。由于模型規(guī)模較大,計算量隨之增加,應用場景有一定限制。
(2)分類較多,促使預訓練模型在執(zhí)行監(jiān)測任務時容易導致函數丟失,與類別分布差異較大,優(yōu)化空間的功能因不同的任務模型存在差異。
(3)凍結微調部分網絡結構時,需指定目標類別,對于差異較大的目標類別分布,微調效果微弱。
具體而言,最大的缺陷集中在過擬合模型上。在深度學習中,假設數據滿足獨立同分布(Independently & Identically Distributed,IID),即當前已產生的數據可以對未來的數據進行推測與模擬,使用歷史數據建立模型,即使用已經產生的數據去訓練,然后使用該模型去擬合未來的數據。但是一般獨立同分布的假設往往不成立,即數據的分布可能會發(fā)生變化(Distribution Drift),并且可能當前的數據量過少,不足以對整個數據集進行分布估計,因此往往需要防止模型過擬合,提高模型泛化能力。為了達到該目的,最常見的方法便是正則化,即在對模型的目標函數(Objective Function)或代價函數(Cost Function)加上正則項[6]。
這樣會導致訓練模型需要緊密或精確地匹配特定數據集,以至于無法良好地擬合其他數據或預測未來的觀察結果的現象。在對參數過多或者結構過于復雜的統(tǒng)計模型進行訓練時,有可能由于預訓練模型數據不夠,即訓練數據無法對整個數據的分布進行估計的時候,或者在對模型進行過度訓練(Overtraining)時,常常會導致模型的過擬合(Overfitting)[6],如圖2所示。
從圖2可以看出,隨著模型正式用于深度學習算法的訓練,模型的復雜度逐漸增加,此時模型在訓練數據集上的訓練誤差會逐漸減小,但是在模型的復雜度達到一定程度時,模型在驗證集上的誤差反而隨著模型的復雜度增加而增大。此時便發(fā)生了過擬合,即模型的復雜度升高,但是該模型在除訓練集之外的數據集上卻不奏效[7]。
5 結語
當前,深度學習算法隨著智能時代的到來,應用愈加深入,未來也將發(fā)揮更加重要的作用。本研究針對深度學習算法發(fā)展中存在的幾個常見問題,提出了利用ELMo模型和GPT模型改善缺點的策略。ELMo模型通過深層雙向語言模型構建文本表示改善了特征維度過多的問題,對于深度學習存在的無法解釋的傾向性訓練結果有改進效果。GPT模型采用的微調模型,順應局部性原理,簡化了模型假設復雜的體量,這些策略都極大地提高了計算卷積的速度。盡管預訓練模型仍存在一定缺陷,但是隨著計算機技術的發(fā)展,未來這些缺陷也將一一克服,其發(fā)展前景依然廣闊。
參考文獻
[1]張超群.基于深度學習的字符識別[D].成都:電子科技大學,2016.
[2]加里·馬庫斯.深度學習:批判性思維的研究[EB/OL].(2019-09-11)[2022-08-16].https://www.bilibili.com/video/av67393092.
[3]王浩暢,孫孟冉,趙鐵軍.基于ELMO的低資源神經機器翻譯[J].計算機與現代化,2021(7):38-42.
[4]DXW.李理:從Image Caption Generation理解深度學習(part II)[EB/OL].(2016-09-06)[2022-12-20].http://www.360doc.com/content/16/0905/09/31460730_588500799.shtml.
[5]ALEC R, KARTHIK N, TIM S, et al.Improving language understanding by generative pre-training[EB/OL].(2019-08-16)[2023-02-15].https://www.docin.com/p-2176538517.html.
[6]深度機器學習.深度學習,過擬合問題[EB/OL].(2018-06-20)[2022-12-20].https://www.cnblogs.com/eilearn/p/9203186.html.
[7]微軟亞洲研究院.為什么要做預訓練模型[EB/OL].(2022-08-05)[2022-08-13].https://www.zhihu.com/question/327642286.
(編輯 王雪芬)
Optimization study of deep learning algorithm based on pre-training model
Gu? Yurong
(Bayin Guo Leng Vocational and Technical College, Korla 841000, China)
Abstract:? In recent years, pre-trained models have been more widely used in deep learning algorithms, and their specific functions have become more perfect. The paper first expounds the research progress of deep learning and its problems existing. Secondly, it introduces the concept, application mode and its role in the optimization of deep learning algorithm, and finally summarizes the shortcomings, solution strategies and development prospects of the pre-training model. With the further development of natural language processing technology, the drawbacks of deep learning algorithms based on pre-training models have been partially eliminated, and the future development prospect is worth looking forward to.
Key words: pre-training model; deep learning; computer; information age