亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的LLaMA 2大語言模型微調(diào)優(yōu)化方法

        2024-09-22 00:00:00孫倩石競澤裴麗君張倩怡徐鳳強
        軟件工程 2024年9期

        關(guān)鍵詞:大語言模型;微調(diào)優(yōu)化;遷移學(xué)習(xí)

        中圖分類號:TP312 文獻標志碼:A

        0 引言(Introduction)

        近年來,大型語言模型[1]的出現(xiàn)和發(fā)展對自然語言處理和人工智能領(lǐng)域產(chǎn)生了變革性影響。自GPT-3(Generative Pre-Trained Transformer v3)問世以來,逐漸涌現(xiàn)出一批具有強大競爭力的語言模型,例如ChatGPT[2]、Meta LLaMA[3]、文心一言、盤古大模型等。利用大模型技術(shù)解決實際任務(wù),已經(jīng)成為人工智能領(lǐng)域的發(fā)展趨勢。然而,大模型技術(shù)應(yīng)用于下游任務(wù)時,常常面臨諸多挑戰(zhàn),例如數(shù)據(jù)規(guī)模龐大、計算資源有限,以及模型微調(diào)所需的訓(xùn)練成本高、微調(diào)時間長等,因此大模型難以通過傳統(tǒng)的模型訓(xùn)練方式來進一步提高自身的性能。因此,本文主要研究大模型微調(diào)優(yōu)化方法并對其進行改進,通過遷移學(xué)習(xí)[4]將預(yù)訓(xùn)練模型遷移至下游任務(wù)場景,然后進行模型微調(diào)(Fine-tuning)優(yōu)化,在繼承預(yù)訓(xùn)練模型的泛化能力的同時,使模型能夠適應(yīng)下游任務(wù)場景,從而提高LLaMA 2[5]預(yù)訓(xùn)練大模型在特定任務(wù)場景下的應(yīng)用性能。

        1LLaMA 2大語言模型介紹(Introduction of LLaMA 2 pre-trained large model)

        本文采用的預(yù)訓(xùn)練模型是由Meta AI正式發(fā)布的最新一代開源大模型LLaMA 2[5],是一種用于自然語言處理的深度學(xué)習(xí)模型。LLaMA 2大語言模型是基于原始Transformers架構(gòu)[6]的生成式預(yù)訓(xùn)練模型,其訓(xùn)練數(shù)據(jù)集包括2萬億個token,上下文長度為4 096,參數(shù)包括7 B、13 B和70 B,在各種基準集的測試上的表現(xiàn)突出,并且在多個下游任務(wù)上的表現(xiàn)超過了GPT-3。

        1.1LLaMA 2大語言模型結(jié)構(gòu)

        LLaMA 2大語言模型基于自回歸Transformer架構(gòu)實現(xiàn),采用32層Transformer的解碼器(decoder-only)作為主干網(wǎng)絡(luò),通常用于條件生成任務(wù)。模型首先通過詞嵌入(WordEmbedding)將輸入文本轉(zhuǎn)換為詞向量;其次將詞向量輸入解碼器網(wǎng)絡(luò),學(xué)習(xí)詞向量之間的語義關(guān)系,通過解碼器的迭代學(xué)習(xí)提高模型對文本信息的處理能力;最后根據(jù)給定的條件信息,可以通過解碼器生成相應(yīng)的答案進行輸出,LLaMA 2大語言模型結(jié)構(gòu)圖如圖1所示。

        1.2 模型訓(xùn)練及遷移應(yīng)用

        LLaMA 2大語言模型訓(xùn)練過程如下:首先需要準備大規(guī)模的文本語料庫作為訓(xùn)練數(shù)據(jù),并進行預(yù)處理;其次采用詞嵌入技術(shù)將文本數(shù)據(jù)向量化;最后使用數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,通過定義的損失函數(shù)和優(yōu)化算法調(diào)整模型參數(shù)。在訓(xùn)練過程中,參數(shù)更新分為前向傳播和反向傳播兩個階段。前向傳播是指將訓(xùn)練數(shù)據(jù)從輸入層傳遞到輸出層的過程,反向傳播則是計算模型參數(shù)的梯度并利用優(yōu)化器更新參數(shù)。經(jīng)過多次迭代后,模型逐步學(xué)習(xí)到語料庫中的語言規(guī)律和概率分布。

        LLaMA 2大語言模型訓(xùn)練過程中,淺層語言知識,如詞法、詞性、句法等存儲在模型的底層和中層,而抽象類的語言知識,如語義、邏輯、推理等廣泛分布在模型的中層和頂層結(jié)構(gòu)中,這種模型可以被視為通用的語言理解系統(tǒng)。因此,可以利用遷移學(xué)習(xí)思想將訓(xùn)練好的LLaMA 2大語言模型用于各種下游任務(wù),例如智能問答、文本分類、情感分析、機器翻譯等。

        受訓(xùn)練數(shù)據(jù)集的影響,在下游任務(wù)中,原始模型一般會面臨不完全適配具體任務(wù)場景的問題。因此,需要通過微調(diào)訓(xùn)練,將模型的語言理解能力遷移到特定的下游任務(wù)中,并與下游任務(wù)的語境知識進行適配,提高模型的應(yīng)用性能。

        2LLaMA 2大語言模型微調(diào)優(yōu)化方法(LLaMA 2large language model fine-tuning optimizationmethods)

        2.1LLaMA 2大語言模型微調(diào)

        微調(diào)LLaMA 2大語言模型的核心技術(shù)包含兩個部分:一部分是損失函數(shù),用來驗證模型輸出的優(yōu)劣;另一部分是優(yōu)化器,通過損失函數(shù)的梯度更新模型的參數(shù),使模型的輸出更接近正確的目標。

        為了提高大語言模型的微調(diào)效率,本文分別對損失函數(shù)和優(yōu)化器進行改進。通過在損失函數(shù)中引入權(quán)重方向懲罰因子,減少多頭自注意力機制中對輸入向量的加權(quán)值與其梯度方向相反的情況;通過改進優(yōu)化器權(quán)重衰減策略,平衡模型權(quán)重參數(shù)的衰減程度,進一步提高模型的優(yōu)化性能。

        本文分別對原有損失函數(shù)和優(yōu)化器進行改進,加快了LLaMA 2預(yù)訓(xùn)練大模型的微調(diào)收斂速度。同時,本文優(yōu)化的方法不僅適用于LLaMA 2預(yù)訓(xùn)練大模型,還適用于其他具有前向傳播和后向傳播機制的網(wǎng)絡(luò)模型。

        3 實驗(Experiment)

        為了驗證本文方法的效果,設(shè)計了基于LLaMA 2預(yù)訓(xùn)練模型的微調(diào)優(yōu)化實驗。

        3.1 數(shù)據(jù)集

        本文的數(shù)據(jù)集來源是huggingface 2.4.1的問答任務(wù)。問答任務(wù)(Question Answering)[10]是根據(jù)提出的問題生成使用自然語言的回答,數(shù)據(jù)集如表1所示。

        3.2 參數(shù)設(shè)置

        模型由24層編碼器和解碼器組成,模型的隱層維度(Hidden State Dimensions)為1024,前饋網(wǎng)絡(luò)維度(FeedForward Dimensions)為[1 024, 4 096, 1 024],設(shè)置參數(shù)更新步數(shù)(Steps)為1000,最大輸入序列長度(Maximum SequenceLength)為1 024,最大輸出序列長度(Maximum TargetLength)為512,批樣本容量(Batch Size)為16。使用改進后的優(yōu)化器,其中β1=0.9,β2=0.95,ε=8×10-4,并設(shè)置學(xué)習(xí)率初始為0,在前10%的步數(shù)中逐漸預(yù)熱至峰值,隨后在剩余的步數(shù)中逐漸衰減至8×10-5,學(xué)習(xí)率變化曲線如圖2所示。設(shè)置權(quán)重方向懲罰的權(quán)重α=0.3。

        3.3 問答任務(wù)實驗結(jié)果與分析

        為驗證本文預(yù)訓(xùn)練大模型微調(diào)優(yōu)化方法的性能,基于LLaMA 2大語言模型進行問答任務(wù)微調(diào)實驗。采用問答任務(wù)數(shù)據(jù)集分別在原方法和改進后的優(yōu)化方法上迭代微調(diào)1 000次,對實驗結(jié)果進行對比。為保證實現(xiàn)效果,本文使用相同的學(xué)習(xí)率設(shè)置策略。

        3.3.1 問答任務(wù)損失情況分析

        本實驗將訓(xùn)練過程和驗證過程的損失收斂情況進行可視化,問答任務(wù)訓(xùn)練損失曲線如圖3所示,問答任務(wù)驗證損失曲線如圖4所示,圖中的實線為優(yōu)化后的訓(xùn)練損失曲線和驗證損失曲線,虛線為未優(yōu)化的訓(xùn)練損失曲線和驗證損失曲線。

        對訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)的損失函數(shù)收斂情況進行分析發(fā)現(xiàn),無論是在訓(xùn)練過程還是在驗證過程中,尤其是在迭代次數(shù)較小的情況下,經(jīng)優(yōu)化后的損失函數(shù)收斂速度更快。這說明本文提出的損失函數(shù)在較少的迭代步數(shù)下可以加速模型的學(xué)習(xí),并且可以使模型的輸出更接近正確的目標。

        3.3.2 問答任務(wù)實例

        為了進一步驗證改進后的模型微調(diào)優(yōu)化方法的性能,分別利用未改進與通過改進的微調(diào)優(yōu)化方法的模型進行問答任務(wù)測試。當向模型提問“先天性單管擴張疾病是什么?”時,使用本文提出的改進的微調(diào)優(yōu)化方法的模型在訓(xùn)練初期(迭代第100輪時)便可得到正確答案,而此時未使用改進的微調(diào)優(yōu)化方法的模型仍沒有得到正確答案,甚至出現(xiàn)亂碼等情況。通過實例說明本文提出的改進微調(diào)優(yōu)化方法短時間內(nèi)達到的收斂速率更快,問答任務(wù)實例如表2所示。

        4 結(jié)論(Conclusion)

        本文針對大模型在應(yīng)用于實際任務(wù)場景的微調(diào)過程中面臨的時間過長、成本高等問題,提出一種基于遷移學(xué)習(xí)的LLaMA 2預(yù)訓(xùn)練大模型微調(diào)優(yōu)化方法。該方法通過改進自注意力驗jDXXGAILiQEHyjMPvPL+9Q==證的損失函數(shù)及優(yōu)化器,加快模型的收斂速度。在問答任務(wù)的數(shù)據(jù)集上進行實驗驗證,通過訓(xùn)練損失對比和驗證損失對比,可以看出改進后的模型收斂速度更快,因此改進后的微調(diào)優(yōu)化方法可以有效減少微調(diào)的迭代次數(shù),提高微調(diào)效率,從而提升大語言模型在下游任務(wù)的遷移應(yīng)用能力。

        作者簡介:

        孫倩(1993-),女,碩士,講師。研究領(lǐng)域:深度學(xué)習(xí),自然語言處理。

        石競澤(2004-),男,本科生。研究領(lǐng)域:人工智能,深度學(xué)習(xí)。

        裴麗君(1987-),女,碩士,講師。研究領(lǐng)域:人工智能,自然語言處理。

        張倩怡(1994-),女,碩士,講師。研究領(lǐng)域:人工智能,自然語言處理。

        徐鳳強(1991-),男,博士,講師。研究領(lǐng)域:人工智能,深度學(xué)習(xí),圖像識別。

        国产精品多人P群无码| 成人无码一区二区三区| 亚洲精品一区二区三区四区久久 | 亚洲又黄又大又爽毛片| 国产av一区二区内射| 极品尤物精品在线观看| 久久久无码人妻精品无码| 亚洲日韩乱码中文无码蜜桃臀 | 在线偷窥制服另类| 免费人妻精品一区二区三区| 欧美牲交a欧美牲交aⅴ| 中文字幕在线精品视频入口一区| 国产精品国语对白露脸在线播放| 久天啪天天久久99久孕妇| 国产精品国产三级国a| 国产乱码人妻一区二区三区| 天堂а√在线中文在线新版 | 99成人无码精品视频| 国产男女乱婬真视频免费| 精品亚洲国产日韩av一二三四区| 97色偷偷色噜噜狠狠爱网站| 亚洲男同志gay 片可播放| 国产毛片三区二区一区| 亚洲伦理第一页中文字幕| 国产尤物精品视频| 五月天激情小说| 国产亚洲午夜高清国产拍精品不卡| 国产精品午夜夜伦鲁鲁| 欧美精品人人做人人爱视频| 亚洲人成无码网站久久99热国产| 亚洲区日韩精品中文字幕| 国产一区二区三区观看视频 | 亚洲中文字幕熟女五十| 色呦呦九九七七国产精品| 国产成人综合亚洲看片| 熟女性饥渴一区二区三区| 日本高清二区视频久二区| 日本一区二区三区区视频| 三年中文在线观看免费大全| 少妇高潮惨叫久久久久久| 91亚洲人成手机在线观看|