亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于遷移學(xué)習(xí)的LLaMA 2大語言模型微調(diào)優(yōu)化方法

2024-09-22 00:00:00孫倩石競澤裴麗君張倩怡徐鳳強

軟件工程 2024年9期

關(guān)鍵詞：大語言模型;微調(diào)優(yōu)化;遷移學(xué)習(xí)

中圖分類號：TP312 文獻標志碼：A

0 引言（Introduction）

近年來，大型語言模型[1]的出現(xiàn)和發(fā)展對自然語言處理和人工智能領(lǐng)域產(chǎn)生了變革性影響。自GPT-3（Generative Pre-Trained Transformer v3）問世以來，逐漸涌現(xiàn)出一批具有強大競爭力的語言模型，例如ChatGPT[2]、Meta LLaMA[3]、文心一言、盤古大模型等。利用大模型技術(shù)解決實際任務(wù)，已經(jīng)成為人工智能領(lǐng)域的發(fā)展趨勢。然而，大模型技術(shù)應(yīng)用于下游任務(wù)時，常常面臨諸多挑戰(zhàn)，例如數(shù)據(jù)規(guī)模龐大、計算資源有限，以及模型微調(diào)所需的訓(xùn)練成本高、微調(diào)時間長等，因此大模型難以通過傳統(tǒng)的模型訓(xùn)練方式來進一步提高自身的性能。因此，本文主要研究大模型微調(diào)優(yōu)化方法并對其進行改進，通過遷移學(xué)習(xí)[4]將預(yù)訓(xùn)練模型遷移至下游任務(wù)場景，然后進行模型微調(diào)（Fine-tuning）優(yōu)化，在繼承預(yù)訓(xùn)練模型的泛化能力的同時，使模型能夠適應(yīng)下游任務(wù)場景，從而提高LLaMA 2[5]預(yù)訓(xùn)練大模型在特定任務(wù)場景下的應(yīng)用性能。

1LLaMA 2大語言模型介紹（Introduction of LLaMA 2 pre-trained large model）

本文采用的預(yù)訓(xùn)練模型是由Meta AI正式發(fā)布的最新一代開源大模型LLaMA 2[5]，是一種用于自然語言處理的深度學(xué)習(xí)模型。LLaMA 2大語言模型是基于原始Transformers架構(gòu)[6]的生成式預(yù)訓(xùn)練模型，其訓(xùn)練數(shù)據(jù)集包括2萬億個token，上下文長度為4 096，參數(shù)包括7 B、13 B和70 B，在各種基準集的測試上的表現(xiàn)突出，并且在多個下游任務(wù)上的表現(xiàn)超過了GPT-3。

1.1LLaMA 2大語言模型結(jié)構(gòu)

LLaMA 2大語言模型基于自回歸Transformer架構(gòu)實現(xiàn)，采用32層Transformer的解碼器（decoder-only）作為主干網(wǎng)絡(luò)，通常用于條件生成任務(wù)。模型首先通過詞嵌入（WordEmbedding）將輸入文本轉(zhuǎn)換為詞向量;其次將詞向量輸入解碼器網(wǎng)絡(luò)，學(xué)習(xí)詞向量之間的語義關(guān)系，通過解碼器的迭代學(xué)習(xí)提高模型對文本信息的處理能力;最后根據(jù)給定的條件信息，可以通過解碼器生成相應(yīng)的答案進行輸出，LLaMA 2大語言模型結(jié)構(gòu)圖如圖1所示。

1.2 模型訓(xùn)練及遷移應(yīng)用

LLaMA 2大語言模型訓(xùn)練過程如下：首先需要準備大規(guī)模的文本語料庫作為訓(xùn)練數(shù)據(jù)，并進行預(yù)處理;其次采用詞嵌入技術(shù)將文本數(shù)據(jù)向量化;最后使用數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，通過定義的損失函數(shù)和優(yōu)化算法調(diào)整模型參數(shù)。在訓(xùn)練過程中，參數(shù)更新分為前向傳播和反向傳播兩個階段。前向傳播是指將訓(xùn)練數(shù)據(jù)從輸入層傳遞到輸出層的過程，反向傳播則是計算模型參數(shù)的梯度并利用優(yōu)化器更新參數(shù)。經(jīng)過多次迭代后，模型逐步學(xué)習(xí)到語料庫中的語言規(guī)律和概率分布。

LLaMA 2大語言模型訓(xùn)練過程中，淺層語言知識，如詞法、詞性、句法等存儲在模型的底層和中層，而抽象類的語言知識，如語義、邏輯、推理等廣泛分布在模型的中層和頂層結(jié)構(gòu)中，這種模型可以被視為通用的語言理解系統(tǒng)。因此，可以利用遷移學(xué)習(xí)思想將訓(xùn)練好的LLaMA 2大語言模型用于各種下游任務(wù)，例如智能問答、文本分類、情感分析、機器翻譯等。

受訓(xùn)練數(shù)據(jù)集的影響，在下游任務(wù)中，原始模型一般會面臨不完全適配具體任務(wù)場景的問題。因此，需要通過微調(diào)訓(xùn)練，將模型的語言理解能力遷移到特定的下游任務(wù)中，并與下游任務(wù)的語境知識進行適配，提高模型的應(yīng)用性能。

2LLaMA 2大語言模型微調(diào)優(yōu)化方法（LLaMA 2large language model fine-tuning optimizationmethods）

2.1LLaMA 2大語言模型微調(diào)

微調(diào)LLaMA 2大語言模型的核心技術(shù)包含兩個部分：一部分是損失函數(shù)，用來驗證模型輸出的優(yōu)劣;另一部分是優(yōu)化器，通過損失函數(shù)的梯度更新模型的參數(shù)，使模型的輸出更接近正確的目標。

為了提高大語言模型的微調(diào)效率，本文分別對損失函數(shù)和優(yōu)化器進行改進。通過在損失函數(shù)中引入權(quán)重方向懲罰因子，減少多頭自注意力機制中對輸入向量的加權(quán)值與其梯度方向相反的情況;通過改進優(yōu)化器權(quán)重衰減策略，平衡模型權(quán)重參數(shù)的衰減程度，進一步提高模型的優(yōu)化性能。

本文分別對原有損失函數(shù)和優(yōu)化器進行改進，加快了LLaMA 2預(yù)訓(xùn)練大模型的微調(diào)收斂速度。同時，本文優(yōu)化的方法不僅適用于LLaMA 2預(yù)訓(xùn)練大模型，還適用于其他具有前向傳播和后向傳播機制的網(wǎng)絡(luò)模型。

3 實驗（Experiment）

為了驗證本文方法的效果，設(shè)計了基于LLaMA 2預(yù)訓(xùn)練模型的微調(diào)優(yōu)化實驗。

3.1 數(shù)據(jù)集

本文的數(shù)據(jù)集來源是huggingface 2.4.1的問答任務(wù)。問答任務(wù)（Question Answering）[10]是根據(jù)提出的問題生成使用自然語言的回答，數(shù)據(jù)集如表1所示。

3.2 參數(shù)設(shè)置

模型由24層編碼器和解碼器組成，模型的隱層維度（Hidden State Dimensions）為1024，前饋網(wǎng)絡(luò)維度（FeedForward Dimensions）為[1 024， 4 096， 1 024]，設(shè)置參數(shù)更新步數(shù)（Steps）為1000，最大輸入序列長度（Maximum SequenceLength）為1 024，最大輸出序列長度（Maximum TargetLength）為512，批樣本容量（Batch Size）為16。使用改進后的優(yōu)化器，其中β1=0.9，β2=0.95，ε=8×10^-4，并設(shè)置學(xué)習(xí)率初始為0，在前10%的步數(shù)中逐漸預(yù)熱至峰值，隨后在剩余的步數(shù)中逐漸衰減至8×10^-5，學(xué)習(xí)率變化曲線如圖2所示。設(shè)置權(quán)重方向懲罰的權(quán)重α=0.3。

3.3 問答任務(wù)實驗結(jié)果與分析

為驗證本文預(yù)訓(xùn)練大模型微調(diào)優(yōu)化方法的性能，基于LLaMA 2大語言模型進行問答任務(wù)微調(diào)實驗。采用問答任務(wù)數(shù)據(jù)集分別在原方法和改進后的優(yōu)化方法上迭代微調(diào)1 000次，對實驗結(jié)果進行對比。為保證實現(xiàn)效果，本文使用相同的學(xué)習(xí)率設(shè)置策略。

3.3.1 問答任務(wù)損失情況分析

本實驗將訓(xùn)練過程和驗證過程的損失收斂情況進行可視化，問答任務(wù)訓(xùn)練損失曲線如圖3所示，問答任務(wù)驗證損失曲線如圖4所示，圖中的實線為優(yōu)化后的訓(xùn)練損失曲線和驗證損失曲線，虛線為未優(yōu)化的訓(xùn)練損失曲線和驗證損失曲線。

對訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)的損失函數(shù)收斂情況進行分析發(fā)現(xiàn)，無論是在訓(xùn)練過程還是在驗證過程中，尤其是在迭代次數(shù)較小的情況下，經(jīng)優(yōu)化后的損失函數(shù)收斂速度更快。這說明本文提出的損失函數(shù)在較少的迭代步數(shù)下可以加速模型的學(xué)習(xí)，并且可以使模型的輸出更接近正確的目標。

3.3.2 問答任務(wù)實例

為了進一步驗證改進后的模型微調(diào)優(yōu)化方法的性能，分別利用未改進與通過改進的微調(diào)優(yōu)化方法的模型進行問答任務(wù)測試。當向模型提問“先天性單管擴張疾病是什么？”時，使用本文提出的改進的微調(diào)優(yōu)化方法的模型在訓(xùn)練初期（迭代第100輪時）便可得到正確答案，而此時未使用改進的微調(diào)優(yōu)化方法的模型仍沒有得到正確答案，甚至出現(xiàn)亂碼等情況。通過實例說明本文提出的改進微調(diào)優(yōu)化方法短時間內(nèi)達到的收斂速率更快，問答任務(wù)實例如表2所示。

4 結(jié)論（Conclusion）

本文針對大模型在應(yīng)用于實際任務(wù)場景的微調(diào)過程中面臨的時間過長、成本高等問題，提出一種基于遷移學(xué)習(xí)的LLaMA 2預(yù)訓(xùn)練大模型微調(diào)優(yōu)化方法。該方法通過改進自注意力驗jDXXGAILiQEHyjMPvPL+9Q==證的損失函數(shù)及優(yōu)化器，加快模型的收斂速度。在問答任務(wù)的數(shù)據(jù)集上進行實驗驗證，通過訓(xùn)練損失對比和驗證損失對比，可以看出改進后的模型收斂速度更快，因此改進后的微調(diào)優(yōu)化方法可以有效減少微調(diào)的迭代次數(shù)，提高微調(diào)效率，從而提升大語言模型在下游任務(wù)的遷移應(yīng)用能力。

作者簡介：

孫倩（1993-），女，碩士，講師。研究領(lǐng)域：深度學(xué)習(xí)，自然語言處理。

石競澤（2004-），男，本科生。研究領(lǐng)域：人工智能，深度學(xué)習(xí)。

裴麗君（1987-），女，碩士，講師。研究領(lǐng)域：人工智能，自然語言處理。

張倩怡（1994-），女，碩士，講師。研究領(lǐng)域：人工智能，自然語言處理。

徐鳳強（1991-），男，博士，講師。研究領(lǐng)域：人工智能，深度學(xué)習(xí)，圖像識別。

軟件工程2024年9期

軟件工程的其它文章: 基于對抗訓(xùn)練和片段級別的雙向情感三元組抽取模型; 放牧策略對土壤與植被的影響及土壤濕度預(yù)測研究; 基于連續(xù)小波變換和殘差神經(jīng)網(wǎng)絡(luò)的房顫預(yù)測研究; 花式紗線條干檢測的視覺傳感器標定方法研究; 基于圖卷積網(wǎng)絡(luò)和有效自注意力的3D腹部器官圖像分割方法; 二分圖中高效計算top-n maximal α-biclique的方法研究