亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大語言模型微調(diào)訓(xùn)練與檢索增強生成技術(shù)在油氣企業(yè)制度問答應(yīng)用中的效果對比研究

        2024-12-31 00:00:00唐嘉龐大崴劉書銘范志弘
        數(shù)字通信世界 2024年11期
        關(guān)鍵詞:文本實驗模型

        摘要:油氣企業(yè)在長期發(fā)展過程中積累了大量企業(yè)內(nèi)部資料,如規(guī)章制度、技術(shù)標(biāo)準(zhǔn)和操作指南等。這些文件數(shù)量龐大,分布廣泛,查閱和共享存在困難,應(yīng)用LLM技術(shù)為解決這些問題提供了創(chuàng)新的解決方案。在開發(fā)基于LLM的知識問答應(yīng)用時,常采用微調(diào)和檢索增強生成(RAG)這兩種策略整合專有和特定領(lǐng)域的數(shù)據(jù)。上述方法的優(yōu)缺點尚未在企業(yè)級應(yīng)用得到充分理解,如何選擇合適的技術(shù)路線,快速落地應(yīng)用是目前企業(yè)在LLM本地化應(yīng)用中首先需要解決的重要問題。該文基于油氣企業(yè)內(nèi)部管理制度構(gòu)建特定領(lǐng)域知識問答系統(tǒng),通過實驗對比,從客觀角度開展評價,為企業(yè)建設(shè)私有化知識庫提供了實證經(jīng)驗。

        關(guān)鍵詞:LLM大規(guī)模預(yù)訓(xùn)練語言模型;油氣企業(yè);RAG微調(diào)

        doi:10.3969/J.ISSN.1672-7274.2024.11.035

        中圖分類號:TP 3" " " " " " " " "文獻標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2024)11-0-03

        A Comparative Study on the Effects of Fine-tuning Training and Retrieval Enhancement Generation Technology for Large Language Models in the Application of Institutional Question Answering in Oil and Gas Enterprises

        TANG Jia, PANG Dawei, LIU Shuming, FAN Zhihong

        (Southwest Oil and Gas Field Digital Intelligent Technology Branch, Chengdu 610000)

        Abstract: Oil and gas enterprises have accumulated a large amount of internal documents in the long-term development process, covering contents such as rules and regulations, technical standards, and operation guidelines. These files are not only in large quantities, but also widely distributed, making them extremely difficult to access and share. LLM based technology provides innovative solutions to address these issues. When building knowledge question answering applications based on LLM, we often use two strategies: fine-tuning and Retrieval Augmented Generation (RAG) to integrate proprietary and domain specific data. However, the advantages and disadvantages of these two methods have not been fully understood in enterprise-levelapplication. How to choose a suitable technical route and quickly apply large model technology is currently an important issue that is needed to be solved. This article is based on the internal management files of oil and gas enterprise, constructing a specific knowledge base, comparing two methods through experiments, and evaluating from an objective perspective, providing some empirical experience for enterprises to build a private knowledge base.

        Keywords: LLM; Oil and gas enterprises; RAG fine-tuning

        1" "研究背景

        問答系統(tǒng)是自然語言處理領(lǐng)域的一項熱門研究課題。解決問答問題通常需要清楚地理解問題描述的場景,然后利用相關(guān)知識進行推理[1],近段時間,大語言模型(Large Language Model,LLM)成為流行的解決方案[2],性能表現(xiàn)也有明顯提升。由于通用模型不掌握企業(yè)私有知識,因此在企業(yè)落地應(yīng)用過程中,無法直接根據(jù)個性化業(yè)務(wù)需求進行推理,企業(yè)要想利用LLM技術(shù)構(gòu)建私有的知識庫應(yīng)用,還需要針對LLM的能力進行增強[3],常用的方式有微調(diào)訓(xùn)練與RAG兩種,對于油氣生產(chǎn)企業(yè)來說,其內(nèi)部管理制度有通用性,也有專業(yè)性,兩種技術(shù)在該領(lǐng)域的的應(yīng)用難度、成本、效果尚不明確,如何選擇合適的技術(shù)路線,快速落地應(yīng)用是目前企業(yè)在LLM本地化應(yīng)用中首先需要解決的重要問題。本文圍繞兩種技術(shù)開展本地化應(yīng)用實驗,就上述方面對兩種技術(shù)進行比較和評價。

        2" "技術(shù)介紹

        2.1 文本切割算法

        (1)字符切割。字符切割是按字符數(shù)來切割文檔,將文本簡單地劃分為N個字符大小的塊。這種方式不會考慮文本的結(jié)構(gòu)和上下文之間的關(guān)系。

        (2)遞歸切割。遞歸切割按不同的字符遞歸地分割文檔,同時兼顧被分割文本的長度和重疊字符。遞歸分塊使用一組分隔符以分層和迭代的方式將輸入文本分成更小的塊。

        (3)語義切割。語義切割方式將文本中的語義單元進行分割,以便于更好地理解文本內(nèi)容和結(jié)構(gòu)。這種方式適用于上下文有較為明顯的關(guān)系的場景,可以幫助識別文本中的不同主題、觀點或信息片段。

        2.2 Embedding模型

        (1)Bge-large-zh-v1.5。它有1 024個維度,包含了支持中文和英文的多個版本的Embedding模型。

        (2)Jina-embeddings-v2-base-zh。它是支持中英雙語的文本向量模型,支持長達(dá)8192字符的文本編碼,該模型運行無須依賴GPU。

        (3)gte-Qwen1.5-7B-instruct。一個采用SOTA指令調(diào)優(yōu)的多語言嵌入模型,最低要求使用16GB顯存卡型。

        2.3 LLM模型

        (1)ChatGLM-6B[4]——雙語對話語言模型。它是一個開源的、支持中英雙語問答的對話語言模型,并針對中文進行了優(yōu)化。該模型具有62億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費級的顯卡上進行本地部署。

        (2)LLaMA[5]——Meta大語言模型。LLaMA語言模型全稱為“Large Language Model Meta AI”,是一個模型系列,可根據(jù)參數(shù)規(guī)模進行劃分。

        (3)QWEN-7B[6]——它是基于Transformer架構(gòu)的大型語言模型,具有70億參數(shù)規(guī)模,使用超過2.4萬億tokens數(shù)據(jù)進行預(yù)訓(xùn)練。

        2.4 微調(diào)方法

        模型微調(diào)通常采用三種主流方法:Freeze、P-Tuning和LoRA方法[7]。Freeze方法源自傳統(tǒng)的遷移學(xué)習(xí),通過凍結(jié)原始模型的部分參數(shù),僅訓(xùn)練部分參數(shù)以適應(yīng)新任務(wù);P-Tuning(提示調(diào)優(yōu))固定預(yù)訓(xùn)練模型的參數(shù),在模型輸入端添加可學(xué)習(xí)的“prompt”(提示),通過優(yōu)化這些提示來調(diào)整模型輸出,只需更新少量參數(shù),并且不改變模型結(jié)構(gòu);LoRA方法在LLM上引入額外的低秩矩陣并行于指定的權(quán)重矩陣,在訓(xùn)練過程中僅調(diào)整這些額外低秩矩陣的參數(shù)。

        3" "實驗設(shè)置

        3.1 評估數(shù)據(jù)集和標(biāo)準(zhǔn)

        首先,從企業(yè)管理手冊中選取了若干包含關(guān)鍵管理信息的章節(jié)。這些章節(jié)涵蓋了管理流程、政策和操作指南等方面,確保了數(shù)據(jù)的廣泛性和代表性。在選定章節(jié)后,將每個章節(jié)細(xì)分為若干段落(標(biāo)注為標(biāo)準(zhǔn)答案)。每個段落包含一個相對獨立的主題。這樣的細(xì)分有助于提高檢索模塊的精度,確保生成模塊能夠獲得足夠具體且上下文相關(guān)的信息(標(biāo)注為檢索上下文)。在段落提取過程中,針對每個提取的段落,設(shè)計了多個相關(guān)問題(標(biāo)注為問題)。

        本文在設(shè)計問題時包含基本事實性問題和復(fù)雜的操作性問題,確保問題集合能全面反映段落內(nèi)容,最終生成lt;問題,檢索上下文,標(biāo)準(zhǔn)答案gt;的數(shù)據(jù)集。標(biāo)注過程采用雙重標(biāo)注法,每個問題和答案都由兩名獨立的專家進行標(biāo)注,然后進行一致性檢驗,確保標(biāo)注結(jié)果的準(zhǔn)確性和可靠性。上下文段落作為檢索模塊的輸入,標(biāo)準(zhǔn)答案則用于后續(xù)評估模塊的對比和分析。

        根據(jù)上述數(shù)據(jù),由專家評價兩種方法生成答案的質(zhì)量。評價指標(biāo)主要包括:答案的準(zhǔn)確性、信息提煉度、文本一致性以及拒答能力[8]。針對每一類指標(biāo)設(shè)置了1~5分五檔評分選項,分?jǐn)?shù)越高表示該方法在相應(yīng)指標(biāo)上表現(xiàn)越好。

        3.2 技術(shù)選型

        本文在選擇Embedding模型時綜合考慮了模型大小、顯存占用和檢索任務(wù)的平均召回率,選擇Bge-large-zh-v1.5作為Embedding模型。在選擇LLM模型時,同樣綜合考慮了性能和配置要求,微調(diào)的難度以及模型配套的各種工具成熟度,選擇了ChatGLM-6B作為兩個實驗中RAG的LLM底座和微調(diào)基模型。考慮到本實驗需要對模型進行新知識更新,因此選擇了LoRA方法進行微調(diào)[7]。

        3.3 實驗過程

        3.3.1 搭建環(huán)境

        為了進行模型微調(diào)和RAG系統(tǒng)的實驗,實驗硬件配置如下:CPU采用Intel Core i9-12900K;GPU選用NVIDIA GeForce RTX 4090,配備24 GB GDDR6X顯存。實驗中使用的模型和數(shù)據(jù)集均保存在本地存儲中。

        3.3.2 RAG實驗

        構(gòu)建一個小型的油氣企業(yè)管理制度知識庫,該知識庫包含了15個企管關(guān)鍵制度文檔,專業(yè)覆蓋企業(yè)管理、油氣開發(fā)生產(chǎn)、信息化三個方向,由于大模型本身對企業(yè)內(nèi)部知識理解有限,直接進行初始化向量處理通常存在檢索命中率不高的情況。為提高檢索質(zhì)量,本實驗檢索前和檢索后階段,采用了父文檔回溯方法,以解決傳統(tǒng)文檔分塊方法中因固定長度而導(dǎo)致的塊文本過小或過大的問題。該方法將文檔分解為小塊存儲,平衡了準(zhǔn)確性和上下文需求。

        完成上述優(yōu)化后進行測試,專家對反饋的檢索上下文和答案進行評估打分。

        3.3.3 LoRA微調(diào)實驗

        從知識庫抽取1 000條數(shù)據(jù)進行模型微調(diào),800條用于訓(xùn)練,200條用于對比。其中,LoRA的配置參數(shù)為低秩矩陣的秩設(shè)為16,縮放因子設(shè)為32,Dropout率為0.1。目標(biāo)模塊選擇了注意力機制中的查詢投影矩陣(q_proj)和值投影矩陣(v_proj)。訓(xùn)練配置參數(shù):學(xué)習(xí)率為2e-5,訓(xùn)練批次大小為8個樣本,訓(xùn)練總共進行10個epoch,權(quán)重衰減率設(shè)為0.01。一次實驗訓(xùn)練耗時大約為16小時。模型訓(xùn)練完成后交由評估團隊對反饋答案進行評評估。

        3.4 實驗結(jié)果分析

        3.4.1 實施情況

        RAG實驗數(shù)據(jù)準(zhǔn)備以各類非結(jié)構(gòu)化文本為主,無需做特殊處理,自動向量化后即可進行推理問答,微調(diào)需要專門構(gòu)建訓(xùn)練數(shù)據(jù)集,本次實驗中構(gòu)建的訓(xùn)練數(shù)據(jù)集條數(shù)為1 000余條,標(biāo)注耗時約為80小時。

        RAG實驗向量化處理時間約為1小時(僅首次加載需要);模型微調(diào)訓(xùn)練實驗需要多次嘗試不同參數(shù)配置,在合適的參數(shù)且不報錯的情況下,單次訓(xùn)練耗時約16小時。

        硬件配置方面,RAG所需的配置要求更低,僅需保證推理所需的GPU運算能力即可,訓(xùn)練的算力要求則需要推理算力的2~3倍[9]。

        3.4.2 性能表現(xiàn)

        (1)答案準(zhǔn)確性:RAG得分4.5,微調(diào)得分3.8,RAG表現(xiàn)略優(yōu)于微調(diào)模型,但在油氣開發(fā)生產(chǎn)管理制度方面,RAG在召回過程中容易出現(xiàn)召回錯誤或目標(biāo)文檔排名靠后的問題,導(dǎo)致后續(xù)推理準(zhǔn)確性受到影響。

        (2)信息提煉度:兩者表現(xiàn)差距不大,RAG得分3.2,微調(diào)得分3,生成的答案對問題的回答均存在細(xì)節(jié)上的缺失,在理解用戶提交的描述性需求時信息提取尚不夠完整。

        (3)文本對齊度:RAG得分為4.3,微調(diào)得分為3.8,生成內(nèi)容與原文檔均表現(xiàn)出較好的相關(guān)度,微調(diào)模型在面對信息化相關(guān)問題時,文本對齊能力更差,這是因為基模型原有的知識與訓(xùn)練數(shù)據(jù)集提供的企業(yè)私有知識相似度較高,微調(diào)訓(xùn)練對模型原始的參數(shù)分布影響過小。

        (4)拒答能力:RAG得分為3.2,顯著優(yōu)于微調(diào)的1.2。RAG能夠更好地拒絕回答敏感問題或無關(guān)信息,而不是提供模糊答案。這是因為RAG模通過知識庫檢索信息可以更準(zhǔn)確地判斷問題是否在其知識范圍內(nèi),從而決定是否回答。相比之下,微調(diào)模型在面對敏感問題或無關(guān)信息時,往往傾向于提供模糊或不準(zhǔn)確的答案。

        4" "結(jié)束語

        本文對比了微調(diào)和增強檢索生成(RAG)兩種技術(shù)在油氣企業(yè)知識庫本地化應(yīng)用中的表現(xiàn)。通過一系列嚴(yán)格的實驗和評估,發(fā)現(xiàn)RAG綜合表現(xiàn)略優(yōu)于微調(diào)模型,在應(yīng)用效果上,RAG表現(xiàn)出了更好的準(zhǔn)確性、文本對齊度和拒答能力,同時其數(shù)據(jù)準(zhǔn)備和實施難度也更低;在算力消耗上,RAG具備明顯的優(yōu)勢,但由于本文的實驗數(shù)據(jù)均為制度文檔,涉及的油氣專業(yè)概念相對較少,因此兩種方式的表現(xiàn)是否能在專業(yè)文檔中繼續(xù)保持還有待考證??傮w來說,在初期應(yīng)用階段,RAG的綜合優(yōu)勢更明顯。未來研究可以在以下方面進一步展開:探索文本切割算法和更高效的Embedding模型,提高RAG模型的檢索和生成能力;嘗試結(jié)合多種微調(diào)方法,以期在減少計算成本的同時提高模型性能;針對模型在油氣專業(yè)知識理解上的幻覺問題,對基模型、Embedding模型同步進行微調(diào);隨著油氣企業(yè)內(nèi)部知識文檔的不斷更新擴展,動態(tài)更新知識庫的方法也是一個重要的研究方向。

        參考文獻

        [1] Jin Qiao, Yuan Zheng, Xiong Guangzhi, et al. Biomedical question answering: a survey of approaches and challenges. ACM Computing Surveys, 2022, 55 (2):1–36

        [2] 劉合,任義麗,李欣,等.油氣行業(yè)人工智能大模型應(yīng)用研究現(xiàn)狀及展望[J].石油勘探與開發(fā),2024,51(4):1-14.

        [3]" Y. Gao, Y. Xiong, X. Gao, K. Jia, J. Pan, Y. Bi et al., \"Retrieval-augmented generation for large language models: A survey,\" arXiv preprint arXiv:2312.10997, 2023.

        [4] T. GLM, A. Zeng, B. Xu, B. Wang, C. Zhang, D. Yin et al., \"ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools,\" arXiv preprint arXiv:2406.12793, 2024.

        [5] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, et al.,\"Llama 2: Open Foundation and Fine-Tuned Chat Models\"https://arxiv.org/abs/2307.09288

        [6] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cuiet Kai Dang, Xiaodong Deng, et al.,\"Qwen Technical Report,\"https://arxiv.org/abs/2309.16609

        [7] X. Sun, Y. Ji, B. Ma, and X. Li, \"A comparative study between full-parameter and lora-based fine-tuning on chinese instruction data for instruction following large language model,\" arXiv preprint arXiv:2304.08109, 2023.

        [8] Liang Xu, Anqi Li, Lei Zhu , Hang Xue , Changtai Zhu , Kangkang Zhao, Haonan He1 , Xuanwei Zhanget al.,“SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,”https://arxiv.org/pdf/2307.15020

        [9] A. Balaguer, V. Benara, R. L. de Freitas Cunha, R. d. M. Estev?o Filho, T. Hendry, D. Holstein et al., \"RAG vs fine-tuning: Pipelines, tradeoffs, and a case study on agriculture,\" arXiv e-prints, p. arXiv: 2401.08406, 2024.

        猜你喜歡
        文本實驗模型
        一半模型
        記一次有趣的實驗
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        做個怪怪長實驗
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        欧美丰满老熟妇aaaa片| 人妻中文字幕一区二区视频| 亚洲女同一区二区三区| AV中文码一区二区三区| 国产在线精品亚洲视频在线| 麻豆三级视频网站在线观看| 日韩av水蜜桃一区二区三区| 久久精品国产亚洲av网| 亚洲av色欲色欲www | 国产农村妇女毛片精品久久麻豆| 中文字幕亚洲在线第一页| 国产极品少妇一区二区| 精品国产精品国产偷麻豆| 亚洲熟妇av日韩熟妇在线| 精品无码国产自产野外拍在线| 久久国产A√无码专区亚洲| 中文字幕亚洲人妻系列| 日本中文字幕av网址| 日本一区二区三区一级片| 国产一区二区三区久久精品| 久久久老熟女一区二区三区| 特级毛片a级毛片免费播放| 国产精品青草视频免费播放| 制服丝袜人妻中出第一页| 中文字幕色婷婷在线视频| 亚洲精品国产av日韩专区| 麻豆婷婷狠狠色18禁久久| 99精品免费久久久久久久久日本| 成年人黄视频大全| 欧美日一本| 亚洲女同性恋激情网站| 国产天堂av在线一二三四| 天堂国产一区二区三区| 亚洲aⅴ在线无码播放毛片一线天| 亚洲精品夜夜夜| 久久久久久一级毛片免费无遮挡| 99热久久只有这里是精品| 蜜乳一区二区三区亚洲国产| 国产超碰人人做人人爽av大片 | 亚洲va无码手机在线电影| 免费做爰猛烈吃奶摸视频在线观看 |