亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級大語言模型微調(diào)

        2024-10-14 00:00:00孫麗萍童子龍錢乾陸鑫濤凌晨方誠湯其宇蔣曉
        計算機應用研究 2024年10期

        摘 要:通用大語言模型(large language model,LLM)缺乏對專業(yè)領域知識理解的深度和廣度,對專業(yè)領域問題回答的準確度不夠,常常產(chǎn)生幻覺,阻礙了大語言模型的商業(yè)應用落地。因此,基于專業(yè)領域特有數(shù)據(jù)提高大型語言模型的專業(yè)性成為當前大語言模型應用落地的關鍵挑戰(zhàn)。針對通用大語言模型在特定領域知識理解與生成內(nèi)容專業(yè)性不夠的問題進行了研究。基于P-Tuning v2與Freeze兩種參數(shù)高效微調(diào)方法,提出了一種專業(yè)級大語言模型的兩階段微調(diào)框架。依賴該框架與肝膽科臨床數(shù)據(jù)對ChatGLM-6B進行微調(diào),得到一個針對肝膽??频膶I(yè)級大語言模型,命名為MedGLM.H。根據(jù)實驗顯示,微調(diào)后的大語言模型對于肝膽??茊栴}的準確率從31%提升到了62%;得分率從57%提升到了73%。在進行兩階段微調(diào)后,模型在肝膽專科的問答中表現(xiàn)出更高的準確性與專業(yè)性,根據(jù)三名臨床醫(yī)生進行的對話實驗,證明了微調(diào)后的模型在更專業(yè)的醫(yī)療場景中具備應用潛力。

        關鍵詞:大語言模型;微調(diào);肝膽科;人工智能

        中圖分類號:TP391.1 文獻標志碼:A 文章編號:1001-3695(2024)10-004-2906-05

        doi:10.19734/j.issn.1001-3695.2024.03.0071

        Two-phases fine-tuning of professional large language model via clinical data

        Sun Liping1, 2, Tong Zilong3, Qian Qian3, Lu Xintao3, Ling Chen1, Fang Cheng4, Tang Qiyu4, Jiang Xiao5

        (1.Medical Instrumentation College, Shanghai University of Medicine & Health Sciences, Shanghai 201318, China; 2.School of Information Science & Technology, Fudan University, Shanghai 200433, China; 3.School of Health Sciences & Engineering, University of Shanghai for Science & Technology, Shanghai 200093, China; 4.Third Affiliated Hospital of Naval Medical University, Shanghai 200438, China; 5. 905th Hospital of PLA, Shanghai 200052, China)

        Abstract:General large language model (LLM) lacks the depth and breadth of understanding of domain-specific knowledge, resulting in insufficient accuracy in addressing domain-specific questions and often leading to illusions, which hinders the commercial deployment of large language models. Therefore, enhancing the professionalism of large language models based on domain-specific data has become a key challenge for the practical application of large language models. This study aimed to address the issue of insufficient domain-specific knowledge understanding and content professionalism of general large language models in specific domains. This paper proposed a two-stage fine-tuning framework for professional large language models based on the efficient parameter fine-tuning methods of P-Tuning v2 and Freeze. This framework, relying on clinical data from hepatobiliary specialties, fine-tuned ChatGLM-6B to obtain a professional-level large language model for hepatobiliary specialties, named MedGLM.H. According to the experiments, the fine-tuned large language model exhibited an increase in accuracy for hepatobiliary specialist questions from 31% to 62%, and the scoring rate increased from 57% to 73%. After two-phase fine-tuning, the model demonstrates higher accuracy and professionalism in hepatobiliary specialty QA. Dialogue experiments conducted with three clinical doctors confirm the application potential of the fine-tuned model in more specialized medical scenarios.

        Key words:large language model; fine-tune; hepatobiliary; artificial intelligence

        0 引言

        近期,LLM如ChatGPT[1]、Bard、ChatGLM[2]等備受矚目,它們展現(xiàn)出的對常識問題的理解能力、流暢的對話能力、上下文記憶能力、文本生成能力以及邏輯推理能力,標志著人類邁向通用人工智能的這導致了在特定領域的應用中存在著不準確性和可信度問題[3~6]。

        特定領域的知識和理解對于LLM的成功應用至關重要。舉例來說,對于醫(yī)療保健領域,LLM需要準確理解醫(yī)學術語、診斷方法、藥物治療等內(nèi)容,以便提供準確的建議或診斷。而在金融領域,LLM需要理解投資策略、市場分析、風險評估等方面的知識,以支持投資決策或提供財務咨詢。因此,為了充分發(fā)揮LLM的潛力,需要針對不同領域進行定制化的知識和技能培訓,從而使其能夠在特定領域中表現(xiàn)出專業(yè)水平。

        然而,從零開始訓練特定領域的LLM是一項極具挑戰(zhàn)性和成本高昂的任務。這不僅需要大量的算力支持,還需要擁有深厚領域知識的AI算法工程師進行指導和優(yōu)化。這種成本和復雜性對于許多機構來說是難以承受的,尤其是對于小型企業(yè)或研究機構。因此,基于通用且可靠的大型語言模型進行微調(diào)以適應特定領域的需求成為了一種更加可行和經(jīng)濟的選擇。

        通過微調(diào)通用模型,可以將其轉換為針對特定領域的大語言模型,從而獲得更高的準確性和可信度。這種方法不僅可以節(jié)省大量的時間和資源,還可以確保模型具有足夠的靈活性,以適應不斷變化的領域需求。同時,微調(diào)過程中可以通過引入領域?qū)<业闹R和反饋來提高模型的性能,從而進一步增強其在特定領域的應用能力。

        除了微調(diào)外,還可以采用其他策略來提高LLM在特定領域的應用能力。例如,結合外部數(shù)據(jù)源進行訓練,引入領域?qū)<覅⑴c模型設計和評估過程,以及建立特定領域的知識圖譜來輔助模型理解和推理。這些策略可以進一步增強模型在特定領域的專業(yè)性和適用性,從而提高其實際落地的可能性。

        因此,盡管LLM在通用領域取得了巨大的進步,但其在特定領域的應用仍然面臨諸多挑戰(zhàn)。為了充分發(fā)揮其潛力,則需要通過微調(diào)和其他策略來提升其專業(yè)性和適用性,從而實現(xiàn)在特定領域的商業(yè)化落地。這不僅需要技術上的創(chuàng)新和優(yōu)化,還需要跨學科的合作和領域?qū)<业膮⑴c,以確保模型能夠真正服務于實際需求,并為社會帶來更大的價值和影響。

        1 研究現(xiàn)狀

        1.1 醫(yī)學通用大語言模型

        醫(yī)療健康領域已經(jīng)出現(xiàn)一些基于通用大語言模型微調(diào)的醫(yī)學大語言模型,如德克薩斯大學西南醫(yī)學中心的Li等人[7]基于205 000條真實的醫(yī)患交流數(shù)據(jù)和ChatGPT生成的5 000條數(shù)據(jù)對LLaMA進行微調(diào),得到ChatDoctor這一醫(yī)學通用的大語言模型。此外,上海科技大學的Xiong等人[8]利用ChatGPT和其他基于英語的醫(yī)學通用大語言模型收集了醫(yī)學對話數(shù)據(jù)庫并翻譯為中文,對清華大學開源的中文大語言模型ChatGLM-6B進行參數(shù)高效微調(diào),得到一個醫(yī)學通用的大語言模型——DoctorGLM;哈爾濱工業(yè)大學的Wang等人[9]通過醫(yī)學知識圖譜和GPT3.5API構建了中文醫(yī)學指令數(shù)據(jù)集,在此基礎上對ChatGLM-6B進行了指令微調(diào),微調(diào)后的大語言模型命名為ChatGLM-Med?;谙嗤臄?shù)據(jù)Wang等人[9]還訓練了醫(yī)療版本的LLaMA模型——華駝。這些醫(yī)學通用大語言模型的成功表明利用醫(yī)療數(shù)據(jù)對大語言模型微調(diào)可以得到醫(yī)學專業(yè)能力更強的大語言模型[10]。此外,這些通過微調(diào)得到的醫(yī)學通用大語言模型都能在消費級顯卡部署或訓練。這對于研發(fā)或部署專用醫(yī)學大語言模型的醫(yī)院或機構有著巨大的誘惑。

        1.2 參數(shù)高效微調(diào)方法

        得益于以LoRA(low-rank adaptation,LoRA)[11]為代表的參數(shù)高效微調(diào)方法(parameter-efficient fine-tuning, PEFT),大語言模型微調(diào)的算力需求與訓練時間相比全參數(shù)微調(diào)大大降低。對于某一專業(yè)領域的大語言模型的訓練,一個很常見的策略是從公共的知識庫獲取相關領域的專業(yè)知識作為訓練數(shù)據(jù),利用這些數(shù)據(jù)對通用大語言模型進行參數(shù)高效微調(diào)。值得注意的是,如果意向訓練更加專業(yè)的大語言模型,那么僅僅使用公開知識庫的數(shù)據(jù)微調(diào)得到的大語言模型的專業(yè)程度并不會十分令人滿意。一個主要的原因是公開的知識庫對更細分領域的專業(yè)知識收錄不夠?qū)I(yè),難以得到從業(yè)者的認可[3]。因此,使用專業(yè)性的文件或數(shù)據(jù)微調(diào)大語言模型被視為一個可行的方法。由于標準化作業(yè)流程的要求,專業(yè)性文件種包含了許多專業(yè)術語及專有名詞,文件的格式也有特殊的要求,往往并不適合直接用于微調(diào)。這些專業(yè)性文件需要有一定專業(yè)基礎的工作人員對數(shù)據(jù)進行加工才適合用于大語言模型的微調(diào)。

        1.3 本研究的貢獻

        本文提出一種基于醫(yī)學領域?qū)I(yè)性文件訓練醫(yī)學領域?qū)?拼笳Z言模型的兩階段微調(diào)框架,并基于此框架微調(diào)出面向肝膽醫(yī)學的專科大模型。本文的主要貢獻有兩點,即:

        a)利用公開的知識圖譜或?qū)Υ笠?guī)模的語言模型進行知識蒸餾,收集一定數(shù)量目標域的訓練數(shù)據(jù)對源模型進行參數(shù)高效微調(diào);

        b)對專業(yè)性文件進行數(shù)據(jù)處理,使其符合微調(diào)的數(shù)據(jù)要求及格式,使用相對少量的更專業(yè)數(shù)據(jù)對第一階段微調(diào)后的模型進行第二次freeze微調(diào)[12],最終訓練了一個針對肝膽專科的大語言模型。

        本文將這種兩次微調(diào)的框架命名為“造極”。基于“造極”與臨床病歷數(shù)據(jù), 本文訓練了一個針對肝膽??频尼t(yī)療對話大語言模型——MedGLM.H。訓練使用的臨床病歷數(shù)據(jù)是由東方肝膽外科醫(yī)院提供的肝膽??频牟粠в行彰幕颊卟v、診療記錄和手術記錄, 本文期望經(jīng)過這些臨床專業(yè)數(shù)據(jù)的訓練,它能夠準確回答出肝膽??频囊恍﹩栴},包括但不限于治療方案、手術要求、檢驗指標解讀及用藥規(guī)范等。由于目前整理的病歷文本數(shù)據(jù)量有限,MedGLM.H在對治療方案與檢驗指標解讀等回答上尚未達到專業(yè)水準。在后續(xù)的更新迭代版本會針對這一缺陷進行改進。

        2 基于ChatGLM-6B的兩階段微調(diào)方法

        2.1 框架

        MedGLM.H的訓練包括通用醫(yī)學知識訓練與肝膽專科的專業(yè)知識訓練。這點類似于中國臨床醫(yī)生的培養(yǎng)政策:中國的醫(yī)生在成為一名正式的臨床醫(yī)生之前必須首先在醫(yī)院的所有科室進行輪轉實習,以培養(yǎng)臨床醫(yī)生的綜合能力。各科室輪轉實習后,實習醫(yī)生會留在他最終選擇的科室成為該科室的實習醫(yī)生,繼續(xù)深入學習該科室的專業(yè)知識與臨床技能。MedGLM.H的兩階段微調(diào)對應著臨床醫(yī)生的全科輪轉實習與定崗實習。

        基于“造極”的兩階段微調(diào)的全過程如圖1所示,其中第一階段的微調(diào),使用公開的醫(yī)學知識圖譜并借助GPT3.5的API接口生成通用的醫(yī)學知識問答數(shù)據(jù),對ChatGLM-6B進行P-Tuning v2微調(diào)。第一階段微調(diào)后的模型命名為MedGLM.General,MedGLM.General可以回答部分通用醫(yī)學方面的基礎問題,但其回答問題的性能尚無法與其他通過海量通用醫(yī)學數(shù)據(jù)訓練后的模型相比。第二階段的微調(diào)使用臨床的病歷數(shù)據(jù)進行加工,用有限的數(shù)據(jù)對MedGLM.General進行freeze微調(diào),訓練得到的MedGLM.H能夠在保證通用醫(yī)學問答的性能下解答針對肝膽??频膯栴}。

        2.2 源模型

        許多研究人員在選擇源模型進行微調(diào)時有著相似的偏好。在基于中文的大語言模型微調(diào)中,工程師通常選擇ChatGLM-6B作為源模型;而在英文方面的微調(diào)中,較為常見的源模型是LLaMA[13]。

        這兩個模型具有幾個共同特點,首先它們都是開源的大語言模型,并且具有出色的性能表現(xiàn)。同時,它們的參數(shù)量都達到了十億級別(ChatGLM-6B含有60億個參數(shù),LLaMA含有70億個參數(shù)),這個級別的參數(shù)量對于大型語言模型而言只是達到門檻要求。盡管如此,由于它們的參數(shù)量相對較小且性能仍然足夠,微調(diào)這些模型所需的計算資源可以被許多實驗室支持。因此,十億級別參數(shù)量的大語言模型是進行微調(diào)的一個熱門選擇。

        MedGLM.H的訓練源模型是ChatGLM-6B。該模型基于general language model(GLM)架構,參數(shù)量為62億。結合模型量化技術,工程師可以在消費級顯卡上進行本地部署(INT4量化級別最低只需要6 GB顯存)。因此ChatGLM-6B被開發(fā)了許多個訓練版本。目前很多中文的醫(yī)學大語言模型都是基于ChatGLM-6B進行微調(diào),例如:DoctorGLM、ChatGLM-Med。

        2.3 構建數(shù)據(jù)集

        首次微調(diào)的數(shù)據(jù)集主要來自公開的中文醫(yī)學知識庫,并參考cMeKG生成了一些數(shù)據(jù)。這些數(shù)據(jù)集的內(nèi)容包括并發(fā)癥、臨床癥狀、藥物治療和輔助治療等。醫(yī)學知識庫以中心詞對應疾病和癥狀到所屬科室與發(fā)病部位為一組的形式儲存。再利用GPT3.5的API接口圍繞醫(yī)學知識庫構建問答數(shù)據(jù),訓練數(shù)據(jù)為“問題—回答”的形式。共計收集20 000條全科醫(yī)學的問答數(shù)據(jù)。

        第二次微調(diào)使用了1 300條肝膽??婆R床病患的病歷文本及診療記錄數(shù)據(jù),其中的檢驗數(shù)據(jù)或治療方案通常有很強的獨特性(如:某藥物用量、注射的量;囊腫或腫瘤的尺寸以及超聲多普勒檢查的血液流速等)。這些過于精確的數(shù)據(jù)對于大語言模型來說可參考性很低。因此,在處理病歷數(shù)據(jù)時需要將這些數(shù)值剔除。除此之外,為了使MedGLM.H的回答更加專業(yè)且準確,病歷數(shù)據(jù)還需要進行再加工,數(shù)據(jù)形式如圖2所示。

        醫(yī)療記錄數(shù)據(jù)通過將查詢部分和檢查結果部分分類為“Q”,并利用相應的診斷結果、相關檢查措施、手術要求、藥物指南和執(zhí)行后結果作為它們各自的“A”來進行處理。此外,鑒于醫(yī)療記錄數(shù)據(jù)的標準化和專業(yè)性質(zhì),對部分醫(yī)療用語的改寫也是數(shù)據(jù)處理的一項重要工作。為了遵循數(shù)據(jù)保密原則,數(shù)據(jù)處理任務由本文的工作人員手動完成。

        由于患者醫(yī)療記錄和臨床數(shù)據(jù)的敏感性, 本文無法公開發(fā)布MedGLM.H的源代碼和數(shù)據(jù)集。測試版本將在東方肝膽外科醫(yī)院內(nèi)部部署,由專業(yè)醫(yī)生及部分臨床患者進行測試。根據(jù)測試的結果進一步改進,以加速最終發(fā)布MedGLM.H的時間。值得一提的是,MedGLM.H的訓練環(huán)境是隔離且安全的,確保對機密數(shù)據(jù)的保護并防止任何泄露。

        2.4 階段1:基于通用醫(yī)學知識進行P-Tuning v2微調(diào)

        由于LoRA在LLM的多輪對話中表現(xiàn)不佳,正如Xiong等人在DoctorGLM的后續(xù)版本中所提到的,進一步使用P-Tuning v2進行微調(diào)相比LoRA微調(diào)版本表現(xiàn)出了改進的測試結果。因此,本文利用P-Tuning v2進行第一次通用醫(yī)學LLM的微調(diào)。

        P-Tuning v2被視為Prefix-Tuning的一種版本,重點解決了prompt tuning在小模型上效果不佳的問題,并將prompt tuning拓展至更復雜的自然語言理解(NLU)任務中,如機器閱讀理解(MRC)答案抽取、命名實體識別(NER)實體抽取等序列標注任務。在不同模型規(guī)模和NLU任務的微調(diào)中,它的性能可以與全參數(shù)微調(diào)方法相媲美,而只有01%~3%的微調(diào)參數(shù)。在訓練中P-Tuning v2凍結模型的主要部分,對前綴進行多層提示優(yōu)化。不同層中的提示作為前綴token加入到輸入序列中。添加到更深層次的提示可以對輸出預測產(chǎn)生更多的影響[14]。

        P-Tuning v2的運算邏輯與結構可以通過以下幾個關鍵部分來解釋:

        a)前綴編碼器 (prefixencoder): 這是一個自定義的模塊,用于生成可訓練的前綴嵌入。它使用PyTorch的embedding層來為每個前綴ID創(chuàng)建一個嵌入向量。這些前綴嵌入將作為額外的輸入,與原始輸入一起參與模型的后續(xù)計算。

        b)模型擴展: 這個類繼承自預訓練的源模型,并且添加了前綴編碼器。在模型的前向傳播過程中,前綴編碼器生成的前綴嵌入會與原始輸入嵌入合并。

        c)前向傳播過程:

        (a)使用prefixencoder對前綴ID進行編碼,得到前綴嵌入;

        (b)獲取原始輸入ID的嵌入表示;

        (c)將前綴嵌入與輸入嵌入連接起來,形成一個擴展的嵌入序列;

        (d)將這個擴展的嵌入序列輸入到源模型中,進行正常的前向傳播。

        d)訓練與更新:

        (a)在訓練過程中,模型的參數(shù)和前綴嵌入會根據(jù)任務目標進行更新;

        (b)通過反向傳播算法,計算損失函數(shù)關于模型參數(shù)的梯度,并更新模型參數(shù)和前綴嵌入。

        P-Tuning v2的核心思想是通過在模型的每一層引入可訓練的前綴,從而使模型能夠?qū)W習到特定任務的信息。這種方法不僅提高了模型的靈活性,而且在不增加過多參數(shù)的情況下,提升了模型對特定任務的適應能力。

        將模型的參數(shù)集合定義為θ,其中包含多層的模型參數(shù)(θ1,θ2,…,θn)。每一層(i)添加一組可學習的提示Pi,與模型的輸入X共同參與模型的計算。

        每一層的提示Pi可以表示為:[Pi=fi(Pi-1,θi)],其中fi為計算函數(shù),θi是第i層的參數(shù),Pi-1為前一層的提示。在訓練過程中,每層提示Pi通過最小化損失函數(shù)L進行更新:

        Pl:[minP1,…,PnL(Y,Y^(X,P1,…,Pn,Θ))](1)

        其中:Y為真實標簽,Y^是模型的預測輸出。

        MedGLM.H模型的任務是在肝膽領域提供專業(yè)的問答,基本上是一個涉及序列標注的具有挑戰(zhàn)性的NLU任務。在Zhang等人進行的研究中,當面臨這些困難的NLU挑戰(zhàn)時,P-Tuning v2表現(xiàn)出與Fine-Tune相當?shù)男阅埽瑫r需要更低的計算資源。因此, P-Tuning v2更適合MedGLM的第一階段訓練。

        2.5 階段2:基于私有臨床數(shù)據(jù)微調(diào)

        在第一階段之后,MedGLM.General的底層已經(jīng)得到很好的訓練,在一般醫(yī)學問答任務中表現(xiàn)出合理的準確性。為了保留MedGLM.General在一般醫(yī)學問答任務中的性能, 本文選擇在微調(diào)的第二階段凍結基礎層,僅允許更新最后5層的參數(shù)。

        對于凍結的參數(shù)θi,(i≤k):[θ(t+1)i=θti]。

        對于參與微調(diào)的參數(shù)θj,(j≤k):[θ(t+1)j=θtj-ηLθj],它們按照梯度下降法更新。其中t為迭代次數(shù),η為學習率,L是損失函數(shù)。

        在數(shù)學上,這可以表示為在微調(diào)過程中,對于每個凍結的參數(shù)θi, 本文設置(Lθi=0)。這意味著這些參數(shù)的梯度為零,因此在反向傳播過程中不會更新。對于需要更新的參數(shù), 本文正常計算梯度并更新參數(shù)值。

        freeze微調(diào)的優(yōu)點是能夠利用預訓練模型的強大表示能力,同時通過微調(diào)少數(shù)參數(shù)來適應特定任務,這在數(shù)據(jù)量有限或者計算資源受限的情況下尤其有用。

        鑒于已處理的專業(yè)臨床數(shù)據(jù)量有限,freeze微調(diào)使得可以使用少量數(shù)據(jù)進行模型細化,同時保留源模型的一些性能。經(jīng)過freeze微調(diào)后,MedGLM.H能夠在保持MedGLM.General在一般醫(yī)學知識問答任務中強大性能的同時,解決肝膽e034b963c0f7cebd3ff043842b28dad1專業(yè)領域的特定問題。

        3 實驗與結果

        3.1 實驗設計

        為了驗證兩階段微調(diào)的有效性及MedGLM.H的專業(yè)性,本文設計了四個實驗以評估微調(diào)方法的綜合性能、MedGLM.H模型對于臨床醫(yī)療問題的解答效果、模型在微調(diào)前后的性能對比以及MedGLM.H對于肝膽專科醫(yī)學的專業(yè)性。

        用模型微調(diào)效果的通用評價指標進行微調(diào)方法性能的評估;設置一項對于臨床醫(yī)療問題的雙盲評估實驗,由臨床醫(yī)生根據(jù)通用醫(yī)療大語言模型與MedGLM.H對相同臨床醫(yī)療問題的回答進行評估

        ;設置肝膽專科試題集,對比微調(diào)前后模型的準確率與得分率;最后,由三位臨床醫(yī)生進行10輪的對話以評估模型在專業(yè)醫(yī)療場景的實用性。

        1)微調(diào)效果評估實驗

        實驗驗證階段, 本文在東方肝膽外科醫(yī)院的病歷數(shù)據(jù)中避開訓練集,隨機選擇了500組肝膽科患者的問診主訴作為Q(question),使用GPT-4對問診進行回答作為A(answer),以此作為驗證集。 本文采用BLEU(bilingual evaluation understudy)值[15]和Rouge score(Rouge,recall-oriented understudy for gisting evaluation)[16]對微調(diào)后的模型進行評估,評估結果在第3.3小節(jié)。然而,應注意的是,BLEU和Rouge分數(shù)僅在評估模型生成的答案在驗證集中與參考答案匹配的程度方面是可靠的。對于真實的臨床應用,仍然需要進行進一步的評估[17]。

        2)雙盲問答對比實驗

        為了對比MedGLM.H對于臨床醫(yī)療問題的解答效果,本文選取MedGLM.H的源模型ChatGLM-6B以及該模型通過Instruct-Tuning微調(diào)后得到的醫(yī)學通用大語言模型ChatGLM-Med進行雙盲評估實驗。在實驗中,三個模型對于同一肝膽科臨床醫(yī)療問題進行解答,由專業(yè)的肝膽科臨床醫(yī)生對模型生成的答案質(zhì)量進行綜合評分。

        3)微調(diào)前后對比實驗

        此外,在驗證兩階段微調(diào)框架的有效性及MedGLM.H在肝膽??频膶I(yè)性方面,通過建立肝膽??频恼鎸嶎}庫作為驗證集,與未經(jīng)微調(diào)的ChatGLM-6B進行對比實驗。驗證集中的真題來自中國執(zhí)業(yè)醫(yī)師資格考試、臨床醫(yī)院中肝膽科出科考試與臨床醫(yī)學專業(yè)考試中關于肝膽科的真實考題。整合后的肝膽??圃囶}包括100道單項選擇題與10道主觀題。統(tǒng)計對比選擇題的正確率與簡答題的得分率。簡答題的判分由東方肝膽外科醫(yī)院的臨床醫(yī)生進行。

        4)臨床醫(yī)生對話評估實驗

        為了驗證MedGLM.H的臨床適用性和專業(yè)性, 本文邀請了三位有著豐富臨床經(jīng)驗的肝膽科醫(yī)生與MedGLM.H進行10輪對話。將MedGLM.H的回答在準確性、對醫(yī)生的參考價值和對病人的適用性三個維度上進行評估。旨在評估MedGLM.H的臨床適用性和專業(yè)性。

        3.2 評價指標

        BLEU分數(shù)是用于評估AI模型機器翻譯質(zhì)量的一項評價指標,它會根據(jù)模型生成的結果與驗證集中答案的匹配程度給出分數(shù),這個分數(shù)在0~1,BLEU值越接近1則翻譯質(zhì)量越高。Rouge score是一種用于衡量自動文摘生成質(zhì)量的指標,它根據(jù)生成的文摘與參考摘要之間的匹配程度給出分數(shù),同樣在0~1,1表示最匹配,0表示最不相關。

        BLEU值與Rouge score的評估僅能保證MedGLM.H的回答是否與GPT-4相接近(盡管GPT-4對于醫(yī)學問題的回答質(zhì)量已經(jīng)非常高),無法表明MedGLM.H對肝膽科患者或醫(yī)生的適用性。因此設計準確性、對醫(yī)生的可參考性、對病人的適用性三維度的評估是必要的。

        3.3 結果與分析

        本文對比了幾種基于ChatGLM-6B微調(diào)的醫(yī)學大語言模型的微調(diào)方法與硬件環(huán)境,并對驗證集進行BLEU與Rouge score指標評估,各大語言模型的對比驗證結果記錄在表1。

        為了更加直觀地對比幾個醫(yī)療模型對于臨床問題的解答效果, 本文進行了一次雙盲問答對比實驗,由東方肝膽外科醫(yī)院的臨床醫(yī)生對答案的質(zhì)量進行綜合評分。在這個對比實驗中, 本文展示了三個醫(yī)學模型對于臨床問題的回答。對話的內(nèi)容和答案分別由三個不同的醫(yī)學模型生成,但在展示給評估者時,沒有顯示模型的名稱,以確保評估是雙盲的。臨床醫(yī)生對這些答案的質(zhì)量進行評估,并給出了綜合得分。評估者只根據(jù)內(nèi)容和質(zhì)量來評估答案,而不知道模型的身份。這種實驗證明了醫(yī)學模型在回答臨床問題時的性能,并提供了更直觀的比較。對話的內(nèi)容如表2所示。

        對比實驗的結果見表3,準確率表示模型對于試題中單項選擇題的正確率,得分率為模型對于簡答題生成的答案的得分。每道簡答題的答案由肝膽??频尼t(yī)生進行0~10分的打分,共計10道簡答題。醫(yī)生對于簡答題的評判標準與臨床醫(yī)學專業(yè)考試及肝膽科實習醫(yī)生出科考試一致,以此保證實驗結果的有效性。

        在基于肝膽??圃囶}的對比實驗中,MedGLM.H展現(xiàn)了較高水準的肝膽專業(yè)問答水平。在得分上,與Flan-PaLM 540B在美國執(zhí)業(yè)醫(yī)師資格考試中取得的準確率相當[17]。其中MedGLM.H對于單項選擇題的準確率達到了源模型的兩倍,簡答題的得分率在源模型的對比下也顯示出了較大的改進。盡管目前MedGLM.H對于執(zhí)業(yè)醫(yī)師資格考試等專業(yè)試題的準確率與臨床醫(yī)生仍有一定差距。但就目前而言,本研究在輕量級大語言模型微調(diào)中進行專業(yè)領域的針對性微調(diào)表現(xiàn)出了一定的潛力。

        本文期望MedGLM.H能夠解答肝膽科常見的臨床問題并且為醫(yī)生提供一些治療意見。因此,對于MedGLM.H生成的答案還需要進行三個維度的評估,分別為:生成答案的準確度、生成的答案對病人的適用度以及給醫(yī)生的參考價值。 本研究邀請了三位來自東方肝膽外科醫(yī)院的主治醫(yī)生與MedGLM.H進行10輪的對話,最終對MedGLM.H生成的答案進行評估。圖3展示了三位醫(yī)生對MedGLM.H生成答案的評估。

        可以證明MedGLM.H在更專業(yè)的醫(yī)療場景中執(zhí)行對話任務的效果有一定的專業(yè)水準。這為訓練更加專業(yè)的醫(yī)療大語言模型提供了一個思路:使用經(jīng)過加工的??撇v文本數(shù)據(jù)對醫(yī)療通用大語言模型進行微調(diào)可以得到一個聚焦于某一科室的大語言模型,并且它的成本是絕大部分醫(yī)院或臨床醫(yī)學研究團隊能夠負擔得起的。

        4 討論與展望

        盡管醫(yī)學通用的大語言模型已經(jīng)在早前推出,但這些大語言模型并沒有廣泛地部署在臨床醫(yī)院。一個主要的原因是這些大語言模型的對話質(zhì)量對比此前一些醫(yī)院部署的問答系統(tǒng)并沒有突破性的進展。由于訓練這些醫(yī)學通用大語言模型的數(shù)據(jù)集很多都是來自這些基于醫(yī)療咨詢數(shù)據(jù)庫的問答系統(tǒng),所以這些大語言模型的回答不可避免地會與早先的問答系統(tǒng)高度類似,并沒有體現(xiàn)出AIGC技術的優(yōu)越性[18]。MedGLM.H解決這一問題的方法是使用經(jīng)過處理的病人病歷及診療記錄的文本數(shù)據(jù)對大語言模型進行微調(diào),以提高它的對話質(zhì)量。

        本文的工作在低學術預算的情況下,基于通用醫(yī)學知識圖譜和專業(yè)的臨床數(shù)據(jù)通過“造極”訓練了針對肝膽??频尼t(yī)療對話大語言模型。在中國執(zhí)業(yè)醫(yī)生資格考試等專業(yè)醫(yī)學考試中肝膽科試題的準確率與更大參數(shù)級別的大語言模型Flan-PaLM 540B在美國執(zhí)業(yè)醫(yī)師資格考試中取得的準確率相當。這為許多有相似情況的學術團隊提供了思路,對推廣訓練或部署專業(yè)大語言模型也作出了一定的貢獻。

        盡管MedGLM.H在實驗驗證階段展示了一定的專業(yè)水平,能夠回答肝膽科一些專業(yè)的問題。但由于參與微調(diào)訓練的數(shù)據(jù)并不十分完善且數(shù)據(jù)量有限,加之這項工作仍處于研究早期,它的回答不應該被完全信任。 本研究期待接下來的工作能夠使它更加可信任,以便于部署到醫(yī)療資源匱乏的地區(qū)或社區(qū)醫(yī)院。

        本研究的目標是訓練一個能夠給醫(yī)生提供專業(yè)診療意見、為臨床病患解答專業(yè)性醫(yī)學問題的專業(yè)醫(yī)療對話大語言模型。就目前的工作而言, 本研究邁出了第一步。它仍有許多問題亟待解決。如:MedGLM.H的回答需要保證相當高的準確率,給出的診療意見也需要大基數(shù)的實驗來驗證其有效性與無害性;對于醫(yī)學檢驗結果的診斷與解答還需要進一步的訓練以提高準確度。在未來, 本研究預備進行以下工作來改進Med-GLM,使它的回答能夠更加準確與多元。

        a)在東方肝膽外科醫(yī)院不斷進行測試,收集測試結果對大語言模型進行改進。

        b)使用各科室的臨床數(shù)據(jù)與病歷文本設計醫(yī)學知識圖譜,以外接知識庫的形式接到MedGLM.General,使MedGLM.General能夠回答除肝膽科以外的專業(yè)問題。

        c)接入傳統(tǒng)機器學習或深度學習對某些疾病的預測模型,醫(yī)生能夠向MedGLM提問相關病癥發(fā)展階段的指標特征或干預措施對病癥發(fā)展的影響。

        d)通過設計prompt并使用特定數(shù)據(jù)微調(diào)使MedGLM能夠做到對部分疾病的早期篩查。

        參考文獻:

        [1]Radford A, Narasimhan K, Salimans T,et al. Improving language understanding by generative pre-training [EB/OL]. (2018) [2024-03-13].

        http://www.mikecaptain.com/resources/pdf/G PT-1.pdf.

        [2]Du Zhengxiao, Qian Yujie, Liu Xiao,et al. GLM: general language model pretraining with autoregressive blank infilling [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 320-335.

        [3]Himabindu L, Dylan S, Chen Yuxin,et al. Rethinking explainability as a dialogue: a practitioner’s perspective [EB/OL]. (2022) [2024-03-13]. http://doi.org/10.48550/arXiv.2202.01875.

        [4]Esteva A, Chou K, Yeung S,et al. Deep learning-enabled medical computer vision [J]. NPJ Digital Medicine, 2021, 4(1): 5.

        [5]Yim J, Chopra R, Spitz T,et al. Predicting conversion to wet age related macular [J]. Nature Medicine, 2020 (26): 892-899.

        [6]Tomaev N, Harris N, Baur S,et al. Developing continuous risk mo-dels for adverse event prediction in electronic health records using deep learning [J]. Nature Protocol, 2021 (16): 2765-2787.

        [7]Li Yunxiang, Li Zihan, Zhang Kai,et al. ChatDoctor: a medical chat model fine-tuned on LLaMA model using medical domain knowledge [EB/OL]. (2023) [2024-03-13]

        https://doi.org/10.48550/arXiv.2303.14070.

        [8]Xiong Honglin, Wang Sheng, Zhu Yitao,et al. DoctorGLM: fine-tuning your Chinese doctor is not a herculean task [EB/OL]. (2023) [2024-03-13].

        https://doi.org/10.48550/arXiv.2304.01097.

        [9]Wang Haochun, Liu Chi, Xi Nuwa,et al. HuaTuo: tuning LLaMA model with Chinese medical knowledge [EB/OL]. (2023) [2024-03-13].

        https://doi.org/10.48550/arXiv.2304.06975.

        [10]Liu Zhengliang, Yu Xiaowei, Zhang Lu,et al. DeID-GPT: zero-shot medical text de-identification by GPT-4 [EB/OL]. (2023) [20 24-03-13].

        https://doi.org/10.48550/arXiv.2303.11032.

        [11]Hu E, Shen Yelong, Wallis P,et al. LORA: low-rank adaptation of large language models [C]// Proc of the 10th International Confe-rence on Learning Representations. Washington, DC: IUR, 2022.

        [12]Shin J, Choi S, Choi Y,et al. A pragmatic approach to on-device incremental learning system with selective weight updates [C]//Proc of 57th ACM/IEEE Design Automation Conference. Piscataway,NJ:IEEE Press, 2020: 1-6.

        [13]Touvron H, Lavril T, Izacard G,et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023) [2024-03-13]. https://doi.org/10.48550/arXiv.2302.13971.

        [14]Liu Xiao, Ji Kaixuan, Tam W,et al. P-Tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 61-68.

        [15]Papineni K, Roukos S, Ward T,et al. BLEU: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of Association for Computational Linguistics. Stroudsburg, PA: ACL, 2002: 311-318.

        [16]Lin C Y. ROUGE: a package for automatic evaluation of summaries [C]// ACL Proc of Workshop on Text Summarization Branches Out. Stroudsburg, PA: ACL, 2004: 74-81.

        [17]Singhal K, Azizi S, Tu T,et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-180.

        [18]Cao Yihan, Li Siyu, Liu Yixin,et al. A comprehensive survey of AI-generated content (AIGC): a history of generative AI from GAN to ChatGPT [J]. Journal of the ACM, 2018, 4(37): 111-155.

        久久久久久自慰出白浆| 麻豆人妻无码性色AV专区| 青青草国内视频在线观看| 午夜免费观看国产视频| 亚洲av网一区二区三区| 躁躁躁日日躁| 国产高清白浆| 中文字日产幕码三区做法| 精品av熟女一区二区偷窥海滩| 国产成人精品av| 香蕉视频免费在线| 国产亚洲精品综合在线网站| 丝袜人妻无码中文字幕综合网 | 大地资源网高清在线播放| 亚洲狠狠婷婷综合久久| 蜜臀aⅴ永久无码一区二区| 91盗摄偷拍一区二区三区| 先锋五月婷婷丁香草草| 亚洲在AV极品无码天堂手机版 | 9 9久热re在线精品视频| 久久伊人影院| 有码中文字幕一区二区| 亚洲高清在线天堂精品| 二区免费在线视频观看| …日韩人妻无码精品一专区| 亚洲熟妇少妇任你躁在线观看| 一区二区三区国产精品| 麻豆最新国产av原创| 久久无码av中文出轨人妻| 国产精品成人嫩妇| 国产成人自拍视频视频| 中文字幕av伊人av无码av| 久久久亚洲色| 国产精品美女久久久久浪潮AVⅤ| 手机在线播放av网址| 中文字幕人妻少妇引诱隔壁| 日韩在线观看你懂的| av网站韩日在线观看免费 | 韩国三级大全久久网站| 激情综合欧美| av免费观看在线网站|