康硯瀾 郭倩宇 張文強(qiáng), 王昊奮
(1復(fù)旦大學(xué)工程與應(yīng)用技術(shù)研究院,上海 200433 2復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院 上海 200433 3 同濟(jì)大學(xué) 上海 200438)
生成式語(yǔ)言模型是自然語(yǔ)言處理領(lǐng)域的核心技術(shù)之一,能夠利用大規(guī)模無(wú)標(biāo)注文本自動(dòng)學(xué)習(xí)語(yǔ)言的語(yǔ)義、結(jié)構(gòu)、語(yǔ)法等知識(shí),從而提升對(duì)自然語(yǔ)言的理解能力及生成能力,根據(jù)不同輸入條件和目標(biāo)生成多種風(fēng)格和形式的文本。隨著預(yù)訓(xùn)練技術(shù)和變壓器模塊(Transformer)的發(fā)展,以生成式預(yù)訓(xùn)練轉(zhuǎn)換器(generative pretrained transformer-3.5,GPT)系列[1-9]為代表的通用大語(yǔ)言模型在文本生成、對(duì)話(huà)、問(wèn)答等多種任務(wù)中展現(xiàn)出強(qiáng)大能力,廣泛應(yīng)用于辦公、推薦系統(tǒng)、服務(wù)問(wèn)答等。
隨著自動(dòng)化輔助醫(yī)療和互聯(lián)網(wǎng)醫(yī)療的發(fā)展,高端醫(yī)療服務(wù)機(jī)器人、高質(zhì)量臨床問(wèn)答診斷、專(zhuān)業(yè)健康助手等均對(duì)語(yǔ)言模型與醫(yī)學(xué)領(lǐng)域的結(jié)合提出更高要求。然而,醫(yī)學(xué)領(lǐng)域包含大量專(zhuān)業(yè)醫(yī)學(xué)知識(shí)及用語(yǔ)、多模態(tài)復(fù)雜醫(yī)療影像等,通用語(yǔ)言模型難以通過(guò)大量無(wú)監(jiān)督自然語(yǔ)料訓(xùn)練習(xí)得。同時(shí),醫(yī)療領(lǐng)域?qū)φZ(yǔ)言模型的可解釋性、可信度、效率等有更高要求。因此,雖然生成式語(yǔ)言模型可應(yīng)用于醫(yī)學(xué)領(lǐng)域的藥品說(shuō)明理解、病例報(bào)告生成、簡(jiǎn)單的醫(yī)療服務(wù)對(duì)話(huà)等[10],但仍然不能滿(mǎn)足臨床問(wèn)答等專(zhuān)業(yè)醫(yī)學(xué)任務(wù)[11]。為解決以上問(wèn)題,研究人員基于知識(shí)引入的方法提升通用語(yǔ)言模型對(duì)醫(yī)療專(zhuān)業(yè)知識(shí)的理解和應(yīng)用能力。構(gòu)建更全面、專(zhuān)業(yè)的醫(yī)學(xué)知識(shí)圖譜、知識(shí)庫(kù),探索在醫(yī)療問(wèn)答中更準(zhǔn)確的知識(shí)增強(qiáng)方法是提升醫(yī)學(xué)語(yǔ)言模型問(wèn)答有效性的關(guān)鍵。基于此,本文綜述了生成式語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域的發(fā)展現(xiàn)狀和面臨挑戰(zhàn)、基于知識(shí)增強(qiáng)的技術(shù)原理及其在醫(yī)療領(lǐng)域的主要應(yīng)用前景等,以期為相關(guān)研究人員快速了解語(yǔ)言模型在醫(yī)療領(lǐng)域中的研究現(xiàn)狀和未來(lái)發(fā)展方向、推動(dòng)通用語(yǔ)言模型在醫(yī)療領(lǐng)域中更專(zhuān)業(yè)、廣泛和深入應(yīng)用提供參考。
通用人工智能是指在各個(gè)領(lǐng)域和環(huán)境中,機(jī)器能夠像人類(lèi)一樣具備廣泛的認(rèn)知能力、自主適應(yīng)復(fù)雜環(huán)境,并實(shí)現(xiàn)自主感知、理解、學(xué)習(xí)、推理、決策與規(guī)劃。近年來(lái),人工智能在不同領(lǐng)域和場(chǎng)景取得重大進(jìn)展,如圍棋[12-14]、圖像生成[15-17]和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)[18-22]等。作為通用人工智能的核心能力之一,自然語(yǔ)言理解和生成在自然語(yǔ)言處理任務(wù)中取得顯著突破,以ChatGPT為代表的生成式人工智能(AI-generated content,AIGC)在文本生成、問(wèn)答等任務(wù)上取得重大突破[1-6]。在現(xiàn)有技術(shù)條件下,大語(yǔ)言模型成為實(shí)現(xiàn)通用人工智能的有效技術(shù)路徑。
2.2.1 核心思想 通用大語(yǔ)言模型是一種能夠理解和生成自然語(yǔ)言文本的深度學(xué)習(xí)模型。其核心思想是通過(guò)掩碼預(yù)測(cè)下一個(gè)詞匯,從而訓(xùn)練模型以實(shí)現(xiàn)對(duì)自然語(yǔ)言的理解和生成。為了實(shí)現(xiàn)這一目標(biāo),通用大語(yǔ)言模型需要大規(guī)模模型參數(shù)和預(yù)訓(xùn)練數(shù)據(jù)。通過(guò)大規(guī)模參數(shù)和海量預(yù)訓(xùn)練數(shù)據(jù)應(yīng)用,通用大語(yǔ)言模型實(shí)現(xiàn)了泛化能力。在預(yù)訓(xùn)練階段,其學(xué)習(xí)通用的語(yǔ)言表示、詞法和句法信息以及世界知識(shí)?;诖耍谖谋痉诸?lèi)、命名實(shí)體識(shí)別、機(jī)器翻譯等傳統(tǒng)自然語(yǔ)言處理任務(wù)中能夠達(dá)到與單一領(lǐng)域最先進(jìn)(state of the art,SOTA)模型性能相當(dāng)?shù)乃?。此外,在多輪?duì)話(huà)、復(fù)雜語(yǔ)言推理和自動(dòng)編碼等領(lǐng)域,通用大語(yǔ)言模型展現(xiàn)了出色的性能,并具備情景學(xué)習(xí)、指令遵循和思維鏈推理等能力。
2.2.2 情景學(xué)習(xí)(in-context learning,ICL) 是一種基于貝葉斯推斷的學(xué)習(xí)方法,能夠使模型根據(jù)任務(wù)示例或指令生成預(yù)期輸出,無(wú)需額外訓(xùn)練。這種方法在多個(gè)自然語(yǔ)言處理基準(zhǔn)測(cè)試中表現(xiàn)出有效性。利用概念蘊(yùn)含的語(yǔ)義先驗(yàn)知識(shí),模型可以學(xué)習(xí)輸入、標(biāo)簽和輸出之間的映射關(guān)系,從而提高在特定任務(wù)上的性能。
2.2.3 指令遵循 是一種提高模型泛化能力的方法,使模型能夠根據(jù)任務(wù)指令執(zhí)行新任務(wù),而無(wú)需明確示例。如谷歌公司T5模型[23],其使用文本到文本的轉(zhuǎn)換框架,以統(tǒng)一各種自然語(yǔ)言處理任務(wù),并且可以根據(jù)自然語(yǔ)言指令生成不同類(lèi)型輸出,如摘要、翻譯、對(duì)話(huà)等。
2.2.4 思維鏈推理(chain-of-thought,CoT) 是一種通過(guò)分解推理步驟處理復(fù)雜任務(wù)、增強(qiáng)模型推理能力和可解釋性的方法。其體現(xiàn)了語(yǔ)言模型對(duì)推理過(guò)程的深度建模和控制能力。思維鏈推理采用提示策略,將問(wèn)題分解為多個(gè)子問(wèn)題,并將每個(gè)子問(wèn)題的答案作為下一個(gè)子問(wèn)題的輸入,形成連續(xù)推理鏈條。語(yǔ)言模型可以逐步解決每個(gè)子問(wèn)題并最終匯總得出完整答案。這種方法不但提高了模型的準(zhǔn)確性,還增強(qiáng)了推理過(guò)程的可解釋性,從而提高模型的可信度和用戶(hù)體驗(yàn)。
醫(yī)學(xué)文本生成是自然語(yǔ)言處理在醫(yī)療行業(yè)中的重要應(yīng)用。其利用自然語(yǔ)言生成技術(shù),根據(jù)醫(yī)學(xué)知識(shí)圖譜、專(zhuān)業(yè)數(shù)據(jù)庫(kù)、醫(yī)學(xué)影像、醫(yī)學(xué)信號(hào)等數(shù)據(jù)源,生成專(zhuān)業(yè)化醫(yī)學(xué)文本,以實(shí)現(xiàn)輔助閱讀、創(chuàng)建病例報(bào)告、編寫(xiě)摘要、提供問(wèn)答建議等多種功能。近年來(lái),生成式語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域取得顯著進(jìn)展和突破。例如,生成式預(yù)訓(xùn)練轉(zhuǎn)換器4(generative pretrained transformer 4,GPT-4)在醫(yī)學(xué)問(wèn)答任務(wù)上展現(xiàn)出較強(qiáng)的性能和準(zhǔn)確性[24];專(zhuān)門(mén)針對(duì)生物醫(yī)學(xué)文本預(yù)訓(xùn)練的大語(yǔ)言模型PubMed GPT[25]在多個(gè)醫(yī)學(xué)基準(zhǔn)上達(dá)到較先進(jìn)水平。Galactica[26]模型是集成科學(xué)知識(shí)圖譜進(jìn)行預(yù)訓(xùn)練的大語(yǔ)言模型,經(jīng)測(cè)試發(fā)現(xiàn)在醫(yī)學(xué)領(lǐng)域具備一定零樣本生成能力。谷歌的Med-PaLM 2[27]模型是一種針對(duì)醫(yī)學(xué)問(wèn)題進(jìn)行優(yōu)化的垂直領(lǐng)域大語(yǔ)言模型,能夠針對(duì)患者問(wèn)題提供專(zhuān)家級(jí)醫(yī)師水平的回復(fù),并在多個(gè)國(guó)家的醫(yī)學(xué)測(cè)試中達(dá)到及格水平。醫(yī)學(xué)生成式語(yǔ)言模型技術(shù)框架,見(jiàn)圖1。
3.2.1 醫(yī)學(xué)報(bào)告自動(dòng)生成 基于醫(yī)學(xué)影像、檢測(cè)結(jié)果和其他醫(yī)療數(shù)據(jù),語(yǔ)言模型可以自動(dòng)生成結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)學(xué)報(bào)告。這些報(bào)告可能涉及X光診斷、心電圖分析、血液化驗(yàn)單等,其信息量大且要符合專(zhuān)業(yè)規(guī)范,通過(guò)生成報(bào)告可以極大減輕醫(yī)生的文書(shū)負(fù)擔(dān)。
3.2.2 個(gè)性化醫(yī)療建議生成 語(yǔ)言模型可以根據(jù)患者的病史、癥狀等信息,自動(dòng)生成針對(duì)個(gè)體情況的醫(yī)療咨詢(xún)、治療方案或用藥指導(dǎo),提供個(gè)性化醫(yī)患服務(wù)。
3.2.3 醫(yī)學(xué)知識(shí)精簡(jiǎn)總結(jié) 語(yǔ)言模型可以利用醫(yī)學(xué)文獻(xiàn)、數(shù)據(jù)庫(kù)和知識(shí)圖譜,對(duì)特定醫(yī)學(xué)主題進(jìn)行匯總、提煉和知識(shí)精簡(jiǎn),自動(dòng)生成知識(shí)概述或病例總結(jié),幫助醫(yī)生快速掌握醫(yī)學(xué)前沿進(jìn)展。
3.2.4 醫(yī)患問(wèn)答服務(wù) 語(yǔ)言模型可以理解患者和醫(yī)生的問(wèn)題,提供準(zhǔn)確回復(fù),涵蓋病因、治療、預(yù)后等信息。在問(wèn)診、健康咨詢(xún)等場(chǎng)景中應(yīng)用,可以改善醫(yī)患溝通效率。
3.3.1 數(shù)據(jù)收集 從互聯(lián)網(wǎng)獲取大量結(jié)構(gòu)化和非結(jié)構(gòu)化醫(yī)學(xué)文本數(shù)據(jù),如醫(yī)學(xué)圖像、檢驗(yàn)報(bào)告、病例描述等。通過(guò)專(zhuān)業(yè)的數(shù)據(jù)清洗和標(biāo)注工作去除無(wú)關(guān)、有害或有偏見(jiàn)的信息,結(jié)合醫(yī)學(xué)論文、專(zhuān)著等文本提高預(yù)訓(xùn)練語(yǔ)料質(zhì)量。
3.3.2 模型訓(xùn)練 采用無(wú)監(jiān)督預(yù)訓(xùn)練方法,基于Transformer的單一解碼器架構(gòu),使模型能夠?qū)W習(xí)和掌握醫(yī)學(xué)文本統(tǒng)計(jì)規(guī)律。
3.3.3 模型微調(diào) 采用監(jiān)督微調(diào)方法,通過(guò)多樣化的高質(zhì)量指令數(shù)據(jù),使模型具備泛化理解能力,如對(duì)話(huà)問(wèn)答和文本生成等,并提升模型在不同任務(wù)上的性能和準(zhǔn)確性。
3.3.4 意圖對(duì)齊 在此過(guò)程中,通常由人類(lèi)標(biāo)注師對(duì)模型輸出結(jié)果進(jìn)行評(píng)分,并基于評(píng)分訓(xùn)練一個(gè)自動(dòng)打分的獎(jiǎng)勵(lì)模型,通過(guò)獎(jiǎng)勵(lì)模型與微調(diào)后的語(yǔ)言模型之間的反饋和迭代,使模型能夠輸出符合人類(lèi)醫(yī)師價(jià)值觀(guān)的結(jié)果,避免產(chǎn)生違背醫(yī)學(xué)倫理或帶有偏見(jiàn)的內(nèi)容。
3.3.5 低秩自適應(yīng) 針對(duì)需要深入領(lǐng)域知識(shí)的任務(wù),可以采用低秩自適應(yīng)方法,而無(wú)須重新訓(xùn)練整個(gè)模型。該方法凍結(jié)預(yù)訓(xùn)練模型權(quán)重,并在每個(gè)Transformer層中引入秩分解矩陣,從而使模型適應(yīng)特定醫(yī)學(xué)專(zhuān)科任務(wù)。
醫(yī)學(xué)生成式語(yǔ)言模型是近年來(lái)醫(yī)學(xué)人工智能領(lǐng)域的一項(xiàng)重要發(fā)展。Moor M等[28]定義了通用醫(yī)療人工智能(generalist medical artificial intelligence,GMAI)模型,即能夠使用少量或未標(biāo)記數(shù)據(jù)執(zhí)行多個(gè)任務(wù)的醫(yī)療人工智能模型。其通過(guò)在大規(guī)模、多樣化的數(shù)據(jù)集上進(jìn)行自我監(jiān)督學(xué)習(xí),能夠靈活地解釋不同醫(yī)療模式組合,并通過(guò)先進(jìn)的醫(yī)學(xué)推理能力呈現(xiàn)易于人類(lèi)理解的結(jié)果。GMAI模型具有高度靈活的可交互性、精準(zhǔn)的醫(yī)學(xué)語(yǔ)言表達(dá)專(zhuān)業(yè)性以及強(qiáng)大的領(lǐng)域泛化理解能力。醫(yī)學(xué)生成式語(yǔ)言模型的代表[27,29,31-38],見(jiàn)圖2。
圖2 現(xiàn)有醫(yī)學(xué)生成式語(yǔ)言模型脈絡(luò)
ChatDoctor[29]是基于LLaMA微調(diào)的醫(yī)學(xué)大語(yǔ)言模型,能適應(yīng)醫(yī)療場(chǎng)景需求。其使用10萬(wàn)個(gè)在線(xiàn)醫(yī)療咨詢(xún)網(wǎng)站的真實(shí)患者-醫(yī)師對(duì)話(huà)數(shù)據(jù)進(jìn)行微調(diào),學(xué)習(xí)醫(yī)學(xué)知識(shí)和醫(yī)患對(duì)話(huà)語(yǔ)言風(fēng)格。模型采用獨(dú)特的自主信息檢索機(jī)制,能夠訪(fǎng)問(wèn)和利用來(lái)自維基百科或疾病數(shù)據(jù)庫(kù)等專(zhuān)業(yè)醫(yī)療數(shù)據(jù)庫(kù)的信息,提升準(zhǔn)確性。大量實(shí)驗(yàn)證實(shí)了該模型在準(zhǔn)確率、召回率和F1值等方面的強(qiáng)大性能。研究結(jié)果表明,ChatDoctor能夠更好地理解患者需求并提供有根據(jù)的建議,具有廣泛的醫(yī)療應(yīng)用前景。
Med-PaLM[27]是基于谷歌公司Pathways語(yǔ)言模型(pathways language model,PaLM)基座的醫(yī)學(xué)生成式語(yǔ)言模型。通過(guò)指令微調(diào)訓(xùn)練Flan-PaLM模型,在MedQA、MedMCQA、PubMedQA和大規(guī)模多任務(wù)語(yǔ)言理解(massive multitask language understanding,MMLU)臨床問(wèn)題數(shù)據(jù)集上取得了最優(yōu)結(jié)果。進(jìn)一步通過(guò)與醫(yī)學(xué)領(lǐng)域?qū)R的指令提示微調(diào)方法,建立Med-PaLM模型以及基于事實(shí)性、理解性、推理能力、潛在傷害與偏見(jiàn)等多角度的人工評(píng)測(cè)框架。人工醫(yī)師評(píng)估發(fā)現(xiàn)Med-PaLM模型在回答醫(yī)學(xué)問(wèn)題方面具有與臨床醫(yī)師相當(dāng)?shù)男Ч?。為進(jìn)一步評(píng)估語(yǔ)言模型在醫(yī)學(xué)問(wèn)題回答方面的能力和局限性,還建立了新的醫(yī)學(xué)問(wèn)題回答基準(zhǔn)測(cè)試數(shù)據(jù)集MultiMedQA。
Hu X等[30]設(shè)計(jì)了一個(gè)多模態(tài)專(zhuān)家知識(shí)感知的多關(guān)系圖網(wǎng)絡(luò)模型,并構(gòu)建了最大的醫(yī)學(xué)視覺(jué)問(wèn)答數(shù)據(jù)集MIMIC-Diff-VQA。該數(shù)據(jù)集基于放射科胸片報(bào)告,構(gòu)建具有邏輯遞進(jìn)和種類(lèi)豐富的視覺(jué)問(wèn)答對(duì)。同時(shí)還提出了圖像對(duì)比視覺(jué)問(wèn)答任務(wù),即給定兩張醫(yī)學(xué)影像圖片,回答關(guān)于這兩張圖片差異性的問(wèn)題。這項(xiàng)研究進(jìn)一步推動(dòng)模型貼近臨床實(shí)踐,以提升醫(yī)師診療效率。
ZHANG H等[31]開(kāi)發(fā)的華佗GPT旨在使語(yǔ)言模型具備類(lèi)似于醫(yī)師的中文醫(yī)學(xué)診斷和醫(yī)療咨詢(xún)建議能力。該模型結(jié)合ChatGPT生成的“蒸餾數(shù)據(jù)”和真實(shí)世界中醫(yī)生回復(fù)患者問(wèn)題的對(duì)話(huà)數(shù)據(jù)來(lái)構(gòu)建微調(diào)語(yǔ)料,以保持與用戶(hù)交流內(nèi)容的知識(shí)豐富性。經(jīng)過(guò)自動(dòng)測(cè)評(píng)和醫(yī)師評(píng)估,展現(xiàn)出較強(qiáng)性能。
醫(yī)療數(shù)據(jù)包含大量患者隱私信息,在生成式語(yǔ)言模型的訓(xùn)練和微調(diào)過(guò)程中,應(yīng)嚴(yán)格遵循國(guó)內(nèi)外相關(guān)法律法規(guī),包括《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》,美國(guó)《健康保險(xiǎn)攜帶和責(zé)任法案》(Health Insurance Portability and Accountability Act,HIPPA)及歐盟《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)等。為確?;颊唠[私和數(shù)據(jù)安全,必須采用加密、脫敏、匿名化和去標(biāo)識(shí)化等技術(shù)手段,防范醫(yī)療數(shù)據(jù)泄露或?yàn)E用,并避免模型生成的輸出暴露個(gè)人敏感信息。
生成式語(yǔ)言模型在輸出醫(yī)學(xué)文本時(shí)必須具備豐富的醫(yī)學(xué)知識(shí)和經(jīng)驗(yàn),確保其內(nèi)容符合醫(yī)學(xué)規(guī)范和標(biāo)準(zhǔn),包括正確使用醫(yī)學(xué)術(shù)語(yǔ)、符號(hào)以及規(guī)范格式,以保證輸出的準(zhǔn)確性與可信度。模型應(yīng)避免使用具有誤導(dǎo)性和不專(zhuān)業(yè)的表達(dá)方式,并避免導(dǎo)致誤診、漏診或不當(dāng)治療的情況。
生成式語(yǔ)言模型在輸出內(nèi)容時(shí)必須尊重和保護(hù)人類(lèi)的生命健康,不能提供有害、歧視性或違反醫(yī)學(xué)倫理和價(jià)值觀(guān)的建議。模型內(nèi)部應(yīng)嵌入醫(yī)學(xué)倫理約束,并對(duì)輸出進(jìn)行風(fēng)險(xiǎn)評(píng)估,確保其安全性,不產(chǎn)生對(duì)患者生命健康存在潛在影響的建議。
為確保模型的可信度和透明性,生成的內(nèi)容要具有強(qiáng)烈的可解釋性。模型應(yīng)能夠清晰地展示其推理依據(jù)、循證支持和診療邏輯,及時(shí)檢測(cè)并糾正可能存在的偏見(jiàn)、錯(cuò)誤或虛構(gòu)等問(wèn)題,確保其輸出結(jié)果既準(zhǔn)確又可靠。
生成式語(yǔ)言模型在醫(yī)學(xué)常識(shí)問(wèn)答中具有廣闊應(yīng)用前景。要應(yīng)對(duì)上述挑戰(zhàn)并確保生成文本的專(zhuān)業(yè)性、準(zhǔn)確性和可信性,針對(duì)醫(yī)學(xué)數(shù)據(jù)的復(fù)雜性、稀缺性和敏感性,降低偏見(jiàn)、事實(shí)性錯(cuò)誤或虛構(gòu)輸出的風(fēng)險(xiǎn),可利用領(lǐng)域知識(shí)圖譜對(duì)生成模型的輸出進(jìn)行約束。迫切須要建立基于知識(shí)圖譜約束的醫(yī)學(xué)語(yǔ)言模型,知識(shí)圖譜蘊(yùn)含豐富的領(lǐng)域結(jié)構(gòu)化知識(shí),其中基于實(shí)體、關(guān)系和屬性的圖結(jié)構(gòu)具有高度清晰的醫(yī)學(xué)行業(yè)診療邏輯。通過(guò)將這些領(lǐng)域知識(shí)圖譜的約束應(yīng)用于語(yǔ)言模型的生成過(guò)程,可以輸出專(zhuān)業(yè)、準(zhǔn)確和可信賴(lài)的醫(yī)學(xué)文本。
6.2.1 醫(yī)學(xué)生成式語(yǔ)言模型面臨多重挑戰(zhàn) 如數(shù)據(jù)安全隱私保護(hù)、知識(shí)專(zhuān)業(yè)性不足和倫理規(guī)范性欠缺等問(wèn)題,迫切需要有效的解決方案以確保模型在醫(yī)療領(lǐng)域的安全合規(guī)應(yīng)用。結(jié)構(gòu)化的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜應(yīng)用于生成式語(yǔ)言模型,可以有效提供外部約束和指導(dǎo),幫助模型生成專(zhuān)業(yè)準(zhǔn)確、符合規(guī)范的醫(yī)學(xué)文本。知識(shí)圖譜是一種將實(shí)體概念及其語(yǔ)義關(guān)聯(lián)關(guān)系以網(wǎng)絡(luò)化、結(jié)構(gòu)化形式表示的知識(shí)框架。相較于文本語(yǔ)料,知識(shí)圖譜的結(jié)構(gòu)化表示形式更易被模型理解和應(yīng)用。具體來(lái)說(shuō),知識(shí)圖譜可以為生成式語(yǔ)言模型提供專(zhuān)業(yè)理解力等5方面支持,見(jiàn)圖3。
圖3 知識(shí)圖譜增強(qiáng)的醫(yī)學(xué)生成式語(yǔ)言模型優(yōu)勢(shì)框架
6.2.2 增強(qiáng)專(zhuān)業(yè)理解力 依托知識(shí)圖譜中豐富的醫(yī)學(xué)實(shí)體及其關(guān)聯(lián)關(guān)系,可以大幅提升生成式語(yǔ)言模型對(duì)專(zhuān)業(yè)知識(shí)的理解能力。充足的專(zhuān)業(yè)知識(shí)引導(dǎo)是避免模型產(chǎn)生幻覺(jué)、輸出不準(zhǔn)確或不規(guī)范醫(yī)學(xué)文本的重要前提。
6.2.3 強(qiáng)化邏輯推理 生成式語(yǔ)言模型可以進(jìn)行更準(zhǔn)確的邏輯推理。實(shí)體之間的關(guān)聯(lián)為模型提供可靠的事實(shí)依據(jù)和嚴(yán)密的推理鏈,有助于生成條理清晰、事實(shí)準(zhǔn)確的醫(yī)學(xué)文本。
6.2.4 知識(shí)更新拓展 借助持續(xù)擴(kuò)展的知識(shí)圖譜,模型可以實(shí)時(shí)獲取最新醫(yī)學(xué)知識(shí),避免產(chǎn)生過(guò)時(shí)、錯(cuò)誤的輸出。
6.2.5 減少幻覺(jué)輸出 知識(shí)圖譜的約束作用可以減少模型偏見(jiàn)、事實(shí)性錯(cuò)誤及幻覺(jué)輸出,降低生成無(wú)意義或有害醫(yī)療文本的可能性。
6.2.6 增強(qiáng)可解釋性 知識(shí)圖譜可以清晰展示每條生成語(yǔ)句所基于的知識(shí)來(lái)源,促進(jìn)診療決策過(guò)程有據(jù)可循。
6.3.1 知識(shí)結(jié)構(gòu)引導(dǎo)的醫(yī)學(xué)語(yǔ)言模型預(yù)訓(xùn)練 為提升醫(yī)學(xué)語(yǔ)言模型對(duì)醫(yī)學(xué)知識(shí)的了解和認(rèn)知,通常將醫(yī)學(xué)知識(shí)結(jié)構(gòu)融入大語(yǔ)言模型的預(yù)訓(xùn)練階段。通用大語(yǔ)言模型通過(guò)對(duì)現(xiàn)有醫(yī)學(xué)知識(shí)語(yǔ)料、知識(shí)庫(kù)進(jìn)行大量的基于自監(jiān)督學(xué)習(xí)的無(wú)監(jiān)督訓(xùn)練,或通過(guò)相似性任務(wù)(判斷模型生成的醫(yī)學(xué)回答是否與標(biāo)準(zhǔn)答案相似)、選擇任務(wù)(在給定的問(wèn)題中選擇最優(yōu)答案)等[28]監(jiān)督學(xué)習(xí)訓(xùn)練,將醫(yī)學(xué)文本內(nèi)容輸入語(yǔ)言模型,不斷對(duì)語(yǔ)言模型輸出的醫(yī)學(xué)文本進(jìn)行監(jiān)督和優(yōu)化,提升語(yǔ)言模型對(duì)醫(yī)學(xué)領(lǐng)域的基本了解和認(rèn)知,形成初步醫(yī)學(xué)語(yǔ)言模型。
6.3.2 醫(yī)學(xué)知識(shí)增強(qiáng)的語(yǔ)言模型微調(diào)訓(xùn)練 現(xiàn)有醫(yī)學(xué)知識(shí)庫(kù)、知識(shí)圖譜等,可以自動(dòng)生成用于微調(diào)的指令數(shù)據(jù),從而將知識(shí)融入訓(xùn)練過(guò)程。基于知識(shí)圖譜生成大量高質(zhì)量指令模板,醫(yī)學(xué)語(yǔ)言模型可以將大部分指令分類(lèi)并快速學(xué)習(xí)[39],在面對(duì)真實(shí)用戶(hù)的指令要求時(shí),語(yǔ)言模型可以簡(jiǎn)單匹配用戶(hù)指令與模板指令,理解任務(wù)要求,從而完成對(duì)應(yīng)任務(wù)?;谥R(shí)圖譜生成的醫(yī)學(xué)指令模板可以高效提升語(yǔ)言模型面對(duì)醫(yī)學(xué)任務(wù)指令的響應(yīng)能力。
6.3.3 醫(yī)學(xué)外掛知識(shí)庫(kù)檢索增強(qiáng)推理 將醫(yī)學(xué)知識(shí)庫(kù)、知識(shí)圖譜作為醫(yī)學(xué)模型推理時(shí)的外掛知識(shí)庫(kù),類(lèi)似使用檢索增強(qiáng)的方式協(xié)助語(yǔ)言模型獲得更多領(lǐng)域知識(shí)[40]。通過(guò)對(duì)用戶(hù)問(wèn)題中的關(guān)鍵信息在相關(guān)醫(yī)學(xué)知識(shí)庫(kù)中進(jìn)行自動(dòng)檢索,輔助語(yǔ)言模型理解和推理用戶(hù)意圖、生成更具有解釋性的內(nèi)容。
6.3.4 基于醫(yī)學(xué)知識(shí)引導(dǎo)的提示學(xué)習(xí) 基于醫(yī)學(xué)知識(shí)圖譜生成合適的提示學(xué)習(xí)[41],可以提升醫(yī)學(xué)模型的推理能力,特別是在復(fù)雜場(chǎng)景和多步交互的情況下?,F(xiàn)有工作[42-43]表明情景學(xué)習(xí)對(duì)其中包含的例子順序、質(zhì)量等非常敏感,一個(gè)非常小的改變可能會(huì)引起模型效果的較大變化。因此,通過(guò)從醫(yī)學(xué)知識(shí)圖譜中抽取相關(guān)醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)等知識(shí),自動(dòng)引導(dǎo)產(chǎn)生有利于醫(yī)學(xué)模型挖掘相關(guān)的醫(yī)學(xué)信息,提升在交互問(wèn)答時(shí)的推理性能。
6.3.5 知識(shí)協(xié)同的智能中控路由 單獨(dú)一個(gè)醫(yī)療語(yǔ)言模型往往難以獨(dú)立完成復(fù)雜的任務(wù),通常須要調(diào)用外部的應(yīng)用程序接口、組合利用小模型、使用第三方工具等,這使語(yǔ)言模型類(lèi)似于一個(gè)自適應(yīng)的智能中控路由。醫(yī)學(xué)語(yǔ)言模型在理解用戶(hù)任務(wù)后進(jìn)行任務(wù)規(guī)劃,自適應(yīng)地依據(jù)任務(wù)規(guī)劃結(jié)果調(diào)用相關(guān)工具產(chǎn)生更專(zhuān)業(yè)的結(jié)果。
7.1.1 通用語(yǔ)言模型應(yīng)用價(jià)值 傳統(tǒng)基于規(guī)則的醫(yī)學(xué)知識(shí)圖譜構(gòu)建方法需要花費(fèi)大量時(shí)間和精力進(jìn)行模板設(shè)計(jì);而依賴(lài)預(yù)訓(xùn)練語(yǔ)言模型的方法,則需要大量醫(yī)學(xué)文本的人工標(biāo)注和模型調(diào)參。這兩類(lèi)方法在專(zhuān)業(yè)醫(yī)學(xué)領(lǐng)域泛化理解能力方面都存在局限,構(gòu)建過(guò)程耗時(shí)費(fèi)力。通用語(yǔ)言模型的出現(xiàn)徹底改變了這一狀況,通過(guò)大量多樣化數(shù)據(jù)預(yù)訓(xùn)練,內(nèi)化豐富的醫(yī)學(xué)領(lǐng)域知識(shí),無(wú)需額外的醫(yī)學(xué)領(lǐng)域微調(diào)就可以直接應(yīng)用到下游任務(wù)。獨(dú)特的語(yǔ)義理解能力使其可以準(zhǔn)確解析醫(yī)學(xué)文本語(yǔ)義,準(zhǔn)確識(shí)別實(shí)體并抽取實(shí)體關(guān)系,從而實(shí)現(xiàn)對(duì)醫(yī)學(xué)知識(shí)圖譜的高效自動(dòng)化構(gòu)建。具體來(lái)說(shuō),通用語(yǔ)言模型可以快速?gòu)暮A糠墙Y(jié)構(gòu)化醫(yī)學(xué)文獻(xiàn)中,準(zhǔn)確抽取實(shí)體(如疾病、藥物等)以及實(shí)體之間的關(guān)系(如“癥狀-疾病”“藥物-疾病”等),并持續(xù)更新知識(shí)圖譜,確保知識(shí)圖譜的及時(shí)性。構(gòu)建于通用語(yǔ)言模型之上的醫(yī)學(xué)知識(shí)圖譜質(zhì)量更高、覆蓋面更廣,為依托知識(shí)圖譜進(jìn)行醫(yī)療決策支持、信息檢索等提供了堅(jiān)實(shí)的知識(shí)基礎(chǔ)。
7.1.2 實(shí)體與關(guān)系抽取 在處理醫(yī)學(xué)文本時(shí),語(yǔ)言模型可以識(shí)別文本中的特定領(lǐng)域詞匯,并對(duì)疾病、藥物、患者、醫(yī)生等實(shí)體進(jìn)行分類(lèi)。同時(shí),還可以根據(jù)參數(shù)化的領(lǐng)域知識(shí),通過(guò)語(yǔ)義理解能力構(gòu)建這些實(shí)體的屬性和關(guān)系[44]。語(yǔ)言模型由此可以實(shí)現(xiàn)命名實(shí)體識(shí)別、實(shí)體分類(lèi)、實(shí)體鏈接、關(guān)系抽取和指代消解等多項(xiàng)任務(wù)。試將以下段落基于GPT-4進(jìn)行命名實(shí)體識(shí)別、實(shí)體分類(lèi)和關(guān)系抽取分析:“李某某,60歲女性,在北京協(xié)和醫(yī)院被某醫(yī)師診斷出患有糖尿病,醫(yī)師囑咐用胰島素治療”。在該過(guò)程中大語(yǔ)言模型成功完成以下任務(wù)。(1)命名實(shí)體識(shí)別。識(shí)別出“李某某”“糖尿病”“某醫(yī)師”“北京協(xié)和醫(yī)院”“胰島素”等實(shí)體。(2)實(shí)體分類(lèi)?!袄钅衬场北环诸?lèi)為患者(Patient類(lèi)),“糖尿病”分類(lèi)為疾病(Disease類(lèi)),“某醫(yī)師”分類(lèi)為醫(yī)生(Doctor類(lèi)),“北京協(xié)和醫(yī)院”分類(lèi)為機(jī)構(gòu)(Organization類(lèi)),“胰島素”分類(lèi)為藥物(Drug類(lèi))。(3)實(shí)體鏈接。將新識(shí)別的實(shí)體與已有的知識(shí)圖譜進(jìn)行關(guān)聯(lián),避免冗余或歧義。(4)關(guān)系抽取。識(shí)別出“診斷”(
表1 基于語(yǔ)言模型的實(shí)體識(shí)別與關(guān)系抽取示例
7.1.3 知識(shí)補(bǔ)全 通過(guò)模型參數(shù)化的醫(yī)學(xué)知識(shí),結(jié)合語(yǔ)言模型的邏輯推理能力,可以實(shí)現(xiàn)知識(shí)圖譜的補(bǔ)全。假設(shè)已有知識(shí)圖譜記錄了胰島素作為治療糖尿病的藥物,但對(duì)于其不良反應(yīng)、副作用或替代藥物等方面描述不完整。在這種情況下,大語(yǔ)言模型可以提供專(zhuān)業(yè)信息來(lái)填補(bǔ)這些缺失,見(jiàn)表2。
表2 基于大語(yǔ)言模型的藥物不良反應(yīng)知識(shí)補(bǔ)全示例
醫(yī)學(xué)常識(shí)問(wèn)答是一項(xiàng)典型任務(wù),基于語(yǔ)言模型回答與醫(yī)學(xué)相關(guān)的常識(shí)性問(wèn)題,對(duì)促進(jìn)患者健康教育和基層醫(yī)師培訓(xùn)等方面具有一定價(jià)值。然而由于醫(yī)學(xué)領(lǐng)域的專(zhuān)業(yè)性與復(fù)雜性,生成式語(yǔ)言模型往往可能會(huì)生成片面、事實(shí)性錯(cuò)誤甚至幻覺(jué)的回答。為解決準(zhǔn)確性問(wèn)題,醫(yī)學(xué)常識(shí)問(wèn)答往往通過(guò)醫(yī)學(xué)知識(shí)圖譜進(jìn)行提示學(xué)習(xí),引導(dǎo)語(yǔ)言模型輸出,使其生成專(zhuān)業(yè)的醫(yī)學(xué)文本[45-46]。具體而言可以將數(shù)據(jù)源中的實(shí)體、關(guān)系和屬性作為輸入條件,然后使用GPT模型生成相應(yīng)文本描述或問(wèn)答。例如,給定實(shí)體“阿司匹林”和其屬性“藥理作用”,模型可能生成的文本描述為:“阿司匹林是一種常用的非甾體抗炎藥,具有抗炎、鎮(zhèn)痛、退熱和抗血小板聚集等藥理作用”。又如給定實(shí)體“阿司匹林”和問(wèn)題“阿司匹林有哪些不良反應(yīng)”,模型可能根據(jù)知識(shí)圖譜中相關(guān)實(shí)體和關(guān)系生成如下回答:“阿司匹林的不良反應(yīng)主要包括胃腸道出血、過(guò)敏反應(yīng)、雷耶氏綜合征、耳鳴、頭痛等”。通過(guò)這種方式不僅可以提高醫(yī)患溝通和教育的便利性和質(zhì)量,還可以提升醫(yī)學(xué)研究和寫(xiě)作的效率和質(zhì)量。為了展示這種方法的效果,使用大規(guī)模中文開(kāi)放知識(shí)圖譜(OpenKG)[47]中抽取的一些實(shí)體、關(guān)系和屬性,并利用GPT-4的語(yǔ)言表征能力生成相應(yīng)的文本描述或問(wèn)答,見(jiàn)表3。
表3 基于知識(shí)圖譜約束的醫(yī)學(xué)常識(shí)問(wèn)答示例
7.3.1 醫(yī)學(xué)視覺(jué)問(wèn)答 是將自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)相結(jié)合的復(fù)雜任務(wù),旨在對(duì)醫(yī)學(xué)圖像進(jìn)行深度分析,并生成自然語(yǔ)言形式的問(wèn)答。這一任務(wù)在醫(yī)學(xué)領(lǐng)域具有重要的潛力和價(jià)值,但同時(shí)也面臨挑戰(zhàn),包括醫(yī)學(xué)圖像的多樣性、復(fù)雜性和噪聲性,以及醫(yī)學(xué)知識(shí)的動(dòng)態(tài)性和不確定性。目前已有的視覺(jué)語(yǔ)言模型實(shí)踐主要基于微調(diào)現(xiàn)有開(kāi)源模型[48-49]。例如MedSAM[50]項(xiàng)目利用深度學(xué)習(xí)技術(shù)構(gòu)建醫(yī)療影像模型,從醫(yī)學(xué)圖像中提取有用信息。PMC-CLIP[51]項(xiàng)目則是一個(gè)醫(yī)療多模態(tài)模型,基于科學(xué)文獻(xiàn)構(gòu)建了高質(zhì)量的醫(yī)療多模態(tài)數(shù)據(jù)集,稱(chēng)為PMC-OA數(shù)據(jù)集,并在醫(yī)療圖文檢索、圖像分類(lèi)及視覺(jué)問(wèn)答等任務(wù)中取得最佳效果。此外,微軟基于GPT-4構(gòu)建的醫(yī)療病歷生成多模態(tài)模型可以將床邊對(duì)話(huà)的語(yǔ)音識(shí)別與語(yǔ)言模型的邏輯能力相結(jié)合,生成臨床病歷草稿,并經(jīng)過(guò)醫(yī)師審核,最終形成嚴(yán)謹(jǐn)?shù)呐R床病歷文書(shū)。
7.3.2 局限 上述醫(yī)學(xué)跨模態(tài)語(yǔ)言模型在提供基礎(chǔ)疾病診斷時(shí)存在一定局限性。例如無(wú)法準(zhǔn)確理解和回答具有高度專(zhuān)業(yè)性和復(fù)雜性的醫(yī)學(xué)問(wèn)題,在處理醫(yī)學(xué)罕見(jiàn)病理或特定類(lèi)型影像時(shí)遇到困難。此外在面對(duì)醫(yī)學(xué)知識(shí)的動(dòng)態(tài)性和不確定性時(shí),模型可能無(wú)法提供最新、最準(zhǔn)確的醫(yī)學(xué)知識(shí),從而給出過(guò)時(shí)的醫(yī)療診斷和決策回復(fù)。
7.3.3 基于知識(shí)圖譜和多模態(tài)數(shù)據(jù)融合技術(shù)的醫(yī)學(xué)語(yǔ)言模型 此類(lèi)模型可以有效解決上述問(wèn)題。例如在解讀一張X光片顯示的“左肺上葉有一塊圓形致密影”時(shí),模型不僅從知識(shí)圖譜中提取肺結(jié)核、肺癌、肺膿腫和肺水腫等可能的病因,還能結(jié)合患者的具體情況作出更全面的判斷。
考慮以下案例:一位名為趙某的45歲女性患者。患有Ⅱ型糖尿病(已持續(xù)10年)和原發(fā)性高血壓2級(jí)(已持續(xù)5年),其父親有冠心病史,母親則患有Ⅱ型糖尿病和高血壓。近期為了緩解腰痛,自行服用了非甾體類(lèi)抗炎藥萘普生鈉,并于服藥5日后出現(xiàn)氣喘和伴隨的胸痛癥狀??紤]到萘普生鈉在少數(shù)情況下可能引發(fā)肺水腫,結(jié)合對(duì)患者的病史事件圖譜分析,模型可以進(jìn)一步識(shí)別其藥物使用記錄中的潛在風(fēng)險(xiǎn),并根據(jù)診斷建議待完善的檢查和治療,從而為醫(yī)生、研究人員和患者提供更加準(zhǔn)確、專(zhuān)業(yè)和可靠的醫(yī)學(xué)視覺(jué)問(wèn)答服務(wù)。
可見(jiàn)模型能有效解決多種內(nèi)科慢性疾病和藥物干預(yù)帶來(lái)的復(fù)雜診斷問(wèn)題,融合最新醫(yī)療領(lǐng)域知識(shí)圖譜作為可靠知識(shí)來(lái)源,利用語(yǔ)言模型強(qiáng)大的邏輯推理能力和豐富的領(lǐng)域知識(shí)圖譜,綜合處理醫(yī)學(xué)圖像、語(yǔ)音和醫(yī)患對(duì)話(huà)文本等多模態(tài)信息。協(xié)助醫(yī)療專(zhuān)家快速獲取初步診斷、治療建議和決策支持,進(jìn)而提高醫(yī)療服務(wù)質(zhì)量和效率。
本文全面論述和分析了生成式語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景及挑戰(zhàn)。醫(yī)學(xué)文本生成的復(fù)雜性和專(zhuān)業(yè)性對(duì)自然語(yǔ)言處理帶來(lái)巨大考驗(yàn),借助預(yù)訓(xùn)練模型能夠生成一定程度具備專(zhuān)業(yè)性和準(zhǔn)確性的醫(yī)學(xué)文本。即使GPT-4等模型在醫(yī)學(xué)文本生成方面已經(jīng)取得較良好表現(xiàn),其性能的優(yōu)化和提升還依賴(lài)更深層次醫(yī)學(xué)知識(shí)的輔助增強(qiáng),以確保答案的精確性和可靠性,防止對(duì)醫(yī)療決策和患者生命健康產(chǎn)生負(fù)面影響。知識(shí)圖譜增強(qiáng)的語(yǔ)言模型提供了一種理想的解決方案,可以從無(wú)標(biāo)注的大規(guī)模文本中挖掘和學(xué)習(xí)豐富的醫(yī)學(xué)知識(shí),從而加深對(duì)醫(yī)學(xué)文本知識(shí)的理解和應(yīng)用。然而,如何設(shè)計(jì)更加精確和高效的知識(shí)圖譜構(gòu)建方法,以更好地滿(mǎn)足醫(yī)學(xué)領(lǐng)域的應(yīng)用需求,仍然面臨挑戰(zhàn)。此外,利用知識(shí)圖譜可以進(jìn)一步提高模型在處理醫(yī)學(xué)視覺(jué)問(wèn)答任務(wù)時(shí)的性能,實(shí)現(xiàn)更深層次的視覺(jué)理解和解釋。但如何有效地整合知識(shí)圖譜和視覺(jué)信息,以提高模型的解釋能力和準(zhǔn)確性,仍需更深入的研究。
生成式語(yǔ)言模型在醫(yī)學(xué)領(lǐng)域具有巨大應(yīng)用潛力,但在模型泛化能力、準(zhǔn)確性、解釋性等方面仍有待提升。未來(lái)可以借助因果機(jī)器學(xué)習(xí)增強(qiáng)語(yǔ)言模型的邏輯推理和醫(yī)學(xué)證據(jù)支持,進(jìn)而增強(qiáng)醫(yī)學(xué)問(wèn)答的完整性和可信度。