摘 要:大型語言模型(Large Language Model,LLM)正逐漸成為醫(yī)療領(lǐng)域的重要工具,其在體檢報告解讀、個性化健康推薦和醫(yī)學(xué)決策中的應(yīng)用展現(xiàn)了巨大潛力。本文綜述了LLM及相關(guān)人工智能技術(shù)(Artificial Intelligence,AI)技術(shù)在醫(yī)療健康領(lǐng)域的多項研究進展,重點探討其在體檢報告解讀、健康建議生成、疾病預(yù)測、患者互動以及醫(yī)學(xué)AI系統(tǒng)安全性和倫理等方面的最新成果。研究表明,LLM在提高醫(yī)療服務(wù)效率、支持個性化健康管理以及擴展患者自我診斷能力方面具有顯著優(yōu)勢。然而,模型在準確性、推理能力和背景知識整合方面仍面臨局限,尤其在復(fù)雜診斷和??漆t(yī)療中的應(yīng)用亟需改進。本文還分析了LLM在醫(yī)療實踐中的潛在風(fēng)險與倫理挑戰(zhàn),提出未來需通過改進模型性能、加強臨床驗證和完善監(jiān)管框架來確保其安全性和可靠性。本研究旨在為LLM及相關(guān)技術(shù)在醫(yī)療健康領(lǐng)域的應(yīng)用和發(fā)展提供理論依據(jù)和實踐參考。
關(guān)鍵詞:人工智能;體檢健康建議;大型語言模型
中圖分類號:TP29" 文獻標識碼:A" 文章編號:1673-260X(2025)01-0034-06
隨著人工智能技術(shù)的快速發(fā)展,大型語言模型在醫(yī)療領(lǐng)域的應(yīng)用成為研究熱點。體檢報告解讀和健康建議生成等任務(wù)通常涉及海量非結(jié)構(gòu)化數(shù)據(jù)的處理和復(fù)雜推理需求,而LLM憑借其卓越的自然語言處理能力,為這些任務(wù)提供了新思路。同時,個性化健康推薦和疾病預(yù)測領(lǐng)域逐步采用基于AI和大數(shù)據(jù)的技術(shù),通過深度學(xué)習(xí)模型與醫(yī)學(xué)知識的結(jié)合,推動了醫(yī)療決策支持的創(chuàng)新。然而,LLM在醫(yī)療實踐中的應(yīng)用也面臨諸多挑戰(zhàn),如生成內(nèi)容的準確性和可靠性問題,以及潛在的倫理和安全風(fēng)險。
近年來,多項研究探索了LLM在體檢報告解讀、健康建議生成和疾病預(yù)測中的表現(xiàn)。部分成果顯示,LLM在提高可讀性、同理心和建議準確性方面優(yōu)于傳統(tǒng)方法,但模型在多輪對話中的推理能力和背景知識應(yīng)用仍有待加強。此外,患者對AI建議的信任度和接受度也受到多種因素的影響,需要進一步分析。在醫(yī)學(xué)AI系統(tǒng)的安全性和倫理問題方面,LLM的輸出內(nèi)容可能影響患者決策,強調(diào)了對模型安全性和倫理規(guī)范的關(guān)注。
本文通過系統(tǒng)綜述LLM在體檢報告解讀及健康建議生成中的應(yīng)用現(xiàn)狀,總結(jié)其優(yōu)勢與不足,并探討未來發(fā)展方向,旨在為醫(yī)學(xué)領(lǐng)域中AI技術(shù)的研究與應(yīng)用提供參考。
1 基于大型語言模型的醫(yī)療應(yīng)用概述
近年來,人工智能技術(shù)的迅猛發(fā)展正深刻改變著各行各業(yè)的運行模式。其中,在醫(yī)學(xué)領(lǐng)域,AI展現(xiàn)出了前所未有的潛力,為疾病的預(yù)防、診斷、治療及個性化健康管理提供了全新視角。特別是基于大型語言模型的自然語言處理技術(shù),通過強大的數(shù)據(jù)處理和分析能力,正在逐步融入醫(yī)療實踐。然而,這一過程也伴隨著諸多技術(shù)、倫理和實踐層面的挑戰(zhàn),亟需深入探討。在本文中,我們將圍繞LLM在醫(yī)學(xué)中的應(yīng)用展開討論,重點涵蓋個性化健康推薦、疾病預(yù)測、醫(yī)學(xué)數(shù)據(jù)分析與決策支持等多個方面,同時探索患者對AI的信任與接受度以及醫(yī)學(xué)AI系統(tǒng)的安全性與倫理問題。
1.1 大型語言模型在醫(yī)療中的應(yīng)用現(xiàn)狀
針對大型語言模型(LLM)在醫(yī)療中的應(yīng)用,多項研究探索了其在體檢報告解讀及臨床建議中的潛力與局限性。AI Hospital框架[1]通過模擬多智能體醫(yī)療互動,評估了LLM在癥狀收集、檢查建議和診斷方面的準確性,指出盡管存在改進,但LLM在多輪交互中的表現(xiàn)仍不及單步方法,強調(diào)了進一步研究的必要性以提升其在臨床診斷中的應(yīng)用能力。此外,Singhal等人[2]通過MultiMedQA基準,評估了LLM在醫(yī)學(xué)問答中的表現(xiàn),發(fā)現(xiàn)盡管Flan-PaLM在多個數(shù)據(jù)集上取得了較高準確率,但人工評估仍揭示了模型在推理和知識回憶方面的差距。
在健康建議的可靠性方面,Huo等人[3]探討了LLM驅(qū)動的聊天機器人在提供健康建議時的角色,指出了由于準確性問題而引發(fā)的患者安全風(fēng)險,強調(diào)了醫(yī)療專業(yè)人員提供準確健康信息的責(zé)任。同時,Du等人[4]通過觀察患者使用GPT-4進行自我診斷,發(fā)現(xiàn)患者的信任主要取決于他們對AI建議有效性的評估,進一步強調(diào)了醫(yī)生經(jīng)驗在建立信任方面的重要性。
為確保LLM提供的健康建議不誤導(dǎo)用戶,Cheng等人[5]提出了HeAL基準,用于評估LLM在提供健康建議時的能力和準確性,為醫(yī)療環(huán)境中的LLM部署提供了有效的保護措施。此外,Ong等人[6]通過對比傳統(tǒng)的健康教練與基于RAG的LLM在健康指導(dǎo)中的表現(xiàn),發(fā)現(xiàn)LLM在可讀性、有用性和同理心方面優(yōu)于人類健康教練,顯示了其在自動化健康指導(dǎo)領(lǐng)域的潛力。
針對個性化健康管理,Jin等人[7]提出了Health-LLM框架,通過結(jié)合LLM和醫(yī)學(xué)知識進行疾病預(yù)測,并利用檢索增強生成機制改善特征提取,提高了疾病預(yù)測的準確性。同時,Li等人[8]通過開發(fā)ChatDoctor模型,解決了現(xiàn)有LLM在醫(yī)學(xué)知識方面的局限性,顯著提高了模型理解患者需求和提供準確建議的能力。
然而,LLM在醫(yī)療領(lǐng)域的應(yīng)用也面臨一些挑戰(zhàn),如生成虛構(gòu)內(nèi)容、缺乏對診斷和治療計劃的深入理解等[9]。這些問題妨礙了其在??漆t(yī)療中的部署,需要傳染病臨床醫(yī)生與LLM互動,以明智地決定如何在??谱o理中利用這項技術(shù),并避免其誤用??傮w而言,LLM在體檢報告解讀及臨床建議中的應(yīng)用仍處于發(fā)展階段,需要進一步的研究和改進以確保其在臨床實踐中的安全性和有效性。
此外,有研究者將BERT框架應(yīng)用于結(jié)構(gòu)化電子健康記錄(EHR)數(shù)據(jù),提出了Med-BERT模型[10]。該模型通過在大規(guī)模EHR數(shù)據(jù)上進行預(yù)訓(xùn)練,并在疾病預(yù)測任務(wù)上進行微調(diào),顯著提高了預(yù)測準確性。特別是在小型訓(xùn)練集上,Med-BERT展現(xiàn)出了與大型訓(xùn)練集模型相當?shù)男阅埽@有望降低數(shù)據(jù)收集成本,加速AI輔助醫(yī)療的發(fā)展。這一研究展示了LLM在醫(yī)療數(shù)據(jù)挖掘和疾病預(yù)測方面的潛力。
LLM在醫(yī)學(xué)對話和健康建議方面的應(yīng)用仍面臨挑戰(zhàn)。盡管LLM在理解人類指令方面已有顯著進展,但在醫(yī)學(xué)領(lǐng)域的表現(xiàn)仍不理想,特別是在中文醫(yī)學(xué)對話的適應(yīng)性、診斷和藥物推薦等方面。有研究通過收集中文醫(yī)學(xué)對話數(shù)據(jù)庫,并結(jié)合多種技術(shù)訓(xùn)練了易于部署的LLM(如DoctorGLM[11]),并在有限時間內(nèi)成功進行了微調(diào)。這表明,為醫(yī)療用途部署LLM既可行又經(jīng)濟,但仍需進一步完善以提高準確性和可靠性。
另一方面,LLM在提供健康建議方面也引發(fā)了關(guān)注。Lautrup等人[12]通過回顧和分析涉及ChatGPT的PubMed文章,并結(jié)合實驗評估了ChatGPT在處理心血管疾病領(lǐng)域健康提示時的表現(xiàn)。結(jié)果發(fā)現(xiàn),ChatGPT的回答質(zhì)量參差不齊,既有簡潔正確的回答,也有荒謬或危險的錯誤。這表明,盡管LLM在健康建議中展現(xiàn)潛力,但其廣泛使用可能加劇健康不平等,并增加醫(yī)療保健系統(tǒng)的負擔(dān)。因此,需要謹慎評估LLM在醫(yī)療領(lǐng)域的應(yīng)用,并確保其提供的健康建議不會誤導(dǎo)用戶。
此外,Haupt等人[13]還探討了AI技術(shù)如何影響醫(yī)療服務(wù)提供,以及存在的潛在風(fēng)險。作者強調(diào),AI的風(fēng)險取決于其是用于協(xié)助醫(yī)生還是替代醫(yī)生,以及臨床醫(yī)生如何保持對技術(shù)的控制。因此,在醫(yī)療領(lǐng)域應(yīng)用LLM時,需要權(quán)衡其帶來的便利和潛在風(fēng)險,并制定相應(yīng)的監(jiān)管措施以確?;颊叩陌踩屠?。
綜上所述,LLM在醫(yī)療領(lǐng)域的應(yīng)用仍處于發(fā)展階段,需要進一步的研究和改進。未來,隨著技術(shù)的不斷發(fā)展和完善,LLM有望在醫(yī)療領(lǐng)域發(fā)揮更大的作用,為臨床醫(yī)生和患者提供更加準確、可靠和個性化的醫(yī)療服務(wù)。
1.2 個性化健康推薦與疾病預(yù)測:LLM的潛力
在個性化健康推薦與疾病預(yù)測領(lǐng)域,AI、大模型、大數(shù)據(jù)等技術(shù)正發(fā)揮著日益重要的作用。Wu等人提出了一種基于局部可解釋模型不可知解釋的可解釋推薦系統(tǒng),該系統(tǒng)通過深度學(xué)習(xí)算法分析老年人中常見的慢性?。ㄈ缧呐K病和糖尿?。?shù)據(jù),并利用LIME確定影響模型預(yù)測結(jié)果的特征重要性,從而提供了個性化的治療建議[14]。這種方法不僅提高了推薦的可解釋性,還增強了患者的信任度,為醫(yī)療決策提供了有力支持。
同時,Sahoo等人開發(fā)了一種基于受限玻爾茲曼機和卷積神經(jīng)網(wǎng)絡(luò)的智能健康推薦系統(tǒng),該系統(tǒng)通過分析患者的生活方式、身體健康記錄和社交活動等信息,實現(xiàn)了對健康狀況的精準預(yù)測和健康建議的個性化推薦[15]。實驗結(jié)果表明,與其他方法相比,RBM-CNN模型在預(yù)測中表現(xiàn)出更高的準確性,為遠程醫(yī)療環(huán)境中的健康推薦提供了新的思路。
在體檢大數(shù)據(jù)的利用方面,謝昌錕等人通過機器學(xué)習(xí)算法對大量體檢數(shù)據(jù)進行了探索性分析和特征工程,建立了體檢評分模型。該模型能夠綜合各項體檢指標,客觀地描述用戶的身體健康狀況水平,不僅降低了醫(yī)患溝通成本,還促進了用戶對自身健康的關(guān)注[16]。
此外,Galitsky探討了如何利用元學(xué)習(xí)和溯因推理技術(shù)提升大型語言模型在個性化健康建議中的表現(xiàn)。通過設(shè)計個性化提示和維護用戶隱私,LLM能夠基于用戶的健康記錄等信息生成量身定制的回答,從而提高了建議的針對性和準確性[17]。
最后,Jin等人提出了一個名為Health-LLM的創(chuàng)新框架,該框架結(jié)合了大規(guī)模特征提取和醫(yī)學(xué)知識權(quán)衡評分,通過檢索增強生成機制和半自動化特征更新框架,實現(xiàn)了對疾病預(yù)測和個性化健康管理的精準支持。實驗結(jié)果表明,Health-LLM系統(tǒng)超越了現(xiàn)有系統(tǒng),為智能醫(yī)療的發(fā)展注入了新的活力[7]。綜上所述,AI/大模型/大數(shù)據(jù)等技術(shù)在個性化健康推薦與疾病預(yù)測領(lǐng)域的應(yīng)用前景廣闊,值得進一步深入研究和探索。
1.3 醫(yī)學(xué)數(shù)據(jù)分析與自然語言處理技術(shù)的結(jié)合
在醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)分析與NLP技術(shù)應(yīng)用方面,AI、大模型和大數(shù)據(jù)等技術(shù)正逐漸展現(xiàn)出其在體檢報告解讀方面的巨大潛力。Alsentzer等人[18]提出了專門用于臨床文本的BERT模型,并證明領(lǐng)域特定模型在三種常見的臨床NLP任務(wù)上相較于非特定嵌入能顯著提高性能,這為體檢報告解讀提供了更為精準的自然語言處理工具。Health Catalyst Editors指出[19],NLP技術(shù)通過使用AI能夠從約80%的文本形式的健康數(shù)據(jù)中提取和分析有意義的見解,具有挖掘非結(jié)構(gòu)化數(shù)據(jù)的潛力,這對于體檢報告中大量存在的非結(jié)構(gòu)化數(shù)據(jù)而言,無疑是一個巨大的福音。
謝昌錕等人在《基于體檢大數(shù)據(jù)的健康指數(shù)建模》中[16],通過機器學(xué)習(xí)算法對大量體檢數(shù)據(jù)進行分析,建立了體檢評分模型,該模型能夠綜合各項體檢指標,較為客觀地描述用戶身體健康狀況水平,不僅降低了體檢用戶同醫(yī)生的溝通成本,還督促用戶更加關(guān)注身體整體健康水平。這一研究不僅展示了大數(shù)據(jù)在體檢報告解讀方面的應(yīng)用潛力,還提供了具體的實踐案例。
此外,Zhou等人[20]強調(diào)了深度學(xué)習(xí)和大數(shù)據(jù)分析在生物醫(yī)學(xué)應(yīng)用和數(shù)字醫(yī)療領(lǐng)域的重要性。他們指出,憑借大量歷史數(shù)據(jù),DL和大數(shù)據(jù)分析技術(shù)能夠識別特征與可能風(fēng)險之間的潛在聯(lián)系,為醫(yī)療診斷做出重要決策。這一觀點進一步支持了AI、大模型和大數(shù)據(jù)等技術(shù)在體檢報告解讀方面的應(yīng)用前景,即通過深度學(xué)習(xí)等技術(shù)對大量體檢數(shù)據(jù)進行分析,可以識別出潛在的健康風(fēng)險,為醫(yī)生提供更準確的診斷依據(jù),同時也為患者提供更加個性化的健康管理建議。
1.4 人工智能在醫(yī)學(xué)決策中的作用與技術(shù)挑戰(zhàn)
在人工智能參與醫(yī)學(xué)決策的作用與挑戰(zhàn)中,AI技術(shù)在體檢報告解讀方面的應(yīng)用逐漸展現(xiàn)出其潛力與局限性。具體而言,Li等人[21]提出了一種經(jīng)濟高效的方法,通過利用從PubMed Central中提取的大規(guī)模生物醫(yī)學(xué)圖片標題數(shù)據(jù)集,訓(xùn)練出能夠回答生物醫(yī)學(xué)圖像開放式研究問題的視覺語言對話助手LLaVA-Med。該模型在不到15小時的時間內(nèi)訓(xùn)練完成,并在三個標準的生物醫(yī)學(xué)視覺問答數(shù)據(jù)集上表現(xiàn)出色,展現(xiàn)出其在體檢報告圖像解讀方面的潛在應(yīng)用價值。然而,盡管LLaVA-Med具有出色的多模態(tài)對話能力,但其在實際醫(yī)學(xué)決策中的準確性和可靠性仍需進一步驗證。
與此同時,Whiles等人[22]的研究揭示了ChatGPT在提供泌尿科健康建議方面的局限性。該研究通過向ChatGPT詢問基于泌尿科指南的問題,并使用Brief DISCERN評估答案的恰當性,發(fā)現(xiàn)ChatGPT雖然能在超過一半的情況下提供適當?shù)幕卮?,但會曲解臨床護理指南、忽略重要背景信息,并提供不恰當?shù)膮⒖?。這一發(fā)現(xiàn)表明,盡管AI聊天機器人在醫(yī)療領(lǐng)域具有廣闊前景,但用戶在解讀其提供的醫(yī)療建議時應(yīng)保持謹慎。
此外,Gaube等人[23]的研究進一步探討了AI建議在醫(yī)生決策中的影響。該研究發(fā)現(xiàn),非專業(yè)領(lǐng)域的醫(yī)生在從AI獲得帶有視覺注釋的正確診斷建議時,診斷準確率最高,且對AI建議質(zhì)量的評價高于人類建議。這一發(fā)現(xiàn)表明,可解釋的AI建議有助于提升非專業(yè)醫(yī)生在體檢報告解讀方面的能力。然而,該研究也指出,任務(wù)專家和非任務(wù)專家在受影響程度上存在差異,這提示我們在實際應(yīng)用中應(yīng)根據(jù)醫(yī)生的專業(yè)領(lǐng)域和經(jīng)驗水平來合理使用AI建議。
綜上所述,AI技術(shù)在體檢報告解讀方面展現(xiàn)出巨大潛力,但同時也面臨著準確性和可靠性等方面的挑戰(zhàn)。未來研究應(yīng)進一步探索如何提升AI模型的準確性和可解釋性,以及如何根據(jù)醫(yī)生的專業(yè)領(lǐng)域和經(jīng)驗水平來合理使用AI建議,從而推動AI技術(shù)在醫(yī)學(xué)決策中的廣泛應(yīng)用和深入發(fā)展。
1.5 患者對AI系統(tǒng)的信任與接受度研究
在患者與AI互動的信任與接受度方面,相關(guān)研究揭示了多種影響因素。Delong Du等人[4]指出,患者對于AI驅(qū)動的大型語言模型如ChatGPT提供的臨床建議的信任程度,受到其能力評估的混雜因素影響。具體而言,患者往往更信任受過教育、有資質(zhì)的醫(yī)生提供的醫(yī)療指導(dǎo),而非AI代理,因為患者認為醫(yī)生的專業(yè)知識和經(jīng)驗更能有效實現(xiàn)其健康目標。這一發(fā)現(xiàn)強調(diào)了基于能力的信任在患者決策中的重要性,也揭示了AI在臨床建議領(lǐng)域面臨的挑戰(zhàn)。
Christopher Robertson等人[24]探討了不同患者群體對AI診斷工具的看法。研究發(fā)現(xiàn),受訪者的選擇幾乎平分秋色,一部分選擇人類醫(yī)生,另一部分則選擇AI診所。然而,初級保健醫(yī)生對AI的解釋和推薦、AI診所的個性化服務(wù)以及避免種族和財務(wù)偏見的承諾等因素,均顯著提高了患者對AI的接受度。此外,研究還發(fā)現(xiàn),不同種族、年齡、政治傾向和宗教觀念的患者對AI的接受度存在差異。例如,黑人受訪者選擇AI的頻率較低,而美洲原住民則較高;年長的受訪者、自認為政治保守或認為宗教很重要的人也更傾向于選擇人類醫(yī)生。教育水平的提高則增加了選擇AI提供商的可能性。
這些研究共同表明,患者與AI互動的信任與接受度是一個復(fù)雜且多維的問題,受到患者個人特征、AI系統(tǒng)的性能以及醫(yī)生推薦等多種因素的影響。為了提高患者對AI的信任和接受度,未來的研究應(yīng)進一步探索如何優(yōu)化AI系統(tǒng)的設(shè)計和性能,以及如何通過有效的溝通和解釋來增強患者對AI系統(tǒng)的理解和信任。同時,針對不同患者群體的特點和需求,制定個性化的推廣策略也是提高AI接受度的關(guān)鍵。
1.6 醫(yī)學(xué)AI系統(tǒng)的安全性與倫理思考
在醫(yī)學(xué)AI系統(tǒng)的安全性與倫理方面,特別是在體檢報告解讀的應(yīng)用場景中,大型語言模型(LLM)的引入帶來了諸多挑戰(zhàn)與考量。Bright Huo[3]等人在其研究中指出,隨著LLM鏈接的聊天機器人越來越多地使用在線資源進行訓(xùn)練,其性能得到了顯著提升,但在醫(yī)療保健領(lǐng)域的應(yīng)用卻引發(fā)了患者安全的擔(dān)憂。這些擔(dān)憂主要源于LLM輸出信息的準確性問題,因為醫(yī)生和患者經(jīng)常依賴互聯(lián)網(wǎng)獲取健康建議,而LLM鏈接聊天機器人的廣泛使用可能因信息不準確而導(dǎo)致誤導(dǎo)。這一發(fā)現(xiàn)強調(diào)了在使用AI系統(tǒng)進行體檢報告解讀時,必須嚴格確保信息的準確性和可靠性,以避免對患者造成潛在傷害。
此外,Ilan S Schwartz等人的研究[9]進一步揭示了LLM在傳染病咨詢等??祁I(lǐng)域應(yīng)用時的局限性。他們指出,LLM目前存在頻繁的虛構(gòu)信息、缺乏對細致入微的診斷和治療計劃至關(guān)重要的背景意識、訓(xùn)練數(shù)據(jù)和方法難以捉摸且無法解釋,以及重復(fù)偏見的傾向等問題。這些問題不僅妨礙了LLM在安全臨床環(huán)境中的部署,也引發(fā)了關(guān)于認知專業(yè)未來的擔(dān)憂。因此,在將AI系統(tǒng)應(yīng)用于體檢報告解讀時,必須充分考慮其安全性和倫理問題,確保系統(tǒng)能夠準確、可靠地提供醫(yī)療建議,同時避免對患者造成不必要的困擾或傷害。
在探討患者是否更傾向于遵循AI醫(yī)生還是人類醫(yī)生的醫(yī)療建議的研究中,基于醫(yī)患溝通路徑模型的一項析因?qū)嶒瀃25]揭示了關(guān)鍵問題。該實驗通過對比不同醫(yī)療服務(wù)提供者(AI與人類醫(yī)生)、信息支持程度(低與高)以及響應(yīng)延遲(慢與快)的組合影響,對535名被試進行了深入分析。結(jié)果顯示,患者對人類醫(yī)生的醫(yī)療建議遵從性顯著高于AI醫(yī)生。特別是在響應(yīng)延遲較慢的情況下,被試認為人類醫(yī)生在提供健康益處和以患者為中心方面表現(xiàn)更佳,而AI醫(yī)生在這些方面的評價則相對較低。這一發(fā)現(xiàn)進一步強調(diào)了醫(yī)學(xué)AI系統(tǒng)在安全性與倫理方面的挑戰(zhàn),尤其是在體檢報告解讀等應(yīng)用場景中,需要更加注重AI建議的準確性和可靠性,以贏得患者的信任與遵從。
綜上所述,醫(yī)學(xué)AI系統(tǒng)在體檢報告解讀方面的應(yīng)用雖然具有廣闊前景,但在安全性和倫理方面仍存在諸多挑戰(zhàn)。為了確保系統(tǒng)的有效性和安全性,未來的研究應(yīng)更加關(guān)注LLM的準確性和可靠性問題,以及如何在保證患者隱私和權(quán)益的前提下,合理利用AI技術(shù)進行醫(yī)療決策支持。
2 結(jié)語
綜上所述,AI和大型語言模型(LLM)在體檢報告解讀、健康建議生成及個性化健康管理中的應(yīng)用展現(xiàn)了巨大的發(fā)展?jié)摿Α_@些技術(shù)不僅為醫(yī)學(xué)數(shù)據(jù)分析和健康管理提供了新的工具,還為醫(yī)生和患者之間的信息傳遞和互動開辟了新路徑。然而,LLM在醫(yī)學(xué)領(lǐng)域的實際應(yīng)用仍然面臨一系列挑戰(zhàn),包括準確性、可解釋性和患者信任等問題。為實現(xiàn)LLM技術(shù)在醫(yī)療中的安全部署,未來的研究應(yīng)著重于提升模型的臨床推理能力、減少虛構(gòu)信息生成,并加強多學(xué)科合作以確保技術(shù)在倫理與法律層面符合醫(yī)學(xué)規(guī)范。
隨著AI技術(shù)在醫(yī)療領(lǐng)域的深入發(fā)展,建立以患者安全為核心的AI監(jiān)管框架、完善技術(shù)支持和隱私保護機制,將有助于推動AI和LLM在醫(yī)療實踐中的廣泛應(yīng)用。未來,我們期待AI在醫(yī)療健康領(lǐng)域的創(chuàng)新發(fā)展能夠更有效地服務(wù)于個性化健康管理,提升體檢報告解讀的準確性和有效性,從而在臨床實踐中發(fā)揮更大的價值。
——————————
參考文獻:
〔1〕Fan Z, Tang J, Chen W, et al. Ai hospital: Interactive evaluation and collaboration of llms as intern doctors for clinical diagnosis[J]. arXiv preprint arXiv:2402.09742, 2024.
〔2〕Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.
〔3〕Huo B, Cacciamani G E, Collins G S, et al. Reporting standards for the use of large language model-linked chatbots for health advice[J]. Nature Medicine, 2023, 29(12): 2988-2988.
〔4〕Du D, Paluch R, Stevens G, et al. Exploring patient trust in clinical advice from AI-driven LLMs like ChatGPT for self-diagnosis[J]. arXiv preprint arXiv:2402.07920, 2024.
〔5〕Cheng K, Gentile A L, Li P, et al. Don’t be my Doctor! Recognizing Healthcare Advice in Large Language Models[C]//Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2024: 970-980.
〔6〕Ong Q C, Ang C S, Chee D Z Y, et al. Advancing health coaching: A comparative study of large language model and health coaches[J]. Artificial Intelligence in Medicine, 2024, 157: 103004.
〔7〕Jin M, Yu Q, Shu D, et al. Health-llm: Personalized retrieval-augmented disease prediction system[J]. arXiv preprint arXiv:2402.00746, 2024.
〔8〕Li Y, Li Z, Zhang K, et al. Chatdoctor: A medical chat model fine-tuned on a large language model meta-ai (llama) using medical domain knowledge[J]. Cureus, 2023, 15(06).
〔9〕Schwartz I S, Link K E, Daneshjou R, et al. Black box warning: large language models and the future of infectious diseases consultation[J]. Clinical infectious diseases, 2024, 78(04):860-866.
〔10〕Rasmy L, Xiang Y, Xie Z, et al. Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction[J]. NPJ digital medicine, 2021, 4(01): 86.
〔11〕Xiong H, Wang S, Zhu Y, et al. Doctorglm: Fine-tuning your chinese doctor is not a herculean task[J]. arXiv preprint arXiv: 2304. 01097, 2023.
〔12〕Lautrup A D, Hyrup T, Schneider-Kamp A, et al. Heart-to-heart with ChatGPT: the impact of patients consulting AI for cardiovascular health advice[J]. Open heart, 2023, 10(02): e002455.
〔13〕Haupt C E, Marks M. AI-generated medical advice—GPT and beyond[J]. Jama, 2023, 329(16): 1349-1350.
〔14〕Wu Y, Zhang L, Bhatti U A, et al. Interpretable machine learning for personalized medical recommendations: A LIME-based approach[J]. Diagnostics, 2023, 13(16): 2681.
〔15〕Sahoo A K, Pradhan C, Barik R K, et al. DeepReco: deep learning based health recommender system using collaborative filtering[J]. Computation, 2019, 7(02): 25.
〔16〕謝昌錕,趙明琪,林世明.基于體檢大數(shù)據(jù)的健康指數(shù)建模[J].Hans Journal of Data Mining, 2021,11:1.
〔17〕Galitsky B A. LLM-Based Personalized Recommendations in Health[J]. 2024.
〔18〕Alsentzer E, Murphy J R, Boag W, et al. Publicly available clinical BERT embeddings[J]. arXiv preprint arXiv:1904.03323, 2019.
〔19〕Health Catalyst Editors.Healthcare NLP: The Secret to Unstructured Data’s Full Potential[EB/OL].https://www.healthcatalyst.com/learn/insights/how-healthcare-nlp-taps-unstructured-datas-potential,2024.
〔20〕Zhou X, Leung C K, Kevin I, et al. Editorial Deep Learning-Empowered Big Data Analytics in Biomedical Applications and Digital Healthcare[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2024, 21(04): 516-520.
〔21〕Li C, Wong C, Zhang S, et al. Llava-med: Training a large language-and-vision assistant for biomedicine in one day[J]. Advances in Neural Information Processing Systems, 2024, 36.
〔22〕Whiles B B, Bird V G, Canales B K, et al. Caution! AI bot has entered the patient chat: ChatGPT has limitations in providing accurate urologic healthcare advice[J]. Urology, 2023, 180: 278-284.
〔23〕Gaube S, Suresh H, Raue M, et al. Non-task expert physicians benefit from correct explainable AI advice when reviewing X-rays[J]. Scientific reports, 2023, 13(01): 1383.
〔24〕Robertson C, Woods A, Bergstrand K, et al. Diverse patients’ attitudes towards Artificial Intelligence (AI) in diagnosis[J]. PLOS Digital Health, 2023, 2(05): e0000237.
〔25〕Li S, Chen M, Liu P L, et al. Following Medical Advice of an AI or a Human Doctor? Experimental Evidence Based on Clinician-Patient Communication Pathway Model[J]. Health Communication, 2024: 1-13.