亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

醫(yī)療大模型需要全標準評價體系

2023-12-27 03:06:43閔棟

財經(jīng) 2023年26期

閔棟

在人工智能的引領(lǐng)下，新一輪科技革命和產(chǎn)業(yè)變革已經(jīng)展開。

當2016年IBM的人工智能（AI）“沃森”學習海量醫(yī)學論文后，在人類醫(yī)生們對一名病人束手無策的情況下，10分鐘內(nèi)判斷出病人得的是罕見白血病，并給出了治療方案，人工智能給醫(yī)療領(lǐng)域帶來的就不僅是沖擊，還有無限可能的未來。

AI“思考”出針對每一個病人的單獨的結(jié)論，是基于它運轉(zhuǎn)的規(guī)則不是事先輸入的程序，而是依托龐大的后臺數(shù)據(jù)庫。在人工智能領(lǐng)域，這被稱為“深度學習”。作為AI領(lǐng)域的重要技術(shù)，深度學習是從數(shù)據(jù)中學習，而大模型則是通過使用大量的模型來訓練數(shù)據(jù)，可以說是深度學習模型。

2023年風靡全球的ChatGPT，就是大模型的經(jīng)典范例，其已應用于多個醫(yī)療場景，在病歷書寫、報告生成、病例歸納、輔助診療等醫(yī)療服務領(lǐng)域已有應用，未來將進一步支持病歷記錄、醫(yī)療咨詢、患者管理、學術(shù)交流等醫(yī)療場景，為患者、醫(yī)生和研究人員提供高效、智能的解決方案。

醫(yī)療大模型差異化，滿足用戶需求

截至目前，在醫(yī)療領(lǐng)域的國產(chǎn)大模型數(shù)量不少于40個。

就技術(shù)而言，大模型本質(zhì)基本相同，通過對大量數(shù)據(jù)的學習和分析，提取出隱藏在數(shù)據(jù)中的規(guī)律和特征，如醫(yī)療大模型重點支持醫(yī)學圖像識別和分析、醫(yī)療數(shù)據(jù)分析和預測，實現(xiàn)更準確、高效的醫(yī)療診斷和治療。

大模型因側(cè)重點不一樣，如開源或閉源，后續(xù)發(fā)展各有特色。互聯(lián)網(wǎng)巨頭騰訊、百度、京東等的大模型開發(fā)，涵蓋藥物研發(fā)、智慧診療、醫(yī)療設(shè)備運維、醫(yī)院管理等多個領(lǐng)域。其中，京東健康正式發(fā)布面向醫(yī)療健康行業(yè)的大模型“京醫(yī)千詢”，以京東言犀通用大模型為基礎(chǔ)，開發(fā)覆蓋全流程醫(yī)療需求、實現(xiàn)智能決策、支持多模態(tài)的醫(yī)療大模型；華為云與廣州金域醫(yī)學正式簽署盤古大模型戰(zhàn)略合作協(xié)議，雙方將合力打造醫(yī)檢行業(yè)AI大模型，驅(qū)動醫(yī)學檢驗全鏈條多場景的智能化；醫(yī)聯(lián)自主研發(fā)的基于Transformer架構(gòu)的醫(yī)療大語言模型——MedGPT，能夠支持循序漸進多輪問診，引導患者收集足夠的診斷決策因素，保證后續(xù)診斷有效，在與三甲主治醫(yī)生診斷相比中，已達到96%的一致性。

從技術(shù)實現(xiàn)方面來看，一類是直接開發(fā)形成的醫(yī)療大模型，如醫(yī)聯(lián)的MedGPT、深睿醫(yī)療的Deepwise MetAI等；另一類是基于通用大模型而進一步訓練形成垂類行業(yè)大模型，如華為云盤古大模型、京東健康“京醫(yī)千詢”、科大訊飛的“星火認知”等。各大模型應用根據(jù)自身既有業(yè)務基礎(chǔ)進一步深化應用場景，呈現(xiàn)出差異化發(fā)展特點。

由于是產(chǎn)業(yè)發(fā)展早期，國內(nèi)大模型產(chǎn)業(yè)對標ChatGPT同步發(fā)展，目前處于跟進復刻的階段，創(chuàng)新性總體偏弱。當國內(nèi)大模型技術(shù)積累達到一定階段，不同應用定位的模型優(yōu)勢將會在產(chǎn)業(yè)中顯現(xiàn)出來，呈現(xiàn)出差異化。

國外多數(shù)公司采用直接在基礎(chǔ)模型開發(fā)具備多樣性的應用，相對聚焦且貼合行業(yè)痛點，可以有效規(guī)避通用大模型的同質(zhì)化。現(xiàn)階段通用大模型雖在同質(zhì)化發(fā)展，但已顯現(xiàn)出垂直領(lǐng)域大模型在應用端的差異化創(chuàng)新突破。

差異化發(fā)展是大模型商業(yè)落地的主要途徑。用戶對于大模型產(chǎn)品的需求側(cè)重點各有不同，如需求強弱、單一或綜合功能要求等，會根據(jù)最切實的需要來適配大模型產(chǎn)品。同時，大模型數(shù)據(jù)分析、代碼編寫等能力對于用戶自身素質(zhì)也有一定門檻。因此，大模型提供者落地的主要場景不同，角色定位各有差異。各大互聯(lián)網(wǎng)公司在用戶端各有固定場景，如騰訊在社交、百度在搜索、京東在購物等。

大模型要交一份“考卷”

讓大模型成為一個好用的工具，在交付用戶之前，還要通過一個考試。當前模型應用效果測評方式多樣，工具化、智能化的綜合評價體系已具備雛形。

大模型是由海量數(shù)據(jù)和算法組成的復雜系統(tǒng)，在訓練和推理過程中會考慮很多因素。通過大模型測評能夠更好了解模型的性能和特點，評估使用價值和意義，明確局限性和潛在風險等，公平、客觀、直觀地感知大模型真正的效果，支持用戶選擇合適的大模型。

模型測評基準是通用人工智能的基石，需要同步探索構(gòu)建測試集和測試方法。國內(nèi)圍繞大模型測試集，各類機構(gòu)紛紛入場，如真格基金構(gòu)建了大模型測試集Z-Bench；清華大學、上海交通大學和愛丁堡大學合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval。依托多種評測數(shù)據(jù)集，進一步形成針對不同維度的測評方法。

由于大模型發(fā)展太快，國際上對于大模型測評目前尚無絕對標準?！堵槭±砉た萍荚u論》的一個評測相對全面，從研發(fā)、商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等方面檢測大模型的全面能力。其評測使用的測試集包含600道題目，覆蓋了語言專項、數(shù)學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類，126個二級分類，290個三級標簽，并針對問題的豐富性和多樣性做了優(yōu)化。

另外，國際數(shù)據(jù)公司IDC的測評，是將大模型分為三層，服務生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應用，對每一層的能力都提供測評，主要考察指標為算法模型、通用能力、創(chuàng)新能力、平臺能力、安全可解釋、大模型的應用行業(yè)，以及配套服務和大模型生態(tài)等，具體包括36項細分維度的評估標準。

在醫(yī)療健康大模型評測方法演進中，谷歌和DeepMind進行了較為全面的實踐。2023年7月12日，谷歌和DeepMind的科研人員在《自然》雜志上發(fā)表了研究，通過MultiMedQA（美國醫(yī)師執(zhí)照試題）評估基準，評估大語言模型在編碼臨床知識方面的表現(xiàn)，并詳解了谷歌醫(yī)療大模型Med-PaLM的進化過程。

國內(nèi)大模型產(chǎn)業(yè)對標ChatGPT同步發(fā)展，目前處于跟進復刻的階段，創(chuàng)新性總體偏弱。圖/視覺中國

首先，構(gòu)建了全新的美國醫(yī)師執(zhí)照試題評估基準，專門用于評估大語言模型在編碼臨床知識方面的表現(xiàn)。該基準結(jié)合了六個現(xiàn)有醫(yī)療問答數(shù)據(jù)集（MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU），涵蓋臨床知識、醫(yī)學研究和患者問答等多個方面，以及一個全新的在線搜索醫(yī)療問題庫數(shù)據(jù)集HealthSearchQA，旨在從多方面把AI培養(yǎng)成一名合格的醫(yī)生。其次，依托MultiMedQA，形成基于人類評估的框架模型，包括事實、理解、推理，以及可能的偏見等多個維度。

谷歌大型語言模型PaLM（Pathways Language Model）及其變體Flan-PaLM評估顯示，F(xiàn)lan-PaLM在MedQA的多項選擇題上表現(xiàn)出色，準確率為67.6%，比之前的技術(shù)水平高出17%以上，但它對病人醫(yī)療問題的回答卻暴露出關(guān)鍵的差距。然而，經(jīng)過指令提示調(diào)整產(chǎn)生的Med-PaLM，一組臨床醫(yī)生對其回答的評分為92.6%，與現(xiàn)實中臨床醫(yī)生的水平（92.9%）相當。

在上述谷歌評測中，安全性、公平性和偏見方面的評估內(nèi)容尚不完全。隨著模型規(guī)模的擴大和提示詞的調(diào)整，其理解能力、知識回憶和推理能力均有所提高，顯示出醫(yī)學領(lǐng)域的潛在實用性。

綜合來看，較為全面的評測主要由技術(shù)能力、行業(yè)服務能力、合規(guī)及安全四個維度組成。其中，技術(shù)應包括穩(wěn)定性、效率、效果等；行業(yè)服務能力應關(guān)注應用效果、成本可控、服務完整等；合規(guī)主要考慮數(shù)據(jù)、模型、應用治理能力；安全應確保大模型應用的全生命周期可控。

醫(yī)療服務嚴謹復雜，將大模型運用到臨床應用前，應通過相對完備的標準測試，對不同大模型性能和效果進行評估比較，幫助用戶選擇適合自己需求的大模型。

因此，評估標準需綜合患者、消費者、大模型研究人員、臨床醫(yī)生、社會科學家、倫理學家、政策制定者和其他利益相關(guān)方之間的共識。

可以說，標準化工作，是促進醫(yī)療健康行業(yè)大模型從“作坊式”走向“工業(yè)化”的關(guān)鍵。

誰來做主

從標準化角度看，目前，全球知名的人工智能標準化組織主要有四個，分別是ISO/IEC JTC1（國際標準化組織和國際電工委員會第一聯(lián)合技術(shù)委員會）、ISO（國際標準化組）、IEC（國際電工委員會）和ITU（國際電信聯(lián)盟）。

其中，ISO/IEC JTC1在人工智能領(lǐng)域的標準化工作已有20多年的歷史，并于2018年4月成立人工智能分技術(shù)委員會（SC42），圍繞基礎(chǔ)標準、計算方法、可信賴和社會關(guān)注等方面開展國際標準化工作；ISO與人工智能標準化研究上的工作主要集中在工業(yè)機器人、智能金融、智能駕駛?cè)箢I(lǐng)域；IEC主要在可穿戴設(shè)備領(lǐng)域開展人工智能標準化工作；從2016年起，ITU開展人工智能標準化研究，提出了人工智能和物聯(lián)網(wǎng)、機器學習等領(lǐng)域的標準化項目。

中國高度重視新一代人工智能發(fā)展，2020年7月，國家標準委、中央網(wǎng)信辦等五部門共同發(fā)布《國家新一代人工智能標準體系建設(shè)指南》，主要包括基礎(chǔ)共性、支撐技術(shù)與產(chǎn)品、基礎(chǔ)軟硬件平臺、關(guān)鍵通用技術(shù)、關(guān)鍵領(lǐng)域技術(shù)、產(chǎn)品和服務、行業(yè)應用、安全與倫理八部分。

圍繞醫(yī)療健康領(lǐng)域，中國信通院依托中國通信標準化協(xié)會、互聯(lián)網(wǎng)醫(yī)療健康產(chǎn)業(yè)聯(lián)盟，關(guān)注醫(yī)療健康行業(yè)大模型的總體技術(shù)框架、應用服務能力、合成服務治理及安全管理能力等四個方面，發(fā)布醫(yī)療健康行業(yè)大模型領(lǐng)域的系列標準，推動人工智能技術(shù)與醫(yī)療健康的深度融合。

其中，《醫(yī)療健康行業(yè)大模型應用技術(shù)要求》中“第1部分：醫(yī)院側(cè)醫(yī)療服務”、《醫(yī)療健康行業(yè)大模型應用技術(shù)要求》的“第2部分：患者側(cè)醫(yī)療服務”，這兩項標準針對門診、急診、住院等不同臨床場景中醫(yī)生、護士、患者等不同角色所進行的活動，定義醫(yī)療健康行業(yè)大模型在醫(yī)療服務應具備的功能，規(guī)范大模型的實際落地應用能力。

同時，通過規(guī)范模態(tài)支持數(shù)量，語言任務、視覺任務、語音任務、跨模態(tài)任務等不同模態(tài)的任務支持度，語言理解、文書生成、多輪主動交互等基本能力，明確醫(yī)療大模型的醫(yī)療服務的應用優(yōu)勢及業(yè)務范圍，支持醫(yī)療健康服務效率及質(zhì)量的提升。

此外，通過規(guī)范軟硬件、數(shù)據(jù)、算法模型、應用等方面的安全要求及易用性、穩(wěn)定性、魯棒性、公平性、可解釋性、可審查性等模型服務要求，保障醫(yī)療健康信息安全及大模型的服務可靠性。

展望及發(fā)展建議

可以預見，人工智能將在醫(yī)療領(lǐng)域，能夠提高醫(yī)生效率，滿足更多患者需求，推動優(yōu)質(zhì)醫(yī)療資源擴容下沉，應對醫(yī)療資源短缺的全球共同難題。醫(yī)療大模型聚焦嚴肅且謹慎的醫(yī)療場景，對錯誤的容忍度更低，對準確性和安全性要求更高。研制并推廣大模型技術(shù)在醫(yī)療健康領(lǐng)域應用的相關(guān)標準，將大幅降低醫(yī)療健康大模型應用的研發(fā)門檻和創(chuàng)新成本，助力醫(yī)療健康行業(yè)的數(shù)字化轉(zhuǎn)型，提升醫(yī)療服務效率，讓優(yōu)質(zhì)醫(yī)療資源觸達更多患者群體。

大模型在醫(yī)療健康領(lǐng)域應用所面臨的挑戰(zhàn)和難題是基本一致的，業(yè)界亟須搭建良好的公共服務生態(tài)環(huán)境促進良性發(fā)展。

筆者認為，一是需要大量訓練數(shù)據(jù)和計算資源，醫(yī)療數(shù)據(jù)的獲取和處理比較困難，應用過程中應重點關(guān)注數(shù)據(jù)合規(guī)；二是大模型的結(jié)果和決策相對難以解釋和理解，涉及科技倫理治理的工作；三是大模型的安全性和隱私保護是后續(xù)規(guī)?；瘧玫幕厩疤?，醫(yī)療數(shù)據(jù)涉及個人隱私和敏感信息，需采取相應的措施來保護數(shù)據(jù)安全。大模型走向應用落地時，在保障產(chǎn)品好用、可用、易用前提下，應契合場景的核心痛點，發(fā)展核心優(yōu)勢，支持后續(xù)差異化發(fā)展。

對標準體系的建立，中國亦不能落于人后。標準體系建設(shè)貫穿醫(yī)療健康行業(yè)大模型應用的全生命周期，涉及規(guī)劃論證、科研生產(chǎn)、使用管理等多個部門，是復雜的系統(tǒng)工程，需要人工智能技術(shù)與衛(wèi)生健康兩個領(lǐng)域傾力協(xié)作配合，相互銜接、互為補充與支撐，以期盡快建立國家標準、行業(yè)標準。

筆者建議，從國家層面，推動標準應用試點示范。也就是依托人工智能標準體系，以“優(yōu)勢先行、成熟先用、應用牽引”為原則，通過重點標準的先試先行，總結(jié)提煉可借鑒、可復制、可推廣的實踐經(jīng)驗，以點帶面拓展標準應用深度和廣度，持續(xù)推動大模型技術(shù)在醫(yī)療健康領(lǐng)域的應用，為醫(yī)療健康服務數(shù)字化轉(zhuǎn)型及智能化發(fā)展奠定基礎(chǔ)。

另外，重視數(shù)據(jù)資源安全防護。從技術(shù)層面看，大模型技術(shù)在醫(yī)療健康領(lǐng)域應用有利于提高診斷治療效率，但也存在數(shù)據(jù)泄露、模型被篡改破壞導致診療輔助決策誤判等情況，要加強對數(shù)據(jù)資源的安全防護。通過技術(shù)、標準與規(guī)范等方式排除系統(tǒng)遭黑客攻擊、程序被修改而導致錯誤內(nèi)容輸出等的可能性。

從過往經(jīng)驗看，技術(shù)跑馬快行時，要有倫理作為束縛的韁繩。大模型技術(shù)在醫(yī)療健康領(lǐng)域的發(fā)展尤其要注意科技倫理風險，由人工智能算法所帶來的偏見歧視、責任缺失、技術(shù)失控、隱私侵犯等倫理問題在醫(yī)療健康領(lǐng)域?qū)l(fā)嚴重后果，要加強對醫(yī)療健康大模型的科技倫理治理工作，由產(chǎn)學研用各方聯(lián)合開發(fā)科技倫理治理工具，引導醫(yī)療健康大模型有序、安全發(fā)展。