亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        醫(yī)療大模型需要全標(biāo)準(zhǔn)評價體系

        2023-12-27 03:06:43閔棟
        財經(jīng) 2023年26期
        關(guān)鍵詞:領(lǐng)域人工智能醫(yī)療

        閔棟

        在人工智能的引領(lǐng)下,新一輪科技革命和產(chǎn)業(yè)變革已經(jīng)展開。

        當(dāng)2016年IBM的人工智能(AI)“沃森”學(xué)習(xí)海量醫(yī)學(xué)論文后,在人類醫(yī)生們對一名病人束手無策的情況下,10分鐘內(nèi)判斷出病人得的是罕見白血病,并給出了治療方案,人工智能給醫(yī)療領(lǐng)域帶來的就不僅是沖擊,還有無限可能的未來。

        AI“思考”出針對每一個病人的單獨(dú)的結(jié)論,是基于它運(yùn)轉(zhuǎn)的規(guī)則不是事先輸入的程序,而是依托龐大的后臺數(shù)據(jù)庫。在人工智能領(lǐng)域,這被稱為“深度學(xué)習(xí)”。作為AI領(lǐng)域的重要技術(shù),深度學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí),而大模型則是通過使用大量的模型來訓(xùn)練數(shù)據(jù),可以說是深度學(xué)習(xí)模型。

        2023年風(fēng)靡全球的ChatGPT,就是大模型的經(jīng)典范例,其已應(yīng)用于多個醫(yī)療場景,在病歷書寫、報告生成、病例歸納、輔助診療等醫(yī)療服務(wù)領(lǐng)域已有應(yīng)用,未來將進(jìn)一步支持病歷記錄、醫(yī)療咨詢、患者管理、學(xué)術(shù)交流等醫(yī)療場景,為患者、醫(yī)生和研究人員提供高效、智能的解決方案。

        醫(yī)療大模型差異化,滿足用戶需求

        截至目前,在醫(yī)療領(lǐng)域的國產(chǎn)大模型數(shù)量不少于40個。

        就技術(shù)而言,大模型本質(zhì)基本相同,通過對大量數(shù)據(jù)的學(xué)習(xí)和分析,提取出隱藏在數(shù)據(jù)中的規(guī)律和特征,如醫(yī)療大模型重點(diǎn)支持醫(yī)學(xué)圖像識別和分析、醫(yī)療數(shù)據(jù)分析和預(yù)測,實(shí)現(xiàn)更準(zhǔn)確、高效的醫(yī)療診斷和治療。

        大模型因側(cè)重點(diǎn)不一樣,如開源或閉源,后續(xù)發(fā)展各有特色。互聯(lián)網(wǎng)巨頭騰訊、百度、京東等的大模型開發(fā),涵蓋藥物研發(fā)、智慧診療、醫(yī)療設(shè)備運(yùn)維、醫(yī)院管理等多個領(lǐng)域。其中,京東健康正式發(fā)布面向醫(yī)療健康行業(yè)的大模型“京醫(yī)千詢”,以京東言犀通用大模型為基礎(chǔ),開發(fā)覆蓋全流程醫(yī)療需求、實(shí)現(xiàn)智能決策、支持多模態(tài)的醫(yī)療大模型;華為云與廣州金域醫(yī)學(xué)正式簽署盤古大模型戰(zhàn)略合作協(xié)議,雙方將合力打造醫(yī)檢行業(yè)AI大模型,驅(qū)動醫(yī)學(xué)檢驗(yàn)全鏈條多場景的智能化;醫(yī)聯(lián)自主研發(fā)的基于Transformer架構(gòu)的醫(yī)療大語言模型——MedGPT,能夠支持循序漸進(jìn)多輪問診,引導(dǎo)患者收集足夠的診斷決策因素,保證后續(xù)診斷有效,在與三甲主治醫(yī)生診斷相比中,已達(dá)到96%的一致性。

        從技術(shù)實(shí)現(xiàn)方面來看,一類是直接開發(fā)形成的醫(yī)療大模型,如醫(yī)聯(lián)的MedGPT、深睿醫(yī)療的Deepwise MetAI等;另一類是基于通用大模型而進(jìn)一步訓(xùn)練形成垂類行業(yè)大模型,如華為云盤古大模型、京東健康“京醫(yī)千詢”、科大訊飛的“星火認(rèn)知”等。各大模型應(yīng)用根據(jù)自身既有業(yè)務(wù)基礎(chǔ)進(jìn)一步深化應(yīng)用場景,呈現(xiàn)出差異化發(fā)展特點(diǎn)。

        由于是產(chǎn)業(yè)發(fā)展早期,國內(nèi)大模型產(chǎn)業(yè)對標(biāo)ChatGPT同步發(fā)展,目前處于跟進(jìn)復(fù)刻的階段,創(chuàng)新性總體偏弱。當(dāng)國內(nèi)大模型技術(shù)積累達(dá)到一定階段,不同應(yīng)用定位的模型優(yōu)勢將會在產(chǎn)業(yè)中顯現(xiàn)出來,呈現(xiàn)出差異化。

        國外多數(shù)公司采用直接在基礎(chǔ)模型開發(fā)具備多樣性的應(yīng)用,相對聚焦且貼合行業(yè)痛點(diǎn),可以有效規(guī)避通用大模型的同質(zhì)化?,F(xiàn)階段通用大模型雖在同質(zhì)化發(fā)展,但已顯現(xiàn)出垂直領(lǐng)域大模型在應(yīng)用端的差異化創(chuàng)新突破。

        差異化發(fā)展是大模型商業(yè)落地的主要途徑。用戶對于大模型產(chǎn)品的需求側(cè)重點(diǎn)各有不同,如需求強(qiáng)弱、單一或綜合功能要求等,會根據(jù)最切實(shí)的需要來適配大模型產(chǎn)品。同時,大模型數(shù)據(jù)分析、代碼編寫等能力對于用戶自身素質(zhì)也有一定門檻。因此,大模型提供者落地的主要場景不同,角色定位各有差異。各大互聯(lián)網(wǎng)公司在用戶端各有固定場景,如騰訊在社交、百度在搜索、京東在購物等。

        大模型要交一份“考卷”

        讓大模型成為一個好用的工具,在交付用戶之前,還要通過一個考試。當(dāng)前模型應(yīng)用效果測評方式多樣,工具化、智能化的綜合評價體系已具備雛形。

        大模型是由海量數(shù)據(jù)和算法組成的復(fù)雜系統(tǒng),在訓(xùn)練和推理過程中會考慮很多因素。通過大模型測評能夠更好了解模型的性能和特點(diǎn),評估使用價值和意義,明確局限性和潛在風(fēng)險等,公平、客觀、直觀地感知大模型真正的效果,支持用戶選擇合適的大模型。

        模型測評基準(zhǔn)是通用人工智能的基石,需要同步探索構(gòu)建測試集和測試方法。國內(nèi)圍繞大模型測試集,各類機(jī)構(gòu)紛紛入場,如真格基金構(gòu)建了大模型測試集Z-Bench;清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval。依托多種評測數(shù)據(jù)集,進(jìn)一步形成針對不同維度的測評方法。

        由于大模型發(fā)展太快,國際上對于大模型測評目前尚無絕對標(biāo)準(zhǔn)?!堵槭±砉た萍荚u論》的一個評測相對全面,從研發(fā)、商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等方面檢測大模型的全面能力。其評測使用的測試集包含600道題目,覆蓋了語言專項、數(shù)學(xué)專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類,126個二級分類,290個三級標(biāo)簽,并針對問題的豐富性和多樣性做了優(yōu)化。

        另外,國際數(shù)據(jù)公司IDC的測評,是將大模型分為三層,服務(wù)生態(tài)、產(chǎn)品技術(shù)以及行業(yè)應(yīng)用,對每一層的能力都提供測評,主要考察指標(biāo)為算法模型、通用能力、創(chuàng)新能力、平臺能力、安全可解釋、大模型的應(yīng)用行業(yè),以及配套服務(wù)和大模型生態(tài)等,具體包括36項細(xì)分維度的評估標(biāo)準(zhǔn)。

        在醫(yī)療健康大模型評測方法演進(jìn)中,谷歌和DeepMind進(jìn)行了較為全面的實(shí)踐。2023年7月12日,谷歌和DeepMind的科研人員在《自然》雜志上發(fā)表了研究,通過MultiMedQA(美國醫(yī)師執(zhí)照試題)評估基準(zhǔn),評估大語言模型在編碼臨床知識方面的表現(xiàn),并詳解了谷歌醫(yī)療大模型Med-PaLM的進(jìn)化過程。

        國內(nèi)大模型產(chǎn)業(yè)對標(biāo)ChatGPT同步發(fā)展,目前處于跟進(jìn)復(fù)刻的階段,創(chuàng)新性總體偏弱。圖/視覺中國

        首先,構(gòu)建了全新的美國醫(yī)師執(zhí)照試題評估基準(zhǔn),專門用于評估大語言模型在編碼臨床知識方面的表現(xiàn)。該基準(zhǔn)結(jié)合了六個現(xiàn)有醫(yī)療問答數(shù)據(jù)集(MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU),涵蓋臨床知識、醫(yī)學(xué)研究和患者問答等多個方面,以及一個全新的在線搜索醫(yī)療問題庫數(shù)據(jù)集HealthSearchQA,旨在從多方面把AI培養(yǎng)成一名合格的醫(yī)生。其次,依托MultiMedQA,形成基于人類評估的框架模型,包括事實(shí)、理解、推理,以及可能的偏見等多個維度。

        谷歌大型語言模型PaLM(Pathways Language Model)及其變體Flan-PaLM評估顯示,F(xiàn)lan-PaLM在MedQA的多項選擇題上表現(xiàn)出色,準(zhǔn)確率為67.6%,比之前的技術(shù)水平高出17%以上,但它對病人醫(yī)療問題的回答卻暴露出關(guān)鍵的差距。然而,經(jīng)過指令提示調(diào)整產(chǎn)生的Med-PaLM,一組臨床醫(yī)生對其回答的評分為92.6%,與現(xiàn)實(shí)中臨床醫(yī)生的水平(92.9%)相當(dāng)。

        在上述谷歌評測中,安全性、公平性和偏見方面的評估內(nèi)容尚不完全。隨著模型規(guī)模的擴(kuò)大和提示詞的調(diào)整,其理解能力、知識回憶和推理能力均有所提高,顯示出醫(yī)學(xué)領(lǐng)域的潛在實(shí)用性。

        綜合來看,較為全面的評測主要由技術(shù)能力、行業(yè)服務(wù)能力、合規(guī)及安全四個維度組成。其中,技術(shù)應(yīng)包括穩(wěn)定性、效率、效果等;行業(yè)服務(wù)能力應(yīng)關(guān)注應(yīng)用效果、成本可控、服務(wù)完整等;合規(guī)主要考慮數(shù)據(jù)、模型、應(yīng)用治理能力;安全應(yīng)確保大模型應(yīng)用的全生命周期可控。

        醫(yī)療服務(wù)嚴(yán)謹(jǐn)復(fù)雜,將大模型運(yùn)用到臨床應(yīng)用前,應(yīng)通過相對完備的標(biāo)準(zhǔn)測試,對不同大模型性能和效果進(jìn)行評估比較,幫助用戶選擇適合自己需求的大模型。

        因此,評估標(biāo)準(zhǔn)需綜合患者、消費(fèi)者、大模型研究人員、臨床醫(yī)生、社會科學(xué)家、倫理學(xué)家、政策制定者和其他利益相關(guān)方之間的共識。

        可以說,標(biāo)準(zhǔn)化工作,是促進(jìn)醫(yī)療健康行業(yè)大模型從“作坊式”走向“工業(yè)化”的關(guān)鍵。

        誰來做主

        從標(biāo)準(zhǔn)化角度看,目前,全球知名的人工智能標(biāo)準(zhǔn)化組織主要有四個,分別是ISO/IEC JTC1(國際標(biāo)準(zhǔn)化組織和國際電工委員會第一聯(lián)合技術(shù)委員會)、ISO(國際標(biāo)準(zhǔn)化組)、IEC(國際電工委員會)和ITU(國際電信聯(lián)盟)。

        其中,ISO/IEC JTC1在人工智能領(lǐng)域的標(biāo)準(zhǔn)化工作已有20多年的歷史,并于2018年4月成立人工智能分技術(shù)委員會(SC42),圍繞基礎(chǔ)標(biāo)準(zhǔn)、計算方法、可信賴和社會關(guān)注等方面開展國際標(biāo)準(zhǔn)化工作;ISO與人工智能標(biāo)準(zhǔn)化研究上的工作主要集中在工業(yè)機(jī)器人、智能金融、智能駕駛?cè)箢I(lǐng)域;IEC主要在可穿戴設(shè)備領(lǐng)域開展人工智能標(biāo)準(zhǔn)化工作;從2016年起,ITU開展人工智能標(biāo)準(zhǔn)化研究,提出了人工智能和物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)等領(lǐng)域的標(biāo)準(zhǔn)化項目。

        中國高度重視新一代人工智能發(fā)展,2020年7月,國家標(biāo)準(zhǔn)委、中央網(wǎng)信辦等五部門共同發(fā)布《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》,主要包括基礎(chǔ)共性、支撐技術(shù)與產(chǎn)品、基礎(chǔ)軟硬件平臺、關(guān)鍵通用技術(shù)、關(guān)鍵領(lǐng)域技術(shù)、產(chǎn)品和服務(wù)、行業(yè)應(yīng)用、安全與倫理八部分。

        圍繞醫(yī)療健康領(lǐng)域,中國信通院依托中國通信標(biāo)準(zhǔn)化協(xié)會、互聯(lián)網(wǎng)醫(yī)療健康產(chǎn)業(yè)聯(lián)盟,關(guān)注醫(yī)療健康行業(yè)大模型的總體技術(shù)框架、應(yīng)用服務(wù)能力、合成服務(wù)治理及安全管理能力等四個方面,發(fā)布醫(yī)療健康行業(yè)大模型領(lǐng)域的系列標(biāo)準(zhǔn),推動人工智能技術(shù)與醫(yī)療健康的深度融合。

        其中,《醫(yī)療健康行業(yè)大模型應(yīng)用技術(shù)要求》中“第1部分:醫(yī)院側(cè)醫(yī)療服務(wù)”、《醫(yī)療健康行業(yè)大模型應(yīng)用技術(shù)要求》的“第2部分:患者側(cè)醫(yī)療服務(wù)”,這兩項標(biāo)準(zhǔn)針對門診、急診、住院等不同臨床場景中醫(yī)生、護(hù)士、患者等不同角色所進(jìn)行的活動,定義醫(yī)療健康行業(yè)大模型在醫(yī)療服務(wù)應(yīng)具備的功能,規(guī)范大模型的實(shí)際落地應(yīng)用能力。

        同時,通過規(guī)范模態(tài)支持?jǐn)?shù)量,語言任務(wù)、視覺任務(wù)、語音任務(wù)、跨模態(tài)任務(wù)等不同模態(tài)的任務(wù)支持度,語言理解、文書生成、多輪主動交互等基本能力,明確醫(yī)療大模型的醫(yī)療服務(wù)的應(yīng)用優(yōu)勢及業(yè)務(wù)范圍,支持醫(yī)療健康服務(wù)效率及質(zhì)量的提升。

        此外,通過規(guī)范軟硬件、數(shù)據(jù)、算法模型、應(yīng)用等方面的安全要求及易用性、穩(wěn)定性、魯棒性、公平性、可解釋性、可審查性等模型服務(wù)要求,保障醫(yī)療健康信息安全及大模型的服務(wù)可靠性。

        展望及發(fā)展建議

        可以預(yù)見,人工智能將在醫(yī)療領(lǐng)域,能夠提高醫(yī)生效率,滿足更多患者需求,推動優(yōu)質(zhì)醫(yī)療資源擴(kuò)容下沉,應(yīng)對醫(yī)療資源短缺的全球共同難題。醫(yī)療大模型聚焦嚴(yán)肅且謹(jǐn)慎的醫(yī)療場景,對錯誤的容忍度更低,對準(zhǔn)確性和安全性要求更高。研制并推廣大模型技術(shù)在醫(yī)療健康領(lǐng)域應(yīng)用的相關(guān)標(biāo)準(zhǔn),將大幅降低醫(yī)療健康大模型應(yīng)用的研發(fā)門檻和創(chuàng)新成本,助力醫(yī)療健康行業(yè)的數(shù)字化轉(zhuǎn)型,提升醫(yī)療服務(wù)效率,讓優(yōu)質(zhì)醫(yī)療資源觸達(dá)更多患者群體。

        大模型在醫(yī)療健康領(lǐng)域應(yīng)用所面臨的挑戰(zhàn)和難題是基本一致的,業(yè)界亟須搭建良好的公共服務(wù)生態(tài)環(huán)境促進(jìn)良性發(fā)展。

        筆者認(rèn)為,一是需要大量訓(xùn)練數(shù)據(jù)和計算資源,醫(yī)療數(shù)據(jù)的獲取和處理比較困難,應(yīng)用過程中應(yīng)重點(diǎn)關(guān)注數(shù)據(jù)合規(guī);二是大模型的結(jié)果和決策相對難以解釋和理解,涉及科技倫理治理的工作;三是大模型的安全性和隱私保護(hù)是后續(xù)規(guī)?;瘧?yīng)用的基本前提,醫(yī)療數(shù)據(jù)涉及個人隱私和敏感信息,需采取相應(yīng)的措施來保護(hù)數(shù)據(jù)安全。大模型走向應(yīng)用落地時,在保障產(chǎn)品好用、可用、易用前提下,應(yīng)契合場景的核心痛點(diǎn),發(fā)展核心優(yōu)勢,支持后續(xù)差異化發(fā)展。

        對標(biāo)準(zhǔn)體系的建立,中國亦不能落于人后。標(biāo)準(zhǔn)體系建設(shè)貫穿醫(yī)療健康行業(yè)大模型應(yīng)用的全生命周期,涉及規(guī)劃論證、科研生產(chǎn)、使用管理等多個部門,是復(fù)雜的系統(tǒng)工程,需要人工智能技術(shù)與衛(wèi)生健康兩個領(lǐng)域傾力協(xié)作配合,相互銜接、互為補(bǔ)充與支撐,以期盡快建立國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)。

        筆者建議,從國家層面,推動標(biāo)準(zhǔn)應(yīng)用試點(diǎn)示范。也就是依托人工智能標(biāo)準(zhǔn)體系,以“優(yōu)勢先行、成熟先用、應(yīng)用牽引”為原則,通過重點(diǎn)標(biāo)準(zhǔn)的先試先行,總結(jié)提煉可借鑒、可復(fù)制、可推廣的實(shí)踐經(jīng)驗(yàn),以點(diǎn)帶面拓展標(biāo)準(zhǔn)應(yīng)用深度和廣度,持續(xù)推動大模型技術(shù)在醫(yī)療健康領(lǐng)域的應(yīng)用,為醫(yī)療健康服務(wù)數(shù)字化轉(zhuǎn)型及智能化發(fā)展奠定基礎(chǔ)。

        另外,重視數(shù)據(jù)資源安全防護(hù)。從技術(shù)層面看,大模型技術(shù)在醫(yī)療健康領(lǐng)域應(yīng)用有利于提高診斷治療效率,但也存在數(shù)據(jù)泄露、模型被篡改破壞導(dǎo)致診療輔助決策誤判等情況,要加強(qiáng)對數(shù)據(jù)資源的安全防護(hù)。通過技術(shù)、標(biāo)準(zhǔn)與規(guī)范等方式排除系統(tǒng)遭黑客攻擊、程序被修改而導(dǎo)致錯誤內(nèi)容輸出等的可能性。

        從過往經(jīng)驗(yàn)看,技術(shù)跑馬快行時,要有倫理作為束縛的韁繩。大模型技術(shù)在醫(yī)療健康領(lǐng)域的發(fā)展尤其要注意科技倫理風(fēng)險,由人工智能算法所帶來的偏見歧視、責(zé)任缺失、技術(shù)失控、隱私侵犯等倫理問題在醫(yī)療健康領(lǐng)域?qū)l(fā)嚴(yán)重后果,要加強(qiáng)對醫(yī)療健康大模型的科技倫理治理工作,由產(chǎn)學(xué)研用各方聯(lián)合開發(fā)科技倫理治理工具,引導(dǎo)醫(yī)療健康大模型有序、安全發(fā)展。

        (編輯:王?。?/p>

        猜你喜歡
        領(lǐng)域人工智能醫(yī)療
        領(lǐng)域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        京張醫(yī)療聯(lián)合的成功之路
        我們怎樣理解醫(yī)療創(chuàng)新
        下一幕,人工智能!
        醫(yī)療扶貧至關(guān)重要
        新常態(tài)下推動多層次多領(lǐng)域依法治理初探
        什么是醫(yī)療告知
        亚洲人精品午夜射精日韩| 亚洲av偷拍一区二区三区| 少妇我被躁爽到高潮在线影片| 国产精品激情自拍视频| 亚洲国产另类精品| 亚洲人成精品久久久久| av男人操美女一区二区三区| 久久精品国产亚洲av蜜点| 精品www日韩熟女人妻| 香蕉视频一级片| 东京道一本热码加勒比小泽| 精品人妻一区三区蜜桃| 国产97在线 | 亚洲| 中字无码av电影在线观看网站 | 国产性感丝袜美女av| 亚洲一区二区三区综合免费在线| 亚洲国产av玩弄放荡人妇系列 | 日韩一卡2卡3卡4卡新区亚洲| 麻豆AV免费网站| 蜜臀精品一区二区三区| 99国产精品久久久久久久成人热| 国产免费av片在线观看播放| 国产69口爆吞精在线视频喝尿 | 日本激情网址| 日韩精品免费av一区二区三区| 草草地址线路①屁屁影院成人 | 国产无遮挡又黄又爽免费网站| 久久综合五月天| 日韩精品一区二区三区免费观影 | 精品女同av一区二区三区 | 免费网站国产| 久久本道久久综合一人| 久久99精品久久久久久清纯| 台湾佬综合网| 午夜日韩视频在线观看| 日本伦理精品一区二区三区| 在线观看免费人成视频| 少妇的诱惑免费在线观看| 日本精品一级二区三级| 精品少妇无码av无码专区| 中文字幕少妇AV|