亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源異構(gòu)醫(yī)學(xué)數(shù)據(jù)的集成和學(xué)習(xí)

        2022-05-16 13:26:48李寅昊黎成權(quán)劉林威肖立
        關(guān)鍵詞:特征模型

        李寅昊,黎成權(quán),劉林威,王 霞,肖立,4*

        (1.清華大學(xué)臨床醫(yī)學(xué)院,北京 100084;2.清華大學(xué)醫(yī)學(xué)院,北京 100084;3.中國科學(xué)院計算技術(shù)研究所,中科院智能信息處理重點實驗室,北京 100090;4.中國科學(xué)院大學(xué)寧波華美醫(yī)院學(xué)科發(fā)展中心,浙江 寧波 305010)

        隨著我國醫(yī)療水平的進步,越來越多的醫(yī)院開始引進數(shù)字化信息系統(tǒng),如醫(yī)院信息系統(tǒng)(HIS)、醫(yī)學(xué)影像歸檔和通信系統(tǒng)(PACS)、檢驗信息系統(tǒng)(LIS)等逐漸被醫(yī)院采用[1]。數(shù)字化信息系統(tǒng)的成功應(yīng)用,在方便患者的同時也留下了大量數(shù)字化數(shù)據(jù),為醫(yī)學(xué)人工智能技術(shù)發(fā)展提供了堅實的基礎(chǔ)。然而,由于標準不統(tǒng)一,相關(guān)人員培訓(xùn)乏力等原因,導(dǎo)致醫(yī)療數(shù)據(jù)在使用中存在“臟數(shù)據(jù)”“非標準化數(shù)據(jù)”及“數(shù)據(jù)信息孤島”等一系列問題[2],數(shù)據(jù)輸入、維護、處理等環(huán)節(jié)時常出現(xiàn)異常[3]。

        現(xiàn)有的醫(yī)療數(shù)據(jù)集大多來自不同中心,并且不同中心的數(shù)據(jù)格式、標注規(guī)范等存在差異,因此這些醫(yī)療數(shù)據(jù)普遍具有多源異構(gòu)的特點。對于這些多源異構(gòu)數(shù)據(jù),一方面,其源自多個數(shù)據(jù)持有方,統(tǒng)一利用勢必存在困難;另一方面,不同持有方的數(shù)據(jù)特征和標注規(guī)范不一致,將會導(dǎo)致出現(xiàn)數(shù)據(jù)偏移和數(shù)據(jù)噪聲的情況。因此,如何集成并學(xué)習(xí)這些多源異構(gòu)數(shù)據(jù),成為了醫(yī)學(xué)數(shù)據(jù)處理的重要研究問題,本文將對多源異構(gòu)數(shù)據(jù)集成和學(xué)習(xí)方法進行梳理和總結(jié)。

        1 多源異構(gòu)數(shù)據(jù)

        隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)獲取渠道不斷擴展,這導(dǎo)致無論是醫(yī)療圖像還是自然圖像,其數(shù)據(jù)源頭越來越廣,數(shù)據(jù)類型也越來越多。這種來源不同的數(shù)據(jù)被稱為多源數(shù)據(jù),而如果這些數(shù)據(jù)所表現(xiàn)出的類型和特征不一致,則被稱為異構(gòu)數(shù)據(jù),一般來說,數(shù)據(jù)的多源性也會導(dǎo)致其具有異構(gòu)的特點[4]。對于這種多源異構(gòu)數(shù)據(jù),由于其具有多個數(shù)據(jù)持有方,標注標準不統(tǒng)一及標注人員水平不一的特點,導(dǎo)致其在使用時存在著統(tǒng)一利用困難,數(shù)據(jù)偏移及數(shù)據(jù)噪聲的問題。因此,傳統(tǒng)的數(shù)據(jù)存儲方法及學(xué)習(xí)方法很難對其進行處理。因此,如何構(gòu)建新的數(shù)據(jù)集成及學(xué)習(xí)方式,成為最大化利用多源異構(gòu)數(shù)據(jù)的關(guān)鍵[5]。

        2 多源異構(gòu)數(shù)據(jù)的集成

        由于現(xiàn)有的醫(yī)學(xué)數(shù)據(jù)庫所依賴的計算機體系結(jié)構(gòu)不同,數(shù)據(jù)存儲方式存在差異,以及不同數(shù)據(jù)庫的模式不盡相同,導(dǎo)致其具有系統(tǒng)性、技術(shù)性及語義性3個方面的異構(gòu)[6]。醫(yī)療異構(gòu)數(shù)據(jù)集成解決方案主要基于數(shù)據(jù)倉庫、聯(lián)邦數(shù)據(jù)庫、中間件(包裝器/中介器、本體/網(wǎng)格、XML)3大類型構(gòu)建而成。

        2.1 基于數(shù)據(jù)倉庫的數(shù)據(jù)集成 數(shù)據(jù)倉庫概念被認為是由William Inmon創(chuàng)始并定義:“數(shù)據(jù)倉庫(Data WareHouse,DW)是1個面向主題的(Subject Oriented)、集成的(Integrated)、非易失性的(Non-Volatile)、時變的(Variant Time)數(shù)據(jù)集合,用于支持管理決策(Decision Support Making)。[7]”基于數(shù)據(jù)倉庫的數(shù)據(jù)集成模式主要包含3部分:ETL(extract-transform-load)、集成器及數(shù)據(jù)倉庫。其中ETL主要負責(zé)抽取轉(zhuǎn)換來自于各個數(shù)據(jù)源的數(shù)據(jù),在抽取轉(zhuǎn)換過后將數(shù)據(jù)傳入集成器來消除異構(gòu)性,之后再經(jīng)過數(shù)據(jù)清洗后傳送到數(shù)據(jù)倉庫中,由數(shù)據(jù)倉庫將數(shù)據(jù)提供給各個用戶。

        ETL過程在構(gòu)建數(shù)據(jù)倉庫中具有十分關(guān)鍵的作用,在數(shù)據(jù)抽取過程中,處理過程的復(fù)雜性取決于數(shù)據(jù)特征和屬性、數(shù)據(jù)量、處理時間等因素。在數(shù)據(jù)轉(zhuǎn)換和清洗過程中,需要保證數(shù)據(jù)的完整性、有效性、準確性、一致性。在數(shù)據(jù)加載過程中,關(guān)鍵是要區(qū)分新數(shù)據(jù)和現(xiàn)有數(shù)據(jù)[8]。

        數(shù)據(jù)倉庫在實現(xiàn)上也存在一些挑戰(zhàn),如時間模式設(shè)計、可追溯性、表達模式、知識進化、流程自動化等一系列問題[9]。

        Kadek Ary Budi Permana等設(shè)計了一個數(shù)據(jù)倉庫用于醫(yī)療病歷信息存儲[10]。該數(shù)據(jù)倉庫采用Kimball架構(gòu),集成了以下幾類數(shù)據(jù):用藥記錄、患者醫(yī)療記錄、患者國際疾病傷害及死因分類標準第十版(ICD10)編碼、其它類型數(shù)據(jù)等,主要服務(wù)于醫(yī)院間信息交換和政府機構(gòu)信息化監(jiān)管。該模型總線架構(gòu)設(shè)計如下:將業(yè)務(wù)流程劃分為患者藥物、患者治療、患者ICD10編碼、患者分布4個部分,并設(shè)計了患者、藥物、治療、ICD10編碼、醫(yī)院、時間等6個維度。在該架構(gòu)中,各機構(gòu)數(shù)據(jù)進入ETL過程接受整合,包括數(shù)據(jù)提取、清洗、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫等步驟,醫(yī)院和監(jiān)管機構(gòu)的用戶可以通過客戶端數(shù)據(jù)中心調(diào)用這些數(shù)據(jù)。

        圖1 基于數(shù)據(jù)倉庫的數(shù)據(jù)集成

        Hamoud等設(shè)計了一個癌癥數(shù)據(jù)倉庫(Clinical Data Warehouse,CDW)[11]。研究人員首先將來自多個醫(yī)療機構(gòu)的數(shù)千份紙質(zhì)數(shù)據(jù)錄入到excel數(shù)據(jù)表中并進行匯總整合,使用了SQL Server管理服務(wù)工具[SQL Server管理服務(wù)(SSMS),SQL Server集成服務(wù)(SSIS),SQL Server分析服務(wù)(SSAS)和SQL Server報告服務(wù)(SSRS)],將星型模式作為CDW設(shè)計模式,該模式由年齡、性別、疾病、個人信息、日期和地址六個維度和事實表組成?;贑DW的維度構(gòu)造數(shù)據(jù)立方體以執(zhí)行在線分析處理(On-line Analytical Processing,OLAP)操作,最后還可使用SSRS生成報告,將Excel數(shù)據(jù)透視表連接到SSAS以查看多維數(shù)據(jù)集。通過該數(shù)據(jù)倉庫,研究人員可以查看癌癥患者在不同時間、年齡、性別等因素下的分布情況,從而研究不同因素對癌癥的影響。

        圖2 癌癥數(shù)據(jù)倉庫[11]

        In Young Choi等開發(fā)了一個前列腺癌數(shù)據(jù)庫,該數(shù)據(jù)倉庫囊括人口信息、病史、癌癥分期、檢驗信息、藥物治療等信息,還提供了數(shù)據(jù)可視化功能[12]。該系統(tǒng)主要具有三種數(shù)據(jù)來源:EMR中非結(jié)構(gòu)化數(shù)據(jù)、EMR結(jié)構(gòu)化數(shù)據(jù)、患者紙質(zhì)數(shù)據(jù),該系統(tǒng)支持3種數(shù)據(jù)錄入方式:手工錄入、Excel數(shù)據(jù)表文件上傳、CDW與EMR直連。研究人員在圣瑪麗醫(yī)院(St. Mary’s Hospital)開展了試驗,使用CDW方法,可以將前列腺癌患者的信息從EMR系統(tǒng)中轉(zhuǎn)移到前列腺癌數(shù)據(jù)庫中。通過該系統(tǒng),可以比較采用不同治療方案患者的治療效果,基于此開展前瞻性研究,促進前列腺癌患者臨床護理。

        2.2 基于聯(lián)邦數(shù)據(jù)庫的集成 聯(lián)邦數(shù)據(jù)庫系統(tǒng)是1種元數(shù)據(jù)庫管理系統(tǒng),它透明地將多個自治數(shù)據(jù)庫系統(tǒng)映射到單個聯(lián)合數(shù)據(jù)庫中,再統(tǒng)一地由聯(lián)邦數(shù)據(jù)庫管理系統(tǒng)提供控制和協(xié)同操作[13]。

        建立聯(lián)邦數(shù)據(jù)庫的關(guān)鍵在于優(yōu)化以下幾點:包括查詢模式、分析算法、語義映射、數(shù)據(jù)傳輸、負載平衡、資源調(diào)配等內(nèi)容。[14]

        因為不需要集中存儲,聯(lián)邦數(shù)據(jù)庫比數(shù)據(jù)倉庫更具可擴展性和靈活性,但需要花費較多成本向系統(tǒng)添加新的數(shù)據(jù)源,或者修改當前服務(wù)[15]。盡管聯(lián)邦數(shù)據(jù)庫在數(shù)據(jù)隱私保護方面存在一定優(yōu)勢,但依舊需要采取一定的隱私保護措施,如硬件防篡改,身份認證等保障措施。[16]

        圖3 聯(lián)邦數(shù)據(jù)庫

        Muilu J等人提出了TwinNet結(jié)構(gòu),該結(jié)構(gòu)以聯(lián)邦數(shù)據(jù)庫為基礎(chǔ),用來集成在7個歐洲國家和澳大利亞收集的基因型和表型信息,通過這種結(jié)構(gòu)進行此數(shù)據(jù)庫設(shè)置,以便進行數(shù)據(jù)交換和匯總分析[17]。在TwinNet中,各個數(shù)據(jù)提供中心通過虛擬私人網(wǎng)絡(luò)(VPN)連接到數(shù)據(jù)集成節(jié)點,數(shù)據(jù)集成節(jié)點則負責(zé)將數(shù)據(jù)上傳到集成器上完成集成。通過TwinNet結(jié)構(gòu),來源不同的基因型和表型信息可以很好地集成起來。在TwinNet結(jié)構(gòu)中,用戶以及開發(fā)人員可以透明地從系統(tǒng)中獲取數(shù)據(jù),而無須關(guān)心數(shù)據(jù)的格式或站點。在安全性方面,TwinNet所維護的所有數(shù)據(jù)庫和數(shù)據(jù)集的標識符都經(jīng)過隨機化處理,不包含任何個人信息。并且數(shù)據(jù)間的連接使用虛擬私人網(wǎng)絡(luò)(VPN),從而確保了連接的安全性?;谠摂?shù)據(jù)庫,研究人員匯集了歐洲60萬雙胞胎的信息,證明了該架構(gòu)的可擴展性。

        圖4 TwinNet[17]

        2.3 基于中間件的集成 中間件是一種位于應(yīng)用系統(tǒng)和各個異構(gòu)數(shù)據(jù)源之間的結(jié)構(gòu),目的是為了解決分布異構(gòu)數(shù)據(jù)交換與集成問題。其負責(zé)轉(zhuǎn)換各異構(gòu)數(shù)據(jù)源的模式,從而能夠向用戶提供全局統(tǒng)一模式的數(shù)據(jù)。

        中間件能夠隱藏網(wǎng)絡(luò)的細節(jié),有助于應(yīng)用的開發(fā)、植入、執(zhí)行和交互,主要有事務(wù)中間件、過程中間件、消息中間件和面向?qū)ο笾虚g件四種類型[18]。

        中間件致力于解決不同異構(gòu)設(shè)備間的互操作性問題,但同樣面臨異構(gòu)網(wǎng)絡(luò)擴展性、實時推理等問題,提供能夠描述醫(yī)療物聯(lián)網(wǎng)和傳感器的完整本體也是一大挑戰(zhàn)[19]。

        Hansi Zhang等人使用基于本體的數(shù)據(jù)集成方法,基于多水平癌癥生存集成數(shù)據(jù)分析方法(Integrative Data Analysis,IDA)尋找癌癥生存預(yù)測因子[20]。研究人員采用的數(shù)據(jù)源包含了個人層面(種族、性別、確診年齡、腫瘤類型等)、環(huán)境層面(地區(qū)高中畢業(yè)率、地區(qū)貧困率等)的多個水平數(shù)據(jù),建立了癌癥研究變量本體(Ontology for Cancer Research Variables,OCRV),用于通過異構(gòu)數(shù)據(jù)源集成和統(tǒng)一多級癌癥預(yù)測器,使用語義映射公理創(chuàng)建基于本體的語義數(shù)據(jù)訪問框架(Ontology-based Data Access,OBDA),OBDA模型由映射公理和數(shù)據(jù)源聲明兩部分組成,通過SPARQL查詢訪問相關(guān)臨床數(shù)據(jù)庫。

        Longxiang Shi等人提出了一種醫(yī)療信息集成模型,用于集成醫(yī)療健康數(shù)據(jù)和異構(gòu)文本醫(yī)學(xué)知識(Textual Medical Knowledge,TMK)并進行語義查詢和推理[21]。該模型包括三個部分:醫(yī)學(xué)知識模型(Medical Knowledge Model,MKM)、健康數(shù)據(jù)模型(Health Data Model,HDM)和術(shù)語表(Terminology Glossary,TG),其中TG包含健康數(shù)據(jù)元數(shù)據(jù)索引、醫(yī)學(xué)知識元數(shù)據(jù)索引、元數(shù)據(jù)間術(shù)語映射本體、模型間概念映射本體。MKM用于定義知識模式,將TMK組織成概念圖。HDM從原始數(shù)據(jù)模式中生成,通過Web本體語言(OWL)來表達本體模型,用于標準化EHR數(shù)據(jù)。TG提供表達TMK和HDM實例的詞庫,并提供語義映射用于實現(xiàn)集成。在該系統(tǒng)中,通過輸入身體特定部位,可以檢索位于該身體部位相關(guān)癥狀、可能疾病以及相應(yīng)治療方案,反之亦然。該系統(tǒng)還能夠自動集成最新的醫(yī)學(xué)知識資源,促進醫(yī)學(xué)研究的臨床轉(zhuǎn)化工作。

        Bales等人提出了一種基于XML的數(shù)據(jù)集成方法XBrain用來集成多源異構(gòu)的大腦數(shù)據(jù)[22]。該方法將數(shù)據(jù)源,可視化工具以及分析工具集成起來,并能夠處理關(guān)系型、本體型以及XML型數(shù)據(jù),其中,數(shù)據(jù)源包含皮質(zhì)刺激映射關(guān)系數(shù)據(jù)庫(Cortical Stimulation Mapping,CSM)、解剖學(xué)基礎(chǔ)模型本體(Foundational Model of Anatomy,F(xiàn)MA)、XML圖像管理器,可視化工具用于操作二維、三維圖像,多種分析工具用于實現(xiàn)不同功能,如大腦映射可視化工具(Visualization Brain Mapper,VBM)。在該模型中,所有的源數(shù)據(jù)在導(dǎo)入進查詢處理器時需要從原本的格式轉(zhuǎn)換為XML格式。用戶利用JSP頁面向XQueryD處理器輸入查詢,由XQueryD處理器向各本地數(shù)據(jù)源發(fā)送查詢并集成生成的XML片段。最終的查詢結(jié)果可以以多種格式展示給用戶。

        圖5 XBrain[22]

        Chun fei Zhang等人設(shè)計了一個基于SOA架構(gòu)(Service-Oriented Architecture)的醫(yī)療信息集成平臺,用于整合醫(yī)院業(yè)務(wù)和數(shù)據(jù),并實現(xiàn)與外部系統(tǒng)的互操作性[23]。該平臺包含七個主要模塊:基本業(yè)務(wù)層(集成了醫(yī)院現(xiàn)有主要信息系統(tǒng))、信息交換層、信息服務(wù)層、信息管理層、數(shù)據(jù)分析層、平臺應(yīng)用層和門戶層。在該平臺的數(shù)據(jù)集成模塊中,通過XML、Web Service和消息中間件技術(shù)以集成異構(gòu)數(shù)據(jù),消息中間件用于屏蔽來自不同系統(tǒng)的不同格式的異構(gòu)數(shù)據(jù)源,并生成標準XML格式的數(shù)據(jù),Web Service端對XML格式數(shù)據(jù)做統(tǒng)一的集成處理,最后通過中間件輸出數(shù)據(jù)用于存儲和調(diào)用。SOA架構(gòu)通過設(shè)計取代原有點對點的數(shù)據(jù)接口模式,提高了醫(yī)療信息的訪問和交互效率。

        3 多源異構(gòu)數(shù)據(jù)的學(xué)習(xí)

        3.1 聯(lián)邦學(xué)習(xí) 聯(lián)邦學(xué)習(xí)系統(tǒng)是一個學(xué)習(xí)過程,在這個過程中,數(shù)據(jù)所有者共同訓(xùn)練一個模型,并且任何一個數(shù)據(jù)擁有者的數(shù)據(jù)都不向另外的數(shù)據(jù)擁有者公開[24]。聯(lián)邦學(xué)習(xí)旨在保持數(shù)據(jù)本地化的前提下,在數(shù)據(jù)中心完成模型的訓(xùn)練。這就要求聯(lián)邦學(xué)習(xí)具有大規(guī)模學(xué)習(xí),分布式優(yōu)化以及隱私保護的能力[25]。

        圖6 SOA架構(gòu)

        聯(lián)邦學(xué)習(xí)主要有三種類型:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。在橫向聯(lián)邦學(xué)習(xí)中,各節(jié)點共享數(shù)據(jù)特征,數(shù)據(jù)內(nèi)容則不相同,這適用于具有同類醫(yī)療數(shù)據(jù)信息的不同醫(yī)療機構(gòu)構(gòu)建聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)。在縱向聯(lián)邦學(xué)習(xí)中,各節(jié)點持有相似數(shù)據(jù)內(nèi)容,但研究的數(shù)據(jù)特征有一定差異,以滿足不同的研究目的。在聯(lián)邦遷移學(xué)習(xí)中,各節(jié)點數(shù)據(jù)內(nèi)容和數(shù)據(jù)特征都不盡相同,目的在于將一個領(lǐng)域的知識遷移到另一個領(lǐng)域以求獲得更好的學(xué)習(xí)效果[26]。

        聯(lián)邦學(xué)習(xí)的訓(xùn)練模式主要有兩種:并行訓(xùn)練和非并行訓(xùn)練。并行訓(xùn)練的效率雖然較高,但在某些場景可能帶來邏輯問題。非并行訓(xùn)練雖然效率較低,但可以適應(yīng)非齊次計算環(huán)境。非齊次訓(xùn)練又可進一步分為三種訓(xùn)練結(jié)構(gòu):集成訓(xùn)練、單權(quán)重訓(xùn)練、循環(huán)權(quán)重訓(xùn)練[27]。

        Olivia Choudhury等人建立了一個聯(lián)邦學(xué)習(xí)模型,使用醫(yī)療數(shù)據(jù)來預(yù)測藥物不良反應(yīng)(Adverse Drug Reaction,ADR),該模型可以集成分布式醫(yī)療數(shù)據(jù)用于訓(xùn)練ADR預(yù)測模型[28]。研究人員基于兩組用例對該模型進行了測試:預(yù)測患者長期服用阿片類藥物癥狀和服用抗精神病藥物的錐體束外癥狀。各個終端共享全局模型,使用分布式數(shù)據(jù)進行訓(xùn)練,訓(xùn)練得到的模型參數(shù)將被用于改良全局模型,直到達到模型訓(xùn)練目標。在聚合本地模型更新以優(yōu)化全局模型方面,該架構(gòu)根據(jù)樣本類別比例設(shè)定相應(yīng)權(quán)重,并對罕見類別賦予更高權(quán)重,同時對使用較少樣本和時間達到收斂的終端賦予更高權(quán)重,以期實現(xiàn)更佳訓(xùn)練效果。研究人員在聯(lián)邦學(xué)習(xí)中采用了支持向量機(Support Vector Machine, SVM)、單層感知器(Single-layer Perceptron)和邏輯回歸(Logistic Regression)三類算法,使用基于隨機梯度下降(Stochastic Gradient Descent,SGD)的優(yōu)化方法,并證明了在ADR預(yù)測方面聯(lián)邦學(xué)習(xí)模型的性能與中心化學(xué)習(xí)的性能相當。

        Abhijit Guha Roy等人設(shè)計了一種點對點的聯(lián)邦學(xué)習(xí)架構(gòu)BrainTorrent,在該架構(gòu)中沒有中心集成平臺,所有客戶端之間可直接交互,研究人員提出了基于聯(lián)邦學(xué)習(xí)的DNN訓(xùn)練策略,通過平均所有客戶端中模型參數(shù)權(quán)重來創(chuàng)建模型,通過客戶端動態(tài)更新來支持模型訓(xùn)練[29]。研究人員將該模型應(yīng)用于MRI T1全腦影像分割任務(wù)中,將左右腦整合為一個類別,所有皮層細胞整合為一個類別,以簡化分割任務(wù)。最后,證明了采用該架構(gòu)的效果與數(shù)據(jù)集中式模型訓(xùn)練的性能相近,并通過動態(tài)更新保證了模型的健壯性。

        Adnan Qayyum等人提出一種基于協(xié)作式聯(lián)邦學(xué)習(xí)(Clustered Federated Learning,CFL)的框架,應(yīng)用邊緣計算技術(shù),部署機器學(xué)習(xí)模型,處理X線和超聲影像多模態(tài)數(shù)據(jù),用于COVID-19的自動多模態(tài)診斷,并發(fā)現(xiàn)該模型相對于傳統(tǒng)聯(lián)邦學(xué)習(xí)模型能夠更好地應(yīng)對異源(X線、超聲圖像)的數(shù)據(jù)分布的差異[30]。由于在實際應(yīng)用場景中不同終端圖像大小、對比度、亮度、質(zhì)量、部位等因素都存在差異,這在一定程度上影響了模型訓(xùn)練的效果。

        聯(lián)邦學(xué)習(xí)可以解決醫(yī)療數(shù)據(jù)隱私或去標識化問題,降低數(shù)據(jù)泄露風(fēng)險,不斷升級客戶端,提升聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)通信能力是重要方向[31]。在實際應(yīng)用時要注意數(shù)據(jù)的非獨立同分布特性、全局最優(yōu)與局部最優(yōu)之間的權(quán)衡等問題[32]。

        聯(lián)邦學(xué)習(xí)主要存在以下幾大挑戰(zhàn):網(wǎng)絡(luò)通信成本高、統(tǒng)計異構(gòu)性、計算異構(gòu)性、存儲異構(gòu)性、系統(tǒng)異構(gòu)性、隱私問題等[33]。

        3.2 噪聲數(shù)據(jù)的學(xué)習(xí) 多源異構(gòu)數(shù)據(jù)中通常含有噪聲,給模型學(xué)習(xí)帶來不少挑戰(zhàn)。這些噪聲包括樣本本身的噪音,以及數(shù)據(jù)標注過程中的噪音。

        在MRI、PET、CT、超聲等醫(yī)學(xué)影像中都存在低信噪比的問題,在數(shù)字圖像處理過程中,去噪通常是最重要的預(yù)處理環(huán)節(jié)之一。

        通過統(tǒng)計學(xué)中的異常值檢測方法在醫(yī)學(xué)影像中的應(yīng)用具有一定局限性,因為一些噪聲數(shù)據(jù)并非統(tǒng)計意義下的異常值。通過引入人工智能方法,對噪聲數(shù)據(jù)進行識別,是未來的重要方向[34]。

        深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對噪聲具有較強的魯棒性,能夠增強噪聲圖像的連續(xù)邊緣,保留線條和角點等結(jié)構(gòu)特征,在圖像重建和噪聲表現(xiàn)之間做出權(quán)衡[35]。

        Guotai Wang等人設(shè)計了一種對噪聲魯棒的結(jié)構(gòu),用來完成covid-19 CT圖像病變分割任務(wù)[36]。肺部CT影像分割的挑戰(zhàn)在于不同患者病變表現(xiàn)、大小、階段不一,該結(jié)構(gòu)采用經(jīng)典的教師-學(xué)生模型,教師模塊和學(xué)生模塊相互促進,用來減少噪聲數(shù)據(jù)對模型的影響。該模型使用來自 10家不同醫(yī)院的558例新冠患者的臨床 CT 掃描,這些圖像具有不同的切片厚度和像素大小。實驗發(fā)現(xiàn),數(shù)據(jù)重新加權(quán)和標簽更新都有助于獲得更好的分割性能。

        Guohua Cheng等人設(shè)計了一種基于GAN的結(jié)構(gòu),這種結(jié)構(gòu)結(jié)合了標簽校正以及樣本權(quán)重分配,來解決噪聲標簽的問題[37]。該網(wǎng)絡(luò)包含兩個主要部分:發(fā)生器,是一個雙重推斷網(wǎng)絡(luò),用于校正標簽和完成分割;鑒別器,用于評估校正標簽和相應(yīng)的評分。研究人員在Shining 3D牙科視頻數(shù)據(jù)集上進行了測試,隨機化選擇并標注了7800幅圖像,該模型通過標簽校正,對于牙齒形狀、相機運動和背景雜斑等帶來的噪音具有穩(wěn)健性,在實驗中能夠有效區(qū)分臉頰和牙齦,牙齒和白色護舌器。

        Farman Ali等人采用深度學(xué)習(xí)和特征融合技術(shù),設(shè)計了一套心臟病智能預(yù)測監(jiān)護系統(tǒng)。該系統(tǒng)融合了來自可穿戴設(shè)備、檢測設(shè)備和EMR中Framingham危險評分數(shù)據(jù),提出在特征選擇中采用信息增益(IG)方法來消除不相關(guān)的特征,篩選出關(guān)鍵特征,降低噪聲和數(shù)據(jù)集復(fù)雜性以及維度,從而提高了性能。該系統(tǒng)還設(shè)計了基于語義網(wǎng)規(guī)則語言(SWRL)的本體,用來自動為心臟病患者提供飲食或活動推薦[38]。

        數(shù)據(jù)中常見的另一類噪音為專家標注中的偏見引起的噪音,多標簽學(xué)習(xí)通過綜合學(xué)習(xí)多位專家的標注,可以在一定程度上克服標注中的偏見對模型的影響。多標簽學(xué)習(xí)通常分為三種類型,第一種是不考慮標簽之間的相關(guān)性,第二種是考慮標簽之間的兩兩相關(guān)性,第三是考慮標簽與其它所有標簽之間的整體相關(guān)性[39]。

        多標簽學(xué)習(xí)中,一個研究對象通常與多個標簽相關(guān)聯(lián),標簽之間存在相互關(guān)系通常難以通過原則化的方式來確定,保證標簽上標注完整性和準確性存在挑戰(zhàn),類別不平衡、不等誤分類代價等問題[40]。此外,多標簽分類算法開發(fā)、高維特征空間的降維也是目前這方面的重點問題[41]。

        Yu Shuang等人設(shè)計了一種結(jié)構(gòu)來充分利用多標注者的共識信息來提升青光眼分類效果[42]。該工作提出利用多分支結(jié)構(gòu)在三種不同的敏感度設(shè)定下產(chǎn)生預(yù)測,分別是最佳靈敏度預(yù)測、最佳特異度預(yù)測和均衡化預(yù)測。由于青光眼的病理部位集中在視盤及周邊區(qū)域,因此在預(yù)處理中,圍繞視盤中心的三個視盤直徑的區(qū)域被選擇為ROI區(qū)域,并被調(diào)整為同等尺寸。研究人員提出利用共識損失來鼓勵網(wǎng)絡(luò)對相同標簽的樣本產(chǎn)生相同預(yù)測結(jié)果,對不同標簽的樣本產(chǎn)生不同預(yù)測結(jié)果。并且,根據(jù)不同分支間預(yù)測結(jié)果的余弦相似度,可以判斷樣本的難易程度,從而讓網(wǎng)絡(luò)更聚焦于困難樣本上從而提升性能。通過這種設(shè)計,一方面可以更好地利用多標注者地標注信息,產(chǎn)生更好地結(jié)果,另一方面,該結(jié)構(gòu)能夠產(chǎn)生不同敏感度下的預(yù)測結(jié)果,也更符合臨床需求。

        由于在病理圖像領(lǐng)域中,不同專家對同一張病理圖像的判定存在較大差異,因此,面對有多專家標注的病理圖像數(shù)據(jù),如何更好地權(quán)衡不同專家的標注可信度成為了解決病理圖像分割問題的關(guān)鍵[43]。在該結(jié)構(gòu)中,權(quán)重網(wǎng)絡(luò)對每一張輸入圖片及每一位專家生成對應(yīng)的權(quán)重?zé)岫葓D。該熱度圖表示該專家在特定圖像上標注的可信度,將該熱度圖作用在損失函數(shù)上用于指導(dǎo)訓(xùn)練,從而起到了讓網(wǎng)絡(luò)更關(guān)注于高可信度標注的效果。此外,病理影像不同紋理區(qū)域在確定癌癥類型及其等級方面發(fā)揮不同作用,研究人員在模型實驗中發(fā)現(xiàn)大多數(shù)困難樣本都落在了粗糙區(qū)域,因此推測粗糙區(qū)域可能相對重要,因此提出一種高斯注意力焦點損失函數(shù)(Gaussian attention focal loss,GAFL),用以考慮到每個像素的粗糙度來作為優(yōu)化。

        Mengxing Huang等人提出一種異構(gòu)數(shù)據(jù)源臨床決策支持框架(HDS CDS),該框架整合了實驗室數(shù)據(jù)、健康病歷數(shù)據(jù)、監(jiān)測數(shù)據(jù)(心電圖數(shù)據(jù))等異構(gòu)數(shù)據(jù)源,包含實驗室數(shù)據(jù)分析、患者基本信息分析、癥狀分析、監(jiān)測數(shù)據(jù)分析四大數(shù)據(jù)分析模塊,然后通過標簽矩陣重構(gòu)模塊,利用余弦相似度計算每兩個標簽之間的相關(guān)性,構(gòu)造相似度矩陣,然后通過相似度矩陣重構(gòu)標簽矩陣,最后通過診斷模塊,利用CML kNN多標簽分類算法識別目標患者的可能疾病并輸出結(jié)果。研究人員通過該框架,收集了459例患者共計9種常見疾病的醫(yī)療健康檔案,并證明通過該框架能夠發(fā)掘疾病與年齡,疾病與疾病之間的關(guān)聯(lián),但由于多標簽條件所帶來的復(fù)雜性,該方法還需要進一步采用更好的特征選擇方法來進行特征分析,以及提高模型的計算速度[44]。

        3.3 特征融合學(xué)習(xí) 在臨床實踐中通常需要對圖像數(shù)據(jù)、檢驗數(shù)據(jù)、文本數(shù)據(jù)等多源數(shù)據(jù)進行融合以進行綜合準確的診斷?;谏疃葘W(xué)習(xí)的融合策略可分成三個層面:特征融合,指將多個輸入模態(tài)融合成一個特征向量;聯(lián)合融合,將神經(jīng)網(wǎng)絡(luò)中間層的特征表示與多模態(tài)的特征連接起來作為最終模型的輸入;決策層融合,由多個模型的預(yù)測得出最終結(jié)果[45]。

        在融合過程中,圖像融合受到傳感器、噪聲、可變性、運動偽影、對比度和分辨率等多方面因素的影響,在特征融合中,改進成像質(zhì)量和降低噪聲是提高融合質(zhì)量的關(guān)鍵,數(shù)據(jù)融合中算法具備良好的特征模型是保證融合可靠性的關(guān)鍵[46]。

        Tao Zhang等人提出了一種基于注意力機制的深度多模態(tài)融合網(wǎng)絡(luò),用于阿爾茨海默病診斷。該網(wǎng)絡(luò)能夠選擇性地從MRI和PET分支中提取特征,采用注意力模型,網(wǎng)絡(luò)能夠聚焦到感興趣區(qū)域,根據(jù)數(shù)據(jù)的重要性自動分配各模態(tài)的融合率,并進行多模態(tài)融合。為了保證多模態(tài)融合的有效性,采用了分層融合的方法,提升多模態(tài)數(shù)據(jù)間的協(xié)同作用,并證明該網(wǎng)絡(luò)能夠挖掘多模態(tài)數(shù)據(jù)中的低層和高層特征,提高AD診斷的準確率。基于該模型,研究人員進行了三種類型分類實驗:正常對照組/AD組,早期輕度認知障礙(EMCI)/晚期輕度認知障(LMCI),AD四類分型,并證明了該模型相對于標準基線算法有不同程度的明顯提升,其中,由于AD組與正常對照組的差異較為明顯,因此分類準確率也是最高的[47]。

        Dong Liu等人提出一種多層視覺特征融合(MLVSF)框架,該框架利用局部二值模式(LBP)和其變體CoLBP提取全局紋理低層特征,使用視覺詞袋獲取SIFT中層特征,使用AlexNet和VGG-16網(wǎng)絡(luò)進行CNN 特征學(xué)習(xí),該方法能夠有效地集成手工特征和深度特征各自的優(yōu)勢。研究人員在淋巴瘤數(shù)據(jù)集上測試了對CLL、FL、MCL三種類型淋巴瘤的分類性能,在組織學(xué)數(shù)據(jù)集上展開了測試,證明了該融合特征方法相對于AlexNet和VGG-16等模型在分類性能上有所提升,但也發(fā)現(xiàn)視覺詞袋模型在淋巴瘤分類中的準確率較低[48]。

        Bumjun Jung等人提出了一個基于特征提取和多模態(tài)特征融合的視覺問答任務(wù)模型(VQA),VQA模型以醫(yī)學(xué)圖像和文本問題作為輸入,輸出是模型對該問題的預(yù)測答案。該模型使用帶全局平均池(GAP)的VGG16網(wǎng)絡(luò)提取圖像特征,采用bioBERT模型編碼文本特征,該模型相比傳統(tǒng)的BERT模型,在編碼生物醫(yī)學(xué)文本方面具有更強的性能,然后通過MFH池化,并結(jié)合協(xié)同注意力機制,融合圖像特征和文本特征,最終輸出預(yù)測結(jié)果。研究人員在ImageCLEF-VQAMed-2020醫(yī)學(xué)影像數(shù)據(jù)集上展開了訓(xùn)練和測試,結(jié)果顯示該模型在測試集上準確率0.466,BLEU評分0.502[49]。

        Xiaoxin Guo等人提出一種增強的多特征融合網(wǎng)絡(luò)(EMFN),該模型屬于卷積神經(jīng)網(wǎng)絡(luò),可用于眼底圖像硬性滲出液檢測。該模型選取了眼底圖像綠色通道、形態(tài)特征(MF)、對比度受限的自適應(yīng)直方圖均衡化(CLAHE)、曲率作為輸入特征,為每種特征構(gòu)建一個單獨的分支,最后通過YOLOv3目標檢測算法獲取融合輸出結(jié)果,在一定程度上解決了常規(guī)檢測方法準確率低、效率低的問題,并排除視盤區(qū)域的干擾。研究人員同時發(fā)現(xiàn),眼底圖像綠色通道相比原始RGB圖像能夠更明顯地顯示硬滲出物的特征[50]。

        4 小結(jié)

        由于醫(yī)療數(shù)據(jù)的來源和結(jié)構(gòu)的多樣性,導(dǎo)致醫(yī)療數(shù)據(jù)普遍具有多源異構(gòu)的特點。針對這一特點,已經(jīng)有諸如數(shù)據(jù)倉庫等多種數(shù)據(jù)集成方法被提出并應(yīng)用于實際,用來集成這些多源異構(gòu)數(shù)據(jù)。另外,也有包括聯(lián)邦學(xué)習(xí)在內(nèi)的多種學(xué)習(xí)方式,用來克服多源異構(gòu)數(shù)據(jù)的缺陷,并從中學(xué)習(xí)到有用的信息。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        又紧又大又爽精品一区二区| 国产成人精品一区二区日出白浆| 亚洲不卡av二区三区四区| 日日碰日日摸日日澡视频播放| 亚洲熟女一区二区三区| 日韩区在线| 丰满少妇一区二区三区专区 | 精品久久久久久蜜臂a∨| 亚洲无人区乱码中文字幕| 国产自拍精品一区在线观看| 久久无码专区国产精品s| 99ri国产在线观看| 国产无套粉嫩白浆内精| 韩国av一区二区三区不卡| 亚洲日本中文字幕天天更新| 四虎影视久久久免费| 日本不卡一区二区三区在线观看| 精品人妻一区二区三区四区在线 | 精品久久久久久久无码| 国产精品国产三级国产an| 东北老熟女被弄的嗷嗷叫高潮| 国精品人妻无码一区免费视频电影| 亚洲熟妇色xxxxx欧美老妇y| 日韩av在线不卡一区二区三区| 日本乱码一区二区三区在线观看| 国产成人精品白浆久久69| 在线一区不卡网址观看| 国产美女高潮流的白浆久久| 国产亚洲精品久久久久5区| 国产成人无码一区二区在线观看| 久久精品熟女不卡av高清| 久久99人妖视频国产| 国产午夜福利久久精品| 免费人成黄页在线观看视频国产 | 精品女同一区二区三区不卡| 国产偷国产偷亚洲高清视频| 丰满熟妇乱子伦| 日韩在线精品在线观看| 男女视频网站在线观看| 国产一精品一av一免费| 日韩免费一区二区三区在线|