吳騁,秦嬰逸,李冬冬,王志勇
1. 海軍軍醫(yī)大學(xué) 軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室,上海 200433;2. 海軍軍醫(yī)大學(xué)第一附屬醫(yī)院 信息科,上海 200433
近年來(lái),隨著科技發(fā)展,大量機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)已被成功應(yīng)用到各個(gè)領(lǐng)域,如情感分析、推薦系統(tǒng)和人臉識(shí)別等,醫(yī)療領(lǐng)域也是其重要的研究與應(yīng)用方向之一。為了保證機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的性能,通常對(duì)數(shù)據(jù)有一些要求:訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)需來(lái)自同樣的特征空間且具有相同分布[1]。然而,醫(yī)療領(lǐng)域的數(shù)據(jù)具有多而雜、非結(jié)構(gòu)化數(shù)據(jù)占比大、專業(yè)性強(qiáng)等特點(diǎn),對(duì)醫(yī)療記錄的標(biāo)注需要熟悉診療過(guò)程的醫(yī)學(xué)專業(yè)人員的指導(dǎo),使得標(biāo)注任務(wù)繁重且周期較長(zhǎng)。因此,如果可以將其他領(lǐng)域中的知識(shí)遷移到醫(yī)療場(chǎng)景中,將帶來(lái)極大的便利。遷移學(xué)習(xí)就是為了解決此類問(wèn)題而提出的一種機(jī)器學(xué)習(xí)技術(shù)[2-4],根據(jù)分類方法主要包括三個(gè)方面:① 學(xué)習(xí)情境:歸納式遷移學(xué)習(xí)、直推式遷移學(xué)習(xí)、無(wú)監(jiān)督遷移學(xué)習(xí);② 特征空間:同構(gòu)遷移學(xué)習(xí)、異構(gòu)遷移學(xué)習(xí);③ 學(xué)習(xí)方式:基于實(shí)例的遷移學(xué)習(xí)、基于特征的遷移學(xué)習(xí)、基于模型的遷移學(xué)習(xí)、基于關(guān)系的遷移學(xué)習(xí)。
基于實(shí)例的遷移學(xué)習(xí)是遷移學(xué)習(xí)中較為簡(jiǎn)單的一種,主要通過(guò)權(quán)重重復(fù)利用源域和目標(biāo)域中的樣本,實(shí)現(xiàn)知識(shí)的遷移。它的基本假設(shè)是源域和目標(biāo)域中有一部分樣本特征相同。TrAdaboost 是基于樣本遷移學(xué)習(xí)的典型方法,在2007 年由Dai 等[5]率先提出,其主要思想是提高有利于目標(biāo)任務(wù)性能的樣本權(quán)重,降低不利于目標(biāo)任務(wù)性能的樣本權(quán)重,最終得到一個(gè)在目標(biāo)域中性能更好的模型。Yao 等[6]考慮了多個(gè)源域的知識(shí),對(duì)TrAdaboost 進(jìn)行了改進(jìn),提出多源域TrAdaboost(Multi-Source TrAdaboost,MTrA),選擇與目標(biāo)域最相關(guān)的源域知識(shí)進(jìn)行遷移,有效避免了只有一個(gè)源域而造成的負(fù)遷移問(wèn)題。Cheng 等[7]在2013 年又對(duì)MTrA 進(jìn)行了改進(jìn),提出了加權(quán)多源域TrAdaboost,將多個(gè)源域的知識(shí)進(jìn)行加權(quán)求和,進(jìn)一步提升了模型的性能。
基于特征的遷移學(xué)習(xí)方法是遷移學(xué)習(xí)中熱門的研究領(lǐng)域,主要是利用源域和目標(biāo)域中共享的特征表示,減少源域和目標(biāo)域的差距,從而提高模型在目標(biāo)域任務(wù)上的性能。根據(jù)對(duì)特征的不同處理方法,可以將其分為基于特征選擇的遷移學(xué)習(xí)方法和基于特征映射的遷移學(xué)習(xí)方法,前者是從源域和目標(biāo)域中選擇出一些共有的特征,利用這些共有特征完成知識(shí)遷移;后者一般是將源域和目標(biāo)域數(shù)據(jù)映射到同一低維空間,在這個(gè)低維空間中源域和目標(biāo)域特征接近或數(shù)據(jù)分布趨于一致,從而完成知識(shí)遷移的過(guò)程。
Uguroglu 等[8]在2011 年提出一個(gè)基于特征選擇的遷移學(xué)習(xí)方法,并將其成功的運(yùn)用在了領(lǐng)域自適應(yīng)方面,該方法主要是結(jié)合最大均值差異(Maximum Mean Discrepancy,MMD)這一統(tǒng)計(jì)量,尋找對(duì)源域和目標(biāo)域距離貢獻(xiàn)較大的一些特征。MMD 的計(jì)算如公式(1)所示,其中,F(xiàn)表示映射函數(shù)域,X={x1,x2…xm}和Y={y1,y2…ym}分別表示源域和目標(biāo)域中的數(shù)據(jù)。作者實(shí)驗(yàn)結(jié)果表明,使用特征選擇的方法建立的模型較使用所有特征建立的模型預(yù)測(cè)準(zhǔn)確率提高了30%。
Persello 等提出一種基于核的域不變特征選擇方法,該方法主要關(guān)注輸入變量X和輸出變量Y之間的特征相關(guān)性R和源域、目標(biāo)域數(shù)據(jù)集之間的偏移Θ,將使得目標(biāo)函數(shù)最小的特征作為最終的優(yōu)化目標(biāo),如公式(2)所示,其中,F(xiàn)表示特征,l表示最終特征子集的大小。
Pan 等[10]提出一種基于特征映射遷移學(xué)習(xí)的降維方法,該方法首先通過(guò)最大均值差異嵌入學(xué)習(xí)一個(gè)低維潛在空間,在該空間中源域和目標(biāo)域的分布接近,然后再使用低維空間中的數(shù)據(jù)訓(xùn)練一個(gè)傳統(tǒng)的機(jī)器學(xué)習(xí)模型,在文本分類等任務(wù)中該方法都獲得了顯著的性能提升。Dai 等[11]使用馬爾可夫鏈和最小化風(fēng)險(xiǎn)的方法建立了名為TLRisk 的“翻譯學(xué)習(xí)”方法,該方法使用語(yǔ)言模型連接源域中數(shù)據(jù)特征和數(shù)據(jù)標(biāo)簽,然后將這種關(guān)系“翻譯”到目標(biāo)域中。在文本輔助圖像的分類任務(wù)和跨語(yǔ)言分類任務(wù)中(英語(yǔ)語(yǔ)料作為源域數(shù)據(jù),德語(yǔ)語(yǔ)料作為目標(biāo)域數(shù)據(jù)),TLRisk 都獲得了不錯(cuò)的成績(jī)。
基于模型的遷移學(xué)習(xí)一般將從源域中訓(xùn)練好的模型整體或者一部分遷移到目標(biāo)域中使用,基本假設(shè)是源域和目標(biāo)域共享模型的參數(shù),因此又被稱為基于參數(shù)的遷移學(xué)習(xí)。近年來(lái),神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)領(lǐng)域發(fā)展迅速,出現(xiàn)了很多性能優(yōu)良的深度學(xué)習(xí)模型,因此很多基于模型的遷移學(xué)習(xí)方法都與深度學(xué)習(xí)技術(shù)相結(jié)合。2014 年,Yosinski 等[12]基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型進(jìn)行了深度學(xué)習(xí)模型的可遷移性研究,利用AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)逐層遷移并微調(diào)對(duì)比研究,結(jié)果證明基于模型的遷移學(xué)習(xí)方法是有效的,并且深度學(xué)習(xí)模型中前幾層學(xué)習(xí)到的為普遍特征,對(duì)前幾層進(jìn)行遷移的效果比較好。此后,神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)相結(jié)合的遷移學(xué)習(xí)方法受到越來(lái)越多研究者的關(guān)注。Gretton 等[13]對(duì)MMD 進(jìn)行了改進(jìn),提出了多核MMD(Multiple-kernel MMD,MK-MMD),為后續(xù)的許多研究工作提供了基礎(chǔ)。Long 等[14]將MK-MMD與CNN 結(jié)合,提出了深度適應(yīng)性網(wǎng)絡(luò)(Deep Adaptation Network,DAN)。實(shí)驗(yàn)證明,多核方法相比于單核方法具有更強(qiáng)的適應(yīng)性,DAN 可以得到無(wú)偏的深度特征。DAN的基本結(jié)構(gòu)如圖1 所示。固定了AlexNet 網(wǎng)絡(luò)中前兩個(gè)卷積層不動(dòng),對(duì)第三、四和五個(gè)卷積層進(jìn)行了微調(diào),同時(shí)在最后的三個(gè)全連接層中增加了MK-MMD 算法來(lái)降低源域和目標(biāo)域的差異。Long 等[15]在2017 年提出將聯(lián)合MMD 與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的聯(lián)合適應(yīng)網(wǎng)絡(luò)算法,在CNN 的特定任務(wù)相關(guān)層使用聯(lián)合分布來(lái)學(xué)習(xí)深度特征,提升模型性能。
圖1 DAN結(jié)構(gòu)圖
基于關(guān)系的遷移學(xué)習(xí)方法的基本假設(shè)是源域和目標(biāo)域共享某種邏輯網(wǎng)絡(luò)關(guān)系,目前基于關(guān)系的遷移學(xué)習(xí)方法研究較少,多數(shù)為基于馬爾可夫網(wǎng)絡(luò)的模型。Davis 等[16]基于二階馬爾可夫邏輯方法,建立了一個(gè)深度遷移學(xué)習(xí)模型,該模型用帶謂詞變量的馬爾可夫邏輯公式發(fā)現(xiàn)源域中的結(jié)構(gòu)規(guī)則,再用目標(biāo)域中的謂詞實(shí)例化這些公式,從而完成關(guān)系的遷移過(guò)程。
醫(yī)療領(lǐng)域中的數(shù)據(jù)量非常龐大、數(shù)據(jù)類型多樣,多數(shù)為非結(jié)構(gòu)化數(shù)據(jù),且具有較強(qiáng)的專業(yè)性,因此標(biāo)注醫(yī)療數(shù)據(jù)作為訓(xùn)練語(yǔ)料需要耗費(fèi)大量的精力。而使用遷移學(xué)習(xí)方法將其他領(lǐng)域中的相關(guān)知識(shí)遷移到醫(yī)療場(chǎng)景中,有助于解決這一問(wèn)題。
醫(yī)療文本數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),不利于分析研究,遷移學(xué)習(xí)技術(shù)已被用于文本信息抽取、醫(yī)療命名實(shí)體識(shí)別等研究領(lǐng)域,提高醫(yī)療文本預(yù)處理的效率和性能,為醫(yī)療文本數(shù)據(jù)的后續(xù)分析利用奠定良好的基礎(chǔ)。
Wankhade 等[17]提出一種基于二等分K 均值聚類算法的無(wú)監(jiān)督遷移學(xué)習(xí)技術(shù),用于將患者非結(jié)構(gòu)化的病理化驗(yàn)報(bào)告中的信息抽取出來(lái),進(jìn)而進(jìn)行疾病預(yù)測(cè)。該研究首先將一些疾病名稱、結(jié)構(gòu)化的疾病檢查數(shù)據(jù),包括一些參考值范圍等,輸入到二等分K 均值算法中進(jìn)行聚類;之后將學(xué)到的知識(shí)遷移到對(duì)非結(jié)構(gòu)化病理化驗(yàn)報(bào)告的處理中,最終可以判斷患者的疾病類型。Wang 等[18]提出了一種標(biāo)簽感知的跨專業(yè)遷移學(xué)習(xí)(Label-aware Double Transfer Learning,La-DTL))命名實(shí)體識(shí)別框架,La-DTL 結(jié)合雙向長(zhǎng)短記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)對(duì)源域和目標(biāo)域數(shù)據(jù)進(jìn)行標(biāo)注,使用MMD 的改進(jìn)方法——標(biāo)簽感知MMD 減小兩個(gè)領(lǐng)域中相同標(biāo)簽特征間的差距,同時(shí)使用KL 散度上限來(lái)尋找源域和目標(biāo)域中可貢獻(xiàn)的參數(shù)。Newman 等[19]使用不同領(lǐng)域數(shù)據(jù)訓(xùn)練得到的詞向量作為基于循環(huán)神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別模型的初始化向量值,從而進(jìn)行遷移學(xué)習(xí),結(jié)果顯示,使用聯(lián)合和預(yù)初始化[20]等遷移學(xué)習(xí)方法使模型獲得了最佳的F1 值。
基于文本數(shù)據(jù)進(jìn)行疾病診斷預(yù)測(cè)模型的構(gòu)建是醫(yī)療領(lǐng)域中的熱門研究領(lǐng)域。遷移學(xué)習(xí)技術(shù)在已被用于基于文本數(shù)據(jù)對(duì)白血病、輕度認(rèn)知障礙、阿爾茲海默癥等疾病的診斷中。
2.2.1 遷移學(xué)習(xí)技術(shù)在白血病診斷中的應(yīng)用案例
白血病是一種嚴(yán)重的血液疾病,常導(dǎo)致患者出現(xiàn)一些嚴(yán)重的癥狀甚至導(dǎo)致患者死亡[21]。Vogado 等[22]提出一種基于CNN 和支持向量機(jī)(Support Vector Machines,SVM)的白血病診斷系統(tǒng),系統(tǒng)將已訓(xùn)練好的CNN 如AlexNet[23]、Vgg-f[24]和CaffeNet[25]遷移到白血病診斷任務(wù)中來(lái)提取患者病歷血片中的信息,然后使用信息增益比算法來(lái)做特征選擇,最終將信息輸入到SVM 中來(lái)進(jìn)行白血病的診斷,結(jié)果顯示該方法的準(zhǔn)確率達(dá)到99%。
2.2.2 遷移學(xué)習(xí)技術(shù)在輕度認(rèn)知障礙診斷中的應(yīng)用案例
阿爾茲海默癥是一種老年人?;嫉纳窠?jīng)系統(tǒng)退行性疾病,又稱為老年癡呆,早期診斷和治療可以有效地延緩阿爾茲海默癥的發(fā)生[26]。輕度認(rèn)知障礙往往是阿爾茲海默癥的前驅(qū)階段[27],輕度認(rèn)知障礙患者很有可能發(fā)生阿爾茲海默癥。Cheng 等[28]在2013 年利用基于特征映射的遷移學(xué)習(xí)方法將阿爾茲海默癥患者和正常參照組的信息遷移到輕度認(rèn)知障礙的診斷問(wèn)題上,提出一種領(lǐng)域遷移支持向量機(jī)算法(Domain Transfer Support Vector Machines,DTSVMs),該算法主要包含兩個(gè)部分:一是跨領(lǐng)域核函數(shù)遷移源域的知識(shí),二是跨領(lǐng)域知識(shí)融合的適應(yīng)性SVM 構(gòu)建,最終該算法在測(cè)試集上的AUC 值為0.736,超過(guò)了SVMs和LapSVMs 的AUC 值,分別為0.683 和0.626。
2.2.3 遷移學(xué)習(xí)技術(shù)在阿爾茲海默癥診斷中的應(yīng)用案例
Cheng 等[29]又利用基于特征選擇的遷移學(xué)習(xí)方法,將多個(gè)源域的知識(shí)遷移到阿爾茲海默癥的早期診斷問(wèn)題上,提出了多領(lǐng)域遷移學(xué)習(xí)框架(Multi-Domain Transfer Learning,MDTL)。作者對(duì)比了MDTL 與MTFS[30],M2TFS[31]和Lasso 算法在阿爾茲海默癥診斷問(wèn)題上的效果,結(jié)果顯示MDTL 的準(zhǔn)確率可達(dá)0.947,超過(guò)了M2TFS 的0.915、MTFS 的0.907,以及Lasso 的0.879。
醫(yī)療圖像中包含了豐富的信息,可幫助臨床醫(yī)生對(duì)就診者的健康或疾病狀況做出判斷。近年來(lái),遷移學(xué)習(xí)技術(shù)已被用于基于圖像對(duì)乳糜瀉、青光眼等疾病的診斷中。
Wimmer 等[32]將在圖像分類數(shù)據(jù)集ImageNet 上訓(xùn)練好的CNN 模型遷移到乳糜瀉的診斷上面,對(duì)比了只將CNN作為圖像特征提取器而不做微調(diào)、微調(diào)CNN 的全連接層和微調(diào)整個(gè)CNN 模型等三種模型的預(yù)測(cè)效果,結(jié)果顯示微調(diào)整個(gè)CNN 模型,使用SVM 和CNN 的SoftMax 層作為最后的分類器均能取得最佳效果。Asaoka 等[33]基于光學(xué)黃斑斷層掃描眼底圖像建立了一個(gè)青光眼早期診斷的遷移學(xué)習(xí)模型。該方法首先使用一個(gè)規(guī)模較大的眼底圖像數(shù)據(jù)集預(yù)訓(xùn)練了一個(gè)CNN 模型,之后使用小型的訓(xùn)練集對(duì)其進(jìn)行微調(diào),最終該模型的AUC 值達(dá)到了0.937,超過(guò)了直接使用兩個(gè)數(shù)據(jù)集訓(xùn)練得到的AUC 值0.782。
通過(guò)語(yǔ)音進(jìn)行疾病診斷目前在醫(yī)療領(lǐng)域中的研究較少,隨著其他領(lǐng)域語(yǔ)音分析研究的發(fā)展,也為遷移學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用提供了一個(gè)未來(lái)可關(guān)注的研究方向。
Banerjee 等[34]將深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)和遷移學(xué)習(xí)策略相結(jié)合,提出了一個(gè)基于語(yǔ)音信號(hào)的創(chuàng)傷后應(yīng)激障礙(Post-Traumatic Stress Disorder,PTSD)診斷模型。該模型首先使用一個(gè)大型的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)訓(xùn)練DBN 模型,再將其遷移到PTSD 的診斷任務(wù)中,結(jié)果顯示遷移學(xué)習(xí)方法可以將DBN 模型的PTSD 診斷準(zhǔn)確率從61.53%提上到74.99%,超過(guò)目前最優(yōu)的SVM 的準(zhǔn)確率57.68%。
遷移學(xué)習(xí)是一種可以將源域中的知識(shí)遷移到目標(biāo)域任務(wù)上的機(jī)器學(xué)習(xí)方法,可以較好地適應(yīng)醫(yī)療領(lǐng)域缺乏足夠的有標(biāo)簽訓(xùn)練樣本的狀況。本文按照遷移學(xué)習(xí)方式的分類,分別介紹了基于實(shí)例的遷移學(xué)習(xí)、基于特征的遷移學(xué)習(xí)、基于模型的遷移學(xué)習(xí)和基于關(guān)系的遷移學(xué)習(xí)方法及其特點(diǎn),回顧了近年來(lái)的研究進(jìn)展,并重點(diǎn)介紹了遷移學(xué)習(xí)技術(shù)在醫(yī)療領(lǐng)域中的應(yīng)用,為后續(xù)醫(yī)療領(lǐng)域中遷移學(xué)習(xí)的研究提供了參考。醫(yī)療領(lǐng)域的數(shù)據(jù)專業(yè)性較強(qiáng),目前針對(duì)醫(yī)療領(lǐng)域的遷移學(xué)習(xí)理論方面的研究相對(duì)缺乏,應(yīng)針對(duì)醫(yī)療數(shù)據(jù)特點(diǎn)與擬研究問(wèn)題開發(fā)更加高效的遷移學(xué)習(xí)方法,開展大規(guī)模前瞻性研究評(píng)價(jià)遷移學(xué)習(xí)在處理醫(yī)療問(wèn)題中的實(shí)際效果。隨著基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)的發(fā)展與應(yīng)用,遷移學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法已經(jīng)受到越來(lái)越多的關(guān)注,其在醫(yī)療領(lǐng)域也將發(fā)揮越來(lái)越重要的作用。