譚 鴻,巴 偉,李承新
傳統(tǒng)的醫(yī)療模式需要醫(yī)生一對(duì)一的診治患者,不僅耗費(fèi)大量的人力物力,且無(wú)法滿足日益增長(zhǎng)的醫(yī)療服務(wù)需求。而隨著大數(shù)據(jù)時(shí)代的到來(lái)和計(jì)算能力與云儲(chǔ)存能力的顯著增強(qiáng),人工智能(artificial intelligence,AI)的發(fā)展,特別是深度學(xué)習(xí)(deep learning,DL)技術(shù)的進(jìn)步使得通過(guò)智能診斷系統(tǒng)實(shí)現(xiàn)輔助診治成為可能。本文將通過(guò)分析深度學(xué)習(xí)的應(yīng)用原理及在皮膚圖像分類中的最新進(jìn)展,探討深度學(xué)習(xí)應(yīng)用于皮膚病分類識(shí)別的優(yōu)點(diǎn)與不足。
深度學(xué)習(xí)最早由Hinton等[1]在2006年提出,通過(guò)模仿人類神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)圖像、聲音、文本等數(shù)據(jù)進(jìn)行解釋。深度學(xué)習(xí)是一種具有多層表征的表征學(xué)習(xí)方法,通過(guò)組合簡(jiǎn)單但非線性的模塊來(lái)獲得分類特征,每個(gè)模塊將一個(gè)級(jí)別的表征(從原始信號(hào)輸入開(kāi)始)轉(zhuǎn)換為一個(gè)更高級(jí)別、更抽象的表征,最后通過(guò)綜合多個(gè)高級(jí)特征來(lái)輸出結(jié)果。與傳統(tǒng)的機(jī)器學(xué)習(xí)需要人為提取特征不同,深度學(xué)習(xí)的關(guān)鍵是這些特征是深度學(xué)習(xí)算法自動(dòng)分析及提取的。
深度學(xué)習(xí)是一個(gè)框架,包含多個(gè)重要算法:卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、稀疏編碼(sparse coding)、限制波爾茲曼機(jī)(restricted boltzmann machine,RBM)、自動(dòng)編碼器(autoencoder)、深信度網(wǎng)絡(luò)(deep belief networks,DBN)、多層反饋循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。不同的算法適用于處理不同的數(shù)據(jù)類型(圖像、聲音、文本)。CNN最早由LeCun提出并應(yīng)用在手寫(xiě)字體識(shí)別上(圖1)[2,3],適用于圖像識(shí)別與圖像分類。2012年,CNN在ImageNet(世界上最大的圖像識(shí)別數(shù)據(jù)庫(kù))大賽上奪冠,表現(xiàn)出強(qiáng)大的圖像識(shí)別能力。CNN也包含多種模型,如AlexNet、VGG、GoogleNet、ResNet等,均已被證實(shí)在圖像識(shí)別和分類中有著良好表現(xiàn)[4-8]。
近年來(lái),隨著AI技術(shù)的發(fā)展和大數(shù)據(jù)中心的建立,CNN在醫(yī)學(xué)圖像識(shí)別領(lǐng)域的應(yīng)用成為研究熱點(diǎn)。CNN是一種“端對(duì)端”模型,即輸入圖像便能輸出類別。通過(guò)使用已經(jīng)標(biāo)識(shí)醫(yī)學(xué)圖像資源,深度學(xué)習(xí)在放射學(xué)[9,10]、病理學(xué)[11,12]、眼科學(xué)[13]、心臟病學(xué)[14]等領(lǐng)域已取得了一系列突破。作為一門高度依賴形態(tài)學(xué)的學(xué)科,皮膚圖像在皮膚病的診斷中發(fā)揮著重要作用。皮膚科醫(yī)生除了借助肉眼可視圖像(臨床圖像)外,還可以通過(guò)皮膚鏡、皮膚超聲、皮膚CT、皮膚光學(xué)相干層析成像(optical coherence tomography,OCT)、皮膚組織病理檢查等技術(shù)來(lái)輔助診斷。通過(guò)已標(biāo)記的皮損圖像,深度學(xué)習(xí)可充分挖掘數(shù)據(jù)、提取特征并對(duì)皮損進(jìn)行分類。
圖1 經(jīng)典的LeNet-5結(jié)構(gòu)識(shí)別手寫(xiě)字體示意圖
臨床圖像具有易獲得、成本低的優(yōu)點(diǎn),已累積的龐大數(shù)據(jù)量保證了深度學(xué)習(xí)在臨床圖像分類中的可行性。但相較于皮膚鏡圖像、皮膚組織病理圖像而言,臨床圖像并不是標(biāo)準(zhǔn)化的圖像,拍攝角度的不同、曝光程度的差異、周圍毛發(fā)的干擾與背景皮膚的凹凸不平對(duì)深度學(xué)習(xí)的分類識(shí)別存在或多或少的干擾,這些干擾限制了深度學(xué)習(xí)在臨床圖像上的應(yīng)用。人為剔除干擾較大的圖像是目前通用的研究方法,未來(lái)研究可能會(huì)通過(guò)某些干擾處理方式來(lái)增強(qiáng)深度學(xué)習(xí)的應(yīng)用能力,如用于識(shí)別耳郭、鼻翼、眼角等凹凸不平或毛發(fā)遮蓋部位的皮膚腫物等。2017年1月,斯坦福大學(xué)人工智能實(shí)驗(yàn)室使用經(jīng)過(guò)ImageNet預(yù)訓(xùn)練的v3 CNN模型對(duì)近129 450張臨床和皮膚鏡圖像進(jìn)行自動(dòng)分類,涉及2 032種不同皮膚病,使用樹(shù)狀分類法將疾病分為惡性腫瘤、良性腫瘤和非腫瘤性皮膚病,并逐級(jí)往下分類至互斥的各種疾病。21名美國(guó)認(rèn)證皮膚科醫(yī)生的表現(xiàn)至少與一種算法相匹配,該算法對(duì)皮膚惡性腫瘤和黑素瘤的曲線下面積(area under the curve,AUC)分別為0.96和0.94[15]。2018年Han等[16]使用ResNet125模型對(duì)12種皮膚腫物共計(jì)19 398幅臨床圖像進(jìn)行了分類,包括基底細(xì)胞癌、鱗狀細(xì)胞癌和黑素瘤等,該算法對(duì)各種皮膚腫物的AUC為0.82~0.96,其中黑素瘤的AUC為0.96,與16名皮膚科醫(yī)生水平相當(dāng)。上述兩項(xiàng)研究均采用了人機(jī)對(duì)抗的方法,機(jī)器(深度學(xué)習(xí))達(dá)到了與皮膚科醫(yī)生相當(dāng)?shù)乃剑@示出了深度學(xué)習(xí)在臨床圖像分類中具有良好的應(yīng)用價(jià)值和前景。其后一批韓國(guó)學(xué)者使用ECOC SVM分類器與經(jīng)過(guò)預(yù)訓(xùn)練的AlexNet模型對(duì)3 753幅臨床圖像進(jìn)行了分類,對(duì)鱗狀細(xì)胞癌、光線性角化病、基底細(xì)胞癌、黑素瘤的敏感性、特異性均在90%以上[17]。
皮膚鏡圖像作為觀察皮膚色素性疾病的利器,對(duì)皮膚病的診斷有著重要意義。由于皮膚鏡圖像較臨床圖像更為標(biāo)準(zhǔn),使其成為深度學(xué)習(xí)研究的熱點(diǎn)。國(guó)際皮膚影像合作組織(international skin imaging collaboration,ISIC)的公開(kāi)數(shù)據(jù)庫(kù)集合了超過(guò)13 000幅從不同臨床中心收集的皮膚鏡圖像,在其2016年舉辦的黑素瘤皮膚鏡診斷競(jìng)賽中,38個(gè)單位提供的79種深度學(xué)習(xí)算法參賽,排名前5的預(yù)測(cè)模型平均準(zhǔn)確率在81%~84%[18,19]。2017年Thao和Quang[20]使用經(jīng)過(guò)ImageNet預(yù)訓(xùn)練的VGG-16模型對(duì)ISIC 2017挑戰(zhàn)集(包含2 000幅訓(xùn)練圖像及600幅測(cè)試圖像)的皮膚鏡圖像進(jìn)行分類,對(duì)黑素瘤的平均AUC為0.816。2018年Haenssle等[21]訓(xùn) 練 的v4 CNN模型與58名皮膚科醫(yī)生(其中30名是皮膚鏡專家)對(duì)100幅皮膚鏡圖像(包括黑素瘤、色素痣以及其他類似黑素瘤的皮損)進(jìn)行分類。皮膚科醫(yī)生分別在缺乏及知曉臨床資料的情況下對(duì)圖像進(jìn)行分類,取得的平均AUC水平均低于CNN,表明CNN在皮膚鏡圖像分類方面已超越人類水平。美國(guó)伊利諾斯大學(xué)的科研人員提出了一個(gè)多卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN),他們將數(shù)據(jù)庫(kù)中的皮膚鏡圖像分為惡性和良性皮膚腫物,對(duì)CNN模型進(jìn)行訓(xùn)練及測(cè)試,為了提高模型在錯(cuò)誤分類圖像上的準(zhǔn)確率,重復(fù)以錯(cuò)誤圖像為模型提供附加訓(xùn)練。利用ISIC 2016數(shù)據(jù)集對(duì)該研究所提出的深度學(xué)習(xí)模型進(jìn)行了訓(xùn)練和測(cè)試。結(jié)果表明,該模型在訓(xùn)練和測(cè)試方面的有效性分別為0.98和0.81[22]。德克薩斯大學(xué)休斯頓健康科學(xué)中心聯(lián)合北京協(xié)和醫(yī)學(xué)院使用GoogleNet Inception v3模型對(duì)色素痣、脂溢性角化病、基底細(xì)胞癌和銀屑病4種常見(jiàn)疾病進(jìn)行了分類,對(duì)數(shù)據(jù)集A(1 067幅皮膚鏡圖像)的精確度為(86.54±3.63)%,數(shù)據(jù)集B(528幅皮膚鏡圖像)的精確度為(85.86±4.65)%[23]。Kaymak等[24]使用兩步分類法對(duì)皮膚腫物進(jìn)行分類:第一步是將皮膚腫物區(qū)分為黑素細(xì)胞病變和非黑素細(xì)胞病變;第二步是將黑素細(xì)胞病變區(qū)分為黑素瘤和良性黑素細(xì)胞病變,非黑素細(xì)胞病變包括基底細(xì)胞癌、光線性角化病、良性角化病、皮膚纖維瘤和血管病變等。訓(xùn)練出的AlexNet模型的準(zhǔn)確性為58%,靈敏度為60.6%,特異性為57.8%。另外一項(xiàng)人機(jī)對(duì)抗研究共分析了724幅皮膚鏡圖像,包括黑素瘤(81例患者的350幅圖像)和色素痣(194例患者的374幅圖像),均經(jīng)組織病理學(xué)檢查證實(shí)。為了進(jìn)行雙重交叉驗(yàn)證,Yu等[25]將它們分成兩個(gè)互相排斥的子集:一半的圖像數(shù)據(jù)集被選擇進(jìn)行訓(xùn)練,其余的被選擇進(jìn)行測(cè)試,并且與皮膚科專家和非專家的準(zhǔn)確性進(jìn)行比較。深度神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性分別為83.51%和80.23%,高于非專家的準(zhǔn)確性(67.84%,62.71%),接近專家的準(zhǔn)確性(81.08%,81.64%),其AUC值也與專家接近。北京協(xié)和醫(yī)院的王詩(shī)琪等[26]使用經(jīng)過(guò)5 094幅色素痣和脂溢性角化病的皮膚鏡圖像遷移訓(xùn)練的ResNet-50二分類模型對(duì)30幅色素痣和30幅脂溢性角化病的皮膚鏡圖像進(jìn)行分類,與95名經(jīng)過(guò)皮膚鏡培訓(xùn)的皮膚科醫(yī)師判讀結(jié)果進(jìn)行比較,準(zhǔn)確率差異無(wú)統(tǒng)計(jì)學(xué)意義。
深度學(xué)習(xí)的應(yīng)用跟數(shù)據(jù)量有很大關(guān)系,目前深度學(xué)習(xí)在皮膚圖像分類中的應(yīng)用主要集中在臨床圖像與皮膚鏡圖像中。近兩年也有將深度學(xué)習(xí)應(yīng)用于光學(xué)相干斷層掃描(optical coherence tomography,OCT)圖像及組織病理圖像的報(bào)道。OCT是近十年迅速發(fā)展起來(lái)的一種新興成像技術(shù),它利用弱相干光干涉儀的基本原理,得到生物組織的二維或三維結(jié)構(gòu)圖像。目前OCT在皮膚科應(yīng)用相對(duì)較少,獲得的數(shù)據(jù)有限,使得人工識(shí)別OCT圖像中的異常結(jié)構(gòu)或細(xì)胞十分困難。而通過(guò)深度學(xué)習(xí)自動(dòng)分析及提取OCT圖像中的關(guān)鍵特征便具有了重大意義。2018年Mandache等[27]訓(xùn)練了一個(gè)10層的CNN模型,利用40幅全層OCT圖像檢測(cè)基底細(xì)胞癌,CNN取得了95.2%的特異度及96.54%的靈敏度,表明深度學(xué)習(xí)在OCT圖像分類識(shí)別中具有良好前景。盡管深度學(xué)習(xí)已在肺癌、乳腺癌的組織病理分類中取得了一些成績(jī),但在皮膚病的組織病理圖像中應(yīng)用較少。2019年,Hekler等[28]使用了345幅黑素瘤及350幅色素痣的病理圖像,以其中隨機(jī)100幅組織病理圖像(黑素瘤:色素痣=1:1)作為測(cè)試集,其余圖片作為訓(xùn)練集,重復(fù)10次檢測(cè)后得到已接受預(yù)訓(xùn)練的ResNet50的平均分類錯(cuò)誤率在黑素瘤中為18%,在色素痣中為20%,全套圖像的分類錯(cuò)誤率為19%。而文獻(xiàn)報(bào)道的不同病理專家對(duì)黑素瘤和色素痣的診斷不一致率達(dá)到25%[29],說(shuō)明深度學(xué)習(xí)對(duì)黑素瘤組織病理學(xué)診斷存在潛在幫助。
深度學(xué)習(xí)在皮膚病領(lǐng)域還處于研究階段,尚未完全實(shí)現(xiàn)臨床應(yīng)用。限制深度學(xué)習(xí)應(yīng)用的主要障礙是數(shù)據(jù)量的不足與診斷標(biāo)準(zhǔn)的不統(tǒng)一。數(shù)據(jù)量的不足影響了深度學(xué)習(xí)的準(zhǔn)確性,想實(shí)現(xiàn)少見(jiàn)病的臨床應(yīng)用則更加困難。常見(jiàn)病診斷標(biāo)準(zhǔn)的不同,也進(jìn)一步限制了深度學(xué)習(xí)的臨床應(yīng)用,特別是皮膚組織病理的診斷與分類,在世界范圍內(nèi)尚存在較大差異,能否提出一個(gè)共同的疾病分類診斷標(biāo)準(zhǔn)使之能應(yīng)用到深度學(xué)習(xí)上還有待探討。
隨著大數(shù)據(jù)時(shí)代的到來(lái),在皮膚病領(lǐng)域建立一個(gè)盡可能全面、標(biāo)準(zhǔn)的人工智能診斷系統(tǒng)是可行并具有重大意義的。而建立一個(gè)更全面、更標(biāo)準(zhǔn)的皮膚病智能診斷系統(tǒng)還需要多中心、多學(xué)科的不斷交流與一定量的數(shù)據(jù)積累。期望未來(lái)當(dāng)人工智能面向全人類的時(shí)候,患者能夠通過(guò)人工智能醫(yī)學(xué)平臺(tái)實(shí)現(xiàn)快速就醫(yī)和初步診斷。而未來(lái)的皮膚病智能診斷系統(tǒng)不僅僅將提供診斷,還將提供輔助檢查、治療、藥物輸送、預(yù)后及健康教育等一系列服務(wù)。