李昊軒
(山東省龍口第一中學,山東煙臺,264000)
深度學習是近十年興起并飛速發(fā)展的一種仿生學技術。關于深度學習,其起源是人工神經(jīng)網(wǎng)絡,但由于其的諸多弊端,漸漸沒落。直到2006年,隨著科技的進一步發(fā)展和完善,一位學者提出深度學習這一思想,進而受到更多學者專家重視,深度學習開始興起,慢慢的深度學習被廣泛應用到包含計算機計算處理、部分商業(yè)等眾多領域且皆獲得可觀成績。深度學習相對傳統(tǒng)淺層學習會更加的復雜,因為其層次結(jié)構會更深一些,也正是因此,有利于其更好的對某些特征有重點進行學習。將大量的數(shù)據(jù)輸入,使計算機進行深度學習的訓練,進而便可提取獲得這些數(shù)據(jù)中相同特征。由深度學習完成這一任務,相較于傳統(tǒng)方法將會更容易。由于屢次立下大功,深度學習已成為業(yè)內(nèi)學者關注熱點,前景明亮廣闊,這將會再為機器學習領域翻開一頁新篇章。
圖像分割是把圖像內(nèi)容作分類、作描述、作識別等作為任務的圖像分析的最重要基礎,所有的特征提取、目標識別、圖像識別和場景解析等圖像有關工作都需要先保證好它們上一步圖像分割的質(zhì)量。此項技術從從20世界70年代左右就引起領域?qū)W者們的高度重視,發(fā)展至今,閾值分割法[1]、邊緣檢測法、區(qū)域提取分割法和結(jié)合特定理論工具4大類型的圖像分割方式是最為當代學者所熟知和常用的。但該課題還是擁有一定難度和深度。
圖像處理往往是離不開圖像分割的。近年來涌現(xiàn)出一大批新的不同的分割方法,但是始終沒有找到一個既通用又足夠便捷方法,學界也沒能有明確的判斷分割結(jié)果好壞的合理標準[2]。
一張醫(yī)學圖像所包含的信息量是十分巨大的,但是當醫(yī)生做診斷的時候,只需要其中一小部分組織或某一片特點區(qū)域的數(shù)據(jù),進行分析和斷定病變情況。然而由于檢測設備和設備工作原理的不同,醫(yī)學圖像上難免會出現(xiàn)噪點,如果噪點過多,將會對做診斷的醫(yī)生造成極大的阻礙,且增大的誤診幾率,誤診的后果于醫(yī)于患都是難以承擔的[3]。于是將圖像分割應用到醫(yī)學領域引起計算機界和醫(yī)學界學者們的高度關注。以下列出醫(yī)學圖像分割幾點優(yōu)勢:
(1)將人體內(nèi)器官,組織,病變部位等從醫(yī)學圖像中分割出來,并對其進行尺寸距離進行精準測量,將對醫(yī)生準確確診進行病狀分析,為患者高效準確作出治療方案提供技術支持。
(2)為人體內(nèi)的三維重建提供材料素材,進而在手術過程中為醫(yī)生提供輔助,可大大減少手術風險,為醫(yī)生手術時減輕負擔。
(3)醫(yī)學圖像分割還可去除圖像中大量無用信息,只將有需求部分分割出來。這可以在不壓縮圖像的基礎上,減少圖片的數(shù)據(jù)數(shù)量,提高了效率和醫(yī)療水平。
閾值分割法是最早、最簡單的一種分割方法。這里主要有兩種方法:其一、圖像中要識別物與背景在灰度值上差異懸殊,這時就該采用全局閾值分割的方法[4]。其二,當圖像各個部分灰度差異并不明顯或圖像多處灰度值相當?shù)臅r候,就該用局部的閾值分割取代全局的閾值分割。
對于閾值分割來說,其優(yōu)點是計算過程避免了其他方式的冗雜,進行運算工作的速度大大提高;但凡事皆有兩面性,其缺點也很明顯,主要表現(xiàn)為灰度值差異不明顯時分割不當,抗噪性能差。
邊緣檢測分割法是通過檢測邊界的方法來進行的圖像分割[5]。由于一張圖片中灰度突變最明顯的地方在不同區(qū)域的邊緣,利用這一點便可進行圖像分割。利用邊緣檢測分割法的要點在于協(xié)調(diào)好檢測精度和抗噪性能的相互作用。
基于區(qū)域的圖像分割的操作原理是通過連接輸入原圖像中大量相似像素點,通過后續(xù)處理生成分割結(jié)果。其優(yōu)點是分割后的圖像在空間上是可以保證連續(xù)的,分割空間大。為人熟知的主要有區(qū)域生長和區(qū)域合并與分離的分割方法。該方法也有缺點,對大區(qū)域分割速度慢,抗噪性能差,可能過度分割。
綜合上文所述,這些傳統(tǒng)的方法進行的圖像分割雖各有優(yōu)點,但是這些圖像分割方法的弊端也不容小覷,但是基于深度學習的圖像分割方法卻可以將優(yōu)點最大化,相對于傳統(tǒng)方法大大縮小了其局限性影響。
2015年UC Berkeley的Jonathan Long等人提出了全卷積神經(jīng)網(wǎng)絡(FCN)[1]應用到圖像分割領域。FCN由此誕生。
全卷積神經(jīng)網(wǎng)絡(FCN)與卷積神經(jīng)網(wǎng)絡(CNN)差別之處就在于全卷積神經(jīng)網(wǎng)絡(FCN)將卷積神經(jīng)網(wǎng)絡經(jīng)過卷積、池化的全連接層轉(zhuǎn)化成一個個卷積層。
我們可以知道,在卷積神經(jīng)網(wǎng)絡過程中,第1層到第5層皆為我們熟悉的卷積層,后面的第6層和第7層是擁有一定長度的一維向量,到了第8層時,則轉(zhuǎn)變?yōu)橐惠^短的一維向量,進而通過全聯(lián)接層+softmax輸出結(jié)果。而FCN則是把最后3層皆轉(zhuǎn)為卷積層,這就意味著該方法是由卷積層組成的,而不存在CNN中一維向量,全卷積神經(jīng)網(wǎng)絡網(wǎng)絡(FCN)的名稱也就由此而來。
根據(jù)圖像,我們不難發(fā)現(xiàn),多次的卷積和池化是會犧牲圖像大小、圖像分辨率的。那么FCN應該怎樣在這種情況下繼續(xù)完成圖像中各個像素點相關的分類呢?為了解決這個重大問題,F(xiàn)CN又使用了upsample(上采樣)的方法。簡單來說,即池化的逆過程,所以池化也可以說為下采樣。既然池化的結(jié)果是數(shù)據(jù)的數(shù)量變少,那么不難理解上采樣起到的效果就是讓數(shù)據(jù)的數(shù)量變大,以起到解決問題的目的。
圖1為上采樣示意圖。
作者在原論文中首先嘗試將第五層輸出反卷積到原圖的大小(所進行的是32倍放大),但是該輸出結(jié)果是不夠達到高度精確這一標準的,細節(jié)也有損失之處。面對這一問題,作者將反卷積過程又擴展到了第四層和第三層,最終結(jié)果不夠精準精細的問題也大大減輕了。
圖1 上采樣示意圖
請看下圖有關 32倍,16倍,8倍,三個上采樣過程如圖2所示。圖3為不同上采樣的FCN結(jié)果。
圖2 FCN中的上采樣
圖3 不同上采樣的結(jié)果
首先輸入的原圖像再進行多次卷積操作和池化的操作(通過池化的過程可以使圖像縮小為原大小的一半)。圖中的nx為特征圖進行放大n倍,而不是代指其有n個特征圖。
圖4中第一行代表FCN-32s;第二行代表FCN-16s;第三行代表FCN-8s。
圖4 FCN示意圖
現(xiàn)在通過第一行,我們介紹上采樣具體過程,只需關注第一行即可。這里有5個池化層,卷積7的特征圖為原圖像的1/32,在FCN的卷積中圖像大小不會受到影響而改變,像素難免會有損失,但是特征圖基本上是不會受到太大影響的。再通過32x的下采樣,圖像大小重新變回32x32。在這里加入一卷積將其大小進行擴大。若此卷積核的大小也恰好是為32,那需要反饋訓練1024(32x32)個權重便可以完成一個32x的上采樣,也就是反卷積。
類似的,我們也就能了解到16倍和8倍操作的具體過程,原理同32倍是大同小異的。
通過三種上采樣結(jié)果的對比,我們不難發(fā)現(xiàn)得到的結(jié)果不再過度模糊,慢慢條理清晰,便于分辨。
將FCN與傳統(tǒng)的CNN方法對比,我們可以發(fā)現(xiàn)FCN的優(yōu)點:一是其對輸入的圖片的尺寸大小沒有要求,在訓練時,可以放入不同尺寸的照片,可以大大增加選擇要訓練的對象,更加便捷。二是FCN更加高效,避免了CNN對相似像素點計算卷積過程的大量重復。
萬物皆有缺陷,F(xiàn)CN并不完美,一是其結(jié)果還是達不到我們追求的高度精準,雖然FCN-8s對比于FCN-32s有了很大提高,然而其結(jié)果仍略有模糊和平滑,對其中種種細節(jié)無法達到高度敏感。二是缺乏一定的空間一致性。
根據(jù)上文的描述,我們將利用全卷積網(wǎng)絡對人體內(nèi)拍攝到的圖片進行語義分割。我們可以對人體內(nèi)的器官逐一進行分割,從而可以讓機器了解人體內(nèi)部的結(jié)構。然而特別之處在于我們會在語義分割的過程中,將疾病檢測的信息融入到圖像分割中,進而疾病產(chǎn)生的部分單獨地在圖像中以單獨的語義標注出來,這樣的做法可以利于醫(yī)生在后續(xù)的檢查中清晰的看到疾病的位置,節(jié)約了醫(yī)生大量的精力和時間且大大減少誤診誤判造成的損失和影響。由此看來,基于深度學習的圖像分割定能在醫(yī)學領域再次大放光彩!
本文將深度學習用于醫(yī)學圖像分割,理論上來講這可以極大地減輕醫(yī)生的人力和物力方面的支出。本文沒有做出完整的系統(tǒng),只是做了理論上的設計。后續(xù)的工作應該去實際設計一套系統(tǒng)。