高志軍, 王新勃, 王 健
(黑龍江科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 哈爾濱 150022)
光學(xué)相干層圖像(OCT)一直被認(rèn)為是眼底及其相關(guān)疾病篩查和診斷的最重要測試手段之一,但由于視網(wǎng)膜OCT圖像獲取方式比較困難,且人工標(biāo)注代價(jià)高昂,導(dǎo)致訓(xùn)練學(xué)習(xí)樣本數(shù)量少,因此,視網(wǎng)膜OCT圖像生成研究已成為計(jì)算機(jī)視覺和眼科領(lǐng)域的一項(xiàng)重要任務(wù)。深度學(xué)習(xí)興起以來,正在徹底地改變著自動化圖像分析的諸多領(lǐng)域,GPU硬件和新算法的發(fā)展使這些方法能夠更有效地應(yīng)用于醫(yī)學(xué)圖像處理等相關(guān)領(lǐng)域。生成式對抗網(wǎng)絡(luò)(GAN)[1]提出后,在圖像生成任務(wù)中表現(xiàn)突出。深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)[2]提出后,首次應(yīng)用到視網(wǎng)膜OCT圖像生成中,使自動生成視網(wǎng)膜OCT圖像效果優(yōu)于傳統(tǒng)數(shù)據(jù)生成方法,取得了驚人的進(jìn)步。LAPGAN等[3]網(wǎng)絡(luò)的問世,在皮膚病圖像數(shù)據(jù)合成取得了顯著的成效, B.Christoph等[4]采用漸進(jìn)式ProGAN合成皮膚病變的高分辨率圖像,效果極佳,連專業(yè)的皮膚科醫(yī)生都很難分辨是否為合成的。戚永軍等[5]采用改進(jìn)的DCGAN模型生成肺結(jié)節(jié)圖像取得了很好的效果。
雖然DCGAN是比較好的網(wǎng)絡(luò)模型,但是對GAN模型的穩(wěn)定性還需進(jìn)一步提升,且訓(xùn)練時(shí)仍需要平衡生成器和鑒別器的訓(xùn)練進(jìn)程,其結(jié)果往往是生成器訓(xùn)練了多次,而鑒別器訓(xùn)練了一次,易導(dǎo)致生成圖像結(jié)果不穩(wěn)定。為了彌補(bǔ)上面的不足,筆者采用樣式遷移生成式對抗網(wǎng)絡(luò)(StyleGAN)框架[6],通過對StyleGAN網(wǎng)絡(luò)結(jié)構(gòu)上調(diào)節(jié)網(wǎng)絡(luò)的超參數(shù)和優(yōu)化激活函數(shù),使StyleGAN生成視網(wǎng)膜各層生物解剖結(jié)構(gòu)更佳逼近真實(shí)的視網(wǎng)膜OCT圖像。
1.1.1 模型結(jié)構(gòu)
2019年,K.Tero等[6]借鑒風(fēng)格遷移,成功地提出了基于樣式的生成器,提供了一個(gè)升級版本的ProGAN圖像生成器,如圖1所示。StyleGAN網(wǎng)絡(luò)的模型結(jié)構(gòu)圖包括兩個(gè)階段,第一階段是由8個(gè)全連接模塊、仿射變換和改進(jìn)的ProGAN堆疊網(wǎng)絡(luò)構(gòu)成。其中,改進(jìn)的ProGAN堆疊網(wǎng)絡(luò)是在ProGAN中相鄰的兩個(gè)卷積層之間添加一組樣式轉(zhuǎn)換模塊而獲得,每組樣式轉(zhuǎn)換模塊又是由1個(gè)上采樣模塊、2個(gè)自適應(yīng)實(shí)例規(guī)范化(AdaIN)和1個(gè)卷積模塊組成,實(shí)現(xiàn)對樣式的更精細(xì)和精確的控制,通過這樣改進(jìn)的ProGAN堆疊網(wǎng)絡(luò)就是StyleGAN的生成器部分。第二階段是采用ProGAN網(wǎng)絡(luò)體系結(jié)構(gòu)作為鑒別器來判斷圖像的真實(shí)性,而這也是StyleGAN的鑒別器。StyleGAN的鑒別器是由大小分別為256×256、64×64、16×16和4×4等四組卷積模塊組成,鑒別器通過判斷由StyleGAN生成器所生成的圖像與由原圖像經(jīng)過下采樣模塊處理圖像的真假,然后將結(jié)果再反饋給輸出圖像或StyleGAN的生成器。
圖1 StyleGAN 網(wǎng)絡(luò)模型結(jié)構(gòu)
在損失函數(shù)方面,StyleGAN采用GAN的損失函數(shù)為
Ez~Pz[lg (1-D(G(z)))],
(1)
式中:x~pd——真實(shí)樣本分布;
z~pz——由噪音z產(chǎn)生的樣本分布;
G(x)——生成器映射函數(shù);
D(x)——鑒別器映射函數(shù)。
1.1.2 模型特征
StyleGAN網(wǎng)絡(luò)主要在映射網(wǎng)絡(luò)和樣式模塊等方面進(jìn)行了改進(jìn),實(shí)現(xiàn)了無監(jiān)督地分離高級屬性、隨機(jī)變化和對生成圖像中特定尺度屬性的控制,能生成更高質(zhì)量的分辨率圖像[6]。
映射網(wǎng)絡(luò)圖1中,StyleGAN的第一點(diǎn)改進(jìn)是在網(wǎng)絡(luò)輸入與樣式轉(zhuǎn)換模塊之間添加一個(gè)由8個(gè)全連接模塊組成的映射網(wǎng)絡(luò),并且映射網(wǎng)絡(luò)的輸出與輸入層隨機(jī)噪音的大小相同。
添加這個(gè)映射網(wǎng)絡(luò)的目的是將輸入向量轉(zhuǎn)化為中間變量,中間向量w會經(jīng)過一個(gè)仿射網(wǎng)絡(luò)得到ProGAN每個(gè)卷積層后面樣式轉(zhuǎn)換模塊的2個(gè)中間向量ai和bi(i=1,2,3),不同中間向量能夠控制不同的視覺特征。由于這 6個(gè)控制矢量之間會存在特征糾纏,文中通過控制矢量調(diào)整為64×64 分辨率(假設(shè)它能控制OCT圖像生成的角度),但是文中發(fā)現(xiàn)16×16 分辨率上控制的視覺特征也已經(jīng)更改,這種現(xiàn)象就稱之為特征糾纏。映射網(wǎng)絡(luò)的功能是為輸入向量的特征提供學(xué)習(xí)的路徑。
StyleGAN 的第二點(diǎn)改進(jìn)是將映射網(wǎng)絡(luò)輸出的中間向量w轉(zhuǎn)換為樣式控制向量,會影響生成器網(wǎng)絡(luò)的生成過程。由于生成器從大小4×4的變換到大小16×16,最終變換到大小 256×256,因此,它由 3個(gè)生成階段構(gòu)成,并且每個(gè)生成階段都將受到兩個(gè)控制向量ai和bi的影響,其中一個(gè)控制向量會在上采樣之后對其影響一次,另一個(gè)控制向量會在卷積操作之后對其影響一次,影響的方式是自適應(yīng)實(shí)例規(guī)范化(AdaIN),因此,中間向量w被轉(zhuǎn)換為6個(gè)控制向量并發(fā)送給生成器。AdaIN 的具體實(shí)現(xiàn)過程:將可學(xué)習(xí)的仿射變換擴(kuò)展為放縮因子y與偏差因子y′,這兩個(gè)因子會與歸一化卷積輸出做一個(gè)加權(quán)求和,完成一次影響原始輸出x的過程。這種影響方式可以實(shí)現(xiàn)樣式控制,主要是因?yàn)樗?變換后的y與y′)影響圖像的全局信息,關(guān)鍵信息由上采樣層和卷積層來決定,因此,只能夠影響到圖像的樣式信息。
2019年,StyleGAN的提出后,被證實(shí)在CT胸透掃描瘤圖像、顯微鏡里的細(xì)胞核圖像、腹部CT的肝臟圖像生成任務(wù)中比ProGAN及GAN衍生網(wǎng)絡(luò)有更好的生成效果[7]。
針對視網(wǎng)膜OCT圖像視網(wǎng)膜層間明暗交替的生物結(jié)構(gòu)特征,文中構(gòu)建了基于StyleGAN網(wǎng)絡(luò)的視網(wǎng)膜OCT圖像生成模型,優(yōu)化了激活函數(shù)與調(diào)節(jié)StyleGAN網(wǎng)絡(luò)的超參數(shù)兩個(gè)方面進(jìn)行了網(wǎng)絡(luò)改進(jìn)優(yōu)化。
1.2.1 網(wǎng)絡(luò)模型
基于StyleGAN網(wǎng)絡(luò)的模型結(jié)構(gòu),StyleGAN視網(wǎng)膜OCT圖像生成的網(wǎng)絡(luò)模型是由StyleGAN的生成器和鑒別器構(gòu)建,主要由三個(gè)步驟組成。
步驟1輸入隨機(jī)噪音進(jìn)入到8個(gè)全連接模塊層,完成輸入隨機(jī)噪音到中間向量w的轉(zhuǎn)變。
步驟2中間向量w經(jīng)過個(gè)仿射網(wǎng)絡(luò)得到ProGAN每個(gè)卷積層后面樣式轉(zhuǎn)換模塊的2個(gè)中間向量ai和bi(i=1, 2, 3), 接著進(jìn)入改進(jìn)后的ProGAN生成器部分,生成模擬數(shù)據(jù)圖像G(x)。
步驟3真實(shí)OCT圖像數(shù)據(jù)經(jīng)過下采樣過后與生成圖像G(x)一同喂入右端的鑒別器中,判斷生成圖像數(shù)據(jù)的真假,若判斷為真,則直接反饋給輸出圖像,否則,再反饋給StyleGAN的生成器,最后循環(huán)訓(xùn)練生成器和鑒別器直到模型達(dá)到納什均衡,反饋輸出圖像。
1.2.2 激活函數(shù)的改進(jìn)
StyleGAN網(wǎng)絡(luò)原始的激活函數(shù)為Relu函數(shù),但是經(jīng)過文中實(shí)驗(yàn)發(fā)現(xiàn)激活函數(shù)存在計(jì)算量大,神經(jīng)元死亡依然存在。采用LReLU激活函數(shù)為
(2)
式中,yi——第i層神經(jīng)元的值。
對于非線性函數(shù)而言,LReLU的表達(dá)能力更強(qiáng),尤其體現(xiàn)在深度網(wǎng)絡(luò)中,使模型的收斂速度維持在一個(gè)穩(wěn)定狀態(tài)。
1.2.3 網(wǎng)絡(luò)權(quán)重的超參數(shù)優(yōu)化
StyleGAN網(wǎng)絡(luò)采用了DiffGrad優(yōu)化器來尋找網(wǎng)絡(luò)的最優(yōu)權(quán)重。DiffGrad優(yōu)化器是Dubey等于2020年在Adam優(yōu)化器的基礎(chǔ)上,開發(fā)了一種自適應(yīng)的新優(yōu)化器,它能夠自動監(jiān)測隨機(jī)梯度的局部變化,以避免Adam等動量優(yōu)化器易跨過最優(yōu)最小值的梯度優(yōu)化方法[8]。文中對DiffGrad優(yōu)化器中的學(xué)習(xí)率和第一階矩學(xué)習(xí)率衰減值進(jìn)行了優(yōu)化,優(yōu)化學(xué)習(xí)率為0.001和一階矩學(xué)習(xí)率衰減值為0.94,以便更好地抑制模型過擬合現(xiàn)象的產(chǎn)生,以能夠獲取高質(zhì)量的視網(wǎng)膜OCT生產(chǎn)圖像,如圖2所示。
圖2 調(diào)整網(wǎng)絡(luò)超參數(shù)及激活函數(shù)的生成圖像
由圖2a可見,真實(shí)視網(wǎng)膜OCT圖像,明暗交替,層間解剖結(jié)構(gòu)清晰。圖2b為通過直接采用原始StyleGAN來生成的視網(wǎng)膜OCT圖像,層間解剖結(jié)構(gòu)略顯模糊不清,其效果并不是很理想。圖2c為文中提出的通過調(diào)整StyleGAN的網(wǎng)絡(luò)超參數(shù)和優(yōu)選激活函數(shù)后,逐步生成的視網(wǎng)膜OCT圖像,其視網(wǎng)膜層間解剖結(jié)構(gòu)較為清晰,逼近于真實(shí)視網(wǎng)膜OCT圖像,獲得到了較好改進(jìn)。
日軍見偷襲不成,惱羞成怒,一起朝最近的女兵石屋掃射。子彈已經(jīng)在李曉英居住的石屋周圍迸出了火花。陳山利飛奔的腳步,恨不得一下飛到李曉英面前,為她擋槍遮彈。
CPU為Intel Core i5-7580@3.2 GHz,GPU為NVIDIA GeForce GTX 1050 Ti,內(nèi)存為16 GB,顯存為4 GB。操作系統(tǒng)為Ubuntu 16.04, 64位,Python 2.7,Pytorch 1.1。
文中的方法在Kaggle上公開數(shù)據(jù)集中選取100例共752幅正常視網(wǎng)膜OCT圖像作為數(shù)據(jù)集,每幅圖像大小為512×740,將70%作為訓(xùn)練集,30%作為測試集,對訓(xùn)練集進(jìn)行100次的迭代訓(xùn)練,網(wǎng)絡(luò)每次訓(xùn)練2個(gè)圖像。
文中采用初始分?jǐn)?shù)、模式分?jǐn)?shù)、核最大均值差異、推土機(jī)距離、峰值信噪比和結(jié)構(gòu)相似性等GAN的6種評價(jià)標(biāo)準(zhǔn)作為圖像生成質(zhì)量的評價(jià)指標(biāo)[9]。
2.2.1 初始分?jǐn)?shù)
初始分?jǐn)?shù)也被稱為Inception 分?jǐn)?shù),它是圖像生成質(zhì)量評價(jià)最常用的度量指標(biāo)為
I(G)=exp(Ex~pgDKL(p(y|x)‖p(y))),
(3)
式中:x~pg——生成樣本分布;
p(y|x)——各個(gè)類別樣本的概率分布;
p(y)——生成樣本的邊緣分布;
2.2.2 模式分?jǐn)?shù)
模式分?jǐn)?shù)也被稱為Mode 分?jǐn)?shù),它是 Inception 分?jǐn)?shù)的改進(jìn)版為
M(G)=exp(Ex~pgDKL(p(y|x)‖p(y))-
DKL(p(y)‖p(yr)),
(4)
式中,p(yr)——真實(shí)樣本的邊緣分布。
2.2.3 核最大均值差異
核最大均值差異為
(5)
Xr——真實(shí)樣本;
Xg——生成樣本;
k——給定核函數(shù)。
在給定一些固定的核函數(shù)k下,它度量了真實(shí)分布pr與生成分布pg之間的差異。給定分別從pr與pg中采樣的兩組樣本,兩個(gè)分布間的經(jīng)驗(yàn)性可以通過有限樣本的期望逼近計(jì)算。
2.2.4 推土機(jī)距離
推土機(jī)距離通常稱為Wasserstein距離(EMD),它等價(jià)于解最優(yōu)傳輸問題。
(6)
式中:γ∈Γ(pr,pg)——真實(shí)樣本分布pr和生成樣本pg組合形成聯(lián)合分布的集合;
d(Xr,Xg)——真實(shí)樣本和生成樣本的距離。
式(6)表示實(shí)踐中W(pr,pg)的有限樣本逼近,與 MMD 相似,推土機(jī)距離越小,兩個(gè)分布就越相似。
2.2.5 峰值信噪比
峰值信噪比經(jīng)常用作圖像壓縮等領(lǐng)域中信號重建質(zhì)量的測量方法,它通過均方誤差(MSE)進(jìn)行定義。兩個(gè)m×n單色圖像I和K,如果一個(gè)為另外一個(gè)的噪聲近似,那么它們的均方誤差定義為
峰值信噪比為
(7)
式中:I——未壓縮的原圖像;
E——均方誤差。
2.2.6 結(jié)構(gòu)相似性
結(jié)構(gòu)相似性是一種衡量兩幅圖像相似度的指標(biāo)。給定兩張圖像, 兩張圖像的結(jié)構(gòu)相似性可表示為
(8)
式中:μx——圖像x的像素灰度平均值;
μy——圖像y的像素灰度平均值;
σxy——圖像x和圖像y的協(xié)方差;
c1、c2——用來維持穩(wěn)定的常數(shù)。
文中提出的StyleGAN方法與隨機(jī)森林和上下文的圖像合成算法(SRF+)[10]、DCGAN在相同數(shù)據(jù)集上進(jìn)行了學(xué)習(xí)訓(xùn)練和測試比較。表1為3種方法在6種量化指標(biāo)上的對比情況,與SRF+和DCGAN兩種方法相比較而言,文中提出的方法在初始分?jǐn)?shù)I為1.564、模式分?jǐn)?shù)M為1.249、核最大均值差異D為1.135和推土機(jī)距離W為322均取得了最小值,且文中方法的峰值信噪比P為35.36和結(jié)構(gòu)相似性S為0.36均取得了最大值的良好的效果,表明文中生成的視網(wǎng)膜OCT圖像具有較好的平滑性和銳化性。
表1 6種量化評價(jià)指標(biāo)對比情況
由SRF+、DCGAN與StyleGAN的生成的一組效果圖對比,圖3a為真實(shí)OCT圖像,圖3b為SRF+生成的圖像,圖3c為DCGAN生成的圖像,圖3d為文中方法StyleGAN對應(yīng)的生成效果圖。由圖3可見,SRF+生成的圖像仍然模糊;DCGAN生成的圖像雖然不模糊,但視網(wǎng)膜層間不夠清晰;而文中StyleGAN生成的眼底OCT視網(wǎng)膜圖像各個(gè)內(nèi)視網(wǎng)膜層更加清晰,層間明暗交替,特別是在外感光層與視網(wǎng)膜色素上皮層(圖中紅色箭頭所指的灰度值較大的明亮層)附近,像原圖像一樣呈現(xiàn)出了一定的邊界線,在拓?fù)浣Y(jié)構(gòu)上,StyleGAN生成的視網(wǎng)膜OCT圖像比DCGAN生成的視網(wǎng)膜OCT圖像效果更接近于原圖像。圖4分別給出了DiffGrad優(yōu)化器中的學(xué)習(xí)率和第一階矩學(xué)習(xí)率衰減值等兩個(gè)超參數(shù)與峰值信噪比和結(jié)構(gòu)相似性等兩個(gè)圖像生成質(zhì)量評判指標(biāo)的迭代變化情況。
圖4a、b呈現(xiàn)出學(xué)習(xí)率為0.001時(shí),峰值信噪比和結(jié)構(gòu)相似性兩個(gè)值均取得最大值。圖5a、b也呈現(xiàn)出學(xué)習(xí)率衰減值為0.94時(shí),峰值信噪比和結(jié)構(gòu)相似性兩個(gè)值也均取得最大值。由圖5可知,表明文中優(yōu)化DiffGrad優(yōu)化器中學(xué)習(xí)率和第一階矩學(xué)習(xí)率衰減值等兩個(gè)超參數(shù)分別為0.001和0.94,能夠獲取高質(zhì)量的視網(wǎng)膜OCT生成圖像。圖6為文中方法與DCGAN方法在6種量化指標(biāo)上隨著學(xué)習(xí)訓(xùn)練迭代次數(shù)變化的對比情況圖,對比圖3b和3d呈現(xiàn)出,在訓(xùn)練迭代20輪之前,DCGAN的學(xué)習(xí)指標(biāo)優(yōu)于文中方法,而在20輪之后,文中方法的學(xué)習(xí)指標(biāo)一直優(yōu)于DCGAN;且在其它學(xué)習(xí)指標(biāo)對比情況圖中,文中方法的學(xué)習(xí)指標(biāo)一直優(yōu)于DCGAN,表明文中方法在視網(wǎng)膜OCT圖像生成上具有較好的迭代收斂性能。
圖3 生成圖像可視化對比圖
文中的方法能夠生成比較真實(shí)的視網(wǎng)膜OCT圖像,各個(gè)視網(wǎng)膜邊界層的生成效果也比較清晰,傳統(tǒng)DCGAN生成圖像比較模糊,看不清視網(wǎng)膜OCT各個(gè)層的邊際,而SRF+生成的圖像則是一片模糊的圖像,完全看不出圖像的紋理細(xì)節(jié)。
圖4 峰值信噪比和結(jié)構(gòu)相似性隨學(xué)習(xí)率初始值迭代的變化
圖5 峰值信噪比和結(jié)構(gòu)相似性隨第一階矩學(xué)習(xí)率衰減值的迭代變化
圖6 6種評價(jià)指標(biāo)下的迭代對比情況
文中方法和DCGAN、SRF+的ROC曲線如圖7所示。它們的AUC值分別為0.78、0.62和0.56,表明文中方法在視網(wǎng)膜OCT圖像生成上的泛化性能優(yōu)于DCGAN和SRF+兩種方法。
圖7 文中方法和DCGAN、SRF+的ROC曲線
上述實(shí)驗(yàn)證明了文中方法在生成視網(wǎng)膜OCT圖像上的優(yōu)越性能,無論是比較文中方法和DCGAN、SRF+方法在生成實(shí)際圖像的可視化效果,還是通過圖6中生成圖像的評價(jià)指標(biāo)進(jìn)行對比,文中的方法都比DCGAN、SRF+效果要好,從文中方法和前2種方法的ROC曲線可以看出,文中方法的AUC數(shù)值為0.78,DCGAN與SRF+的AUC數(shù)值分別為0.62和0.56,遠(yuǎn)遠(yuǎn)小于文中方法的AUC數(shù)值,可知文中方法的生成效果是優(yōu)于DCGAN和SRF+的生成效果。
(1)文中在樣式生成對抗網(wǎng)絡(luò)框架基礎(chǔ)上,調(diào)整和選取了網(wǎng)絡(luò)超參數(shù)和激活函數(shù),提出了一種基于樣式生成對抗網(wǎng)絡(luò)框架的視網(wǎng)膜OCT圖像生成方法,應(yīng)用于OCT圖像生成。
(2)文中方法與SRF+和DCGAN兩種方法在100例視網(wǎng)膜OCT圖像上進(jìn)行了訓(xùn)練、測試和比較,實(shí)驗(yàn)結(jié)果表明,文中方法取得了更好的OCT圖像生成效果。
將對含有病變的視網(wǎng)膜OCT圖像進(jìn)行生成和分類,能夠更好地輔助于眼科醫(yī)生對眼部疾病患者的篩查和診斷。