亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應(yīng)用于圖像語義分割的神經(jīng)網(wǎng)絡(luò)
        ——從SegNet到U-Net

        2021-07-18 07:12:46梅迪
        電子制作 2021年12期
        關(guān)鍵詞:池化空洞分辨率

        梅迪

        (四川大學(xué),四川成都,610227)

        1 SegNet

        全卷積神經(jīng)網(wǎng)絡(luò)(FCN)中已經(jīng)提出了上采樣(反卷積)的思想,通過此手段可以將最后一個卷積層的特征圖進行放大。不僅能夠使得所有尺寸的輸入圖像得到處理,而且保留了相應(yīng)的空間信息,能較好地做出語義預(yù)測和像素分類。

        但在2015 年發(fā)表的“A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation”一文中提出的SegNet 對上采樣又有創(chuàng)新。其提出了編碼-解碼結(jié)構(gòu),對輸入的低分辨率特征圖采用了非線性上采樣處理方式,從而省去了上采樣過程的學(xué)習(xí)。由此也可以看出,SegNet 網(wǎng)絡(luò)的核心就是編碼器-解碼器結(jié)構(gòu)。

        ■1.1 編碼器-解碼器結(jié)構(gòu)

        首先了解下SegNet 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

        圖1

        SegNet 由編碼網(wǎng)絡(luò),解碼網(wǎng)絡(luò)后接一個分類層組成。其中,編碼網(wǎng)絡(luò)在結(jié)構(gòu)上與深度學(xué)習(xí)模型VGG16 中的13層卷積層相同,都是由若干個卷積層和池化層堆疊而成。因此就可以用在大數(shù)據(jù)庫下訓(xùn)練得到的權(quán)重初始化網(wǎng)絡(luò)(ImageNet large scale visual recognition challenge)。此外,SegNet 通過丟棄了全連接層來在編碼輸出位置保留高分辨率特征圖,并大幅減少了編碼部分的參數(shù)量。

        解碼器與編碼器對應(yīng),也有13 層,它的作用是將低分辨率的編碼特征圖還原到完整的輸入分辨率上,輸出最后會傳遞給多類別soft-max 分類器,從而用于像素級分類任務(wù),生成像素點在不同類別下的獨立概率。

        總的來看,其網(wǎng)絡(luò)分為兩部分,左邊是連續(xù)卷積層提取特征,通過池化增大感受野,同時圖像變小,該過程即為編碼;右邊是轉(zhuǎn)置卷積與上采樣,通過轉(zhuǎn)置卷積使得圖像分類后特征得以重現(xiàn),上采樣還原到圖像原始尺寸,該過程即為解碼,最后通過Softmax 分類器,輸出不同分類的最大值,得到最終分割圖。

        ■1.2 池化索引(pooling indices)

        池化實際上是一種形式的降采樣。SegNet 的編碼器在進行最大池化時也存儲了對應(yīng)的索引位置,而解碼器則使用最大池化的索引進行上采樣。最大池化(Max pooling)作為最常見的非線性池化函數(shù),取得的是劃分開來的局部接受域中值最大的點,相比于保留圖像的背景布局方面的信息,它會更多地保留紋理細(xì)節(jié)信息。

        池化的作用主要有以下三個:(1)增大感受野,即使一個像素對應(yīng)回原圖的區(qū)域大小。(2)平移不變性,池化抽象了區(qū)域特征而不關(guān)心位置,所以其增加了平移不變性。(3)降低優(yōu)化難度和參數(shù)。

        SegNet 模型的上采樣操作中使用了特殊設(shè)計的帶池化索引的上采樣,減少因池化操作導(dǎo)致的信息丟失,此外還使用了跳層連接傳遞低層特征,增加特征中包含的信息量。

        綜合來看,該模型的最大貢獻是將最大池化指數(shù)轉(zhuǎn)移至解碼器中,改善了分割分辨率。由于Segnet 網(wǎng)絡(luò)復(fù)制了最大池化指數(shù),因此,這也使得在內(nèi)存使用上,SegNet 比FCN 更為高效。

        2 DeepLab

        SegNet 編碼器中所采用的池化技術(shù)顯然令人印象深刻,而在2015 年同年提出的DeepLab 系列所采用的擴展感受野的方式也同樣精妙,并且它還對上采樣的方式做了進一步的改進?!癉eepLab:Semantic Image Segmentation with Deep Convolutional Nets,Atrous Convolution,and Fully Connected CRFs”一文中主要強調(diào)了基于深度學(xué)習(xí)語義分割的三大貢獻:(1)使用空洞卷積來進行上采樣來進行密集的預(yù)測任務(wù)??斩淳矸e可以在不增加參數(shù)量的基礎(chǔ)上增大filter 的感受野,從而可以得到更多的語義信息。(2)空洞空間金字塔池化結(jié)構(gòu)(ASPP)探索了一種采用多采樣率和有效視野濾波器的輸入卷積特征層,從而以多尺寸來分割目標(biāo)物體并獲得多尺寸的語義信息。(3)結(jié)合DCNN 與概率模型提高物體的檢測邊界。下文將主要闡述DCNN 與ASPP 這兩個核心技術(shù)。

        1.2 指標(biāo)檢測方法 檢測并對比兩組血清PTX3、瘦素、雌二醇(E2)、睪酮(T)、LH及FSH與HOMA-IR的相關(guān)性。

        ■2.1 深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)

        深度卷積神經(jīng)網(wǎng)絡(luò)相對于神經(jīng)網(wǎng)絡(luò)而言,其優(yōu)點在于對特征值進行計算而不是對原始值進行計算,可使計算量大幅降低。其大致上分為三層:卷積層,利用卷積核來進行計算以得到特征值,這些特征值將構(gòu)成一個特征圖;池化層,是一個功能層,是一種對特征圖進行優(yōu)化的函數(shù);全連接層,基于卷積層和池化層,用于輸出一個結(jié)果函數(shù)。

        文中提到,DCNN 應(yīng)用于語義分割存在三個挑戰(zhàn):(1)特征分辨率的降低;(2)對象存在多尺度;(3)由于DCNNs 不變性導(dǎo)致的定位精度下降。并且文章中也依次給出了解決方法:針對第一個挑戰(zhàn),作者移除DCNNs 最后幾層的max-pooling 并在接下來的幾層中使用upsampling filter 替代。針對第二個挑戰(zhàn),作者提出了一種就計算而言很高效的方案,即在卷積之前以多種采樣率重新采樣給定特征層,這相當(dāng)于多個濾波器探索原始圖像獲得互補的視野,從而在多個尺度捕獲對象及其有用的上下文信息。針對第三個挑戰(zhàn),作者的方法是提出了一個全連接條件隨機場(fcCRFs)來提升模型捕獲細(xì)節(jié)的能力。

        綜合來看,DeepLab 系統(tǒng)具有“快速、精準(zhǔn)、簡單”的三大優(yōu)勢。

        ■2.2 空洞卷積(Atrous Convolution)與金字塔型的空洞池化(ASPP)

        另一方面,DeepLab 所提出的空洞卷積替代傳統(tǒng)的方法,相較于稀疏的特征提取,其優(yōu)勢如圖2 所示。

        圖2

        將空洞卷積的rate 調(diào)大,會使得到的特征圖像更加密集。由于網(wǎng)絡(luò)最后的卷積池化層分辨率會減少很多,因此,在隨后的網(wǎng)絡(luò)中增加rate=2 的空洞卷積,但這里會大大增加計算量,平衡效率與準(zhǔn)確率,在對一個feature map 放大四倍后,進行雙線性插值來還原到原圖分辨率大小。

        傳統(tǒng)的方法為了增大感受野的同時不增大運算量,先進行downsampling 將圖像縮小為原先的四分之一,然后采用7×7 的卷積核卷積輸出分?jǐn)?shù)圖,之后再通過upsampling(stride=2)將分?jǐn)?shù)圖還原到原先大小。而采用空洞卷積直接對原圖進行空洞卷積,增大了卷積核的感受野,整合了更多的上下文信息,同時雖然看起來卷積核尺寸變大,但由于空洞卷積的每一個hole 填充的為0,不參與計算,因此運算量不變,沒有下采樣也不會丟失信息,從最終輸出的分?jǐn)?shù)圖來看,空洞卷積具有很大的優(yōu)勢。

        R-CNN 空間金字塔的方法表明任意尺度的區(qū)域可以通過對以單一尺度提取的卷積特征進行重采樣來準(zhǔn)確而有效地分類。作者采用了一種不同于他們的方案,采用多個不同采樣率的平行空洞卷積層。對每個采樣率提取到的特征在不同的分支中進一步處理后融合從而產(chǎn)生最后的結(jié)果。

        據(jù)此就生成了使用ASPP 的多尺度圖像表示的算法。空洞空間卷積池化金字塔(atrous spatial pyramid pooling(ASPP)),將不同空洞率的空洞卷積通過平行或者級聯(lián)堆疊來獲取多尺度的信息,相當(dāng)于以多個比例捕捉了圖像的上下文。其優(yōu)勢也相當(dāng)明顯,即在一定程度上解決了多次池化后損失空間分辨率造成信息丟失的問題。

        3 RefineNet

        隨著神經(jīng)網(wǎng)絡(luò)的繼續(xù)發(fā)展,很快人們就發(fā)現(xiàn)重復(fù)的下采樣(如池化或帶步長的卷積)操作使得深度卷積神經(jīng)網(wǎng)絡(luò)在原始圖像分辨率上產(chǎn)生了嚴(yán)重的損失,而在DeepLab中所提出的空洞卷積作為解決方案之一卻又有耗費大量計算資源的問題。于是,在2017 年發(fā)表的“RefineNet:Multi-Path Refinement Networks for High-Resolution Semantic Segmentation”一文中提出了RefineNet,其作為一個生成性(generic)多通道恢復(fù)網(wǎng)絡(luò),主要探索了在下采樣過程中可得到的所有信息,從而通過遠距離殘差連接恢復(fù)高分辨率估計。這樣一來,獲取高層語義特征的更深的層也可以直接通過從前層得到的詳細(xì)特征得到恢復(fù)。

        ■3.1 模塊結(jié)構(gòu)

        RefnieNet 提供一種生成式的方法融合原始高層語義特征和更精細(xì)化的低層特征,從而生成更高分辨率的語義特征圖。

        在本文標(biāo)準(zhǔn)多通道網(wǎng)絡(luò)結(jié)構(gòu)中,作者將預(yù)訓(xùn)練的ResNet(以ImageNet 初始化)按照分辨率分成了4 個模塊,隨后級聯(lián)了4 個RefineNet 單元,每個都直接和ResNet 模塊的輸出連在一起。用RefineNet-m 表示連接在ResNet第m 個模塊上的RefineNet 模塊。在具體應(yīng)用中,每個ResNet 的輸出都通過了一個卷積層來適應(yīng)維度。

        簡要地來分析下RefineNet 模塊的具體結(jié)構(gòu):每一個RefineNet 模塊都有四部分組成,第一個是殘差卷積單元,用來調(diào)整預(yù)訓(xùn)練的權(quán)重,其中每條通路都經(jīng)過兩層級聯(lián)的殘差卷積單元;第二個是多分辨率融合單元,通過上采樣將所有特征圖恢復(fù)成與輸入相同分辨率,之后實現(xiàn)不同分辨率特征圖的融合;第三部分是殘差池化模塊,用來捕獲上下文關(guān)聯(lián)數(shù)據(jù),其中池化為最大池化,后面跟一層卷積層用來學(xué)習(xí)適應(yīng)性權(quán)重。后一級的池化層以上一級的輸出為輸入;最后一個是輸出卷積單元,輸入輸出尺寸相同,目的是在softmax 估計之前增加非線性,處理結(jié)果用于最終的預(yù)測。

        ■3.2 殘差連接

        殘差連接的思想,是將輸出表述為輸入和輸入的一個非線性變化的線性疊加,其用公式表示為“y=H(x,WH)+X”。通過對殘差這一概念的引入,輸出的變化將會將會更為明顯地展現(xiàn),因此能更好地考察模型的合理性和可靠性。

        針對梯度消散的情況下,殘差是有效的。但普遍認(rèn)為神經(jīng)網(wǎng)絡(luò)的退化才是難以訓(xùn)練深層網(wǎng)絡(luò)根本原因所在。雖然梯度范數(shù)大,但是如果網(wǎng)絡(luò)的可用自由度對這些范數(shù)的貢獻非常不均衡,也就是每個層中只有少量的隱藏單元對不同的輸入改變它們的激活值,而大部分隱藏單元對不同的輸入都是相同的反應(yīng),此時整個權(quán)重矩陣的秩不高。并且隨著網(wǎng)絡(luò)層數(shù)的增加,連乘后使得整個秩變的更低。

        殘差連接則強制打破了網(wǎng)絡(luò)的對稱性,提升了網(wǎng)絡(luò)的表征能力。

        RefineNet 中所有組件都遵循了恒等映射思想,采用了殘差連接的設(shè)計方式。文中利用基于恒等映射的殘差鏈接能夠直接將梯度從一個模塊傳遞到另一個模塊。這個概念有助于保持干凈的信息通路,使其不被非線性層或元素阻擋。相應(yīng)的非線性模塊則被放置在主干上。在每個殘差池化模塊上都應(yīng)用了一個ReLU,這樣做使得網(wǎng)絡(luò)對于學(xué)習(xí)率不敏感。同時還觀察到了這樣做不會影響有效的梯度流。

        4 PSPNet 與U-Net

        增大感受野的方法不斷被人們所探索,其目標(biāo)也往往是獲得更多的語義信息,而在2017 年所發(fā)表的“Pyramid Scene Parsing Network”卻著眼于如何聚合上下文的語義信息,文中開創(chuàng)性地使用了金字塔池化層來考慮不同尺寸的全局信息,金字塔池化模塊(PSP)也對聚合背景信息具有很好地效果。

        PSP 模塊的精妙毋庸置疑,但我在這部分卻想著重談?wù)凱SPNet 在附加損失方面做出的改進,這一優(yōu)化策略往往被人忽視,卻相當(dāng)有效而又出人意料的簡單。

        相似的現(xiàn)狀還出現(xiàn)在了早在2015 年就發(fā)表的論文“U-Net:Convolutional Networks for Biomedical Image Segmentation”上,在神經(jīng)網(wǎng)絡(luò)發(fā)展的今天,非研究者總是更多的關(guān)注U-Net 的網(wǎng)絡(luò)架構(gòu)、收縮路徑(contracting path)和對稱擴展路徑(symmetric expanding path)的布局,對于使用圖像增強技術(shù)來解決小樣本訓(xùn)練數(shù)據(jù)不適合使用深度學(xué)習(xí)方法的問題的熱度卻在慢慢衰退。

        因此,本部分將著重闡述PSPNet 的附加損失概念和U-Net 的數(shù)據(jù)增大方法。

        ■4.1 PSPNet 的附加損失(auxiliary loss)

        “Pyramid Scene Parsing Network”的作者在Res Net101 的基礎(chǔ)上做了改進,額外的在第四階段添加了一個輔助的loss,額外的附加損失隨同原有的loss 一起傳播,通過使用不同的權(quán)重來共同優(yōu)化參數(shù)。后續(xù)的實驗也證明了這樣做有利于快速收斂。

        圖3 金字塔池化模塊

        附加損失(輔助損失)的添加有助于網(wǎng)絡(luò)訓(xùn)練,模型使用一個輔助任務(wù)時,模型中參數(shù)的梯度的來源除了主任務(wù),還有輔助任務(wù)。如果輔助任務(wù)是有效的,那么它提供的梯度也是有益的。Auxiliary loss 的引入無疑能更好地訓(xùn)練網(wǎng)絡(luò)層數(shù)較多的模型。

        ■4.2 U-Net 的數(shù)據(jù)增強(data augmentation)

        相較于PSPNet,U-net 在損失處理方面設(shè)置了函數(shù)權(quán)重,主要側(cè)重于處理重疊的邊緣信息,這二者的優(yōu)劣且不做討論,我們主要關(guān)注的是U-net 使用移位、旋轉(zhuǎn)、變形、灰度值變化等數(shù)據(jù)增強的方法,這對于之后神經(jīng)網(wǎng)絡(luò)的研究具有更為重大的意義,其中訓(xùn)練樣本的隨機彈性變形是訓(xùn)練具有很少標(biāo)簽的分割網(wǎng)絡(luò)的關(guān)鍵。文中使用隨機位移矢量在粗糙的3*3 網(wǎng)絡(luò)上生成平滑變形,位移從10 像素標(biāo)準(zhǔn)偏差的高斯分布中采樣,逐像素位移,然后使用雙立方插值計算每個像素位移。收縮路徑的漏失層(Drop-out layers)執(zhí)行進一步的隱式數(shù)據(jù)增大。

        基于以下兩種原因,醫(yī)療圖像領(lǐng)域適合使用文中提出的數(shù)據(jù)增大方法和u-net 網(wǎng)絡(luò)結(jié)構(gòu):一是醫(yī)學(xué)圖像大都展現(xiàn)人體、細(xì)胞中的細(xì)節(jié)情況,往往特征復(fù)雜度較高,邊界存在有不清晰的區(qū)域。二是因為 U-net 的下采樣與上采樣之間有同層分辨率級聯(lián),其在解碼器階段能充分結(jié)合淺層圖像較為簡單的特征,且通過數(shù)據(jù)增強得到了充足的樣本數(shù)據(jù)量,因此對于樣本量小的訓(xùn)練集也不容易過擬合,往往能取得不錯的效果。

        5 總結(jié)

        在深度學(xué)習(xí)引爆了圖像處理領(lǐng)域的革命之前,人們大都采用N-cut,Grab cut 等來進行圖像劃分。而在計算機步入深度學(xué)習(xí)時代后,通過這些論文文獻的閱讀,我深刻體會到了算法的進步,網(wǎng)絡(luò)架構(gòu)的創(chuàng)新,不同思想的百花齊放。如今,運行代價、內(nèi)存占用等不斷降低,圖像語義分割的精度不斷提高,對每個像素類別所做出的預(yù)測也更為準(zhǔn)確,各種不同模型的提出,使得對復(fù)雜背景圖像的語義分割更加快速也更加精確。

        應(yīng)用于圖像語義分割的神經(jīng)網(wǎng)絡(luò)發(fā)展至今,語義信息的獲取、結(jié)果圖像分辨率降低的問題都在逐一得到解決,人們還在不斷追求更少的計算量、更高的分割準(zhǔn)確率以及更為方便的數(shù)據(jù)標(biāo)注。

        目前,圖像語義分割技術(shù)在醫(yī)學(xué)、民用、工業(yè)等很多領(lǐng)域都大受歡迎,應(yīng)用極其廣泛。通過深度學(xué)習(xí)進行特征提取,F(xiàn)CN等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為一種技巧來對像素進行有效分類,隨著更優(yōu)算法的提出、熱點問題的不斷解決,其終將推動社會文明的進步。

        猜你喜歡
        池化空洞分辨率
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        EM算法的參數(shù)分辨率
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        原生VS最大那些混淆視聽的“分辨率”概念
        基于深度特征學(xué)習(xí)的圖像超分辨率重建
        一種改進的基于邊緣加強超分辨率算法
        空洞的眼神
        用事實說話勝過空洞的說教——以教育類報道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        国产内射爽爽大片视频社区在线| 美女网站免费观看视频| 欧美xxxx做受欧美88| 成人国产精品一区二区网站公司 | 日本一本久道| 两个人看的www高清视频中文| 欧美日韩国产一区二区三区地区| 日本不卡在线一区二区三区视频| 黄色三级国产在线观看| 最近更新中文字幕一区二区| 大地资源网在线观看免费官网| 久久久亚洲精品无码| 嗯啊哦快使劲呻吟高潮视频 | 亚洲加勒比无码一区二区在线播放| 国产一区二区三区经典| 中文字幕34一区二区| 刺激一区仑乱| 人妻无码久久一区二区三区免费| 日韩精品永久免费播放平台| 91桃色在线播放国产| 91精品国产在热久久| 人人人妻人人澡人人爽欧美一区| 欧美jizzhd精品欧美| 久久国产亚洲高清观看5388| 亚洲国产精品第一区二区三区| 中文日本强暴人妻另类视频| 久久不见久久见免费视频6| 少妇人妻偷人精品视频| 制服无码在线第一页| 一区二区三区四区黄色av网站| 亚洲国产精品日本无码网站| 无码国产色欲xxxxx视频| 久久久久久久妓女精品免费影院 | 亚洲av少妇一区二区在线观看| 午夜dv内射一区二区| 黑人玩弄漂亮少妇高潮大叫| 亚洲a人片在线观看网址| 少妇人妻无奈的跪趴翘起| 黑森林福利视频导航| 久久婷婷色综合一区二区| 高清高速无码一区二区|