亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器視覺應(yīng)用中的圖像數(shù)據(jù)增廣綜述

        2021-04-11 12:48:46林成創(chuàng)趙淦森楊志榮陳少潔黃潤樺李壯偉易序晟杜嘉華李雙印羅浩宇樊小毛陳冰川
        計(jì)算機(jī)與生活 2021年4期
        關(guān)鍵詞:標(biāo)簽混合樣本

        林成創(chuàng),單 純,趙淦森+,楊志榮,彭 璟,陳少潔,黃潤樺,李壯偉,易序晟,杜嘉華,李雙印,羅浩宇,樊小毛,陳冰川

        1.華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣州 510631

        2.廣東技術(shù)師范大學(xué)電子與信息學(xué)院,廣州 510665

        3.挪威科技大學(xué),挪威特隆赫姆17491

        4.廣州市云計(jì)算安全與測評技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州 510631

        5.華南師范大學(xué)唯鏈區(qū)塊鏈技術(shù)與應(yīng)用聯(lián)合實(shí)驗(yàn)室,廣州 510631

        6.廣東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,廣州 510320

        機(jī)器視覺中的圖像處理是人工智能的一個(gè)重要的研究領(lǐng)域,包括圖像分類、語義分割、對象分割和目標(biāo)檢測等應(yīng)用[1-3]?,F(xiàn)階段,隨著硬件設(shè)施的不斷完善和深度學(xué)習(xí)[4]技術(shù)的提出以及不斷發(fā)展,基于深度學(xué)習(xí)的圖像分類方法也日新月異。自Alex 等學(xué)者將深度卷積網(wǎng)絡(luò)AlexNet[5]應(yīng)用在圖像分類中并取得遠(yuǎn)比其他傳統(tǒng)圖像分類方法更低的錯(cuò)誤率后,基于深度學(xué)習(xí)的圖像處理解決方案成為主流。隨后,新的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),如NiN[6]、VGG[7]、ReNet[8]、GoogLeNet[9]、ResNet[10]、InceptionNet[11-12]、MobileNet[13-15]、DenseNet[16]、EfficientNet[17]、ResNeXt[18]和ResNeSt[19]等網(wǎng)絡(luò)結(jié)構(gòu)被不斷地提出并在不同的圖像應(yīng)用場景大放異彩。

        深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得的巨大成功,主要?dú)w功于三大因素[1,20-21]:(1)強(qiáng)大的深度學(xué)習(xí)模型的表達(dá)容量;(2)不斷增大的可獲得算力;(3)大規(guī)??色@得的標(biāo)注數(shù)據(jù)集。為了促進(jìn)深度學(xué)習(xí)在不同的圖像處理領(lǐng)域的發(fā)展,數(shù)以萬計(jì)的不同類型的圖像數(shù)據(jù)被收集、標(biāo)注和公開應(yīng)用,其中最著名的是ImageNet[22]。按照圖像應(yīng)用場景和圖像類型進(jìn)行劃分,現(xiàn)有數(shù)據(jù)集可以從圖像的類型上分成2D 數(shù)據(jù)集、2.5D 數(shù)據(jù)集和3D 數(shù)據(jù)集[22-40],覆蓋了圖像分類、語義切割、對象分割和自動(dòng)駕駛等各個(gè)應(yīng)用,極大地促進(jìn)了深度學(xué)習(xí)圖像技術(shù)的發(fā)展。盡管如此,對于各種專業(yè)領(lǐng)域的深度學(xué)習(xí)圖像應(yīng)用,缺少合格的領(lǐng)域圖像數(shù)據(jù)仍然是一個(gè)不爭的事實(shí),尤其是在醫(yī)療圖像處理[41-42]、AI農(nóng)業(yè)[43-44]等領(lǐng)域。

        He等學(xué)者[45]指出自2012 年AlexNet[5]首次使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類并獲得比其他傳統(tǒng)圖像處理方法更好的效果以來到NASNet-A[46]的提出,Image-Net 的Top-1 分類準(zhǔn)確率已經(jīng)從62.5%提升到82.7%。同時(shí)作者也指出這些成就的取得,不僅僅歸功于網(wǎng)絡(luò)模型的設(shè)計(jì)和優(yōu)化,包括圖像增廣在內(nèi)的多種優(yōu)化方案和訓(xùn)練技巧也同樣非常重要。

        圖像增廣是在有效訓(xùn)練數(shù)據(jù)受限的情況下解決深度學(xué)習(xí)模型訓(xùn)練問題的一種有效方法。大量的增廣技術(shù)和方法被提出來豐富和增廣訓(xùn)練數(shù)據(jù)集,提升神經(jīng)網(wǎng)絡(luò)的泛化能力。常見的圖像增廣方法主要基于圖像變換,例如光度變化、翻轉(zhuǎn)、旋轉(zhuǎn)、抖動(dòng)和模糊等[1,41,47-48]。隨著深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷擴(kuò)大,表達(dá)能力的不斷提升,為了能夠更好防止模型過擬合,出現(xiàn)了以mixup[49]為代表的合成樣本圖像增廣方法[50-57]和使用生成對抗網(wǎng)絡(luò)(generative adversarial nets,GANs)[58]為代表的虛擬圖像樣本生成的圖像增廣方法[59-63]等。在不同應(yīng)用數(shù)據(jù)集和應(yīng)用場景下,圖像增廣的策略和方法也不盡相同。因此,為了在特定的圖像數(shù)據(jù)集和應(yīng)用場景中找到最佳的圖像增廣策略,出現(xiàn)了基于算法或模型進(jìn)行增廣策略搜索的智能圖像增廣相關(guān)研究。例如,F(xiàn)awzi 等學(xué)者[64]提出了自適應(yīng)圖像增廣,Cubuk 等學(xué)者[47]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的自動(dòng)增廣框架。除此以外,還有更多的研究[65-71]在探索智能或者自動(dòng)化的圖像增廣技術(shù)。

        當(dāng)前,圖像增廣的研究層出不窮,各種新方法和新思路不斷地被提出來用于增廣訓(xùn)練圖像數(shù)據(jù)集。在層出不窮的圖像增廣研究中把握住圖像增廣的范式,對現(xiàn)有圖像增廣研究進(jìn)行分門別類,對于引導(dǎo)研究人員針對不同的視覺應(yīng)用找到合適的圖像增廣方法以及啟發(fā)新的圖像增廣研究是非常重要的。

        本文從圖像增廣的對象、操作的空間、圖像標(biāo)簽的處理方式和圖像增廣策略的調(diào)優(yōu)方式四個(gè)維度出發(fā),歸納出現(xiàn)有圖像增廣研究的主要內(nèi)容,如圖1所示。

        Fig.1 Main research contents of image augmentation under deep learning圖1 深度學(xué)習(xí)下圖像增廣的主要研究內(nèi)容

        首先,本文根據(jù)圖像增廣的對象不同分成引入外部圖像的半監(jiān)督增廣,從噪聲生成虛擬圖像樣本的虛擬圖像生成增廣,以及面向圖像訓(xùn)練數(shù)據(jù)集操作的圖像增廣。其次,本文從增廣操作的空間上,區(qū)別直接在圖像空間(raw image)進(jìn)行增廣以及在圖像通過模型轉(zhuǎn)換到隱空間(latent space)增廣。根據(jù)圖像增廣過程中是否需要考慮圖像標(biāo)注信息以及增廣后產(chǎn)生的新樣本或者新樣本特征的標(biāo)簽是否出現(xiàn)擾動(dòng),本文進(jìn)一步將圖像增廣分成標(biāo)簽保留增廣和標(biāo)簽擾動(dòng)增廣。最后,本文對使用算法或者模型確定圖像增廣的參數(shù)或者方法的研究歸為智能圖像增廣,用于區(qū)別研究人員制定圖像數(shù)據(jù)增廣方法和具體策略的傳統(tǒng)圖像增廣研究。

        本文的主要研究內(nèi)容和貢獻(xiàn)可以總結(jié)為:

        (1)系統(tǒng)性梳理圖像增廣領(lǐng)域的相關(guān)研究,提出圖像增廣的研究范式和分類體系,并對現(xiàn)有相關(guān)研究工作進(jìn)行分類。

        (2)依據(jù)本文提出的圖像增廣分類體系對每個(gè)類別中的代表性研究工作及其衍生研究進(jìn)行客觀的分析對比,并指出這些研究的創(chuàng)新點(diǎn)、適用場景和局限性。

        (3)討論并總結(jié)目前圖像增廣研究領(lǐng)域的發(fā)展現(xiàn)狀、研究挑戰(zhàn)及其未來的發(fā)展方向。

        本文的內(nèi)容將按照圖2 所示的內(nèi)容進(jìn)行展開。

        1 基本圖像增廣

        本文首先對基本圖像變換增廣進(jìn)行回顧?;緢D像變換增廣的主要特征是面向訓(xùn)練數(shù)據(jù)集的圖像樣本執(zhí)行特定的圖像變換操作(例如幾何變換、光照變換等),產(chǎn)生新的圖像樣本的標(biāo)簽信息與原始圖像樣本的標(biāo)簽信息保持一致??梢酝ㄟ^以下形式化描述來定義基本圖像變換增廣的范式。

        根據(jù)具體不同的圖像增廣原理,可以從幾何變換、光學(xué)變換、紋理變換和統(tǒng)計(jì)的角度對基本圖像變換進(jìn)行歸類分析。

        1.1 幾何與紋理變換圖像增廣

        幾何圖像變換和紋理變換是在圖像的幾何空間所進(jìn)行的增廣操作。主要的增廣方法如表1 所列,包括圖像翻轉(zhuǎn)、噪聲、模糊、縮放、隨機(jī)裁剪、仿射變換等。

        Fig.2 Organization of this paper圖2 文章結(jié)構(gòu)安排

        1.1.1 翻轉(zhuǎn)增廣

        圖像的翻轉(zhuǎn)是指沿著X軸或者Y軸進(jìn)行旋轉(zhuǎn),使用I′表示翻轉(zhuǎn)后的圖像。當(dāng)沿著y軸進(jìn)行翻轉(zhuǎn)時(shí),I′表示左右翻轉(zhuǎn)(也有文獻(xiàn)稱為水平鏡像)后的圖像樣本。當(dāng)X軸進(jìn)行翻轉(zhuǎn)時(shí),I′表示上下翻轉(zhuǎn)(垂直鏡像)后的圖像樣本。翻轉(zhuǎn)圖像增廣示例如圖3 所示。其中,左邊子圖是原始圖像,中間子圖是在原始圖像上通過水平翻轉(zhuǎn)后的圖像,右邊子圖是在原始圖像上通過垂直翻轉(zhuǎn)獲得的圖像。

        1.1.2 噪聲增廣

        圖像的噪聲增廣是通過往原始圖像中每個(gè)像素加入額外的隨機(jī)信息,從而獲得有別于原始圖像的增廣圖像。為了方便起見,使用M表示噪聲矩陣,其中M與原圖像樣本I具有相同的尺寸。當(dāng)M中的每個(gè)元素由高斯分布N(μ,σ2)產(chǎn)生時(shí),稱為高斯圖像噪聲增廣。

        圖4 為噪聲增廣的示例。左邊子圖為原始圖I,中間子圖為高斯分布產(chǎn)生的隨機(jī)數(shù)所填充的噪聲矩陣M,最右邊子圖為原始圖像I與噪聲矩陣M相加后生成的噪聲增廣圖像I′。

        Fig.3 Examples of flipping augmentation圖3 圖像翻轉(zhuǎn)增廣示例

        Fig.4 Examples of noise augmentation圖4 噪聲圖像增廣示例

        1.1.3 模糊增廣

        圖像模糊的原理是將圖像中的每一個(gè)像素的取值重置為與周邊像素相關(guān)的取值,例如周邊像素的均值、中位值等。決定該像素取值與周邊像素的范圍稱為模糊半徑,常用γ表示。當(dāng)γ=1 時(shí),像素xi,j的取值相關(guān)范圍包括{xi±1,j±1},當(dāng)γ=2 時(shí),像素xi,j的取值相關(guān)范圍包括{xi±2,j±2}。γ越大,圖像失真越嚴(yán)重,對應(yīng)的視覺效果越模糊[75]。

        給定圖像模糊半徑γ,計(jì)算區(qū)域內(nèi)每個(gè)像素的取值方法不同決定了圖像模糊方法的不同。例如,使用高斯分布計(jì)算區(qū)域內(nèi)的每個(gè)像素的取值,稱為高斯圖像模糊,使用直方圖均值方法計(jì)算區(qū)域的每個(gè)像素的圖像模糊方法,稱為直方圖模糊[75]。如圖5 所示,左側(cè)是原始圖像I,右側(cè)是經(jīng)過模糊半徑為2(γ=2)的高斯模糊(σ=1.5)增廣后形成的圖像樣本I′。

        Fig.5 Examples of image blur augmentation圖5 圖像模糊增廣示例

        1.1.4 縮放增廣

        圖像縮放包括圖像的放大和圖像的縮小。數(shù)據(jù)集的每張圖像的長寬往往不一致,但是深度學(xué)習(xí)的輸入往往需要一致的圖像尺寸。例如224×224,因此圖像縮放增廣在深度學(xué)習(xí)中經(jīng)常作為預(yù)處理操作。

        給定圖像樣本I,其任意圖像像素xi,j∈I,0 ≤i,j<N,N稱為最大的像素坐標(biāo)。則圖像的縮放可以理解為任意的圖像像素點(diǎn)xi,j沿著坐標(biāo)軸X和Y軸上進(jìn)行縮放,如式(2)所示。其中(i,j)為像素的原始坐標(biāo),(u,v)為經(jīng)過縮放后的新坐標(biāo),kx和ky為X軸和Y軸方向的縮放比例。

        如圖6 所示,左側(cè)子圖是379×379 的原始圖像樣本,中間子圖是縮小到224×224 的樣本圖像,最右邊子圖是放大到500×500 的樣本圖像。

        1.1.5 仿射變換增廣

        仿射變換是圖像樣本I旋轉(zhuǎn)θ角度后,并按照向量b進(jìn)行平移的過程。當(dāng)向量時(shí),該仿射變換增廣等價(jià)于旋轉(zhuǎn)。仿射變換增廣過程可以形式化為式(3),其中A(θ)為旋轉(zhuǎn)矩陣,如等式(4)所示。

        圖7 是仿射變換圖像增廣示例。左邊是原始圖像樣本,中間子圖是經(jīng)過θ=45°,時(shí),仿射變換增廣的圖像樣本。右邊子圖是經(jīng)過θ=45°,時(shí)仿射變換增廣的圖像樣本。

        1.1.6 隨機(jī)裁剪增廣

        隨機(jī)裁剪是對圖像I進(jìn)行截取,獲取圖像I的子集Is,Is放大到圖像I的尺寸得到隨機(jī)裁剪后的圖像I′。如圖8 所示,左圖是原始圖像樣本,右圖是經(jīng)過隨機(jī)裁剪獲得的圖像樣本。

        1.1.7 圖像擦除增廣

        圖像擦除是對圖像樣本I的部分信息進(jìn)行消除,使得消除后的圖像樣本I′僅僅包含I的部分信息。圖像擦除增廣的思想是模擬圖像應(yīng)用場景中的圖像遮擋現(xiàn)象,通過人為地以一定概率對訓(xùn)練圖像進(jìn)行“損壞”,并將“損壞”的圖像樣本數(shù)據(jù)輸入給神經(jīng)網(wǎng)絡(luò)圖像分類模型,引導(dǎo)模型學(xué)習(xí)圖像的殘余信息,防止模型過擬合從而最終提升模型在測試樣本的泛化性能。

        Fig.6 Example of scaling augmentation圖6 縮放圖像增廣示例

        Fig.7 Examples of affine transformation augmentation圖7 仿射變換增廣示例

        Fig.8 Examples of random cropping image augmentation圖8 隨機(jī)裁剪圖像增廣示例

        Zhong 等學(xué)者[76]提出隨機(jī)圖像擦除的方法實(shí)現(xiàn)對深度學(xué)習(xí)的訓(xùn)練圖像集增廣。該方法的主要實(shí)現(xiàn)方式是在一個(gè)小批次(mini-batch)中,每個(gè)圖像樣本I以p的概率決定是否需要擦除,在需要擦除的圖像樣本I中隨機(jī)選擇一個(gè)矩形區(qū)域R((r1,c1),(r2,c2)),其中(r1,c1)為左上角坐標(biāo),(r2,c2)為右下角坐標(biāo),并且保證所選的矩形區(qū)域R的面積占比總面積在設(shè)置的閾值范圍內(nèi)。約束條件如式(5)所示,其中Sl和Sh為矩形面積與圖像樣本I總面積的最小和最大占比,W和H分別是圖像樣本I的寬度和高度。使用隨機(jī)分布函數(shù),將矩形區(qū)域R內(nèi)的像素替換成隨機(jī)值?pi,j∈R,pi,j←rand(0,255)。隨機(jī)擦除圖像增廣的示例如圖9 所示。

        根據(jù)圖像應(yīng)用的場景不同隨機(jī)擦除還有更多細(xì)分擦除的方法,如目標(biāo)檢測應(yīng)用場景下的圖像感知隨機(jī)擦除(image-aware random erasing,IRE)、目標(biāo)感知隨機(jī)擦除(object-aware random erasing,ORE)和圖像及目標(biāo)感知的隨機(jī)擦除(image and object-aware random erasing,I+ORE)[76]。

        Fig.9 Examples of random erasing image augmentation圖9 隨機(jī)擦除圖像增廣示例

        與隨機(jī)擦除[76]思路相似的研究還有Cutout[72]。與隨機(jī)擦除[76]不同的是,Cutout[72]認(rèn)為擦除圖像的面積比形狀更重要,擦除的區(qū)域不要求是矩形或者其他規(guī)則化形狀。同時(shí),對于擦除部分填充,Cutout 提倡使用0 掩膜進(jìn)行填充而不是使用隨機(jī)噪聲。其他類似的研究思路還有應(yīng)用在中文字符識別應(yīng)用的DropRegion[74]數(shù)據(jù)增廣。

        1.2 光學(xué)空間變換增廣

        光學(xué)空間變換增廣是通過調(diào)整圖像的光學(xué)空間進(jìn)行的增廣操作。主要的光學(xué)空間變換增廣包括光照變化和顏色空間轉(zhuǎn)換。其中,光學(xué)變換包括圖像亮度變換、對比度和圖像銳化,顏色空間變換主要包括RGB 顏色空間與CMY 顏色空間、XYZ 顏色空間、HSV 顏色空間、YIQ 顏色空間、YU 顏色空間和LAB顏色空間之間的轉(zhuǎn)化[77]。常見的光學(xué)變換增廣方法如表2 所示。

        1.2.1 光照變換增廣

        光照變化增廣包括亮度變化、對比度和圖像銳化增廣等。圖像的亮度變化是直接對圖像樣本I的每個(gè)像素點(diǎn)進(jìn)行線性變換操作[78]。使用λ表示圖像亮度變換系數(shù),則經(jīng)過亮度變化增廣的圖像樣本I′可以通過等式(6)表示,其中0 <λ<1 圖像變暗,λ>1時(shí)圖像樣本變亮。

        Table 2 Common optical transformation image augmentation methods表2 基于光學(xué)變換的常見圖像增廣方法

        圖像對比度增廣是對圖像樣本I的細(xì)節(jié)進(jìn)行增廣,使得增廣后的圖像樣本I′的細(xì)節(jié)更加突出的過程。圖像對比度增廣使用的變換算法有多種,因此圖像對比度增廣方法包括:線性對比度增廣、平方對比度增廣、冪對比度增廣、指數(shù)對比度增廣、對數(shù)對比度增廣等。使用pi,j表示I中的第i行第j列像素,使用pi,j′表示I′中的第i行第j列像素。以線性增廣為例,圖像樣本I的灰度范圍為[m,M],若需要得到增廣后的圖像樣本I′的灰度范圍為[n,N],則I′可由式(7)獲得。

        圖像銳化增廣的目的是增廣圖像樣本I的邊緣、輪廓以及圖像細(xì)節(jié),使得增廣后的圖像樣本I′的邊緣、輪廓線以及圖像細(xì)節(jié)更加清晰。

        圖10 是圖像光照變換增廣示例。左上角是原始圖像樣本,右上角是經(jīng)過亮度提升λ=1.5 后的圖像樣本,左下角是對比度提升后的圖像樣本,右下角是圖像銳化后的樣本。

        Fig.10 Examples of illumination variation augmentation圖10 光照變換增廣示例

        1.2.2 顏色空間變換增廣

        彩色圖像中,常用的顏色空間主要有RGB顏色空間、CMY 顏色空間、XYZ 顏色空間、HSV 顏色空間、YIQ 顏色空間、YU 顏色空間和Lab 顏色空間等[77]。RGB 顏色空間是彩色圖像樣本中最常使用的顏色空間。在圖像樣本中使用三個(gè)通道表示,每個(gè)通道分別表示一種顏色。RGB 顏色模型的紅綠藍(lán)三種基色的波長分別是λR=700.0 nm,λG=700.0 nm 和λB=700.0 nm[77]。RGB 顏色空間的特點(diǎn)在視覺上非常均勻,任意一種顏色可以通過三種顏色混合而成。

        CMY 顏色空間由青(C)、品紅(M)和黃(Y)三種顏色構(gòu)成顏色的三種基色。各種顏色可以由這三種基色加權(quán)混合而成。CMY 和RGB 兩種顏色空間的轉(zhuǎn)換如等式(8)所示。

        XYZ 顏色空間把彩色光表示為C=WxX+WyY+WzZ,其中X、Y和Z分別表示顏色模型的基色量,Wx、Wy和Wz分別為X、Y和Z對應(yīng)的權(quán)重系數(shù)。RGB顏色空間域XYZ 顏色空間轉(zhuǎn)換關(guān)系如等式(9)所示。

        在計(jì)算機(jī)視覺處理任務(wù)中,經(jīng)常會(huì)遇到不同顏色空間描述的圖像樣本。因此,樣本的顏色空間轉(zhuǎn)換是非常常見的一種預(yù)處理和增廣步驟。YUV 顏色空間是歐洲PAL 采用的顏色空間,YUV 顏色空間和RGB 顏色空間的轉(zhuǎn)換關(guān)系如等式(10)。

        其他顏色空間與RGB 的顏色空間的轉(zhuǎn)換關(guān)系可查閱文獻(xiàn)[77]。圖11 為不同顏色空間增廣的圖像示例。第一排從左往右分別為原始RGB 圖像樣本、HSV 顏色空間樣本和XYZ 顏色空間樣本,第二排從左往右分別是YUV 顏色空間樣本、Lab 顏色空間樣本和CMY 顏色空間樣本。

        1.3 基于統(tǒng)計(jì)的圖像增廣

        基于統(tǒng)計(jì)的圖像增廣方法通過引入統(tǒng)計(jì)學(xué)原理對圖像進(jìn)行建模,通過對統(tǒng)計(jì)變量進(jìn)行變換,達(dá)到增廣圖像中關(guān)鍵信息的目標(biāo)?;诮y(tǒng)計(jì)的圖像增廣算法包括直方圖均衡化增廣、小波變換增廣、偏微分方程增廣和Retinex 圖像增廣等方法。其中,直方圖均衡化增廣和小波變換增廣兩種方法最為常見[79]。

        1.3.1 直方圖均衡化增廣

        直方圖均衡化增廣是對圖像樣本I的輸入灰度映射為增廣后圖像樣本I′的灰度級,使得I′的灰度級具有近似均勻分布的概率密度函數(shù)并最終使得I′比I具有更高的對比度和更寬的動(dòng)態(tài)范圍的過程[79]。

        王浩等學(xué)者[79]將直方圖均衡化描述為以下過程。原始圖像I中的任意像素xi,j∈I代表圖像樣本I中坐標(biāo)為(i,j)的像素,其中所有像素的灰度值h均在[0,L-1]之間(?xi,j∈I,h(xi,j)∈[0,L-1])。圖像I灰度標(biāo)準(zhǔn)概率函數(shù)可以描述為等式(11)。

        Fig.11 Examples of color variation augmentation圖11 顏色空間變換增廣示例

        其中,N為圖像樣本I中的像素總數(shù),nk表示灰度級為k的像素點(diǎn)的個(gè)數(shù),則圖像樣本I的灰度級的累計(jì)分布函數(shù)可以表示為式(12)。

        直方圖均衡化生成的圖像樣本I′的灰度分布f(I)可以如式(13)所示。

        1.3.2 小波變換增廣

        小波變換增廣是基于數(shù)學(xué)統(tǒng)計(jì)變換的一種圖像增廣方法。小波變換將圖像看作是一個(gè)離散的二維信號f(x,y)進(jìn)行分解與重構(gòu)。原始的圖像樣本I被分解用于描述圖像中低頻信息的低通子圖和用于描述圖像中的水平細(xì)節(jié)、垂直細(xì)節(jié)以及對角細(xì)節(jié)的高通子圖像。其增廣過程包括三個(gè)主要步驟。

        小波變換增廣的過程如下,首先加載原始圖像樣本將其分解成低通圖像信息和高通圖像信息。其次,對小波系數(shù)進(jìn)行非線性增廣,其增廣的過程如式(14)所示[79]。最后將增廣后的小波系數(shù)進(jìn)行小波逆變換得到增廣圖像。

        在式(14)中,G為小波變換的增廣倍數(shù),T為小波系數(shù)閾值,Wi為圖像分解后的小波系數(shù),W′為增廣的后小波系數(shù)。小波圖像增廣以凸顯圖像中的細(xì)節(jié)信息,但是也有可能會(huì)放大圖像中的噪聲。

        其他基于統(tǒng)計(jì)的圖像增廣還包括偏微分方程圖像增廣、Retinex 圖像增廣等方法。但由于這些方法在面向深度學(xué)習(xí)的數(shù)據(jù)增廣中較少用到,感興趣的讀者請參考這些相關(guān)文獻(xiàn)[79-85]。

        1.4 基本圖像增廣總結(jié)

        基本圖像增廣從傳統(tǒng)圖像增廣中衍化而來,并且被廣泛地應(yīng)用到各種場景的圖像識別應(yīng)用中作為基礎(chǔ)的數(shù)據(jù)預(yù)處理操作。因此,上述基本圖像增廣的方法被集成在面向深度學(xué)習(xí)應(yīng)用的機(jī)器學(xué)習(xí)庫中,例如ImgAug[86]和Albumentations[87]。

        基本圖像增廣主要的特點(diǎn)可以總結(jié)為:

        (1)圖像語義信息不變,面向訓(xùn)練數(shù)據(jù)集中的圖像樣本,在原始圖像空間上進(jìn)行操作產(chǎn)生的增廣后的樣本語義信息與原始圖像一致。

        (2)多個(gè)不同基本圖像增廣方法經(jīng)常根據(jù)應(yīng)用場景需求串聯(lián)使用。

        (3)作為基本的圖像預(yù)處理,廣泛地應(yīng)用在各種應(yīng)用場合中作為數(shù)據(jù)預(yù)處理的一個(gè)步驟。

        2 混合圖像增廣

        圖像混合增廣方法通過使用訓(xùn)練集中的多個(gè)圖像樣本進(jìn)行混合以合成新的圖像樣本。圖像混合增廣方法具備以下特點(diǎn):(1)增廣過程中需要兩個(gè)或兩個(gè)以上圖像樣本參與;(2)混合增廣后生成的新的圖像樣本,其語義信息取決于多個(gè)參與增廣樣本的語義;(3)增廣后生成的圖像樣本往往不具備人眼視覺理解特性。圖像混合增廣方法如表3 所示。

        不失一般性,本文使用Mx(?)表示圖像混合增廣算法,使用My(?)表示圖像語義混合算法。圖像混合增廣范式描述為Ik′=,表示由t個(gè)圖像樣本混合生成的圖像樣本Ik′。使用yk′=表示Ik′的語義標(biāo)簽。該語義標(biāo)簽通過上述參與增廣操作的圖像的標(biāo)簽混合計(jì)算生成。圖像混合增廣研究在于研究Mx(?)和My(?)內(nèi)部算法。圖像混合增廣的典型研究包括像素混合圖像增廣、混合匹配增廣、樣本配對增廣、剪切與粘貼增廣以及上述方法的變種。

        Table 3 Methods of mix sample augmentation表3 圖像混合增廣方法

        2.1 像素混合增廣及其變種

        Tokozume 等學(xué)者[94]提出將兩段不同類別的聲音片段簡單地線性混合BC Learning(between-class learning),用于深度學(xué)習(xí)模型進(jìn)行語音的識別。BC Learning 的方法使得模型對語音識別的泛化能力大大提高,并在語音識別的準(zhǔn)確率上超越人類。鑒于BC Learning 在語音識別任務(wù)的成功應(yīng)用,原作者Tokozume 等學(xué)者將BC Learning 的思想引入到圖像分類應(yīng)用的圖像增廣中[53]。

        BC Learning 圖像增廣的思想是將任意兩個(gè)不同類別的圖像樣本Ii和Ij(Ii≠Ij)進(jìn)行隨機(jī)比例λ比例混合,產(chǎn)生新的圖像樣本和新的圖像樣本的混合標(biāo)簽。然后將所有的混合樣本代替純類別樣本作為訓(xùn)練數(shù)據(jù)集,用于基于深度學(xué)習(xí)的圖像分類模型訓(xùn)練。混合過程如等式組(15)所示。

        BC Learning,從視覺上看由兩張圖像樣本混合而成一個(gè)新樣本是沒有任何意義的,但是從卷積神經(jīng)網(wǎng)絡(luò)的角度看,圖像的像素值可以通過傅里葉變換變成二維的波形圖。兩張圖片的混合可以等價(jià)于是兩個(gè)波形的混合,因此卷積神經(jīng)網(wǎng)絡(luò)可以從圖像轉(zhuǎn)成的頻率數(shù)據(jù)中把圖像識別當(dāng)成語音識別任務(wù)。受到這種思想的啟發(fā),由于圖像轉(zhuǎn)成的頻率波形圖的均值并不等于0,作者提出了BC Learning 的升級版本BC+[51],將圖像Ii看作是均值μi和波形成分σi的相加Ii=μi+σi。BC+[53]的混合方法如式(16)所示。

        其中,p如等式(17)所示,(μi,σi)和(μj,σj)分別為圖像樣本Ii和Ij的均值和標(biāo)準(zhǔn)差。

        BC Learning[94]和BC+[53]將圖像像素線性混合的增廣方式引入到圖像分類中并在CIFAR-10/100[23]數(shù)據(jù)集上驗(yàn)證。BC Learning[94]可以將現(xiàn)有深度學(xué)習(xí)模型在CIFAR-10 上的SOTA(state-of-the-art)的錯(cuò)誤率從6.07%降到5.17%,BC+[53]可以將現(xiàn)有深度學(xué)習(xí)在CIFAR-100的SOTA 的錯(cuò)誤率從26.68%降到23.68%。

        BC Learning 在CIFAR 數(shù)據(jù)集增廣示例如圖12所示。Ii為語義為狗的照片,Ij為語義為貓的照片,按照λ=0.5 的比例混合。

        Fig.12 Example of BC Learning augmentation圖12 BC Learning 圖像增廣示例

        mixup[49]與BC Learning[94]的思路如出一轍,且均在同時(shí)期提出。不同的是,mixup 的核心思想是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)和臨近風(fēng)險(xiǎn)最小化的原則。mixup 通過將傳統(tǒng)圖像標(biāo)簽的單熱向量編碼加權(quán)得到多熱向量編碼。同時(shí)在不增加模型復(fù)雜度的情況下,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到復(fù)雜度更低的函數(shù)來降低泛化誤差。mixup的做法是將任意兩個(gè)圖像樣本Ii和Ij及其對應(yīng)的語義標(biāo)簽yi和yj通過權(quán)重參數(shù)λ進(jìn)行加權(quán)相加,產(chǎn)生新的圖像I=λIi+(1-λ)Ij和對應(yīng)的的標(biāo)簽(1-λ)yj。

        由于mixup 圖像合成是通過兩個(gè)圖像樣本進(jìn)行逐像素線性相加,因此具有非常高效的特點(diǎn)。同時(shí),由于合成圖像的標(biāo)簽不再是獨(dú)熱形式,起到了標(biāo)簽平滑的效果,有效地提升了模型魯棒性。mixup 在ImageNet-2012[22]和CIFAR 數(shù)據(jù)集上進(jìn)行驗(yàn)證,均進(jìn)一步降低了SOTA 中的Top-1 和Top-5 的錯(cuò)誤率。

        Guo 等學(xué)者[88]認(rèn)為,盡管目前有大量的研究[57,66,95]對mixup 的整體有效性進(jìn)行研究和解釋。然而,截止到文獻(xiàn)[88]發(fā)表時(shí)為止,mixup 等像素混合圖像增廣的有效性都沒有完全被證明,只能依靠經(jīng)驗(yàn)在給定的數(shù)據(jù)集上反復(fù)實(shí)驗(yàn)調(diào)整超參數(shù)λ。為此,Guo 等學(xué)者提出了自適應(yīng)版本的AdaMixup[88]。在AdaMixup研究中,作者將2 個(gè)樣本混合擴(kuò)展到k(2 ≤k≤kmax)個(gè)樣本混合,并將該方法視為一種神經(jīng)網(wǎng)絡(luò)外的正則化技術(shù)進(jìn)行自適應(yīng)學(xué)習(xí)mixup 的混合策略。

        Sample Pairing[50]是IBM日本研究中心研究員Inoue等學(xué)者提出的混合圖像增廣框架。Sample Pairing 的核心思想是在包含N張圖像的數(shù)據(jù)集D中,任意選定一張圖像數(shù)據(jù)Ii,經(jīng)過基本的圖像增廣后分別將其與數(shù)據(jù)集D中剩余的N-1 張圖像(同樣經(jīng)過基本的圖像增廣)進(jìn)行混合。最終產(chǎn)生N-1 張新圖像樣本,這些樣本的語義標(biāo)簽仍然為yi。使用Sample Pairing圖像增廣框架,可以在樣本數(shù)量為N的數(shù)據(jù)集D上產(chǎn)生樣本數(shù)量為N2的新數(shù)據(jù)集。Sample Pairing 的增廣流程如圖13 所示。

        Fig.13 Procedure of SamplePairing augmentation圖13 SamplePairing 增廣流程圖

        SamplePairing圖像增廣框架,在CIFAR-10、CIFAR-100、SVHN 和ILSVRC 公開數(shù)據(jù)集上進(jìn)行驗(yàn)證,能夠顯著地降低分類錯(cuò)誤率。其中,在ILSVRC2012 數(shù)據(jù)集中,使用SamplePairing 數(shù)據(jù)增廣框架分類錯(cuò)誤率從33.50%降低到29.00%,在CIFAR-10 數(shù)據(jù)集上,分類錯(cuò)誤率從8.22%降低到6.93%。

        mixup 作為一種圖像混合增廣方法能夠降低模型在訓(xùn)練過程中的過擬合,但是至于為什么會(huì)起作用以及有沒有比以λ作為比例進(jìn)行線性混合更有效的方法,仍然吸引著大家的關(guān)注[93]。為了能夠進(jìn)一步提升混合樣本圖像增廣的性能,Summers 等學(xué)者[93]提出噪聲混合、垂直連接混合、水平連接混合、混合連接、隨機(jī)2×2 混合、垂直跨類別混合和隨機(jī)矩形混合等在內(nèi)的多種非線性混合的方法。作者在數(shù)據(jù)集CIFAR-10/100 上進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明垂直跨類別混合增廣最為有效,在兩個(gè)數(shù)據(jù)集的錯(cuò)誤率分別為3.80%和19.70%。但是,作為圖像混合的關(guān)鍵性問題,如何從理論上回答為什么這樣混合是有效的,目前仍然是一個(gè)開放性問題。其他mixup的衍生研究還包括mixup 訓(xùn)練過程解析[57]、特征層混合[96]、Manifold Mixup[54,97]和FMix[89]等。

        2.2 塊混合

        塊混合是將圖像樣本分成若干個(gè)圖像塊(patch),然后使用不同的塊進(jìn)行組合的圖像增廣技術(shù)。隨機(jī)圖像剪切合成增廣方法(random image cropping and patching,RICAP)[90]是Takahashi 等學(xué)者在ACML(Asian Conference on Machine Learning)提出的新穎圖像增廣方法。RICAP 的思想非常簡單,隨機(jī)從訓(xùn)練數(shù)據(jù)集中選出4 個(gè)圖像樣本Ii、Ij、Ik和Il,然后從4 個(gè)樣本中各隨機(jī)裁剪一部分,湊在一起合成一份新的樣本I′。如圖14 所示,合成的樣本I′的語義標(biāo)簽y′由4張圖像樣本按照像素貢獻(xiàn)總數(shù)占比進(jìn)行合成。作者在CIFAR10/100 數(shù)據(jù)集上驗(yàn)證RICAP。實(shí)驗(yàn)表明,RICAP 在CIFAR-10 的錯(cuò)誤率從Baseline 的3.89%降低到2.94%,達(dá)到當(dāng)時(shí)新的SOTA;在CIFAR-100 的錯(cuò)誤率,從Baseline的18.85%降低到17.44%。

        Fig.14 Illustration of RICAP data augmentation圖14 RICAP 圖像增廣示意圖

        RICAP 的具體操作方法如下:

        (1)使用隨機(jī)函數(shù)從數(shù)據(jù)集X中進(jìn)行無放回抽樣選出4 個(gè)基圖像樣本,分別命名為Ii、Ij、Ik和Il。

        (2)隨機(jī)生成合成位置坐標(biāo)(xw,yh),其中xw∈(0,W),yh∈(0,H),W和H分別表示圖像的寬度和高度。則位置坐標(biāo)(xw,yh)將需要合成的圖像劃分成4份,左上角的面積為Si=w×h,右上角面積為Sj=(W-w)×h,左下角的面積為Sk=w×(H-h),右下角的面積為Sl=(W-w)×(H-h)。

        (3)依次從第1 個(gè)圖像樣本Ii中隨機(jī)剪切出左上角面積的圖像部分,從第2 個(gè)圖像樣本Ij剪切出右上角的面積,從第3 個(gè)圖像樣本Ik剪切出左下角的面積,從第4 個(gè)圖像樣本Il剪切出右下角的面積。并根據(jù)面積計(jì)算合成圖像I′的標(biāo)簽y′,如式(18)所示。

        受到Cutout[72]圖像遮擋和mixup[49]圖像混合思想的啟發(fā),Yun 等學(xué)者提出了一種剪切混合的圖像增廣思路CutMix[91]。CutMix 增廣策略的思路是從一張圖像樣本中隨機(jī)移除一個(gè)塊(patch)。同時(shí),從另外一個(gè)類別的樣本中切出相同大小的塊替換掉移除的塊,合成一個(gè)新的樣本。該樣本的標(biāo)簽按照兩個(gè)類別樣本所占的像素比例確定多熱向量編碼。

        CutMix 具體的思路如下,給定圖像樣本I?RW×H×C,W、H和C表示圖像樣本的寬度、高度和通道數(shù)。CutMix 的目標(biāo)是給定兩個(gè)圖像樣本(IA,yA)和(IB,yB)合成一個(gè)新的樣本(I′,y′)。其中合成過程如方程組(19)所示。

        其中,M∈{0,1}W×H表示二進(jìn)制掩膜矩陣。?表示像素級乘法操作。λ服從Beta(α,α)分布,其中α=1 進(jìn)行采樣。為了生成掩膜矩陣,首先需要生成候選框B,B=(rx,ry,rw,rh)表示兩個(gè)圖像樣本中的取景區(qū)域。其中rx和ry表示區(qū)域左上角的坐標(biāo),rw和rh表示寬度和高度,如方程組(20)所示。對于M中坐標(biāo)在B區(qū)域內(nèi)的賦值為0,其他值賦值為1。

        CutMix 在ImageNet 上使用ResNeXt-101[18]模型Top-1 和Top-5 的準(zhǔn)確率分別提升2.4 個(gè)百分點(diǎn)和1.05 個(gè)百分點(diǎn),在CIFAR-100 數(shù)據(jù)集上分別提升2.64個(gè)百分點(diǎn)和1.4 個(gè)百分點(diǎn)。

        2.3 語義混合

        剪切、粘貼與學(xué)習(xí)圖像增廣[92]是卡內(nèi)基·梅隆大學(xué)研究員Dwibedi 等學(xué)者提出的在目標(biāo)檢測應(yīng)用場景下的有效圖像增廣方法。其方法是為了在有限的數(shù)據(jù)集合成足夠多的標(biāo)簽數(shù)據(jù)進(jìn)行圖像示例切割模型的訓(xùn)練。該方法的增廣思路是從樣本中切出實(shí)例像素區(qū)域作為實(shí)例元素庫,隨機(jī)選擇不同的背景圖像,隨機(jī)從實(shí)例元素庫中選取實(shí)例元素并將其隨機(jī)覆蓋到背景圖像中。由于圖像樣本通過算法進(jìn)行控制合成而來,因此在合成的過程中可以直接生成切割標(biāo)注。剪切、粘貼與學(xué)習(xí)圖像增廣有效地解決了實(shí)例切割中需要大量標(biāo)注圖像的問題。實(shí)例示意圖如圖15 所示。

        Fig.15 Example of cut,paste and learn augmentation圖15 剪切、粘貼與學(xué)習(xí)圖像增廣示意圖

        2.4 圖像混合增廣總結(jié)

        圖像混合增廣的最大創(chuàng)新之處就是改變圖像樣本標(biāo)簽的獨(dú)熱標(biāo)注信息。訓(xùn)練樣本數(shù)據(jù)集的標(biāo)簽信息更加平滑,在一定程度上能夠提升網(wǎng)絡(luò)的泛化容量。盡管目前有很多不同類型的圖像混合的方式,但是圖像混合研究目前還主要處于實(shí)驗(yàn)科學(xué)階段,缺乏完備的科學(xué)理論對其進(jìn)行解釋。

        3 特征空間增廣

        特征空間增廣是面向訓(xùn)練樣本的特征進(jìn)行增廣,達(dá)到提升模型泛化性能的目標(biāo)。特征空間增廣區(qū)別于傳統(tǒng)圖像空間增廣,增廣操作在樣本經(jīng)過若干個(gè)神經(jīng)網(wǎng)絡(luò)層所產(chǎn)生的隱向量上進(jìn)行。使用Zi=F(Ii)表示圖像樣本Ii經(jīng)過特征編碼函數(shù)F(?)獲得其隱空間的特征Zi的過程。與圖像空間增廣類似,特征空間增廣可以依據(jù)特征增廣后的特征標(biāo)簽是否出現(xiàn)擾動(dòng)進(jìn)一步分類成特征變換和特征增廣。

        特征變換增廣可以表示為等式組(21),其中Zj′表示執(zhí)行增廣操作T(Zi)輸出的增廣隱特征。

        特征混合增廣范式可以形式化表示為等式組(22)。其中,Mz(?)表示特征的混合算法函數(shù),My(?)表示對應(yīng)的標(biāo)簽混合算法函數(shù)。

        特征空間增廣研究匯總?cè)绫? 所示。Devries和Taylor 兩位學(xué)者在2017 年ICLR(The International Conference on Learning Representations)中提出了在數(shù)據(jù)集特征空間實(shí)現(xiàn)數(shù)據(jù)增廣的方案[102]。該方案由三個(gè)步驟構(gòu)成:首先,使用一個(gè)序列自動(dòng)編碼器從無標(biāo)簽的數(shù)據(jù)X中學(xué)習(xí)該樣本不同序列的表達(dá),并形成該樣本的特征向量集合C。然后,將樣本通過編碼器生成樣本的特征,再對特征進(jìn)行增廣。例如增加噪聲、插值等。最后,經(jīng)過增廣后的特征將可以用于訓(xùn)練靜態(tài)的特征分類器或者用于訓(xùn)練序列分類器。該方法用于阿拉伯?dāng)?shù)字識別中進(jìn)行評估,可在基線測試中將錯(cuò)誤率從1.53%降至1.28%。該方法的創(chuàng)新之處是將在樣本空間中的增廣方法遷移到特征空間中,能夠在少量訓(xùn)練樣本中學(xué)習(xí)到更強(qiáng)的表達(dá)邏輯,從而降低模型的誤差。

        Liu 等學(xué)者認(rèn)為諸如翻轉(zhuǎn)、變形、噪聲、裁剪等圖像空間的數(shù)據(jù)增廣方法產(chǎn)生的合理數(shù)據(jù)非常有限,因此Liu 等學(xué)者提出了在特征空間進(jìn)行線性插值的對抗自動(dòng)編碼(adversarial autoencoder,AAE)[100]圖像增廣方法。AAE 是自動(dòng)變分編碼器(variational autoencoder,VAE)和生成對抗網(wǎng)絡(luò)GANs 的結(jié)合體。AAE 將自動(dòng)變分編碼器中的KL 散度損失替換成生成對抗網(wǎng)絡(luò)的判別器損失。

        AAE 與標(biāo)準(zhǔn)的VAE 一樣,從圖像樣本I經(jīng)過編碼器轉(zhuǎn)換成隱空間中的特征變量Z,在隱空間中對Z進(jìn)行線性插值后再通過解碼器生成增廣樣本I′。不同的是引入對抗網(wǎng)絡(luò)從Z中進(jìn)行采樣P(Z)作為其中的一個(gè)輸入,同時(shí)將隱空間中插值后的Z作為另外一個(gè)輸入,計(jì)算兩路輸入之間的對抗損失。AAE 在CIFAR 數(shù)據(jù)集中進(jìn)行評估后獲得了最優(yōu)的結(jié)果。

        特征空間增廣將在圖像層(raw image layer)的增廣操作泛化到特征隱藏層(latent layer),使得圖像增廣的范疇更加廣泛和圖像增廣研究的思路更加開闊。同時(shí),研究[96]表明在特征空間增廣相對于在圖像空間增廣效果更加顯著。未來,更多在圖像空間增廣的研究成果可以在特征空間上進(jìn)行應(yīng)用、檢驗(yàn)和改善。

        4 半監(jiān)督增廣

        半監(jiān)督圖像增廣的思路是將訓(xùn)練數(shù)據(jù)集外的其他未標(biāo)注數(shù)據(jù)通過半監(jiān)督技術(shù)使其加入到訓(xùn)練數(shù)據(jù)集中,以此達(dá)到擴(kuò)充訓(xùn)練數(shù)據(jù)集的效果。使用U=表示具有K個(gè)樣本的無標(biāo)簽數(shù)據(jù)集,使用Φ(?)表示通過使用已有訓(xùn)練數(shù)據(jù)集X進(jìn)行預(yù)訓(xùn)練的模型。使用yk′=Φ(uk)表示無標(biāo)簽樣本uk的偽標(biāo)簽,并將(uk,yk′)加入到訓(xùn)練數(shù)據(jù)集X中,以此達(dá)到擴(kuò)充訓(xùn)練數(shù)據(jù)集的目標(biāo)。

        Table 4 Methods of feature augmentation表4 特征空間增廣研究匯總

        Han 等[103]學(xué)者提出了基于Web 的數(shù)據(jù)增廣的方法用于提升圖像分類的效果。增廣的思路總結(jié)如下:(1)將相同類別的訓(xùn)練樣本放入同一個(gè)有序列表中,排在越前的樣本代表該類的可信度越大。然后從每個(gè)類別的列表中隨機(jī)選擇圖像樣本作為種子上傳到Google 進(jìn)行以圖搜圖。(2)下載所有的搜索結(jié)果,計(jì)算所下載圖像樣本與列表中圖像樣本的相似度。滿足相似度閾值的圖像樣本將加入到候選集中,其樣本標(biāo)簽與種子標(biāo)簽一致。(3)每個(gè)圖像列表中選擇Top-K個(gè)最高相似度的下載圖像樣本,加入到訓(xùn)練數(shù)據(jù)集中。該方法的有效性易受到諸如網(wǎng)絡(luò)和圖像提供方等外在因素的影響。該方法適合在缺乏額外圖像樣本的情景下作為一種可選的訓(xùn)練集增廣方法。

        Berthelot 等學(xué)者[51]提出MixMatch 的半監(jiān)督數(shù)據(jù)增廣方法。首先,MixMatch 使用半監(jiān)督的技術(shù)預(yù)測K個(gè)經(jīng)過隨機(jī)數(shù)據(jù)增廣后的無標(biāo)簽樣本的標(biāo)簽。然后,將K個(gè)標(biāo)簽經(jīng)過算法最終確定給出該無標(biāo)簽樣本的預(yù)測標(biāo)簽。最后使用mixup 技術(shù)隨機(jī)從半監(jiān)督增廣獲得數(shù)據(jù)集和已有標(biāo)簽數(shù)據(jù)集中選擇圖像樣本進(jìn)行混合形成最終增廣后的訓(xùn)練數(shù)據(jù)集。

        MixMatch 的半監(jiān)督過程如圖16 所示。對于任意給定的一張沒有標(biāo)簽的圖像數(shù)據(jù)I,分別使用K種不同的數(shù)據(jù)增廣方法對其進(jìn)行增廣K次,產(chǎn)生K個(gè)增廣后圖像樣本{I0′,I1′,…,IK-1′}。然后將K個(gè)樣本輸入分類器獲取K個(gè)輸出{y0′,y1′,…,yK-1′},并對K個(gè)輸出進(jìn)行求平均后銳化得到y(tǒng)′。使用y′作為無標(biāo)簽樣本I的標(biāo)簽。

        Fig.16 Overview workflow of MixMatch augmentation圖16 MixMatch 增廣的核心思想流程圖

        作者在CIFAR-10 數(shù)據(jù)集上,使用MixMatch 對沒有標(biāo)簽的數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí),使得模型的分類錯(cuò)誤率降低4 倍。然而,由于CIFAR 數(shù)據(jù)集的分辨率太低以及MixMatch 方法僅在CIFAR 數(shù)據(jù)集上進(jìn)行評估,因此該方法在高分辨率的數(shù)據(jù)集上的效果有待評估。

        獲取大量的標(biāo)簽數(shù)據(jù)集是一個(gè)昂貴且費(fèi)時(shí)的過程,然而獲取無標(biāo)簽的原始數(shù)據(jù)集是一個(gè)相對容易的事情。而半監(jiān)督數(shù)據(jù)增廣方法能夠?qū)o標(biāo)簽的數(shù)據(jù)集利用起來提升模型的性能。因此,半監(jiān)督數(shù)據(jù)增廣是圖像增廣的一個(gè)重要研究方向。

        5 虛擬圖像增廣

        虛擬圖像生成增廣是通過生成模型(主要以生成對抗網(wǎng)絡(luò)為主)直接生成圖像樣本,并將生成的樣本加入到訓(xùn)練集中,從而達(dá)到數(shù)據(jù)集增廣的目標(biāo)。使用I′=G(Z,y)表示以噪聲信號Z為種子,通過模型G(?)生成標(biāo)簽為y的虛擬樣本。虛擬圖像生成增廣通常使用生成對抗網(wǎng)絡(luò)及其衍生網(wǎng)絡(luò)作為圖像樣本的生成模型。

        Goodfellow 等學(xué)者[58]提出生成對抗網(wǎng)絡(luò)的模式,讓網(wǎng)絡(luò)模型之間通過對抗學(xué)習(xí)的方式不斷地提升生成網(wǎng)絡(luò)的生成質(zhì)量和判別網(wǎng)絡(luò)的判別能力,隨即掀起了一股對抗學(xué)習(xí)的熱潮。后續(xù)GANs 模型的改善主要是為了解決對抗學(xué)習(xí)過程中存在的模式坍塌和訓(xùn)練困難的問題。

        5.1 GANs的虛擬圖像增廣方法

        研究[62,104]表明GANs 是一種有效的無監(jiān)督的圖像數(shù)據(jù)增廣方法。基于GANs 的圖像增廣是使用GANs 及其衍生模型作為工具在已有數(shù)據(jù)集上產(chǎn)生更豐富的圖像樣本,以此達(dá)到豐富訓(xùn)練數(shù)據(jù)樣本提升應(yīng)用模型在測試集性能的目標(biāo)。

        5.1.1 樸素生成對抗網(wǎng)絡(luò)

        將Goodfellow 等學(xué)者[58]提出的生成對抗模型稱為樸素生成對抗網(wǎng)絡(luò)。該模型首次將兩個(gè)相互對抗的圖像樣本生成網(wǎng)絡(luò)和真假鑒別網(wǎng)絡(luò)融合在同一個(gè)模型,使用異步訓(xùn)練的方式相互提高兩個(gè)模型的性能。使用圖17(a)來描述樸素生成對抗網(wǎng)絡(luò)的模型。

        5.1.2 條件生成對抗網(wǎng)絡(luò)

        Fig.17 Model illustrations of different GANs圖17 不同生成對抗網(wǎng)絡(luò)模型圖

        由于樸素生成對抗網(wǎng)絡(luò)[58]缺少外部類別信息作為指導(dǎo),訓(xùn)練過程非常困難,為了給生成器和判別器添加額外信息加快收斂速度,條件生成對抗網(wǎng)絡(luò)技術(shù)(conditional generative adversarial networks,CGANs)[105]在生成器的輸入端將待生成樣本的類別信息作為監(jiān)督信號傳入到生成模型中作為約束,如圖17(b)所示??梢愿鶕?jù)輸入的條件信息生成符合條件的圖像樣本,尤其適合在圖像增廣方面應(yīng)用[106]。

        5.1.3 輔助分類條件對抗網(wǎng)絡(luò)

        為了能夠提供更多的輔助信息進(jìn)行半監(jiān)督訓(xùn)練,Odena 等學(xué)者提出在條件生成對抗網(wǎng)絡(luò)的判別器中加入一個(gè)額外分類任務(wù),便于在訓(xùn)練過程中利用原始任務(wù)以及分類任務(wù)的優(yōu)化對模型進(jìn)行調(diào)優(yōu),這個(gè)方法稱為分類輔助生成對抗網(wǎng)絡(luò)(auxiliary classifier generative adversarial networks,ACGAN)[107]。

        在ACGAN 中,除了隨機(jī)噪聲圖像Z外,每個(gè)生成的樣本具有對應(yīng)的標(biāo)簽。生成器G同時(shí)接受噪聲圖像Z和待生成的樣本的標(biāo)簽C,產(chǎn)生虛擬圖像Xfake=G(C,Z)。判別器接收真實(shí)圖像樣本Xreal和虛擬圖像樣本Xfake的數(shù)據(jù)分布,判斷出樣本是否為真,如果為真則預(yù)測出該樣本的類別。ACGAN 的模式可以簡化描述為圖17(c),額外的分類任務(wù)的加入可以生成更加清晰的圖像并且加入輔助分類器有效緩解了模型崩塌問題。實(shí)驗(yàn)結(jié)果表明ACGAN 在CIFAR-10 數(shù)據(jù)集上分類準(zhǔn)確性達(dá)到同期研究的最好效果。

        由于ACGAN 圖像增廣的研究框架的適用性,ACGAN被應(yīng)用到多個(gè)領(lǐng)域的視覺處理任務(wù)相關(guān)研究中。例如:Mariani 等學(xué)者為了解決圖像分類中數(shù)據(jù)集標(biāo)簽不平衡的問題提出了數(shù)據(jù)平衡生成對抗網(wǎng)絡(luò)(balancing generative adversarial networks,BAGAN)[108]。作者以ACGAN 為基礎(chǔ),將ACGAN 中的“真假”輸出和“類別”輸出合成為一個(gè)輸出,解決了在訓(xùn)練過程中遇到少數(shù)類時(shí)兩個(gè)損失函數(shù)相互沖突的問題。實(shí)驗(yàn)結(jié)果表明BAGAN 在MNIST、CIFAR-10、Flowers和GTSRB 四個(gè)數(shù)據(jù)集中,分類準(zhǔn)確性表現(xiàn)比ACGAN更優(yōu)秀。

        Huang 等學(xué)者[109]基于ACGAN 模型提出了Actor-Critic GAN 解決圖像分類應(yīng)用在中類內(nèi)數(shù)據(jù)不平衡的問題。使用ACGAN 模型對類內(nèi)不平衡的樣本進(jìn)行有差別的增廣,擴(kuò)大類內(nèi)圖像的差異性。實(shí)驗(yàn)結(jié)果表明相比原始圖像,作者的方案能提高大約2 個(gè)百分點(diǎn)的準(zhǔn)確率。

        Singh 等學(xué)者提出基于ACGAN 模型的惡意軟件圖像增廣框架(malware image synthesis using GANs,MIGAN)[110]。作者使用MIGAN 解決了在惡意軟件分析過程中帶標(biāo)簽的惡意軟件圖像數(shù)據(jù)缺乏的問題。

        5.1.4 其他生成對抗網(wǎng)絡(luò)變種

        Antoniou 等學(xué)者提出了基于GANs 的數(shù)據(jù)增廣對抗網(wǎng)絡(luò)(data augmentation generative adversarial networks,DAGAN)[63],并在多個(gè)數(shù)據(jù)集中應(yīng)用DAGAN進(jìn)行數(shù)據(jù)增廣驗(yàn)證。

        DAGANs 的架構(gòu)如圖18 所示。左邊是圖像生成網(wǎng)絡(luò),右邊是判別器網(wǎng)絡(luò)。生成網(wǎng)絡(luò)分成兩部分:一部分是線性投射網(wǎng)絡(luò),接收由高斯分布產(chǎn)生的隨機(jī)噪聲圖像zi,并通過線性投射到新的zi;另外一部分是接收一個(gè)真實(shí)的圖像樣本xi,并對該樣本進(jìn)行初始特征編碼生成ri。解碼器接收xi和zi生成虛擬圖像xg。判別器網(wǎng)絡(luò)接收真實(shí)圖像樣本的數(shù)據(jù)分布(xi,xj)和生成器生成的虛擬圖像分布(xi,xg),輸出標(biāo)量識別虛擬圖像是否為假。DAGANs 與CGANs 最大的不同是監(jiān)督信號直接是訓(xùn)練數(shù)據(jù)集的圖像樣本本身而非樣本的標(biāo)簽。

        Fig.18 Architecture illustration of data augmentation GANs圖18 數(shù)據(jù)增廣對抗網(wǎng)絡(luò)示意圖

        實(shí)驗(yàn)結(jié)果表明,在字體分類應(yīng)用場景中,Omniglot[111]數(shù)據(jù)集中準(zhǔn)確率從69%提升到82%,準(zhǔn)確率提升幅度為13個(gè)百分點(diǎn),在EMNIST[112]數(shù)據(jù)集準(zhǔn)確率從73.9%提升到76%,累計(jì)提升幅度為2.1個(gè)百分點(diǎn)。在字體匹配場景中,Omniglot 數(shù)據(jù)集中準(zhǔn)確率從96.9%提升了0.5個(gè)百分點(diǎn)到97.4%,在EMNIST數(shù)據(jù)集準(zhǔn)確率從59.5%提升到了61.3%,累計(jì)提升1.8 個(gè)百分點(diǎn)。

        Tran 等學(xué)者[67]提出了一種基于生成對抗網(wǎng)絡(luò)的貝葉斯的圖像數(shù)據(jù)增廣方法,稱其為BDAA(Bayesian data augmentation approach),如圖19 所示。在現(xiàn)有圖像數(shù)據(jù)集D的基礎(chǔ)上,訓(xùn)練一個(gè)圖像生成網(wǎng)絡(luò)G,使用生成網(wǎng)絡(luò)G生成虛擬圖像樣本集D′,通過訓(xùn)練集合成的方式將虛擬圖像樣本集D′合成到現(xiàn)有圖像數(shù)據(jù)集D,D=D?D′。再使用新的D重新訓(xùn)練G,直到D的數(shù)據(jù)集達(dá)到預(yù)設(shè)的條件后,使用D訓(xùn)練圖像分類網(wǎng)絡(luò)C。BDAA 的亮點(diǎn)是提出了數(shù)據(jù)增廣的框架,對于樣本生成模塊可以靈活替換成不同的生成網(wǎng)絡(luò)模型。為了能夠更好地理解虛擬圖像生成增廣的方法及其研究,本文通過表5 回顧生成對抗網(wǎng)絡(luò)(GANs)及其衍生變種。表6 總結(jié)了其他相關(guān)的生成對抗網(wǎng)絡(luò)模型,受限于篇幅,本文不再展開分析。

        Fig.19 Architecture illustration of Bayesian data augmentation approach圖19 BDAA 數(shù)據(jù)增廣方法示意圖

        5.2 基于GANs圖像增廣應(yīng)用

        Frid-Adar等學(xué)者[131]使用DCGANs(deep convolutional generative adversarial networks)[115]模型對肝部CT 掃描圖像進(jìn)行增廣,解決了肝部腫塊等異常圖像數(shù)據(jù)標(biāo)注困難的問題。作者使用DCGANs 在少量標(biāo)準(zhǔn)的樣本數(shù)據(jù)集中合成大量的帶標(biāo)注圖像,能夠有效地?cái)U(kuò)大肝部異常檢測的訓(xùn)練數(shù)據(jù)集。實(shí)驗(yàn)表明,訓(xùn)練數(shù)據(jù)集中加入DCGANs 合成的圖像樣本,應(yīng)用模型在測試數(shù)據(jù)集中靈敏度和特異度分別提升7.1個(gè)百分點(diǎn)和4 個(gè)百分點(diǎn)。

        Table 5 Review of GANs model表5 GANs模型的回顧

        Table 6 Summary of GANs-based augmentation methods and corresponding improvements表6 基于GANs的圖像增廣方法及其效果匯總

        Shin 等學(xué)者使用GANs 進(jìn)行阿爾茲海默癥圖像和多模態(tài)腦腫瘤圖像的增廣和去隱私[132]。作者使用不存在任何關(guān)系的公開腦部標(biāo)簽圖像數(shù)據(jù)集和私有的病人腫瘤標(biāo)簽圖像數(shù)據(jù)集,其中公有的腦部標(biāo)簽數(shù)據(jù)集的數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于私有的腫瘤標(biāo)簽圖像數(shù)據(jù)集。使用GANs 生成腦部的標(biāo)注后和已經(jīng)切割出來的腫瘤圖像進(jìn)行合并生成腦部腫瘤圖像及其標(biāo)簽,并以此作為訓(xùn)練數(shù)據(jù)集。

        Lai 等學(xué)者[133]提出了一種條件臉部合成框架,該框架將變分自動(dòng)編碼器與條件生成對抗網(wǎng)絡(luò)相結(jié)合,以合成具有特定身份的臉部圖像。作者通過大量的定量和定性實(shí)驗(yàn)表明,使用作者的方法生成的面部圖像更具有多樣性和真實(shí)性,可用于數(shù)據(jù)增廣和訓(xùn)練高級人臉識別模型。

        Han 等學(xué)者[134]以PG-GANs(progressive growing of generative adversarial networks)[118]為基礎(chǔ)提出了腦部CT 影像的腫瘤檢測圖像增廣框架,該框架針對腦部的囊腫、轉(zhuǎn)移腫瘤和血管瘤進(jìn)行針對性增廣。作者使用YOLOv3[135]目標(biāo)檢測框架進(jìn)行訓(xùn)練和驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,在多種訓(xùn)練技巧結(jié)合的情況下,mAP指標(biāo)提高了3 個(gè)百分點(diǎn),靈敏度指標(biāo)提高了10 個(gè)百分點(diǎn)。

        基于GANs 的數(shù)據(jù)增廣相關(guān)的研究還包括Zhu等學(xué)者[60]提出使用CycleGANs 技術(shù)做表情圖像數(shù)據(jù)的增廣。Frid-Adar 等學(xué)者[61]使用DCGANs 實(shí)現(xiàn)肝臟數(shù)據(jù)的增廣。其他基于GANs 圖像增廣的相關(guān)研究讀者可以更近一步閱讀原文獻(xiàn)[65-66,103,136-139]。

        5.3 基于GANs圖像增廣小結(jié)

        基于GANs 生成接近真實(shí)的虛擬圖像樣本的方式進(jìn)行訓(xùn)練集圖像增廣,為圖像增廣提供了新的思路。更重要的是,虛擬圖像從噪聲圖像中生成,比真實(shí)的圖像更具有隨機(jī)性和多樣性。在訓(xùn)練數(shù)據(jù)不足的場景下能夠有效地提升圖像分類等應(yīng)用的效果。有效地解決了樣本不足、提取特征困難、生成圖像質(zhì)量差等機(jī)器視覺應(yīng)用中經(jīng)常遇到的問題。表6 匯總了當(dāng)前基于GANs 圖像增廣的具有代表性的研究及其效果。盡管如此,基于GANs 的圖像增廣方法仍然需要面對以下挑戰(zhàn):

        (1)模式坍塌。由于GANs 的訓(xùn)練過程缺乏監(jiān)督信息的指導(dǎo),擬合過程的隨機(jī)性很大。同時(shí)由于生成對抗網(wǎng)絡(luò)的學(xué)習(xí)能力有限,導(dǎo)致其只模擬出真實(shí)數(shù)據(jù)的一部分或者完全無法模擬真實(shí)的樣本數(shù)據(jù),產(chǎn)生模式上的缺陷,即模式坍塌(mode collapse)。模式坍塌生成的樣本冗余度大,質(zhì)量低和樣本的差異性小,難以達(dá)到訓(xùn)練數(shù)據(jù)增廣的目標(biāo)。雖然WGANs(Wasserstein GANs)[123]及其后續(xù)優(yōu)化研究WGANGP(WGAN with gradient penalty)[124]能夠在一定程度上抑制模式坍塌,但并沒有從根本上解決這個(gè)問題。

        (2)訓(xùn)練困難。GANs 的訓(xùn)練過程存在梯度突變和梯度消失的問題,訓(xùn)練過程極其不穩(wěn)定,雖然目前已有部分研究能夠緩解該問題,但仍需要結(jié)合大量的訓(xùn)練技巧才能獲得理想的訓(xùn)練結(jié)果[58,115,140-141]。

        (3)龐大的計(jì)算量。由于GAN 的訓(xùn)練過程極其復(fù)雜且需要龐大的計(jì)算量,限制了其在大尺寸圖像數(shù)據(jù)集上廣泛應(yīng)用。以目前的硬件計(jì)算速度而言,僅僅在小分辨率的圖像增廣上適用,例如28×28 或者64×64,但是超過256×256 或更高分辨率的圖像,計(jì)算代價(jià)較高[103]。

        (4)實(shí)用性有待驗(yàn)證。盡管已有研究表明使用基于GANs 的圖像增廣方法能夠有效地提升模型的性能,然而作為圖像增廣而言,GANs 及其衍生模型相對復(fù)雜,甚至模型的復(fù)雜度已經(jīng)超過了應(yīng)用模型的復(fù)雜度。因此,復(fù)雜的模型和訓(xùn)練過程限制了基于GANs 的圖像增廣方法不能和基本圖像變換增廣方法一樣作為預(yù)處理應(yīng)用。

        6 智能圖像增廣

        由于圖像增廣需要大量的專家知識作為業(yè)務(wù)指導(dǎo),在一個(gè)場景適用的圖像增廣方法和策略到另外一個(gè)場景卻不一定適用[62,142]。因此促進(jìn)了大量的智能化、自動(dòng)化圖像增廣策略的相關(guān)研究[47,62,64-66,69,71,143-144]。智能圖像增廣研究是在此背景中產(chǎn)生。在給定具體的圖像應(yīng)用任務(wù)和訓(xùn)練數(shù)據(jù)集中,智能圖像增廣算法或者模型通過訓(xùn)練學(xué)習(xí)的方式獲取最優(yōu)的圖像增廣策略。使得在其他條件不變的前提下,機(jī)器視覺相關(guān)的任務(wù)得到最大的性能提升。將智能圖像增廣分成策略搜索和策略調(diào)度兩個(gè)大類的方法,其中策略搜索方法解決給定增廣方法的策略參數(shù)的搜索,策略調(diào)度解決給定的應(yīng)用場景,確定圖像的增廣方法。

        6.1 增廣策略搜索

        Fawzi等學(xué)者[64]提出了自適應(yīng)圖像增廣方法。該方法使用仿射變換作為基本的數(shù)據(jù)增廣操作算子。已經(jīng)訓(xùn)練好分類器中,自適應(yīng)算法使得基于仿射變換后的增廣圖像在已有的網(wǎng)絡(luò)中獲得最大分類誤差。增廣后的圖像在現(xiàn)有網(wǎng)絡(luò)表現(xiàn)最差意味著增廣后的圖像樣本I′與原始樣本I在現(xiàn)有網(wǎng)絡(luò)C中的差異度最大。使用增廣后的圖像樣本重新訓(xùn)練分類器網(wǎng)絡(luò),而獲得分類準(zhǔn)確性的提升。作者在MNIST-500[145]和Small-NORB[146]兩個(gè)數(shù)據(jù)集上分別測試了該方法。在MNIST-500 數(shù)據(jù)集上,沒有增廣算法的前提下錯(cuò)誤率為1.84%,使用隨機(jī)仿射變換增廣算法錯(cuò)誤率為1.58%,使用作者提出的自適應(yīng)增廣的方法錯(cuò)誤率為1.03%。在Small-NORB 數(shù)據(jù)集上,不做數(shù)據(jù)增廣錯(cuò)誤率為6.80%,隨機(jī)仿射變換增廣的錯(cuò)誤率為6.49%,使用作者提出的增廣方法,錯(cuò)誤率為4.02%。實(shí)驗(yàn)結(jié)果表明,自適應(yīng)圖像增廣算法在兩個(gè)數(shù)據(jù)集上都表現(xiàn)得比隨機(jī)仿射變換增廣方法好。

        Ratner 等學(xué)者[66]提出智能轉(zhuǎn)換序列元學(xué)習(xí)增廣的方法。將每一種傳統(tǒng)的數(shù)據(jù)增廣技術(shù)(旋轉(zhuǎn)、鏡像、縮放、對比度調(diào)整等)作為一個(gè)操作單元T,將多個(gè)操作組合在一起變成增廣序列(transformation functions,TFs)。使用生成模型G從無標(biāo)簽的數(shù)據(jù)集D0中通過增廣序列產(chǎn)生生成數(shù)據(jù)集D′并合并到已有標(biāo)簽的訓(xùn)練數(shù)據(jù)集D中,作為目標(biāo)數(shù)據(jù)集對目標(biāo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。增廣過程如圖20 所示。

        序列學(xué)習(xí)增廣[66]在自適應(yīng)增廣方法[64]的基礎(chǔ)上,將搜索空間限定在有限范圍之內(nèi),使得策略的搜索更加高效。

        6.2 增廣策略調(diào)度

        Lemley 等學(xué)者[65]針對如何在訓(xùn)練數(shù)據(jù)集不足以訓(xùn)練目標(biāo)網(wǎng)絡(luò)的情況下,提出智能增廣(smart augmentation)技術(shù)。智能增廣的目標(biāo)是給定一個(gè)類別的訓(xùn)練樣本,在訓(xùn)練過程中找到最佳的增廣策略。智能增廣過程如圖21 所示。該方法合并兩個(gè)或者多個(gè)相同類別的圖像樣本,合并后生成的樣本用于目標(biāo)網(wǎng)絡(luò)的訓(xùn)練。目標(biāo)網(wǎng)絡(luò)的損失函數(shù)用于反饋到增廣網(wǎng)絡(luò)中進(jìn)行增廣策略的調(diào)整。該方法基于Feret[147]數(shù)據(jù)集的人臉圖像性別分類任務(wù)測試,其準(zhǔn)確率從83.52%提升到88.45%。

        Fig.20 High-level diagram of domain-specific transformations augmentation圖20 指定領(lǐng)域智能轉(zhuǎn)換序列增廣的頂層范式

        Fig.21 Illustration of smart augmentation圖21 智能增廣數(shù)據(jù)流圖

        基于學(xué)習(xí)的增廣策略的優(yōu)點(diǎn)是設(shè)計(jì)好增廣網(wǎng)絡(luò)及目標(biāo)網(wǎng)絡(luò)后,在不需要人為干預(yù)的情況下通過不斷的訓(xùn)練能夠找到最優(yōu)增廣策略使得目標(biāo)網(wǎng)絡(luò)的錯(cuò)誤率最低。但智能增廣存在以下弊端:首先是增廣網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)同時(shí)訓(xùn)練,GPU 計(jì)算代價(jià)龐大;其次訓(xùn)練及復(fù)現(xiàn)困難。迭代1 000 多次仍未收斂,獲得的數(shù)據(jù)增廣策略未必是全局最優(yōu)。

        Cubuk 等學(xué)者[47]提出了基于自動(dòng)機(jī)器學(xué)習(xí)的圖像數(shù)據(jù)增廣方法AutoAugment。如圖22 所示,Auto-Augment的工作流程如下:首先預(yù)設(shè)圖像增廣策略集合,通過搜索算法從增廣策略S中產(chǎn)生一個(gè)子策略Si,Si∈S。使用遞歸神經(jīng)網(wǎng)絡(luò)作為控制器,使用經(jīng)過Si策略增廣的訓(xùn)練集進(jìn)行訓(xùn)練,把獲得的模型在測試集的模型性能作為R的反饋,進(jìn)行搜索策略的更新。AutoAugment 在應(yīng)用過程中的主要問題是龐大的計(jì)算量,即便是在CIFAR 數(shù)據(jù)集上進(jìn)行增廣都需要超過5 000個(gè)GPU 小時(shí)。AutoAugment在對每一個(gè)增廣策略的搜索過程中,直接對增廣策略的連續(xù)參數(shù)空間進(jìn)行學(xué)習(xí)搜索,因此龐大的連續(xù)搜索空間也是其巨大的計(jì)算量的原因之一。

        Lim 等學(xué)者意識到盡管AutoAugment[47]方法能夠顯著地提高許多圖像識別任務(wù)的性能,然而數(shù)千GPU小時(shí)的計(jì)算量大大地限制了該方法的可用性[148]。因此,Lim 等學(xué)者使用圖像樣本的密度分布進(jìn)行增廣策略的匹配從而提出了快速自動(dòng)增廣方法(Fast Auto-Augment)。首先,F(xiàn)ast AutoAugment[148]將任意一個(gè)給定的訓(xùn)練數(shù)據(jù)集等比例劃分成K份,其中每一份訓(xùn)練數(shù)據(jù)集都包含一個(gè)用于訓(xùn)練的數(shù)據(jù)集和一個(gè)用于評估的驗(yàn)證集。然后,使用k個(gè)并行訓(xùn)練視覺模型的參數(shù)θ。當(dāng)完成視覺模型的參數(shù)θ已經(jīng)訓(xùn)練完成后,F(xiàn)ast AutoAugment[148]算法在k個(gè)評估的驗(yàn)證集DA上評估不同的圖像增廣策略,并獲得k組top-N個(gè)策略,加入到最終的增廣策略列表中,用于最終重新訓(xùn)練視覺模型參數(shù)θ。Fast AutoAugment[148]能夠大幅度降低AutoAugment[47]算法的GPU 時(shí)間。

        Lin 等學(xué)者在AutoAugment 的基礎(chǔ)上,提出在線超參數(shù)優(yōu)化技術(shù)(online hyper-parameter learning for auto-augmentation,OHL-Auto-Aug)[69],該方法將每種增廣策略劃分成不同的增廣幅度,強(qiáng)、中、弱,從而將策略的連續(xù)搜索空間變成離散搜索空間。該方法極大地降低了搜索空間,從而加速了智能增廣策略的訓(xùn)練效率。而Ho 等學(xué)者[70]則從搜索算法的角度對AutoAugment 的搜索過程進(jìn)行改進(jìn),提出了基于種群的搜索方法(population based augmentation,PBA),該方法通過生成靈活的增廣策略調(diào)度方法改變Auto-Augment 的固定搜索策略的方法。在同等測試準(zhǔn)確率的前提下,AutoAugment 在CIFAR 數(shù)據(jù)集上需要5 000 個(gè)GPU 訓(xùn)練小時(shí),PBA 僅需要5 個(gè)GPU 小時(shí)。

        6.3 智能圖像增廣小結(jié)

        使用智能圖像增廣的研究還包括Wang 等學(xué)者[62]使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多種數(shù)據(jù)增廣的方法,并找到最適合當(dāng)前分類器的最優(yōu)增廣策略。更多智能圖像增廣研究請讀者查閱參考文獻(xiàn)[68,70,149-154]。使用智能圖像增廣方法根據(jù)特定的圖像應(yīng)用任務(wù),自動(dòng)搜索出最佳的圖像增廣策略是目前圖像研究一個(gè)趨勢。其最大優(yōu)勢是可以降低對專家經(jīng)驗(yàn)依賴,最大的問題是計(jì)算代價(jià)較大。表7 匯總了不同智能圖像增廣算法所需要的運(yùn)算代價(jià)。

        7 結(jié)束語

        圖像增廣技術(shù)能夠有效地緩解由于訓(xùn)練標(biāo)簽數(shù)據(jù)不足帶來的過擬合問題,因此圖像增廣技術(shù)的研究近年來受到越來越多的關(guān)注和學(xué)者的持續(xù)投入。本文以圖像增廣的對象、操作空間、圖像標(biāo)簽處理方式以及增廣的策略的制定方式為依據(jù),提出了圖像增廣研究的分類框架。依據(jù)該分類框架,本文提煉出每類圖像增廣的研究范式,并系統(tǒng)性地梳理了每類研究范式下的最新圖像增廣研究工作。

        (1)從圖像的增廣對象上,本文將增廣對象分成三大類:分別是訓(xùn)練數(shù)據(jù)集外的其他無標(biāo)簽圖像樣本,訓(xùn)練數(shù)據(jù)集已有標(biāo)簽樣本以及從噪聲空間進(jìn)行隨機(jī)采樣虛擬圖像樣本。其中針對訓(xùn)練數(shù)據(jù)集外的其他無標(biāo)簽圖像樣本,主要通過半監(jiān)督學(xué)習(xí)技術(shù)確定無標(biāo)簽圖像的偽標(biāo)簽,并將偽標(biāo)簽作為無標(biāo)簽樣本的標(biāo)簽加入到已有訓(xùn)練數(shù)據(jù)集,達(dá)到擴(kuò)充訓(xùn)練數(shù)據(jù)集目標(biāo)。針對噪聲空間中的虛擬圖像樣本,通過以生成對抗網(wǎng)絡(luò)及其衍生網(wǎng)絡(luò)為主的技術(shù)直接生成圖像樣本,達(dá)到擴(kuò)充訓(xùn)練數(shù)據(jù)集的目標(biāo)。面向已有的訓(xùn)練集圖像樣本的增廣研究則相對復(fù)雜需要進(jìn)一步進(jìn)行區(qū)分。

        (2)在圖像增廣的操作空間上,本文對現(xiàn)有的增廣研究分成兩類:分別是原始圖像空間上進(jìn)行操作和在經(jīng)過若干層卷積網(wǎng)絡(luò)后產(chǎn)生的特征空間上進(jìn)行增廣操作。

        (3)在圖像標(biāo)簽的處理上,本文將現(xiàn)有圖像增廣的研究分成標(biāo)簽保留和標(biāo)簽擾動(dòng)兩大類。標(biāo)簽保留是指經(jīng)過圖像增廣后圖像樣本其標(biāo)簽與增廣前保持一致,反之將增廣標(biāo)簽產(chǎn)生變化的增廣稱為標(biāo)簽擾動(dòng)。

        (4)面對特定應(yīng)用場景,本文依據(jù)增廣策略的生成方式分成三類:默認(rèn)是由專家或者學(xué)者依據(jù)經(jīng)驗(yàn)和探索人工制定增廣的策略和參數(shù);其次由專家或者學(xué)者制定增廣策略,通過算法搜索出最優(yōu)的增廣參數(shù)組合;最后一類是直接交給系統(tǒng)進(jìn)行元學(xué)習(xí),通過深度學(xué)習(xí)網(wǎng)絡(luò)生成恰當(dāng)?shù)脑鰪V策略和參數(shù)。

        通過系統(tǒng)性梳理當(dāng)前圖像增廣的研究,當(dāng)前的研究現(xiàn)狀可以總結(jié)為:

        (1)自2017 年以mixup 為代表的標(biāo)簽擾動(dòng)研究提出,掀起了圖像混合增廣的研究熱潮。盡管圖像混合增廣研究能夠提高模型的在測試集的誤差,但是仍然存在著作用機(jī)制不明確的問題。

        (2)隨著生成對抗網(wǎng)絡(luò)提出和不斷完善,基于生成對抗網(wǎng)絡(luò)及其變種的圖像增廣研究百花齊放。然而,由于增廣過程中需要進(jìn)行大量的模型訓(xùn)練和優(yōu)化,增廣過程操作復(fù)雜程度甚至超過了目標(biāo)模型本身,因此,實(shí)際的應(yīng)用價(jià)值還存在爭議。

        Table 7 Cost comparisons of different smart augmentation methods表7 不同智能圖像增廣算法成本比較

        (3)隨著自動(dòng)機(jī)器學(xué)習(xí)和智能圖像增廣發(fā)展,現(xiàn)有圖像增廣研究已經(jīng)開始采用元學(xué)習(xí)的方式探索最優(yōu)圖像增廣參數(shù)或者圖像增廣策略。通過引入學(xué)習(xí)的機(jī)制代替專家制定增廣策略逐漸成為圖像增廣研究的一個(gè)重要分支。

        通過對現(xiàn)有圖像增廣研究的系統(tǒng)性分析和分類,圖像增廣研究在未來將呈現(xiàn)以下趨勢:

        (1)圖像增廣的研究范式出現(xiàn)交叉融合。不同的增廣對象之間出現(xiàn)融合,例如在無標(biāo)簽圖像樣本中引入噪聲生成虛擬圖像樣本。虛擬圖像生成增廣中引入學(xué)習(xí)機(jī)制等。

        (2)半監(jiān)督圖像增廣有望成為重要分支。隨著自監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù)的推進(jìn),無標(biāo)簽圖像樣本的數(shù)據(jù)價(jià)值將會(huì)得到進(jìn)一步的釋放。

        (3)特征空間圖像增廣有望成為主流。當(dāng)前已有大量的研究探索在圖像空間進(jìn)行增廣,并取得了大量的進(jìn)展。當(dāng)前研究人員在圖像空間進(jìn)行數(shù)據(jù)增廣已經(jīng)取得了不錯(cuò)的成果,未來在圖像空間增廣的研究思路有望在特征空間上進(jìn)行應(yīng)用和改良。

        致謝本文在撰寫過程中獲得了華南理工大學(xué)金連文教授、中國科技大學(xué)俞能海教授和拉卡拉集團(tuán)王欣明博士的指導(dǎo),在此表示衷心的感謝。

        猜你喜歡
        標(biāo)簽混合樣本
        混合宅
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        一起來學(xué)習(xí)“混合運(yùn)算”
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        推動(dòng)醫(yī)改的“直銷樣本”
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        油水混合
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        標(biāo)簽化傷害了誰
        村企共贏的樣本
        日韩精品成人一区二区三区久久久| 999国内精品永久免费视频| 久久中文字幕av一区二区不卡| 国产午夜精品久久久久九九| 国产女主播福利在线观看| 亚洲成av人片天堂网无码| 久久久无码中文字幕久...| 无码中文av有码中文av| 亚洲精品在线观看自拍| 少妇高潮太爽了在线看| 国产伦久视频免费观看视频| 动漫在线无码一区| 亚洲国产线茬精品成av| 无码免费无线观看在线视| 女人被爽到呻吟gif动态图视看| 粉嫩极品国产在线观看| 久久亚洲宅男天堂网址| 久久久久99人妻一区二区三区| 久久久无码中文字幕久...| 精品国产一区二区三区亚洲人 | 国产精品日本一区二区在线播放| 无码专区天天躁天天躁在线| 亚洲日日噜噜噜夜夜爽爽| 在线中文字幕一区二区| 亚洲国产天堂久久综合网| 91视频88av| 亚洲天堂一区二区精品| 国产精品高清网站| 中文字幕一区二区三区精彩视频 | 丁香婷婷激情俺也去俺来也| 国产一区二区黄色录像| 老熟女高潮一区二区三区| 高清国产亚洲va精品| 日本视频一区二区三区观看| 99久久精品费精品国产一区二 | 人妻少妇人人丰满视频网站| 黄色国产精品福利刺激午夜片| 久久成人国产精品免费软件| 巨爆乳中文字幕爆乳区| 日本在线一区二区三区视频| 欧美性猛交xxxx免费看蜜桃 |