李巧玲,關(guān)晴驍,趙險峰
(1. 中國科學(xué)院信息工程研究所信息安全國家重點(diǎn)實驗室,北京 100093;2. 中國科學(xué)院大學(xué),北京 100049)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像生成方式分類方法
李巧玲1,2,關(guān)晴驍1,2,趙險峰1,2
(1. 中國科學(xué)院信息工程研究所信息安全國家重點(diǎn)實驗室,北京 100093;2. 中國科學(xué)院大學(xué),北京 100049)
提出一種采用卷積神經(jīng)網(wǎng)絡(luò)對自然圖像和文檔掃描圖像進(jìn)行分類的方法,通過卷積和池化操作提取兩類圖像具有高區(qū)分度的特征,融合后得到分類判決結(jié)果。實驗結(jié)果表明,所提出的分類方法在SKL圖像庫上分類精度超過93%。圖像預(yù)處理對模型的精度以及模型訓(xùn)練收斂所需時間具有積極效果,經(jīng)過圖像預(yù)處理后訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型對圖像文字大小和圖像格式頑健。
卷積神經(jīng)網(wǎng)絡(luò);圖像生成方式;內(nèi)容模式分類;多媒體安全
隨著數(shù)字圖像處理技術(shù)和機(jī)器學(xué)習(xí)領(lǐng)域的快速發(fā)展,存在大量按照生成方式對圖像內(nèi)容模式進(jìn)行識別的工作,其中大多數(shù)工作集中在區(qū)分自然圖像和計算機(jī)生成圖像(computer graphics)[1~3]。文獻(xiàn)[1]提取基于小波直方圖的144維特征,輸入到FLD(fisher linear discriminant)分類器對計算機(jī)生成圖像和自然圖像進(jìn)行分類。文獻(xiàn)[2]通過建立基于一階和高階小波統(tǒng)計量的統(tǒng)計模型,揭示計算機(jī)生成圖像和自然圖像之間微妙的不同。在沒有任何人工標(biāo)注的前提下,文獻(xiàn)[3]通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型利用圖像顏色、光照和內(nèi)容的協(xié)調(diào)性分類自然圖像和合成圖像。在眾多的網(wǎng)絡(luò)傳輸圖像中,自然拍攝圖像和掃描文檔圖像占到較大的比例,而這2種圖像成像方式、內(nèi)容以及統(tǒng)計特性均有不同。因此,如果不加區(qū)分,容易造成一些系統(tǒng)的誤檢測率增高,如文檔掃描圖像將極大程度地增加隱寫分析系統(tǒng)的虛警率,而自然圖像由于其豐富的內(nèi)容,對用于檢測文檔圖像中密級標(biāo)識的密標(biāo)檢測系統(tǒng)也將帶來影響。與自然圖像和計算機(jī)生成圖像的識別方法相比,針對自然圖像和掃描圖像的分類手段相對較少。文獻(xiàn)[4]是為數(shù)不多的檢測掃描圖像和自然圖像的工作,但該工作與之前大部分區(qū)分自然圖像和計算機(jī)生成圖像的工作類似,采用較為傳統(tǒng)的技術(shù)路線,利用隱寫分析特征和分類器實現(xiàn)。文獻(xiàn)[4]根據(jù)圖像生成過程的差異性提取不同特征。計算給定圖像固定模式噪聲的殘差,利用噪聲殘差的相關(guān)統(tǒng)計量構(gòu)造15維的特征向量。使用SVM分類器對圖像內(nèi)容模式進(jìn)行分類,分類精度達(dá)到89.4%。
傳統(tǒng)的用于分類自然圖像和文檔掃描圖像的方法雖然可以達(dá)到比較高的準(zhǔn)確率,但仍然存在一定的弊端:計算單元有限,無法支持大規(guī)模數(shù)據(jù)集的訓(xùn)練,對于特征的表達(dá)有限。當(dāng)掃描圖像經(jīng)過JPEG壓縮之后再提取15維特征時,文獻(xiàn)[4]分類的準(zhǔn)確率發(fā)生明顯下降。研究過程中發(fā)現(xiàn),對于自然圖像和文檔掃描圖像的分類問題具有以下2個難點(diǎn)。
1) 文檔圖像存在字體和字號多樣性、版式多樣性等問題,且大量的表格、插圖、紙張底紋、文檔背景、掃描時的旋轉(zhuǎn)、文檔紙張的污損等均會對分類造成較大的影響。
2) 自然圖像中的紋理區(qū)域、標(biāo)牌字符、某些符號等,也容易對識別準(zhǔn)確率造成影響。
傳統(tǒng)的分類方法難以完全對這些問題頑健,由于其特征設(shè)計一般依賴于人為經(jīng)驗,因此難以設(shè)計出對以上問題均具有較好頑健性的特征。自然圖像和文檔圖像種類極其豐富,本文試圖使用另一種技術(shù)途徑解決該問題,即使用大量多樣的訓(xùn)練樣本涵蓋以上多種情況,并使用學(xué)習(xí)能力較強(qiáng)的方法獲取對以上多種條件均頑健且更具區(qū)分能力的檢測模型。
基于上述事實,本文提出一種高速高精度圖像類型識別的方法,主要針對自然圖像和文檔掃描圖像進(jìn)行分類。該方法采用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolutional neural network),利用多層卷積獲取對圖像內(nèi)容模式具有高區(qū)分度的特征,并融合得到分類判決信息,為內(nèi)容安全性檢測提供先驗依據(jù),減少后續(xù)不必要的檢測,提高內(nèi)容安全性檢測系統(tǒng)的準(zhǔn)確性。圖像分類與安全性檢測過程如圖1所示。本文圍繞利用卷積神經(jīng)網(wǎng)絡(luò)分類自然圖像和掃描文檔進(jìn)行探討,重點(diǎn)探討采用多種圖像預(yù)處理方法、學(xué)習(xí)方法對檢測精度和模型訓(xùn)練收斂速度的影響,并通過實驗驗證了合理的預(yù)處理對于模型的收斂速度和準(zhǔn)確率具有積極作用。本文還對文檔掃描圖像的字體大小和圖像格式的頑健性問題進(jìn)行了相關(guān)實驗論證。利用卷積神經(jīng)網(wǎng)絡(luò)對自然圖像和文檔掃描圖像進(jìn)行分類,具有較好的精度和實時性,可應(yīng)用于網(wǎng)絡(luò)在線媒體數(shù)據(jù)監(jiān)控等領(lǐng)域,具有重要且廣泛的應(yīng)用價值。
2.1 符號系統(tǒng)定義
為保證敘述的嚴(yán)謹(jǐn)性,首先定義本文所使用的符號系統(tǒng),各符號在下文中,如無特別說明,則默認(rèn)為本節(jié)所定義。本文涉及的符號系統(tǒng)主要如下。
定義訓(xùn)練樣本(x, y),x為神經(jīng)網(wǎng)絡(luò)的輸入,在本實驗中x為輸入到網(wǎng)絡(luò)的圖像。y表示x的類別。(xi, yi)為第i個訓(xùn)練樣本。S=((x1, y1), (x2,y2)…(xn, yn))為整個訓(xùn)練樣本集合。使用w和b對神經(jīng)網(wǎng)絡(luò)所有參數(shù)進(jìn)行表示,在卷積神經(jīng)網(wǎng)絡(luò)中w代表卷積核,b表示偏置向量。
圖1 圖像分類后進(jìn)行安全檢測
2.2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的一門重要技術(shù),從早期的感知機(jī)到目前蓬勃發(fā)展的深度學(xué)習(xí),已有了數(shù)十年的發(fā)展。神經(jīng)網(wǎng)絡(luò)的應(yīng)用涉及各個領(lǐng)域,如語音識別、機(jī)器翻譯、人臉識別等。神經(jīng)網(wǎng)絡(luò)是通過模仿動物神經(jīng)元之間傳遞、處理信息的模式。由簡單的處理單元(神經(jīng)元)相互連接構(gòu)成一個復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),整個神經(jīng)網(wǎng)絡(luò)是一個復(fù)雜的非線性系統(tǒng)。其變換過程可以描述為
圖2 神經(jīng)網(wǎng)絡(luò)模型以及單個神經(jīng)元信息處理過程
h為非線性激活函數(shù),常見的激活函數(shù)有Tanh、Sigmoid等。w、v分別為輸出層和隱層的權(quán)重矩陣,尺寸分別為n×m、m×d,n為輸出的類別數(shù)。b、c分別為輸出層和隱層的n維和m維偏置向量。如圖2左側(cè)所示,神經(jīng)網(wǎng)絡(luò)對輸入的d維向量,經(jīng)過隱層投影成一個m維的向量,再輸入到分類器進(jìn)行分類。
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成單元,每個神經(jīng)元是一個多輸入單輸出的信息處理單元,圖2右側(cè)為單個神經(jīng)元的信息處理過程,該過程可以簡單表示為
將(x1,x2,…,xd)輸入到神經(jīng)元i,每個輸入單元都進(jìn)行加權(quán)平均,權(quán)值系數(shù)和偏置都是經(jīng)過訓(xùn)練學(xué)習(xí)而來。zi為第i個神經(jīng)元的輸出,h為非線性激活函數(shù),神經(jīng)網(wǎng)絡(luò)通過引入非線性的激活函數(shù)使網(wǎng)絡(luò)能夠?qū)W習(xí)出更好的特征表達(dá),解決線性模型所不能解決的問題。
神經(jīng)網(wǎng)絡(luò)是一個分層的有向圖,同層節(jié)點(diǎn)之間沒有連接,節(jié)點(diǎn)之間不能越層連接。上層輸入經(jīng)過非線性變換后作為下層神經(jīng)元的輸入。隱層的數(shù)目,每層神經(jīng)元的個數(shù)以及非線性函數(shù)的選擇是構(gòu)成神經(jīng)網(wǎng)絡(luò)的關(guān)鍵。神經(jīng)網(wǎng)絡(luò)使用BP算法從大量訓(xùn)練樣本中學(xué)習(xí)出統(tǒng)計規(guī)律,從而對未知事件做預(yù)測。只含有較少隱層的神經(jīng)網(wǎng)絡(luò)稱為淺層模型,其局限性在于有限的計算單元,對特征的表示能力有限。當(dāng)前,神經(jīng)網(wǎng)絡(luò)已發(fā)展為深度模型,與淺層模型相比,深度模型通過構(gòu)建多個隱層利用海量的訓(xùn)練數(shù)據(jù),自動地學(xué)習(xí)更有用的特征,提升最終分類或預(yù)測的準(zhǔn)確性。2.3節(jié)介紹的卷積神經(jīng)網(wǎng)絡(luò)屬于該類深度模型。
2.3 卷積神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)通過有監(jiān)督或者無監(jiān)督的方式學(xué)習(xí)層次化的特征表達(dá),對物體進(jìn)行從底層到高層的特征描述。卷積神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)主流結(jié)構(gòu)之一。最早出現(xiàn)在20世紀(jì)80年代,最初應(yīng)用于手寫數(shù)字識別,取得了很好的效果。卷積神經(jīng)網(wǎng)絡(luò)是在多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的針對圖像分類而特別設(shè)計的一種深度學(xué)習(xí)方法。該網(wǎng)絡(luò)的布局更加接近于生物神經(jīng)網(wǎng)絡(luò)。對于圖像這種多維向量可以直接輸入到網(wǎng)絡(luò),無需進(jìn)行復(fù)雜預(yù)處理。
卷積神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)上加入卷積和池化層,并引入了局部感受野、權(quán)值共享的機(jī)制,大大減少了待訓(xùn)練的參數(shù)量。卷積層利用卷積核的移動來提取上層輸入的局部特征,然后非線性組合這些特征得到下層的輸入,逐層對圖像特征進(jìn)行抽象。卷積使圖像原信號增強(qiáng),并且降低噪聲,保持了圖像的空間信息,因而特別適合于對圖像進(jìn)行表達(dá);池化層利用圖像的局部相關(guān)性原理,對卷積后的特征圖進(jìn)行子抽樣,在大大減小數(shù)據(jù)處理量的同時保留圖像的有用信息,并且保證特征圖像對于旋轉(zhuǎn)、平移等變換具有一定的頑健性,常見的池化方法有Max Pooling、Mean Pooling。Max Pooling選擇圖像區(qū)域的最大值作為池化后的值;Mean Pooling計算圖像區(qū)域的平均值作為池化后的值。
文獻(xiàn)[5]提出了一種特征可視化的方法,通過提取各層的特征圖像進(jìn)行可視化。探討卷積神經(jīng)網(wǎng)絡(luò)每層對圖像所做的具體操作。卷積神經(jīng)網(wǎng)絡(luò)通過逐層迭代,提取特征。文獻(xiàn)[5]認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)中下層的卷積主要提取圖像的淺層特征,如邊緣、顏色、紋理等信息。越往上層提取的特征越高級。對特征的可視化,可以進(jìn)一步對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)優(yōu)。
卷積神經(jīng)網(wǎng)絡(luò)在語音識別和圖像處理方面有著獨(dú)特的優(yōu)越性,使其成為當(dāng)前語音識別和圖像識別領(lǐng)域的研究熱點(diǎn)。以Lecun[6]提出的“LeNet-5”為代表的卷積神經(jīng)網(wǎng)絡(luò),在手寫數(shù)字識別任務(wù)上取得了不錯的效果,Kussl等[7]提出的采用排列編碼技術(shù)的神經(jīng)網(wǎng)絡(luò)在人臉識別和小物體識任務(wù)上有較好的應(yīng)用。但目前神經(jīng)網(wǎng)絡(luò)在自然圖像和文檔掃描圖像分類任務(wù)上的應(yīng)用還存在空白,本文以經(jīng)典的“LeNet-5”為原型設(shè)計了“ScanNet”,使用卷積神經(jīng)網(wǎng)絡(luò)對數(shù)字圖像的內(nèi)容模式進(jìn)行分類。
隨著硬件性能的提升和算法的不斷優(yōu)化,卷積神經(jīng)網(wǎng)絡(luò)已從只能完成簡單的分類任務(wù)發(fā)展到能夠超越人類識別能力的水平[8]。針對不同復(fù)雜度的分類任務(wù),往往需要構(gòu)建不同的網(wǎng)絡(luò)結(jié)構(gòu)。對于簡單的分類任務(wù),一般會使用較少的卷積、池化和Relu(rectified linear unit)[9]非線性層,每層使用較少的卷積核數(shù)目來提取不同類別間的差異性特征。要完成較難的分類任務(wù),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)更加復(fù)雜,網(wǎng)絡(luò)參數(shù)量更大,需要的操作種類更多。
相對于早期卷積神經(jīng)網(wǎng)絡(luò)中使用最多的Tanh、Sigmoid非線性函數(shù)而言,Relu[9]:f(x)=max(0,x)非線性函數(shù)可以增加隱層單元的稀疏性,減少計算量,加速網(wǎng)絡(luò)收斂,并且Relu函數(shù)不存在飽和區(qū)域,反向傳播時,避免了梯度消失的問題。
當(dāng)訓(xùn)練樣本不足,網(wǎng)絡(luò)參數(shù)過多時模型會出現(xiàn)過擬合的現(xiàn)象。構(gòu)建網(wǎng)絡(luò)時為了防止過擬合現(xiàn)象的發(fā)生,一般采用在損失函數(shù)中加入L1或L2正則化項、early stopping、dropout[10]等技術(shù)。dropout以一定的概率將隱層的神經(jīng)元暫時從網(wǎng)絡(luò)中丟棄,丟棄就是對這些神經(jīng)元的權(quán)重系數(shù)暫時不做更新,但是權(quán)值仍然保留,以便接下來輸入的樣本對其進(jìn)行微調(diào)。
GPU的發(fā)展提升了計算機(jī)的計算能力。為了充分利用GPU強(qiáng)大的計算能力,目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)時采用批梯度下降代替原有的梯度下降和單樣本的隨機(jī)梯度下降,一次隨機(jī)使用一批(mini-batch)樣本的梯度對參數(shù)進(jìn)行微調(diào)。當(dāng)一小批樣本包含的圖像數(shù)目越多,訓(xùn)練所需的GPU顯存會相應(yīng)增加。每一小批圖像在選擇時引入了隨機(jī)性,使網(wǎng)絡(luò)從概率的角度考慮始終可以收斂。與使用單個樣本的隨機(jī)梯度下降法相比,批梯度下降每次可處理的數(shù)據(jù)量增多,提高了GPU的利用率,訓(xùn)練過程的效率得到了很好提升。與一次使用所有樣本更新參數(shù)的梯度下降相比,計算開銷減小,訓(xùn)練所需時間縮短。帶有動量[11](momentum)參數(shù)的隨機(jī)梯度下降法使網(wǎng)絡(luò)的收斂速度變得更快。
其中,vk、vk+1分別為第k次和第k+1次優(yōu)化時梯度下降的速率,a為學(xué)習(xí)速率,r為動量參數(shù)。加入動量參數(shù)后下降速率相對于常規(guī)的方法要更大,需要相應(yīng)地減小學(xué)習(xí)速率。一般動量初始化為0.5,當(dāng)模型趨于穩(wěn)定時逐漸增加動量到0.9。使用帶有動量參數(shù)的隨機(jī)梯度下降法,每一步梯度下降的量都需要參考前一步下降的量,使網(wǎng)絡(luò)能夠更快收斂,并且減小收斂到局部最優(yōu)點(diǎn)的可能性。
卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的速度和模型的精度受到多種因素的影響。如訓(xùn)練數(shù)據(jù)間往往存在較大的數(shù)值差異,使訓(xùn)練過程中誤差下降不穩(wěn)定,網(wǎng)絡(luò)學(xué)習(xí)速率變慢甚至不收斂等。對數(shù)據(jù)進(jìn)行減均值、z-score 標(biāo)準(zhǔn)化、白化操作可以消除不同特征分量之間的數(shù)值大小差異,改善網(wǎng)絡(luò)的學(xué)習(xí)性能。減均值的計算如下。
4.1 實驗環(huán)境
本文實驗所使用訓(xùn)練樣本和測試樣本圖像均來自SKL圖像庫。SKL圖像庫包含4 000張自然拍攝圖像和1 500張文檔掃描圖像。表1列出了用于建立SKL圖像庫所使用的拍攝設(shè)備和掃描設(shè)備名稱。所有相機(jī)拍攝圖像均采用RAW和JPEG這2種格式存儲。掃描儀分別設(shè)置3種不同的分辨率:100×100 dpi、300×300 dpi、600×600 dpi,掃描文檔存儲為JPEG格式。圖3和圖4 分別為SKL圖像庫中典型的自然圖像和文檔掃描圖像示例。
表1 圖像生成設(shè)備
圖3 典型自然圖像
圖4 典型掃描文檔
訓(xùn)練樣本包含1 600張圖像,其中800張JPEG格式的自然圖像,文檔掃描圖像800張。測試樣本包含600張圖像,JPEG格式的自然圖像300張,掃描文檔圖像300張,正負(fù)樣本分布均衡。實驗在Ubuntu 14.04上進(jìn)行,訓(xùn)練過程利用兩塊NVIDIA GTX TITAN X,采用CUDA和GPU并行計算提升卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。
4.2 ScanNet網(wǎng)絡(luò)結(jié)構(gòu)以及參數(shù)設(shè)置
適當(dāng)?shù)木矸e神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對于實現(xiàn)特定的分類任務(wù)至關(guān)重要。本文涉及的分類任務(wù)主要需要表達(dá)自然圖像與掃描文檔的區(qū)分信息,從視覺表觀而言,兩類圖像在局部和全局均存在具有區(qū)分能力的信息,需要建立從局部表達(dá)到全局綜合的網(wǎng)絡(luò)模型。因此,本文分別使用卷積層和全連接層達(dá)到以上目的。以經(jīng)典的LeNet-5為原型設(shè)計了ScanNet結(jié)構(gòu),如表2所示,ScanNet包含3層卷積以及2層全連接。本文利用深度學(xué)習(xí)框架Caffe(convolutional architecture for fast feature embedding)[12]搭建ScanNet。Caffe是一款開源的深度學(xué)習(xí)框架,擁有通用性強(qiáng)、性能高、代碼可讀性好等特點(diǎn),支持多種數(shù)據(jù)類型,并且支持多GPU并行。
表2 ScanNet網(wǎng)絡(luò)結(jié)構(gòu)
在ScanNet中,網(wǎng)絡(luò)每層卷積后連接有Relu非線性層和LRN歸一化層,經(jīng)過歸一化后每層的輸入更加穩(wěn)定,網(wǎng)絡(luò)學(xué)習(xí)速度更快。經(jīng)過不斷的調(diào)優(yōu),設(shè)定初始學(xué)習(xí)速率為0.000 1。通過迭代學(xué)習(xí),損失函數(shù)會逐漸接近最小值,與此同時需要減小學(xué)習(xí)速率。因此,實驗每迭代500次學(xué)習(xí)速率降為原來的。實驗為一個二類概率分類問題,損失函數(shù)為其中,yi標(biāo)簽取值為0或者1(0標(biāo)簽代表掃描文檔,1標(biāo)簽代表自然拍攝圖像)。,()i hwbx為Softmax分類器輸出將xi預(yù)測為第yi類的概率。以上損失函數(shù)為加入了正則化項的二類概率損失,等式右側(cè)第二項為正則化項。正則化項的加入使上式能夠更容易得到全局最優(yōu)解,防止模型過擬合,實驗λ=0.000 5。m為一次輸入到網(wǎng)絡(luò)的圖像數(shù)。
使用帶有動量參數(shù)的隨機(jī)梯度下降來學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),將動量固定為0.9,綜合考慮網(wǎng)絡(luò)的學(xué)習(xí)速度和GPU的顯存,設(shè)置每一小批樣本包含32張圖像。通過對比實驗發(fā)現(xiàn)對于目前的分類任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)是否使用dropout操作對于模型在測試樣本上的測試精度沒有影響。
4.3 樣本歸一化對模型的影響及模型頑健性實驗論證
本文主要圍繞卷積神經(jīng)網(wǎng)絡(luò)在識別數(shù)字圖像的內(nèi)容模式方面的應(yīng)用展開了研究。本文就圖像減均值歸一化操作對于模型的訓(xùn)練速度、測試精度的影響做了進(jìn)一步的實驗論證。實驗總共訓(xùn)練2個模型,在網(wǎng)絡(luò)結(jié)構(gòu)和配置參數(shù)相同的情況下,模型A未對輸入的訓(xùn)練樣本和測試樣本進(jìn)行減均值中心化處理,模型B對訓(xùn)練樣本和測試樣本的每個像素點(diǎn)都分通道進(jìn)行第3節(jié)所述的減均值預(yù)處理,經(jīng)過歸一化的訓(xùn)練樣本間具有更加相似的分布,網(wǎng)絡(luò)的訓(xùn)練過程更加高效。由于卷積神經(jīng)網(wǎng)絡(luò)只能處理固定尺寸的圖像,訓(xùn)練樣本和測試樣本圖像的尺寸不一,還需對圖像進(jìn)行尺寸處理。一般通過縮放、裁剪、扭曲將圖像變換到網(wǎng)絡(luò)要求的尺寸。在需要圖像整體特征時通過扭曲可以保留整張原始圖像信息。對于本分類任務(wù)而言無需圖像的整體特征,經(jīng)過縮放和裁剪之后自然圖像和掃描圖像之間的差異性特征不會發(fā)生改變。因此,本文在訓(xùn)練過程中首先將訓(xùn)練樣本的原始圖像縮放到600×600大小,再使用512×512大小的窗口對縮放之后的圖像進(jìn)行中心和四角的裁剪。在保證特征不變的前提下,同時增加兩類樣本的數(shù)量。并對訓(xùn)練樣本進(jìn)行隨機(jī)置亂以保證訓(xùn)練出的分類模型對類別預(yù)測無傾向性。測試樣本圖像直接通過尺度縮放到512×512大小。
圖5刻畫損失函數(shù)與訓(xùn)練迭代次數(shù)之間的關(guān)系,隨著迭代次數(shù)的增加損失函數(shù)逐漸下降并最終達(dá)到穩(wěn)定,當(dāng)損失函數(shù)保持穩(wěn)定時模型達(dá)到收斂。如圖5所示,訓(xùn)練樣本和測試樣本未進(jìn)行歸一化操作時,網(wǎng)絡(luò)需進(jìn)行800次迭代達(dá)到收斂,在測試樣本上的最優(yōu)測試精度為0.97;但進(jìn)行歸一化操作之后,經(jīng)過400次迭代模型便達(dá)到穩(wěn)定,并且此時的測試精度可以達(dá)到0.99,訓(xùn)練的效率要明顯高于未經(jīng)過歸一化的數(shù)據(jù)。通過進(jìn)一步的實驗發(fā)現(xiàn)經(jīng)過歸一化操作訓(xùn)練得到的模型對于掃描文件字符大小的頑健性要強(qiáng)于未經(jīng)過歸一化操作訓(xùn)練得到的模型。
圖5 模型A與模型B迭代次數(shù)和損失函數(shù)關(guān)系
圖6 模型B預(yù)測過程
使用模型B對100張掃描文檔和自然圖像進(jìn)行分類。待分類圖像包含掃描文檔和自然圖像各50張,自然圖像編號為1~50,掃描圖像編號為51~100。圖6為模型B對一張圖像進(jìn)行預(yù)測的基本流程。將待分類圖像輸入網(wǎng)絡(luò)之前先進(jìn)行減均值、尺寸變換等預(yù)處理,然后再輸入到神經(jīng)網(wǎng)絡(luò)對圖像類型進(jìn)行預(yù)測。圖7為模型B Softmax層對100張圖像輸出的分類概率。分類時使用一塊NVIDIA GTX TITAN X,每張圖像分類平均耗時0.7 s,當(dāng)增加GPU的數(shù)量,通過多線程可增加一次性預(yù)測分類的圖像張數(shù)。圖中圓形代表被誤分的自然圖像,菱形表示被錯誤分類的掃描圖像,三角形代表預(yù)測類型為自然圖像,矩形表示預(yù)測類型為文檔掃描圖像。分類混淆矩陣如表3所示,模型B的平均準(zhǔn)確率可達(dá)到94.0%。對未能正確分類的掃描文檔圖像分析發(fā)現(xiàn)這類圖像具有明顯的共性是不含文字。卷積神經(jīng)網(wǎng)絡(luò)模型為數(shù)據(jù)驅(qū)動的模型,模型的準(zhǔn)確率依賴于數(shù)據(jù)集包含的圖像種類和數(shù)量。造成模型對此類圖像無法正常分類的原因可能是由于訓(xùn)練樣本中不包含這類不含文字的文檔圖像,導(dǎo)致無法正確提取具有高區(qū)分度的特征。后續(xù)實驗可以將此類圖像加入到訓(xùn)練樣本中,豐富訓(xùn)練樣本類型,以達(dá)到更高的識別準(zhǔn)確率。
表3 模型B混淆矩陣
圖7 模型B分類概率
文檔圖像存在字體和字號多樣性、版式多樣性等問題。本文還從模型對掃描文檔的文字大小、圖像存儲格式的頑健性這2個方面進(jìn)行了研究。掃描文檔文字大小選用八號到初號不同大小的字符,模型B分類結(jié)果的準(zhǔn)確率可以達(dá)到97%。模型A識別的準(zhǔn)確率只能達(dá)到50%。用模型B對JPEG、TIFF、BMP、PNG格式的圖像進(jìn)行分類,識別的準(zhǔn)確率也可達(dá)到97%。
以上兩組實驗表明,經(jīng)過歸一化預(yù)處理的模型對于文檔字符的大小,以及圖像的格式具有很強(qiáng)的頑健性。這對于后續(xù)對圖像進(jìn)行安全檢測具有深遠(yuǎn)意義。
圖像類型的日益豐富,對隱寫分析、圖像內(nèi)容取證、失泄密檢查等圖像內(nèi)容安全檢測技術(shù)提出了挑戰(zhàn)。為了應(yīng)對圖像安全檢測技術(shù)面臨的挑戰(zhàn),適應(yīng)媒體類型多樣性的現(xiàn)狀,本文使用卷積神經(jīng)網(wǎng)絡(luò)按照圖像的生成方式對圖像進(jìn)行類型分類。通過卷積和池化操作提取自然圖像和文檔掃描圖像間具有高區(qū)分度的特征,構(gòu)建高速高精度圖像類型識別系統(tǒng)。所提出的分類方法在SKL圖像庫上的分類精度超過93%。訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型對于圖像文字大小和圖像格式頑健。本文通過對比實驗驗證了圖像預(yù)處理對于模型的精度以及模型訓(xùn)練收斂所需時間具有積極效果。
感知圖像的類型有助于提高圖像安全檢測的精度,對后續(xù)的安全檢測具有顯著意義。除了自然圖像和文檔掃描圖像,計算機(jī)合成圖像與屏幕截圖在進(jìn)行安全檢測前也需要按照生成方式分類。后續(xù)實驗還會將計算機(jī)合成圖像和屏幕截圖加入到訓(xùn)練樣本中,構(gòu)建更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練出能對更多內(nèi)容模式的圖像進(jìn)行準(zhǔn)確分類的模型。目前實驗使用1 600張圖像進(jìn)行訓(xùn)練,后續(xù)實驗將繼續(xù)豐富訓(xùn)練樣本的數(shù)量和類型,通過大樣本訓(xùn)練出更加高精度的模型。
[1] WANG Y, MOULIN P. On discrimination between photorealistic and photographic images[C]//IEEE International Conference on Acoustics Speech and Signal Processing. 2006.
[2] LYU S, FARID H. How realistic is photorealistic[J]. IEEE International Conference on Signal Processing, 2005, 53(2): 845-850.
[3] ZHU J Y, KRAHENBUHL P, SHECHTMAN E, et al. Learning a discriminative model for the perception of realism in composite images[C]//IEEE International Conference on Computer Vision. 2015: 3943-3951.
[4] KHANNA, N, CHIU G T C, ALLEBACH J P, et al. Forensic techniques for classifying scanner, computer generated and digital camera images[C]//IEEE International Conference on Acoustics,Speech and Signal Processing. 2008: 1653-1656.
[5] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2015: 5188-5196.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998,86(11): 2278-2324.
[7] KUSSUL E, BAIDYK T, WUNSCH II D C. Permutation coding technique for image recognition system[M]. Neural Networks and Micromechanics, 2010: 47-73.
[8] KAIMING H, XIANGYU Z, SHAOQING R, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//IEEE International Conference on Computer Vision. 2015: 1026-1034.
[9] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//The 27th International Conference on Machine Learning. 2010: 807-814.
[10] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[11] SUTSKEVER I, MARTENS J, DAHL G, et al. On the importance of initialization and momentum in deep learning[C]//The 30th International Conference on Machine Learning. 2013: 1139-1147.
[12] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//The ACM International Conference on Multimedia. 2014: 675-678.
關(guān)晴驍(1984-),男,湖南湘潭人,博士,中國科學(xué)院信息工程研究所助理研究員,主要研究方向為多媒體內(nèi)容安全、通信隱寫分析。
趙險峰(1969-),男,安徽淮北人,博士,中國科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,主要研究方向為信息安全事件檢測分析的理論與技術(shù),包括信息隱藏及其檢測、網(wǎng)絡(luò)安全異常行為檢測、大數(shù)據(jù)安全分析以及相關(guān)技術(shù)在內(nèi)容保護(hù)、版權(quán)保護(hù)和系統(tǒng)防護(hù)等中的應(yīng)用。
Image generation classification method based on convolution neural network
LI Qiao-ling1,2, GUAN Qing-xiao1,2, ZHAO Xian-feng1,2
(1. State Key Laboratory of Information Security, Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)
Using convolution neural network which though convolution and pooling extracting features of high distinguish ability and then make fusion for classification of natural images and scanned documents. Experimental results show that the classification accuracy of the proposed classification method is more than 93% on the SKL image database. The model is highly robust to font sizes and image formats. Through contrast experiment validated that preprocessing of image has a positive effect on the accuracy of the model and the time cost on training.
convolution neural network, image generation mode, content pattern classification, multimedia security
當(dāng)前,網(wǎng)絡(luò)圖像類型日益豐富,這導(dǎo)致圖像安全檢測容易出現(xiàn)被測圖像和檢測模型失配問題,媒體失配問題使圖像安全檢測方法的性能大大降低。造成圖像類型日益豐富的主要原因是圖像生成方式較多,這包括拍攝設(shè)備拍攝、計算機(jī)生成、掃描儀掃描等,為了使圖像安全檢測技術(shù)適應(yīng)媒體類型多樣性的現(xiàn)狀,技術(shù)上需要按照生成方式對圖像進(jìn)行類型分類,感知圖像的類型可以為后續(xù)安全檢測提供先驗知識,有助于提高后續(xù)圖像安全檢測的精度和效率。
s: The National Natural Science Foundation of China (No.61303259, No.U1536105), The Strategic Pilot Science and Technology Project of the Chinese Academy of Sciences (No.XDA06030600), The Key Project of Institute of Information Engineering, Chinese Academy of Sciences (No.Y5Z0131201)
TP37
A
10.11959/j.issn.2096-109x.2016.00096
2016-07-16;
2016-08-09。通信作者:李巧玲,liqiaoling@iie.ac.cn
國家自然科學(xué)基金資助項目(No.61303259, No.U1536105);中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項課題基金資助項目(No.XDA06030600);中國科學(xué)院信息工程研究所重點(diǎn)基金資助項目(No.Y5Z0131201)
李巧玲(1992-),女,湖北宜昌人,中國科學(xué)院信息工程研究所碩士生,主要研究方向為信息對抗理論與技術(shù)。