黃 曜,許華虎,歐陽杰臣,高 玨
(1.上海大學,上海 200444;2.上海上大海潤信息系統(tǒng)有限公司,上海 200444)
基于混合特征提取的圖像來源鑒別算法
黃 曜1,許華虎2,歐陽杰臣1,高 玨1
(1.上海大學,上海 200444;2.上海上大海潤信息系統(tǒng)有限公司,上海 200444)
隨著數(shù)碼圖像的普及,圖像盲取證成為時下的研究熱點之一。如何識別圖像來源是其中主要的研究內(nèi)容。特征提取是對圖像進行鑒別的前提。文中通過對現(xiàn)有的特征提取方法進行研究,針對現(xiàn)有單一特征提取不能完全反映圖像特質導致識別出錯的問題,提出混合特征提取的概念,依次提取圖像的顏色特征、紋理特征以及統(tǒng)計特征,從而提高圖像來源的識別率。通過實驗對文中提出的算法進行了驗證。結果表明,文中提出的混合特征提取算法較任一單一特征提取算法都能取得更好的圖像來源鑒別率。
圖像盲取證;單一特征提取;混合特征提取;圖像來源鑒別率
隨著現(xiàn)代數(shù)字技術的發(fā)展,以及數(shù)碼相機的普及,數(shù)字圖像在日常生活和工作中得到了廣泛的使用。相應地,篡改圖像內(nèi)容并使得人眼難以覺察出偽造的痕跡變得越來越頻繁與容易,由此帶來的影響輕則干擾人們的正常生活,重則影響國家、社會和政治穩(wěn)定[1]。因此,鑒別圖像的真實性顯得日益迫切,圖像盲取證技術作為研究要點被提出并成為時下熱點之一。
圖像盲取證技術主要涉及四個方面的問題[2-3],其中之一便是如何確認圖片是由相機、手機等設備所拍攝的自然圖像,還是經(jīng)過計算機制作的圖像,抑或是掃描儀直接掃描生成的圖像。傳統(tǒng)的圖像來源鑒別算法主要包括特征提取、特征選擇以及構造分類器等多項技術。特征提取作為前期的重要部分,所做的工作是如何高效地提取對最終鑒別有利的特征。針對特征集維數(shù)過大的問題,現(xiàn)有的圖像盲取證大多采用單一特征提取。Lyu等對攝影圖像和計算機生成圖像進行分類時采用基于金字塔分解的自然圖像統(tǒng)計模型的方法[4]。其主要方法便是對圖像的統(tǒng)計特征加以分析,最終區(qū)分這兩種不同來源的圖像。Khanna等對掃描圖像進行研究,先對待測圖像進行不同的去噪操作,從而獲得不同的噪聲信息,然后通過提取圖像的殘余噪聲行以及列平均值的統(tǒng)計信息等一系列相關性特征,成功鑒別由掃描儀生成的圖像[5]。Binghamton大學的J.Fridrich在對自然圖像的研究中,提出將由自然圖像提取的模式噪聲作為“相機指紋”來進行數(shù)碼相機的個體識別,并最終將該理論擴展到打印圖片的來源辨識中[6]。
這些算法大多都是對圖像的某個特征進行提取并分類以達到特定的鑒別效果,也取得了一定的鑒別率。但是,圖像的信息量其實是非常豐富的,如果僅用某種單一的特征進行鑒別,那么所能獲取的關于圖像的來源信息則相當有限,甚至無法反映圖像的特質,這將直接影響最終鑒別的效果。所以,找到一種高效而又盡可能地反映圖像特征的特征提取方法意義重大。
因為傳統(tǒng)的單一特征提取算法從圖像中獲取的信息非常有限,不能全面地概括圖像的個性特征,導致了圖像來源鑒別率不高。所以,文中提出有關混合特征提取的理論,希望通過提取包括圖像的顏色特征、紋理特征以及統(tǒng)計特征的混合特征以達到提高鑒別率的目的。
1.1 基于HSV顏色直方圖的顏色特征提取
通常來說,掃描儀的色純受燈管的工藝限制影響,使得掃描而成的圖像有一定的偏色現(xiàn)象[7]。所以,顏色特征可以用來鑒別自然圖像與掃描圖像。因此,文中將顏色特征作為要提取的混合特征之一。另外,為避免可能出現(xiàn)的“維數(shù)災難”問題,文中采取可量化的HSV顏色空間進行顏色特征提取。
1.1.1 顏色模型轉換
在實際應用中,通常選取RGB顏色模型來表述圖像的顏色空間。所以,為得到HSV顏色空間,首先應進行從RGB空間到HSV空間的顏色模型轉換。
令
則有:
h=
(1)
(2)
v=max(r,g,b)
(3)
其中,r,g,b∈[0,1],h∈[0,60],s,v∈[0,1]。
1.1.2HSV空間的量化
通常來說,采用模式分類的思想鑒別圖像來源,問題之一是如何避免維數(shù)災難[8]。設計分類器的時候,如果特征維數(shù)過大,會導致出現(xiàn)計算量過大、復雜性高、效率低的情況。而一幅彩色圖像所含的顏色信息非常豐富,這導致了圖像的特征向量維數(shù)非常高。因此,縮減特征維數(shù)是非常必要的。
對于HSV顏色空間中的顏色特征來說,量化包括非等間隔與等間隔兩種方式[9]。 由于等間隔量化后的顏色空間可能會出現(xiàn)信息集中于少數(shù)顏色中,還有可能會使得相同的顏色中包含完全不同的信息,這顯然會影響最后識別的效率,所以文中采用非等間隔量化。
文中選擇降低到72維矢量,即把色調H空間分成8份,飽和度S和亮度V空間分別分成3份,進行非等間隔量化。則有:
(4)
(5)
(6)
其中,H的不同取值表示色調的種類。
為便于計算,先對H、S、V取不同的權值,再根據(jù)H、S、V的量化級數(shù)和頻帶寬度,進而得到組合后的一維矢量L:
L=HQsQv+SQv+V
(7)
其中,Qs,Qv表示S和V的量化級數(shù),Qs=3,Qv=3。
因此,式(7)可表示為:
L=9H+3S+V
(8)
則L的取值范圍為[0,71],這樣計算L可獲得72柄的一維直方圖。通過提高色調H的權重,相對降低飽和度S以及亮度V的權重,這樣便能充分提取圖像中的顏色信息,為最終的鑒別做好準備。
1.2 基于灰度共生矩陣的紋理特征提取
在計算機制作生成圖像的過程中,設備以及自然光線沒有起到任何作用[10],所以最終生成的圖像與自然圖像在統(tǒng)計與紋理特征方面都有顯著的差別。因此,文中將紋理特征與統(tǒng)計特征作為混合特征中的另外兩個特征用以鑒別自然圖像與計算機生成圖像。
文中采用灰度共生矩陣[11]的方法來提取圖像的紋理特征。除了不用考慮顏色信息外,灰度共生矩陣的方法計算量以及復雜程度相對較低,并且提取出的特征向量維數(shù)相對較少,這對鑒別是非常有利的。
1.2.1 計算共生矩陣
假設圖像在水平和垂直方向上分別有Nx和Ny個像素。水平空間域表示為Zx={1,2,…,Nx},垂直空間域表示為Zy={1,2,…,Ny}。給定距離d和方向角度θ后,就可以計算相應的共生矩陣元素p(i,j|d,θ)值。一般取d=1,θ分別為0°、45°、90°、135°。則有相應公式:
(9)
(10)
(11)
(12)
其中:k、m和l、n表示所選窗口中的變動;#表示集合中的像素對數(shù)。
1.2.2 紋理特征的提取
(1)RGB圖像轉換成灰度圖像。
N=0.299×r+0.587×g+0.114×b
(13)
(2)共生矩陣的歸一化。
(14)
其中,R為歸一化常數(shù),R=
(3)計算特征向量。
實際應用中,還需要通過得到的共生矩陣計算二次統(tǒng)計量作為紋理狀況的表征。Haralick等[12]發(fā)現(xiàn)了多個灰度共生矩陣特征參數(shù)用于分析圖像的紋理狀況。Ulaby等[13]研究發(fā)現(xiàn):在這些參數(shù)中,只有4個特征是不相關的,而且這4個特征相對地更加方便計算,所以文中也選取這4個特征。
①角二階矩或能量。
(15)
角二階矩是考量圖像灰度變化是否均一的特征參數(shù)。由式(15)可知,對于均勻性較好的紋理,其大多數(shù)元素大多集中在共生矩陣的主對角線上,所以角二階矩值較大,而對于均勻性較差的紋理,其元素多分散于對角線兩邊,所以角二階矩值較小。
②對比度。
(16)
對比度描述了圖像的灰度變化情況,反映了紋理的強弱和圖像的清晰度。對比度越大,紋理就越明顯;反之,紋理就越不明顯。對比度為0表示圖像沒有紋理。
③熵。
(17)
熵是考量圖像信息量的特征參數(shù),用來表示圖像灰度級的混亂程度。圖像灰度級的混亂程度高,圖像熵值較大;混亂程度低,圖像熵值較小。同樣地,圖像沒有紋理時,熵值為0。
④相關性。
(18)
相關性是考量圖像灰度線性關系的特征參數(shù),用來表示灰度共生矩陣中行或列元素之間的相似程度。若灰度值沿某些方向延伸得越長,相關性的值就越大。
1.3 基于相對頻率的統(tǒng)計特征提取
對于圖像來說,不同的成像模型以及光線傳遞方式會導致不同的內(nèi)在屬性[14]。而圖像的統(tǒng)計特征可以用來表示圖像信息的變化情況和內(nèi)在屬性,故文中將圖像的統(tǒng)計特征作為識別成像設備所提取的特征之一。同樣地,因為灰度圖像的直方圖與RGB三通道直方圖分布相似[15],為了減少計算量,降低特征維數(shù),本節(jié)還是對灰度圖像進行統(tǒng)計特征提取。
1.3.1 計算相對頻率
假設給定的彩色圖像大小為M×N,則其相應灰度圖像的滑塊總數(shù)Ng可由下式計算得出:
Ng=?M/b」×?N/b」
(19)
其中,b為滑窗操作的窗口大小。
由于自然圖像與計算機生成圖像的灰度級數(shù)大多不同[16],所以本節(jié)引入相對頻率來表征圖像的統(tǒng)計特征。每個圖像塊中每個像素的相對頻率的計算公式如下:
(20)
1.3.2 計算相對頻率均值與方差
對于數(shù)字圖像而言,每個像素點的相對頻率從某種程度上反映了圖像的像素統(tǒng)計特征。均值能夠反映統(tǒng)計總體的平均特征,所以文中計算相對頻率均值(MRF),用以表征圖像相對頻率總體的平均特征。MRF計算公式如下:
(21)
方差能夠從某種程度上反映統(tǒng)計總體的信息和能量梯度[17]。圖像的方差越大,則圖像的信息越豐富。因此,文中計算相對頻率方差(VRF),用以表征圖像相對頻率的統(tǒng)計信息和能量梯度。VRF計算公式如下:
(22)
相對于普通的成像設備鑒別算法,文中擬提取顏色特征、紋理特征、統(tǒng)計特征的混合特征以提高鑒別準確率,具體算法步驟如下:
(1)按照上文所述方法依次提取圖像的顏色特征、紋理特征以及統(tǒng)計特征。
(2)訓練和測試。對于最終的鑒別,文中采用的是模式識別的方法。即使用SVM分類器對待測圖像進行分類以鑒別圖像由哪種成像設備生成。首先,從圖像庫里選取一定數(shù)量的自然圖像、掃描儀生成圖像以及計算機生成圖像,然后將所有圖像分成訓練組與測試組。訓練組用來訓練分類器得到分類模型,測試組用來最后的鑒別。鑒別的具體步驟與流程如圖1所示。
圖1 混合特征提取算法流程
首先,從圖像庫中隨機選取300張自然圖像,300張計算機生成圖像以及300張掃描圖像作為訓練組,再選取200張自然圖像,200張計算機生成圖像以及200張掃描圖像作為測試組。同時,為了驗證混合特征提取對最終鑒別效果的提升作用,文中利用傳統(tǒng)的單一顏色特征提取、紋理特征提取以及統(tǒng)計特征提取分別進行了實驗,并對比了文中提出的混合特征提取算法的實驗效果,結果如表1所示。
由表1可得:首先,傳統(tǒng)的單一顏色特征提取算法對掃描圖像有良好的鑒別效果,而紋理特征提取與統(tǒng)計特征提取算法對計算機生成圖像有更好的鑒別效果。所以,選取這三個特征用以鑒別自然圖像、計算機生成圖像與掃描儀生成的圖像是正確的。其次,文中算法相對于任一單一特征提取算法,在鑒別效率上都有一定的提高,從而驗證了文中起初的設想,混合特征提取能提高圖像來源鑒別的效率。
表1 文中算法與傳統(tǒng)單一特征提取算法鑒別效果比較 %
為避免單一特征提取算法所造成的圖像來源鑒別率不高的問題,文中提出了基于混合特征提取的圖像來源鑒別算法。文種依次提取了圖像的顏色特征、紋理特征以及統(tǒng)計特征,并使用模式分類的方法,實現(xiàn)了圖像的來源識別。最后的實驗結果表明,相比任一單一特征提取算法,文中提出的混合特征提取算法在圖像來源鑒別率上都有一定的提高,能較好地區(qū)分自然圖像、計算機生成圖像以及掃描儀生成圖像,達到了預期效果。但是,混合特征提取的算法使得特征維數(shù)有相應增加,導致計算量增大以及在最終的鑒別階段,如何決定所選擇的各個特征的權重都是文中亟待解決的問題。
[1]YongIY.Detectionofdigitalforgeriesusinganimageinterpolationfromdigitalimages[C]//ProcofIEEEinternationalsymposiumonconsumerelectronics.[s.l.]:IEEE,2008:1-4.
[2]SencarHT,MemonN.Overviewofstate-of-the-artindigitalimageforensics[C]//ProcofWSPC.[s.l.]:WorldScientificPress,2008.
[3]KhannaN,MikkilineniAK,MartoneAF,etal.Asurveyofforensiccharacterizationmethodsforphysicaldevices[J].DigitalInvestigation,2006,3:17-28.
[4]LyuSW,FaridH.Howrealisticisphotorealistic?[J].IEEETransactionsonSignalProcessing,2005,53(2):845-850.
[5]MikkilineniKN,ChiuAK,AllebachGTC,etal.Scanneridentificationusingsensorpatternnoise[C]//ProcofSPIE.[s.l.]:[s.n.],2007.
[6]LukasJ,GoljanM.Cameraidentificationfromprintedimages[C]//ProcofSPIE.SanJose,CA:[s.n.],2008.
[7] 張桂蘭,齊愛軍.掃描儀實用指南[M].北京:印刷工業(yè)出版社,2007:30-75.
[8] 宋楓溪,高秀梅,劉樹海,等.統(tǒng)計模式識別中的維數(shù)削減與低損降維[J].計算機學報,2005,28(11):1915-1922.
[9] 荊仁杰.計算機圖像處理[M].杭州:浙江大學出版社,1990.
[10]SwaminathanA,WuM,LiuKJR.Digitalimageforensicsviaintrinsicfingerprints[J].IEEETransactionsonInformationForensicsandSecurity,2008,3(1):101-117.
[11]HaralickRM.Statisticalandstructuralapproachestotexture[J].ProcofIEEE,1979,67(5):786-804.
[12]HaralickRM,ShanmugamK.Texturefeaturesforimageclassification[J].IEEETransactionsonSystems,Man,andCybernetics,1973,3(6):610-621.
[13]UlabyFT,KouyateF,BriscoB,etal.TexturalinformationinSARimages[J].IEEETransactionsonGeoscienceandRemoteSensing,1986,24(2):235-245.
[14] 譚碧濤,景春元,張 新,等.光電系統(tǒng)對空間目標成像建模仿真研究[J].計算機仿真,2009,26(5):240-243.
[15] 張恒博,歐宗瑛.一種基于色彩和灰度直方圖的圖像檢索方法[J].計算機工程,2004,30(10):20-22.
[16] 王學良,李生紅,金 波,等.一種用于計算機生成圖像與自然圖像鑒別的改進方法[J].光電子·激光,2010,21(5):783-785.
[17] 姚 權,吳曉紅,何小海,等.基于能量、梯度與方差的多聚焦圖像融合[J].信息與電子工程,2012,10(1):93-97.
Image Source Identification Algorithm Based on Mixed Feature Extraction
HUANG Yao1,XU Hua-hu2,OUYANG Jie-chen1,GAO Jue1
(1.Shanghai University,Shanghai 200444,China; 2.Shang Da Hai Run Information System Co.,Ltd.,Shanghai 200444,China)
With the popularity of digital images,blind image forensics has become one of the hotspots nowadays.The main research content of blind image forensics is how to identify the image source.Feature extraction is a prerequisite to identify the image.By studying the existing feature extraction methods,aiming at the problem that the single feature extraction may not fully reflect the image characteristics to lead to the recognition error,the concept of mixed feature extraction is proposed,extraction of the features of color,texture and statistics to improve the recognition rate for image source.The algorithm proposed in this paper is validated through the experiment.The results show that the mixed feature extraction algorithm proposed can achieve better image source identification rate compared with any single feature extraction algorithm.
blind image forensics;single feature extraction;mixed feature extraction;image source identification rate
2015-07-15
2015-10-21
時間:2016-03-22
國家重大科技專項課題(2009ZX04001-111)
黃 曜(1991-),男,碩士,研究方向為圖像多媒體技術;許華虎,教授,博士生導師,CCF高級會員,研究方向為人機交互、圖像處理、多媒體網(wǎng)絡技術等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1521.076.html
TP301.6
A
1673-629X(2016)04-0011-05
10.3969/j.issn.1673-629X.2016.04.003