摘 要:本文提出了一種基于BP神經(jīng)網(wǎng)絡(luò)和多重特征的色情圖像檢測(cè)方法。用已知色情圖像塊作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,再對(duì)待檢測(cè)圖像進(jìn)行分塊操作,并提取每個(gè)圖像塊的紋理、形狀和顏色特征信息,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類檢測(cè)。經(jīng)matlab實(shí)驗(yàn)仿真,本算法對(duì)色情圖像的檢測(cè)精度可以達(dá)到85%。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);多重特征;色情圖像
中圖分類號(hào):TP391.41
隨著網(wǎng)絡(luò)的高速發(fā)展,互聯(lián)網(wǎng)已極大地改變了人們的生活,成為人們生活中不可或缺的一部分。而如今網(wǎng)絡(luò)上的色情圖像越來越多,色情圖像會(huì)對(duì)青少年身心造成了極大的傷害,急需加強(qiáng)對(duì)色情圖像的管控力度。而基于特征的圖像檢索技術(shù)正是正確識(shí)別色情圖像的基礎(chǔ),F(xiàn)orsyth[1]小組將人體看做符合一定規(guī)則的若干柱狀區(qū)域組合,通過顏色和紋理特征確定圖像中的皮膚區(qū)域,再在皮膚區(qū)域中尋找柱狀投影區(qū),從而識(shí)別人體,但該算法的識(shí)別率不高且處理速度較慢。eVe是eVision[1]公司開發(fā)的圖像搜索引擎,用于對(duì)不良圖像信息進(jìn)行檢測(cè)和過濾,它通過膚色過濾、分割圖像和特征比較三個(gè)階段,但該引擎在判定相似度為40%至70%時(shí)需人工干預(yù),不能完全實(shí)現(xiàn)自動(dòng)化。胡冠宇提出了一種人體特定部位的敏感圖像過濾器,該過濾器可以檢測(cè)到裸露人體的胸前部位和私處部位,再通過結(jié)合臉部特寫分類器,可以達(dá)到較好的檢測(cè)效果。
先將色情圖像的敏感區(qū)域圖像塊作為訓(xùn)練圖像,供BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。再確定出待檢測(cè)圖像中的皮膚區(qū)域,根據(jù)皮膚區(qū)域?qū)D像進(jìn)行分塊操作,提取每個(gè)塊的多重特征,再通過BP神經(jīng)網(wǎng)絡(luò)檢測(cè)該圖像所對(duì)應(yīng)的塊中是否包含敏感圖像塊,若存在敏感圖像塊,則判定該檢測(cè)圖像為色情圖像。
1 色情圖像的特征提取
形狀、顏色、紋理是色情圖像最為突出的三個(gè)特征。本算法通過提取這三種特征構(gòu)成多重特征對(duì)色情圖像進(jìn)行檢測(cè)。
本算法中提取的多種特征中使用Hu矩對(duì)圖像的形狀信息進(jìn)行描述。Hu矩是Hu提出的基于代數(shù)不變的矩不變量。通過對(duì)幾何矩的非線性組合,利用二階和三階中心矩得出7個(gè)不變矩,具有較好的旋轉(zhuǎn)不變性。多重特征中還包括圖像的紋理特征。本算法采用灰度共生矩陣來描述圖像的紋理信息?;叶裙采仃囃ㄟ^對(duì)圖像上保持某距離的兩像素分別具有的灰度的狀況進(jìn)行統(tǒng)計(jì)得到的,本算法通過下面四個(gè)灰度共生矩陣的能量、對(duì)比度、逆差距和相關(guān)度四個(gè)屬性對(duì)圖像紋理信息進(jìn)行描述:
顏色特征也是色情圖像重要的特征之一。本算法選取HSV顏色空間,HSV顏色空間較為直觀。其中H指色相,即顏色名稱;S指的是飽和度,即色彩的純度,飽和度越高表示色彩越純,越低則色彩越灰;V指的是色調(diào),即色彩的明度。在本算法中,顏色特征主要用于檢測(cè)皮膚區(qū)域,將原圖像轉(zhuǎn)換到HSV空間后,按照閾值的設(shè)定,將滿足要求的區(qū)域作為皮膚區(qū)域。
2 檢測(cè)算法設(shè)計(jì)
2.1 BP神經(jīng)網(wǎng)路分類器設(shè)計(jì)
BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程分為正向傳播和誤差的反向傳播,其主要思想是在網(wǎng)絡(luò)結(jié)構(gòu)搭建之后,通過正向傳播獲取整個(gè)網(wǎng)絡(luò)的誤差,然后通過反向傳播根據(jù)具體的誤差情況調(diào)整網(wǎng)絡(luò)中的各個(gè)權(quán)值,最終確定網(wǎng)絡(luò)中輸入與輸出的映射關(guān)系。本算法將神經(jīng)網(wǎng)絡(luò)設(shè)為兩層,一層為隱含層,另一層為輸出層。將訓(xùn)練圖像塊分為4類,分別為胸部圖像、肚臍圖像、敏感區(qū)域圖像和皮膚圖像。所以輸出層設(shè)為4個(gè)神經(jīng)元,而隱含層神經(jīng)元的個(gè)數(shù)暫設(shè)置為20。隱含層的激活函數(shù)為對(duì)數(shù)S型轉(zhuǎn)移函數(shù),而輸出層的激活函數(shù)則為線性函數(shù)。
2.2 BP神經(jīng)網(wǎng)絡(luò)檢測(cè)算法步驟
圖1 BP神經(jīng)網(wǎng)絡(luò)檢測(cè)算法流程圖
本算法分為訓(xùn)練和測(cè)試兩個(gè)階段:
訓(xùn)練階段:
(1)通過人工的手段獲取已確認(rèn)的色情圖像中敏感區(qū)域,將敏感區(qū)域劃分為100*100的塊,每一個(gè)塊都要包含較一個(gè)明顯色情的特征,如女性胸部、肚臍、腋窩等。
(2)分別提取每一個(gè)圖像塊的紋理、形狀、顏色特征,其中紋理特征用灰度共生矩陣的能量、相關(guān)度、逆差距、對(duì)比度四個(gè)參數(shù)來描述,而形狀特征則用Hu矩來描述,顏色特征則通過判斷不同顏色占圖像塊的比例來描述。對(duì)每一個(gè)圖像塊形成一個(gè)與之對(duì)應(yīng)的14維的特征列向量。
(3)將不同圖像塊的特征列向量構(gòu)成特征矩陣,作為訓(xùn)練樣本供BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。
測(cè)試階段:
(1)將待檢測(cè)圖像從RGB空間轉(zhuǎn)換至HSV空間,按照對(duì)皮膚區(qū)域的顏色設(shè)定選取圖像中皮膚區(qū)域。
(2)對(duì)圖像先進(jìn)行閉操作,再填充連通區(qū)域中的“空洞”區(qū)域,使獲取的的皮膚區(qū)域?yàn)閭€(gè)數(shù)較少的連通區(qū)域。將圖像裁剪為只包含連通區(qū)域,以n*100為邊長的最小塊,對(duì)邊緣區(qū)域則以鏡像的形式補(bǔ)全。將裁剪后的圖像以100為邊長分為n*n個(gè)小圖像塊,若小圖像塊中的皮膚區(qū)域面積大于三分之一,則提取該圖像塊的多種特征信息,生成14維特征列向量。
(3)將該圖像所生成的特征列向量構(gòu)成特征矩陣,用已經(jīng)訓(xùn)練完成的BP神經(jīng)網(wǎng)絡(luò)對(duì)該特征矩陣進(jìn)行測(cè)試,判定每個(gè)小圖像是否為色情圖像塊,若從該圖像中檢測(cè)出了超過閾值的色情圖像塊個(gè)數(shù),則判定該圖像為色情圖像。
3 實(shí)驗(yàn)結(jié)果及分析
本文選取了58個(gè)小圖像塊作為訓(xùn)練樣本供BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。這些小圖像塊分別為女性的肚臍、胸部、皮膚和敏感區(qū)域。為了測(cè)試本算法的檢測(cè)效果,本節(jié)選取了40幅圖像對(duì)本算法進(jìn)行測(cè)試,其中色情圖像26幅,正常圖像16幅,包含人像圖像,風(fēng)景圖像,城市建筑等,使正常圖像具有一定的普遍性。為了量化檢測(cè)效果,本文分別使用precision和accurate來表示檢測(cè)的精確度和準(zhǔn)確率,其中:
Ndetect_true為正確檢測(cè)出的色情圖像的張數(shù),Nmiss為沒有被檢測(cè)出的色情圖像的張數(shù),Ndetect_1為正常圖像被誤檢為色情圖像的張數(shù)。precesion表示了色情圖像被檢測(cè)出的概率,而accurate則表示了檢測(cè)出的圖像為色情圖像的概率。
表1 不同神經(jīng)元個(gè)數(shù)檢測(cè)對(duì)比
神經(jīng)元個(gè)數(shù)5101520
Precision0.8850.8850.7300.846
Recall0.8850.8520.8260.846
表1顯示了本算法在不同隱含層神經(jīng)元個(gè)數(shù)下的檢測(cè)效果,觀察表1可以發(fā)現(xiàn),隨著隱含層神經(jīng)元個(gè)數(shù)的不斷增多,本算法的檢測(cè)效果呈略微下降的趨勢(shì),但在神經(jīng)元為15和20時(shí)檢測(cè)效果有起伏。這是由于訓(xùn)練樣本和測(cè)試圖像的數(shù)量都不大,如果采用較大的網(wǎng)絡(luò)結(jié)構(gòu),則會(huì)導(dǎo)致訓(xùn)練的效率不高,出現(xiàn)過擬合的現(xiàn)象,造成網(wǎng)絡(luò)的性能較低,從這也可以看出神經(jīng)網(wǎng)絡(luò)中隱并不是隱含層節(jié)點(diǎn)的個(gè)數(shù)越多越好,只有合適的網(wǎng)絡(luò)結(jié)構(gòu)才可以使神經(jīng)網(wǎng)絡(luò)發(fā)揮最大的功效。
通過實(shí)驗(yàn)發(fā)現(xiàn),隨著訓(xùn)練次數(shù)的增多,BP神經(jīng)網(wǎng)絡(luò)算法的收斂速度較慢,這是因?yàn)锽P神經(jīng)網(wǎng)絡(luò)算法本質(zhì)上是梯度下降算法,所以使用它對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化是比較復(fù)雜的。這使得本算法的效率并不是特別高。為了解決這個(gè)問題,本實(shí)驗(yàn)通過設(shè)置學(xué)習(xí)速率來加速神經(jīng)網(wǎng)絡(luò)的收斂速度。不難發(fā)現(xiàn),較高的學(xué)習(xí)速率可以加速BP神經(jīng)網(wǎng)絡(luò)的收斂速度,但若學(xué)習(xí)速率設(shè)置的過高,則會(huì)導(dǎo)致產(chǎn)生震蕩,反而導(dǎo)致算法更不容易收斂。經(jīng)實(shí)驗(yàn)測(cè)試,則本算法中,將學(xué)習(xí)速率設(shè)為0.3。圖2為用訓(xùn)練圖像對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)的訓(xùn)練效果圖。從圖中可以看出收斂速度較為平穩(wěn)。
圖2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練圖
4 結(jié)束語
本文提出了一種基于BP神經(jīng)網(wǎng)絡(luò)和多重特征的色情圖像檢測(cè)算法,不同特征的融合可以更好地使用特征行向量來描述色情圖像的色情區(qū)域,通過將色情圖像塊對(duì)應(yīng)的特征行向量組成特征矩陣,將其作為訓(xùn)練樣本供BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。經(jīng)實(shí)驗(yàn),學(xué)習(xí)后的神經(jīng)網(wǎng)絡(luò)對(duì)色情圖像的檢測(cè)效果較好,但本算法對(duì)側(cè)面等類型的色情圖像的鑒別能力不夠,經(jīng)常會(huì)造成誤檢測(cè),造成這樣的原因是BP神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本較為依賴,只有增加訓(xùn)練樣本的種類和數(shù)量,才能更好地對(duì)各種類型的色情圖像進(jìn)行檢測(cè)。
參考文獻(xiàn):
[1]郭沛猛.基于內(nèi)容的不良圖像識(shí)別關(guān)鍵技術(shù)研究[D].北京:中國人民公安大學(xué),2008.
[2]徐欣欣,袁華,張凌.基于顏色和紋理特征的圖像過濾方法[J].華南理工大學(xué)學(xué)報(bào),2004(12).
[3]陳家偉.基于內(nèi)容的圖像過濾[D].廣州:華南理工大學(xué),2010.
[4]蔡政,丁宣浩,陳麗霞.敏感圖像識(shí)別算法研究[J].企業(yè)科技與發(fā)展,2012(03).
[5]郭航,霍宏濤.灰度共生矩陣在皮膚紋理檢測(cè)中的應(yīng)用研究[J].中國圖像圖形學(xué)報(bào),2010(03).
作者簡介:李睿智(1988-),男,網(wǎng)絡(luò)安全保衛(wèi)學(xué)院碩士研究生,研究方向:圖像處理,計(jì)算機(jī)網(wǎng)絡(luò)。
作者單位:中國人民公安大學(xué),北京 102600
基金項(xiàng)目:本文系中國人民公安大學(xué)2013年基本科研業(yè)務(wù)費(fèi)項(xiàng)目(2013LGX02-6)資助。