許慶勇,江順亮,徐少平,葛 蕓,唐祎玲
(1.南昌大學(xué) 信息工程學(xué)院,南昌 330031; 2.南昌大學(xué) 經(jīng)濟(jì)管理學(xué)院,南昌 330031)(*通信作者電子郵箱xyongle@ncu.edu.cn)
基于三通道卷積神經(jīng)網(wǎng)絡(luò)的紋身圖像檢測(cè)算法
許慶勇1,2*,江順亮1,徐少平1,葛 蕓1,唐祎玲1
(1.南昌大學(xué) 信息工程學(xué)院,南昌 330031; 2.南昌大學(xué) 經(jīng)濟(jì)管理學(xué)院,南昌 330031)(*通信作者電子郵箱xyongle@ncu.edu.cn)
針對(duì)紋身圖像的特點(diǎn)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)在全連接層對(duì)圖像特征抽取能力的不足問(wèn)題,提出一種三通道的卷積神經(jīng)網(wǎng)絡(luò)紋身圖像檢測(cè)算法,并進(jìn)行了三方面的改進(jìn)工作。首先,針對(duì)紋身圖像的特點(diǎn)改進(jìn)圖像預(yù)處理方案;其次,設(shè)計(jì)了一個(gè)基于三通道全連接層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并對(duì)特征建立索引,有效地提高了網(wǎng)絡(luò)對(duì)不同尺度下空間信息的提取能力,實(shí)現(xiàn)了對(duì)紋身圖像的高效檢測(cè);最后,通過(guò)兩個(gè)數(shù)據(jù)集驗(yàn)證了算法的泛化能力。實(shí)驗(yàn)結(jié)果表明,對(duì)NIST數(shù)據(jù)集所提預(yù)處理方案比Alex方案有總正確率提高0.17個(gè)百分點(diǎn),紋身圖像正確率提高0.29個(gè)百分點(diǎn)。在所提預(yù)處理方案下,提出的算法在標(biāo)準(zhǔn)的NIST紋身圖像集上具有明顯的優(yōu)勢(shì),正確率從NIST公布的最優(yōu)值96.3%提高到99.1%,提高了2.8個(gè)百分點(diǎn);相對(duì)于傳統(tǒng)的CNN算法,正確率從98.8%提高到99.1%,提高了0.3個(gè)百分點(diǎn)。在Flickr數(shù)據(jù)集上也有相應(yīng)的性能提升。
深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);紋身圖像;圖像檢測(cè)
近年來(lái),隨著網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)技術(shù)的高速發(fā)展,信息表達(dá)形式從傳統(tǒng)單一的文本表示逐漸向多元化方向發(fā)展。其中因圖像具有較強(qiáng)的綜合性和直觀性,而被人們廣泛地獲取和利用。在這些應(yīng)用中,一個(gè)典型的例子就是紋身圖像。紋身作為身體的一種標(biāo)記,常與傷疤、斑、痣等特征作為身體的外在特征一起用于圖像檢測(cè)和識(shí)別[1]。由于它提供了足以證明個(gè)人身份的標(biāo)志,而被越來(lái)越多的組織和個(gè)人所重視,比如罪犯團(tuán)伙、證人、黑社會(huì)團(tuán)體等。在一些黑社會(huì)團(tuán)體中,紋身作為其入會(huì)的考驗(yàn),也普遍被采用。
根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,美國(guó)每年在紋身上消費(fèi)高達(dá)16億美元;18-25歲的成年人中有36%的人至少有一個(gè)紋身;在26-40歲的成年人中,40%的人至少有一個(gè)紋身,而且這一數(shù)據(jù)還在逐年增加[2]。19世紀(jì),美國(guó)監(jiān)獄管理部門在釋放罪犯時(shí),要對(duì)其進(jìn)行紋身;前蘇聯(lián)和納粹德國(guó)的管理部門要在西伯利亞的監(jiān)獄和納粹集中營(yíng)的在押人員身上進(jìn)行紋身,以便以后進(jìn)行識(shí)別和發(fā)現(xiàn)。2014年,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology, NIST)通過(guò)舉辦競(jìng)賽活動(dòng)開始對(duì)紋身的檢測(cè)、檢索等相關(guān)內(nèi)容進(jìn)行研究。美國(guó)聯(lián)邦調(diào)查局(Federal Bereau of Investigation, FBI)根據(jù)NIST對(duì)紋身的研究成果建立了一個(gè)紋身數(shù)據(jù)庫(kù),以此數(shù)據(jù)庫(kù)為基礎(chǔ),開展下一代身份識(shí)別。FBI的這項(xiàng)研究將通過(guò)相同主題的紋身,建立人與人之間的聯(lián)系或者根據(jù)紋身對(duì)他們進(jìn)行分類以便發(fā)現(xiàn)或查找犯罪分子。在我國(guó),紋身也有著悠久的發(fā)展歷史。但是大部分時(shí)間中,紋身都受到一定的歧視,例如紋身者被看作與罪犯、流氓、黑社會(huì)有關(guān)。早在中國(guó)封建時(shí)代,紋身作為一種社會(huì)符號(hào),在犯人身體的明顯部位,甚至是犯人的額下刺入“流放”“充軍”或其他罪名來(lái)進(jìn)行犯人的標(biāo)識(shí)和識(shí)別。但隨著人們觀念的變化、名人和體育明星的影響,紋身越來(lái)越多地被社會(huì)所認(rèn)同。特別是21世紀(jì)的年輕一代,普遍認(rèn)為,紋身是塑造自己身份、銘記自己生活經(jīng)歷的一種方式。根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,43%紋身人士認(rèn)為紋身對(duì)其有特殊的意義[2]??傊S著時(shí)代的發(fā)展,紋身的人數(shù)也在逐漸增加。
如何對(duì)紋身圖像進(jìn)行快速檢測(cè),并高效查詢出與之相似的紋身圖案,進(jìn)行語(yǔ)義的解讀,以發(fā)現(xiàn)其正常或不正常的行為,并為相關(guān)部門和人員提供有力的證據(jù),這越來(lái)越多地被安全部門所重視。2014年,NIST開始對(duì)紋身進(jìn)行研究,公開了第一個(gè)紋身圖像數(shù)據(jù)集。這個(gè)紋身圖像數(shù)據(jù)集雖然比較小,但在一定程度上引發(fā)了各學(xué)者對(duì)這一領(lǐng)域的關(guān)注。
紋身圖像的檢測(cè)、分析與識(shí)別經(jīng)歷了長(zhǎng)時(shí)間的研究,但一直沒(méi)有受到太多人的關(guān)注。2016年12月10日,在中國(guó)期刊網(wǎng)上以“紋身”為關(guān)鍵字進(jìn)行查詢,通過(guò)文獻(xiàn)查詢,共查詢到49條結(jié)果。從這49條記錄來(lái)看,在國(guó)內(nèi)現(xiàn)有的研究主要是集中在紋身的歷史演變、醫(yī)學(xué)應(yīng)用等方面,至今還沒(méi)有對(duì)紋身的檢測(cè)、檢索相關(guān)的研究。這也充分說(shuō)明在國(guó)內(nèi),對(duì)紋身的分類與檢測(cè)研究仍然是一個(gè)空白。但是在國(guó)外,對(duì)紋身的研究有較長(zhǎng)的時(shí)間。不過(guò)時(shí)間雖長(zhǎng),但研究者及其成果并不多。從內(nèi)容上來(lái)看,主要集中在紋身的檢索、分割等內(nèi)容,對(duì)紋身圖像檢測(cè)的研究較少。
在紋身的學(xué)術(shù)研究方面,最初是通過(guò)對(duì)基于文本的檢索方法來(lái)進(jìn)行紋身的檢索研究。對(duì)于這種方式,需要相應(yīng)人員對(duì)紋身圖像進(jìn)行手工標(biāo)注。例如在美國(guó),法官為了通過(guò)紋身圖像來(lái)找到罪犯的證據(jù),需要手工對(duì)罪犯的紋身圖像進(jìn)行采集和標(biāo)注。但是因標(biāo)注者主觀因素的影響,同一個(gè)紋身圖像可能會(huì)有不同的標(biāo)注。隨著基于內(nèi)容的圖像檢索(Content Based Image Retrieval, CBIR)技術(shù)的發(fā)展,一些學(xué)者開始采用CBIR對(duì)紋身圖像進(jìn)行檢索和檢測(cè)研究。如Jain等[3]基于圖像的底層特征利用CBIR技術(shù)研究紋身圖像的檢索與檢測(cè)。Acton等[4]利用活動(dòng)輪廓(Active contour)方法對(duì)紋身圖像進(jìn)行分割,提出基于全局特征的紋身圖像檢索算法,提高性能。Lee等[5]采用SIFT(Scale-Invariant Feature Transform)特征對(duì)紋身圖像的匹配進(jìn)行了相關(guān)研究。Lee等[6]認(rèn)為SIFT等局部特征表現(xiàn)出較好的性能,便是很難直接應(yīng)用到數(shù)據(jù)集較大的紋身圖像檢索中,針對(duì)這個(gè)問(wèn)題他們提出了分級(jí)的紋身圖像檢索算法。CBIR在紋身圖像上的另一個(gè)應(yīng)用就是基于紋理框架的檢索與匹配。Han等[7]通過(guò)局部不變特征進(jìn)行紋身圖像紋理結(jié)果的匹配驗(yàn)證。在紋身圖案的分割和分類方面,Heflin等[8]第一次采用顯著性模型(Saliency model)來(lái)查找感興趣點(diǎn)并通過(guò)圖像分割方法進(jìn)行最后的分割。與Heflin類似,Kim等[9]先利用圖像分割方法進(jìn)行圖像分割,然后利用SIFT特征,通過(guò)匹配感興趣子區(qū)域進(jìn)行紋身圖像的檢索。Lee等[10]通過(guò)對(duì)Michigan警察局獲取的64 000幅紋身圖像進(jìn)行研究,結(jié)果表明現(xiàn)有的技術(shù)不能從大量的紋身圖像中有效地匹配和檢測(cè)出有效的圖像。Wiber等[11]提出了極限編碼(Exemplar codes)進(jìn)行紋身圖像的檢測(cè)與分類。Huynh等[12]注意到監(jiān)獄和警察等部門沒(méi)有有效的方式采集紋身圖像,他開發(fā)了一個(gè)紋身圖像自動(dòng)采集系統(tǒng)來(lái)采集和處理紋身圖像和一些其他生物特征(如傷、斑、痣等)。Manger[13]根據(jù)圖像檢索技術(shù),利用圖像的局部相似性信息和詞包模型,設(shè)計(jì)了一個(gè)紋身圖像檢索系統(tǒng),這個(gè)系統(tǒng)可以在數(shù)秒內(nèi)從30萬(wàn)的紋身圖像中檢索需要的圖像。Jain等[14]設(shè)計(jì)了一個(gè)基于內(nèi)容的紋身圖像檢測(cè)系統(tǒng),這個(gè)系統(tǒng)通過(guò)自動(dòng)提取SIFT特征、紋身的身體位置信息和類別,然后進(jìn)行檢測(cè),在63 593幅紋身圖像的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明在一定程度上提高了檢測(cè)的準(zhǔn)確性。Marcetic等[15]設(shè)計(jì)了一個(gè)系統(tǒng),通過(guò)SIFT、紋理等特征進(jìn)行紋身位置的定位和識(shí)別。在這些研究中,都是利用自己的數(shù)據(jù)庫(kù)進(jìn)行研究,一方面是沒(méi)有公開的紋身數(shù)據(jù)庫(kù),另一方面各學(xué)者利用自己的數(shù)據(jù),不利于結(jié)果之間的比較。
2014年,NIST舉辦了一個(gè)商業(yè)和學(xué)術(shù)活動(dòng)以提高紋身圖像檢測(cè)的技術(shù)。對(duì)于紋身圖像檢測(cè),NIST的目標(biāo)是解決一幅圖像中是否包括紋身圖案。在這個(gè)活動(dòng)中有四個(gè)組織參與了紋身圖像的檢測(cè)研究工作,分別是French Alternative Energies and Atomic Energy Commission(CEA)、Compass Technical Consulting(Compress)、MITRE Corporation (MITRE)和Morpho/MorphoTrak (Morpho Trak),但是還沒(méi)有學(xué)術(shù)機(jī)構(gòu)參與到紋身圖像的檢測(cè)研究中。在NIST的紋身數(shù)據(jù)集中,共有2 349幅圖像,包括1 349幅紋身圖像和1 000幅非紋身圖像。由于NIST數(shù)據(jù)集本身是在室內(nèi)進(jìn)行采集的,而且非紋身圖像基本上是人臉,對(duì)研究算法的泛化能力驗(yàn)證不足。
近幾年,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的研究成果,表明CNN還在快速地發(fā)展中[16]。特別是隨著深度學(xué)習(xí)的發(fā)展和研究的深入,越來(lái)越多的學(xué)者逐漸投入到神經(jīng)網(wǎng)絡(luò)的研究當(dāng)中,例如李彥冬等[17]重點(diǎn)對(duì)CNN的過(guò)擬合、網(wǎng)絡(luò)結(jié)構(gòu)、遷移學(xué)習(xí)、原理分析四個(gè)方面進(jìn)行歸納與總結(jié),并指出了未來(lái)的發(fā)展方向。隨著深度學(xué)習(xí)的研究,一些學(xué)者開始把深度學(xué)習(xí)算法,特別是CNN算法應(yīng)用到紋身圖像的檢測(cè)與識(shí)別中, Sun等[18]認(rèn)為現(xiàn)有的紋身圖像檢測(cè)存在一些問(wèn)題,主要表現(xiàn)為很難找到一個(gè)有效的、通用的紋身圖像特征用于紋身圖像的檢測(cè)與分類。因此為了克服這些困難,本文采用了CNN算法進(jìn)行訓(xùn)練、特征提取和紋身圖像檢測(cè)。Xu等[19]利用基本的CNN模型對(duì)紋身檢測(cè)進(jìn)行了研究,并認(rèn)為NIST對(duì)紋身圖像檢測(cè)與分類進(jìn)行了研究并公布了一些結(jié)果,但由于其數(shù)據(jù)集的采集均是在室內(nèi)進(jìn)行的,其結(jié)果很難應(yīng)用到外部場(chǎng)景的數(shù)據(jù)中。Hrkac等[20]利用深度學(xué)習(xí)算法研究了紋身圖像檢測(cè),并重點(diǎn)探討了皮膚上紋身圖案消除工作。但是這些研究沒(méi)有考慮到紋身圖像本身空間信息特征,是否有更好的方法可以自動(dòng)提取到不同尺度下的紋身圖像空間信息呢?在圖像預(yù)處理階段,是否還可以采用傳統(tǒng)的圖像大小變換方式進(jìn)行預(yù)處理工作呢?顯然由于紋身圖像和標(biāo)準(zhǔn)的其他圖像數(shù)據(jù)集(如ImageNet)不一樣,需要更有效的針對(duì)紋身圖像的預(yù)處理方式。
CNN是一種多層前饋神經(jīng)網(wǎng)絡(luò),一般認(rèn)為由卷積層、池化層、全連接層等組成。最經(jīng)典的結(jié)構(gòu)是2012年Alex提出的CUDA-CONVNET結(jié)構(gòu),后來(lái)通過(guò)整理,形成第二個(gè)版本,即CUDA-CONVNET2[21]。CNN在圖像分類和識(shí)別中性能較為突出,例如ImageNet、臉部識(shí)別和數(shù)字識(shí)別等。與傳統(tǒng)的算法相比,卷積神經(jīng)網(wǎng)通過(guò)BP算法能夠提取到較好的圖像特征并取得較高的準(zhǔn)確率。但是現(xiàn)在的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)全連接層關(guān)注較少。全連接層在不同尺度下的特征提取能力是不一樣的。本文也是在對(duì)CUDA-CONVNET2的研究基礎(chǔ)上,針對(duì)CNN全連接層在不同尺度下的特征提取能力問(wèn)題,提出一種新的網(wǎng)絡(luò)結(jié)構(gòu),稱為三通道全連接層的CNN。本文的主要改進(jìn)工作包括圖像預(yù)處理、基于三通道網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建和算法的泛化能力驗(yàn)證。
2.1 圖像預(yù)處理
一般來(lái)講,由于計(jì)算機(jī)內(nèi)存、顯示及數(shù)據(jù)庫(kù)大小的原因,一般是把紋身圖像變換成256×256或者更小。為了不讓紋身圖像在變換的過(guò)程中變形,采用長(zhǎng)寬等比例變換。例如在Alex中,對(duì)圖像的長(zhǎng)和寬較小的一邊變換成256,較長(zhǎng)的一邊進(jìn)行等比變換,然后以中心進(jìn)行截取227×227大小的圖像塊。這種方式的優(yōu)點(diǎn)很明顯,相對(duì)比較簡(jiǎn)單,而且使用方便,如CUDA-CONVNET、CAFFE等主流的深度學(xué)習(xí)框架都是采用這種方式。但是有一個(gè)比較明顯的問(wèn)題,如果要檢測(cè)的目標(biāo)在圖像的中間,通過(guò)這種方式截取,仍然可以獲得到全部或絕大部分特征信息。例如ImageNet數(shù)據(jù)集,一方面圖像的長(zhǎng)與寬相對(duì)一致,另一方面要檢測(cè)的目標(biāo)都在圖像的中間位置。但是對(duì)于紋身圖像來(lái)講,長(zhǎng)寬比例差別較大,而且位置也不確定,如圖3所示。因此在對(duì)圖像進(jìn)行預(yù)處理的時(shí)候,不能采用傳統(tǒng)的Alex方法。本文的思想是在圖像變換的時(shí)候,按長(zhǎng)寬中比較大的一邊進(jìn)行變換到256個(gè)像素大小,另一邊進(jìn)行等比例變換,這樣會(huì)導(dǎo)致另一邊小于256個(gè)像素。對(duì)于較小的一邊,以原有圖像為中心,進(jìn)行兩側(cè)翻轉(zhuǎn),直到256個(gè)像素大小。這樣處理有兩個(gè)優(yōu)點(diǎn),一是可以保證處理后的圖像還是256×256的大?。欢遣粫?huì)導(dǎo)致圖像中紋身內(nèi)容的丟失。具體的變換算法如下。
算法 圖像預(yù)處理算法。
輸入:InImage;
輸出:OutImage。
步驟1 計(jì)算圖像長(zhǎng)和寬中較大的一邊,記為ma,較小的一邊記為mi。
步驟2 如果ma>256,以256/ma進(jìn)行等比例變換;然后進(jìn)行步驟4,否則進(jìn)行步驟3。
步驟3 對(duì)ma一邊進(jìn)行反轉(zhuǎn),直到256。
步驟4 對(duì)mi一邊進(jìn)行反轉(zhuǎn),直到256。
步驟5 輸出OutImage。
圖1顯示了通過(guò)本文提出的預(yù)處理方法和Alex文章中的預(yù)處理方法的部分結(jié)果示例。雖然兩種方法都是通過(guò)等比例變化成256×256大小,然后再截取227×227大小的圖像,但從截取的結(jié)果來(lái)看,本文的方法能有效地保證紋身圖案的完整性,而在Alex方法中,會(huì)丟失部分甚至全部紋身圖案。
從圖1可以看出,用Alex方法進(jìn)行圖像預(yù)處理,在第一幅圖像中,部分紋身圖案會(huì)丟失,導(dǎo)致信息不完整;在第二幅圖像中,紋身圖案幾乎全部丟失,對(duì)紋身圖像檢測(cè)訓(xùn)練會(huì)產(chǎn)生較大影響。
圖1 紋身圖像預(yù)處理結(jié)果比較
本文提出的預(yù)處理方法很好地解決了Alex方法對(duì)紋身圖像預(yù)處理的問(wèn)題,改進(jìn)了原有的Alex方法對(duì)紋身圖像不適用的特點(diǎn)。本算法的優(yōu)點(diǎn)主要有:
1)對(duì)于圖像大小大于256的,進(jìn)行等比例縮放操作,圖像不會(huì)變形;
2)對(duì)于圖像小于256的圖像,通過(guò)反轉(zhuǎn)進(jìn)行擴(kuò)大,不會(huì)使原圖像失真;
3)對(duì)于一邊大、另一邊小的圖像,按大邊進(jìn)行縮放,小邊進(jìn)行反轉(zhuǎn),保證圖像空間信息不丟失。
2.2 基于三通道全連接層的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
CNN通過(guò)逐層進(jìn)行圖像特征的提取,不同卷積層提取的特征不一樣,一般認(rèn)為全連接層提取到的是高層特征?,F(xiàn)有的CNN主要集中在單一通道的全連接層。通過(guò)單一通道的全連接層提取的特征在圖像表達(dá)方面有一定的局限性,主要表現(xiàn)為不能有效地表示不同尺度空間的圖像特征信息。為了解決這個(gè)問(wèn)題,設(shè)計(jì)了一個(gè)多通道融合的全連接層卷積神經(jīng)網(wǎng)結(jié)構(gòu),通過(guò)不同通道全連接層的神經(jīng)元數(shù)量,實(shí)現(xiàn)不同尺度的圖像表示。具體如圖2所示。
該模型包括5個(gè)卷積層、3個(gè)通道的全連接層和1個(gè)全連接融合層。前5個(gè)卷積層分別有64、192、384、256、256個(gè)卷積核,對(duì)應(yīng)的卷積核的大小分別是11×11×3、5×5×64,3×3×192、3×3×384和3×3×256。每個(gè)通道包括兩個(gè)全連接層,3個(gè)通道對(duì)應(yīng)的全連接層神經(jīng)元的個(gè)數(shù)分別是256-256、1 024-1 024和4 096-4 096。在三通道后再做一次全連接操作。為了防止過(guò)擬合,在每個(gè)通道上的全連接層均采用Dropout技術(shù),其值是0.5。最后3個(gè)通道融合成1個(gè)輸出向量,其維度是5 376。最后實(shí)現(xiàn)紋身圖像檢測(cè)。同Alex[21]的網(wǎng)絡(luò)結(jié)構(gòu)一樣,在預(yù)處理階段,本文的結(jié)構(gòu)也采用logistic回歸,訓(xùn)練圖像和測(cè)試圖像統(tǒng)一變換到256×256大小,然后分別以中心和4個(gè)頂點(diǎn)截取圖像,截取的大小是227×227,共得到5幅子圖像。對(duì)于所有輸入圖像,均要減去訓(xùn)練圖像的均值,同時(shí)采用隨機(jī)梯度法進(jìn)行最優(yōu)化訓(xùn)練。在參數(shù)初始化方面,學(xué)習(xí)率設(shè)置為0.01,動(dòng)量(moment)設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 5。權(quán)重采用均值是0、標(biāo)準(zhǔn)差是0.01的高斯分布進(jìn)行隨機(jī)初始化;初始的偏置量在第一層和第三層是0,其余層是1[20]。
本文設(shè)計(jì)的CNN結(jié)構(gòu)較好地解決了原有網(wǎng)絡(luò)結(jié)構(gòu)在圖像空間特征提取能力不足的問(wèn)題。這樣設(shè)計(jì)的優(yōu)點(diǎn)主要有:
1)充分考慮不同全連接層神經(jīng)元個(gè)數(shù)對(duì)紋身圖像高層語(yǔ)義特征的提取能力,即在不同尺度下抽取到不同的圖像特征。
2)通過(guò)多通道分別抽取特征,使圖像特征的表示能力更強(qiáng)。
3)通過(guò)多通道的融合策略,進(jìn)行一次全連接層操作,然后再進(jìn)行紋身檢測(cè)工作,可以建立各特征之間的關(guān)系,更有利于紋身圖像的檢測(cè)。
圖2 多通道全連接層的CNN結(jié)構(gòu)示意圖
3.1 數(shù)據(jù)集
美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)直屬美國(guó)商務(wù)部,從事物理、生物和工程方面的基礎(chǔ)和應(yīng)用研究,以及測(cè)量技術(shù)和測(cè)試方法方面的研究,提供標(biāo)準(zhǔn)、標(biāo)準(zhǔn)參考數(shù)據(jù)及有關(guān)服務(wù),在國(guó)際上享有很高的聲譽(yù)。NIST紋身檢測(cè)數(shù)據(jù)集(記為N-Dataset)是其中的一個(gè)。NIST紋身檢測(cè)數(shù)據(jù)集共有2 349張圖像(1 000非紋身圖像和1 349張紋身圖像),圖像共分為5組,NIST紋身數(shù)據(jù)集的各類及各組的分布如表1。
表1 紋身圖像數(shù)據(jù)集分組情況
為了便于比較和驗(yàn)證算法的泛化能力,構(gòu)建了Flickr數(shù)據(jù)集。Flickr數(shù)據(jù)集是本文第一作者在新加坡南洋理工大學(xué)訪學(xué)期間,在Adams Kong實(shí)驗(yàn)室,同其學(xué)生一起收集構(gòu)建的。在構(gòu)建Flickr數(shù)據(jù)時(shí),不同大小的Flickr數(shù)據(jù)集中紋身圖像與非紋身圖像的比例與NIST數(shù)據(jù)保持一致。第一個(gè)Flickr數(shù)據(jù)集與NIST的數(shù)據(jù)集中圖像的數(shù)量及分組完全相同,記為FD。第二個(gè)Flickr數(shù)據(jù)集在第一個(gè)數(shù)據(jù)集的基礎(chǔ)上增加一部分紋身圖像和非紋身圖像,使數(shù)據(jù)集大小達(dá)到5 000,記為FD5K,第三個(gè)Flickr數(shù)據(jù)集在第二個(gè)Flickr數(shù)據(jù)集的基礎(chǔ)上增加到10 000幅圖像,記為FD10K。這三個(gè)不同大小的數(shù)據(jù)集圖像數(shù)量分布如表2。
圖3展示了NIST數(shù)據(jù)集和Flickr數(shù)據(jù)集中的部分圖像。從部分示例圖來(lái)看,NIST數(shù)據(jù)集中的圖像相對(duì)比較簡(jiǎn)單,背景比較單一;同時(shí)在NIST紋身數(shù)據(jù)集中,紋身圖像來(lái)自身體的不同部位,而非紋身圖像主要來(lái)自于臉部。所有的NIST數(shù)據(jù)集都是在室內(nèi)采集的[22]。而Flickr數(shù)據(jù)集中的圖像相對(duì)比較復(fù)雜,更接近實(shí)際環(huán)境中的圖像,更有利于相關(guān)部門對(duì)紋身圖像的檢測(cè)。
表2 三種Flickr數(shù)據(jù)集圖像分布
圖3 NIST和Flickr數(shù)據(jù)集部分示例圖
3.2 實(shí)驗(yàn)與結(jié)果
為了有效保證實(shí)驗(yàn)結(jié)果的有效性,采取5組交叉驗(yàn)證。進(jìn)行5次實(shí)驗(yàn),最終的結(jié)果作為實(shí)驗(yàn)結(jié)果。NIST數(shù)據(jù)已進(jìn)行了分組,共分為5組。每次選其中4組作為訓(xùn)練集,另外1組作為測(cè)試集,得到1組結(jié)果。進(jìn)行5次,從而保證每一個(gè)樣本都可以作為測(cè)試集進(jìn)行實(shí)驗(yàn)。通過(guò)5次實(shí)驗(yàn),得出5組實(shí)驗(yàn)正確率。
紋身圖像的正確率定義為:
Tattoo_accuracy=Ncorrect_tattoo/Ntotal_tattoo
非紋身圖像的正確率定義為:
Non_Tattoo_accuracy=Ncorrect_non-tattoo/Ntotal_non-tattoo
最終正確率定義為:
其中:Ncorrect_tattoo表示正確的紋身圖像數(shù)量;Ncorrect_non-tattoo表示正確的非紋身圖像數(shù)量;Ntotal_tattoo表示所有的紋身圖像數(shù)量;Ntotal_non-tattoo表示所有的非紋身圖像數(shù)量。
1)NIST數(shù)據(jù)集實(shí)驗(yàn)。
表3列舉了在采用CNN模型的基礎(chǔ)上,本文提出的預(yù)處理算法與Alex的預(yù)處理算法的結(jié)果對(duì)比。
表3 不同預(yù)處理算法在NIST上的實(shí)驗(yàn)結(jié)果對(duì)比 %
通過(guò)表4可以看出,在紋身圖像檢測(cè)方法,本文預(yù)處理算比Alex的預(yù)處理算法正確率提了0.29個(gè)百分點(diǎn),在非紋身圖像的檢測(cè)正確率方面,兩者表現(xiàn)一樣。在總檢測(cè)正確率方面,本文預(yù)處理算有0.17個(gè)百分點(diǎn)的優(yōu)勢(shì)。這也說(shuō)明本文預(yù)處理算法在對(duì)紋身圖像檢測(cè)方面具有一定的針對(duì)性,也進(jìn)一步驗(yàn)證了本文預(yù)處理算法在處理后,無(wú)論紋身圖案在圖像中的位置怎么變化,都能有效的保留紋身圖案信息,更有利于檢測(cè)檢測(cè)。
表4 本文算法在NIST數(shù)據(jù)集上的實(shí)驗(yàn)詳細(xì)結(jié)果
表4列舉了提出的算法在NIST數(shù)據(jù)集上紋身檢測(cè)的混淆矩陣。從表5可以看出,新提出的算法在紋身檢測(cè)的正確率達(dá)到99.4%,非紋身檢測(cè)的正確率達(dá)到98.6%,總正確率達(dá)到99.1%。在檢測(cè)結(jié)果中,共有8幅紋身圖像誤分成非紋身圖像和14幅非紋身圖像誤分成紋身圖像。
為了把本文算法與其他算法進(jìn)行比較,表5列舉相關(guān)算法在NIST數(shù)據(jù)集上的結(jié)果。其中CEA_1、Compass、MITRE 1、MITRE 2和MorphoTrak是Tattoo-C公布的結(jié)果。由于Tattoo-C公布的結(jié)果沒(méi)有詳細(xì)說(shuō)明算法,因此沒(méi)有進(jìn)行實(shí)驗(yàn)重復(fù)。Xu等[19]采用的CUDA-CONVNET2中標(biāo)準(zhǔn)的CNN模型,而且圖像預(yù)處理也是Alex原有的預(yù)處理方法。與已有的結(jié)果相比,本文提出的算法由于充分考慮了在圖像空間信息下對(duì)不同尺度特征的提取能力,無(wú)論是在紋身圖像、非紋身圖像的正確率還是整體正確率上,都取得了進(jìn)一步的提高。同時(shí)在紋身圖像與非紋身圖像正確率之間的差異上,也進(jìn)一步縮小。
表5 本文算法與其他算法比較
2)Flickr數(shù)據(jù)集實(shí)驗(yàn)。
NIST數(shù)據(jù)集都是在室內(nèi)進(jìn)行采集的,而且非紋身圖像均是以人臉為主,從某種意義上講,不能驗(yàn)證算法的泛化能力。為了進(jìn)一步驗(yàn)證本文提出的算法,采用從Flickr上采集的紋身圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。為了便于同NIST數(shù)據(jù)集的結(jié)果比較,采用與NIST相同大小的數(shù)據(jù)集及分組方法。實(shí)驗(yàn)分別用CNN算法和本文提出的算法在NIST數(shù)據(jù)集和Flickr數(shù)據(jù)集進(jìn)行訓(xùn)練,然后進(jìn)行測(cè)試,共進(jìn)行8次實(shí)驗(yàn),其詳細(xì)結(jié)果如表6。
表6 本文算法在Flickr和NIST上的實(shí)驗(yàn)結(jié)果
從表6的四個(gè)實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的算法正確率比原CNN算法的正確率均有所提高。同時(shí)用NIST訓(xùn)練時(shí),用NIST數(shù)據(jù)集用測(cè)試,正確率較高,達(dá)到99.1%,但是用FD作測(cè)試時(shí),正確率僅有65.2%,兩者差異較大,這也說(shuō)明NIST數(shù)據(jù)集的泛化能力不足。反過(guò)來(lái)用FD作訓(xùn)練集,分別對(duì)NIST和FD作測(cè)試,其正確率分別是83.0%和78.8%,兩者相差較小,說(shuō)明采用FD數(shù)據(jù)集訓(xùn)練出來(lái)的模型比采用NIST數(shù)據(jù)集訓(xùn)練出來(lái)的模型有更好的推廣能力。
為了更好地比較,在前面實(shí)驗(yàn)基礎(chǔ)上,分別用CNN算法和本文提出的算法在FD5K和FD10K紋身數(shù)據(jù)集進(jìn)行訓(xùn)練,并在NIST和FD數(shù)據(jù)集上進(jìn)行測(cè)試,共進(jìn)行8次實(shí)驗(yàn)。結(jié)果如圖4。
圖4 本文算法與CNN算法不同訓(xùn)練集時(shí)結(jié)果比較
從圖4可以看出,以不同的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),對(duì)NIST數(shù)據(jù)集的測(cè)試正確率比在FD數(shù)據(jù)集上的正確率要高一些。從兩者的圖像集來(lái)看,NIST圖像集更容易區(qū)分一些。對(duì)CNN算法和本文提出算法的正確率來(lái)看,本文提出算法的正確率在不同的數(shù)據(jù)集上都表現(xiàn)出明顯的優(yōu)勢(shì)。通過(guò)不同的數(shù)據(jù)集實(shí)驗(yàn),也進(jìn)一步驗(yàn)證了本文提出的算法有較好的泛化能力。
圖5和圖6列舉了部分誤分圖像。在NIST數(shù)據(jù)集上,從誤分圖像表來(lái)看,本文算法沒(méi)有正確檢測(cè)出紋身圖像的原因是它們都有比較明顯的臉部圖案。例如在紋身圖像中,紋身圖案本身就是人臉,導(dǎo)致誤分。在Flickr數(shù)據(jù)集上,誤檢測(cè)的紋身圖像的主要原因是紋身圖案的面積相對(duì)較小,不容易檢測(cè),即使通過(guò)人為進(jìn)行區(qū)別,有時(shí)也不是太容易。
圖5 部分NIST誤分圖像
圖6 部分Flick誤分圖像
紋身圖案作為犯罪嫌疑人識(shí)別的重要證據(jù)之一,至今沒(méi)有引起相關(guān)學(xué)者的重視。紋身圖像檢測(cè)又是其中最為關(guān)鍵的一個(gè)環(huán)節(jié)。NIST通過(guò)舉辦了相關(guān)的商業(yè)和學(xué)術(shù)活動(dòng),引起了各學(xué)者對(duì) “紋身”這一領(lǐng)域的關(guān)注。在這次活動(dòng)中,有一個(gè)政府和三個(gè)企業(yè)組織參與并提交了研究結(jié)果,紋身檢測(cè)的正確率從62.2%到96.3%不等。Xu等[19]利用CNN算法,把正確率提高到98.8%。首先利用本文提出的預(yù)處理算法和Alex的算法在NIST數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示本文的預(yù)處理算法對(duì)紋身圖像的檢測(cè)效果提升了0.17個(gè)百分點(diǎn),然后再利用本文的改進(jìn)算法,實(shí)驗(yàn)結(jié)果驗(yàn)證了正確率進(jìn)一步提高,達(dá)到99.1%。當(dāng)用NIST的紋身數(shù)據(jù)集訓(xùn)練CNN模型,并用其他另一個(gè)同大小的Flickr紋身圖像數(shù)據(jù)集進(jìn)行測(cè)試,正確率僅有65.2%,正確率較低。而用這個(gè)Flickr數(shù)據(jù)集進(jìn)行訓(xùn)練,并用FD和NIST數(shù)據(jù)集進(jìn)行測(cè)試,其正確率分別為78.8%和83.0%,相差不是很大。這充分說(shuō)明NIST數(shù)據(jù)集存在一定的不足,而從圖3的示例圖像可以看出,NIST紋身圖像相對(duì)比較容易區(qū)分,并與現(xiàn)實(shí)的紋身圖像差異較大。為了更好地說(shuō)明本文算法的性能及泛化能力,逐漸增加Flickr數(shù)據(jù)集的大小,如圖4所示,發(fā)現(xiàn)其正確率也在提高。當(dāng)數(shù)據(jù)集的規(guī)模增加到10 000時(shí),再對(duì)NIST數(shù)據(jù)集進(jìn)行測(cè)試,正確率達(dá)到97.3%,以非常接近用NIST數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)的結(jié)果,然而用Flickr數(shù)據(jù)進(jìn)行測(cè)試,正確率僅有83.4%,雖然比用NIST數(shù)據(jù)集訓(xùn)練時(shí)結(jié)果有較大提高,但還是不太理想,因此在接下來(lái)的工作有必要對(duì)紋身圖像進(jìn)一步研究。
References)
[1] MCCABE R M, NEWTON E M, GUTIERREZ C M. ANSI/NIST-ITL 1—2000 Data format for the interchange of fingerprint, facial, Scar Mark & Tattoo (SMT) information [S]. New York: American National Standards Institute, 2000.
[2] Statistic Brain Research Institute. Tattoo statistics [EB/OL]. [2016- 12- 23]. http://www.statisticbrain.com/tattoo-statistics/.
[3] JAIN A K, LEE J E, JIN R. Tattoo-ID: automatic tattoo image retrieval for suspect and victim identification [C]// Proceedings of the Multimedia 8th Pacific Rim Conference on Advances in Multimedia Information Processing. Berlin: Springer, 2007: 256-265.
[4] ACTON S T, ROSSI A. Matching and retrieval of tattoo images: active contour CBIR and glocal image features [C]// Proceedings of the 2008 IEEE Southwest Symposium on Image Analysis and Interpretation. Washington, DC: IEEE Computer Society, 2008: 21-24.
[5] LEE J E, JAIN A K, JIN R. Scars, Marks and Tattoos (SMT): soft biometric for suspect and victim identification [C]// Proceedings of the 2008 Biometrics Symposium. Piscataway, NJ: IEEE, 2008: 1-8.
[6] LEE J E, JIN R, JAIN A K. Unsupervised ensemble ranking: application to large-scale image retrieval [C]// Proceedings of the 2010 20th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 3902-3906.
[7] HAN H, JAIN A K. Tattoo based identification: sketch to image matching [C]// Proceedings of the 2013 International Conference on Biometrics. Piscataway, NJ: IEEE, 2013: 1-8.
[8] HEFLIN B, SCHEIRER W, BOULT T E. Detecting and classifying scars, marks, and tattoos found in the wild [C]// Proceedings of the 2012 IEEE 5th International Conference on Biometrics: Theory, Applications and Systems. Piscataway, NJ: IEEE, 2012: 31-38.
[9] KIM J, LI H, YUE J, et al. Tattoo image retrieval for region of interest [C]// Proceedings of the 2016 IEEE Symposium on Technologies for Homeland Security. Piscataway, NJ: IEEE, 2016: 1-6.
[10] LEE J, JIN R, JAIN K, et al. Image retrieval in forensics: tattoo image database application [J]. IEEE MultiMedia, 2012, 19(1): 40-49.
[11] WILBER M J, RUDD E, HEFLIN B, et al. Exemplar codes for facial attributes and tattoo recognition [C]// Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision. Washington, DC: IEEE Computer Society, 2014: 205-212.
[12] HUYNH N Q, XU X, KONG A W K, et al. A preliminary report on a full-body imaging system for effectively collecting and processing biometric traits of prisoners [C]// Proceedings of the 2014 IEEE Symposium on Computational Intelligence in Biometrics and Identity Management. Piscataway, NJ: IEEE, 2014: 167-174.
[13] MANGER D. Large-scale tattoo image retrieval [C]// Proceedings of the 2012 9th Conference on Computer and Robot Vision. Washington, DC: IEEE Computer Society, 2012: 454-459.
[14] JAIN A K, LEE J E, JIN R, et al. Content-based image retrieval: an application to tattoo images [C]// Proceedings of the 2009 16th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2009: 2709-2712.
[15] MARCETIC D, RIBARIC S, STRUC V, et al. An experimental tattoo de-identification system for privacy protection in still images [C]// Proceedings of the 2014 37th Information and Communication Technology, Electronics and Microelectronics. Piscataway, NJ: IEEE, 2014: 1288-1293.
[16] COTTRELL G W. New life for neural networks [J]. Science, 2006, 313(5786): 454-455.
[17] 李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2508-2515.(LI Y D, HAO Z B, LEI H. Survey of convolutional neural network [J]. Journal of Computer Applications, 2016, 36(9): 2508-2515.)
[18] SUN Z H, BAUMES J, TUNISON P, et al. Tattoo detection and localization using region-based deep learning [C]// Proceedings of the 2016 23rd International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 2016: 3050-3055.
[19] XU Q, GHOSH S, XU X, et al. Tattoo detection based on CNN and remarks on the NIST database [C]// Proceedings of the 2016 International Conference on Biometrics. Piscataway, NJ: IEEE, 2016: 1-7.
[20] HRKAC T, BRKIC K, RIBARIC S, et al. Deep learning architectures for tattoo detection and de-identification [C]// Proceedings of the 2016 1st International Workshop on Sensing, Processing and Learning for Intelligent Machines. Piscataway, NJ: IEEE, 2016: 1-5.
[21] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2012: 1097-1105.
[22] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2012: 1097-1105.
Tattooimagedetectionalgorithmbasedonthree-channelconvolutionneuralnetwork
XU Qingyong1,2*, JIANG Shunliang1, XU Shaoping1, GE Yun1, TANG Yiling1
(1.SchoolofInformationEngineering,NanchangUniversity,NanchangJiangxi330031,China;2.SchoolofEconomics&Management,NanchangUniversity,NanchangJiangxi330031,China)
According to the characteristics of tattoo images and the insufficient ability of the Convolutional Neural Network (CNN) to extract the image features in the full connection layer, a tattoo image detection algorithm based on three-channel CNN was proposed, and three aspects of improvement work were carried out. Firstly, the image preprocessing scheme was improved for the characteristics of tattoo images. Secondly, a CNN based on three-channel fully connected layer was designed to extracted and index the features. The spatial information extraction ability of different scales was enhanced effectively, and the efficient detection of tattoo images was realized. Finally, the generalization ability of the algorithm was verified by two data sets. The experimental results on the NIST data set show that the proposed preprocessing scheme has a 0.17 percentage points increase of total correct rate and a 0.29 percentage points increase of correct rate for tattoo images than Alex scheme. Under the proposed preprocessing scheme, the proposed algorithm has obvious advantages on the standard NIST tattoo image set. The correct rate of the proposed algorithm reaches 99.1%, which is higher than 96.3%, the optimal value published by NIST; and 98.8%, obtained by traditional CNN algorithm. There is also a performance improvement on the Flickr data set.
deep learning; Convolutional Neural Network (CNN); tattoo images; image detection
2017- 03- 21;
2017- 05- 18。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61662044)。
許慶勇(1982—),男,山東成武人,講師,博士研究生,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、圖像處理; 江順亮(1965—),男, 江西豐城人,教授,博士生導(dǎo)師,博士,主要研究方向:人工智能; 徐少平(1976—),男,江西九江人,教授,博士,主要研究方向:圖像處理、計(jì)算機(jī)視覺(jué); 葛蕓(1983—),女,江西高安人,講師,博士研究生,主要研究方向:數(shù)字圖像處理; 唐祎玲(1977—),女,浙江奉化人,講師,博士研究生,主要研究方向:智能計(jì)算、機(jī)器學(xué)習(xí)。
1001- 9081(2017)09- 2705- 07
10.11772/j.issn.1001- 9081.2017.09.2705
TP341.41
A
This work is supported by the National Natural Science Foundation of China (61662044).
XUQingyong, born in 1982, Ph.D. candidate, lecturer. His research interests include machine learning, image processing.
JIANGShunliang, born in 1965, Ph.D., professor. His research interests include artificial intelligence.
XUShaoping, born in 1976, Ph.D., professor. His research interests include image processing, computer vision.
GEYun, born in 1983, Ph.D. candidate, lecturer. Her research interests include digital image processing.
TANGYiling, born in 1977, Ph.D. candidate, lecturer. Her research interests include intelligent computing, machine learning.