李穎
(長(zhǎng)春工業(yè)大學(xué)人文信息學(xué)院,吉林長(zhǎng)春,130122)
人工神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成功應(yīng)用于語(yǔ)音識(shí)別,自然語(yǔ)言處理,計(jì)算機(jī)視覺(jué)等多個(gè)領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)就是模擬視覺(jué)神經(jīng)系統(tǒng)[1]而產(chǎn)生的,主要在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)領(lǐng)域有應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)是科研人員不斷研究高等動(dòng)神經(jīng)元特征的智慧結(jié)晶,通過(guò)參考量子理論在廣義維度上共享特征參數(shù),顯著縮小了模型存儲(chǔ)占比。傳統(tǒng)意義上卷積神經(jīng)網(wǎng)絡(luò)[2]主要是先通過(guò)提取一些特征點(diǎn),然后再通過(guò)數(shù)學(xué)統(tǒng)計(jì)模型表示圖像,多用于解決分類(lèi)問(wèn)題。本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于信息圖像處理,最終實(shí)驗(yàn)證明卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模的圖像數(shù)據(jù)集處理上著有非常好的效果。
卷積神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)處理過(guò)程中最精要的環(huán)節(jié)就是卷積計(jì)算[3]。它處理的圖像數(shù)據(jù)通常都是以BMP 格式存儲(chǔ)的,是全球非動(dòng)態(tài)圖片儲(chǔ)存組織規(guī)定的格式,特點(diǎn)是不經(jīng)過(guò)壓縮而按圖片本來(lái)大小存盤(pán),故需要存儲(chǔ)空間大的硬件系統(tǒng)。
因此本文經(jīng)過(guò)篩選后遴選出GE 系統(tǒng),是CPU 的進(jìn)階版,該系統(tǒng)具有快速的像素掃描能力,非常適用于圖像處理。并且具有處理多格式圖像轉(zhuǎn)換能力,對(duì)多維度圖像傳輸可以多層并行,從而為電子信息圖像處理奠定扎實(shí)的基礎(chǔ)。
該算法實(shí)現(xiàn)電子信息圖像處理包括圖像識(shí)別、圖像標(biāo)注、圖像分割三個(gè)階段。
圖像識(shí)別技術(shù)[4]分為三個(gè)部分:圖片權(quán)重分析、特征提取和集合創(chuàng)建。圖片權(quán)重分析是為了保留圖像中的關(guān)鍵信息,便于對(duì)圖像進(jìn)行特征提取。圖像權(quán)重分析的方法有:圖像灰度化、中值縮減化等。特征提取是對(duì)目標(biāo)圖片的一種精簡(jiǎn)描述。在結(jié)構(gòu)基礎(chǔ)上,使用簡(jiǎn)化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)做特征提取器。集合創(chuàng)建部分是按不同的圖片特征將具有相似參數(shù)的圖片組成集合,創(chuàng)建方法如式(1)。
其中w 為灰度值,u 為聚類(lèi)參數(shù),d 為比較值,dfinal為最終比較值,s 為網(wǎng)絡(luò)神經(jīng)元函數(shù)。卷積層和池化層在輸入圖像中的局部空間結(jié)構(gòu)中提取特征比較值,包了整個(gè)圖像中全局的特征信息,而后面的全處理層的作用是在更加抽象比較值中進(jìn)行運(yùn)算比較進(jìn)行圖像識(shí)別。
使用2.1 中算法提取圖像的抽象語(yǔ)義特征,然 后 使 用(2)完成實(shí)現(xiàn)對(duì)圖像的分類(lèi)標(biāo)注。
(2)式中φ 為高斯平滑常數(shù),k 為提取的權(quán)值,x 為圖片所含紋理特征,y 為圖片的色彩參數(shù)特征。每個(gè)神經(jīng)元只需要對(duì)圖像的局部特征進(jìn)行感知,將這些局部的特征進(jìn)行組合得到圖片的全局特征。其實(shí)這也是受人類(lèi)視覺(jué)神經(jīng)系統(tǒng)的啟發(fā),人類(lèi)在識(shí)別圖像時(shí),大腦皮層的神經(jīng)只對(duì)局部的刺激做出反應(yīng),說(shuō)明人類(lèi)對(duì)圖像的認(rèn)知也是從局部到整體的過(guò)程[5]。此算法的優(yōu)勢(shì)在于權(quán)值共享:卷積神經(jīng)網(wǎng)絡(luò)使用(2)式提取圖像中的特征,一個(gè)探頭在權(quán)值較高的區(qū)域上滑動(dòng)提取一小塊紋理特征,多個(gè)卷積核就包含了圖片所有的紋理特征,色彩特征同理。之所以稱(chēng)之為“權(quán)值共享”,是因?yàn)橐粋€(gè)卷積核在圖像的某一區(qū)域進(jìn)行特征標(biāo)注,該區(qū)域的特征可以用在其他的圖像處理過(guò)程中,或者說(shuō)圖像的特征標(biāo)注與環(huán)節(jié)無(wú)關(guān)。通過(guò)權(quán)值共享能大大降低圖像標(biāo)注的訪(fǎng)問(wèn)量。其提取的特征具有很好的泛化性能,能夠應(yīng)用到新的圖像標(biāo)注任務(wù)中。
在圖像中區(qū)分出要分析和辨別的目標(biāo),需要把這一部分提取出來(lái),這就是圖像分割。分割網(wǎng)絡(luò)是一種卷積編碼器-解碼器網(wǎng)絡(luò),輸入是原始的RGB 圖片,最后經(jīng)過(guò)softmax函數(shù)輸出網(wǎng)絡(luò)預(yù)測(cè)每一個(gè)像素點(diǎn)屬于哪一個(gè)類(lèi)別的概率值,即圖像分割的結(jié)果;使用 Fast-Seget 網(wǎng)絡(luò)結(jié)構(gòu)完成圖像分割,算法如(3)所示:
(3)式中,O 代表像素的權(quán)重,f 為語(yǔ)義分割函數(shù),βdown 為圖像切割的邊緣值,卷積神經(jīng)網(wǎng)絡(luò)的邊緣檢測(cè)分割法中,池化算子對(duì)分辨率特征加以平滑精細(xì)處理,可以減少對(duì)于重要特征像素忽略,能夠?qū)吘夁M(jìn)行更加全面的檢測(cè),采用這種方法檢測(cè)出的邊緣,對(duì)比度適中,空間結(jié)構(gòu)完整,同時(shí)還可以避免圖片拍攝過(guò)程中混入的噪音干擾。
文字識(shí)別和人臉識(shí)別方面在電子信息圖像處理中屬于兩個(gè)特殊方面,也是現(xiàn)在大數(shù)據(jù)背景下的研究熱點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)技術(shù)因其仿生優(yōu)勢(shì)在這兩方面的運(yùn)用有著得天獨(dú)厚的優(yōu)勢(shì),因此研究卷積神經(jīng)網(wǎng)絡(luò)在這兩方面的應(yīng)用十分重要。
文字識(shí)別是將特征采集、文字處理、人工智能與一體的新技術(shù),需要快速地在圖片中把文字和非文字信息區(qū)分開(kāi)來(lái),智能識(shí)別能夠精確的對(duì)相似文字進(jìn)行分辨,減少識(shí)別誤差。原始文字識(shí)別方法存在大量相近字混淆,將非文字符號(hào)識(shí)別為文字,對(duì)手寫(xiě)體識(shí)別無(wú)法識(shí)別等現(xiàn)象,后期往往需要人工輔助修改,非常浪費(fèi)時(shí)間。
本文借助已有的國(guó)家圖書(shū)館建立的文字?jǐn)?shù)據(jù)庫(kù),對(duì)每個(gè)文字各種筆體使用Fisher 算法進(jìn)行特征獲取,最后對(duì)提取的特征使用多維坐標(biāo)系進(jìn)行標(biāo)記集合。然后將卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的全處理層之前的一個(gè)池化層細(xì)化成通量池化層(Apatial Same Pooling)即ASP。ASP 能夠?qū)⑤斎氲碾S機(jī)的文字圖提取出相同大小的特征向量,不受輸入文字圖像面積的影響,從而在圖片處理上減少了同質(zhì)化切割的步驟,改變了同質(zhì)化切割導(dǎo)致的文字變形以及丟失等識(shí)別誤差。后續(xù)的過(guò)程就是將提取的特征向量與國(guó)家文字?jǐn)?shù)據(jù)庫(kù)儲(chǔ)存的已有文字進(jìn)行特征比對(duì),鎖定出近似選項(xiàng),而后進(jìn)行相似度函數(shù)計(jì)算,最終將相似度最高的文字作為識(shí)別結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)模仿了自然人辨識(shí)他人身份的過(guò)程,即先對(duì)整體樣貌輪廓進(jìn)行辨識(shí),再將面部中具有代表性的五官特征與記憶提供的已知面相進(jìn)行比對(duì),通過(guò)相似度完成判斷。采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉驗(yàn)證和識(shí)別,就是依靠骨骼走向描述過(guò)程和五官輪廓識(shí)別過(guò)程的有機(jī)組合進(jìn)行來(lái)完成身份判定。其骨骼走向描述過(guò)程實(shí)現(xiàn)了身份識(shí)別的整體約束,五官輪廓識(shí)別過(guò)程實(shí)現(xiàn)了特征的抓取和跳出模糊識(shí)別的誤區(qū)。這非常適合于在火車(chē)站等人流量大,識(shí)別精準(zhǔn)度要求高的地方。首先,運(yùn)用基于骨骼走向描述的Tepid 網(wǎng)絡(luò)來(lái)提取人臉骨骼圖像特征。Tepid 網(wǎng)絡(luò)將根據(jù)人臉圖像的對(duì)比度制作骨骼模型,對(duì)每一塊面部區(qū)域都需要運(yùn)用卷積網(wǎng)絡(luò)進(jìn)行控制,防止各個(gè)面部區(qū)域的骨骼特征數(shù)據(jù)丟失。基于五官輪廓的人臉識(shí)別方法應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)以局部特征算法描述人臉的五官細(xì)節(jié)特征,而以卷積神經(jīng)網(wǎng)絡(luò)捕捉局部特征的配對(duì)關(guān)系來(lái)回溯整體特征,即以局部特征的集合作為整體特征。對(duì)于不同人的兩張圖像,其五官特征和骨骼走向皆不相同,可以較為輕松的做出身份判別。一個(gè)人在不同年齡拍攝的兩張圖片(拍攝角度相似)也不會(huì)影響該種方法的人臉識(shí)別,因?yàn)槠涔趋雷呦蛱攸c(diǎn)不會(huì)變化。
對(duì)于人臉識(shí)別和文字識(shí)別,選取一男一女在四個(gè)年齡段的圖片和四組結(jié)構(gòu)類(lèi)似的漢字圖片。分別用本文方法和傳統(tǒng)圖片處理方法進(jìn)行相似度評(píng)定,若對(duì)于不同年齡的面部識(shí)別相似度高和相似文字測(cè)定的相似度低,則說(shuō)明該方法具有較高的識(shí)別能力。實(shí)驗(yàn)結(jié)果如表1,表2 所示。
表1 對(duì)不同年齡的同一人面部識(shí)別程度
表2 對(duì)相似字的相似度測(cè)定
由實(shí)驗(yàn)結(jié)果可得,本文提出的卷積神經(jīng)網(wǎng)絡(luò)電子信息圖像處理方法能夠很好的辨別出無(wú)論男性女性,在不同年齡段下同一人的圖片,也對(duì)結(jié)構(gòu)相近的不同文字之間的細(xì)小差異十分敏感。此實(shí)驗(yàn)證明了卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的優(yōu)越性。