王巍
【摘? 要】 人工智能圖像識別系統(tǒng)多采用卷積神經(jīng)網(wǎng)絡(luò)作為算法基礎(chǔ),利用注意力算法對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,能夠?qū)崿F(xiàn)更為精準(zhǔn)的特征提取,從而達(dá)到降低訓(xùn)練成本、提高識別準(zhǔn)確率的根本目的。文章以此為研究目標(biāo),對聯(lián)合注意力算法下的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化與具體的參數(shù)計(jì)算方式進(jìn)行詳細(xì)闡述,并通過訓(xùn)練實(shí)驗(yàn)的方式對聯(lián)合注意力算法的識別有效性進(jìn)行評價(jià),發(fā)現(xiàn)該算法在圖像智能識別中具有較大的應(yīng)用價(jià)值。
【關(guān)鍵詞】 注意力算法;人工智能;圖像識別
一、聯(lián)合注意力算法卷積模型優(yōu)化
卷積神經(jīng)網(wǎng)絡(luò)是進(jìn)行圖像識別的核心算法之一。該算法通過構(gòu)建卷積層與激活層的方式對圖像特征進(jìn)行提取,并在池化后對未知圖像進(jìn)行識別,同時(shí)利用識別數(shù)據(jù)對算法進(jìn)行迭代。卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算量相對較大,且特征提取屬于“算法黑箱”。在此背景下,引入注意力算法能夠降低特征點(diǎn)的識別維度,從而達(dá)到降低計(jì)算量、提高精準(zhǔn)度的有效目的。
(一)卷積神經(jīng)網(wǎng)絡(luò)的圖像識別
注意力算法主要是指在卷積神經(jīng)網(wǎng)絡(luò)中引入特定的參數(shù)函數(shù),對卷積層中的特定像素集群進(jìn)行再次“微池”化,將分散的像素整合為像素集合,進(jìn)行集體分析,從而實(shí)現(xiàn)降低計(jì)算量的根本目的。如圖1所示,利用“運(yùn)動(dòng)”作為構(gòu)建DL(數(shù)據(jù)微池)的方式可以將視頻圖像中的物體運(yùn)動(dòng)特征進(jìn)行整合提取,從而形成可視化熱力圖。
如圖1所示,在視頻圖像識別中,其目的在于對機(jī)場中物體的運(yùn)動(dòng)情況及軌跡進(jìn)行識別。在此要求下,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)需要對圖像中的全部像素進(jìn)行分析。而引入“運(yùn)動(dòng)”的注意力參數(shù),能夠?qū)⑦\(yùn)動(dòng)的擬合度作為特定特征點(diǎn)進(jìn)行固定提取,從而形成可視化熱力圖如圖1(b),僅需要對熱力集中在“0.75~1”范圍內(nèi)的微池像素進(jìn)行卷積分析便可以實(shí)現(xiàn)相同功能。根據(jù)理論推演,在引入注意力算法的情況下,原有圖像分析系統(tǒng)的計(jì)算量能夠下降90%,對提高識別效率、降低系統(tǒng)能耗與軟硬件需求具有重大的現(xiàn)實(shí)意義。類似的應(yīng)用可以在多種場景下得到應(yīng)用,如人臉識別、身份證識別、文字提取等。通過人工限定特定,形成池化數(shù)據(jù)的圖像識別需求均可以通過聯(lián)合注意力算法的方式對其卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。
(二)聯(lián)合注意力模塊應(yīng)用
在注意力算法對卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程分析中不難發(fā)現(xiàn),注意力算法的功能機(jī)制在圖像的特征提取過程中發(fā)揮實(shí)效。即通過在卷積神經(jīng)網(wǎng)絡(luò)中的激活層中以注意力算法替代原有的像素求解,從而實(shí)現(xiàn)對計(jì)算量降低的根本目的。為此,在利用注意力算法對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化時(shí),應(yīng)該假設(shè)其在輸入特征圖到輸出特征圖之間。通過注意力算法獲得的輸出特征圖作為后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的分析依據(jù),經(jīng)過激活層、池化等操作,完成后續(xù)的圖像識別與分析,具體的聯(lián)合模式與流程如圖2所示。
如圖2所示,注意力模塊在輸入特征圖與輸出特征圖區(qū)間,作為傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)像素計(jì)算特征提取的替代性工具。按照能夠人工設(shè)定的注意力算法特征特性,其大致可以分為通道注意力模塊和空間注意力模塊。兩種模塊的主要區(qū)別在于人工設(shè)定特征點(diǎn)的屬性差異。前者以運(yùn)動(dòng)為基礎(chǔ),如對運(yùn)動(dòng)軌跡識別、動(dòng)作識別、表情識別等;后者則多以物體為單位如對特定幾何形狀識別、文字識別等。
二、聯(lián)合注意力算法在圖像識別中的應(yīng)用
(一)聯(lián)合模型與總體架構(gòu)設(shè)計(jì)
注意力模塊需要在圖像識別的池化過程之間發(fā)揮效能,需要整合入卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)內(nèi)提供額外的特征信息,幫助模型進(jìn)行更為精準(zhǔn)與高效的圖像識別?;谶@一目標(biāo)以及具體的應(yīng)用流程,優(yōu)化后模型的總體架構(gòu)如圖3所示,主要分為三個(gè)部分:
1. 輸入部分。包括原始圖像和編碼器兩個(gè)部分,該過程的核心任務(wù)是將目標(biāo)圖片進(jìn)行像素分解,為后續(xù)的訓(xùn)練與識別提供數(shù)據(jù)素材;
2. 注意力聯(lián)合部分。包括通道注意力模塊、卷積層、激活層和歸一化層等。該部分為注意力模塊的優(yōu)化核心,通過編碼器分解的像素?cái)?shù)據(jù),在注意力模塊的作用下形成池化數(shù)據(jù)的雙通道結(jié)構(gòu),既當(dāng)數(shù)據(jù)類別符合注意力特征閾值后則進(jìn)入卷積層成為特征確定的標(biāo)準(zhǔn)之一,如不符合則按照傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別分析;
3. 解碼與輸出部分。主要包括解碼器和損失檢測等部分。該部分的主要作用在于將卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的輸出結(jié)果進(jìn)行解碼,同時(shí)對其可能產(chǎn)生的像素?fù)p失和重建損失進(jìn)行修正回復(fù),最終輸出識別結(jié)果。
(二)編碼器的設(shè)計(jì)
編碼器需要將圖像信息轉(zhuǎn)變?yōu)榭晒┳⒁饬λ惴ㄗR別的像素信息,在模型設(shè)計(jì)中至關(guān)重要。模型主要通過反射圖像混合模型的方式方法對編碼器進(jìn)行構(gòu)建,并對圖像的像素信息進(jìn)行求解,具體模型公式如下:
I=M×T+(1-M)×(K×R)(公式1)
其中,I表示具有反射混合特征的圖像信息;R表示圖像反射層;T表示傳輸層;K表示反射模糊核;M表示反射混合約束矩陣。利用公式1可以對現(xiàn)有圖像進(jìn)行矩陣切割,并提取其中的關(guān)鍵核心像素信息點(diǎn),將照片的圖像信息轉(zhuǎn)變?yōu)槟P湍軌蜃R別的數(shù)值數(shù)據(jù)。
(三)損失函數(shù)的計(jì)算
通過編碼器的像素分解,在獲得可供分析的數(shù)據(jù)基礎(chǔ)上也必然會帶來數(shù)據(jù)細(xì)節(jié)的丟失,這就需要引入損失函數(shù)對其結(jié)果進(jìn)行修正。損失函數(shù)的核心是對像素分析中的偏差丟失進(jìn)行修正,其中包括像素?fù)p失、恢復(fù)損失和重建損失等三個(gè)主要要素。按照不同要素進(jìn)行分類,其函數(shù)如圖3所示:
Lpixel=R∈MN(R,M)Lres=R∈M{(R,M)+N[G(R),G(M)]}Lrecon=I∈MN(R-I) (公式2)
其中,Lpixel表示像素?fù)p失修正;Lres表示恢復(fù)損失;Lrecon表示重建損失;R為真實(shí)圖像;M表示反射圖層;N表示預(yù)期損失系數(shù);G表示圖像梯度;I表示重建圖像。公式2可以在算法求解過程中對分析前后的像素特征損失系數(shù)進(jìn)行求解,并通過迭代優(yōu)化的過程將公式2中的求解數(shù)字整合到公式1中,形成修正后的像素特征,具體表示為I修正=I+Lpixel表+Lres+Lrecon,當(dāng)?shù)蠭修正近視等于I時(shí)迭代結(jié)束,系統(tǒng)完成自我修正,并可以將損失函數(shù)結(jié)果帶入后續(xù)識別中進(jìn)行直接應(yīng)用。
三、聯(lián)合注意力算法模型效果分析
(一)實(shí)驗(yàn)條件
利用注意力算法進(jìn)行優(yōu)化的圖像智能識別系統(tǒng)本質(zhì)上依然是基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的一套具有迭代功能的智能體系。在實(shí)際應(yīng)用過程中,應(yīng)該通過具有標(biāo)記作用的圖片進(jìn)行“喂養(yǎng)”后方可形成有效識別效能。為進(jìn)一步分析注意力算法的實(shí)際應(yīng)用效能,文章采用對比實(shí)驗(yàn)的方式對其進(jìn)行驗(yàn)證,具體過程與環(huán)境設(shè)定分為如下幾個(gè)方面:1. 收集各類型圖片按照識別類別分為通道類和空間類,各類別集合內(nèi)圖片為10000張;2. 通過編號后隨機(jī)挑選的方式分為訓(xùn)練集和測試集,比例為19∶1;3. 以雙通道GTX4080Ti為GPU處理核心,在Ubuntu12.0系統(tǒng)上部署智能識別系統(tǒng),并連通輸入設(shè)備與結(jié)果輸出設(shè)備;4. 在平臺內(nèi)分別部署兩套算法系統(tǒng),分別為實(shí)驗(yàn)?zāi)P秃蛯Ρ饶P?,其中?shí)驗(yàn)?zāi)P蜑樽⒁饬λ惴▋?yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)模型,對比模型則為原始卷積神經(jīng)網(wǎng)絡(luò)模型。
(二)實(shí)驗(yàn)結(jié)果分析
為驗(yàn)證注意力算法對卷積神經(jīng)網(wǎng)絡(luò)模型優(yōu)化的有效性,通過開展對比實(shí)驗(yàn)的方式對其進(jìn)行分析。具體指標(biāo)包括了2個(gè)維度的4項(xiàng)指標(biāo)。其中,訓(xùn)練效率指標(biāo)包括95%識別度訓(xùn)練集占比(%)、訓(xùn)練時(shí)長(h);準(zhǔn)確性維度包括了識別準(zhǔn)確性(%)、細(xì)節(jié)丟失率(%),實(shí)驗(yàn)結(jié)果如表1所示。
由表1可知,通過注意力算法的優(yōu)化,模型在訓(xùn)練效率以及識別準(zhǔn)確性方面均有不同程度提高。在同樣以95%訓(xùn)練穩(wěn)定度的條件下,通道類實(shí)驗(yàn)?zāi)P陀?xùn)練穩(wěn)定時(shí)需使用訓(xùn)練集圖片總量的53.41%,遠(yuǎn)低于對比模型使用量(62.73%)。同時(shí),實(shí)驗(yàn)?zāi)P驮谕ǖ李悎D片中的訓(xùn)練效率明顯低于空間類圖片,但兩種模型在空間類的訓(xùn)練效率中并無明顯差異,這說明兩種模型對空間類圖片的訓(xùn)練效率均相對較高,但注意力算法優(yōu)化對通道類圖像的識別應(yīng)用效果更佳。在訓(xùn)練時(shí)長上也表現(xiàn)出相同的數(shù)據(jù)規(guī)律,形成了交叉認(rèn)證。
在準(zhǔn)確性方面,通道類圖片條件下,二者準(zhǔn)確率均超過了97%,符合應(yīng)用的基本要求,且沒有明顯差異,說明通過注意力算法優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)對傳統(tǒng)模型具有較高的替代效果。但在空間類圖像的識別中,實(shí)驗(yàn)?zāi)P偷臏?zhǔn)確率顯著高于對比模型,說明注意力算法在空間類圖像識別中更具有比較性優(yōu)勢。
除此之外,通過表1數(shù)據(jù)能夠發(fā)現(xiàn),在利用實(shí)驗(yàn)?zāi)P瓦M(jìn)行圖像識別時(shí)會丟失更多的細(xì)節(jié)數(shù)據(jù),這一問題主要是由于系統(tǒng)整合了除霧模塊,該模塊通過模糊處置圖層的前置信息,從而會造成一定的數(shù)據(jù)細(xì)節(jié)丟失,但對識別結(jié)果不造成顯著影響。
參考文獻(xiàn):
[1] 陳杭,張兆江,劉闊,等. 聯(lián)合注意力機(jī)制與多級特征融合的街景全景分割算法研究[J]. 測繪與空間地理信息,2023,46(09):43-47.
[2] 蘇明,艾海明,馬琳,等. 基于AI的圖像識別乘駕安全監(jiān)測系統(tǒng)研制[J]. 傳感器與微系統(tǒng),2023,42(08):85-87+91.
[3] 王瑤涵,宋澤陽,張利冬. 基于卷積神經(jīng)網(wǎng)絡(luò)的安全標(biāo)識分類算法研究[J]. 中國安全科學(xué)學(xué)報(bào),2023,33(S1):263-269.