林湧濤 崔寧 趙志俊 李淵 黃婉馨
摘? 要:為了解決常規(guī)圖像目標(biāo)定位識(shí)別方法存在的識(shí)別準(zhǔn)確率較低問題,實(shí)現(xiàn)圖像目標(biāo)精準(zhǔn)定位識(shí)別,該文設(shè)計(jì)一種新的基于深度學(xué)習(xí)的圖像目標(biāo)精準(zhǔn)定位識(shí)別方法,提取圖像CNN特征以降低定位識(shí)別難度,構(gòu)建圖像定位深度學(xué)習(xí)識(shí)別模型以提高識(shí)別圖像的特征表達(dá)能力,設(shè)計(jì)Faster圖像定位識(shí)別算法以優(yōu)化識(shí)別網(wǎng)絡(luò)結(jié)構(gòu),從而實(shí)現(xiàn)圖像目標(biāo)定位識(shí)別。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識(shí)別方法的識(shí)別準(zhǔn)確率較高,識(shí)別效果較好,符合圖像目標(biāo)定位識(shí)別的需求,有一定的應(yīng)用價(jià)值。
關(guān)鍵詞:深度學(xué)習(xí);圖像;目標(biāo);定位;識(shí)別;研究
中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)02-0083-04
Research on Image Target Location and Recognition Based on Deep Learning
LIN Yongtao, CUI Ning, ZHAO Zhijun, LI Yuan, HUANG Wanxin
(School of Information Engineering and Business Management, Guangdong Nanhua Vocational College of Industry and Commerce, Guangzhou? 510507, China)
Abstract: In order to solve the problem of low recognition accuracy of conventional image target location and recognition methods, and achieve image target accurate location and recognition, this paper designs a new image target accurate location and recognition method based on deep learning, extracts image CNN features to reduce the difficulty of location and recognition, and constructs an image location deep learning recognition model to improve the feature expression ability of the recognized image, Fast image location and recognition algorithm is designed to optimize the recognition network structure, so as to achieve image target location and recognition. The experimental results show that the designed image target deep learning precise location recognition method has high recognition accuracy and good recognition effect, which meets the needs of image target location and recognition and has certain application value.
Keywords: deep learning; image; target; location; recognition; research
0? 引? 言
智能化技術(shù)的發(fā)展改變了信息載體,各種各樣的計(jì)算機(jī)視覺技術(shù)應(yīng)運(yùn)而生[1],在圖像識(shí)別與定位中發(fā)揮著不可替代的作用。圖像信息的來源較廣泛,包括監(jiān)控提取、照片等,因此圖像信息具有復(fù)雜性[2]。常規(guī)的圖像目標(biāo)定位識(shí)別方法無法保證圖像目標(biāo)定位識(shí)別的準(zhǔn)確率,因此需要設(shè)計(jì)一種新的圖像目標(biāo)定位識(shí)別方法。針對(duì)目前的圖像識(shí)別問題[3],有研究人員設(shè)計(jì)了相關(guān)的圖像識(shí)別系統(tǒng)。盡管這種新型系統(tǒng)能進(jìn)行圖像分割,提取圖像目標(biāo)信息[4],但由于圖像信息數(shù)量較多,種類豐富,這種新型系統(tǒng)也出現(xiàn)了難以解決的漏洞。
事實(shí)上,圖像目標(biāo)識(shí)別也可以看作一個(gè)數(shù)據(jù)處理過程,往往可以根據(jù)獲得的圖像數(shù)據(jù)[5],識(shí)別特定的圖像目標(biāo),完成圖像識(shí)別判斷。因此,要想提高圖像目標(biāo)識(shí)別的精確度,就必須要模擬人類識(shí)別圖像的過程,完成圖像識(shí)別理解。深度學(xué)習(xí)可以根據(jù)圖像樣本的特征及所含規(guī)律,判斷圖像樣本的表達(dá)狀態(tài)[6],從而進(jìn)一步針對(duì)圖像進(jìn)行智能分析。其主要以內(nèi)部的CNN網(wǎng)絡(luò)以及Auto encoder編碼為基礎(chǔ),完成識(shí)別學(xué)習(xí)任務(wù),因此具有較高的精確性。本文根據(jù)識(shí)別圖像的特征,基于深度學(xué)習(xí)設(shè)計(jì)了一種新的圖像定位識(shí)別方法,為計(jì)算機(jī)視覺的發(fā)展作出了一定的貢獻(xiàn)。
1? 圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識(shí)別方法設(shè)計(jì)
1.1? 提取圖像CNN特征
常規(guī)的圖像目標(biāo)定位識(shí)別方法在面臨較多的圖像時(shí)不具備普適性,無法有效地進(jìn)行特征識(shí)別,因此,本文使用CNN提取了圖像特征[7]。首先結(jié)合CNN學(xué)習(xí)原則對(duì)圖像進(jìn)行特征表達(dá),其次再使用Caffe學(xué)習(xí)工具構(gòu)建訓(xùn)練架構(gòu)。該訓(xùn)練架構(gòu)具有AlexNet結(jié)構(gòu),能滿足各種類型圖像的特征提取需求,但在提取特征前必須進(jìn)行局部歸一化處理,即使用Rectified Liner Units進(jìn)行修正識(shí)別[8],設(shè)計(jì)符合圖像特征提取需求的提取激活函數(shù),該函數(shù)定義式Relus(x)如式(1)所示:
(1)
式(1)中,x表示激活因子,if x>0表示特征極值,otherwise表示圖像增益點(diǎn),此時(shí)可知,圖像特征提取遵循圖像特性增益原則,存在一個(gè)合理的線性正向變量空間,因此也含有較多的特征激活點(diǎn)。在進(jìn)行圖像特征提取時(shí)需要使用相應(yīng)的特征提取接口進(jìn)行處理,使用load_image加載圖像,進(jìn)行特征聯(lián)系。此時(shí)各個(gè)卷積層的特征可以用特征圖像網(wǎng)格表示,如圖1所示。
由圖1可知,從各個(gè)圖像中提取的特征可以依次排列在該特征網(wǎng)格中,便于進(jìn)行后續(xù)的特征識(shí)別分析。
目標(biāo)特征與目標(biāo)對(duì)象始終存在一定的對(duì)應(yīng)關(guān)系,因此在特征提取的過程中要利用CNN對(duì)圖像進(jìn)行平移、縮放測(cè)試,判斷特征與特征之間的歐氏距離,確定特征提取縮放參數(shù)[9]。由于圖像目標(biāo)定位的精確性要求較高,因此使用選擇搜索法對(duì)目標(biāo)圖像進(jìn)行分割,即選取合理的目標(biāo)網(wǎng)絡(luò),進(jìn)行CNN卷積,得到高維特征圖像,從而構(gòu)建合理的CNN特征提取網(wǎng)絡(luò),完成特征提取。
使用上述構(gòu)建的CNN特征提取網(wǎng)絡(luò)進(jìn)一步進(jìn)行IRPN特征訓(xùn)練,選擇合理的候選目標(biāo)進(jìn)行調(diào)節(jié),此時(shí)的特征提取損失函數(shù)L(P,PI)如式(2)所示:
L(P,PI)=-log[PPI +(1-P)(1-P)]? ? ? ? ? ? ?(2)
式(2)中,P、PI均表示特征提取對(duì)象損失系數(shù),可以結(jié)合該公式,判斷特征提取損失,有效地進(jìn)行回歸分類處理,從而提升圖像特征的提取效果,提高精確性。
1.2? 構(gòu)建圖像目標(biāo)深度學(xué)習(xí)定位識(shí)別模型
構(gòu)建深度學(xué)習(xí)定位識(shí)別模型可以有效地激活定位識(shí)別因子,避免部分激活函數(shù)消失造成的定位識(shí)別誤差。本文設(shè)計(jì)的圖像目標(biāo)定位識(shí)別方法設(shè)計(jì)了有效地激活函數(shù),受神經(jīng)元的修正關(guān)系影響,激活函數(shù)內(nèi)部的參數(shù)始終處于變化狀態(tài)。為了降低激活函數(shù)內(nèi)部偏差,提高識(shí)別因子學(xué)習(xí)速度,進(jìn)行權(quán)值更新,使用exponential linear unit指數(shù)線性單元來完成二次激活[10]。所設(shè)計(jì)的指數(shù)線性單元定義式f (x)如式(3)所示:
(3)
式(3)中,x表示線性單元,α代表變換指數(shù),ex代表控制參數(shù),此時(shí)該函數(shù)存在一個(gè)平均導(dǎo)數(shù),計(jì)算式如式(4)所示:
(4)
此時(shí)可以假設(shè)識(shí)別參數(shù)均為正,不存在復(fù)雜的信息變化關(guān)系,則此時(shí)的激活函數(shù)存在一個(gè)常量因子,該常量因子可以控制激活函數(shù)的激活幅值,降低梯度消失對(duì)圖像目標(biāo)定位識(shí)別造成的影響,提高識(shí)別的準(zhǔn)確率。
激活函數(shù)選取完畢后必須要對(duì)現(xiàn)有的神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積操作。在一般情況下,選取的卷積核應(yīng)該與上述指數(shù)線性單元相擬合,但受圖像的種類及特征影響,在選擇卷積層時(shí)必須要進(jìn)行池化處理。本文使用均值池化法確定池化窗口存在的重疊區(qū)域,消除了SPP多尺度信息,減小了圖像輸入映射產(chǎn)生缺陷的可能。在池化過程中,需要將種類不同的圖像放置在同一特征維度中進(jìn)行處理,處理示意圖如圖2所示。
由圖2可知,該操作可以最大程度上降低圖像信息損失產(chǎn)生的可能性,進(jìn)一步提高圖像的特征表達(dá)能力,減小操作難度。基于此,構(gòu)建的圖像目標(biāo)深度學(xué)習(xí)定位識(shí)別模型如式(5)所示:
(5)
式(5)中,w表示目標(biāo)識(shí)別間隔,s表示識(shí)別區(qū)域面積,t表示圖像目標(biāo)識(shí)別時(shí)間,y表示最大化識(shí)別最優(yōu)解,d、b均表示支持向量。使用該模型進(jìn)行圖像目標(biāo)定位識(shí)別處理時(shí),可以將其看成一個(gè)非等式條件下的最優(yōu)值求解問題,從而提高圖像目標(biāo)定位識(shí)別精度,減小其出現(xiàn)識(shí)別誤差的頻率。
1.3? 設(shè)計(jì)Faster圖像定位識(shí)別算法
僅使用上述設(shè)計(jì)的圖像目標(biāo)深度學(xué)習(xí)定位識(shí)別模型進(jìn)行圖像目標(biāo)定位識(shí)別很容易出現(xiàn)識(shí)別響應(yīng)問題,為了解決該問題,本文又設(shè)計(jì)了有效的定位識(shí)別算法。神經(jīng)網(wǎng)絡(luò)受特殊性影響,具有不同的層次,每一層都需要對(duì)目標(biāo)圖像進(jìn)行分類識(shí)別處理,避免圖像更新產(chǎn)生的較高識(shí)別損失。此時(shí)可以設(shè)計(jì)輸出特征計(jì)算式F,如式(6)所示:
(6)
式(6)中,f表示輸入激活函數(shù),W、I均表示卷積核,B表示偏執(zhí)量。使用該公式對(duì)圖像進(jìn)行降維處理,結(jié)合圖像連接層狀態(tài)進(jìn)行分類變換,獲取分類參數(shù)。此時(shí)設(shè)計(jì)連接層分類表達(dá)式F0,如式(7)所示:
F0= f (WT+B)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(7)
式(7)中,T表示識(shí)別連接層的特征值,在識(shí)別的過程中,預(yù)測(cè)值與實(shí)際識(shí)別值之間存在著一定的誤差,此時(shí)使用代價(jià)函數(shù)對(duì)識(shí)別圖像進(jìn)行重新定義,定義式J如式(8)所示:
(8)
式(8)中,h(x)表示代價(jià)函數(shù),y表示識(shí)別樣本,μ表示正則化處理參數(shù),m表示正則化處理項(xiàng)受圖像正則化影響,在進(jìn)行自變量修正時(shí)會(huì)產(chǎn)生ReLU函數(shù),該函數(shù)主要符合神經(jīng)網(wǎng)絡(luò)的反向傳播特性。本文設(shè)計(jì)的方法進(jìn)行了誤差反饋,及時(shí)更新了識(shí)別網(wǎng)絡(luò)中的權(quán)值,使其在下次迭代時(shí)必須使用更新參數(shù),減少目標(biāo)定位識(shí)別損失。此時(shí)設(shè)計(jì)的Faster圖像定位識(shí)別算法h如式(9)所示:
h= f (wt x+k)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (9)
式(9)中,wt表示識(shí)別學(xué)習(xí)率,k表示圖像識(shí)別偏置權(quán)值,此時(shí)結(jié)合Faster圖像定位識(shí)別算法有效地對(duì)選取的圖像進(jìn)行目標(biāo)定位識(shí)別,保證識(shí)別的準(zhǔn)確率。
2? 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文設(shè)計(jì)方法的識(shí)別效果,選取合理的圖像目標(biāo)定位測(cè)試集,將其與常規(guī)的圖像目標(biāo)定位識(shí)別方法進(jìn)行對(duì)比實(shí)驗(yàn)。
2.1? 實(shí)驗(yàn)準(zhǔn)備
本文選取Window 10作為測(cè)試平臺(tái),搭建了合理的深度學(xué)習(xí)TensorFlow實(shí)驗(yàn)框架。為了滿足實(shí)驗(yàn)需求,本文將Python 3.0x作為開發(fā)軟件,并配置了CPU為3.30 GHz的I9-8520處理器。除此之外,由于實(shí)驗(yàn)圖片占用空間較大,為避免測(cè)試效率過低,本文還為其配置了64 GB的子處理器,安裝了內(nèi)存為256 GB的外接Intel硬盤。此時(shí)可以向測(cè)試平臺(tái)中輸入部分測(cè)試數(shù)據(jù),驗(yàn)證選取的數(shù)據(jù)集狀態(tài)。驗(yàn)證結(jié)果表明,選取的MNIST圖像數(shù)據(jù)集符合實(shí)驗(yàn)需求,部分MNIST圖像數(shù)據(jù)集中的圖片如圖3所示。
由圖3可知,圖像數(shù)據(jù)集中的圖像均具有一定的特征,符合目標(biāo)識(shí)別定位需求。該數(shù)據(jù)集內(nèi)共有約56 465幅識(shí)別圖像,在實(shí)驗(yàn)過程中可以隨機(jī)選取任意數(shù)量的圖像進(jìn)行識(shí)別。
結(jié)合上述的圖像數(shù)據(jù)集以及數(shù)據(jù)集內(nèi)圖片的幀率,創(chuàng)建一個(gè)實(shí)驗(yàn)專屬序列幀,獲取不同幀內(nèi)的圖像,并對(duì)其進(jìn)行預(yù)測(cè)分類。各個(gè)類型的圖像編碼及其分類權(quán)重如表1所示。
由表1可知,本文選取的數(shù)據(jù)集內(nèi)的數(shù)據(jù)類型較多,與常規(guī)的CIFAR-10數(shù)據(jù)存在一定的差異。因此,為了提高實(shí)驗(yàn)的有效性,在實(shí)驗(yàn)開始前對(duì)現(xiàn)有的圖像數(shù)據(jù)進(jìn)行增強(qiáng)處理,使用圖像數(shù)據(jù)增廣法對(duì)圖片進(jìn)行裁剪,將其縮放到合適的尺寸并調(diào)節(jié)圖像的敏感度。為了避免圖像過度擬合,在圖像處理后重新進(jìn)行圖像驗(yàn)證。在Ubuntu 16.04中進(jìn)行試驗(yàn)訓(xùn)練,設(shè)計(jì)有效的圖像訓(xùn)練矩陣,并使用Nvidia GTX 1080 CUDA 9.0進(jìn)行訓(xùn)練計(jì)算,試驗(yàn)流程圖如圖4所示。
由圖4可知,該試驗(yàn)網(wǎng)絡(luò)屬于一種優(yōu)化后的殘差網(wǎng)絡(luò),存在輸入層、加權(quán)層、輸出層與激活層。計(jì)算每一層的誤差,更新相關(guān)參數(shù),完成訓(xùn)練梯度及訓(xùn)練權(quán)重的更新。全部試驗(yàn)完成后,將試驗(yàn)結(jié)果保存到特定文件中,便于后續(xù)實(shí)驗(yàn)參數(shù)的提取。結(jié)合上述準(zhǔn)備過程可以設(shè)計(jì)圖像目標(biāo)定位識(shí)別準(zhǔn)確率計(jì)算式a0,如式(10)所示:
(10)
式(10)中,area(Bp∩Bgt)表示成功完成目標(biāo)識(shí)別的圖像數(shù)量,area(Bp∪Bgt)表示圖像總數(shù)量,使用該公式可以有效地判斷圖像目標(biāo)定位識(shí)別狀態(tài),分析不同識(shí)別方法的識(shí)別精度差異。
受實(shí)驗(yàn)過程中生成的Feature Map影響,可能隨機(jī)出現(xiàn)不同類型的Faster RCNN/Fast RCNN共享特征集合。為了避免上述作用對(duì)實(shí)驗(yàn)造成的影響,還需要額外對(duì)網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)絡(luò)參數(shù)層進(jìn)行設(shè)定,如表2所示。
由表2可知,上述本文設(shè)定的網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)絡(luò)參數(shù)層具有共享特征,滿足實(shí)驗(yàn)Backbone網(wǎng)絡(luò)的連接需求,實(shí)驗(yàn)過程中,無須修改全連接層數(shù)即可完成參數(shù)設(shè)置,降低了實(shí)驗(yàn)的難度,提高了實(shí)驗(yàn)的有效性。
2.2? 實(shí)驗(yàn)結(jié)果
結(jié)合上述的實(shí)驗(yàn)準(zhǔn)備,進(jìn)行圖像目標(biāo)定位識(shí)別實(shí)驗(yàn)。在上述搭建的實(shí)驗(yàn)平臺(tái)中,分別使用本文設(shè)計(jì)的圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識(shí)別方法和常規(guī)的圖像目標(biāo)識(shí)別定位方法對(duì)圖像數(shù)據(jù)集中的若干圖像進(jìn)行識(shí)別,并使用式(10)計(jì)算兩種識(shí)別方法的識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知,本文設(shè)計(jì)的圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識(shí)別方法在連續(xù)10次識(shí)別中的識(shí)別準(zhǔn)確率均較高,而常規(guī)的圖像目標(biāo)定位識(shí)別方法的識(shí)別準(zhǔn)確率較低。證明本文設(shè)計(jì)的圖像目標(biāo)定位識(shí)別方法的識(shí)別效果較好,識(shí)別精度較高,具有一定的應(yīng)用價(jià)值。
3? 結(jié)? 論
綜上所述,在圖像目標(biāo)定位識(shí)別過程中,受圖像數(shù)量及來源復(fù)雜度的影響,其目標(biāo)識(shí)別準(zhǔn)確率往往較低,不滿足目前的圖像目標(biāo)定位識(shí)別需求。因此本文設(shè)計(jì)了一種新的圖像深度學(xué)習(xí)目標(biāo)定位識(shí)別方法并進(jìn)行實(shí)驗(yàn)。結(jié)果表明,設(shè)計(jì)的圖像目標(biāo)定位識(shí)別方法的識(shí)別準(zhǔn)確率較高,證明其識(shí)別效果較好,具有較高的識(shí)別精度,符合目前的圖像目標(biāo)定位識(shí)別需求,可以作為后續(xù)計(jì)算機(jī)視覺研究的參考。
參考文獻(xiàn):
[1] 類成敏,牟少敏,孫文杰,等.基于多尺度注意力殘差網(wǎng)絡(luò)的桃樹害蟲圖像識(shí)別 [J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2022,53(2):253-258.
[2] 張冉,李明周,鐘立樺,等.基于圖像識(shí)別的銅轉(zhuǎn)爐吹煉造渣期渣含F(xiàn)e預(yù)測(cè)模型研究[J].有色金屬:冶煉部分,2022(4):21-30.
[3] 唐標(biāo),沈映泉,黃緒勇,等.基于改進(jìn)型蟻群算法和圖像識(shí)別的變電站機(jī)器人路徑規(guī)劃和設(shè)備缺陷識(shí)別研究 [J].制造業(yè)自動(dòng)化,2022,44(2):46-52.
[4] 馮裕清,楊信廷,徐大明,等.基于遷移學(xué)習(xí)和金字塔卷積網(wǎng)絡(luò)的河蟹個(gè)體圖像識(shí)別方法研究 [J].漁業(yè)現(xiàn)代化,2022,49(1):52-60+71.
[5] 姚青,姚波,呂軍等.基于雙線性注意力網(wǎng)絡(luò)的農(nóng)業(yè)燈誘害蟲細(xì)粒度圖像識(shí)別研究[J].中國(guó)農(nóng)業(yè)科學(xué),2021,54(21):4562-4572.
[6] 肖懿,羅丹,蔣沁知,等.基于溫度概率密度的變電站高壓設(shè)備故障熱紅外圖像識(shí)別方法 [J].高電壓技術(shù),2022,48(1):307-318.
[7] 曹文艷,王然風(fēng),樊民強(qiáng),等.MRMR和SSGMM聯(lián)合分類模型的煤泥浮選系統(tǒng)藥況圖像識(shí)別 [J].控制理論與應(yīng)用,2021,38(12):2045-2058.
[8] 張紅斌,熊其鵬,蔣子良,等.聯(lián)合SENet異構(gòu)層特征融合與集成學(xué)習(xí)的材質(zhì)圖像識(shí)別 [J].控制與決策,2022,37(6):1632-1642.
[9] 孫文杰,牟少敏,董萌萍,等.基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的桃樹葉部病害圖像識(shí)別 [J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2020,51(6):998-1003.
[10] 趙若晴,王慧琴,王可,等.基于方向梯度直方圖和灰度共生矩陣混合特征的金文圖像識(shí)別 [J].激光與光電子學(xué)進(jìn)展,2020,57(12):98-104.
作者簡(jiǎn)介:林湧濤(2004.12—),男,漢族,廣東揭陽(yáng)人,初級(jí)工程師,本科在讀,研究方向:數(shù)據(jù)分析;崔寧(1987.05—),男,漢族,安徽宿州人,講師,碩士研究生,研究方向:智慧教育與學(xué)習(xí);趙志?。?978.03—),男,漢族,廣東廣州人,副教授,初級(jí)工程師,本科,研究方向:圖形圖像處理;李淵(2000.08—),男,漢族,廣東梅州人,初級(jí)工程師,本科在讀,研究方向:軟件技術(shù);黃婉馨(2003.07—),女,漢族,廣東江門人,初級(jí)工程師,本科在讀,研究方向:軟件技術(shù)。
收稿日期:2022-09-26
基金項(xiàng)目:2023年廣東省科技創(chuàng)新戰(zhàn)略專項(xiàng)資金(“攀登計(jì)劃”專項(xiàng)資金)(pdjh2023b0929);廣東省高職教育教學(xué)改革研究與實(shí)踐項(xiàng)目(GDJG2021175);2021年校級(jí)質(zhì)量工程移動(dòng)互聯(lián)網(wǎng)應(yīng)用技術(shù)協(xié)同創(chuàng)新中心階段性成果(2021ZL01)