摘要:針對(duì)金融領(lǐng)域內(nèi)人民幣紙幣幣值快速、精準(zhǔn)自動(dòng)識(shí)別的問題,提出了一種融合注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)CBAM_VGG16。首先,采集第五版人民幣圖像,構(gòu)建人民幣數(shù)據(jù)集并進(jìn)行預(yù)處理;然后,將注意力機(jī)制引入VGG16深度神經(jīng)網(wǎng)絡(luò)模型,設(shè)計(jì)出一種融合注意力機(jī)制的VGG16深度神經(jīng)網(wǎng)絡(luò)人民幣幣值識(shí)別模型CBAM_VGG16;最后,在上述人民幣數(shù)據(jù)集上對(duì)VGG16深度神經(jīng)網(wǎng)絡(luò)模型和CBAM_VGG16模型進(jìn)行對(duì)比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,CBAM_VGG16模型的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)分別為88.62%、68.19%、69.42%和65.98%,相較VGG16模型分別提高了2.15%、0.82%、3.38%和1.44%,從而驗(yàn)證了融合注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型CBAM_VGG16在人民幣幣值智能識(shí)別中的有效性。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò)模型;智能識(shí)別;人民幣;注意力機(jī)制;混淆矩陣
中圖分類號(hào):TP319" "文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)18-0036-04
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
盡管支付寶和微信等電子支付方式已提高了金融流通的效率,紙幣仍然是主要的貨幣形式,人民幣紙幣幣值的智能識(shí)別在我們的日常生活中隨處可見,如地鐵智能投幣售票機(jī)、ATM機(jī)存款處理、紙幣清分機(jī)、無人售票機(jī)等,實(shí)現(xiàn)人民幣紙幣幣值智能化識(shí)別尤為重要。
基于深度學(xué)習(xí)的紙幣幣值識(shí)別方法具有魯棒性、兼容性以及分布式處理等特點(diǎn),近年來基于深度學(xué)習(xí)技術(shù)的紙幣幣值識(shí)別研究取得了一些成果[1-4]。本文創(chuàng)新性地設(shè)計(jì)了融合注意力機(jī)制的VGG16深度神經(jīng)網(wǎng)絡(luò)模型對(duì)人民幣紙幣幣值進(jìn)行智能識(shí)別,與VGG16深度神經(jīng)網(wǎng)絡(luò)模型相比識(shí)別性能有明顯提高。由于目前沒有公開的用于幣值識(shí)別的人民幣數(shù)據(jù)集,本文通過各大網(wǎng)站及人工拍攝,收集了不同方位、不同光照條件、不同幣值、尺寸大小不一的第五版中國(guó)人民幣圖像,構(gòu)建了一個(gè)人民幣數(shù)據(jù)集。
1 深度卷積神經(jīng)網(wǎng)絡(luò)
深度卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是深度神經(jīng)網(wǎng)絡(luò)(DNN) 的一種。深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、卷積層、池化層和全連接層,VGG16是一種主流的深度卷積神經(jīng)網(wǎng)絡(luò),包括13個(gè)卷積層和3個(gè)全連接層[5]。
2 CBAM_VGG16深度神經(jīng)網(wǎng)絡(luò)
2.1 注意力機(jī)制
注意力機(jī)制(Attention mechanism) 是深度學(xué)習(xí)技術(shù)中值得關(guān)注與深入的技術(shù)之一,是一種模擬人腦注意的模型[6],能夠?qū)⒂邢薜淖⒁饬拇罅啃畔⒅泻Y選出高價(jià)值的信息。注意力機(jī)制不僅能夠減少對(duì)外部輸入信息的依賴,而且更加擅長(zhǎng)獲取數(shù)據(jù)特征的內(nèi)部相關(guān)性,能夠抓住信息中的關(guān)鍵點(diǎn)[7]。
混合注意力模塊(CBAM, Convolutional Block Attention Module) 是2018年提出的創(chuàng)新型輕量級(jí)雙重注意力模塊,其創(chuàng)新性地整合了通道注意力模塊(Channel Attention Module) 和空間注意力模塊(Spatial Attention Module) 。CBAM通過特征重標(biāo)定策略,在保留原始特征圖拓?fù)浣Y(jié)構(gòu)的同時(shí),實(shí)現(xiàn)了對(duì)跨通道特征關(guān)聯(lián)性和空間維度上下文依賴性的協(xié)同建模。具體而言,通道注意力模塊通過全局平均池化與最大池化的雙路特征聚合,建立通道維度特征響應(yīng)關(guān)系;空間注意力模塊則通過二維卷積核構(gòu)建空間位置權(quán)重矩陣,強(qiáng)化關(guān)鍵區(qū)域特征表達(dá)。CBAM如圖1所示。
2.2 CBAM_VGG16深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
CBAM作為即插即用的輕量化模塊,其核心優(yōu)勢(shì)在于能夠無縫集成到現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中,而不改變基礎(chǔ)拓?fù)浣Y(jié)構(gòu)。本研究中,基于VGG16模型進(jìn)行改進(jìn)創(chuàng)新,分別在第一個(gè)最大池化層(位于conv1_2后) 和最后一個(gè)最大池化層(位于conv5_3后) 前部署CBAM,構(gòu)建了CBAM_VGG16深度神經(jīng)網(wǎng)絡(luò)。這種層級(jí)化部署策略通過多尺度特征融合機(jī)制,實(shí)現(xiàn)了淺層細(xì)節(jié)特征與深層語義特征的協(xié)同優(yōu)化:淺層注意力模塊聚焦于邊緣紋理等低級(jí)特征增強(qiáng),深層模塊則強(qiáng)化目標(biāo)語義區(qū)域的特征響應(yīng)。具體模型如圖2所示。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集及預(yù)處理
由于目前沒有公開的用于幣值識(shí)別的人民幣數(shù)據(jù)集,本文通過各大網(wǎng)站及人工拍攝,收集了不同方位、不同光照條件、不同幣值、不同尺寸大小的第五版中國(guó)人民幣圖像作為數(shù)據(jù)集,選取的類別為:5元、10元、20元、50元、100元共五類,每類300張,共1 500張,每類中正面圖像約占40%,側(cè)面圖像約占60%。該數(shù)據(jù)集符合《人民幣圖樣使用管理辦法》。隨機(jī)選取每類250張為訓(xùn)練集,剩余每類50張為測(cè)試集。
數(shù)據(jù)集中采集到的樣本尺寸大小不一,需統(tǒng)一為相同尺寸。根據(jù)圖像特性,為避免圖像失真和扭曲,將圖片裁剪為224×112[8]。
在樣本類別識(shí)別任務(wù)中,數(shù)據(jù)標(biāo)注是構(gòu)建監(jiān)督學(xué)習(xí)模型的關(guān)鍵步驟。本文采用基于目錄結(jié)構(gòu)的標(biāo)注方法:首先,根據(jù)數(shù)據(jù)集的類別名稱定義分類標(biāo)簽,將存儲(chǔ)在同一路徑下且具有相同類名的圖像文件夾歸為一類,并以自然數(shù)序列(如“0”“1”“2”“3”“4”等) 作為類別標(biāo)簽。為增強(qiáng)模型的泛化能力并避免潛在的順序偏差,利用random.shuffle函數(shù)對(duì)標(biāo)簽順序進(jìn)行隨機(jī)化處理,并將結(jié)果存儲(chǔ)至label_list。同時(shí),在圖像加載過程中,同步記錄各樣本的完整文件路徑,并將其存入image_list。這種雙列表(image_list和label_list) 的設(shè)計(jì)實(shí)現(xiàn)了圖像數(shù)據(jù)與標(biāo)簽的一一對(duì)應(yīng),不僅確保了數(shù)據(jù)訪問的高效性,還為后續(xù)的數(shù)據(jù)加載、批量處理及模型訓(xùn)練提供了結(jié)構(gòu)化支持。此外,該方法具備良好的可擴(kuò)展性,適配不同規(guī)模數(shù)據(jù)集標(biāo)注需求。
在計(jì)算機(jī)視覺任務(wù)中,輸入數(shù)據(jù)的數(shù)值分布對(duì)模型訓(xùn)練具有重要影響。原始樣本圖像采用8位RGB色彩表示,每個(gè)像素點(diǎn)的數(shù)值范圍為[0, 255]。這種原始數(shù)據(jù)分布存在兩個(gè)主要問題:首先,較大的像素值可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)在反向傳播過程中產(chǎn)生梯度爆炸;其次,數(shù)值量級(jí)的差異會(huì)使得模型傾向于學(xué)習(xí)大數(shù)值特征,而忽略對(duì)小數(shù)值特征的捕捉。為解決這些問題,采用最小最大歸一化方法,將像素值線性映射到[0,1]區(qū)間。這種處理能夠規(guī)范化特征間的量綱差異,統(tǒng)一網(wǎng)絡(luò)各層輸入的數(shù)值尺度,使數(shù)據(jù)分布更符合深度學(xué)習(xí)模型的預(yù)期輸入范圍,從而有效加速梯度下降的收斂過程,同時(shí)通過約束數(shù)值范圍顯著提升計(jì)算穩(wěn)定性。
3.2 評(píng)估指標(biāo)
評(píng)估分類器模型的常用指標(biāo)有準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)。為了全面對(duì)比經(jīng)典VGG16模型和CBAM_VGG16模型的性能,本文采用上述4個(gè)指標(biāo)作為VGG16模型和CBAM_VGG16模型的性能評(píng)估指標(biāo)。上述指標(biāo)可以根據(jù)混淆矩陣計(jì)算得出。
3.3 模型搭建
本文使用TensorFlow框架搭建VGG16和CBAM_VGG16模型。
模型訓(xùn)練數(shù)據(jù)集為1 250張人民幣圖片(224×112) ,相比于常見的圖像識(shí)別訓(xùn)練數(shù)據(jù),訓(xùn)練量明顯較少,且圖片尺寸存在明顯差異。本文實(shí)驗(yàn)中的批次大小、損失函數(shù)、學(xué)習(xí)率和優(yōu)化器設(shè)置參照文獻(xiàn)[9]中的模型參數(shù)。
圖3表示了VGG16中的卷積與池化過程,224×112為圖像尺寸,3為通道數(shù)。卷積層改變特征圖的通道數(shù),由64到128、256、512后保持不變,池化層改變特征圖的尺寸大小。最后一層全連接層后使用softmax函數(shù)來計(jì)算預(yù)測(cè)分類的概率分布,并使用交叉熵作為損失函數(shù)。
按圖4搭建VGG16模型。
在VGG16模型的基礎(chǔ)上,按照?qǐng)D2所示的CBAM_VGG16深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),搭建CBAM_VGG16深度神經(jīng)網(wǎng)絡(luò)模型。
根據(jù)預(yù)測(cè)結(jié)果計(jì)算混淆矩陣,本文共分為5類,可得到一個(gè)5×5的混淆矩陣。隨后根據(jù)該混淆矩陣計(jì)算各個(gè)評(píng)估指標(biāo)。
3.4 結(jié)果與分析
在未引入注意力機(jī)制的VGG16模型實(shí)驗(yàn)中,設(shè)置兩層循環(huán)以傳入樣本進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練,外層循環(huán)次數(shù)為訓(xùn)練的迭代次數(shù),內(nèi)層循環(huán)次數(shù)為總樣本數(shù)/批次大小,設(shè)批次大小為15。訓(xùn)練集和測(cè)試集的準(zhǔn)確率與迭代次數(shù)的趨勢(shì)如圖5所示。
從圖5可以看出,經(jīng)過40次迭代,訓(xùn)練集準(zhǔn)確率逐漸達(dá)到0.85左右,測(cè)試集的準(zhǔn)確率則逐漸達(dá)到0.8。模型損失函數(shù)值隨迭代次數(shù)的變化如圖6所示。
由圖6可以看出,損失函數(shù)值隨著迭代次數(shù)的增加不斷降低。為評(píng)估訓(xùn)練好的模型,先計(jì)算訓(xùn)練好的模型的混淆矩陣,再根據(jù)混淆矩陣計(jì)算各項(xiàng)評(píng)估指標(biāo),結(jié)果如表1所示。
從表1可以看出,訓(xùn)練好的VGG16模型在人民幣幣值分類任務(wù)上取得了較好的準(zhǔn)確度,說明VGG16模型具備較強(qiáng)的學(xué)習(xí)能力。但從圖5來看,準(zhǔn)確率存在較大波動(dòng),模型的泛化性能和穩(wěn)定性仍有提升空間。針對(duì)這些問題,本文進(jìn)一步測(cè)試了引入注意力機(jī)制后的CBAM_VGG16模型,其實(shí)驗(yàn)結(jié)果如下。
由圖7可見,CBAM_VGG16模型在訓(xùn)練集和測(cè)試集的準(zhǔn)確率由0.266逐漸上升至0.933 3,相較于未引入注意力機(jī)制的VGG16模型,表現(xiàn)更為優(yōu)異。后續(xù)可通過增加迭代訓(xùn)練次數(shù)和設(shè)置動(dòng)態(tài)學(xué)習(xí)率,以獲得更好的識(shí)別效果。CBAM_VGG16模型的損失函數(shù)值隨迭代次數(shù)的變化如圖8所示。
基于混淆矩陣計(jì)算訓(xùn)練好的CBAM_VGG16模型的各項(xiàng)評(píng)估指標(biāo),結(jié)果如表2所示。
由表1和表2可知,在相同實(shí)驗(yàn)條件下,CBAM_VGG16模型相較于VGG16模型,準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)分別提高了2.15%、0.82%、3.38%和1.44%。這證明注意力模塊在VGG16模型中起到了作用,能夠提取高價(jià)值的信息,提高模型的學(xué)習(xí)能力。
4 結(jié)束語
針對(duì)人民幣紙幣識(shí)別問題,本文創(chuàng)新性地設(shè)計(jì)了一種融合注意力機(jī)制的VGG16深度神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了人民幣紙幣幣值的智能識(shí)別。針對(duì)目前缺乏公開用于幣值識(shí)別的人民幣紙幣圖像數(shù)據(jù)集的問題,本文通過各大網(wǎng)站及人工拍攝方式,收集了不同方位、不同光照條件、不同幣值、尺寸不一的第五版中國(guó)人民幣圖像,構(gòu)建了一個(gè)人民幣數(shù)據(jù)集。在該數(shù)據(jù)集上的測(cè)試結(jié)果表明,與VGG16深度神經(jīng)網(wǎng)絡(luò)模型相比,本文設(shè)計(jì)的融合注意力機(jī)制的VGG16深度神經(jīng)網(wǎng)絡(luò)模型在準(zhǔn)確率、精確率和召回率等方面均有明顯提升。本文構(gòu)建的數(shù)據(jù)集仍存在樣本數(shù)量較少、不同類別的人民幣圖像質(zhì)量差距較大等問題,且模型訓(xùn)練時(shí)間較短。后續(xù)可通過增加數(shù)據(jù)集樣本數(shù)、平衡不同類別的人民幣圖像質(zhì)量、增強(qiáng)樣本圖像的預(yù)處理以及延長(zhǎng)訓(xùn)練時(shí)間等手段提升模型的識(shí)別能力,進(jìn)一步結(jié)合人民幣紙幣真?zhèn)巫R(shí)別技術(shù)開發(fā)紙幣清分機(jī)等產(chǎn)品,使研究成果在相關(guān)領(lǐng)域發(fā)揮更大作用。
參考文獻(xiàn):
[1] 蓋杉,鮑中運(yùn).基于改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的紙幣識(shí)別研究[J].電子與信息學(xué)報(bào),2019,41(8):1992-2000.
[2] 沈成龍.基于深度學(xué)習(xí)的民國(guó)紙幣序列號(hào)研究[D].上海:上海師范大學(xué),2021.
[3] 丁寰毓.基于深度學(xué)習(xí)的人民幣水印識(shí)別[D].哈爾濱:哈爾濱工業(yè)大學(xué),2020.
[4] 李慧.歐元紙幣識(shí)別方法的研究[D].鞍山:遼寧科技大學(xué),2023.
[5] 閆新寶,蔣正鋒.基于VGGNet深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法研究[J].電腦知識(shí)與技術(shù),2023,19(25):34-37.
[6] 劉建偉,劉俊文,羅雄麟.深度學(xué)習(xí)中注意力機(jī)制研究進(jìn)展[J].工程科學(xué)學(xué)報(bào),2021,43(11):1499-1511.
[7] 孫萍.基于注意力機(jī)制與域自適應(yīng)的深度學(xué)習(xí)圖像目標(biāo)檢測(cè)[D].武漢:武漢大學(xué),2019.
[8] 韓賀磊.人民幣紙幣面額的機(jī)器視覺識(shí)別方法研究[D].大連:大連理工大學(xué),2007.
[9] 蔣正鋒,廖群麗.基于多參數(shù)融合優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)研究[J].現(xiàn)代計(jì)算機(jī),2021,27(31):13-24.
【通聯(lián)編輯:唐一東】