王正剛,劉忠,金瑾,劉偉
基于改進蝶形反饋型神經(jīng)網(wǎng)絡(luò)的海關(guān)風險布控方法
王正剛1,2,3*,劉忠1,2,金瑾4,劉偉3
(1.中國科學院 成都計算機應(yīng)用研究所,成都 610213; 2.中國科學院大學 研究生院,北京 101408; 3.中華人民共和國成都海關(guān) 科技處,成都 610041; 4.成都信息工程大學 軟件工程學院,成都 610103)(?通信作者電子郵箱wangzhenggang@customs.gov.cn.com)
針對現(xiàn)階段我國海關(guān)風險布控方法存在效率、準確率較低、人力資源占用過多的問題和智能化分類算法小型化部署需求,提出一種基于改進蝶形反饋型神經(jīng)網(wǎng)絡(luò)(BFNet-V2)的海關(guān)風險布控方法。首先,運用編碼填充(FC)算法實現(xiàn)海關(guān)表格數(shù)據(jù)到模擬圖像的語義替換;其次,運用BFNet-V2訓(xùn)練模擬圖像數(shù)據(jù),由左右兩條鏈路、不同卷積核和塊、小塊的設(shè)計組成規(guī)則的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并添加殘差短路徑干預(yù)改善過擬合和梯度消失;最后,提出歷史動量自適應(yīng)矩估計算法(H-Adam)優(yōu)化梯度下降過程,取得更優(yōu)的自適應(yīng)學習率調(diào)整方式,并分類海關(guān)數(shù)據(jù)。選取Xception(eXtreme inception)、移動網(wǎng)絡(luò)(MobileNet)、殘差網(wǎng)絡(luò)(ResNet)和蝶形反饋型神經(jīng)網(wǎng)絡(luò)(BF-Net)為基線網(wǎng)絡(luò)結(jié)構(gòu)進行對比。BFNet-V2的接受者工作特征曲線(ROC)和查準率-查全率曲線(PR)包含了基線網(wǎng)絡(luò)結(jié)構(gòu)的曲線,與4種基線網(wǎng)絡(luò)結(jié)構(gòu)相比,基于遷移學習(TL)的BFNet-V2分類準確率分別提高了4.30%、4.34%、4.10%和0.37%。在真實標簽數(shù)據(jù)分類過程中,BFNet-V2的查獲誤判率分別降低了70.09%、57.98%、58.36%和10.70%。比較所提方法與包含淺層和深度學習方法在內(nèi)的8種分類方法,在3個數(shù)據(jù)集上的準確率均提升1.33%以上,可見所提方法能夠?qū)崿F(xiàn)表格數(shù)據(jù)自動分類,提升海關(guān)風險布控的效率和準確度。
卷積神經(jīng)網(wǎng)絡(luò);模擬圖像;自適應(yīng)矩估計;海關(guān);風險布控
海關(guān)入境檢疫和安全(Custom Immigration Quarantine and Security, CIQS)是關(guān)乎國家安全的重要組成部分。我國海關(guān)現(xiàn)有的風險分析手段不夠智能化,導(dǎo)致作業(yè)標準無法統(tǒng)一,風險分析結(jié)果的可信度難以達到監(jiān)管要求,亟須一種智能化的方法實現(xiàn)自主風險排查和高風險商品的布控。
海關(guān)風險布控根據(jù)數(shù)據(jù)特點研究結(jié)構(gòu)化數(shù)據(jù)聚類、分類等算法,實現(xiàn)海關(guān)數(shù)據(jù)的自主風險分類。海關(guān)數(shù)據(jù)屬于表格數(shù)據(jù),這種結(jié)構(gòu)化數(shù)據(jù)的分類可以參考淺層數(shù)據(jù)分類方法,如線性回歸[1]、決策樹[2]、隨機森林[3-5]和極度梯度提升(eXtreme Gradient Boosting, XGBoost)樹[6]等傳統(tǒng)的機器學習方法,但這些方法分類效果有限,泛化性能較差;另一種處理方式是運用多種方法變換數(shù)據(jù),借鑒表格數(shù)據(jù)深度學習算法分類識別表格數(shù)據(jù)。
Chen等[7]提出針對表格數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)組件,稱為抽象層(Abstract Layer,AbstLay),設(shè)計了一種結(jié)構(gòu)再參數(shù)化方法壓縮經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)DANET(Deep Abstract NETwork),在訓(xùn)練階段大幅降低計算復(fù)雜度。Buturovi?等[8]開發(fā)并評估了一種表格卷積(TAbular Convolution, TAC)的方法,通過將表格數(shù)據(jù)轉(zhuǎn)換為圖像,使用二維神經(jīng)網(wǎng)絡(luò)分類此類數(shù)據(jù)。Sun等[9]提出超級字符方法SuperTML(Super Tabular data Machine Learning),對于每個表格數(shù)據(jù)的輸入,首先將特征像圖像一樣投影至二維嵌入,其次將該圖像輸入經(jīng)過微調(diào)的二維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進行分類。該方法可以處理表格數(shù)據(jù)中的分類數(shù)據(jù)和缺失值,不需要將它們預(yù)處理為數(shù)值,大幅提高了表格數(shù)據(jù)的處理效率。這些方法在對比實驗中取得了較好的效果,但DANET應(yīng)用于醫(yī)學數(shù)據(jù)集;TAC和SuperTML只是對表格數(shù)據(jù)進行了轉(zhuǎn)化,沒有運用新的更適應(yīng)表格數(shù)據(jù)的CNN結(jié)構(gòu),泛化能力不足,難以直接用于海關(guān)數(shù)據(jù)風險分析和布控工作。它們的共同特點是將表格數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù),利用CNN的優(yōu)異性能分類數(shù)據(jù)。
一些研究表明,神經(jīng)網(wǎng)絡(luò)對于結(jié)構(gòu)化數(shù)據(jù)的分類和異常檢測的效果并未很好地展現(xiàn),因為這種二維圖像建立的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不能簡單地套用圖像、視頻等領(lǐng)域成熟的模型。由于輸入數(shù)據(jù)對象的不同,需要研究更適應(yīng)這種轉(zhuǎn)化后的二維圖像的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以提高分類指標的準確率。
大多數(shù)神經(jīng)網(wǎng)絡(luò)如Xception(eXtreme inception)[10]、移動網(wǎng)絡(luò)(Mobile Network,MobileNet)[11]和殘差網(wǎng)絡(luò)(Residual Network, ResNet)[12]等都由經(jīng)驗法則和直覺構(gòu)建,隨著體系結(jié)構(gòu)不斷發(fā)展和深化,加入了更多的超參數(shù)。蝶形反饋型神經(jīng)網(wǎng)絡(luò)(Butterfly Feedback neural Network, BF-Net)[13]在較少樣本的海關(guān)風險數(shù)據(jù)分類方面表現(xiàn)優(yōu)異,能夠一定程度地實現(xiàn)海關(guān)數(shù)據(jù)風險自動判別,但當數(shù)據(jù)集和類的數(shù)量持續(xù)增大時,BF-Net的性能難以進一步提高,且模型終端小型化部署對模型的參數(shù)量和運算速度提出了更高的要求。任務(wù)的特點決定了它的主要的應(yīng)用場景,對于海關(guān)風險布控自主分類問題,需要借鑒經(jīng)典的CNN結(jié)構(gòu),研究一種高準確度、更低參數(shù)量和輕量級的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
本文針對海關(guān)數(shù)據(jù)特點,提出基于改進蝶形反饋型神經(jīng)網(wǎng)絡(luò)(Butterfly Feedback neural Network Version2, BFNet-V2)的海關(guān)風險布控方法,包含海關(guān)數(shù)據(jù)語義提取轉(zhuǎn)化方法——編碼填充(Filling in Code, FC)[13]、BFNet-V2結(jié)構(gòu)和歷史動量自適應(yīng)矩估計算法(Historical momentum Adaptive moment estimation algorithm, H-Adam)這3個部分,用于實現(xiàn)海關(guān)單證數(shù)據(jù)自主分類。依靠本文方法進行終端部署,海關(guān)關(guān)員不再需要對海關(guān)數(shù)據(jù)手動建模,而由計算機為每一單商品貨物進行風險分類和標注,輔助關(guān)員現(xiàn)場風險決策,在大幅提高風險分析效率的同時確保高風險商品布控檢查,實現(xiàn)CIQS的巨大進步。
本文主要工作如下:
1)基于數(shù)據(jù)字段的增加,F(xiàn)C算法實現(xiàn)表格數(shù)據(jù)語義替換,數(shù)據(jù)字段得到極大擴充,在將表格數(shù)據(jù)轉(zhuǎn)化為模擬圖像過程中,運用數(shù)據(jù)直接二維隨機填充,增強網(wǎng)絡(luò)對非近鄰表格數(shù)據(jù)特征的提取能力,實現(xiàn)高效、精準的網(wǎng)絡(luò)訓(xùn)練。
2)基于海關(guān)風險分析數(shù)據(jù)量極大增加和終端部署要求的變化,提出一種相較于BF-Net[13]性能更優(yōu)的CNN結(jié)構(gòu)——BFNet-V2。采用具有層次性的神經(jīng)網(wǎng)絡(luò)設(shè)計方法,由若干“塊”狀結(jié)構(gòu)按一定規(guī)則組成神經(jīng)網(wǎng)絡(luò)。利用雙鏈路不同大小的卷積核在更廣泛的感受野上提取圖像的特征,將原BF-Net中的5×5普通卷積核替換為5×5的空洞卷積[14](擴張率(dilation rate)為2),并添加塊輸入端到塊輸出端的直接映射,減輕訓(xùn)練過程中的梯度爆炸和消失,避免深度網(wǎng)絡(luò)過擬合,進一步減少網(wǎng)絡(luò)參數(shù)量,通過實驗驗證該網(wǎng)絡(luò)的效率和分類指標。
3)以海關(guān)表格數(shù)據(jù)分類為任務(wù)牽引,研究深度學習中的不同自適應(yīng)隨機優(yōu)化器算法的梯度下降,引入了歷史動量信息,在動量自適應(yīng)矩估計(Adaptive moment estimation, Adam)算法基礎(chǔ)上提出了一種歷史動量自適應(yīng)矩估計算法——H-Adam,并驗證了它的有界性,分析了該算法在目標函數(shù)梯度下降過程中的作用機制,驗證了不同自適應(yīng)學習率調(diào)整算法的收斂性。
本文用FC算法[13]清理表格數(shù)據(jù)。由于數(shù)據(jù)量增大、數(shù)據(jù)字段增加,無法生成類似文獻[13]中的較小圖片,因此,不同于文獻[13]中的數(shù)據(jù)順序填充方式,本文采用隨機編碼填充,將每條原始數(shù)據(jù)的386個字段數(shù)據(jù)直接生成20×20的圖像,算法為每個字段賦予一個圖像點坐標,每個圖像點坐標賦予R(Red)、G(Green)和B(Blue)三通道像素值,按照從左至右的順序?qū)⒆侄螖?shù)據(jù)隨機填充至像素點中,直至完成數(shù)據(jù)填充,組合生成模擬圖像數(shù)據(jù)集。
1.2.1基本塊結(jié)構(gòu)
BFNet-V2是一種運用多鏈路不同卷積核提取特征,按規(guī)律添加殘差塊,直接映射結(jié)構(gòu)的新CNN結(jié)構(gòu)。在BFNet-V2的基本單元塊中設(shè)置參數(shù)不定的卷積層,所有的塊除了卷積維度以外都具有相同的拓撲結(jié)構(gòu),左鏈路層與層之間用線性整流函數(shù)(Rectified Linear Unit, ReLU)[15]作為激活函數(shù)。與BF-Net的區(qū)別是右鏈路由空洞卷積計算,只添加1個卷積層,用空洞卷積代替同維卷積能有效地發(fā)揮空洞卷積提取特征的能力,并能部分保留上一層的原始特征進入下一層進行運算。這種基于塊的模塊化設(shè)計具有明顯優(yōu)勢,通過超參數(shù)設(shè)置能夠添加或刪除相應(yīng)的卷積層,同時可以按照需求和實驗結(jié)果調(diào)整設(shè)置直接映射的策略,從而根據(jù)任務(wù)需要組成輕量級或一般神經(jīng)網(wǎng)絡(luò)。組成BFNet-V2的基本結(jié)構(gòu)塊如圖1所示。
圖1 BFNet-V2的基本結(jié)構(gòu)塊
BFNet-V2的卷積定義選擇同維卷積和空洞卷積兩種。由于在訓(xùn)練海關(guān)模擬圖像時,設(shè)置padding=same(卷積方式的設(shè)置),左鏈路卷積運算等效于同維卷積,右鏈路運算等效于空洞卷積。
同維卷積的表達式如式(1)所示:
空洞卷積的表達式如式(2)所示:
1)塊和小塊的正向傳播。
BFNet-V2的結(jié)構(gòu)由小塊和塊組成,具體為:若干個小塊組成1個塊,若干個塊組成BFNet-V2網(wǎng)絡(luò)結(jié)構(gòu),整個正向傳播各層之間添加激活函數(shù)。
BFNet-V2中特征圖像經(jīng)過塊結(jié)構(gòu)計算后,完成特征提取,進入4個神經(jīng)元梯次減少的全連接層,經(jīng)過全連接層時,需要將特征圖像鋪平從而轉(zhuǎn)換為特征向量,作為塊的輸出。
2)池化層的正向傳播。
池化方式選擇最大池化,如式(7)所示:
3)全連接層的正向傳播。
輸入數(shù)據(jù)傳遞到全連接層,經(jīng)過全連接層后,獲得分類并輸出結(jié)果。表達式如式(8)所示:
1.2.2改進蝶形反饋型神經(jīng)網(wǎng)絡(luò)整體設(shè)計
本文訓(xùn)練了一種具有12個基本卷積層的輕量級改進蝶形反饋型神經(jīng)網(wǎng)絡(luò)(BFNet-V2),用于海關(guān)數(shù)據(jù)風險標簽分類。BFNet-V2的輸入數(shù)據(jù)為3通道RGB模擬圖像(圖像大小20×20),設(shè)置12個卷積層,維度分別為16、32和64。左鏈路使用較小的感受野和3×3卷積核。右鏈路使用更大的感受野和5×5空洞卷積核,且只卷積一次。每兩個卷積層之間將圖像像素直接相加,做一次短路徑直接映射。本文訓(xùn)練的BFNet-V2的整體結(jié)構(gòu)如圖2所示。
圖2 BFNet-V2的整體結(jié)構(gòu)
圖2中,11代表小塊內(nèi)第一層卷積得到的特征圖,12代表小塊內(nèi)第二層卷積得到的特征圖,21代表第一個小塊計算后得到的特征圖。在最后一個卷積層后接2×2的最大池化層,在不影響分類效果的情況下,縮小特征圖像,以減少不必要的參數(shù)。引入一組全連接層,由2 048、1 024、512和64這4個不同尺度的全連接層以倒立金字塔的方式搭建,特征向量的尺度以1/2的比例逐次減少,特征按照全連接的方式向下輸出。除最后一層外,每經(jīng)過一個全連接層,特征向量減小一半的尺度,通過逐次降低尺度的全連接層組合方式可以最大限度地避免使用單個或尺度陡然降低的全連接層帶來的弊端,同時可以使提取的參數(shù)特征更好地逐層向下傳輸,避免過快降低抽象圖像特征維度或直接進行全連接輸出導(dǎo)致嚴重影響分類識別的精度。網(wǎng)絡(luò)的最后由Softmax激活函數(shù)完成分類概率的輸出,它的大小等于分類標簽數(shù),根據(jù)海關(guān)數(shù)據(jù)風險標簽分類需求,輸出為10類。
雖然Adam[16]在許多任務(wù)中快速收斂,但卻容易導(dǎo)致算法達到局部極小值。本文的H-Adam與忽略歷史動量的Adam不同,H-Adam更新一階距和二階距的變量時考慮了歷史動量,從而將歷史動量信息引入估計的更新。H-Adam在訓(xùn)練過程中累積歷史一階和二階動量信息均值以更新一階和二階動量,并逐漸降低對歷史動量的適配程度。H-Adam解決了Adam的泛化性能不佳的問題,允許在凸和非凸設(shè)置下收斂,算法1為H-Adam的迭代過程。
算法1 H-Adam。
While 沒有達到停止條件do
更新有偏一階矩估計:
更新有偏二階矩估計:
End while
H-Adam和Adam之間最顯著的區(qū)別是Adam的一階和二階動量只與前一步的動量有關(guān),而H-Adam的動量與歷史動量均存在聯(lián)系,這意味著過去的動量信息是積累而不是遺忘。由于當參數(shù)接近最優(yōu)點時,參數(shù)會變得稀疏和有噪聲,H-Adam會逐漸降低一階和二矩對最新動量的自適應(yīng)能力;因此,為了保證歷史動量的穩(wěn)定性,本文以歷史動量的均值影響當前動量值的更新。H-Adam改變了一階和二階矩的更新過程,在每次更新時加入歷史的動量信息,變量的更新如式(9)(10)所示:
1.3.1有界性
1.3.2梯度適應(yīng)性
H-Adam中的動量和歷史動量的相互作用,會以以下4種情況梯度下降。
由于文獻[16]中給出了Adam詳細的收斂性證明,在此對H-Adam的收斂性本文無須復(fù)述。H-Adam記錄了當前動量和歷史動量信息,并通過兩個動量值和符號的相互作用調(diào)整梯度下降方向和步幅,實現(xiàn)目標函數(shù)的平滑和平穩(wěn)過渡,適應(yīng)高維度空間的復(fù)雜目標函數(shù)。
以某省對外貿(mào)易活動過程中海關(guān)單證數(shù)據(jù)為研究對象,收集近十年進口凍肉、生鮮、食品、化妝品和紅酒等46種商品的報關(guān)、艙單和核放單數(shù)據(jù)132 990條(包含10個風險類別,放行通關(guān)或不予處罰的數(shù)據(jù)),其中02類別數(shù)據(jù)15 015條數(shù)據(jù)為隨機抽取,構(gòu)成總的海關(guān)數(shù)據(jù)集。
表1數(shù)據(jù)集分布
Tab.1 Dataset distribution
本文實驗設(shè)備和環(huán)境參數(shù):中央處理器(Central Processing Unit,CPU)為AMDRyzen2700X,8核,主頻3.70 GHz;隨機存取存儲器(Random Access Memory,RAM)為32.0 GB;操作系統(tǒng)為Windows 64位;圖形處理器(Graphic Processing Unit, GPU)為NVIDIA GTX1080,10 GB GDDR5;運行軟件為Python tensorflow 3.7。
圖3 4種自適應(yīng)學習率調(diào)整算法的訓(xùn)練和驗證損失曲線
雖然Nadam、H-Adam和Adam的超參數(shù)較多,但即使沒有進行學習率調(diào)優(yōu),它們也能獲得滿意的效果。其中,H-Adam在減少訓(xùn)練和驗證損失方面明顯優(yōu)于其他對比算法(包括它的父算法Adam)。
為了實現(xiàn)海關(guān)數(shù)據(jù)的自主分類,并以相同的學習率調(diào)整策略訓(xùn)練不同的網(wǎng)絡(luò)結(jié)構(gòu)分類器。本文計算準確率(ACCuracy rate,ACC)、Kappa系數(shù)、繪制受試者工作特征(Receiver Operating Characteristic, ROC)曲線以及它的曲線下面積(Area Under Curve, AUC)和查準率-查全率(Precision Recall,PR)曲線以及它的曲線下面積,該面積等于平均精準率(Average Precision, AP)[22]。
為了驗證BFNet-V2的有效性,本文研究了兩種不同的方式訓(xùn)練網(wǎng)絡(luò):從頭訓(xùn)練(Training from Scratch, TS)[23-24]和遷移學習(Transfer Learning, TL)[25-26]。
2.5.1策略設(shè)置和訓(xùn)練參數(shù)
學習率調(diào)整策略采用H-Adam。訓(xùn)練結(jié)束條件采用Keras中的EarlyStopping函數(shù)[15]自動調(diào)整學習率,當準確率或損失值到達一定值,則停止訓(xùn)練。在算法中定義學習率,并經(jīng)過一定epoch后,效果不再提升,該學習率可能已經(jīng)不再適應(yīng)該結(jié)構(gòu),因此需要在訓(xùn)練過程中通過H-Adam調(diào)整學習率,進而提升網(wǎng)絡(luò)結(jié)構(gòu)效果。
2.5.2訓(xùn)練方式和停止條件
按照訓(xùn)練網(wǎng)絡(luò)的設(shè)計,將10個分類的訓(xùn)練集和驗證集在輸入不同網(wǎng)絡(luò)結(jié)構(gòu)之前進行歸一化處理,使圖像的像素值在[0,1]區(qū)間。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時需要將訓(xùn)練樣本從文件夾中源源不斷地輸入訓(xùn)練數(shù)據(jù)緩沖區(qū),再將訓(xùn)練樣本分批輸入網(wǎng)絡(luò)進行訓(xùn)練,所有結(jié)構(gòu)均采用同樣的訓(xùn)練方式:每次從訓(xùn)練數(shù)據(jù)中選出一批數(shù)據(jù),然后對每批數(shù)據(jù)進行學習,簡稱小批量(Mini-batch)學習[27],Mini-batch設(shè)置為50。
當全部訓(xùn)練數(shù)據(jù)完成訓(xùn)練后,計算一次訓(xùn)練迭代次數(shù)(epoch)。當epoch達到設(shè)置的最高次數(shù)或者網(wǎng)絡(luò)誤差低于設(shè)定值時,網(wǎng)絡(luò)訓(xùn)練結(jié)束,此時保存訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),輸入測試數(shù)據(jù),驗證完成訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)性能。
所有網(wǎng)絡(luò)結(jié)構(gòu)分別在訓(xùn)練集的所有數(shù)據(jù)樣本上訓(xùn)練100次(100 epoches),直到自適應(yīng)學習率調(diào)整算法直接提前結(jié)束訓(xùn)練或達到規(guī)定epoch后停止訓(xùn)練。損失函數(shù)選擇交叉熵損失函數(shù)[28]。
交叉熵計算方式如式(12)所示:
在TS過程中,刪除卷積層之間的池化層,只在全連接層之前添加2×2池化,全連接層不變。在TL過程中,首先以ImageNet數(shù)據(jù)集[29]為源域?qū)FNet-V2進行預(yù)訓(xùn)練,設(shè)置網(wǎng)絡(luò)停止條件,保存訓(xùn)練好的網(wǎng)絡(luò)參數(shù),完成BFNet-V2的預(yù)訓(xùn)練過程。其次,在海關(guān)數(shù)據(jù)集這個目標域上進行遷移學習,得到訓(xùn)練和測試曲線。其他4種網(wǎng)絡(luò)結(jié)構(gòu)調(diào)用tensorflow[30]的官方預(yù)訓(xùn)練模型,池化層、全連接層和學習率都與TS的網(wǎng)絡(luò)結(jié)構(gòu)保持一致。
2.6.1兩種訓(xùn)練方式的BFNet-V2訓(xùn)練曲線
圖4和圖5是兩種訓(xùn)練方式的BFNet-V2損失(Loss)和準確率(ACC)曲線,雖然二者訓(xùn)練曲線差別不大,但TL的ACC曲線明顯優(yōu)于TS,這從一個側(cè)面反映了海關(guān)數(shù)據(jù)模擬圖像雖然是一種無規(guī)律二維馬賽克圖像,但它與ImageNet數(shù)據(jù)集中的現(xiàn)實圖像同樣存在著某種未知的關(guān)聯(lián)。
2.6.2不同網(wǎng)絡(luò)遷移學習Loss和ACC曲線
本文將BFNet-V2與Xception[10]、MobileNet-V2[11]、ResNet50[12]和BF-Net[13]這4種網(wǎng)絡(luò)結(jié)構(gòu)進行對比。
圖6和圖7分別是5種網(wǎng)絡(luò)基于兩種訓(xùn)練方式的Loss曲線和ACC曲線。從圖6(a)和圖7(a)可以看出,Xception的損失曲線較平緩,在網(wǎng)絡(luò)結(jié)構(gòu)初始化時,Xception的訓(xùn)練集準確率接近75%,驗證集準確率超過45%,Loss曲線在第5個epoch后已經(jīng)較好地收斂,在20次左右達到平穩(wěn);同時,ACC曲線顯示此時訓(xùn)練集的ACC超過90%,驗證集的ACC達到89%,驗證集的ACC低于ResNet50,與MobileNet-V2相當。
輕量和快速是MobileNet-V2的特點,在網(wǎng)絡(luò)結(jié)構(gòu)初始化時,網(wǎng)絡(luò)的訓(xùn)練集準確率接近75%,但是驗證集準確率不高,在20%左右,說明網(wǎng)絡(luò)此時處于過擬合狀態(tài);隨著迭代次數(shù)的增加,網(wǎng)絡(luò)逐漸學習,隨著參數(shù)的調(diào)整和迭代次數(shù)的增加,網(wǎng)絡(luò)的驗證集準確率逐漸提高,從圖6(b)和圖7(b)可以看出,當網(wǎng)絡(luò)訓(xùn)練次數(shù)達到15時,驗證集的準確率趨于平穩(wěn),達到80%。訓(xùn)練集和驗證集的準確率都達到較高的水平。網(wǎng)絡(luò)的損失值也出現(xiàn)了相匹配的情況。由于MobileNet-V2輕量級的特點,網(wǎng)絡(luò)在第22次迭代后達到收斂。
圖4 BFNet-V2的Loss曲線(一個epoch)
圖5 BFNet-V2的ACC曲線(一個epoch)
從圖6(c)和圖7(c)可以看出,ResNet50訓(xùn)練迭代次數(shù)為27時,驗證集的準確率達到最高且趨于穩(wěn)定,當ResNet50訓(xùn)練16個epoch后訓(xùn)練集的準確率超過90%,驗證集的準確率也能達到85%,訓(xùn)練誤差也是下降到0.5以下,基本達到網(wǎng)絡(luò)訓(xùn)練的輸出結(jié)果。
從圖6(d)和圖7(d)中可以發(fā)現(xiàn),BF-Net經(jīng)過18次訓(xùn)練網(wǎng)絡(luò)就收斂并停止訓(xùn)練,ACC超過93%。
從圖6(e)和圖7(e)可以看出,基于遷移學習的BFNet-V2在全部epoch的Loss曲線和ACC曲線上的表現(xiàn)明顯優(yōu)于其他4種網(wǎng)絡(luò),Loss曲線波動較小,在第6個epoch后訓(xùn)練集的ACC已經(jīng)達到90%以上,且驗證集的ACC也達到90%,網(wǎng)絡(luò)沒有出現(xiàn)過擬合現(xiàn)象,收斂快,經(jīng)過不到20次的epoch就停止了訓(xùn)練,且驗證集的ACC已接近94%,體現(xiàn)了BFNet-V2的優(yōu)異性能。
圖6 各種網(wǎng)絡(luò)基于TL的Loss曲線
圖7 各種網(wǎng)絡(luò)基于TL的ACC曲線
2.6.35種網(wǎng)絡(luò)的PR曲線和ROC曲線
圖8、9是5種網(wǎng)絡(luò)結(jié)構(gòu)的ROC曲線和PR曲線。縱向比較,不論用TS還是TL方式,BFNet-V2的曲線弧度更大,平滑度較好,且基本能夠包裹其他網(wǎng)絡(luò)結(jié)構(gòu)的曲線,泛化能力較強,可以找到較好的分類樣本閾值。其次是BF-Net結(jié)構(gòu)、Xception結(jié)構(gòu)和ResNet50,它們的分類效果在伯仲之間,MobileNet-V2結(jié)構(gòu)的AUC和AP值最低。橫向比較,在訓(xùn)練方式方面,所有網(wǎng)絡(luò)結(jié)構(gòu)的TL方式的驗證結(jié)構(gòu)均好于TS,說明TL方式在海關(guān)數(shù)據(jù)集上有效;也說明訓(xùn)練模擬圖像數(shù)據(jù)集每種分類的圖像數(shù)量中等,TS的方式特征學習能力不如TL,此實驗結(jié)果與其他圖像數(shù)據(jù)集如ImageNet、COCO(http://mscoco.org/)等的實驗趨勢也是一致的。
圖8 5種網(wǎng)絡(luò)的ROC曲線
圖9 5種網(wǎng)絡(luò)的PR曲線
由于ROC曲線兼顧正例與負例,所以適用于評估分類器的整體性能。由于真實測試樣本不均衡,從圖9可以看出,BFNet-V2的虛警率值[0,0.2]的階段曲線較陡,對應(yīng)較高的擊中率值,曲線接近左上角,說明BFNet-V2在不同標簽的正例和負例分類較均衡。由于PR曲線的兩個指標都聚焦于正例,能夠展示不平衡數(shù)據(jù)的分類情況。BFNet-V2的準確率[0.8,1]的階段曲線較陡,對應(yīng)較高的查全率,曲線接近右上角,說明BFNet-V2在測試不均衡樣本數(shù)據(jù)集的優(yōu)勢。
2.6.45種網(wǎng)絡(luò)結(jié)構(gòu)實驗結(jié)果的分類指標
表2列出5種網(wǎng)絡(luò)結(jié)構(gòu)的驗證數(shù)據(jù)指標的平均值。驗證結(jié)果表明,從頭訓(xùn)練方面,BFNet-V2在4個指標上取得了最好的效果,但參數(shù)量多于MobileNet-V2,因此BFNet-V2使用較淺的網(wǎng)絡(luò)超越了其他深層網(wǎng)絡(luò)的分類效果,且卷積核的參數(shù)量沒有顯著增加,相較于BF-Net進一步減少。TL方式的訓(xùn)練顯示了同樣的結(jié)果,MobileNet-V2的性能被其他網(wǎng)絡(luò)結(jié)構(gòu)超越。以5種網(wǎng)絡(luò)結(jié)構(gòu)的遷移學習分類準確率為例,BFNet-V2相較于Xception、MobileNet-V2、ResNet50和BF-Net分別提高了4.30%、4.34%、4.10%和0.37%。
表2驗證數(shù)據(jù)集指標平均值
Tab.2 Mean index values on validation dataset
注:由于TL方式凍結(jié)卷積層,只訓(xùn)練全連接層,這里沒有討論結(jié)構(gòu)的參數(shù)量;加粗的是最大值,下畫線為最小值。
表3是對4 504張02標簽驗證模擬圖像的運行結(jié)果(單位:s)。BFNet-V2與Xception相比耗時減少了37.83%,與BF-Net相比耗時減少了12.50%,與MobileNet-V2相比耗時增加了15.65%,與ResNet50相比耗時減少了21.33%。分析5種網(wǎng)絡(luò)結(jié)構(gòu)所需要的訓(xùn)練時間,MobileNet-V2所需時間最短,但結(jié)合前面的運行結(jié)果(表2),MobileNet-V2的ACC并非最優(yōu);ResNet50各項指標表現(xiàn)較均衡;Xception的ACC值處于中等水平,但是運行時間銷最大;BF-Net和BFNet-V2的運行時間和網(wǎng)絡(luò)參數(shù)量略高于MobileNet-V2,BFNet-V2在ACC、PR曲線、ROC曲線和Kappa系數(shù)等指標方面均取得了較好的結(jié)果。根據(jù)Kappa系數(shù)的定義,另外3種網(wǎng)絡(luò)結(jié)構(gòu)可以達到82%~89%的Kappa系數(shù)指標,按照Kappa系數(shù)的評價標準可以定性為幾乎完全一致,但BF-Net和BFNet-V2的Kappa系數(shù)超過90%,且BFNet-V2結(jié)構(gòu)的Kappa系數(shù)大于BF-Net結(jié)構(gòu),分類結(jié)果的一致性檢驗效果更好。
表3基于遷移學習的網(wǎng)絡(luò)訓(xùn)練時間對比 單位:s
Tab.3 Comparison of network training time based on transfer learning unit:s
2.6.5海關(guān)數(shù)據(jù)風險分類的兩項任務(wù)指標
海關(guān)數(shù)據(jù)風險分類任務(wù)主要有兩方面:一是識別高風險商品,進入查驗環(huán)節(jié);二是避免將低風險商品識別為高風險商品,進行查驗。由于風險標簽00和02是放行,屬于低風險商品,則需要計算放行標簽被預(yù)測為查獲標簽時占所有放行標簽數(shù)據(jù)的比例;風險標簽03~14屬于查獲的類型,對應(yīng)高風險商品,需要計算標簽03~14的商品被預(yù)測為00和02時,占所有查獲標簽的比例。這兩個比例均越低越好。顯然,由于關(guān)系到CIQS,第2個比例更重要。
由表4可知,對于放行誤判,BFNet-V2的誤判率均為最低,只有極少量數(shù)據(jù)被誤判為查獲,其余4種網(wǎng)絡(luò)結(jié)構(gòu)的誤判率基本小于10%。以TL訓(xùn)練方式為例,BFNet-V2的放行誤判率相較于Xception、MobileNet-V2、ResNet50和BF-Net分別降低了68.78%、76.21%、72.25%和6.31%。BFNet-V2能夠盡可能多地直接過濾低風險商品,提高風險判別速度和工作效率。
對于查獲誤判,從表4中可以看出,BFNet-V2的誤判率接近1%,ResNet50、Xception和MobileNet-V2的誤判率較高。以TL訓(xùn)練方式為例,BFNet-V2的查獲誤判率相較于Xception、MobileNet-V2、ResNet50和BF-Net分別降低了70.09%、57.98%、58.36%和10.70%。BFNet-V2可以迅速標記絕大部分高風險商品,直接將單證轉(zhuǎn)移到人工查驗環(huán)節(jié),提升口岸風險防控的能力。
表45種網(wǎng)絡(luò)結(jié)構(gòu)的誤判率對比 單位: %
Tab.4 Comparison of misjudgment rate among five network structures unit: %
目標圖像存在差異是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取更多差異特征的先決條件。BFNet-V2的雙鏈路不同接收域訓(xùn)練策略能最大限度地提取特征圖的組合特征。通過神經(jīng)網(wǎng)絡(luò)反饋訓(xùn)練作用于分類輸出Softmax,在一定程度上避免了欠擬合;而兩個卷積層之間的直接映射、小塊與小塊之間的直接映射,以及塊與塊之間的直接映射使得上一層卷積核提取的特征可以直接作用于后面的卷積運算,該策略極大地提高了網(wǎng)絡(luò)的穩(wěn)定性,改善了復(fù)雜深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生的過擬合和梯度消失現(xiàn)象。在使用BFNet-V2參數(shù)訓(xùn)練的過程中,在海關(guān)數(shù)據(jù)集上,采用兩種訓(xùn)練方式均可以達到較好的海關(guān)數(shù)據(jù)分類效果,基本沒有出現(xiàn)過擬合、梯度消失和分類失敗的現(xiàn)象,實現(xiàn)了以較少的隱層達到較高的分類指標值。
將本文方法(BFNet-V2+H-Adam方法)與8種數(shù)據(jù)分類方法進行對比,涵蓋表格數(shù)據(jù)分類領(lǐng)域最優(yōu)和經(jīng)典的方法,評估指標為準確率。8種對照方法為:
1)隨機森林(Random Forest,RF)[3]。通過Pythonscikit-learn包中的RandomForestClassifier建立初始隨機森林方法,超參數(shù)樹數(shù)為300時,樹的深度設(shè)置為15,直接對表格數(shù)據(jù)分類。
2)支持向量機(Support Vector Machine, SVM)[31]。采用Libsvm分類器。
3)XGBoost[6]。改進的梯度提升算法,求解損失函數(shù)極值時使用牛頓法,將損失函數(shù)泰勒展開至二階;另外在損失函數(shù)中加入正則化項。
4)一維卷積神經(jīng)網(wǎng)絡(luò)(One-Dimensional Convolutional Neural Network,1D-CNN)[32]。表格數(shù)據(jù)實現(xiàn)統(tǒng)一編碼后,直接輸入1D-CNN進行分類,用一維卷積核在表格數(shù)據(jù)字段上滑動以提取數(shù)據(jù)特征,對表格數(shù)據(jù)進行分類。
5)DANET[7]。是一個深度神經(jīng)網(wǎng)絡(luò)家族,用于表格數(shù)據(jù)分類和回歸。在DANET中,引入一個特殊的快捷路徑從原始表格特征中獲取信息,幫助不同級別的特征交互。
6)TAC[8]。使用表格數(shù)據(jù)創(chuàng)建應(yīng)用于固定基礎(chǔ)圖像的圖像過濾器,運用ResNet結(jié)構(gòu)實現(xiàn)對表格數(shù)據(jù)的分類。
7)SuperTML[9]。對預(yù)訓(xùn)練的CNN在非結(jié)構(gòu)化數(shù)據(jù)上進行二維嵌入和優(yōu)化,將表格數(shù)據(jù)的機器學習問題轉(zhuǎn)化為圖像分類問題,以遷移學習表格形式的結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)表格數(shù)據(jù)的分類。
8)BF-Net+AdaGrad方法[13]。該方法實現(xiàn)表格數(shù)據(jù)到圖像數(shù)據(jù),再到神經(jīng)網(wǎng)絡(luò)識別訓(xùn)練的過程。
實驗數(shù)據(jù)集為Adult data set[33]、LETOR 4.0 Datasets[34]和Cardiovascular Disease5[35]。
表5展示不同方法在3個不同數(shù)據(jù)集上的實驗結(jié)果。各方法在不同數(shù)據(jù)上呈現(xiàn)出相似的結(jié)果,以LETOR 4.0 Datasets上的數(shù)據(jù)為例進行分析。
首先,RF方法的效果基本低于其他8種方法。一方面,與其他所有方法相比,RF方法較難適應(yīng)不同性質(zhì)、不同場景的表格數(shù)據(jù)字段;另一方面,且RF方法本質(zhì)是樹形結(jié)構(gòu),對于小數(shù)據(jù)或者低維數(shù)據(jù),分類效果并不理想,對于高維數(shù)據(jù),也難以與深度學習方法相比,RF通常需要在不同的參數(shù)和隨機種子之間反復(fù)嘗試以提高分類精度。兩種基于特征工程的機器學習方法(SVM和XGBoost)顯著優(yōu)于RF方法,但受限于有限的特征泛化能力,容易收斂于更優(yōu)的局部最優(yōu)解。因此,這兩種方法的準確率低于1D-CNN。1D-CNN明顯低于DANET、TAC和SuperTML這3種表格數(shù)據(jù)轉(zhuǎn)換的深度方法,1D-CNN效果弱于2D-CNN的原因是2D-CNN不僅能夠提取轉(zhuǎn)換圖像中相鄰字段的特征,同時能夠提取不同圖像位置的特征,因此無法獲取更豐富的語義信息。本文方法在表格數(shù)據(jù)固有噪聲的情況下充分提取了無法認知的表格數(shù)據(jù)語義信息,并進一步學習了不同字段信息語義之間的關(guān)聯(lián),在3個數(shù)據(jù)集上的準確率提升均在1.33%以上,表明該方法的優(yōu)越性和良好的泛化能力。
表5 不同方法的準確率對比 單位: %
本文方法(BFNet-V2+H-Adam)在網(wǎng)絡(luò)結(jié)構(gòu)上具有優(yōu)勢,運用空洞卷積,并優(yōu)化自適應(yīng)學習率調(diào)整過程,模型容易收斂于更優(yōu)的局部最小值。在包含海關(guān)數(shù)據(jù)集的4個不同數(shù)據(jù)集上都取得了最優(yōu)分類性能。
本文針對海關(guān)傳統(tǒng)風險分析方法存在的問題,提出一種智能化海關(guān)風險布控方法。運用FC算法將表格類型的海關(guān)數(shù)據(jù)轉(zhuǎn)化為模擬圖像數(shù)據(jù)。運用提出的BFNet-V2+H-Adam方法得到不同數(shù)據(jù)的風險分類標簽。BFNet-V2包含雙鏈路兩種卷積核提取特征、塊狀和不同的短路徑映射,具有輕量級、高效等良好的網(wǎng)絡(luò)特性;同時,以H-Adam作為優(yōu)化器,加快算法收斂,避免算法收斂至局部最小值。在同等設(shè)備環(huán)境和參數(shù)條件下,在與CNN和自適應(yīng)學習率調(diào)整算法的對比實驗中取得了較好的實驗指標效果。與包含淺層和深度學習方法的8種分類方法進行比較,驗證了基于改進蝶形反饋型神經(jīng)網(wǎng)絡(luò)的海關(guān)風險布控方法在海關(guān)數(shù)據(jù)分類上的優(yōu)勢。該方法能夠有效簡化海關(guān)關(guān)員的風險判別過程,有效保障我國CIQS。下一步可以將該方法推廣至更多的一線海關(guān)查驗現(xiàn)場,切實提高海關(guān)查獲率,減少關(guān)員查驗工作量。
[1] ALITA D, PUTRA A D, DARWIS D. Analysis of classic assumption test and multiple linear regression coefficient test for employee structural office recommendation[J]. IJCCS (Indonesian Journal of Computing and Cybernetics Systems), 2021, 15(3): 295-306.
[2] CHARBUTY B, ABDULAZEEZ A. Classification based on decision tree algorithm for machine learning[J]. Journal of Applied Science and Technology Trends, 2021, 2(1): 20-28.
[3] HUSSEIN A S, KHAIRY R S, NAJEEB S M M, et al. Credit card fraud detection using fuzzy rough nearest neighbor and sequential minimal optimization with logistic regression[J]. International Journal of Interactive Mobile Technologies, 2021, 15(5): 24-42.
[4] ANTONIADIS A, LAMBERT-LACROIX S, POGGI J-M. Random forests for global sensitivity analysis: a selective review[J]. Reliability Engineering & System Safety, 2021, 206: 107312.
[5] LIAW A, WIENER M. Classification and regression by random forest[J]. R News, 2002,2(3): 18-22.
[6] 申明堯,韓萌,杜詩語,等. 融合XGBoost和Multi-GRU的數(shù)據(jù)中心服務(wù)器能耗優(yōu)化算法[J]. 計算機應(yīng)用, 2022, 42(1): 198-208.(SHEN M Y, HAN M, DU S Y, et al. Data center server energy consumption optimization algorithm combining XGBoost and Multi-GRU [J]. Journal of Computer Applications, 2022, 42(1): 198-208.)
[7] CHEN J, LIAO K, WANY, et al. DANETs: deep abstract networks for tabular data classification and regression[C]// Proceedings of the 36th AAAI Conference on Artificial Intelligence. Palo Alto:AAAI Press, 2022: 3930-3938.
[8] BUTUROVI? L, MILJKOVIC D. A novel method for classification of tabular data using convolutional neural networks [EB/OL]. (2020-03-08)[2023-01-12]. https://www.biorxiv.org/content/10.1101/2020.05.02.074203v1.full.pdf.
[9] SUN B, YANG L, ZHANG W, et al. SuperTML: two-dimensional word embedding for the precognition on structured tabular data [C]// Proceedings of the 32th IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2019: 2973-2981.
[10] CHOLLET F. Xception: deep learning with depth wise separable convolutions[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1800-1807.
[11] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4510-4520.
[12] WANG G, YU H, SUI Y. Research on maize disease recognition method based on improved ResNet50[J]. Mobile Information Systems, 2021, 2021: 9110866.1-9110866.6.
[13] 王正剛,劉偉,金瑾.一種海關(guān)數(shù)據(jù)風控類型識別方法,海關(guān)智能化風險布控方法,裝置,計算機設(shè)備及存儲介質(zhì): CN202110232188.2[P]. 2022-09-16.(WANG Z G, LIU W, JIN J. A customs data risk control type identification method, customs intelligent risk control method, device, computer equipment and storage media: CN202110232188.2 [P]. 2022-09-16.)
[14] WEI Y, XIAO H, SHI H, et al. Revisiting dilated convolution: a simple approach for weakly-and semi-supervised semantic segmentation [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7268-7277.
[15] DAUBECHIES I, DeVORE R, FOUCART S, et al. Nonlinear approximation and (deep) ReLU networks[J]. Constructive Approximation: An International Journal for Approximations and Expansions, 2022, 55(1): 127-172.
[16] JAIS I K M, ISMAILI A R, NISA S Q. Adam optimization algorithm for wide and deep neural network[J]. Knowledge Engineering and Data Science, 2019, 2(1): 41-46.
[17] HAWKINS D M, YOUNG S S, RUSINKO A Ⅲ. Analysis of a large structure-activity data set using recursive partitioning[J]. Quantitative Structure-Activity Relationships, 1997, 16(4):296-302.
[18] WARD R, WU X, BOTTOU L. AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization[J]. Journal of Machine Learning Research, 2020, 21: 1-30.
[19] WEN Z, YANG G, CAI Q. An improved calibration method for the IMU biases utilizing KF-based AdaGrad algorithm[J]. Sensors, 2021, 21(15):5055.
[20] LI L, XU W, YU H. Character-level neural network model based on Nadam optimization and its application in clinical concept extraction [J]. Neurocomputing, 2020, 414: 182-190.
[21] ZHU Z, HOU Z. Research and application of rectified-nadam optimization algorithm in data classification [J]. American Journal of Computer Science and Technology, 2021, 4(4): 106-110.
[22] GU J, WANG Z, KUEN J, et al. Recent advances in convolutional neural networks [J]. Pattern Recognition, 2018,77: 354-377.
[23] YU S, CHENG Y, SU S, et al. Stratified pooling based deep convolutional neural networks for human action recognition[J]. Multimedia Tools and Applications, 2017, 76: 13367-13382.
[24] KIM Y, PANDA P. Revisiting batch normalization for training low-latency deep spiking neural networks from scratch [J]. Frontiers in Neuroscience, 2021,15: 101-113.
[25] KARRAS T, AITTALA M, HELLSTEN J, et al. Training generative adversarial networks with limited data [J]. Advances in Neural Information Processing Systems, 2020, 33: 12104-12114.
[26] SHALLU, MEHRA R. Breast cancer histology images classification: training from scratch or transfer learning [J]. ICT Express, 2018, 4(4): 247-254.
[27] DOKUZ Y, TUFEKCI Z. Mini-batch sample selection strategies for deep learning based speech recognition[J]. Applied Acoustics, 2021, 171: 107573.
[28] ZHANG Z, SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels [EB/OL]. (2018-07-15)[2022-12-25]. https://arxiv.org/pdf/1805.07836.pdf.
[29] DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 22th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.
[30] PANG B, NIJKAMP E, WU Y N. Deep learning with TensorFlow: a review [J]. Journal of Educational and Behavioral Statistics, 2020, 45(2): 227-248.
[31] YANG J, SUN L, XING W, et al. Hyperspectral prediction of sugarbeet seed germination based on Gauss kernel SVM[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 253: 119585.
[32] OZCANLI A K, BAYSAL M. Islanding detection in microgrid using deep learning based on 1D-CNN and CNN-LSTM networks[J]. Sustainable Energy, Grids and Networks, 2022, 32: 100839.
[33] RONNY K, BARRY B. Adult data set [DB/OL]. (2003-06-15)[2022-12-14] . https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data.
[34] PENG J, MACDONALD C, OUNIS I. Learning to select a ranking function [C]// Proceedings of the 32th European Conference on IR Research. Berlin: Springer, 2010: 114-126.
[35] ULIANOVA S. Cardiovascular disease dataset[DB/OL]. (2005-03-08)[2022-12-14]. https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset.
Customs risk control method based on improved butterfly feedback neural network
WANG Zhenggang1,2,3*, LIU Zhong1,2, JIN Jin4, LIU Wei3
(1,,610213,;2,,101408,;3,’,610041,;4,,610103,)
Aiming at the problems of low efficiency, low accuracy, excessive occupancy of human resources and intelligent classification algorithm miniaturization deployment requirements in China Customs risk control methods at this stage, a customs risk control method based on an improved Butterfly Feedback neural Network Version 2 (BFNet-V2) was proposed. Firstly, the Filling in Code (FC) algorithm was used to realize the semantic replacement of the customs tabular data to the analog image. Then, the analog image data was trained by using the BFNet-V2. The regular neural network structure was composed of left and right links, different convolution kernels and blocks, and small block design, and the residual short path was added to improve the overfitting and gradient disappearance. Finally, a Historical momentum Adaptive moment estimation algorithm (H-Adam) was proposed to optimize the gradient descent process and achieve a better adaptive learning rate adjustment, and classify customs data. Xception (eXtreme inception), Mobile Network (MobileNet), Residual Network (ResNet), and Butterfly Feedback neural Network (BF-Net) were selected as the baseline network structures for comparison. The Receiver Operating Characteristic curve (ROC) and the Precision-Recall curve (PR) of the BFNet-V2 contain the curves of the baseline network structures. Taking Transfer Learning (TL) as an example, compared with the four baseline network structures, the classification accuracy of BFNet-V2 increases by 4.30%,4.34%,4.10% and 0.37% respectively. In the process of classifying real-label data, the misjudgment rate of BFNet-V2 reduces by 70.09%,57.98%,58.36% and 10.70%, respectively. The proposed method was compared with eight classification methods including shallow and deep learning methods, and the accuracies on three datasets increase by more than 1.33%. The proposed method can realize automatic classification of tabular data and improve the efficiency and accuracy of customs risk control.
Convolutional Neural Network (CNN); analog image; adaptive moment estimation; customs; risk control
This work is partially supported by Innovative Talents Support Program of Sichuan Science and Technology Department (2020JDR0330).
WANG Zhenggang, born in 1984, Ph. D. candidate, senior engineer. His research interests include computer software and theory, artificial intelligence.
LIU Zhong, born in 1968, Ph. D., research fellow. His research interests include computer software and theory, machine certification.
JIN Jin,born in 1988, Ph. D., lecturer. Her research interests include artificial intelligence, parallel computing.
LIU Wei, born in 1968, M. S., professor of engineering. Her research interests include database, data mining.
TP391.1
A
1001-9081(2023)12-3955-10
10.11772/j.issn.1001-9081.2022121873
2022?12?21;
2023?03?01;
2023?03?08。
四川省科技廳創(chuàng)新人才支持計劃項目(2020JDR0330)。
王正剛(1984—),男,四川成都人,高級工程師,博士研究生,主要研究方向:計算機軟件與理論、人工智能;劉忠(1968—),男,四川樂山人,研究員,博士生導(dǎo)師,博士,主要研究方向:計算機軟件與理論、機器證明;金瑾(1988—),女,四川成都人,講師,博士,CCF會員,主要研究方向:人工智能、并行計算;劉偉(1968—),女,四川成都人,正高級工程師,碩士,主要研究方向:數(shù)據(jù)庫、數(shù)據(jù)挖掘。