任佳麗 王文晶
1(山西交通職業(yè)技術(shù)學(xué)院信息工程系 山西 太原 030031)2(山西大學(xué)商務(wù)學(xué)院信息學(xué)院 山西 太原 030031)
在商業(yè)活動(dòng)和社會(huì)生產(chǎn)中存在大量的不平衡數(shù)據(jù),例如:銀行的信用卡信息中大部分是正常用戶信息而極少部分是欺詐用戶和低信用用戶,醫(yī)院的診斷報(bào)告中大部分是常見(jiàn)病情而極少部分是罕見(jiàn)的重病[1]。不平衡數(shù)據(jù)的分類方法主要分為4類:成本敏感學(xué)習(xí)法、支持向量機(jī)法、單類學(xué)習(xí)法及組合學(xué)習(xí)法[2]。其中,成本敏感學(xué)習(xí)將分類邊界適當(dāng)靠近多數(shù)類來(lái)提高少數(shù)類的分類準(zhǔn)確率,此類方案對(duì)于分類數(shù)少的情況較為有效[3]。支持向量機(jī)(Support Vector Machine,SVM)對(duì)于不平衡性的敏感度低,可獲得較好的效果[4]。單類學(xué)習(xí)的核心思想是只學(xué)習(xí)單一目標(biāo)類的樣本[5]。組合方法的核心思想是將多個(gè)弱分類器組合成一個(gè)強(qiáng)分類器,其中AdaBoost[6]是一種經(jīng)典的組合方法。研究人員利用SVM對(duì)不平衡數(shù)據(jù)敏感度低的優(yōu)點(diǎn),設(shè)計(jì)了孿生支持向量機(jī),可簡(jiǎn)單有效地分類不平衡數(shù)據(jù)。目前孿生支持向量機(jī)已經(jīng)應(yīng)用于電力系統(tǒng)暫態(tài)穩(wěn)定評(píng)估[7]、小麥蚜蟲(chóng)遙感監(jiān)測(cè)[8]、DDoS攻擊檢測(cè)[9]等不平衡數(shù)據(jù)分類問(wèn)題,取得了顯著的效果。但SVM中包含矩陣計(jì)算,為大規(guī)模數(shù)據(jù)集的分類處理帶來(lái)了極大的計(jì)算負(fù)擔(dān)。
隨著深度神經(jīng)網(wǎng)絡(luò)的持續(xù)發(fā)展,許多研究人員利用深度神經(jīng)網(wǎng)絡(luò)解決不平衡數(shù)據(jù)的分類問(wèn)題。文獻(xiàn)[10]提出降噪自編碼神經(jīng)網(wǎng)絡(luò)不平衡數(shù)據(jù)分類算法,該算法利用降噪自編碼神經(jīng)網(wǎng)絡(luò)算法的逐層無(wú)監(jiān)督降噪學(xué)習(xí)和有監(jiān)督微調(diào)過(guò)程,實(shí)現(xiàn)了對(duì)過(guò)采樣數(shù)據(jù)集的降噪處理與數(shù)據(jù)分類。文獻(xiàn)[11]以通用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型為基礎(chǔ)分別在四類心拍數(shù)據(jù)上構(gòu)建四個(gè)表達(dá)對(duì)應(yīng)心拍類別傾向性信息的類別CNN模型,最后綜合四個(gè)類別CNN模型的輸出判別心拍類型,實(shí)現(xiàn)了較好的分類準(zhǔn)確率。文獻(xiàn)[12]對(duì)不平衡數(shù)據(jù)集進(jìn)行動(dòng)態(tài)采樣,再利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)預(yù)分類進(jìn)行學(xué)習(xí),對(duì)每個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)學(xué)習(xí)。文獻(xiàn)[3]結(jié)合成本敏感方法和神經(jīng)網(wǎng)絡(luò)兩種機(jī)制,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)單地調(diào)節(jié),使類的邊界靠近少數(shù)類。上述基于神經(jīng)網(wǎng)絡(luò)的不平衡數(shù)據(jù)分類算法包含了監(jiān)督的超參數(shù)微調(diào)程序,該微調(diào)過(guò)程需要學(xué)習(xí)每個(gè)類的神經(jīng)網(wǎng)絡(luò)超參數(shù),計(jì)算負(fù)擔(dān)較大。
孿生支持向量機(jī)需要計(jì)算矩陣及固定核函數(shù),而神經(jīng)網(wǎng)絡(luò)需要復(fù)雜的超參數(shù)微調(diào)處理,因此兩者均難以單獨(dú)適用于大規(guī)模不平衡數(shù)據(jù)分類問(wèn)題。本文考慮將孿生機(jī)制引入神經(jīng)網(wǎng)絡(luò),利用卷進(jìn)神經(jīng)網(wǎng)絡(luò)極強(qiáng)的深度結(jié)構(gòu)表示能力,并設(shè)計(jì)了差分卷積機(jī)制,在不改變?yōu)V波器數(shù)量的情況下提高模型的分類準(zhǔn)確率。通過(guò)差分孿生卷積神經(jīng)網(wǎng)絡(luò)分別優(yōu)化每個(gè)類的特征圖,每個(gè)類關(guān)聯(lián)多個(gè)超平面,根據(jù)輸入樣本與超平面的距離決定輸出樣本的類標(biāo)簽。
卷積神經(jīng)網(wǎng)絡(luò)是模式識(shí)別領(lǐng)域最成功的方法之一。網(wǎng)絡(luò)的濾波器提取輸入樣本的特征,通過(guò)池化處理縮小特征圖,再輸入卷積層對(duì)特征集進(jìn)行分類處理。深度卷積神經(jīng)網(wǎng)絡(luò)一般包括卷積層、池化層和全連接網(wǎng)絡(luò)。卷積層負(fù)責(zé)提取特征,池化層負(fù)責(zé)縮小特征圖,全連接層負(fù)責(zé)將特征集分類。當(dāng)前主流的卷積神經(jīng)網(wǎng)絡(luò)均存在一定的過(guò)擬合問(wèn)題,本文設(shè)計(jì)了差分機(jī)制和后向傳播機(jī)制解決過(guò)擬合問(wèn)題。
卷積層由若干大小固定的濾波器組成,提取輸入數(shù)據(jù)的特征。神經(jīng)元的感受野表示前一層連接的神經(jīng)元,感受野大小等于濾波器的大小。以圖像數(shù)據(jù)為例,設(shè)m×n和c×c分別為輸入圖像和核的大小,i表示圖像,wt,r和b分別為過(guò)濾器的權(quán)重矩陣和偏差項(xiàng)。神經(jīng)元的輸出o0,0定義為下式,
(1)
式中:f為ReLu激活函數(shù)。ReLu激活函數(shù)的形式為:
(2)
首先,卷積運(yùn)算和激活函數(shù)獲得輸入數(shù)據(jù)的特征圖,然后對(duì)特征圖進(jìn)行池化處理產(chǎn)生更小的特征圖。對(duì)輸入數(shù)據(jù)應(yīng)用滑動(dòng)窗口處理,每個(gè)窗口依次池化處理,常用的池化方法包括最大池化、平均池化和L2池化。池化處理的作用是縮小輸入數(shù)據(jù)規(guī)模、獨(dú)立提取特征。
池化層的輸出數(shù)據(jù)是一維向量,該向量輸入全連接網(wǎng)絡(luò)。全連接網(wǎng)絡(luò)可能包含多個(gè)隱層,每個(gè)神經(jīng)元將前一層的數(shù)據(jù)乘以全連接權(quán)重,再加上偏差值。全連接層神經(jīng)元的計(jì)算方法為:
(3)
式中:f為激活函數(shù),w為權(quán)重向量,oq為第q個(gè)神經(jīng)元的輸入向量,b為偏差值。
采用Softmax函數(shù)作為多類數(shù)據(jù)集分類器輸出層的激活函數(shù),定義為:
(4)
式中:j為類的序號(hào)。
孿生SVM通過(guò)求解一組小規(guī)模問(wèn)題來(lái)學(xué)習(xí)兩個(gè)非平行分類超平面,但孿生SVM包含矩陣求逆的運(yùn)算,如果處理大數(shù)據(jù)集則需要大量的內(nèi)存資源和計(jì)算資源。本文在神經(jīng)網(wǎng)絡(luò)的框架內(nèi)實(shí)現(xiàn)孿生策略,利用非平行邊界思想實(shí)現(xiàn)了孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
圖1所示是3層孿生神經(jīng)網(wǎng)絡(luò)(卷積層→池化層→輸出層)的結(jié)構(gòu)圖,輸入向量為x,卷積層神經(jīng)元將x轉(zhuǎn)化為φ(x),池化層進(jìn)行池化處理,輸出層根據(jù)特征空間學(xué)習(xí)一個(gè)分類器,表示為φ(·)。最終使用分類器的超平面對(duì)測(cè)試集樣本進(jìn)行預(yù)測(cè)。
圖1 孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
不平衡數(shù)據(jù)集分類問(wèn)題共訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò),其誤差函數(shù)分別設(shè)為E+1和E-1,定義為:
(5)
(6)
將誤差對(duì)權(quán)重w和偏差b求偏導(dǎo)數(shù),獲得最小化誤差的規(guī)則。誤差對(duì)權(quán)重w的偏導(dǎo)為:
(7)
式(7)的第1項(xiàng)設(shè)為E+1MSE,第2項(xiàng)設(shè)為E+1twin,E+1MSE為關(guān)于oi=f(neti)的函數(shù),oi為神經(jīng)網(wǎng)絡(luò)的輸出,f(·)為激活函數(shù)??色@得以下關(guān)系:
(8)
(9)
E+1MSE對(duì)b+1的偏導(dǎo)為:
(10)
(11)
第2項(xiàng)E+1twin對(duì)w+1的偏導(dǎo)為:
(12)
E+1twin對(duì)b+1的偏導(dǎo)為:
(13)
綜上可總結(jié)出以下的方程組:
(14)
(15)
(16)
(17)
預(yù)測(cè)樣本x類標(biāo)簽的步驟為:首先通過(guò)隱層將x映射到空間φ(·),然后輸出層根據(jù)下式判斷x的類標(biāo)簽y:
(18)
將孿生神經(jīng)網(wǎng)絡(luò)擴(kuò)展至多類數(shù)據(jù)集,其標(biāo)簽為yi∈{A,B,…,K},K為類標(biāo)簽數(shù)量。通過(guò)訓(xùn)練K個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)多標(biāo)簽數(shù)據(jù)集的孿生神經(jīng)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)通過(guò)一個(gè)成本函數(shù)判斷樣本是否屬于本類。圖2所示是系統(tǒng)的總體架構(gòu),每個(gè)類先與多個(gè)超平面關(guān)聯(lián),然后與多個(gè)分類器神經(jīng)元關(guān)聯(lián),圖中類A的神經(jīng)元輸出標(biāo)簽為z1A,z2A,…,zpA。每個(gè)類的神經(jīng)元數(shù)量可能不同,一個(gè)類的每個(gè)輸出神經(jīng)元對(duì)應(yīng)一個(gè)超平面,通過(guò)超平面預(yù)測(cè)新樣本是否屬于該類。假設(shè)類A的一個(gè)樣本,TWNN需要尋找與類A距離最近的超平面u,同時(shí)u需要與其他類的距離大于1。
圖2 多類孿生神經(jīng)網(wǎng)絡(luò)的總體架構(gòu)
(a) 二分類神經(jīng)網(wǎng)絡(luò)的激活函數(shù)
(b) 多分類神經(jīng)網(wǎng)絡(luò)的激活函數(shù)圖3 多分類激活函數(shù)的示意圖
因?yàn)閷\生神經(jīng)網(wǎng)絡(luò)的損失函數(shù)不包含超參數(shù),所以多分類孿生神經(jīng)網(wǎng)絡(luò)無(wú)需微調(diào)模型的超參數(shù),僅需要預(yù)設(shè)全連接網(wǎng)絡(luò)的隱層神經(jīng)元數(shù)量。
為了解決卷積神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,本文設(shè)計(jì)了差分機(jī)制和后向傳播機(jī)制解決過(guò)擬合問(wèn)題,差分卷積機(jī)制考慮神經(jīng)元激活和相鄰神經(jīng)元激活的變化。
卷積運(yùn)算負(fù)責(zé)提取輸入數(shù)據(jù)的特征,卷積技術(shù)的思想是考慮樣本與其相鄰樣本的有向變化。差分卷積分析一個(gè)樣本與相鄰樣本的模式方向,差分計(jì)算通過(guò)計(jì)算樣本激活間的差異反映了連續(xù)樣本的變化。本方法利用差分信號(hào)加法圖的卷積方法,運(yùn)用預(yù)設(shè)的常量濾波器從特征圖產(chǎn)生附加的差分圖。圖4所示是4個(gè)常量濾波器,每個(gè)濾波器計(jì)算一個(gè)方向的差分值,最終特征圖包含4個(gè)方向的差分值。
圖4 四個(gè)方向的常量濾波器
設(shè)傳統(tǒng)卷積生成的特征圖為g1,4個(gè)附加的特征圖為g2、g3、g4、g5,對(duì)應(yīng)神經(jīng)元的計(jì)算方法分別為:
g2,i,j=g1,i,j-g1,i+1,j
(19)
g3,i,j=g1,i,j-g1,i,j+1
(20)
g4,i,j=g1,i,j-g1,i+1,j+1
(21)
g5,i,j=g1,i+1,j-g1,i,j+1
(22)
如果g1的大小為M×N,g2、g3、g4和g5的大小分別為(M-1)×N、M×(N-1)、(M-1)×(N-1)和(M-1)×(N-1)。附加特征圖以0值填充,擴(kuò)展到第1個(gè)特征圖的大小,如圖5所示。
圖5 差分特征圖的擴(kuò)展示意圖
通過(guò)疊加后向傳播算法提高差分卷積的性能。后向傳播將誤差反向地傳遞至每個(gè)特征圖,每個(gè)附加特征圖的誤差與對(duì)應(yīng)的定值濾波器權(quán)重相乘,再加上第一個(gè)特征圖的誤差,采用獲得的誤差矩陣訓(xùn)練相關(guān)濾波器。設(shè)傳遞到第1個(gè)特征圖的誤差為h1,傳遞到附加圖的誤差分別為h2、h3、h4、h5,誤差矩陣的元素設(shè)為E,圖的大小為M×N。相關(guān)過(guò)濾器的誤差計(jì)算為:
Ei,j=h1,i,j-h2,i,j-1+h2,i,j-h3,i-1,j+
h3,i,j-h4,i-1,j-1+h4,i,j-h5,i-1,j+h5,i,j-1
(23)
式中:M>i>1,N>j>1。傳遞到特征圖頂點(diǎn)神經(jīng)元的誤差為:
(24)
傳遞到特征圖邊神經(jīng)元的誤差為:
(25)
孿生神經(jīng)網(wǎng)絡(luò)的參數(shù)C+1和C-1范圍設(shè)為{0.01,…,100},全連接網(wǎng)絡(luò)的隱層神經(jīng)元數(shù)量設(shè)為n/3,n為數(shù)據(jù)集的特征量。
選擇兩個(gè)孿生支持向量機(jī)RSTSVM[13]和FTSVM[14]作為對(duì)比方法,RSTSVM結(jié)合了重采樣技術(shù)和孿生支持向量機(jī)技術(shù)。FTSVM是一種基于信息熵的孿生支持向量機(jī)技術(shù),該技術(shù)利用信息熵度量數(shù)據(jù)的距離。WOA+BRNN[15]是一種基于新型鯨魚(yú)優(yōu)化算法和深度神經(jīng)網(wǎng)絡(luò)的不平衡數(shù)據(jù)分類算法,該算法與本文算法均采用了深度神經(jīng)網(wǎng)絡(luò),但是該算法采用鯨魚(yú)優(yōu)化算法進(jìn)行分類的優(yōu)化處理,而本文算法采用孿生機(jī)制進(jìn)行分類處理。EOST[16]是近期一個(gè)有效的不平衡數(shù)據(jù)分類方案,該方案通過(guò)解決不平衡數(shù)據(jù)集的過(guò)采樣問(wèn)題,提高對(duì)小規(guī)模類的分類效果。
本文算法訓(xùn)練的過(guò)程為:將輸入特征歸一化至[-1,+1]范圍,采用K-近鄰填充算法優(yōu)化全連接網(wǎng)絡(luò)的隱層神經(jīng)元數(shù)量和超參數(shù),使用5折交叉驗(yàn)證計(jì)算準(zhǔn)確率,每組實(shí)驗(yàn)獨(dú)立運(yùn)行10次,保證合理的置信區(qū)間。
首先采用常用的公開(kāi)UCI數(shù)據(jù)集測(cè)試本算法對(duì)于一般性數(shù)據(jù)集的分類效果,表1所示是10個(gè)UCI數(shù)據(jù)集的基本屬性。
表1 UCI數(shù)據(jù)集的基本屬性
圖6所示是5個(gè)算法對(duì)平衡數(shù)據(jù)集的分類精度結(jié)果,可以看出,本文算法對(duì)于Hepatitis、Australian、CRX、German、SONAR、Housevotes、Heart Spectf均取得了最佳的分類精度,對(duì)于另外2個(gè)數(shù)據(jù)集則略低于EOST算法,但依然高于其他三個(gè)方法。可得出結(jié)論,雖然本文算法針對(duì)不平衡數(shù)據(jù)集設(shè)計(jì),但是對(duì)于一般的平衡數(shù)據(jù)集也具有較好的性能。
圖6 平衡數(shù)據(jù)集的分類精度結(jié)果
本文孿生卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于對(duì)不平衡數(shù)據(jù)集具有更好的泛化效果,采用留一法策略將10個(gè)UCI數(shù)據(jù)集抽樣組合為二分類不平衡數(shù)據(jù)集,表2所示是二分類不平衡數(shù)據(jù)集。
表2 二分類不平衡數(shù)據(jù)集的基本屬性
分類精度僅能評(píng)價(jià)算法的總體分類準(zhǔn)確率,無(wú)法觀察學(xué)習(xí)算法對(duì)數(shù)據(jù)集偏斜的處理效果,因此采用了另外幾個(gè)有效的不平衡數(shù)據(jù)集分類性能指標(biāo)。分類精度acc、真正率TPR、假正率NPV、真負(fù)率TNR和假負(fù)率PPV分別定義為:
(26)
(27)
(28)
(29)
(30)
式中:TP為真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽均為真的樣本集,TN為真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽均為假的樣本集,F(xiàn)P為真實(shí)標(biāo)簽為假被誤預(yù)測(cè)為真標(biāo)簽的樣本集,F(xiàn)N為真實(shí)標(biāo)簽為真被誤預(yù)測(cè)為假標(biāo)簽的樣本集。
F1-measure定義為正定預(yù)測(cè)值和正定率之間的調(diào)和均值:
(31)
Mathew相關(guān)系數(shù)是一種常用的二分類不平衡數(shù)據(jù)分類性能的評(píng)價(jià)指標(biāo),MCC值越高說(shuō)明分類器的分類準(zhǔn)確率越高、誤分類率越低。
(32)
圖7所示是10個(gè)不平衡數(shù)據(jù)集的G-means指標(biāo)結(jié)果,本文算法對(duì)于Abalone、Yeast、Abalone、Wine_Quality、Ozone_Level和Statlog的結(jié)果均大幅度領(lǐng)先于其他4個(gè)算法,對(duì)于另外4個(gè)不平衡數(shù)據(jù)集的結(jié)果略優(yōu)于其他4個(gè)對(duì)比方法。G-means的結(jié)果越高,說(shuō)明兩個(gè)不平衡分類間的劃分精度越高。
圖7 10個(gè)不平衡數(shù)據(jù)集的G-means指標(biāo)結(jié)果
圖8所示是10個(gè)不平衡數(shù)據(jù)集的F1-measure指標(biāo)結(jié)果,本文算法對(duì)于10個(gè)數(shù)據(jù)集的結(jié)果均明顯優(yōu)于其他4個(gè)算法。F1-measure越高,說(shuō)明誤檢率、漏檢率、檢測(cè)率均取得了較高的質(zhì)量。
圖8 分類算法的F1-measure指標(biāo)結(jié)果
圖9所示是10個(gè)不平衡數(shù)據(jù)集的MCC指標(biāo)結(jié)果,本文算法對(duì)于10個(gè)數(shù)據(jù)集的結(jié)果均明顯優(yōu)于其他4個(gè)算法。Mathew相關(guān)系數(shù)越高,說(shuō)明分類器的分類準(zhǔn)確率越高、誤分類率越低。
圖9 分類算法的MCC指標(biāo)結(jié)果
最終統(tǒng)計(jì)了5個(gè)分類算法對(duì)于10個(gè)不平衡數(shù)據(jù)集的訓(xùn)練時(shí)間,結(jié)果如表3所示??梢钥闯?,相較于RSTSVM和FTSVM兩個(gè)算法,TCNN的訓(xùn)練時(shí)間具有明顯的優(yōu)勢(shì),相較于WOA+BRNN和EOST兩個(gè)算法,TCNN對(duì)于部分?jǐn)?shù)據(jù)集的平均時(shí)間也較低。綜上所述,TCNN有效地解決了孿生支持向量機(jī)計(jì)算成本高的問(wèn)題,而相較于非支持向量機(jī)的分類算法,TCNN也有效地提高了對(duì)不平衡數(shù)據(jù)集的分類性能。
表3 不同算法的訓(xùn)練時(shí)間 s
續(xù)表3 s
測(cè)試本算法對(duì)于多分類不平衡數(shù)據(jù)集的分類性能。表4是7個(gè)多分類不平衡數(shù)據(jù)集的基本屬性。
表4 多分類不平衡數(shù)據(jù)集
因?yàn)镋OST僅支持二分類不平衡數(shù)據(jù)的分類問(wèn)題,所以將本文算法與RSTSVM、FTSVM、WOA+BRNN進(jìn)行比較。圖10所示為多分類數(shù)據(jù)集的平均分類精度。可以看出,本文算法對(duì)于不同分類數(shù)的分類精度均優(yōu)于其他3個(gè)算法。MNIST數(shù)據(jù)集是手寫(xiě)字體數(shù)據(jù)集,本模型的差分卷積層能夠有效地提取深度結(jié)構(gòu)的模式,因此本文算法對(duì)于MNIST表現(xiàn)出較好的分類效果。根據(jù)實(shí)驗(yàn)結(jié)果可得出結(jié)論:本文算法通過(guò)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了較強(qiáng)的特征提取能力;利用孿生機(jī)制實(shí)現(xiàn)了對(duì)不平衡數(shù)據(jù)集的分類處理能力;設(shè)計(jì)了差分卷積機(jī)制和疊加后向傳播機(jī)制緩解了卷積神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題;最終在不平衡數(shù)據(jù)集的分類問(wèn)題上,實(shí)現(xiàn)了較好的分類性能以及較快的處理速度。
圖10 多分類不平衡數(shù)據(jù)集的平均分類精度
本文將孿生機(jī)制引入卷積神經(jīng)網(wǎng)絡(luò)框架中,提高對(duì)不平衡數(shù)據(jù)的泛化效果。利用卷積運(yùn)算對(duì)深度結(jié)構(gòu)表征能力強(qiáng)的優(yōu)點(diǎn),提取輸入數(shù)據(jù)的特征,并且設(shè)計(jì)了差分卷積技術(shù)增強(qiáng)特征的判別能力。本文設(shè)計(jì)的差分孿生卷積神經(jīng)網(wǎng)絡(luò)能夠有效地處理不平衡數(shù)據(jù)集的二分類問(wèn)題和多分類問(wèn)題,實(shí)現(xiàn)了較好的分類準(zhǔn)確率和訓(xùn)練效率。
本方案目前的弱點(diǎn)在于卷積層所提取特征的判別能力依然不足,未來(lái)將開(kāi)發(fā)針對(duì)不平衡文檔數(shù)據(jù)集、不平衡圖像數(shù)據(jù)集等指定領(lǐng)域的專門(mén)深度神經(jīng)網(wǎng)絡(luò)模型,針對(duì)不同的數(shù)據(jù)類型設(shè)計(jì)判別能力強(qiáng)的特征提取方案。