胡永健, 姚其森, 林育儀, 劉光堯, 劉琲貝
(1.華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640; 2.公安部物證鑒定中心,北京 100038)
近年來利用深度學(xué)習(xí)網(wǎng)絡(luò)生成的Deepfake換臉視頻在互聯(lián)網(wǎng)上廣泛傳播。這類視頻中的人臉區(qū)域被替換為他人的臉,從而實(shí)現(xiàn)身份篡改。若被惡意利用,將對(duì)社會(huì)輿論和國(guó)家安全造成極大的威脅和沖擊。國(guó)內(nèi)外研究機(jī)構(gòu)迅速展開對(duì)換臉視頻檢測(cè)方法的研究,從不同角度出發(fā),設(shè)計(jì)自動(dòng)識(shí)別算法,判斷一段視頻是否為換臉視頻。
換臉視頻檢測(cè)按技術(shù)路線大致可分為兩大類:第1類基于傳統(tǒng)手工特征,主要利用圖像處理和機(jī)器學(xué)習(xí)方法提取換臉視頻中的低級(jí)(也稱像素級(jí))偽造痕跡后再利用模式分類器進(jìn)行分類;第2類基于深度學(xué)習(xí),借助神經(jīng)網(wǎng)絡(luò)挖掘換臉視頻的篡改特征。一般而言,基于第1類方法存在特征提取不充分的缺陷,其檢測(cè)效果與第2類方法相比較差。
本文研究第2類方法。關(guān)于基于深度學(xué)習(xí)的換臉視頻檢測(cè)方法,文獻(xiàn)[1]指出視頻壓縮使噪聲衰減,難以通過單獨(dú)分析噪聲檢測(cè)偽造人臉痕跡,故提出2個(gè)淺層面部視頻偽造檢測(cè)網(wǎng)絡(luò);文獻(xiàn)[2]認(rèn)為諸如AlexNet的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)從訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到的特征是表征圖像內(nèi)容而非篡改檢測(cè)所需要的篡改痕跡,為了更好地學(xué)習(xí)篡改痕跡特征并削弱圖像內(nèi)容信息,定義了一種新的卷積層,稱為受約束卷積層;文獻(xiàn)[3]基于人臉反欺詐檢測(cè)思想,利用注意力機(jī)制處理和改善特征圖,除了實(shí)現(xiàn)二分類判斷外還可定位篡改區(qū)域;文獻(xiàn)[4]認(rèn)為目前的Deepfake技術(shù)由于算力和生成時(shí)間的限制,只能合成固定尺寸的臉部,換臉必須經(jīng)過仿射形變來匹配源臉,導(dǎo)致形變臉與其周邊區(qū)域的上下文在分辨率上存在不一致,且修邊的后處理也會(huì)留下明顯操作痕跡,因此提出只需訓(xùn)練模型檢測(cè)是否存在上述形變和修邊噪聲即可分辨真假臉,可極大減少訓(xùn)練時(shí)所需的負(fù)樣本數(shù)量;文獻(xiàn)[5]提出雙支路結(jié)構(gòu),其中一條支路傳播原始圖像信息,另一條支路壓制圖像內(nèi)容,放大利用高斯-拉普拉斯(Laplacian of Gaussian,LoG)算子得到的多頻段信息;文獻(xiàn)[6]采取多實(shí)例學(xué)習(xí)(multiple instance learning,MIL)的方式檢測(cè)多人臉視頻中的部分人臉置換問題;文獻(xiàn)[7]認(rèn)為在換臉視頻檢測(cè)中局部紋理特征比高階語義信息更有用,提出結(jié)合空域圖像和相位頻譜來捕捉換臉視頻的上采樣偽影。文獻(xiàn)[8]認(rèn)為由Softmax損失函數(shù)監(jiān)督學(xué)習(xí)得到的特征有分離能力但區(qū)分度不夠大,同時(shí)固定的濾波器和手工特征無法從多樣的輸入人臉提取足夠的頻率特征,因此提出單一中心損失函數(shù),旨在壓縮類內(nèi)自然人臉的不同,并在嵌入域增強(qiáng)類間差異,此外還提出一個(gè)自適應(yīng)頻率特征生成模塊,以更全面的方式挖掘頻率線索;文獻(xiàn)[9]認(rèn)為現(xiàn)有換臉方法還未充分考慮嘴型的匹配問題,提出利用唇讀來檢測(cè)是否發(fā)生換臉;文獻(xiàn)[10]認(rèn)為現(xiàn)有方法把真假臉視頻檢測(cè)模型化為基于全局特征的二分類問題,無法學(xué)習(xí)篡改一般性特征,同時(shí)也容易過擬合,因此提出先對(duì)人臉圖像進(jìn)行劃分,通過學(xué)習(xí)各局部區(qū)域的相關(guān)性來提高泛化性和魯棒性。
概括起來,文獻(xiàn)[1-4]強(qiáng)調(diào)換臉殘留的空域痕跡,文獻(xiàn)[5-8]在利用空域特征的基礎(chǔ)上還利用了頻域或者時(shí)域特征,文獻(xiàn)[9]利用了面部生理特征而文獻(xiàn)[10]利用了圖像內(nèi)容的局部相關(guān)性。上述方法檢測(cè)結(jié)果各有優(yōu)劣,檢測(cè)途徑并無定論,然而都有一個(gè)特點(diǎn):庫(kù)內(nèi)檢測(cè)效果好但跨庫(kù)測(cè)試性能下降顯著,檢測(cè)器存在泛化性能不足或過擬合問題。為此,本文提出一種基于多域特征融合的換臉視頻檢測(cè)算法,融合空域、頻域和時(shí)域3個(gè)方面信息來解決這個(gè)問題。
本文算法采取傳統(tǒng)手工和神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,將手工提取的RGB(紅、綠、藍(lán))圖像、離散傅里葉變換(discrete Fourier transform,DFT)頻譜圖和光流圖輸入多路卷積神經(jīng)網(wǎng)絡(luò),借助其優(yōu)異的特征提取能力更好地捕捉換臉視頻在空域、頻域和時(shí)域上的篡改痕跡。
圖1 基于多域特征融合的換臉視頻篡改檢測(cè)算法框架
用OpenCV對(duì)視頻分幀,逐幀保存成視頻幀圖像,得到視頻幀序列{f0,f1,…,fN-1},其中N表示單個(gè)視頻分幀后的總幀數(shù)。為便于計(jì)算光流特征,首幀圖像f0不作為檢測(cè)對(duì)象,即待測(cè)視頻幀序列為{f1,…,fN-1}。用Dlib工具庫(kù)逐幀提取人臉矩形框作為檢測(cè)區(qū)域。
提取各幀人臉的多域特征圖像,具體過程包括:
(1)將各幀檢測(cè)區(qū)域統(tǒng)一調(diào)整成224×224×3大小,作為空域RGB圖像IS。
(2)通過二維離散傅里葉變換獲取檢測(cè)區(qū)域頻譜信息,并進(jìn)行中心化和對(duì)數(shù)變換以增加頻譜細(xì)節(jié),再將頻譜圖調(diào)整成128×128×1大小,作為DFT頻譜圖IF。
(3)采用Gunnar Farneback算法[12]對(duì)連續(xù)兩幀的檢測(cè)區(qū)域計(jì)算稠密光流場(chǎng),可視化成224×224×3的光流圖,作為時(shí)域光流圖IO。
為提取上述圖像深層卷積特征,構(gòu)建多路卷積特征提取模塊,包含如下3個(gè)分支:
(1)RGB分支,將RGB圖像IS輸入Xception[13]網(wǎng)絡(luò)提取空域卷積特征G1。
(2)DFT特征分支,將DFT頻譜圖G2輸入Xception網(wǎng)絡(luò)提取頻域卷積特征G3。
(3)光流特征分支,將光流圖IO。輸入ResNet50[14]網(wǎng)絡(luò)提取時(shí)域卷積特征G3。
需要說明的是,在使用Xception和ResNet50網(wǎng)絡(luò)進(jìn)行特征提取時(shí),本文對(duì)原網(wǎng)絡(luò)進(jìn)行了改造,去掉了用于特征分類的全局平均池化層和全連接層。
圖2 通道注意力模塊網(wǎng)絡(luò)結(jié)構(gòu)示意圖
(1)對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理。將數(shù)據(jù)集的視頻進(jìn)行分幀,選擇待測(cè)幀序列,并提取各幀圖像的人臉檢測(cè)區(qū)域。
(2)提取空域、頻域和時(shí)域特征圖像。提取各幀圖像檢測(cè)區(qū)域的RGB圖像IS,并計(jì)算DFT頻譜圖IF和光流圖IO,將IS、IF和IO歸一化到[0, 1]區(qū)間,作為網(wǎng)絡(luò)的輸入。
(3)構(gòu)建多路卷積神經(jīng)網(wǎng)絡(luò),用于多域卷積特征的提取和融合。采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為1×10-4,批次大小(batch-size)設(shè)置為16,使用交叉熵?fù)p失函數(shù)作為模型訓(xùn)練損失函數(shù)。
(4)訓(xùn)練所述網(wǎng)絡(luò)。計(jì)算損失并反向傳播更新網(wǎng)絡(luò)權(quán)重系數(shù),采取提前停止策略避免模型過擬合,保存最小損失值對(duì)應(yīng)的權(quán)重作為模型權(quán)重。
對(duì)待測(cè)數(shù)據(jù)進(jìn)行預(yù)處理,提取多域特征圖像,歸一化到[0, 1],輸入訓(xùn)練完成的網(wǎng)絡(luò),輸出測(cè)試樣本被判決為真臉和假臉的概率。
為了驗(yàn)證算法性能,在4個(gè)公開換臉視頻數(shù)據(jù)集上進(jìn)行了庫(kù)內(nèi)及跨庫(kù)測(cè)試,使用半總錯(cuò)誤率(half total error rate,HTER)、接收機(jī)操作特征曲線下方的面積(area under ROC curve,AUC)等指標(biāo)對(duì)算法進(jìn)行分析和評(píng)價(jià)。
實(shí)驗(yàn)采用TIMIT、Fake Faces in the Wild(FFW)、FaceForensics++(FF++)[15]以及Deep Fake Detection(DFD)等近年公開的4個(gè)換臉視頻數(shù)據(jù)庫(kù)。其中FFW數(shù)據(jù)庫(kù)只提供了換臉視頻,為保證真假樣本平衡,在視頻來源相同的FF++數(shù)據(jù)庫(kù)中選取了50段真實(shí)視頻作為補(bǔ)充。FF++和DFD數(shù)據(jù)庫(kù)包含多種壓縮率的視頻,取常用的C0和C23壓縮率視頻進(jìn)行測(cè)試。基于文獻(xiàn)[16]的研究結(jié)論,按照7∶2∶1的比例將數(shù)據(jù)庫(kù)按人劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并在不采取數(shù)據(jù)增廣的條件下進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)主要基于深度學(xué)習(xí)框架Keras實(shí)現(xiàn),所用顯卡為TITAN XP,系統(tǒng)為Ubuntu16.04,CUDA版本為9.0.176,Keras版本為2.2.4,OpenCV版本為4.1.2。
(1)注意力機(jī)制。注意力機(jī)制通過學(xué)習(xí)一個(gè)特征權(quán)重分布,并將特征權(quán)重與原始特征進(jìn)行加權(quán)求和,以此突顯重要的區(qū)域。根據(jù)注意力機(jī)制施加位置的不同,可分為空間注意力機(jī)制、通道注意力機(jī)制以及空間和通道結(jié)合的注意力機(jī)制等實(shí)現(xiàn)形式。
為研究不同注意力機(jī)制對(duì)算法性能的影響,將本文算法的通道注意力模塊分別替換為ECA[17]、CBAM[18]、Triplet Attention[19]3種注意力機(jī)制,與本文采用的SE注意力機(jī)制進(jìn)行對(duì)比實(shí)驗(yàn)。其中,ECA和SE屬于通道注意力機(jī)制,CBAM和Triplet屬于空間和通道結(jié)合的注意力機(jī)制。DFD(C23)訓(xùn)練數(shù)據(jù)庫(kù)下不同注意力機(jī)制對(duì)比結(jié)果見表1所列。
表1 不同注意力機(jī)制對(duì)比結(jié)果 %
由表1可知:采用ECA、CBAM和Triplet注意力模塊的模型在庫(kù)內(nèi)和跨庫(kù)測(cè)試時(shí)表現(xiàn)均不及本文算法的檢測(cè)效果;本文的SE通道注意力機(jī)制優(yōu)化了特征學(xué)習(xí),使得HTER更小,AUC值更大,對(duì)各支路篡改特征的提取能力更強(qiáng)。
(2)特征融合方式。特征通道拼接、特征逐元素相加和決策層融合是3種常見的特征融合實(shí)現(xiàn)方式。為研究不同特征融合方式對(duì)算法性能的影響,本文設(shè)計(jì)了E1和E22組對(duì)比實(shí)驗(yàn)。E1采取特征逐元素相加的方式,將各支路輸出的卷積特征經(jīng)過全局平均池化,得到3個(gè)1×2×2 048維的特征向量,然后利用Softmax計(jì)算獲取3個(gè)特征向量在各通道維度的權(quán)重,再逐通道加權(quán)求和得到1×2×2 048維的特征向量輸入全連接層分類。E2采取決策層融合的方式,將各支路輸出的卷積特征分別進(jìn)行全局平均池化,并輸入2通道的全連接層得到3個(gè)2維預(yù)測(cè)向量,最后利用Softmax計(jì)算對(duì)預(yù)測(cè)向量加權(quán)求和,作為最終的模型預(yù)測(cè)輸出。
E1、E2與本文采用的特征通道拼接方式進(jìn)行對(duì)比,DFD(C23)訓(xùn)練數(shù)據(jù)庫(kù)下不同特征融合方式對(duì)比結(jié)果見表2所列,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
表2 不同特征融合方式對(duì)比結(jié)果 %
圖3 特征通道拼接方式對(duì)比圖
從實(shí)驗(yàn)結(jié)果可知,無論是特征逐元素相加模型E1還是決策層融合模型E2,其在庫(kù)內(nèi)及跨庫(kù)測(cè)試的表現(xiàn)均差于本文采取的特征通道拼接融合模型。分析其原因有如下2點(diǎn):① 特征逐元素相加需滿足各個(gè)特征向量語義相似的先驗(yàn)條件,而本文算法提取的空域、頻域和時(shí)域特征在特征語義上存在一定差異,DFT頻譜丟失了位置信息,而光流圖是反映運(yùn)動(dòng)信息;② 決策層融合方式往往在多個(gè)分類器性能相當(dāng)?shù)那闆r下表現(xiàn)較好,但本文的DFT分支和光流分支信息不全面,獨(dú)立檢測(cè)性能弱于RGB分支。另外,特征通道拼接方式可以最大程度地保留多域篡改信息,得到信息更豐富、魯棒性更強(qiáng)的分類特征,因此模型的庫(kù)內(nèi)和跨庫(kù)性能均得到改善。
為了對(duì)本文算法進(jìn)行全面評(píng)估,選取近年來發(fā)表的6個(gè)國(guó)內(nèi)外篡改檢測(cè)算法[1-3,6,13,20]進(jìn)行對(duì)比,其中文獻(xiàn)[20]針對(duì)GANs(生成式對(duì)抗網(wǎng)絡(luò))假臉檢測(cè)提出了3個(gè)輕量級(jí)網(wǎng)絡(luò),本文選用ShallowNetV1用于換臉檢測(cè)。選用ShallowNetV1而非V2、V3是為了避免網(wǎng)絡(luò)過淺導(dǎo)致無法提取穩(wěn)定的檢測(cè)特征。
(1)HTER比較。不同算法在DFD(C23)數(shù)據(jù)庫(kù)和FF++(C0&C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的庫(kù)內(nèi)及跨庫(kù)測(cè)試結(jié)果分別見表3、表4所列。表3中,本文算法在庫(kù)內(nèi)測(cè)試達(dá)到最優(yōu),HTER為1.6%。在跨FF++(C0)、FF++(C23)、TIMIT和FFW庫(kù)測(cè)試時(shí),除了MISLnet[2],本文算法的表現(xiàn)均優(yōu)于其他算法,雖然MISLnet在FF++(C0)和FF++(C23)數(shù)據(jù)庫(kù)上表現(xiàn)略優(yōu)于本文算法,但在其他測(cè)試條件下HTER性能均不如本文算法。
表3 不同算法在DFD(C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的HTER %
表4 不同算法在FF++(C0&C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的HTER %
在表4中,無論是庫(kù)內(nèi)還是跨庫(kù),本文算法的HTER值一直位于較低的水平,說明其誤差小,總體表現(xiàn)穩(wěn)定。其他所有算法在庫(kù)內(nèi)和跨庫(kù)的HTER值均起落劇烈,說明它們的檢測(cè)特征隨庫(kù)的不同變化大,檢測(cè)誤差不夠穩(wěn)定,泛化性能不好。
(2)AUC比較。不同算法在DFD(C23)數(shù)據(jù)庫(kù)和FF++(C0&C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的庫(kù)內(nèi)及跨庫(kù)測(cè)試AUC柱形圖分別如圖4、圖5所示。與其他算法相比,本文算法在庫(kù)內(nèi)及跨庫(kù)測(cè)試時(shí)達(dá)到最高或接近最高的AUC值,且在2個(gè)不同數(shù)據(jù)庫(kù)訓(xùn)練的模型跨庫(kù)測(cè)試表現(xiàn)更為穩(wěn)定,與上述HTER指標(biāo)比較結(jié)果一致,驗(yàn)證了本文算法性能優(yōu)良且跨庫(kù)穩(wěn)定性好。
圖4 不同算法在DFD(C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的AUC柱形圖
圖5 不同算法在FF++(C0&C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的AUC柱形圖
(3)復(fù)雜度比較。本文在相同的實(shí)驗(yàn)環(huán)境下,選取浮點(diǎn)運(yùn)算次數(shù)(floating-point operations,FLOPs)和平均幀檢測(cè)時(shí)間來評(píng)估算法的復(fù)雜度,見表5所列,其中FLOPs以百萬(M)為單位,平均幀檢測(cè)時(shí)間以ms(毫秒)為單位。具體選取FF++數(shù)據(jù)庫(kù)中100段平均時(shí)長(zhǎng)15 s的視頻進(jìn)行測(cè)試,并計(jì)算模型測(cè)試總時(shí)長(zhǎng),主要包括特征圖像提取和結(jié)果判決2個(gè)步驟,最后根據(jù)測(cè)試總時(shí)長(zhǎng)和測(cè)試總幀數(shù)計(jì)算平均幀檢測(cè)時(shí)間。
表5 不同算法的復(fù)雜度
與其他算法相比,本文算法因使用了多路卷積神經(jīng)網(wǎng)絡(luò)提取多域卷積特征,FLOPs相對(duì)有所增加,但少于FFD-VGG16[3]。同時(shí)由于本文算法需要額外計(jì)算DFT頻譜圖和光流圖作為網(wǎng)絡(luò)輸入,平均幀檢測(cè)時(shí)間相對(duì)較長(zhǎng)。但從HTER和AUC指標(biāo)比較看,本文算法的泛化性能更為穩(wěn)定。犧牲部分FLOPs和檢測(cè)時(shí)間來提高模型的檢測(cè)精度及穩(wěn)定性,在實(shí)際應(yīng)用場(chǎng)景中有一定意義。
本文用消融實(shí)驗(yàn)(C1、C2、C3、C4、Full)來驗(yàn)證算法各組成部分的有效性。消融實(shí)驗(yàn)C1使用了RGB分支,將RGB圖像輸入Xception網(wǎng)絡(luò)進(jìn)行訓(xùn)練;消融實(shí)驗(yàn)C2在C1的基礎(chǔ)上添加了DFT特征分支構(gòu)建雙流網(wǎng)絡(luò)進(jìn)行訓(xùn)練;消融實(shí)驗(yàn)C3在C1的基礎(chǔ)上添加了光流特征分支構(gòu)建雙流網(wǎng)絡(luò)進(jìn)行訓(xùn)練;消融實(shí)驗(yàn)C4利用3個(gè)特征分支構(gòu)建多路卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;消融實(shí)驗(yàn)Full在C4的基礎(chǔ)上,在各支路添加了通道注意力模塊進(jìn)行訓(xùn)練,即本文算法模型,具體設(shè)置見表6所列。實(shí)驗(yàn)均采取特征通道拼接的方式實(shí)現(xiàn)各支路特征融合,DFD(23)訓(xùn)練數(shù)據(jù)庫(kù)下消融實(shí)驗(yàn)結(jié)果見表7所列。
表6 消融實(shí)驗(yàn)設(shè)置
表7 消融實(shí)驗(yàn)結(jié)果 %
表7中,由C1、C2、C3的實(shí)驗(yàn)結(jié)果可知,在RGB分支的基礎(chǔ)上,添加了DFT特征分支和光流特征分支的模型在FF++(C0)數(shù)據(jù)庫(kù)、FF++(C23)數(shù)據(jù)庫(kù)和TIMIT數(shù)據(jù)庫(kù)的跨庫(kù)測(cè)試HTER均有不同程度的降低,表明DFT特征和光流特征的引入對(duì)提高模型的跨庫(kù)檢測(cè)性能具有積極作用。
由C2、C3、C4的實(shí)驗(yàn)結(jié)果可知,消融實(shí)驗(yàn)C4通過多域特征拼接融合的方式,有效降低了模型在FF++(C23)數(shù)據(jù)庫(kù)、TIMIT數(shù)據(jù)庫(kù)和FFW數(shù)據(jù)庫(kù)的跨庫(kù)HTER,驗(yàn)證了多域特征融合的有效性,但在庫(kù)內(nèi)和FF++(C0)跨庫(kù)測(cè)試中HTER有所升高,可能的原因是直接將多域特征拼接融合存在語義特征不一致的問題而影響融合后分類特征的魯棒性。
對(duì)比消融實(shí)驗(yàn)C4和Full的實(shí)驗(yàn)結(jié)果,Full通過添加通道注意力模塊進(jìn)一步降低了模型的庫(kù)內(nèi)及跨庫(kù)測(cè)試HTER,表明引入SE通道注意力機(jī)制有效提高了模型對(duì)多域篡改信息的提取能力,從而保證了融合后分類特征的魯棒性。
本文算法在DFD(C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的庫(kù)內(nèi)及跨庫(kù)測(cè)試ROC曲線如圖6所示。
圖6 本文算法在DFD(C23)數(shù)據(jù)庫(kù)訓(xùn)練模型的ROC曲線
庫(kù)內(nèi)測(cè)試性能很好,AUC高達(dá)99.9%,同時(shí)在對(duì)多個(gè)數(shù)據(jù)庫(kù)進(jìn)行跨庫(kù)測(cè)試時(shí),ROC曲線分布相近且較接近左上角,驗(yàn)證了算法泛化性能良好。
本文基于多特征融合的思想,提出了一種基于多域特征融合的換臉視頻檢測(cè)算法,通過融合從空域、頻域和時(shí)域分別提取的特征來豐富特征表示,使分類的魯棒性更強(qiáng)。與其他同類方法相比,在保持良好庫(kù)內(nèi)檢測(cè)性能的同時(shí),有效提升了模型的泛化性能及穩(wěn)定性。本文算法探索了將手工提取特征與深度學(xué)習(xí)網(wǎng)絡(luò)有效結(jié)合的方式,實(shí)驗(yàn)結(jié)果驗(yàn)證了拓寬特征來源、擴(kuò)大特征表征范圍是解決換臉視頻檢測(cè)算法泛化性能瓶頸的有效技術(shù)路徑。后續(xù)研究可基于本文算法框架,進(jìn)一步篩選和引入?yún)^(qū)分度更強(qiáng)的篡改檢測(cè)特征支路,同時(shí)也可對(duì)各支路特征提取網(wǎng)絡(luò)進(jìn)行優(yōu)化。